基于数据挖掘的葡萄酒质量识别
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
承诺书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。
我们参赛选择的题号是(从A/B/C/D中选择一项填写): A
我们的参赛报名号为(如果赛区设置报名号的话):
所属学校(请填写完整的全名):装甲兵工程学院
参赛队员(打印并签名) :1. 刘戎翔
2. 罗辉
3. 谭立冬
指导教师或指导教师组负责人(打印并签名):陈建华
日期: 2012 年 9 月 9 日赛区评阅编号(由赛区组委会评阅前进行编号):
编号专用页
赛区评阅编号(由赛区组委会评阅前进行编号):
全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):
基于数据挖掘的葡萄酒质量识别
摘要
随着我国葡萄酒业的逐步发展,葡萄酒生产企业的规模和数量不断扩大。但中国的葡萄酒业仍面临着进口酒的激烈竞争以及质量检测体系不明确带来的市场紊乱。针对这些问题,本文分析了葡萄酒质量人工品尝存在的不足,并提出了如何提高基于数据挖掘技术的葡萄酒质量等级的识别率,对中国葡萄酒市场的稳定发展以及更好地酿造出高质量的葡萄酒有着实际的应用价值。在数据挖掘中,经常会遇到不平衡数据的分析。相对于多数类来说,少数类样本对准确率的影响力小,这意味着对所有样本进行分类,可以在不识别出任何少数类样本的情况下得到很高的正确率,识别少数类的分类规则也就被忽略了。本文的创新点在于从不平衡样本中提取平衡样本进行建模并对测试样本预测,进行多次的循环,得到多次的预测结果,选择次数出现最多的预测结果作为最终的预测结果,大大提高了低质量葡萄酒的识别率。
基于此抽样建模方法,本文首先对判别分析、支持向量机、分类回归树以及随机森林在葡萄酒质量识别能力进行了比较分析,其中随机森林的预测效果最好,整体识别率以及低质量葡萄酒识别率最高,且模型较为稳定;其次,采用随机森林确定变量重要性,变量重要性排序结果发现,硫酸钾和酒精的重要性最高,硫酸钾和酒精的含量增加,更容易使得此种葡萄酒质量的提升,为酿造师酿造出更好的葡萄酒提供重要的信息;最后,本文将异常点的检测方法应用于进口酒的低质量葡萄酒的检测,遗憾的是,低质量葡萄酒的识别程度有限,仅识别出30%左右的低质量葡萄酒样本,只能辅助低质量葡萄酒的识别,实证结果表明,基于异常样本的低质量葡萄酒的识别率提高了。
本文的主要内容及创新点:本文的主要工作及创新点如下:
1.研究分析了传统葡萄酒质量品鉴方法存在的不足,提出了进行智能识别葡萄酒质量的必要性;
2.将多种数据挖掘分类方法应用于葡萄酒质量识别,比较各方法的差异及优势。
3.对实证研究中出现少数类样本识别率低的情况,提出通过多次特定随机采样,建立多个模型预测样本类别,对每类样本的预测结果进行统计,以最大的样本类别预测结果作为此样本的预测结果,大大提高了模型的稳定性和预测的局部优化功能,解决了葡萄酒质量识别出现的尴尬问题,即非平衡样本中,少数类样本未被识别。
4.异常点的检测方法应用于检测低质量葡萄酒的检测,辅助和完善低质量葡萄酒的识别结果。
5.本文是通过结合先进的统计软件R语言和数学计算软件matlab对数据进行分析处理,继而建立模型对样本进行预测,特别是R语言,在计算的性能上更优于matlab,更节省时间和计算空间。
关键词:葡萄酒质量识别,判别分析,支持向量机,分类回归树,随机森林,异常点检测。
一、问题重述
伟大的科学家伽利略说过:“.一切推理都必须从观察与实验得来”。以往的葡萄酒一直靠感官品尝来判定其质量的好坏,并且要求品尝者是训练有素的品酒专家。但是,感官品尝结果受到多种因素的影响,如品酒专家的职业水平、个人喜好以及葡萄酒的温度等等都会影响到葡萄酒评价的结果。葡萄酒品尝在国内尚不普遍,训练有素的专家品酒师也有限。况且酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,而且葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。根据题意及所给数据,本文需要解决的问题有:
(1) 两组评酒员的评价结果有无显著性差异,哪一组结果更可信?
(2) 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。 (3) 分析酿酒葡萄与葡萄酒的理化指标之间有哪些联系? (4) 分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和
葡萄酒的理化指标来评价葡萄酒的质量?
二、模型假设
⑴不考虑元素间的相互作用的影响
⑵短期内重金属元素的物理、化学变化及迁移对周围环境影响不大 ⑶假设附录中所给8种重金属元素的背景值真实 ⑷不考虑历史沉积的重金属的影响
三、符号说明
i x 第i 种元素在第j 个采样点的浓度(8,...2,1=i )
; x 第i 种元素浓度的平均值(8,...2,1=i );
i x ' 第i 种元素在第j 个采样点无量纲化后的数值(5,...2,1=j ); i P 第j 个功能区重金属i 的单项污染指数(5,...2,1=j ); i C 第j 个功能区重金属i 含量的实测值(5,...2,1=j )
; D 污染距离积;
h 污染源位置与已知采样点的距离;
()()()i y i x , 给定采样点的坐标;