酿酒葡萄分级的方法研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

酿酒葡萄分级的方法研究

1 模糊C均值聚类

1.1 算法描述

聚类分析的目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的,对类的数目和类的结构不必作任何假定。在同一类里的这些对象在某种意义上倾向于彼此相似,而在不同类里的对象倾向于不相似。硬聚类把每个待辨识的对象严格地划分到某类中,具有非此即彼的性质,模糊聚类由于能够描述样本类属的中介性,能够客观地反映现实世界,已逐渐成为聚类分析的主流[1-2]。在此,我们采用模糊C均值聚类的方法。模糊C均值聚类(FCM),是用隶属度确定每个数据点属于某个聚类的程度的一种算法。

FCM把n个向量x■(i=1,2,…,n)分为c个模糊组,并求每组的聚类中心,使得非相似性指标的价值函数达到最小。与引入模糊划分相适应,隶属矩阵U允许有取值在0,1间的元素。不过,加上归一化规定,一个数据集的隶属度的和总等于1:

■u■=1,?坌j=1,…,n(1)

那么,FCM的价值函数(或目标函数)就是:

J(U,c■,…,c■)=■J■=■■u■■d■■(2)

这里u■介于0,1间,c■为模糊组I的聚类中心,d■=‖c■-x■‖为第I个聚类中心与第j个数据点间的欧几里德距离;m∈[1,∞)是一个加权指数。

构造如下新的目标函数,可求得使(2)式达到最小值的必要条件:

■(U,c■,…,c■,λ■,…,λ■)=J(U,c■,…,c■)+■■■λ■(■u■-1)=■■u■■d■■+■λ■(■u■-1)(3)

这里λ■,j=1到n,是(1)式的n个约束式的拉格朗日乘子。对所有输入参量求导,使式(2)达到最小的必要条件为:

c■=■(4)

u■=■(5)

由上述两个必要条件,模糊c均值聚类算法是一个简单的迭代过程。在批处理方式运行时,FCM用下列步骤确定聚类中心c■和隶属矩阵U:步骤1:用值在0,1间的随机数初始化隶属矩阵U,使其满足式(1)中的约束条件。

步骤2:用式(4)计算c个聚类中心c■,i=1,…,c。

步骤3:根据式(2)计算价值函数。如果它小于某个确定的阀值,或它相对上次价值函数值的改变量小于某个阀值,则算法停止。

步骤4:用(5)计算新的U矩阵。返回步骤2。

上述算法也可以先初始化聚类中心,然后再执行迭代过程。由于不能确保FCM收敛于一个最优解。算法的性能依赖于初始聚类中心。因此,我们要么用另外的快速算法确定初始聚类中心,要么每次用不同的初始聚类中心启动该算法,多次运行FCM。

设被分类的对象的集合为:X={x■,x■,…,x■},其中,每一个对象x■有n个特性指标,设为x■=(x■,x■,…,x■)■,如果要把X分成c类,则它的每一个分类结果都对应一个c×N阶的Boolean矩阵U=[u■]■,对应的模糊c划

分空间为:

M■={U?奂R■|u■∈[0,1],?坌i,?坌k;■u■=1,?坌k;00 for all i=1,2,…,c

u■■=■

Otherwise

u■■=0 if d■>0,and u■■∈[0,1] with ■u■■=1

Until ‖U■-U(l-1)‖≤ε

1.2 模型的建立与求解

根据2012年全国数学建模竞赛中A题将第一组评酒员对红葡萄酒的27组样品酒评分作为样本进行聚类分析。

利用MATLAB编程对白葡萄酒的质量进行模糊C均值聚类,结果如表1所示。

根据表1的数据,求出每组数据的平均值分别为:86.5833、76.1333,可以看出白葡萄酒可分为两级,第一级为第一类数据,第二级为第二类数据。葡萄酒与葡萄是相对应的,即葡萄酒样品1对应于葡萄样品1,所以白葡萄的分级与白葡萄酒的分级一致。

对红葡萄酒的质量进行模糊C均值聚类,结果如表2所示。

表2 红葡萄酒分类

根据表2的数据求每组质量的平均值分别为:72.7143、72.5、75.75、66.7。排序可知一级为第三类、二级为第一类、三级为第二类、四级为第四类。

1.3 模型缺陷

此聚类模型只考虑了葡萄酒的质量对酿酒葡萄分级的影响,并没有考虑酿酒葡萄的理化指标,因此进一步形成主成分分析模型。

2 主成分分析

2.1 算法描述

主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的多元统计方法,这些主成分能够反映原始变量的大部分信息,通常表示为原始变量的线性组合[4]。主成分分析的基本原理为:

假定有样本,每个样本共有p个特征,构成一个n×p阶的数据矩阵:

X=x■ x■ … x■x■ x■ … x■┇┇┇┇x■ x■ … x■

当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。

相关文档
最新文档