田间试验与统计方法12 聚类与主成分分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

两种聚类没有什么本质区别,实际中人们更感兴趣 的通常是根据变量对样本进行分类(Q型聚类)。
什么是聚类分析?
(按什么分类)
按对象的“相似”程度分类; 根据样本的观测数据测度变量之间的相似性 程度可以使用夹角余弦、 Pearson 相关系数 等工具,也称为相似系数;

变量间的相似系数越大,说明它们越相近;
K-均值聚类
(步骤)
第 3 步:根据确定的 K 个初始聚类中心,依次计 算每个样本到 K个聚类中心的距离欧氏距离,并 根据距离最近的原则将所有的样本分到事先确定 的K个类别中; 第 4 步:根据所分成的 K 个类别,计算出各类别 中每个变量的均值,并以均值点作为新的 K个类 别中心。根据新的中心位置,重新计算每个样本 到新中心的距离,并重新进行分类;
K-均值聚类的应用
(实例分析)
数据标准化(SPSS)
【Analyze】【Descriptive Statistics】 【Descriptives】主对话框 将需要标准化的变量选入【Variable(s)】 【 Save standardized values as variables】 【OK】
根据变量来测度样本之间的相似程度则使用 “距离”;

把离得比较近的归为一类,而离得比较远的放在 不


聚类分析中是用“距离”或“相似系数”来度量对象 之间的相似性; 31个地区的PM 2.5 数据就是直线上的31个点,每一 个点对应一个地区; 如果按照PM 2.5对它们进行分类,就可以把在直线上 离得比较近的那些点归为一类。如果再考虑太阳辐射 ,那么PM 2.5和太阳辐射就是二维平面上的一个点, 31个地区就是平面中的31个点 ; 多个样本就是高维空间中的一个点,31个地区就是高 维空间中的31个点; 各个点之间距离的远近就是分类的依据.
K-均值聚类的应用
(实例分析)
分成4类的迭代过程
该表从表中可以看出每次迭代过程中类别中心的变化,随着迭代次数
的增加,类别中心点的变化越来越小。本例只4次就已经收敛了
K-均值聚类的应用
(实例分析)
分成4类的最终聚类中心
表中的数据表示各个类别在各变量上的平均值。如,第一类的2.88521
表示被分到第一类的地区(北京和上海)标准化后的人均GDP平均值

K-均值聚类的应用
(实例分析)
【例】根据我国 31 个省市自治区 2006 年的 6 项主 要经济指标数据,采用系统聚类法进行分类 ,并对结果进行分析。
31个地区的6项经济指标
K-均值聚类的应用
(实例分析)
数据检查

若原始变量取值差异较大,应先将原始数据进行标准化, 避免变量值差异过大对分类结果的影响 可以先观察6项经济指标的有关描述统计量
三、系统聚类
(hierarchical cluster)
系统聚类又称层次聚类;
事先不确定要分多少类,而是先把每一个 对象作为一类,然后一层一层进行分类; 根据运算的方向不同,系统聚类法又分为 合并法和分解法,两种方法的运算原理一 样,只是方向相反。
系统聚类
(合并法)
将每一个样本作为一类,如果是k个样本就分k成类; 按照某种方法度量样本之间的距离,并将距离最近的 两个样本合并为一个类别,从而形成了k-1个类别; 再计算出新产生的类别与其他各类别之间的距离,并 将距离最近的两个类别合并为一类。这时,如果类别 的个数仍然大于1,则继续重复这一步,直到所有的类 别都合并成一类为止; 总是先把离得最近的两个类进行合并:
K-均值聚类
(步骤)
第5步:重复第4步,直到满足终止聚类条件为止;

迭代次数达到研究者事先指定的最大迭代次数 (SPSS 隐 含的迭代次数是10次); 新确定的聚类中心点与上一次迭代形成的中心点的最大 偏移量小于指定的量(SPSS隐含的是0.02);
第 6 步:方差分析,看各变量在不同类别之间的 差异是否显著; K-均值聚类法是根据事先确定的 K个类别反复迭代直 到把每个样本分到指定的里类别中。类别数目的确 定具有一定的主主观性,究竟分多少类合适,需要 研究者对研究问题的了解程度、相关知识和经验;


合并越晚的类,距离越远; 事先并不会指定最后要分成多少类,而是把所有可能的分类 都列出,再视具体情况选择一个合适的分类结果;
系统聚类
(分解法)
分解方法原理与合并法相反; 先把所有的对象(样本或变量)作为一大类,然 后度量对象之间的距离或相似程度,并将距 离或相似程度最远的对象分离出去,形成两 大类(其中的一类只有一个对象); 再度量类别中剩余对象之间的距离或相似程 度,并将最远的分离出去,不断重复这一过 程,直到所有的对象都自成一类为止; SPSS中只提供了合并法。

31个地区的6项经济指标的标准化
K-均值聚类的应用
(实例分析)
分成4类的初始聚类中心
该表列出每一类别的初始聚类中心,本例的这些中心是由SPSS自动生
成的,它实际上就是数据集中的某一条记录。聚类中心的选择原则是中心 点距离其他点尽可能远。例如,第一类的聚类中心是 3.17960 ,这实际上 就是上海的人均 GDP 标准化后的值。第二类聚类中心是 1.83293则是天津 的标准化人均GDP,等等
,第三类包括4个地区,第四类包括14个地区
K-均值聚类的应用
(实例分析)
分 成 4 类 时 每 个 地 区 所 属 的 类 别
K-均值聚类的应用
(分类汇总)
类别 第一类 第二类 第三类 上海,北京 天津,内蒙古,吉林,海南,重庆,贵 州,西藏,甘肃,青海,宁夏,新疆 江苏,浙江,山东,广东 河北,山西,辽宁,黑龙江,安徽,福 建,江西,河南,湖北,湖南,广西, 四川,云南,陕西 地区 地区个数 2 11 4
相似性的度量
(样本点间距离的计算方法)
Euclidean距离
2 ( x y ) i i i 1 p
Squared Euclidean距离
Block距离 Chebychev距离 Minkovski距离
(x
i 1
p
p
i
yi )
2
x
i 1
i
yi
max xi yi
q
x
i 1




实际例子
校准化 (Z)——消除量纲和数量级的影响
其它标准化方法
Z Scores:标准化后均值为0,标准差为1, 其转化函数为: Range -1 to 1: 每个变量值除以该变量组 的全距; Range 0 t0 1:每变量减最小值后除以该 变量组的全距;极差标准化 最大值为1:每变量除以该变量组的最 大值; 均值为1:每变量除以该变量组的平均 值; 标准差为1:每变量除以该变量组的标 准差。 中心标准化、对数标准化、平方根标 准化等等
K-均值聚类
(步骤)
第1步:确定要分的类别数目K


需要研究者自己确定; 在实际应用中,往往需要研究者根据实际问题反复尝试 ,得到不同的分类并进行比较,得出最后要分的类别数 量;

第2步:确定K个类别的初始聚类中心



要求在用于聚类的全部样本中,选择K个样本作为K个类 别的初始聚类中心; 与确定类别数目一样,原始聚类中心的确定也需要研究 者根据实际问题和经验来综合考虑; 使用SPSS进行聚类时,也可以由系统自动指定初始聚类 中心;
K-均值聚类的应用
(实例分析)
分类后各个变量在类别之间的方差分析表
利用方差分析表可以判断所分的类别是否合理。从表中可以看出,分
类后各变量在不同类别之间的差异都是显著的(P值均接近0)
K-均值聚类的应用
(实例分析)
分成4类时每一类的地区数量
由该表可以看出,第一类包括2个地区,第二类包括11个地区
什么是聚类分析?
(两种分类方式)
聚类分析的“对象”可以是所观察的多个样本,也 可以是针对每个样本测得的多个变量; 按照变量对所观察的样本进行分类称为Q型聚类

按照多项指标(变量)对不同的地区(样本)进行分类;
按照样本对多个变量进行分类,则称为R型聚类

按照不同地区的样本数据对多个变量进行分类;
类间距离的计算方法
在系统聚类法中,当类别多于1个时,就涉及 到如何定义两个类别之间的距离问题; 计算类间距离(与上面介绍的点间距离不同)的 方法有很多,不同方法会得到不同的聚类结 果; 实 际 中 较 常 用 的 是 离 差 平 方 和 法 (Ward‟s method),又称Ward法。
系统聚类
聚类结果
解读
四、K-均值聚类
(K-means cluster)
系统聚类事先不需要确定要分多少类,聚类过程 一层层进行,最后得出所有可能的类别结果,根 据具体情况确定最后需要的类别。该方法可以绘 制出树状聚类图,方便使用者直观选择类别,但 其缺点是计算量较大,对大批量数据的聚类效率 不高; K-均值聚类事先需要确定要分的类别数据,计算 量要小得多,效率比系统聚类要高,也被称为快 速聚类(quick cluster)。
第四类
14
聚类分析的注意事项
除系统聚类法和K-均值聚类法外,1996年还提出一种新的 聚类方法,即两步聚类法 (TwoStep Cluster)(SPSS 提供 了该聚类方法的程序); 无论那种分类方法,最终要分成多少类别,并不是完全由 方法本身来决定,研究者应结合具体问题而定;
相似性的度量
(样本点间距离的计算方法)
在对样本进行分类时,度量样本之间的相似 性使用点间距离。 点间距离的计算方法主要有




欧氏距离(Euclidean distance) 平方欧氏距离(Squared Euclidean distance) Block距离(Block distance) Chebychev距离(Chebychev distance) 马氏距离(Minkovski distance) 最常用的是平方欧氏距离
类间距离的计算方法
最短距离法 (Nearest neighbor) 最长距离法 (Furthest neighbor) 重心法 (Centroid clustering) 组间平均距离 (Between-groups linkage) 离差平方和法 (Ward‟s method)
Dkl
Dkl
p
i
yi
q
相似性的度量
(变量相似系数的计算方法)
在对变量进行分类时,度量变量之间的相似 性常用相似系数,测度方法有
cos xy
x y
i i i i
i
夹角余弦
2 2 x y i i
Pearson相关系数
rxy
(x
i i
i
x )( y i y )
i
2 2 ( x x ) ( y y ) i i
xi Gk , x j Gl
min d ij
xi Gk , x j Gl
max d ij
2 Dkl ( xk xl )( xk xl )
1 Dkl nk nl
2 kl
xi Gk xi Gl
d
ij
D Wm Wk Wl
类间距离的计算方法
Nearest neighbor(最短距离法)—用两个类别中各个 数据点之间最短的那个距离来表示两个类别之间的距 离; Furthest neighbor(最长距离法)—用两个类别中各个 数据点之间最长的那个距离来表示两个类别之间的距 离; Centroid clustering(重心法)—用两个类别的重心之 间的距离来表示两个类别之间的距离; between-groups linkage( 组间平均距离法 )—SPSS 的默认方法。是用两个类别中间各个数据点之间的距 离的平均来表示两个类别之间的距离; Ward„s method(离差平方和法)—使各类别中的离差 平方和较小,而不同类别之间的离差平方和较大。
第12章
聚类与主成分分析
第一节 聚类分析
第二节 主成分分析
第一节 聚类分析
一、什么是聚类分析 二、相似性的度量
三、系统聚类 四、K-均值聚类
一、什么是聚类分析?
(cluster analysis)
把“对象”分成不同的类别

这些类不是事先给定的,而是直接根据数据的特 征确定的;
把相似的东西放在一起,从而使得类别内部 的“差异”尽可能小,而类别之间的“差异 ”尽可能大; 聚类分析就是按照对象之间的“相似”程度 把对象进行分类。
相关文档
最新文档