第12章 聚类分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Page 6
p
(xi yi )2
i1
p
(xi yi )2
i 1
p
xi yi
i 1
max xi yi
p
q
xi yi q
i 1
STATA从入门到精通
相似性的度量 (变量相似系数的计算方法)
在对变量进行分类时,度量变量之间的相似性常用相似 系数,测度方法有
夹角余弦 Pearson相关系数
用夹角余弦、Pearson相关系数等工具,也称为相似系数 变量间的相似系数越大,说明它们越相近 根据变量来测度样本之间的相似程度则使用“距离” 把离得比较近的归为一类,而离得比较远的放在不
同的类
Page 5
STATA从入门到精通
相似性的度量 (样本点间距离的计算方法)
Euclidean距离
Squared Euclidean距离 Block距离 Chebychev距离 Minkovski距离
between-groups linkage(组间平均距离法)—SPSS 的默认方法。是用两个类别中间各个数据点之间的 距离的平均来表示两个类别之间的距离
Ward‘s method(离差平方和法)—使各类别中的离 差平方和较小,而不同类别之间的离差平方和较大
Page 11
STATA从入门到精通
K-均值聚类 (K-means cluster)
也被称为快速聚类(quick cluster)
Page 12
STATA从入门到精通
K-均值聚类
(步骤)
第1步:确定要分的类别数目K 需要研究者自己确定 在实际应用中,往往需要研究者根据实际问题反复 尝试,得到不同的分类并进行比较,得出最后要分 的类别数量
第2步:确定K个类别的初始聚类中心 要求在用于聚类的全部样本中,选择K个样本作为K 个类别的初始聚类中心 与确定类别数目一样,原始聚类中心的确定也需要 研究者根据实际问题和经验来综合考虑
cos xy
xi yi
i
xi2
y
2 i
i
i
(xi x)(yi y)
rxy
i
(xi x)2 (yi y)2
i
i
Page 7
STATA从入门到精通
层次聚类 (hierarchical cluster)
层次聚类又称系统聚类 事先不确定要分多少类,而是先把每一个对象作为一类
,然后一层一层进行分类 根据运算的方向不同,层次聚类法又分为合并法和分解
Page 10
STATA从入门到精通
类间距离的计算方法
Nearest neighbor(最短距离法)—用两个类别中各 个数据点之间最短的那个距离来表示两个类别之间 的距离
Furthest neighbor(最长距离法)—用两个类别中 各个数据点之间最长的那个距离来表示两个类别之 间的距离
Centroid clustering(重心法)—用两个类别的重 心之间的距离来表示两个类别之间的距离
能的分类都列出,再视具体情况选择一个合适的分 类结果
Page 9
STATA从入门到精通
层次聚类 (分解法)
分解方法原理与合并法相反 先把所有的对象(样本或变量)作为一大类,然后度量对
象之间的距离或相似程度,并将距离或相似程度最远的 对象分离出去,形成两大类(其中的一类只有一个对象) 再度量类别中剩余对象之间的距离或相似程度,并将最 远的分离出去,不断重复这一过程,直到所有的对象都 自成一类为止
Page 13
STATA从入门到精通
K-均值聚类 (步骤)
第3步:根据确定的K个初始聚类中心,依次计算每个样 本到K个聚类中心的距离欧氏距离,并根据距离最近的原 则将所有的样本分到事先确定的K个类别中
第4步:根据所分成的K个类别,计算出各类别中每个变 量的均值,并以均值点作为新的K个类别中心。根据新的 中心位置,重新计算每个样本到新中心的距离,并重新 进行分类
Page 15
STATA从入门到精通
Stata命令
matrix dissimilarity cluster、clustermat cluster kmeans、cluster kmedians cluster dendrogram
Page 16
STATA从入门到精通
本章结束,谢谢观看!
17
法,两种方法的运算原理一样,只是方向相反
Page 8
STATA从入门到精通
层次聚类 (合并法)
将每一个样本作为一类,如果是k个样本就分k成类 按照某种方法度量样本之间的距离,并将距离最近的两
个样本合并为一个类别,从而形成了k-1个类别 再计算出新产生的类别与其他各类别之间的距离,并将
距离最近的两个类别合并为一类。这时,如果类别的个 数仍然大于1,则继续重复这一步,直到所有的类别都合 并成一类为止 总是先把离得最近的两个类进行合并 合并越晚的类,距离越远 事先并不会指定最后要分成多少类,而是把所有可
Page 14
STATA从入门到精通
Hale Waihona Puke Baidu
K-均值聚类 (步骤)
第5步:重复第4步,直到满足终止聚类条件为止 迭代次数达到研究者事先指定的最大迭代次数 新确定的聚类中心点与上一次迭代形成的中心点的 最大偏移量小于指定的量
K-均值聚类法是根据事先确定的K个类别反复迭代直到把 每个样本分到指定的里类别中。类别数目的确定具有一 定的主主观性,究竟分多少类合适,需要研究者对研究 问题的了解程度、相关知识和经验
把相似的东西放在一起,从而使得类别内部的“差异” 尽可能小,而类别之间的“差异”尽可能大
聚类分析就是按照对象之间的“相似”程度把对象进行 分类
Page 3
STATA从入门到精通
什么是聚类分析? (两种分类方式)
聚类分析的“对象”可以是所观察的多个样本,也可以 是针对每个样本测得的多个变量
按照变量对所观察的样本进行分类称为Q型聚类 按照多项经济指标(变量)对不同的地区(样本)进行 分类
按照样本对多个变量进行分类,则称为R型聚类 按照不同地区的样本数据对多个经济变量进行分类
两种聚类没有什么本质区别,实际中人们更感兴趣的通 常是根据变量对样本进行分类(Q型聚类)
Page 4
STATA从入门到精通
什么是聚类分析? (按什么分类)
按对象的“相似”程度分类 根据样本的观测数据测度变量之间的相似性程度可以使
STATA 从入门到精通
第12章 聚类分析
聚类分析
13.1.1 聚类分析的基本原理 13.1.2 层次聚类 13.1.3 K-均值聚类 13.1.4 聚类分析的Stata命令
Page 2
STATA从入门到精通
什么是聚类分析? (cluster analysis)
把“对象”分成不同的类别 这些类不是事先给定的,而是直接根据数据的特征 确定的
层次聚类事先不需要确定要分多少类,聚类过程一层层 进行,最后得出所有可能的类别结果,研究这根据具体 情况确定最后需要的类别。该方法可以绘制出树状聚类 图,方便使用者直观选择类别,但其缺点是计算量较大 ,对大批量数据的聚类效率不高
K-均值聚类事先需要确定要分的类别数据,计算量要小 得多,效率比层次聚类要高,