聚类分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
D(3)
Hale Waihona Puke Baidu表4
D(3) G7={X4,X5 } G8={X1, X2,X3} G7 0 8 0 G8
6.中间距离法Median method
如果在某一步将类Gp与Gq类合并为Gr,任一类Gk和新 Gr的距离公式为:
当
时,由初等几何知就是上面三角形的中线。
D2(0)
G1={X1}
G1
0
G2
G3
对指标(变量)分类(R型)
设Cij表示变量Xi与Xj间的相似系数,一般 相似系数应满足如下三个条件: 1.|Cij|≤1 2.Cij=〒1 3.Cij=Cji 对一切i,j; 当且仅当Xi=aXj
(a≠0是一个常数);
对一切i,j。
相似系数的定义
夹角余弦(Cosine)
相似矩阵
变量间相似矩阵
计算n个样品两两之间的距离,构成距离矩阵 合并距离最近的两类为一新类 计算新类与当前各类的距离。再合并、计算 ,直至只有一类为止
画聚类图,解释
类与类之间的距离
1.最短距离法(single linkage) 2.最长距离法(complete linkage) 3.重心法(centroid method) 4.平均连接(average-groups linkage) 5.离差平方和法(Ward's method) 6.中间距离法(median method)
4 Clusters 1 1 2 2 2 2 2 2 1 2 2 3 2 2 2 2 2 2 2 2 2 2 3 3
25:Case 25
26:Case 26 27:Case 27 28:Case 28
4
2 3 3
29:Case 29
3
本例聚为四类:
第一类:北京、天津、上海,文化程度较高
的地区。 第三类:贵州、云南、甘肃、青海、安徽、 宁夏,文化程度较落后的地区。 第四类:西藏,文化程度最落后地区。 第二类:其他省、市、自治区,文化程度中 等水平的地区。
0
4 0
D2(2)
G7
G7
0
G4
G5
G4
G5
20.25
42.25
0
4 0
D2(3)
G7={X1, X2,X3} G8={X4,X5 }
G7
0 30.25
G8
0
3.重心法
(Centroid clustering): 类类间:两类重心之间的距离即均 值点间的距离
•
•
注意:初始距离用欧式距离则有下列
2 3 4 5 6 7 8 9 样品 1 身高 160 159 160 157 169 162 165 154 160 X1 体重 49 46 53 41 49 50 48 43 45 X2
二、相似系数
研究样品间的关系常用距离,研究指标( 变量)间的关系常用相似系数。 相似系数常用的有:夹角余弦与相关系数
皮尔逊相关系数(Pearson correlation)
变量Xi与Xj
相似矩阵
三、数据的标准化
i=1,2,┈,n;j=1,2,┈,p
第二节 聚类方法
clustering method
一、系统聚类法 (Hierarchical Cluster Methods)
系统聚类法按下列步骤进行:
将n个样品各作为一类
递推公式
D2(0)
G1
G2
G3
G4
G5
G1={X1}
序号
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
地区
北京 天津 河北 山西 内蒙 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 河南 湖北 湖南 广东 广西 海南 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏
5.5
2
0
D(3)
D(3) G7={X1, X2,X3} G8={X4,X5} G7 0 3.5 0 G8
聚类谱系图
案例1:为了更深入了解我国人口的文化程 度状况,现利用1990年全国人口普查数据见表 3-1所示,对全国30个省、直辖市、自治区进 行聚类分析。分析选用了三个指标:(1)大 学以上文化程度的人口占全部人口比例(DXBZ); (2)初中文化程度的人口占全部人口的比例 (CZBZ) ;(3)文盲半文盲人口占全部人口的 比例(WMBZ)。分别用来反应较高、中等、较低 文化程度人口的状况。
G5={X5} 8
7
5.5
2
0
D(1)
D(1) G6={X1, X2} G3={X3} G4={X4} G5={X5} G6 0 1.5 5 7 0 3.5 5.5 0 2 0 G3 G4 G5
D(2)
D(2) G7={X1, X2,X3} G4={X4} G7 0 3.5 0 G4 G5
G5={X5}
G5={X5}
8
7
5.5
2
0
表2
D(1) G6={X1, X2} G3={X3} G4={X4} G5={X5} G6 0
D(1)
G3 G4 G5
2.5 6 8
0 3.5 5.5 0 2 0
D(2)
表3
D(2) G6={X1, X2} G7={X4,X5} G3={X3} G6 0 8 2.5 0 5.5 0 G7 G3
DXBZ
9.30 4.67 0.96 1.38 1.48 2.60 2.15 2.14 6.53 1.47 1.17 0.88 1.23 0.99 0.98 0.85 1.57 1.14 1.34 0.79 1.24 0.96 0.78 0.81 0.57 1.67 1.10 1.49 1.61
CZBZ
聚类分析过程选项,主对话框选择项中共有四个按钮: 1.选择要输出的统计量。在“Display”栏中,单击【 Statistics】按钮,展开统计量选择对话框。
选择聚类方法,单击主对话中的【Method】按钮,打开 “Method”对话框
选择要求输出的统计图。在主对话框中的“Display”栏中选中 “Plots”复选项,单击【Plots】按钮,展开统计图表选择对话框
选择要存入数据文件的新变量。在主对话框中按【Save】按钮, 展开选择对话框
在主对话框中按【OK】按钮,执行运算,输 出结果
Case 1:Case 1 2:Case 2 3:Case 3 4:Case 4 5:Case 5 6:Case 6 7:Case 7 8:Case 8 9:Case 9 10:Case 10 11:Case 11 12:Case 12 13:Case 13 14:Case 14 15:Case 15 16:Case 16 17:Case 17 18:Case 18 19:Case 19 20:Case 20 21:Case 21 22:Case 22 23:Case 23 24:Case 24
不同商品、不同用户及时地进行分类。
例如,当我们对企业的经济效益进行评价时,
建立了一个由多个指标组成的指标体系,由
于信息的重叠,一些指标之间存在很强的相
关性,所以需要将相似的指标聚为一类,从
而达到简化指标体系的目的。
聚类分析内容
系统聚类 动态聚类 模糊聚类 图论聚类
描述亲疏程度有两个途径: 1、把每个样品看成p维(变量的个数为 p个)空间的一个点,在p维坐标中, 定义点与点之间的距离。 2、用某种相似系数来描述样品之间的亲 疏程度。
第三章聚类分析
Cluster Analysis
什么是聚类分析
聚类分析也是一种分类技术。是研究“ 物以类聚”的一种方法。与多元分析的 其他方法相比,该方法理论上还不完善 ,但由于它能解决许多实际问题,很受 人们的重视,应用方面取得了很大成功 。
举 例
对10位应聘者做智能检验。3项指标X,Y 和Z分别表示数学推理能力,空间想象能 力和语言理解能力。其得分如下,选择合 适的统计方法对应聘者进行分类。
1、定义样品之间的距离,计算初始距离矩阵D(0)
2、找出D(0)中非对角线上的最小值,设为Dpq,将对应的
两类Gp和Gq合并成一个新类,记为Gr ,即Gr=(Gp, Gq) 3、计算新类与其它类之间的距离,得距离矩阵D(1) 。 4、用D(1)代替D(0),重复2、3的过程得D(2),如此下去 直到所有样品合并成一类为止。
聚类的种类
根据分类的对象可将聚类分析分为: (1)Q型(即样品的聚类clustering
for individuals)
(2)R型(即变量或指标的聚类 clustering for variables)
第一节 相似程度的测定
对样品分类(Q型)
常用的距离的定义
样本资料矩阵
样本资料矩阵
一、距离
2.最长距离法也称最远邻法
(Furthest Neighbor )类类间:两类间两
两样品距离最长的
• x11• •
x21•
d12
• • •
•
递推公式
D(0)
表1
D(0) G1={X1} G2={X2} G3={X3} G4={X4} G1 0 1 2.5 6 0 1.5 5 0 3.5 0 G2 G3 G4 G5
30.55 29.38 24.69 29.24 25.47 32.32 26.31 28.46 31.59 26.43 23.74 19.97 16.87 18.84 25.18 26.55 23.16 22.57 23.04 19.14 22.53 21.65 14.65 13.85 3.85 24.36 16.85 17.76 20.27
G4
G5
G2={X2}
G3={X3} G4={X4} G5={X5}
1
6.25 36 64
0
2.25 25 49 0 12.25 30.25 0 4 0
D2(1) G6={X1, X2} G3={X3}
G6 0 4
G3
G4
G5
0
G4={X4}
G5={X5}
30.25
56.25
12.25
30.25
设:dij表示样品X(i)与X(j)之间的距离, G1、G2、…表示类,
Dij表示类Gi与类Gj之间的距离。
1.最短距离法也称最近邻法 (single linkage,nearest neighbor)
x11• x12 •
d13
x21• x22•
类类间:两类间两两
样品距离最短
。
递推公式
最短距离法聚类的步骤
WMBZ
8.70 8.92 15.21 11.30 15.39 8.81 10.49 10.87 11.04 17.23 17.46 24.43 15.63 16.22 16.87 16.15 15.79 12.10 10.45 10.61 13.97 16.24 24.27 25.44 44.43 17.62 27.93 27.70 22.06
2.欧氏距离(Euclidean distance)
3.明科夫斯基距离(Minkowski metrics)
4.切贝谢夫距离(Chebyshev)
5.马氏距离(mahalanobis)
距离矩阵
样品间距离矩阵
绝对值距离实例
欧氏Euclidian距离实例
马氏距离实例
例 题
学生的身高与体重资料
假使每个样品有p个变量,则每个样品 都可以看成p维空间中的一个点,n个
样品就是p维空间中的n个点,则第i样
品与第j样品之间的距离记为dij
定义距离的准则
定义第i个和第j个样品间的距离要求满足如 下四个条件(距离可以自己定义,只要满足 距离的条件):
1.布洛克距离(Block metric)
也称绝对值距离
应聘者得分如下
应聘者 X Y Z 1 2 3 4 5 6 7 8 9 10
28 18 11 21 26 20 16 14 24 22 29 23 22 23 29 23 22 23 29 27 28 18 16 22 26 22 22 24 24 24
例如,对上市公司的经营业绩进行分类; 例如,根据经济信息和市场行情,客观地对
例1
设抽取五个样品,每个样品只侧一个指标,他
们是1,2,3.5,7,9,试用最短距离法对五个
样品进行分类。
D(0)
D(0) G1={X1}G2={X2}G3={X3}G4={X4}G5={X5} 0 1.5 5 0 3.5 0 G1={X1} 0 G2={X2} 1 G3={X3} 2.5 G4={X4} 6
第三步:单击主菜单中“Analyze”展开下拉菜单,在下拉菜单中寻 找“Classify”,弹出小菜单,在小菜单中寻找“Hierarchical Cluster”(分层聚类、系统聚类)或“K—Means Cluster”(快速 聚类)。本例选“Hierarchical Cluster”,展开聚类分析对话 框,。