第7章 聚类分析(王斌会)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
问题:使用31个省、市、自治区调查资料对区域消 费做类型划分,并作出聚类分析图。
5 - 15
程序实现 plot(d7.2) library(mvstats) H.clust(d7.2,"euclidean","single",plot=T)# 最短 距离法
5 - 16
7.4 kmeans聚类法
1.基本思想
γ -1/2 1/2 0 0 0 0
结论:六种系统聚类法的并类原则和过程完全相同, 不同之处在于类与类之间的距离定义不同。
5 - 13
(7)程序实现
hc<-hclust(dist(X),method="single") #最短距离法 cbind(hc$merge,hc$height) #分类过程 plot(hc) #聚类图
未 分 完
重新计算有变化簇均值,如C中新的 中心点与之前A中的中心点相比 变化极小,则迭代结束 分完 生成聚类图 5 - 18
3.随机模拟实验
x1=matrix(rnorm(10000,mean=0,sd=0.3),ncol=10) #均值1,标准差为0.3 的1000x10的正态随机数矩阵 x2=matrix(rnorm(10000,mean=1,sd=0.3),ncol=10) x=rbind(x1,x2) cl=kmeans(x,2) #kmeans聚类 pch1=rep("1",1000) pch2=rep("2",1000) plot(x,col=cl$cluster,pch=c(pch1,pch2),cex=0.7) points(cl$centers,col=3,pch ="*",cex=3)
问题:采用何种方法将样本或指标进行分类处理?
系统聚类法
聚类方法
5-1
快速聚类法(kmeans) 模糊聚类法
第7章 聚类分析
7.1 聚类分析的概念和类型
7.2 聚类统计量
7.3 系统聚类法
7.4 Kmeans聚类法
7.5 聚类分析的一些问题
5-2
7.1聚类分析的概念和类型
思想:研究样品或指标(变量)之间存在着程度不同 的相似性(亲疏),并按相似程度不同将指标和样品 形成一个分类系统。
5-4
马氏距离 兰氏距离 夹角余弦
1.距离-样本 (1)明氏距离
q=1,绝对值距离
公 式
(2)马氏距离
q=2,欧式距离 q=∞,切比雪夫距离
(3)兰氏距离
1 p xik x jk dij (LW) (x ij 0) p k 1 xik x jk
5-5
(4)程序实现
dist(x,method="euclidean",diag=FALSE,upper=FALSE,p=2) x 数据矩阵,数据框架 method 计算方法,“euclidean(欧式)”,“maximum(切比 雪夫)“,”manhattan(绝对数)”, “canberra(兰氏) “,”binary” or “minkowski(明氏)" diag 是否包含对角线元素 upper 是否需要上三角 p Minkowski距离的幂次 dist(X,)#欧式距离
1 2 3 6.325 5.385 4.123 2.236 4.123 4.243 1.414 5.099 5 4
2 3 4 5
dist(X,method=“manhattan ”) #绝对值距离
1 8 7 3 2 2 5 5 6 3 4
2 3 4 5 5-6
1
6 7
1
2.相似系数-指标 (1)夹角余弦 公式: (2)相关系数
5 - 12
统一递推公式
方法 αr αs β 最短距离法 1/2 1/2 0 最长距离法 1/2 1/2 0 类平均法 nr/np ns/np 0 中间距离法 1/2 1/2 -1/4 重心法 nr/np ns/np - α r αs Ward法 (nq+nr)/(nq+np) (nq+ns)/(nq+np) -nq/(nq+np)
8.实例分析
食品 北京 4934.05 天津 4249.31 河北 2789.85 山西 2600.37 内蒙古 2824.89 辽宁 3560.21 吉林 2842.68 黑龙江 2633.18 衣着 1512.88 1024.15 975.94 1064.61 1396.86 1017.65 1127.09 1021.45 设备 981.13 760.56 546.75 477.74 561.71 439.28 407.35 355.67 医疗 1294.07 1163.98 833.51 640.22 719.13 879.08 854.8 729.55 交通 2328.51 1309.94 1010.51 1027.99 1123.82 1033.36 873.88 746.03 教育 2383.96 1639.83 895.06 1054.05 1245.09 1052.94 997.75 938.21 居住 1246.19 1417.45 917.19 991.77 941.79 1047.04 1062.46 784.51 杂项 649.66 463.64 266.16 245.07 468.17 400.16 394.29 310.67
R型聚类: 相似 变量聚类 系数
5 - 21
夹角余弦 相关系数
第七章结束!
5 - 22
距离: 递推公式:
5 - 11
(5)类平均法
两类之间距离平方:两类元素两两之间的平均 基本公式:
(6)离差平方和法(Ward法)
设将n个样品分成k类G1,G2,…,Gk,用Xit表示Gi中的第i个 样品,nt为Gt中样品的个数,X t是Gt的重心,则Gt的样品离差平 方和为:
如果Gp和Gq合并为新类Gr,类内离差平方和为:
问题提出
食品 北京 4934.05 天津 4249.31 河北 2789.85 山西 2600.37 内蒙古 2824.89 辽宁 3560.21 吉林 2842.68 黑龙江 2633.18 … … 衣着 1512.88 1024.15 975.94 1064.61 1396.86 1017.65 1127.09 1021.45 … 设备 981.13 760.56 546.75 477.74 561.71 439.28 407.35 355.67 … 医疗 1294.07 1163.98 833.51 640.22 719.13 879.08 854.8 729.55 … 交通 2328.51 1309.94 1010.51 1027.99 1123.82 1033.36 873.88 746.03 … 教育 2383.96 1639.83 895.06 1054.05 1245.09 1052.94 997.75 938.21 … 居住 1246.19 1417.45 917.19 991.77 941.79 1047.04 1062.46 784.51 … 杂项 649.66 463.64 266.16 245.07 468.17 400.16 394.29 310.67 …
任选所有样本分成k类
使用欧式最小距离将某样本划入离中心 最近的类中 未分完
重新计算两个新类的中心坐标 分完
整个过程画成聚类图 优点:分类速度快,占用内存少
5 - 17
2.Kmeans聚类原理与计算
任选n个样本分成k簇 计算每个簇对象均值(中心对象), 计算每个对象与这些中心对象的距离 根据欧式最小距离对相应 对象进行划分
样本 1 2 3 … n X1 x11 x21 x21 … xn1
指 X2 x12 x22 x22 … xn2 标 … … … … … …
Xp x1p x2p x2p … xnp
Q型聚类:对样品的聚类
聚类方法 类型
5-3
R型聚类:对变量的聚类
7.2 聚类统计量
定义:用来进行类型划分的统计量,对样品进行划分 统计量为距离,对变量进行划分的统计量为相似系数。 欧式距离 距离 聚类 统计量 相似系数 相关系数
[1,] [2,] [3,] [4,]
[,1] -4 -1 -2 -3 [,2] [,3] -5 1 1 1.414 2 4.123 3 4.123
hc<-hclust(dist(X),“ward") #ward距离法 cbind(hc$merge,hc$height);plot(hc) #聚类图
[1,] [2,] [3,] [4,] 5 - 14 [,1] -4 -1 -2 2 [,2] [,3] -5 1 1 2.100 -3 4.123 3 8.356
G5
D1 G1 G2 G1 0 G2 G3 G6 D2 G2 G2 0 G3 G7 G3 4.12 0 G7 4.12 4.24 0 0 G3 4.12 0 G6
0
6.32 5.38
1.41 4.12 4.24 0
4
5
1
2 3
5 - 10
(3)中间距离法 取最短距离和最长距离的折中:
设Gr={Gp,Gq},则: (4)重心法
Gp与Gq合并为Gr后,Gr 与其它类Gs之间距离:
(2)最长距离法
距离:
Gp与Gq合并为Gr后,பைடு நூலகம்r 与其它类Gs之间距离:
5-9
(1)最短距离法分析过程
D0 G1 G2 G1 0 G2 G3 G4 0 G3 4.12 0 G4 G5 6.32 5.38 2.23 1.41 4.12 5.09 4.24 5.00 0 1.00
(3)距离和相关系数转换
2 2 dij 1 Cij
5-7
7.3 系统聚类法
1.基本思想 n个样本分成n类 取 距 离 方 法 最短距离 最长距离 类平均法 重心法 中心距离法 离差平方和法 (Ward法)
计算任何两类距离
最小距离归为1类 整个过程画成聚类图
5-8
2.系统聚类法计算公式 (1)最短距离法 距离:
结论:Kmeans准确将均值 为0和1的两类数据聚类开, 体现了其准确性和快速性, 采用系统聚类则可能死机。
5 - 19
7.5 聚类分析中的一些问题
1.特点
综合性、形象性和客观性
只能在类数和平均值被定义的情况下才使用
5 - 20
欧式距离 Q型聚类: 样品聚类 距离 聚 类 分 析 马氏距离 兰氏距离 系统聚类法 快速聚类法 (kmeans)