06-4.4 聚类中的若干问题
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
星座图和安德鲁曲线图等,这些图都不太适合样品数很大的场合; Ø (2)使用费希尔判别的降维方法,将p维数据降至2(或3)维再构造散点图(或旋
转图)。 Ø 如果方法(2)能够成功,则往往更值得推荐,尤其在样品数很大的场合下。
5
v 例1 (书中例6.3.5) 在上一讲的例2中,为了从原始数据的直观图形 上来看一下按Ward方法聚成三类的效果,使用JMP软件的聚类结果中 带有的平行图(或称轮廓图)。
胸围
1.000 0.539
胸宽 1.000
8
v JMP中需将相关矩阵转换为距离矩阵。 v 令dij=1−rij,则转换成的“距离”矩阵为:
SAS中也是如此。
不满足三角不等式,故不 是真正意义上的距离。
身高 手臂长 上肢长 下肢长 体重 颈围 胸围 胸宽
身高
0.000 0.154 0.195 0.141 0.527 0.602 0.699 0.618
v 这种单调性符合系统聚类法的思想, 先合并较相似的类,后合并较疏远的 类。
v 最短距离法、最长距离法、类平均法 和离差平方和法都具有单调性,但重 心法不具有单调性。
1
2
ห้องสมุดไป่ตู้
二、使用图形作直观的聚类
v 当p=2时,可以直接在散点图上进行主观的聚类,其效果未必逊于、甚至好于正规 的聚类方法,特别是在寻找“自然的”类和符合我们实际需要的类方面。
7
v 例3 (书中例6.3.7) 对305名女中学生测量八个体型指标: 身高(x1),手臂长(x2),上肢长(x3),下肢长(x4) 体重(x5),颈围(x6),胸围(x7),胸宽(x8)
相关矩阵列于下表:
身高 手臂长 上肢长 下肢长 体重 颈围 胸围 胸宽
身高
1.000 0.846 0.805 0.859 0.473 0.398 0.301 0.382
14
胸围
0.000 0.461
胸宽
0.000
9
10
五、类的个数
v
v 如果能够分成若干个很分开的类,则类的个数就比较容易确定;反之, 如果无论怎样分都很难分成明显分开的若干类,则类个数的确定可能 就比较困难了。
11
1.给定一个阈值T
v 通过观测树形图,给出一个你认为合适 的阈值T,要求类与类之间的距离要大于 T,有些样品可能会因此而归不了类或只 能自成一类。这种方法有较强的主观性 ,这是它的不足之处。
v 例2 (书中例6.3.6) 在上一讲的例2中按Ward方法聚类,分别分成三 类和五类,使用两个费希尔判别函数的得分图。
6
四、对变量的聚类
v 最短距离法、最长距离法和类平均法都 属于连接方法,它们既可以用于样品的 聚类,也能够用于变量的聚类。
v 不过并非所有的系统聚类方法都适用于 对变量的聚类。
v
3
v 当p=3时,我们可使用统计软件产生三维旋转图,通过三维旋转从各 个角度来观测散点图,作直观的聚类。但由于其视觉效果及易操作性 远不如平面散点图,故实践中很少采用,除非样品数很少。
v 当p≥3时,有时我们可采用主成分分析(这里允许不对主成分给出解 释)或因子分析(一般只在对因子的解释感兴趣时使用,实践中很少 采用)的技术将维数降至2(或偶尔3)维,然后再生成散点图(或旋 转图),从直觉上进行主观的聚类。
手臂长
0.000 0.119 0.174 0.624 0.674 0.723 0.585
上肢长
0.000 0.199 0.620 0.681 0.763 0.655
下肢长
0.000 0.564 0.671 0.673 0.635
体重
0.000 0.238 0.270 0.371
颈围
0.000 0.417 0.423
手臂长
1.000 0.881 0.826 0.376 0.326 0.277 0.415
上肢长
1.000 0.801 0.380 0.319 0.237 0.345
下肢长
1.000 0.436 0.329 0.327 0.365
体重
1.000 0.762 0.730 0.629
颈围
1.000 0.583 0.577
12
2.观测样品的散点图
v 如果样品只有两个(或三个)变量,则可通过观测数据的(平面)散点图 (或旋转图)来主观确定类的个数。这样的图比树形图可靠、准确,故更 值得推荐。
v 如果变量个数超过三个,则可对每一可能考虑的聚类结果,将所有样品的 前两个(或三个)费希尔判别函数得分制作成散点图(或旋转图),目测 类之间是否分离得较好。
多元统计分析mooc44聚类中的若干问题一系统聚类法的单调性这种单调性符合系统聚类法的思想先合并较相似的类后合并较疏远的最短距离法最长距离法类平均法和离差平方和法都具有单调性但重心法不具有单调性
《多元统计分析》MOOC
4.4 聚类中的若干问题
王学民
一、系统聚类法的单调性
v 令Di是系统聚类法中第i次并类时的距 离,如果一种系统聚类法能满足 D1≤D2≤D3≤⋯ ,则称它具有单调性。
v 如分离得好,则说明所确定的类个数能保证各类有明显差异。如分离得不 好,则一般就不易下结论。比如,如果分4类时能判断各类分离得较好,而 分5类时各类分离得如何不易判断,则一般倾向于选择类的个数为4。
13
v 例4 (书中例6.3.8) 在例2中,两个图分别显示分三类和五类都是合 适的。最终到底分为几类还需综合考虑,该例分成三类似乎更符合实 际的需要。
4
三、使用图形对聚类效果的评估
v 经聚类分析已将类分好之后,常常希望从统计的角度看一下聚类的效果:不同类 之间是否分离得较好,同一类内的样品(或变量)是否彼此相似。
v 通常可通过构造图形作直观的观测,所使用的图形有如下两种: Ø (1)将p维数据画于平面图上,方法有平行(坐标)图、星形图、切尔诺夫脸谱图、
转图)。 Ø 如果方法(2)能够成功,则往往更值得推荐,尤其在样品数很大的场合下。
5
v 例1 (书中例6.3.5) 在上一讲的例2中,为了从原始数据的直观图形 上来看一下按Ward方法聚成三类的效果,使用JMP软件的聚类结果中 带有的平行图(或称轮廓图)。
胸围
1.000 0.539
胸宽 1.000
8
v JMP中需将相关矩阵转换为距离矩阵。 v 令dij=1−rij,则转换成的“距离”矩阵为:
SAS中也是如此。
不满足三角不等式,故不 是真正意义上的距离。
身高 手臂长 上肢长 下肢长 体重 颈围 胸围 胸宽
身高
0.000 0.154 0.195 0.141 0.527 0.602 0.699 0.618
v 这种单调性符合系统聚类法的思想, 先合并较相似的类,后合并较疏远的 类。
v 最短距离法、最长距离法、类平均法 和离差平方和法都具有单调性,但重 心法不具有单调性。
1
2
ห้องสมุดไป่ตู้
二、使用图形作直观的聚类
v 当p=2时,可以直接在散点图上进行主观的聚类,其效果未必逊于、甚至好于正规 的聚类方法,特别是在寻找“自然的”类和符合我们实际需要的类方面。
7
v 例3 (书中例6.3.7) 对305名女中学生测量八个体型指标: 身高(x1),手臂长(x2),上肢长(x3),下肢长(x4) 体重(x5),颈围(x6),胸围(x7),胸宽(x8)
相关矩阵列于下表:
身高 手臂长 上肢长 下肢长 体重 颈围 胸围 胸宽
身高
1.000 0.846 0.805 0.859 0.473 0.398 0.301 0.382
14
胸围
0.000 0.461
胸宽
0.000
9
10
五、类的个数
v
v 如果能够分成若干个很分开的类,则类的个数就比较容易确定;反之, 如果无论怎样分都很难分成明显分开的若干类,则类个数的确定可能 就比较困难了。
11
1.给定一个阈值T
v 通过观测树形图,给出一个你认为合适 的阈值T,要求类与类之间的距离要大于 T,有些样品可能会因此而归不了类或只 能自成一类。这种方法有较强的主观性 ,这是它的不足之处。
v 例2 (书中例6.3.6) 在上一讲的例2中按Ward方法聚类,分别分成三 类和五类,使用两个费希尔判别函数的得分图。
6
四、对变量的聚类
v 最短距离法、最长距离法和类平均法都 属于连接方法,它们既可以用于样品的 聚类,也能够用于变量的聚类。
v 不过并非所有的系统聚类方法都适用于 对变量的聚类。
v
3
v 当p=3时,我们可使用统计软件产生三维旋转图,通过三维旋转从各 个角度来观测散点图,作直观的聚类。但由于其视觉效果及易操作性 远不如平面散点图,故实践中很少采用,除非样品数很少。
v 当p≥3时,有时我们可采用主成分分析(这里允许不对主成分给出解 释)或因子分析(一般只在对因子的解释感兴趣时使用,实践中很少 采用)的技术将维数降至2(或偶尔3)维,然后再生成散点图(或旋 转图),从直觉上进行主观的聚类。
手臂长
0.000 0.119 0.174 0.624 0.674 0.723 0.585
上肢长
0.000 0.199 0.620 0.681 0.763 0.655
下肢长
0.000 0.564 0.671 0.673 0.635
体重
0.000 0.238 0.270 0.371
颈围
0.000 0.417 0.423
手臂长
1.000 0.881 0.826 0.376 0.326 0.277 0.415
上肢长
1.000 0.801 0.380 0.319 0.237 0.345
下肢长
1.000 0.436 0.329 0.327 0.365
体重
1.000 0.762 0.730 0.629
颈围
1.000 0.583 0.577
12
2.观测样品的散点图
v 如果样品只有两个(或三个)变量,则可通过观测数据的(平面)散点图 (或旋转图)来主观确定类的个数。这样的图比树形图可靠、准确,故更 值得推荐。
v 如果变量个数超过三个,则可对每一可能考虑的聚类结果,将所有样品的 前两个(或三个)费希尔判别函数得分制作成散点图(或旋转图),目测 类之间是否分离得较好。
多元统计分析mooc44聚类中的若干问题一系统聚类法的单调性这种单调性符合系统聚类法的思想先合并较相似的类后合并较疏远的最短距离法最长距离法类平均法和离差平方和法都具有单调性但重心法不具有单调性
《多元统计分析》MOOC
4.4 聚类中的若干问题
王学民
一、系统聚类法的单调性
v 令Di是系统聚类法中第i次并类时的距 离,如果一种系统聚类法能满足 D1≤D2≤D3≤⋯ ,则称它具有单调性。
v 如分离得好,则说明所确定的类个数能保证各类有明显差异。如分离得不 好,则一般就不易下结论。比如,如果分4类时能判断各类分离得较好,而 分5类时各类分离得如何不易判断,则一般倾向于选择类的个数为4。
13
v 例4 (书中例6.3.8) 在例2中,两个图分别显示分三类和五类都是合 适的。最终到底分为几类还需综合考虑,该例分成三类似乎更符合实 际的需要。
4
三、使用图形对聚类效果的评估
v 经聚类分析已将类分好之后,常常希望从统计的角度看一下聚类的效果:不同类 之间是否分离得较好,同一类内的样品(或变量)是否彼此相似。
v 通常可通过构造图形作直观的观测,所使用的图形有如下两种: Ø (1)将p维数据画于平面图上,方法有平行(坐标)图、星形图、切尔诺夫脸谱图、