系统工程32聚类分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
dij ( p | xik x jk |q ) q k 1
◦ 明氏距离有三种特殊形式:
✓ 绝对距离(Block距离):当q=1时
p
dij 1 xik x jk k 1
常用距离
◦ 明氏距离有三种特殊形式:
✓欧氏距离(Euclidean distance):当q=2时
1
dij
聚类分析的方法:
✓系统聚类(层次聚类) ✓非系统聚类(非层次聚类)
系统聚类法包括:凝聚方式聚类、分解方式聚类 非系统聚类法包括:模糊聚类法、K-均值法(快
速聚类法)等等
以系统聚类法为例
样本或变量的相似性程度的数量指标:
✓距离 它是将每一个样品看作p维空间的一个点,并用某种 度量方法测量点与点之间的距离,距离较近的归为一类, 距离较远的点应属于不同的类。
9.01 9.32 15.99 9.10 1.82
10.52 10.05 16.18 8.39 1.96
x8 13.29 14.87 9.76 11.35 10.81
将每一个省区视为一个样本: G1={辽宁},G2={浙江},G3={河南},G4={甘肃},G5={ 青海}
采用欧氏距离:
➢ d12 =[(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.9413.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.2914.87)2]0.5=11.67
d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21
根据5个省区之间的欧式距离,用D0表示距离矩阵(对称阵 ,故给出下三角阵)
1
2
3
4 5
辽宁
1
0
浙江 2 11.67 0
D0 河南 3 13.80 24.63 0
得到新矩阵
G7 G1 G2
D2 GG17
0 12.80
0
G2 23.54 11.67 0
合并类1和类2,得到新类8
此时,我们有两个不同的类:类7和类8。
它们的最近距离
d(7,8) =min(d71,d72)=min(12.80,23.54)=12.80
得到矩阵
G7 G8
D3 G7 0
cij 1,当且仅当xi ax j b, a( 0)和b是常数;
cij 1, 对一切i,j;
cij c ji , 对一切i,j。
相似系数的表示方法
夹角余弦:-1≤cosɑ≤1 相关系数:-1≤rij≤1 变量间的距离:
✓ 利用相似系数来定义距离 ✓ 利用样本协差阵来定义距离 ✓ 把变量Xi的n次观测值看成n维空间的点,在n维空间中定
k 1
k 1
相似系数除常用来度量变量之间的相似性外有时也用来度 量样品之间的相似性,同样,距离有时也用来度量变量之
间的相似性。
由距离来构造相似系数总是可能的,如令
cij
1 1 dij
这里dij 为第i 个样品与第j个样品的距离,显然cij 满足定义 相似系数的三个条件,故可作为相似系数.
系统聚类法是聚类分析诸方法中用得最多的一种。 基本思想:开始将个样品各自作为一类,并规定样品之间的
3. 构造个类,每类只含有一个样本; 4. 合并符合类间距离定义要求的两类为一个新类; 5. 计算新类与当前各类的距离。若类的个数为1,则转到步
骤6,否则回到步骤4; 6.画出聚类图; 7.决定类的个数和类。
例:
为了研究辽宁等5省1991年城镇居民生活消费的分 布规律,根据调查资料做类型分类,用最短距离做 类间分类。资料如下:
样品聚类:对观测量(Case)进行聚类(不同的目的 选用不同的指标作为分类的依据,如选拔运动员与 分课外活动小组)。
变量聚类:找出彼此独立且有代表性的自变量,而 又不丢失大部分信息。在生产活动中不乏有变量聚 类的实例,如:衣服号码(身长、胸围、裤长、腰 围)、鞋的号码。变量聚类使批量生产成为可能。
◦ 明氏距离的定义没有考虑各个变量之间的相关性和重要性 。实际上,明考夫斯基距离是把各个变量都同等看待,将 两个样品在各个变量上的离差简单地进行了综合。
当各变量的单位不同或测量值范围相差很大时,不
应直接采用明氏距离,而应先对各变量的数据作标 准化处理,然后用标准化后的数据计算距离。
常用的标准化处理:
xi*j
xij
xj s jj
i 1,2, ,n
j 1,2, , p
其中
xj
1 n
n i 1
xij
为第j个变量的样本均值;
s jj
1 n 1
n i1
( xij
xj )2
为第j个变量的样本方差。
二、相似系数 相似系数(或其绝对值)越大,变量之间的相似性
程度越高;反之,越低。聚类时,比较相似的变量 归为一类,不太相似的变量归为不同的类。 变量xi与xj的相似系数用cij表示,满足以下三个条件
得到新矩阵
G6 G1 G2 G5
D1 GG16
0 13.12
0
G2 24.06 11.67 0
G5 2.21 12.80 23.54 0
合并类6和类5,得到新类7
类7与剩余的1、2之间的距离分别为:
d(5,6)1=min(d51,d61)=min(12.80,13.12)=12.80 d(5,6)2=min(d52,d62)=min(23.54,24.06)=23.54
2p( xik源自x jk)2
2
k 1
✓切比雪夫距离:当 q= ∞时
dij
max
1k p
xik
x jk
明考夫斯基距离主要有以下两个缺点:
◦ 明氏距离的值与各指标的量纲有关,而各指标计量单位的 选择有一定的人为性和随意性,各变量计量单位的不同不 仅使此距离的实际意义难以说清,而且,任何一个变量计 量单位的改变都会使此距离的数值改变从而使该距离的数 值依赖于各变量计量单位的选择。
✓相似系数 性质越接近的变量或样品,它们的相似系数越接 近于1或一l,而彼此无关的变量或样品它们的相似系数则 越接近于0,相似的为一类,不相似的为不同类;
样本分类(Q型聚类)常以距离刻画相似性
指标分类(R型聚类)常以相似系数刻画相似性
常用距离
◦ 明考夫斯基距离(Minkowski distance)
省份 辽宁 浙江 河南 甘肃 青海
x1 7.90 7.68 9.42 9.16 10.06
x2 39.77 50.37 27.93 27.98 28.64
x3
x4
x5
x6
x7
8.49 12.94 19.27 11.05 2.04
11.35 13.30 19.25 14.59 2.75
8.20 8.14 16.17 9.42 1.55
甘肃 4 13.12 24.06 2.20 0
青海 5 12.80 23.54 3.51 2.21 0
因此将3.4合并为一类,为类6,替代了3、4两类 类6与剩余的1、2、5之间的距离分别为:
d(3,4)1=min(d31,d41)=min(13.80,13.12)=13.12 d(3,4)2=min(d32,d42)=min(24.63,24.06)=24.06 d(3,4)5=min(d35,d45)=min(3.51,2.21)=2.21
G8 12.80 0
最后合并为一个大类。这就是按最短距离定义类间距离的系统聚 类方法。最长距离法类似!
上述聚类过程可以画出一种树形图(谱系图,dendrogram):
河南3 甘肃4 青海5 辽宁1 浙江2
义m个变量间的距离。
相关系数
设 xi xi1, xi2 ,..., xip
和xj
x j1, x j2 ,..., x jp
是第i和j个
样品的观测值,则二者之间的相似测度为:
p
(xik xi )(x jk x j )
rij
k 1 p
p
[ (xik xi )2 ][ (x jk x j )2 ]
差异很大。
聚类分析的应用:无处不在
早在孩提时代,人就通过不断改进下意识中的聚类 模式来学会如何区分猫和狗,动物和植物
谁经常光顾商店,谁买什么东西,买多少?
◦ 按忠诚卡记录的光临次数、光临时间、性别、年龄、职业 、购物种类、金额等变量分类
◦ 这样商店可以….
✓ 识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周 末时一次性大采购)
✓刻画不同的客户群的特征(用变量来刻画,就象刻画猫和狗 的特征一样)
为什么这样分类?(分类的好处)
因为每一个类别里面的人消费方式都不一样,需要 针对不同的人群,制定不同的关系管理方式,以提 高客户对公司商业活动的参与率。
挖掘有价值的客户,并制定相应的促销策略:
✓如,对经常购买酸奶的客户 ✓对累计消费达到12个月的老客户 ✓针对潜在客户派发广告,比在大街上乱发传单命中率更高
,成本更低!
如:对企业的经济效益进行评价时,建立了一个由
多个指标组成的指标体系,由于信息的重叠,一些
指标之间存在很强的相关性,所以需要将相似的指 标聚为一类,从而达到简化指标体系的目的。
基本思想:
是根据一批样品的多个观测指标,具体地找出一些 能够度量样品或指标之间相似程度的统计量,然后 利用统计量将样品或指标进行归类。把相似的样品 或指标归为一类,把不相似的归为其他类。直到把 所有的样品(或指标)聚合完毕.
距离和类与类之间的距离,然后将距离最近的两类合并成一 个新类,计算新类与其他类的距离;重复进行两个最近类的 合并,每次减少一类,直至所有的样品合并为一类。 常用的系统聚类方法:
最短距离法 最长举例法 中间举例法 重心法
1. 选择样本间距离的定义及类间距离的定义;
2. 计算n个样本两两之间的距离,得到距离矩阵 D dij
3-2 聚类分析 Cluster Analysis
什么是聚类分析
聚类分析是根据“物以类聚”的道理,对样品(观测量) 或指标(变量)进行分类的一种多元统计分析方法。
将个体或对象分类,使得同一类中的对象之间的相似性比 与其他类的对象的相似性更强。
聚类分析的目的:
✓使类内对象的同质性最大化和类间对象的异质性最大化。 ✓原则是同一类中的个体有较大的相似性,不同类中的个体
相似样本或指标的集合称为类。
问题:如何来选择样品(或指标)间相似的测度指 标,如何将有相似性的类连接起来?
聚类分析的类型有:
✓对样本分类,称为Q型聚类分析 ✓对变量分类,称为R型聚类分析
Q型聚类是对样本进行聚类,它使具有相似性特征 的样本聚集在一起,使差异性大的样本分离开来。
R型聚类是对变量进行聚类,它使具有相似性的变 量聚集在一起,差异性大的变量分离开来,可在相 似变量中选择少数具有代表性的变量参与其他分析 ,实现减少变量个数,达到变量降维的目的。
dij ( p | xik x jk |q ) q k 1
◦ 明氏距离有三种特殊形式:
✓ 绝对距离(Block距离):当q=1时
p
dij 1 xik x jk k 1
常用距离
◦ 明氏距离有三种特殊形式:
✓欧氏距离(Euclidean distance):当q=2时
1
dij
聚类分析的方法:
✓系统聚类(层次聚类) ✓非系统聚类(非层次聚类)
系统聚类法包括:凝聚方式聚类、分解方式聚类 非系统聚类法包括:模糊聚类法、K-均值法(快
速聚类法)等等
以系统聚类法为例
样本或变量的相似性程度的数量指标:
✓距离 它是将每一个样品看作p维空间的一个点,并用某种 度量方法测量点与点之间的距离,距离较近的归为一类, 距离较远的点应属于不同的类。
9.01 9.32 15.99 9.10 1.82
10.52 10.05 16.18 8.39 1.96
x8 13.29 14.87 9.76 11.35 10.81
将每一个省区视为一个样本: G1={辽宁},G2={浙江},G3={河南},G4={甘肃},G5={ 青海}
采用欧氏距离:
➢ d12 =[(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.9413.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.2914.87)2]0.5=11.67
d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21
根据5个省区之间的欧式距离,用D0表示距离矩阵(对称阵 ,故给出下三角阵)
1
2
3
4 5
辽宁
1
0
浙江 2 11.67 0
D0 河南 3 13.80 24.63 0
得到新矩阵
G7 G1 G2
D2 GG17
0 12.80
0
G2 23.54 11.67 0
合并类1和类2,得到新类8
此时,我们有两个不同的类:类7和类8。
它们的最近距离
d(7,8) =min(d71,d72)=min(12.80,23.54)=12.80
得到矩阵
G7 G8
D3 G7 0
cij 1,当且仅当xi ax j b, a( 0)和b是常数;
cij 1, 对一切i,j;
cij c ji , 对一切i,j。
相似系数的表示方法
夹角余弦:-1≤cosɑ≤1 相关系数:-1≤rij≤1 变量间的距离:
✓ 利用相似系数来定义距离 ✓ 利用样本协差阵来定义距离 ✓ 把变量Xi的n次观测值看成n维空间的点,在n维空间中定
k 1
k 1
相似系数除常用来度量变量之间的相似性外有时也用来度 量样品之间的相似性,同样,距离有时也用来度量变量之
间的相似性。
由距离来构造相似系数总是可能的,如令
cij
1 1 dij
这里dij 为第i 个样品与第j个样品的距离,显然cij 满足定义 相似系数的三个条件,故可作为相似系数.
系统聚类法是聚类分析诸方法中用得最多的一种。 基本思想:开始将个样品各自作为一类,并规定样品之间的
3. 构造个类,每类只含有一个样本; 4. 合并符合类间距离定义要求的两类为一个新类; 5. 计算新类与当前各类的距离。若类的个数为1,则转到步
骤6,否则回到步骤4; 6.画出聚类图; 7.决定类的个数和类。
例:
为了研究辽宁等5省1991年城镇居民生活消费的分 布规律,根据调查资料做类型分类,用最短距离做 类间分类。资料如下:
样品聚类:对观测量(Case)进行聚类(不同的目的 选用不同的指标作为分类的依据,如选拔运动员与 分课外活动小组)。
变量聚类:找出彼此独立且有代表性的自变量,而 又不丢失大部分信息。在生产活动中不乏有变量聚 类的实例,如:衣服号码(身长、胸围、裤长、腰 围)、鞋的号码。变量聚类使批量生产成为可能。
◦ 明氏距离的定义没有考虑各个变量之间的相关性和重要性 。实际上,明考夫斯基距离是把各个变量都同等看待,将 两个样品在各个变量上的离差简单地进行了综合。
当各变量的单位不同或测量值范围相差很大时,不
应直接采用明氏距离,而应先对各变量的数据作标 准化处理,然后用标准化后的数据计算距离。
常用的标准化处理:
xi*j
xij
xj s jj
i 1,2, ,n
j 1,2, , p
其中
xj
1 n
n i 1
xij
为第j个变量的样本均值;
s jj
1 n 1
n i1
( xij
xj )2
为第j个变量的样本方差。
二、相似系数 相似系数(或其绝对值)越大,变量之间的相似性
程度越高;反之,越低。聚类时,比较相似的变量 归为一类,不太相似的变量归为不同的类。 变量xi与xj的相似系数用cij表示,满足以下三个条件
得到新矩阵
G6 G1 G2 G5
D1 GG16
0 13.12
0
G2 24.06 11.67 0
G5 2.21 12.80 23.54 0
合并类6和类5,得到新类7
类7与剩余的1、2之间的距离分别为:
d(5,6)1=min(d51,d61)=min(12.80,13.12)=12.80 d(5,6)2=min(d52,d62)=min(23.54,24.06)=23.54
2p( xik源自x jk)2
2
k 1
✓切比雪夫距离:当 q= ∞时
dij
max
1k p
xik
x jk
明考夫斯基距离主要有以下两个缺点:
◦ 明氏距离的值与各指标的量纲有关,而各指标计量单位的 选择有一定的人为性和随意性,各变量计量单位的不同不 仅使此距离的实际意义难以说清,而且,任何一个变量计 量单位的改变都会使此距离的数值改变从而使该距离的数 值依赖于各变量计量单位的选择。
✓相似系数 性质越接近的变量或样品,它们的相似系数越接 近于1或一l,而彼此无关的变量或样品它们的相似系数则 越接近于0,相似的为一类,不相似的为不同类;
样本分类(Q型聚类)常以距离刻画相似性
指标分类(R型聚类)常以相似系数刻画相似性
常用距离
◦ 明考夫斯基距离(Minkowski distance)
省份 辽宁 浙江 河南 甘肃 青海
x1 7.90 7.68 9.42 9.16 10.06
x2 39.77 50.37 27.93 27.98 28.64
x3
x4
x5
x6
x7
8.49 12.94 19.27 11.05 2.04
11.35 13.30 19.25 14.59 2.75
8.20 8.14 16.17 9.42 1.55
甘肃 4 13.12 24.06 2.20 0
青海 5 12.80 23.54 3.51 2.21 0
因此将3.4合并为一类,为类6,替代了3、4两类 类6与剩余的1、2、5之间的距离分别为:
d(3,4)1=min(d31,d41)=min(13.80,13.12)=13.12 d(3,4)2=min(d32,d42)=min(24.63,24.06)=24.06 d(3,4)5=min(d35,d45)=min(3.51,2.21)=2.21
G8 12.80 0
最后合并为一个大类。这就是按最短距离定义类间距离的系统聚 类方法。最长距离法类似!
上述聚类过程可以画出一种树形图(谱系图,dendrogram):
河南3 甘肃4 青海5 辽宁1 浙江2
义m个变量间的距离。
相关系数
设 xi xi1, xi2 ,..., xip
和xj
x j1, x j2 ,..., x jp
是第i和j个
样品的观测值,则二者之间的相似测度为:
p
(xik xi )(x jk x j )
rij
k 1 p
p
[ (xik xi )2 ][ (x jk x j )2 ]
差异很大。
聚类分析的应用:无处不在
早在孩提时代,人就通过不断改进下意识中的聚类 模式来学会如何区分猫和狗,动物和植物
谁经常光顾商店,谁买什么东西,买多少?
◦ 按忠诚卡记录的光临次数、光临时间、性别、年龄、职业 、购物种类、金额等变量分类
◦ 这样商店可以….
✓ 识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周 末时一次性大采购)
✓刻画不同的客户群的特征(用变量来刻画,就象刻画猫和狗 的特征一样)
为什么这样分类?(分类的好处)
因为每一个类别里面的人消费方式都不一样,需要 针对不同的人群,制定不同的关系管理方式,以提 高客户对公司商业活动的参与率。
挖掘有价值的客户,并制定相应的促销策略:
✓如,对经常购买酸奶的客户 ✓对累计消费达到12个月的老客户 ✓针对潜在客户派发广告,比在大街上乱发传单命中率更高
,成本更低!
如:对企业的经济效益进行评价时,建立了一个由
多个指标组成的指标体系,由于信息的重叠,一些
指标之间存在很强的相关性,所以需要将相似的指 标聚为一类,从而达到简化指标体系的目的。
基本思想:
是根据一批样品的多个观测指标,具体地找出一些 能够度量样品或指标之间相似程度的统计量,然后 利用统计量将样品或指标进行归类。把相似的样品 或指标归为一类,把不相似的归为其他类。直到把 所有的样品(或指标)聚合完毕.
距离和类与类之间的距离,然后将距离最近的两类合并成一 个新类,计算新类与其他类的距离;重复进行两个最近类的 合并,每次减少一类,直至所有的样品合并为一类。 常用的系统聚类方法:
最短距离法 最长举例法 中间举例法 重心法
1. 选择样本间距离的定义及类间距离的定义;
2. 计算n个样本两两之间的距离,得到距离矩阵 D dij
3-2 聚类分析 Cluster Analysis
什么是聚类分析
聚类分析是根据“物以类聚”的道理,对样品(观测量) 或指标(变量)进行分类的一种多元统计分析方法。
将个体或对象分类,使得同一类中的对象之间的相似性比 与其他类的对象的相似性更强。
聚类分析的目的:
✓使类内对象的同质性最大化和类间对象的异质性最大化。 ✓原则是同一类中的个体有较大的相似性,不同类中的个体
相似样本或指标的集合称为类。
问题:如何来选择样品(或指标)间相似的测度指 标,如何将有相似性的类连接起来?
聚类分析的类型有:
✓对样本分类,称为Q型聚类分析 ✓对变量分类,称为R型聚类分析
Q型聚类是对样本进行聚类,它使具有相似性特征 的样本聚集在一起,使差异性大的样本分离开来。
R型聚类是对变量进行聚类,它使具有相似性的变 量聚集在一起,差异性大的变量分离开来,可在相 似变量中选择少数具有代表性的变量参与其他分析 ,实现减少变量个数,达到变量降维的目的。