第七章 多元统计分析(3)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
x(i) (xi1, xi2 ,, xip ), i 1,2,, n
一、样品间的距离
下面介绍在聚类分析中常用的几种定义样品 x(i) 与
样品 x( j) 间的距离。
1、 Minkowski 距离
p
m1
d (x(i) , x( j) ) [ xik x jk ]m
k 1
2、 绝对值距离
p
d (x(i) , x( j) ) xik x jk k 1
解:聚类过程略,聚类图如下
x(1) x(2) x(6) x(8) x(5) x(7) x(9) x(3) x(4) x(10)
0
G11
2
5
G13
G14 G16
G12
G15
9 10
13
G18 G19
G17
20
如果类之间距离取不同的临界值,可以得到不 同的分类结果,下图临界值为15
x(1) x(2) x(6) x(8) x(5) x(7) x(9) x(3) x(4) x(10)
3、由 D1出发,重复步骤 2 得到对称矩阵 D2 ,依此类 推,直到 n 个样品(或 p 个变量)聚为一个大类为止;
4、在合并过程中记下两类合并时样品(或变量)的 编号以及合并两类时的距离(或相似系数)的大小, 并绘成聚类图,然后可根据实际问题的背景和要求选 定相应的临界水平以确定类的个数。
例 1 为研究辽宁、浙江、河南、甘肃、青海 5 省份在某年
个给定的数,令
a() ij
1, 0,
aij aij
i, j 1,2,, n
则称矩阵 A 为 (ai(j) )nn A 的 —截阵。
模糊聚类法和一般的聚类方法相似,先计算变量 间的相似系数矩阵(或样品间的距离矩阵),将其元 素压缩到 0 与 1 之间形成模糊矩阵,进一步改造成 模糊等价矩阵,最后取不同的标准 ,得到不同的 —截阵,从而可以得到不同的类。具体步骤如下:
1、将 n 个样品( p 个变量)一开始看作 n 类( p 类),
计算两两样品(变量)之间的距离(相似系数),构成一
个对称矩阵
D0
dij
nn
,称为距离矩阵(相似系数矩阵)。
此时显然有 D(G p ,Gq ) d pq ;
2、选择距离矩阵 D0 中对角线元素以外的下三角部分中 的最小元素(相似系数矩阵则选择对角线元素以外的最 大者),设其为 D(Gp ,Gq ) ,则将 Gp 和 Gq 合并为一个新类 Gr 。 在 D0 中划去Gp 和Gq 所对应的两行与两列,并加入由新类 Gr 与剩下的未聚合的各类之间的距离所组成的一行和 一列,得到一个新的矩阵 D1,它是降低了一阶的对称矩 阵;
这是一个 Q 型聚类问题,现在用系统聚类法来解
决。
将每个省份看成一个样品,并以 1,2,3,4,5
分别表示辽宁、浙江、河南、甘肃、青海 5 省,计算
样品间的欧氏距离,得到如下的距离矩阵 D0
{1} {2} {3} {4} {5}
0
11.67 0
D0 13.80 24.63 0
13.12 24.06 2.20 0
0
G11
2
5
G13
G14 G16
G12
G15
9 10
13
G18 G19
G17
20
下图临界值为11
x(1) x(2) x(6) x(8) x(5) x(7) x(9) x(3) x(4) x(10)
0
G11
2wenku.baidu.com
5
G13
G14 G16
G12
G15
9 10
13
G18 G19
G17
20
三、模糊聚类法
一、模糊聚类法介绍
i 1,2,, n,
k 1,2,, p
xk
1 n
n i 1
xik ,
sk
1 n 1
n i 1
( xik
xk )2 ,
k 1,2,, p
三、类与类之间的距离
用 Gp 和Gq 分别代表两个类,它们所包含的样品个数 分别记为 n p 和 nq ,类 Gp 和 Gq 之间的距离记为 D(Gp ,Gq ) 。 下面给出三种最常用的定义方法。
1、计算相似系数矩阵 R (或样品的距离矩阵 D ) 其中 D (dij )nn 或 R (rij ) pp 的算法见一。
2、将 R (或 D )中的元素压缩到 0 与 1 之间形成模糊矩阵 我们统一记为 A (aij )nn ;例如对相似系数矩阵
R (rij ) pp ,可令
aij
1 2
3、类平均距离
D(Gp ,Gq )
1 n p nq
xi G p
d ij
x jGq
类与类之间的类平均距离有如下的递推公式,设 Gr
为由 Gp 和 Gq 合并所得,则 Gr 与其它类 Gk (k p, q) 的类平均
距离为
D(Gr ,Gk
)
np nr
D(Gp ,Gk )
nq nr
D(Gq ,Gk )
C A• B ,其中 和 的含义为
a b max{a,b}, a b min{a,b}
显然,两个模糊矩阵的乘积仍为模糊矩阵。
设方阵 A 为一个模糊矩阵,若 A 满足 A• A A, 则称 A 为模糊等价矩阵。模糊等价矩阵可以反映模糊 分类关系的传递性,即描述诸如“甲象乙,乙象丙,
则甲象丙”这样的关系。 设 A (aij )nn 为一个模糊等价矩阵, 0 1为一
3、 欧氏距离
p
21
d (x(i) , x( j) ) [ xik x jk ]2
k 1
二、变量间的相似系数
相似系数越接近 1,说明变量间的关联程度越好。
常用的变量间的相似系数有
1、 夹角余弦
rij 2、 相关系数
n
xkixkj
k 1
n
n
(xki )2 (xkj )2
k 1
k 1
n
(xki xi )(xkj x j )
城镇居民生活消费的分布规律,需要用调查资料对这 5 个
省分类。数据见下表:
指标
X1
X2 X3
X4 X5
X6 X7
X8
省份
辽宁
7.90 39.77 8.49 12.94 19.27 11.05 2.04 13.29
浙江
7.68 50.37 11.35 13.30 19.25 14.59 2.75 14.87
其中 nr n p nq 。
以上类与类之间的距离,不但适用于 Q 型聚类,同 样也适合于 R 型聚类,这只要将 dij 用变量间的相似系数 rij 代替就行了。为简单起见以下均记成 dij 。
二、系统聚类法
系统聚类法是目前最流行的方法。
有了样品间的距离(或变量间的相似系数)以及类
与类之间的距离后,便可进行系统聚类,基本步骤如下:
2、最长距离 D(Gp ,Gq ) max (dij x(i) Gp ,x( j) Gq )
类与类之间的最长距离有如下的递推公式,设 Gr 为由 Gp 和 Gq 合并所得,则 Gr 与其它类 Gk (k p, q) 的最长 距离为
D(Gr , Gk ) max {D(G p , Gk ), D(Gq ,Gk )}
一、分类统计量
聚类分析的研究内容包括两个方面,一是对样品进 行分类,称为 Q 型聚类法,使用的统计量是样品间的 距离;二是对变量进行分类,称为 R 型聚类法,使用 的统计量是变量间的相似系数。
设 共 有 n 个 样 品 , 每 个 样 品 x(i) 有 p 个 变 量 x1, x2 ,, x p ,它们的观测值可以表示为
rij
k 1 n
n
(xki xi )2 • (xkj x j )2
k 1
k 1
值得注意的是,当变量的测量值相差较大时,直接使
用以上各式计算距离或相似系数常使数值较小的变量失去
作用,为此需应先对数据进行标准化,然后再用标准化的
数据来计算。标准化的具体方法是:
xi*k
xik xk sk
,
其中
若矩阵 A 的各元素 aij 满足 0 aij 1,则称 A 为模糊矩阵。 设 A (aij )np 和 B (bij ) pm 为两个模糊矩阵,令
p
cij k1(aik bkj ), i 1,2,, n, j 1,2,, m
则称矩阵 C (cij )nm 为模糊矩阵 A 与 B 的乘积,记为
例2 从某大学男生中随机抽取10名,测得其身高 x1(单位:cm)和体重x2(单位:kg)的数值下表,样品 间采用欧氏距离的平方,试用最短距离法进行系统 聚类并画出系统聚类图。
x1 170 173 180 185 168 165 177 165 178 182
x2 66 66 68 72 63 62 68 59 69 71
§7.3
聚类分析
在科学研究、生产实践、社会生活中,经常会遇到分 类的问题。例如:
根据学生考试成绩的高低将学生的学习情况分成几个 档次;
在考古学中,要将某些古生物化石进行科学的分类; 在生物学中,要根据各生物体的综合特征进行分类; 在经济学中,要考虑哪些经济指标反映的是同一种经 济特征; 在产品质量管理中,要根据各产品的某些重要指标而 将其合理地分为几个等级等等。
12.80
23.54
3.51
2.21
0
下面给出采用最短距离法的聚类过程:首先将 5 个省各看成一类,即令 Gi {i}, (i 1,2,3,4,5) 。从 D0 可以看 出,其中最小的元素是 D({4},{3}) d43 2.20 ,故将 G3 和 G4 合并成一类 G6 ,然后利用递推公式计算 G6 与 G1 ,G2 ,G5 之间的最短距离。 D({3,4},{1}) min{ d31, d41} min{13.80,13.12) 13.12 D({3,4},{2}) min{ d32 , d42} min{ 24.63,24.06) 24.06 D({3,4},{5}) min{ d35 , d45} min{3.51,2.21) 2.21
随着人类社会的发展与科学技术的进步,对分类 学的要求也越来越高。有时,仅凭经验或专业知识并 不能进行科学有效的分类,于是数学方法就被引进到 分类问题中来。
聚类分析的基本思想是:把每个分类对象称为样 品,每个样品都有若干个变量,定义能度量样品间(或 变量间)亲疏关系的统计量,在此基础上求出各样品 (或变量)之间亲疏程度的度量值,按亲疏程度的大 小,把样品(或变量)进行归类。
1、 最短距离
D(Gp ,Gq ) min (dij x(i) Gp ,x( j) Gq )
类与类之间的最短距离有如下的递推公式,设 Gr 为由 Gp 和 Gq 合并所得,则 Gr 与其它类 Gk (k p, q) 的最短 距离为
D(Gr , Gk ) min {D(G p , Gk ), D(Gq , Gk )}
{3,4,5} {1,2}
0
D2 12.80
23.54
0 11.67
, 0
D3 120.80
0
最后将 5 个省合并为一大类,画出聚类图如下:
辽宁
浙江
11.67
河南
12.80
2.20 甘肃
2.21 青海
由此可见,分成三类比较合适,即辽宁和浙江各 为一类,河南、甘肃、青海为一类。
若类与类之间的距离用最长距离或类平均距离, 也会得到相同的结论。
在 D0 中划去{3},{4}所对应的行和列,并加上新类
{3,4}到其它类距离作为新的一行一列,得到
{3,4} {1} {2} {5}
0
D1
13.12
24.06 2.21
0 11.67 12.80
0 23.54
0
重复上面的步骤,依次可得到相应的距离矩阵如下:
{3,4,5} {1} {2}
河南
9.42 27.93 8.20 8.14 16.17 9.42 1.55 9.76
甘肃
9.16 27.98 9.01 9.32 15.99 9.10 1.82 11.35
青海
10.06 28.64 10.52 10.05 16.18
8.39 1.96 10.81
其中 X1:人均粮食支出; X2:人均副食品支出; X3:人均烟、酒、茶支出; X4:人均其它副食品支出; X5:人均衣着商品支出; X6:人均日用品支出; X7:人均燃料支出; X8:人均非商品支出。
(1
rij
),
i, j 1,2,, p
对于距离矩阵 D (dij )nn ,可令
aij
1
d ij
1
max
1i, jn
d ij
,
i, j 1,2,, n
3、建立模糊等价矩阵 一般说来,上述模糊矩阵 A (aij )nn 不具有等价性,
这可以通过模糊矩阵的乘积将其转化为模糊等价阵, 具体方法是:计算
A2 A • A, A4 A2 • A2 ,,
直到满足 A2k Ak ,这时模糊矩阵 Ak 便是一个模糊等价矩 阵。记 A~ (a~ij ) Ak 。
4、聚类
将 a~ij 按由大到小的顺序排列,从 1开始,沿着 a~ij
一、样品间的距离
下面介绍在聚类分析中常用的几种定义样品 x(i) 与
样品 x( j) 间的距离。
1、 Minkowski 距离
p
m1
d (x(i) , x( j) ) [ xik x jk ]m
k 1
2、 绝对值距离
p
d (x(i) , x( j) ) xik x jk k 1
解:聚类过程略,聚类图如下
x(1) x(2) x(6) x(8) x(5) x(7) x(9) x(3) x(4) x(10)
0
G11
2
5
G13
G14 G16
G12
G15
9 10
13
G18 G19
G17
20
如果类之间距离取不同的临界值,可以得到不 同的分类结果,下图临界值为15
x(1) x(2) x(6) x(8) x(5) x(7) x(9) x(3) x(4) x(10)
3、由 D1出发,重复步骤 2 得到对称矩阵 D2 ,依此类 推,直到 n 个样品(或 p 个变量)聚为一个大类为止;
4、在合并过程中记下两类合并时样品(或变量)的 编号以及合并两类时的距离(或相似系数)的大小, 并绘成聚类图,然后可根据实际问题的背景和要求选 定相应的临界水平以确定类的个数。
例 1 为研究辽宁、浙江、河南、甘肃、青海 5 省份在某年
个给定的数,令
a() ij
1, 0,
aij aij
i, j 1,2,, n
则称矩阵 A 为 (ai(j) )nn A 的 —截阵。
模糊聚类法和一般的聚类方法相似,先计算变量 间的相似系数矩阵(或样品间的距离矩阵),将其元 素压缩到 0 与 1 之间形成模糊矩阵,进一步改造成 模糊等价矩阵,最后取不同的标准 ,得到不同的 —截阵,从而可以得到不同的类。具体步骤如下:
1、将 n 个样品( p 个变量)一开始看作 n 类( p 类),
计算两两样品(变量)之间的距离(相似系数),构成一
个对称矩阵
D0
dij
nn
,称为距离矩阵(相似系数矩阵)。
此时显然有 D(G p ,Gq ) d pq ;
2、选择距离矩阵 D0 中对角线元素以外的下三角部分中 的最小元素(相似系数矩阵则选择对角线元素以外的最 大者),设其为 D(Gp ,Gq ) ,则将 Gp 和 Gq 合并为一个新类 Gr 。 在 D0 中划去Gp 和Gq 所对应的两行与两列,并加入由新类 Gr 与剩下的未聚合的各类之间的距离所组成的一行和 一列,得到一个新的矩阵 D1,它是降低了一阶的对称矩 阵;
这是一个 Q 型聚类问题,现在用系统聚类法来解
决。
将每个省份看成一个样品,并以 1,2,3,4,5
分别表示辽宁、浙江、河南、甘肃、青海 5 省,计算
样品间的欧氏距离,得到如下的距离矩阵 D0
{1} {2} {3} {4} {5}
0
11.67 0
D0 13.80 24.63 0
13.12 24.06 2.20 0
0
G11
2
5
G13
G14 G16
G12
G15
9 10
13
G18 G19
G17
20
下图临界值为11
x(1) x(2) x(6) x(8) x(5) x(7) x(9) x(3) x(4) x(10)
0
G11
2wenku.baidu.com
5
G13
G14 G16
G12
G15
9 10
13
G18 G19
G17
20
三、模糊聚类法
一、模糊聚类法介绍
i 1,2,, n,
k 1,2,, p
xk
1 n
n i 1
xik ,
sk
1 n 1
n i 1
( xik
xk )2 ,
k 1,2,, p
三、类与类之间的距离
用 Gp 和Gq 分别代表两个类,它们所包含的样品个数 分别记为 n p 和 nq ,类 Gp 和 Gq 之间的距离记为 D(Gp ,Gq ) 。 下面给出三种最常用的定义方法。
1、计算相似系数矩阵 R (或样品的距离矩阵 D ) 其中 D (dij )nn 或 R (rij ) pp 的算法见一。
2、将 R (或 D )中的元素压缩到 0 与 1 之间形成模糊矩阵 我们统一记为 A (aij )nn ;例如对相似系数矩阵
R (rij ) pp ,可令
aij
1 2
3、类平均距离
D(Gp ,Gq )
1 n p nq
xi G p
d ij
x jGq
类与类之间的类平均距离有如下的递推公式,设 Gr
为由 Gp 和 Gq 合并所得,则 Gr 与其它类 Gk (k p, q) 的类平均
距离为
D(Gr ,Gk
)
np nr
D(Gp ,Gk )
nq nr
D(Gq ,Gk )
C A• B ,其中 和 的含义为
a b max{a,b}, a b min{a,b}
显然,两个模糊矩阵的乘积仍为模糊矩阵。
设方阵 A 为一个模糊矩阵,若 A 满足 A• A A, 则称 A 为模糊等价矩阵。模糊等价矩阵可以反映模糊 分类关系的传递性,即描述诸如“甲象乙,乙象丙,
则甲象丙”这样的关系。 设 A (aij )nn 为一个模糊等价矩阵, 0 1为一
3、 欧氏距离
p
21
d (x(i) , x( j) ) [ xik x jk ]2
k 1
二、变量间的相似系数
相似系数越接近 1,说明变量间的关联程度越好。
常用的变量间的相似系数有
1、 夹角余弦
rij 2、 相关系数
n
xkixkj
k 1
n
n
(xki )2 (xkj )2
k 1
k 1
n
(xki xi )(xkj x j )
城镇居民生活消费的分布规律,需要用调查资料对这 5 个
省分类。数据见下表:
指标
X1
X2 X3
X4 X5
X6 X7
X8
省份
辽宁
7.90 39.77 8.49 12.94 19.27 11.05 2.04 13.29
浙江
7.68 50.37 11.35 13.30 19.25 14.59 2.75 14.87
其中 nr n p nq 。
以上类与类之间的距离,不但适用于 Q 型聚类,同 样也适合于 R 型聚类,这只要将 dij 用变量间的相似系数 rij 代替就行了。为简单起见以下均记成 dij 。
二、系统聚类法
系统聚类法是目前最流行的方法。
有了样品间的距离(或变量间的相似系数)以及类
与类之间的距离后,便可进行系统聚类,基本步骤如下:
2、最长距离 D(Gp ,Gq ) max (dij x(i) Gp ,x( j) Gq )
类与类之间的最长距离有如下的递推公式,设 Gr 为由 Gp 和 Gq 合并所得,则 Gr 与其它类 Gk (k p, q) 的最长 距离为
D(Gr , Gk ) max {D(G p , Gk ), D(Gq ,Gk )}
一、分类统计量
聚类分析的研究内容包括两个方面,一是对样品进 行分类,称为 Q 型聚类法,使用的统计量是样品间的 距离;二是对变量进行分类,称为 R 型聚类法,使用 的统计量是变量间的相似系数。
设 共 有 n 个 样 品 , 每 个 样 品 x(i) 有 p 个 变 量 x1, x2 ,, x p ,它们的观测值可以表示为
rij
k 1 n
n
(xki xi )2 • (xkj x j )2
k 1
k 1
值得注意的是,当变量的测量值相差较大时,直接使
用以上各式计算距离或相似系数常使数值较小的变量失去
作用,为此需应先对数据进行标准化,然后再用标准化的
数据来计算。标准化的具体方法是:
xi*k
xik xk sk
,
其中
若矩阵 A 的各元素 aij 满足 0 aij 1,则称 A 为模糊矩阵。 设 A (aij )np 和 B (bij ) pm 为两个模糊矩阵,令
p
cij k1(aik bkj ), i 1,2,, n, j 1,2,, m
则称矩阵 C (cij )nm 为模糊矩阵 A 与 B 的乘积,记为
例2 从某大学男生中随机抽取10名,测得其身高 x1(单位:cm)和体重x2(单位:kg)的数值下表,样品 间采用欧氏距离的平方,试用最短距离法进行系统 聚类并画出系统聚类图。
x1 170 173 180 185 168 165 177 165 178 182
x2 66 66 68 72 63 62 68 59 69 71
§7.3
聚类分析
在科学研究、生产实践、社会生活中,经常会遇到分 类的问题。例如:
根据学生考试成绩的高低将学生的学习情况分成几个 档次;
在考古学中,要将某些古生物化石进行科学的分类; 在生物学中,要根据各生物体的综合特征进行分类; 在经济学中,要考虑哪些经济指标反映的是同一种经 济特征; 在产品质量管理中,要根据各产品的某些重要指标而 将其合理地分为几个等级等等。
12.80
23.54
3.51
2.21
0
下面给出采用最短距离法的聚类过程:首先将 5 个省各看成一类,即令 Gi {i}, (i 1,2,3,4,5) 。从 D0 可以看 出,其中最小的元素是 D({4},{3}) d43 2.20 ,故将 G3 和 G4 合并成一类 G6 ,然后利用递推公式计算 G6 与 G1 ,G2 ,G5 之间的最短距离。 D({3,4},{1}) min{ d31, d41} min{13.80,13.12) 13.12 D({3,4},{2}) min{ d32 , d42} min{ 24.63,24.06) 24.06 D({3,4},{5}) min{ d35 , d45} min{3.51,2.21) 2.21
随着人类社会的发展与科学技术的进步,对分类 学的要求也越来越高。有时,仅凭经验或专业知识并 不能进行科学有效的分类,于是数学方法就被引进到 分类问题中来。
聚类分析的基本思想是:把每个分类对象称为样 品,每个样品都有若干个变量,定义能度量样品间(或 变量间)亲疏关系的统计量,在此基础上求出各样品 (或变量)之间亲疏程度的度量值,按亲疏程度的大 小,把样品(或变量)进行归类。
1、 最短距离
D(Gp ,Gq ) min (dij x(i) Gp ,x( j) Gq )
类与类之间的最短距离有如下的递推公式,设 Gr 为由 Gp 和 Gq 合并所得,则 Gr 与其它类 Gk (k p, q) 的最短 距离为
D(Gr , Gk ) min {D(G p , Gk ), D(Gq , Gk )}
{3,4,5} {1,2}
0
D2 12.80
23.54
0 11.67
, 0
D3 120.80
0
最后将 5 个省合并为一大类,画出聚类图如下:
辽宁
浙江
11.67
河南
12.80
2.20 甘肃
2.21 青海
由此可见,分成三类比较合适,即辽宁和浙江各 为一类,河南、甘肃、青海为一类。
若类与类之间的距离用最长距离或类平均距离, 也会得到相同的结论。
在 D0 中划去{3},{4}所对应的行和列,并加上新类
{3,4}到其它类距离作为新的一行一列,得到
{3,4} {1} {2} {5}
0
D1
13.12
24.06 2.21
0 11.67 12.80
0 23.54
0
重复上面的步骤,依次可得到相应的距离矩阵如下:
{3,4,5} {1} {2}
河南
9.42 27.93 8.20 8.14 16.17 9.42 1.55 9.76
甘肃
9.16 27.98 9.01 9.32 15.99 9.10 1.82 11.35
青海
10.06 28.64 10.52 10.05 16.18
8.39 1.96 10.81
其中 X1:人均粮食支出; X2:人均副食品支出; X3:人均烟、酒、茶支出; X4:人均其它副食品支出; X5:人均衣着商品支出; X6:人均日用品支出; X7:人均燃料支出; X8:人均非商品支出。
(1
rij
),
i, j 1,2,, p
对于距离矩阵 D (dij )nn ,可令
aij
1
d ij
1
max
1i, jn
d ij
,
i, j 1,2,, n
3、建立模糊等价矩阵 一般说来,上述模糊矩阵 A (aij )nn 不具有等价性,
这可以通过模糊矩阵的乘积将其转化为模糊等价阵, 具体方法是:计算
A2 A • A, A4 A2 • A2 ,,
直到满足 A2k Ak ,这时模糊矩阵 Ak 便是一个模糊等价矩 阵。记 A~ (a~ij ) Ak 。
4、聚类
将 a~ij 按由大到小的顺序排列,从 1开始,沿着 a~ij