应用多元统计分析课后习题答案详解北大
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
6
第六章 聚类分析
6-2 试证明二值变量的相关系数为(6.2.2)式,夹角余弦为(6.2.3)式.
证明:设变量Xi和Xj是二值变量,它们的n次观测值记为xti, xtj (t=1,…,n). xti, xtj 的值或为0,或为1.由二值变量的列联表(表6.5)可知:变量Xi取 值1的观测次数为a+b,取值0的观测次数为c+d;变量Xi和Xj取值均为1的观 测次数为a,取值均为0的观测次数为d 等等。利用两定量变量相关系数的 公式:
dik dkj c dik dkj c dik dkj c
dik d kj dik c dkj c
(因dik 0, dkj 0)
d
* ik
d
* kj
对一切i, k, j.
故d*是一个距离.
5
第六章 聚类分析
(4) 设d (1)和d (2)是距离, 令d * d (1) d (2) . d *虽满足前2个条件, 但不一定满足三角不等式. 下面用反例来说明d *不一定是距离.
应用多元统计分析
第六章部分习题解答
第六章 聚类分析
6-1 证明下列结论:
(1) 两个距离的和所组成的函数仍是距离;
(2) 一个正常数乘上一个距离所组成的函数仍是距离;
(3)设d为一个距离,c>0为常数,则
仍是一个距离;
d* d
(4) 两个距离的乘积所组成的函数不一定是距离; d c
证明 : (1)设d (1)和d (2)为距离, 令d d (1) d (2) . 以下来验证d满足作为距离所要求的3个条件.
n
n
8
第六章 聚类分析
n
( xtj
t 1
xj )2
n t 1
xt2j
nx
2 j
a
c
n
a
c
2
n
(a c) [n (a c)] 1 (a c)(b d )
n
n
故二值变量的相关系数为:
Cij (7)
n
(xti xi )(xtj x j )
D (1)
4 6
0 9
0
1 6
7 3
10 5
0 8
0
试用最长距离法、类平均法作系统聚类,并画出谱系聚类图.
解:用最长距离法:
① 合并{X(1),X(4)}=CL4, 并类距离 D1=1.
0
X (2)
D(2)
9 3 7
0 5 10
0 8
wk.baidu.com
X (3)
0
1 7 10 0
6 3 5 8 0
① 合并{X(1),X(4)}=CL4,并类距离 D1=1.
0
D(2)
92 32
65 2
0 52 136
2
0 100
2
X (2)
X (3)
0
X (5) CL4
14
第六章 聚类分析
② 合并{X(2),X(5)}=CL3,并类距离 D2=3.
ac n
1 [an (a b)(a c)] 1 [a(a b c d ) (a b)(a c)]
n
n
ad bc n
n
( xti
t 1
xi )2
n t 1
xt2i
nxi2
a
b
n
a
b
2
n
(a b) [n (a b)] 1 (a b)(c d )
xt2j
t 1
n
n
n
xti xtj a,
xt2i a b, xt2j a c
t 1
t 1
t 1
故有 cij (9) cosij
a (a b)(a c)
(6.2.3)
10
第六章 聚类分析
6-3 下面是5个样品两两间的距离阵
0
D(0)
12
第六章 聚类分析
最长距离法的谱系聚类图如下:
Name of Observation or Cluster
X1
X4
X2
X5
X3
0
1
2
3
4
5
6
7
8
9
10
Maximum Distance Between Clusters
13
第六章 聚类分析
用类平均法:
D(0)
D (1)
0 4 6
0 9
2
第六章 聚类分析
① ② ③
(2) 设d是距离,a >0为正常数.令d*=ad,显然有
①
d
* ij
cd i j
0, 且仅当X (i)
X
(
j
)时d
* ij
0;
②
d
* ij
cdij
cd ji
d
* ji
, 对一切i,
j;
3
第六章 聚类分析
③
d
* ij
cdij
c(dik
d kj )
t 1
n
n
(xti xi )2
(xtj x j )2
t 1
t 1
ad bc (a b)(c d ) (a c)(b d )
(6.2.2)
9
第六章 聚类分析
利用两定量变量夹角余弦的公式:
n
xti xtj
c osij
t 1 n
n
其中
xt2i
t 1
n
( xti xi )(xtj x j )
rij
t 1 n
n
(xti xi )2
( xtj x j )2
t 1
t 1
7
第六章 聚类分析
n ( xti
t 1
xi )(xtj
xj)
n t 1
xti xtj
nxi x j
anab n
cdik
cd kj
d
* ik
d
* kj
,
对一切i,
k
,
j.
故d*=ad是一个距离.
(3) 设d为一个距离,c>0为常数,显然有
①
②
4
第六章 聚类分析
③
d
* ij
dij dij c
1 1 c / dij
1
1 c /(dik
dkj )
dik dkj
dik
d kj
D(3) 1306 2 106 2
0 165 4
0
X (3)
CL4 CL3
③ 合并{CL3,CL4}=CL2,并类距离 D3=(165/4)1/2.
D(4) 1201 2
0
X (5) CL4
11
第六章 聚类分析
② 合并{X(2),X(5)}=CL3,并类距离 D2=3.
D(3) 100 9
0 8
0
X (3)
CL4 CL3
③ 合并{CL3,CL4}=CL2,并类距离 D3=8.
D(4) 100
0
X (3) CL2
④ 所有样品合并为一类CL1,并类距离 D4=10.
第六章 聚类分析
6-2 试证明二值变量的相关系数为(6.2.2)式,夹角余弦为(6.2.3)式.
证明:设变量Xi和Xj是二值变量,它们的n次观测值记为xti, xtj (t=1,…,n). xti, xtj 的值或为0,或为1.由二值变量的列联表(表6.5)可知:变量Xi取 值1的观测次数为a+b,取值0的观测次数为c+d;变量Xi和Xj取值均为1的观 测次数为a,取值均为0的观测次数为d 等等。利用两定量变量相关系数的 公式:
dik dkj c dik dkj c dik dkj c
dik d kj dik c dkj c
(因dik 0, dkj 0)
d
* ik
d
* kj
对一切i, k, j.
故d*是一个距离.
5
第六章 聚类分析
(4) 设d (1)和d (2)是距离, 令d * d (1) d (2) . d *虽满足前2个条件, 但不一定满足三角不等式. 下面用反例来说明d *不一定是距离.
应用多元统计分析
第六章部分习题解答
第六章 聚类分析
6-1 证明下列结论:
(1) 两个距离的和所组成的函数仍是距离;
(2) 一个正常数乘上一个距离所组成的函数仍是距离;
(3)设d为一个距离,c>0为常数,则
仍是一个距离;
d* d
(4) 两个距离的乘积所组成的函数不一定是距离; d c
证明 : (1)设d (1)和d (2)为距离, 令d d (1) d (2) . 以下来验证d满足作为距离所要求的3个条件.
n
n
8
第六章 聚类分析
n
( xtj
t 1
xj )2
n t 1
xt2j
nx
2 j
a
c
n
a
c
2
n
(a c) [n (a c)] 1 (a c)(b d )
n
n
故二值变量的相关系数为:
Cij (7)
n
(xti xi )(xtj x j )
D (1)
4 6
0 9
0
1 6
7 3
10 5
0 8
0
试用最长距离法、类平均法作系统聚类,并画出谱系聚类图.
解:用最长距离法:
① 合并{X(1),X(4)}=CL4, 并类距离 D1=1.
0
X (2)
D(2)
9 3 7
0 5 10
0 8
wk.baidu.com
X (3)
0
1 7 10 0
6 3 5 8 0
① 合并{X(1),X(4)}=CL4,并类距离 D1=1.
0
D(2)
92 32
65 2
0 52 136
2
0 100
2
X (2)
X (3)
0
X (5) CL4
14
第六章 聚类分析
② 合并{X(2),X(5)}=CL3,并类距离 D2=3.
ac n
1 [an (a b)(a c)] 1 [a(a b c d ) (a b)(a c)]
n
n
ad bc n
n
( xti
t 1
xi )2
n t 1
xt2i
nxi2
a
b
n
a
b
2
n
(a b) [n (a b)] 1 (a b)(c d )
xt2j
t 1
n
n
n
xti xtj a,
xt2i a b, xt2j a c
t 1
t 1
t 1
故有 cij (9) cosij
a (a b)(a c)
(6.2.3)
10
第六章 聚类分析
6-3 下面是5个样品两两间的距离阵
0
D(0)
12
第六章 聚类分析
最长距离法的谱系聚类图如下:
Name of Observation or Cluster
X1
X4
X2
X5
X3
0
1
2
3
4
5
6
7
8
9
10
Maximum Distance Between Clusters
13
第六章 聚类分析
用类平均法:
D(0)
D (1)
0 4 6
0 9
2
第六章 聚类分析
① ② ③
(2) 设d是距离,a >0为正常数.令d*=ad,显然有
①
d
* ij
cd i j
0, 且仅当X (i)
X
(
j
)时d
* ij
0;
②
d
* ij
cdij
cd ji
d
* ji
, 对一切i,
j;
3
第六章 聚类分析
③
d
* ij
cdij
c(dik
d kj )
t 1
n
n
(xti xi )2
(xtj x j )2
t 1
t 1
ad bc (a b)(c d ) (a c)(b d )
(6.2.2)
9
第六章 聚类分析
利用两定量变量夹角余弦的公式:
n
xti xtj
c osij
t 1 n
n
其中
xt2i
t 1
n
( xti xi )(xtj x j )
rij
t 1 n
n
(xti xi )2
( xtj x j )2
t 1
t 1
7
第六章 聚类分析
n ( xti
t 1
xi )(xtj
xj)
n t 1
xti xtj
nxi x j
anab n
cdik
cd kj
d
* ik
d
* kj
,
对一切i,
k
,
j.
故d*=ad是一个距离.
(3) 设d为一个距离,c>0为常数,显然有
①
②
4
第六章 聚类分析
③
d
* ij
dij dij c
1 1 c / dij
1
1 c /(dik
dkj )
dik dkj
dik
d kj
D(3) 1306 2 106 2
0 165 4
0
X (3)
CL4 CL3
③ 合并{CL3,CL4}=CL2,并类距离 D3=(165/4)1/2.
D(4) 1201 2
0
X (5) CL4
11
第六章 聚类分析
② 合并{X(2),X(5)}=CL3,并类距离 D2=3.
D(3) 100 9
0 8
0
X (3)
CL4 CL3
③ 合并{CL3,CL4}=CL2,并类距离 D3=8.
D(4) 100
0
X (3) CL2
④ 所有样品合并为一类CL1,并类距离 D4=10.