应用多元统计分析课后习题答案详解北大高惠璇习题解答课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
应用多元统计分析课后习题答 案详解北大高惠璇(习题解答)
第六章 聚类分析
6-1 证明下列结论:
(1) 两个距离的和所组成的函数仍是距离;
(2) 一个正常数乘上一个距离所组成的函数
仍是距离;
(3)设d为一个距离,c>0为常数,则 d * d
仍是一个距离;
d c
(4) 两个距离的乘积所组成的函数不一定是
0
d *虽满足前2个条件,但不一定满足三角不等式.
下面用反例来说明d *不一定是距离.
设di(j1)
d (2) ij
X (i) X ( j) (m 1), 则di*j
X (i) X ( j)
2
.
当X (i)
0,
X( j)
1,
X (k )
0.5时, di*j
1,
d
* ik
0
D(0) D(1) 64
0 9
0
16
7 3
10 5
0 8
0
试用最长距离法、类平均法作系统聚类,并画出谱系
聚类图.
解:用最长距离法:
① 合并{X(1),X(4)}=CL4,
并类距离 D1=1.
D(2)
0 9 3 7
0 5 10
0 8
X (2) X (3)
1 4
,
d
* kj
1. 4
显然不满足d
* ij
di*k
d
* kj
.
6
第六章 聚类分析
6-2 试证明二值变量的相关系数为(6.2.2)式,夹角余
弦为(6.2.3)式.
证明:设变量Xi和Xj是二值变量,它们的n次观测值记 为xti, xtj (t=1,…,n). xti, xtj 的值或为0,或为1.由二值变 量的列联表(表6.5)可知:变量Xi取值1的观测次数 为a+b,取值0的观测次数为c+d;变量Xi和Xj取值均为1的 观测次数为a,取值均为0的观测次数为d 等等。利用两 定量变量相关系数的公式:
dik dkj c dik dkj c dik dkj c
dik dkj dik c dkj c
(因dik 0, dkj 0)
di*k
d
* kj
对一切i, k, j.
故d*是一个距离.
5
第六章 聚类分析
(4) 设d (1)和d (2)是距离, 令d * d (1) d (2).
0
X (5) CL4
11
第六章 聚类分析
② 合并{X(2),X(5)}=CL3,并类距离 D2=3.
D(3) 100 9
0 8
0CCXL(L334)
③ 合并{CL3,CL4}=CL2,并类距离 D3=8.
D(4) 100 0CX(3L2)
④ 所有样品合并为一类CL1,并类距离 D4=10.
n
n
adbc n
n
(xti
t1
xi)2
n
t1
xt2i
nxi2
abnab2 n
(ab)[n(ab)]1(ab)(cd)
n
n
8
第六章 聚类分析
n (xtj
t1
xj)2
n
t1
xt2j
nx2j
acnac2 n
距离;
证明: (1)设d (1)和d (2)为距离, 令d d (1) d (2).
以下来验证d满足作为距离所要求的3个条件.
2
第六章 聚类分析
①
dij
d (1) ij
d
(2) ij
0,且仅当X (i)
X ( j)时dij
0;
②
dij
d (1) ij
d
(2) ij
d (1) ji
0,且仅当X (i)
X ( j)时di*j
0;
②
d
* ij
dij dij
c
d
d ji ji
c
d
* ji
,
对一切i,
j;
4
第六章 聚类分析
③
d
* ij
dij dij c
1 1 c / dij
1
1 c /(dik
dkj )
dik dkj
dik
d kj
n
(xti xi)(xtj xj )
rij
t1 n
n
(xti xi)2
(xtj xj )2
t1
t1
7
第六章 聚类分析
n
(xti xi)(xtj
t1
n
xj) xtixtj
t1
nxixj
anabac nn
1[an(ab)(ac)]1[a(abcd)(ab)(ac)]
n
xti xtj
cosij
t 1 n
n
其中
xt2i
xt2j
t 1
t 1
n
n
n
xti xtj a, xt2iab, xt2jac
t 1
t1
t1
故有 cij(9)co ijs(ab a )a (c) (6.2.3)
10
第六章 聚类分析
6-3 下面是5个样品两两间的距离阵
②
Hale Waihona Puke Baidudi*j
cdij
cd ji
d
* ji
, 对一切i,
j;
3
第六章 聚类分析
③ di*j cdij c(dik dkj ) cdik cdkj
di*k
d
* kj
,
对一切i,
k
,
j.
故d*=ad是一个距离.
(3) 设d为一个距离,c>0为常数,显然有
①
d
* ij
dij dij c
12
第六章 聚类分析
最长距离法的谱系聚类图如下:
Name of Observation or Cluster
X1
X4
X2
X5
X3
0
1
2
3
4
5
6
7
8
9
10
Maximum Distance Between Clusters
13
第六章 聚类分析
用类平均法:
D(0)
D(1)
0 4 6
0 9
(ac)[n(ac)]1(ac)(bd)
n
n
故二值变量的相关系数为:
n
Cij(7)
(xtixi)x(tjxj)
t1
a dbc
n
n
(xtixi)2 (xtjxj)2
(ab)c(d) (ac)b(d)
t1
t1
(6.2.2)
9
第六章 聚类分析
利用两定量变量夹角余弦的公式:
d
(2) ji
d ji, 对一切i,
j;
③
dij
d (1) ij
d
(2) ij
d (1) ik
d
(1) kj
d (2) ik
d (2) kj
dik dkj , 对一切i, k, j.
(2) 设d是距离,a >0为正常数.令d*=ad,显然有
① di*j cdij 0,且仅当X (i) X ( j)时di*j 0;
第六章 聚类分析
6-1 证明下列结论:
(1) 两个距离的和所组成的函数仍是距离;
(2) 一个正常数乘上一个距离所组成的函数
仍是距离;
(3)设d为一个距离,c>0为常数,则 d * d
仍是一个距离;
d c
(4) 两个距离的乘积所组成的函数不一定是
0
d *虽满足前2个条件,但不一定满足三角不等式.
下面用反例来说明d *不一定是距离.
设di(j1)
d (2) ij
X (i) X ( j) (m 1), 则di*j
X (i) X ( j)
2
.
当X (i)
0,
X( j)
1,
X (k )
0.5时, di*j
1,
d
* ik
0
D(0) D(1) 64
0 9
0
16
7 3
10 5
0 8
0
试用最长距离法、类平均法作系统聚类,并画出谱系
聚类图.
解:用最长距离法:
① 合并{X(1),X(4)}=CL4,
并类距离 D1=1.
D(2)
0 9 3 7
0 5 10
0 8
X (2) X (3)
1 4
,
d
* kj
1. 4
显然不满足d
* ij
di*k
d
* kj
.
6
第六章 聚类分析
6-2 试证明二值变量的相关系数为(6.2.2)式,夹角余
弦为(6.2.3)式.
证明:设变量Xi和Xj是二值变量,它们的n次观测值记 为xti, xtj (t=1,…,n). xti, xtj 的值或为0,或为1.由二值变 量的列联表(表6.5)可知:变量Xi取值1的观测次数 为a+b,取值0的观测次数为c+d;变量Xi和Xj取值均为1的 观测次数为a,取值均为0的观测次数为d 等等。利用两 定量变量相关系数的公式:
dik dkj c dik dkj c dik dkj c
dik dkj dik c dkj c
(因dik 0, dkj 0)
di*k
d
* kj
对一切i, k, j.
故d*是一个距离.
5
第六章 聚类分析
(4) 设d (1)和d (2)是距离, 令d * d (1) d (2).
0
X (5) CL4
11
第六章 聚类分析
② 合并{X(2),X(5)}=CL3,并类距离 D2=3.
D(3) 100 9
0 8
0CCXL(L334)
③ 合并{CL3,CL4}=CL2,并类距离 D3=8.
D(4) 100 0CX(3L2)
④ 所有样品合并为一类CL1,并类距离 D4=10.
n
n
adbc n
n
(xti
t1
xi)2
n
t1
xt2i
nxi2
abnab2 n
(ab)[n(ab)]1(ab)(cd)
n
n
8
第六章 聚类分析
n (xtj
t1
xj)2
n
t1
xt2j
nx2j
acnac2 n
距离;
证明: (1)设d (1)和d (2)为距离, 令d d (1) d (2).
以下来验证d满足作为距离所要求的3个条件.
2
第六章 聚类分析
①
dij
d (1) ij
d
(2) ij
0,且仅当X (i)
X ( j)时dij
0;
②
dij
d (1) ij
d
(2) ij
d (1) ji
0,且仅当X (i)
X ( j)时di*j
0;
②
d
* ij
dij dij
c
d
d ji ji
c
d
* ji
,
对一切i,
j;
4
第六章 聚类分析
③
d
* ij
dij dij c
1 1 c / dij
1
1 c /(dik
dkj )
dik dkj
dik
d kj
n
(xti xi)(xtj xj )
rij
t1 n
n
(xti xi)2
(xtj xj )2
t1
t1
7
第六章 聚类分析
n
(xti xi)(xtj
t1
n
xj) xtixtj
t1
nxixj
anabac nn
1[an(ab)(ac)]1[a(abcd)(ab)(ac)]
n
xti xtj
cosij
t 1 n
n
其中
xt2i
xt2j
t 1
t 1
n
n
n
xti xtj a, xt2iab, xt2jac
t 1
t1
t1
故有 cij(9)co ijs(ab a )a (c) (6.2.3)
10
第六章 聚类分析
6-3 下面是5个样品两两间的距离阵
②
Hale Waihona Puke Baidudi*j
cdij
cd ji
d
* ji
, 对一切i,
j;
3
第六章 聚类分析
③ di*j cdij c(dik dkj ) cdik cdkj
di*k
d
* kj
,
对一切i,
k
,
j.
故d*=ad是一个距离.
(3) 设d为一个距离,c>0为常数,显然有
①
d
* ij
dij dij c
12
第六章 聚类分析
最长距离法的谱系聚类图如下:
Name of Observation or Cluster
X1
X4
X2
X5
X3
0
1
2
3
4
5
6
7
8
9
10
Maximum Distance Between Clusters
13
第六章 聚类分析
用类平均法:
D(0)
D(1)
0 4 6
0 9
(ac)[n(ac)]1(ac)(bd)
n
n
故二值变量的相关系数为:
n
Cij(7)
(xtixi)x(tjxj)
t1
a dbc
n
n
(xtixi)2 (xtjxj)2
(ab)c(d) (ac)b(d)
t1
t1
(6.2.2)
9
第六章 聚类分析
利用两定量变量夹角余弦的公式:
d
(2) ji
d ji, 对一切i,
j;
③
dij
d (1) ij
d
(2) ij
d (1) ik
d
(1) kj
d (2) ik
d (2) kj
dik dkj , 对一切i, k, j.
(2) 设d是距离,a >0为正常数.令d*=ad,显然有
① di*j cdij 0,且仅当X (i) X ( j)时di*j 0;