应用多元统计分析课后答案-暴强整理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章
2.1 试述多元联合分布和边缘分布之间的关系。
设X =(X 1,X 2,⋯X p )′
是p 维随机向量,称由它的q (<p )个分量组成的子向量X
(i)
=(X i1,X i2,⋯X iq )′
的分布为X 的边缘分布,相对
地把X 的分布称为联合分布。
当X 的分布函数为F (x 1,x 2,⋯x p )时,X (1)的分布函数即边缘分布函数为F (x 1,x 2,⋯x p )=P(X 1≤x 1,⋯X q ≤x q ,X q+1≤∞,⋯X p ≤∞) = F (x 1,x 2,⋯x q ,∞,⋯∞)
当X 有分布密度f (x 1,x 2,⋯x p )则X (1)也有分布密度,即边缘密度
函数为:f (x 1,x 2,⋯x q )=∫⋯+∞−∞∫f (x 1,x 2,⋯x p )dx q+1⋯d +∞
−∞
x p 2.2 设随机向量X =(X 1,X 2)′服从二元正态分布,写出其联合分布密度函数和X 1,X 2各自的边缘密度函数。
联合分布密度函数
1
2πσ1σ2(1−ρ)
exp{−12(1−ρ)
[(x 1−μ1)2
σ1
2−
2ρ(x 1−μ1)(x 2−μ2)
σ1σ2
+
f (x 1,x 2)=
(x 2−μ2)2
σ2
2]} , x 1>0,x 2>0
0 , 其他
(x 1−μ1)2
σ1
2−
2ρ(x 1−μ1)(x 2−μ2)
σ1σ2
+
(x 2−μ2)2
σ2
2=
(x 1−μ1)2
σ1
2−
2ρ(x 1−μ1)(x 2−μ2)
σ1σ2
+
(x 2−μ2)2
σ22+ρ2(x 1−μ1)2
σ1
2−
ρ2(x 1−μ1)2
σ1
2=[
ρ(x 1−μ1)
σ1
−
(x 2−μ2)σ2
]2
+(1−ρ2)
(x 1−μ1)2
σ1
2
所以指数部分变为−1
2{[1121−2222
]
2
+
(x 1−μ1)2
σ1
2}
令t=2222−1121 ∴dt =22
2
∴f (x 1)=∫f (x 1,x 2)+∞
−∞
dx 2=1
2πσ1σ2(1−ρ)
exp{−(x 1−μ1)2
2σ1
2∫exp(+∞
−∞
−12t 222dt =√2πσexp[−(x 1−μ1)22σ1
2] √2πσexp[−
(x 1−μ1)2
2σ1
2] , x 1>0
f (x 1)=
0 ,其他 同理, √2πσ2
exp[−
(x 2−μ2)2
2σ2
2] , x 2>0
f (x 2)=
0 ,其他
2.3 已知随机向量X =(X 1,X 2)′的联合分布密度函数为f (x 1,x 2)=
2[(d−c )(x 1−a )+(b−a )(x 2−c )−2(x 1−a)(x 2−c)
(b−a)(d−c),其中,a ≤x 1≤b,c ≤x 2≤d 。
求:
(1) 随机变量各自的边缘密度函数、均值与方差。
解
:
f (x 1)=
∫f (x 1,x 2)dx 2d
c =∫2[(d−c )(x 1−a )+(b−a )(x 2−c )−2(x 1−a)(x 2−c)
(b−a)2(d−c)2
dx 2d c
=
2[(d−c )(x 1−a )(b−a)(d−c)+
(b−a )
(b−a)(d−c)∫2(x 2
−c )d
c
dx 2−
2(x 1−a )(b−a)(d−c)∫2(x 2
−c )d
c dx 2=
1b−a
同理,
f (x 2)=∫f (x 1,x 2)dx 1b
a =∫2[(d−c )(x 1−a )+(b−a )(x 2−c )−2(x 1−a)(x 2−c)
(b−a)2(d−c)2
dx 1b a
=
1d−c
()()⎰⎰+=
-•
==+∞∞
-b a
b
a dx a
b x x f x x E 2
1111111 同理可得()2
2d c x E +=
()()()
()()()⎰⎰
-=-•⎪⎭⎫ ⎝
⎛
+-=-=∞
+∞
-b
a b a dx a b b a x x d x f x E x x D 12122
12
11112
111 同理可得()()12
2
2d c x D -=
(2) 随机变量的协方差和相关系数。
E(x 1)= ∫x 1f (x 1)dx 1b
a =∫x 11b−a dx 1b
a =
b+a 2 E(x 2)= ∫x 2f (x 2)dx 2d
c =∫x 21d−c
dx 2d
c =
d+c
2
E(x 12
)
= ∫x 12f (x 1)dx 1b a =∫x 121b−a dx 1b a =13
(b 2+ab +a 2)
E(x 22)= ∫x 22f (x 2)dx 2d
c =∫x 22
1d−c
dx 2=d
c
13
(d 2+dc +c 2)
D(x 1)= E(x 12)−E(x 1)2=112(b −a)2 D(x 2)= E(x 22)−E(x 2)2=
112
(d −c)2
Cov (x 1,x 2)= E(x 1x 2)−E(x 1)E(x 2) E(x 1x 2)=∫dx 1b
a ∫x 1x 2d
c f (x 1,x 2) dx 2=16
(2b +a )(d +c )+1
6
(2d +
c )(b +a )−19(2b +a )(2
d +c)
∴Cov (x 1,x 2).=1
36
(a −b )(d −c )
∴ρ=
12D(x 1)D(x 2)
=
1
36(a−b )(d−c )1
12
(b−a )(d−c )=−1
3
(3) 判断是否独立。
∵f (x 1) f (x 2)=1(b −a)1
(d −c)
≠f (x 1,x 2)
∴x 1,x 2不相互独立。
2.4设随机向量X =(X 1,X 2,⋯X p )′
服从正态分布,已知其协差阵为对角阵,证明的分量是相互独立的随机变量。
∵Σ=
Σ11
Σ
22
⋱ Σpp
Σij =0 ,i ≠j ∴x i 与x j 不相关
又∵X =(X 1,X 2,⋯X p )′
服从正态分布
∴x i 与x j 相互独立。
(i ≠j ,i ,j =1,2,⋯,p ) 2.5
解: 依据题意,X= 570001540200
162145012 27000144187503612000381 21900
845000
1528350
8 132001902100013812000
26
E(X)=1n
∑x (α)6α=1=(35650,12.33,17325,152.5)′
D(X)= 1
n
∑(x (α)6α=1−x
̅)(x (α)−x ̅)′
= 16799000032416.67 32415.66710.8889 69768750−61400
13925−29.833
6976875013925−614000−29.833 30478125−166562.5
−166562.513912.583
注:利用 11p n n ⨯'=1X X , S 1()n n n n
''=-11X I X 其中 1
00
1n ⎡⎤
⎢⎥=⎢⎥⎢⎥⎣⎦
O I 在SPSS 中求样本均值向量的操作步骤如下:
1. 选择菜单项Analyze →Descriptive Statistics →Descriptives ,打开Descriptives 对话框。
将待估计的四个变量移入右边的Variables 列表框中,如图2.1。
图2.1 Descriptives对话框
2.单击Options按钮,打开Options子对话框。
在对话框中选择Mean复选框,即计
算样本均值向量,如图2.2所示。
单击Continue按钮返回主对话框。
图2.2 Options子对话框
3.单击OK按钮,执行操作。
则在结果输出窗口中给出样本均值向量,如表2.1,即
样本均值向量为(35.3333,12.3333,17.1667,1.5250E2)。
表2.1 样本均值向量
在SPSS中计算样本协差阵的步骤如下:
1.选择菜单项Analyze→Correlate→Bivariate,打开Bivariate Correlations对话框。
将三个变量移入右边的Variables列表框中,如图2.3。
图2.3 Bivariate Correlations对话框
2.单击Options按钮,打开Options子对话框。
选择Cross-product deviations and
covariances复选框,即计算样本离差阵和样本协差阵,如图2.4。
单击Continue 按钮,返回主对话框。
图2.4 Options子对话框
3.单击OK按钮,执行操作。
则在结果输出窗口中给出相关分析表,见表2.2。
表中
Covariance给出样本协差阵。
(另外,Pearson Correlation为皮尔逊相关系数矩阵,Sum of Squares and Cross-products为样本离差阵。
)
2.6均值向量和协差阵的最大似然估计量具有哪些优良性质?
1.()E =X μ,即X 是μ的无偏估计;
11()n E n
n -=
S Σ,即1
n S 不是Σ的无偏估计, 而1()1E n =-S Σ,即1
1n -S 是Σ的无偏估计;
2.X ,1
1n -S 分别是μ,Σ的有效估计;
3.X ,1n S (或1
1
n -S )分别是μ,Σ的一致估计(相合估计)。
()E =X μ lim n→∞
E(1 S )=lim n→∞
E(
1
S )=Σ 2.7 试证多元正态总体 的样本均值向量
证明: E (X ̅)=E (1n
ΣX (α))=1n
E (ΣX (α)
)=nμ
n
=μ D (X ̅)=D (1n
ΣX (α))=
1n
2
ΣD(X (α))=1n
2
nΣ=Σ
n
∴X ̅~N P (μ,Σ
n
)
2.8 试证多元正态总体N P (μ,Σ) 的样本协差阵 1n−1
S 为Σ 的无偏估
计。
证明:E(Σ̂)=1
n
E[∑(x i n i=1−x
̅)(x i −x ̅)′] =1
n E {∑[(x i n i=1−μ)−(x
̅−μ)][(x i −μ)−(x ̅−μ)]′} =1n
E[∑(x i −μ)(x i −μ)′−n (x ̅−μ)(x ̅−μ)′n i=1] =E [∑(V(x i n i=1))−nV(x
̅)]= 1
n
(nΣ−n ×1
n
Σ) =n−1n
Σ
∵n n−1Σ
̂是Σ的无偏估计,S =n Σ̂ ∴1n−1
S 为 Σ 的无偏估计
2.9 设X (1),X (2),⋯X (n ) 是从多元正态总体N P (μ,Σ) 中独立抽取的一
个随机样本,试求样本协差阵
1
n−1
S 的分布。
解:∵()~(,)a p N X μΣ,n a ,,2,1Λ=且相互独立,则样本离
差阵()()1
()()~(1,)n
a a p a W n ='=---∑S X X X X Σ,其中()11n
a a n ==∑X X
∴样本协差阵
1n−1
S 的分布为W p (1, Σ)
2.10 设 X i (n i ×p )是来自N P (μ,Σ)的数据阵,i=1,2, ⋯,k
(1)已知μ1=⋯=μk =μ 且 Σ1=⋯=Σk =Σ,求μ和Σ 的估计。
(2)已知Σ1=⋯=Σk =Σ,求μ1,⋯,μk 和 Σ 的估计。
这道题我对自己的答案不是很确定。
第三章
3.1 试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步骤。
其基本思想和步骤均可归纳为: 答:
第一,提出待检验的假设H 0和H1;
第二,给出检验的统计量及其服从的分布;
第三,给定检验水平,查统计量的分布表,确定相应的临界 值,从而得到否定域;
第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。
均值向量的检验:
统计量 拒绝域
均值向量的检验:
在单一变量中
当2σ已知 X z =/2||z z α>
当2σ未知 X t =
/2||(1)t t n α>-
(2
21
1()1n
i i S X X n ==--∑作为2σ的估计量)
一个正态总体00H =μμ:
协差阵Σ已知 212000()()~()T n p χ-'=--X μΣX μ 22
0T αχ>
协差阵Σ未知 2(1)1~(,)(1)n p T F p n p n p --+-- 2
(1)n p T F n p
α->-
(2
00())]T n -'=---X μS
X μ)
两个正态总体012H =μμ: 有共同已知协差阵 2120()()~()n m T p n m
χ-⋅'=
--+X Y ΣX Y 22
0T α
χ> 有共同未知协差阵 2
(2)1~(,1)(2)n m p F T F p n m p n m p
+--+=
+--+- F F α>
(其中 2
1(2)))T n m -'⎤⎤
=+---⎥⎥⎦⎦
X Y S X Y )
协差阵不等m n = -1()~(,)n p n
F F p n p p
-'=
-Z S Z F F α> 协差阵不等m n ≠ 1()~(,)n p n
F F p n p p
-'=--Z S Z F F α>
多个正态总体k H μμμ===Λ210: 单因素方差 (1)
~(1,)()
SSA k F F k n k SSE n k -=
--- F F α>
多因素方差 ~(,,1)p n k k Λ==Λ--+E E
T A E
协差阵的检验 检验0=ΣΣ
0p H =ΣI : /2
/21exp 2np n e tr n λ⎧⎫⎛⎫
=-⎨⎬ ⎪
⎩⎭⎝⎭
S S
00p H =≠ΣΣI : /2
/2**1exp 2np n e tr n λ⎧⎫⎛⎫
=-⎨⎬ ⎪
⎩⎭⎝⎭
S S
检验12k ===ΣΣΣL 012k H ===ΣΣΣL :
统计量/2/2
/2
/2
1
1
i i k
k
n n pn np k i
i
i i n
n
λ===∏∏S
S
3.2 试述多元统计中霍特林T 2分布和威尔克斯⋀分布分别与一元统计中t 分布和F 分布的关系。
答:(!)霍特林T 2分布是t 分布对于多元变量的推广。
22
212
()()()()n X t n X S X S
μμμ--'==--而若设~(,)p N X μΣ,~(,)p W n S Σ且X 与S
相互独立,p n ≥,则称统计量T 2=n (X −μ)′S −1(X −μ)的分布为非中心霍特林T 2分布。
若~(,)p N X 0Σ,~(,)p W n S Σ且X 与S 相互独立,令21T n -'=X S X ,则
2
1~(,1)n p T F p n p np
-+-+ 。
(2)威尔克斯⋀分布在实际应用中经常把⋀统计量化为2T 统计量进而化为F 统计量,利用F 统计量来解决多元统计分析中有关检验问题。
3.3 试述威尔克斯统计量在多元方差分析中的重要意义。
答:威尔克斯统计量在多元方差分析中是用于检验均值的统计量。
012k H ===μμμL : 1i j H i j ≠≠μμ:至少存在使
用似然比原则构成的检验统计量为 ~(,,1)p n k k Λ=
=Λ--+E E T A E
给定检验水平α,查Wilks 分布表,确定临界值,然后作出统计判断。
第四章
4.1 简述欧几里得距离与马氏距离的区别和联系。
答: 设p 维欧几里得空间R p 中的两点X =(X 1,X 2⋯X P )′和Y =(Y 1,Y 2⋯Y P )′。
则欧几里得距
离为∑(X i −Y i )2p
i=1。
欧几里得距离的局限有①在多元数据分析中,其度量不合理。
②会受到实际问题中量纲的影响。
设X,Y 是来自均值向量为μ,协方差为Σ的总体G 中的p 维样本。
则马氏距离为D(X,Y)=(X −Y )′Σ
−1
(X −Y )。
当Σ
−1
=I 即单位阵时,D(X,Y)=(X −Y )′(X −Y )=∑(X i −
p
i=1Y i )2即欧几里得距离。
因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。
4.2 试述判别分析的实质。
答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。
设R1,R2,…,Rk 是p 维空间R p 的k 个子集,如果它们互不相交,且它们的和集为R p ,则称R 1,R 2⋯R p 为R p 的一个划分。
判别分析问题实质上就是在某种意义上,以最优的性质对p 维空间R p 构造一个“划分”,这个“划分”就构成了一个判别规则。
4.3 简述距离判别法的基本思想和方法。
答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。
其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。
①两个总体的距离判别问题
设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是μ1和μ 2,对于一个新的样品X ,
要判断它来自哪个总体。
计算新样品X 到两个总体的马氏距离D 2(X ,G 1)和D 2
(X ,G 2),则
X ∈G 1 ,D 2(X ,G 1)≤ D 2
(X ,G 2)
X ∈G 2 ,D 2(X ,G 1)> D 2
(X ,G 2, 具体分析,
2212(,)(,)
D G D G -X X
111122111111
111222*********
()()()()
2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2()
22()2()
---''=-++-'
+⎛
⎫=--- ⎪⎝
⎭''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为
X ∈G 1 ,W(X)≥0 X ∈G 2 ,W(X)<0
②多个总体的判别问题。
设有k 个总体k G G G ,,,21Λ,其均值和协方差矩阵分别是和k ΣΣΣ,,,21Λ,且ΣΣΣΣ====k Λ21。
计算样本到每个总体的马氏距离,到哪个总体的距离最小就属于哪个总体。
具体分析,21
(,)()()D G ααα-'=--X X μΣX μ
1111
22()C α
αααα----'''=-+''=-+X ΣX μΣX μΣμX ΣX I X
取ααμΣI 1-=,αααμΣμ1
2
1-'-=C ,k ,,2,1Λ=α。
可以取线性判别函数为
()W C αα
α'=+X I X , k ,,2,1Λ=α 相应的判别规则为i G ∈X 若 1()max()i k
W C α
αα≤≤'=+X I X
4.4 简述贝叶斯判别法的基本思想和方法。
基本思想:设k 个总体,其各自的分布密度函数)(,),(),(21x x x k f f f Λ,假设k 个总体各自出现的概率分别为k q q q ,,,21Λ,0≥i q ,
11
=∑=k
i i
q。
设将本来属于i G 总体的样品
错判到总体j G 时造成的损失为)|(i j C ,。
设k 个总体相应的p 维样本空间为 ),,,(21k R R R R Λ=。
在规则R 下,将属于的样品错判为j G 的概率为
x x d f R i j P j
R i )(),|(⎰= j i k
j i ≠=,,2,1,Λ
则这种判别规则下样品错判后所造成的平均损失为
∑==k
j R i j P i j C R i r 1
)],|()|([)|( k i ,,2,1Λ=
则用规则R 来进行判别所造成的总平均损失为
∑==k
i i R i r q R g 1
),()(
∑∑===k i k
j i R i j P i j C q 1
1
),|()|(
贝叶斯判别法则,就是要选择一种划分,使总平均损失)(R g 达到极小。
基本方法:∑∑===
k i k
j i R i j P i j C q R g 1
1),|()|()(
x x d f i j C q k
i k
j R i i j
∑∑⎰===1
1
)()|(
k μμμ,,,21Λk G G G ,,,21Λk j i ,,2,1,Λ=k G G G ,,,21Λi G k R R R ,,,21Λ
∑⎰∑===k j R k
i i i j
d f i j C q 1
1
))()|((x x
令
1
(|)()()k i
i
j
i q C j i f h ==∑x x ,则 ∑⎰
==k
j R j j d h R g 1
)()(x x
若有另一划分),,,(**2*
1*
k
R R R R Λ=,∑⎰
==k
j R j j
d h R g 1
*
*)()(x x
则在两种划分下的总平均损失之差为
∑∑⎰
==⋂-=-k i k
j R R j i j
i d h h R g R g 11
*
*)]()([)()(x x x
因为在i R 上)()(x x j i h h ≤对一切j 成立,故上式小于或等于零,是贝叶斯判别的解。
从而得到的划分)
,,,(21k R R R R Λ=为
1{|()min ()}
i i j j k
R h h ≤≤==x x x k i ,,2,1Λ=
4.5 简述费希尔判别法的基本思想和方法。
答:基本思想:从k 个总体中抽取具有p 个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数
1122()p p U u X u X u X '=+++=X u X L 系数),,,(21'=p u u u Λu 可使得总体之间区别最大,而使每个总体内部的离差最小。
将新样品的p 个指标值代入线性判别函数式中求出()U X 值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。
4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。
答:① 费希尔判别与距离判别对判别变量的分布类型无要求。
二者只是要求有各类母体的两阶矩存在。
而贝叶斯判别必须知道判别变量的分布类型。
因此前两者相对来说较为简单。
② 当k=2时,若Σ1=Σ2=Σ则费希尔判别与距离判别等价。
当判别变量服从正态分布时,二者与贝叶斯判别也等价。
③ 当Σ1≠Σ2时,费希尔判别用Σ1+Σ2作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判别不同。
④ 距离判别可以看为贝叶斯判别的特殊情形。
贝叶斯判别的判别规则是 X ∈G 1 ,W(X)≥lnd
X ∈G 2 ,W(X)<lnd 距离判别的判别规则是 X ∈G 1 ,W(X)≥0 X ∈G 2 ,W(X)<0
二者的区别在于阈值点。
当21q q =,)1|2()2|1(C C =时,1=d
,0ln =d 。
二者完全
相同。
4.7 设有两个二元总体G 1和G 2 ,从中分别抽取样本计算得到 X ̅(1)=(51), X ̅(2)=(3−2),S p =(
5.8 2.1
2.17.6
) 假设Σ1=Σ2,试用距离判别法建立判别函数和判别规则。
样品X =(6,0)
’应属于哪个总体?
解:μ̂1=X̅(1)=(51),μ̂2=X̅(2)=(3−2),μ̅̂=μ̂1+μ̂2
2=(4
−0.5
)
W p=α’(x−μ̅)=(x−μ̅)′Σ−1(μ1−μ2) (x−μ̅)′=(6,0)−(4,0.5)=(2,0.5)
Σ−1=
1
3967
(7.6−2.1
−2.1 5.8
)
(μ1−μ2)=(2,3)′
W p=(2,0.5)
1
3967
(7.6−2.1
−2.1 5.8
)(
2
3
)=
24.4
39.67
>0
∴ X ∈G1即样品X属于总体G1
4.8 某超市经销十种品牌的饮料,其中有四种畅销,三种滞销,三种平销。
下表是这十种品牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。
⑴根据数据建立贝叶斯判别函数,并根据此判别函数对原样本进行回判。
⑵现有一新品牌的饮料在该超市试销,其销售价格为3.0,顾客对其口味的评分平均为8,信任评分平均为5,试预测该饮料的销售情况。
解:增加group变量,令畅销、平销、滞销分别为group1、2、3;销售价格为X1,口味评分为X2,信任度评分为X3,用spss 解题的步骤如下:
1.在SPSS窗口中选择Analyze→Classify→Discriminate,调出判别分析主界面,
将左边的变量列表中的“group”变量选入分组变量中,将X1、X2、X3变量选入自
变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判
别分析。
2.点击Define Range按钮,定义分组变量的取值范围。
本例中分类变量的范围为
1到3,所以在最小值和最大值中分别输入1和3。
单击Continue按钮,返回主界
面。
如图4.1
图4.1 判别分析主界面
3. 单击Statistics…按钮,指定输出的描述统计量和判别函数系数。
选中Function Coefficients 栏中的Fisher’s :给出Bayes 判别函数的系数。
(注意:这个选项不是要给出Fisher 判别函数的系数。
这个复选框的名字之所以为Fisher’s ,是因为按判别函数值最大的一组进行归类这种思想是由Fisher 提出来的。
这里极易混淆,请读者注意辨别。
)如图
4.2。
单击Continue 按钮,返回主界面。
图4.2 statistics 子对话框
4. 单击Classify…按钮,弹出classification 子对话框,选中Display 选项栏中的Summary table 复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的要求。
如图4.3。
图4.3 classification 对话框
5. 返回判别分析主界面,单击OK 按钮,运行判别分析过程。
1) 根据判别分析的结果建立Bayes 判别函数:
Bayes 判别函数的系数见表4.1。
表中每一列表示样本判入相应类的Bayes 判别函数系数。
由此可建立判别函数如下:
Group1: 3761.162297.121689.11843.811X X X Y ++--= Group2: 3086.172361.131707.10536.942X X X Y ++--=
Group3: 3447.62960.41194.2449.173X X X Y ++--=
将各样品的自变量值代入上述三个Bayes 判别函数,得到三个函数值。
比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。
Classification Function Coefficients
group
1 2 3 x1 -11.689 -10.707 -2.194 x2 12.297 13.361 4.960 x3 16.761 17.086 6.447 (Constant)
-81.843
-94.536
-17.449
表4.1 Bayes 判别函数系数
根据此判别函数对样本进行回判,结果如表4.2。
从中可以看出在4种畅销饮料中,有3种被正确地判定,有1种被错误地判定为平销饮料,正确率为75%。
在3种平销饮料中,有2种被正确判定,有1种被错误地判定为畅销饮料,正确率为66.7%。
3种滞销饮料均正确判定。
整体的正确率为80.0%。
Classification Results a
group Predicted Group Membership Total
1
2
3
Original
Count
1 3 1 0 4
2 1 2 0
3 3
0 0 3 3 %
1 75.0 25.0 .0 100.0
2 33.
3 66.7 .0 100.0 3
.0
.0
100.0
100.0
a. 80.0% of original grouped cases correctly classified.
表4.2 错判矩阵
2) 该新饮料的0.31=X ,82=X ,53=X ,将这3个自变量代入上一小题得到的Bayes
判别函数,2Y 的值最大,该饮料预计平销。
也可通过在原样本中增加这一新样本,重复上述的判别过程,并在classification 子对话框中同时要求输出casewise results ,运行判别过程,得到相同的结果。
4.9 银行的贷款部门需要判别每个客户的信用好坏(是否未履行还贷责任),以决定是否给予贷款。
可以根据贷款申请人的年龄(1X )、受教育程度(2X )、现在所从事工作的年数(3X )、未变更住址的年数(4X )、收入(5X )、负债收入比例(6X )、信用卡债务(7X )、其它债务(8X )等来判断其信用情况。
下表是从某银行的客户资料中抽取的部分数据,⑴
根据样本资料分别用距离判别法、Bayes判别法和Fisher判别法建立判别函数和判别规则。
⑵某客户的如上情况资料为(53,1,9,18,50,11.20,2.02,3.58),对其进行信用好坏的判别。
解:令已履行还贷责任为group0,未履行还贷责任为group1。
令(53,1,9,18,50,11.20,2.02,3.58)客户序号为11,group未知。
用spss解题步骤如下:
1.在SPSS窗口中选择Analyze→Classify→Discriminate,调出判别分析主界面,将左边
的变量列表中的“group”变量选入分组变量中,将6
1X
X 变量选入自变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判别分析。
2.点击Define Range按钮,定义分组变量的取值范围。
本例中分类变量的范围为0到
1,所以在最小值和最大值中分别输入0和1。
单击Continue按钮,返回主界面。
3.单击Statistics…按钮,指定输出的描述统计量和判别函数系数。
选中Function
Coefficients栏中的Fisher’s和Unstandardized。
单击Continue按钮,返回主界面。
4.单击Classify…按钮,定义判别分组参数和选择输出结果。
选择Display栏中的
Casewise results,以输出一个判别结果表。
其余的均保留系统默认选项。
单击
Continue按钮。
5.返回判别分析主界面,单击OK按钮,运行判别分析过程。
1)用费希尔判别法建立判别函数和判别规则:
未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分,所以该系数使用起来比标准化的系数要方便一些。
具体见表4.3 。
表4.3 未标准化的典型判别函数系数
由此表可知,Fisher判别函数为:
X
X
X
X
X
10X .0
794
.
X
Y-
+
-
-
=
+
+
32
+
+
X
+
8
710
1
5
6
.0
383
.2
7
792
024
.0
.0
.0
687
.6
173
2
4
357
.0
3
用Y计算出各观测值的具体坐标位置后,再比较它们与各类重心的距离,就可以得知分类,如若与group0的重心距离较近则属于group0,反之亦然。
各类重心在空间中的坐标位置如表4.4所示。
表4.4 各类重心处的费希尔判别函数值
用bayes判别法建立判别函数与判别规则,由于此题中假设各类出现的先验概率相等且
误判造成的损失也相等,所以距离判别法与bayes判别完全一致。
如表4.5所示,group栏中的每一列表示样品判入相应列的Bayes判别函数系数。
由此可得,各类的Bayes判别函数如下:
X
X
X
0X
X
.
340
94
.0
693
X
118
X
+
+
-
=
+
-
G-
-
+
+
X
1
10
.
6
723
.
994
7
.
504
.
37
13
8
.1
2
070
5
3
033
.4
.2
4
943
969
X
X
X
X
184
.0
X
296
.
171
1X
+
+
+
-
=
1
+
-
X
G-
-
+
X
.6
.7
126
182
.
133
7
8
116
.
49
17
6
.1
2
5
.
874
660
086
.3
4
3
681
表4.5 Bayes判别函数系数
将各样品的自变量值代入上述两个Bayes判别函数,得到两个函数值。
比较这两个函数值,
哪个函数值比较大就可以判断该样品该判入哪一类。
2)在判别结果的Casewise Stastics表中容易查到该客户属于group0,信用好。
4.10 从胃癌患者、萎缩性胃炎患者和非胃炎患者中分别抽取五个病人进行四项生化指标的
化验:血清铜蛋白()1X、蓝色反应()2X、尿吲哚乙酸()3X和中性硫化物()4X,数据见
下表。
试用距离判别法建立判别函数,并根据此判别函数对原样本进行回判。
解:令胃癌患者、萎缩性胃炎患者和非胃炎患者分别为group1、group2、group3,由于此题中假设各类出现的先验概率相等且误判造成的损失也相等,所以距离判别法与bayes 判别完全一致。
用spss 的解题步骤如下:
1.在SPSS 窗口中选择Analyze →Classify →Discriminate ,调出判别分析主界面,将左边的变量列表中的“group ”变量选入分组变量中,将X 1、X 2、X 3、X 4变量选入自变量中,并选择Enter independents together 单选按钮,即使用所有自变量进行判别分析。
2.点击Define Range 按钮,定义分组变量的取值范围。
本例中分类变量的范围为1到3,所以在最小值和最大值中分别输入1和3。
单击Continue 按钮,返回主界面。
3.单击Statistics…按钮,指定输出的描述统计量和判别函数系数。
选中Function Coefficients 栏中的Fisher’s :给出Bayes 判别函数的系数。
4.单击Classify…按钮,弹出classification 子对话框,选中Display 选项栏中的Summary table 复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的要求。
5.返回判别分析主界面,单击OK 按钮,运行判别分析过程。
根据判别分析的结果建立Bayes 判别函数:
Bayes 判别函数的系数见表4.6。
表中每一列表示样本判入相应类的Bayes 判别函数系数。
由此可建立判别函数如下:
Group1: 4073.03778.02753.01164.0212.791X X X X Y ++++-= Group2: 4012.03317.02595.01130.0721.462X X X X Y ++++-=
Group3: 4059.03100.02637.01130.0598.493X X X X Y -+++-=
将各样品的自变量值代入上述三个Bayes 判别函数,得到三个函数值。
比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。
表4.6Bayes判别函数系数
根据此判别函数对样本进行回判,结果如表4.7。
从中可以看出在5个胃癌患者中,有4个被正确地判定,有1个被错误地判定为非胃炎患者,正确率为80%。
在5个萎缩性胃炎患者中,有4个被正确判定,有1个被错误地判定为非胃炎患者,正确率为80%。
在5个非胃炎患者中,有4个被正确判定,有1个被错误地判为萎缩性胃炎患者。
整体的正确率为80.0%。
表4.7错判矩阵
第五章
5.1 判别分析和聚类分析有何区别?
答:即根据一定的判别准则,判定一个样本归属于哪一类。
具体而言,设有n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本属于k个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。
聚类分析是分析如何对样品(或变量)进行量化分类的问题。
在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。
通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。
5.2 试述系统聚类的基本思想。
答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。
5.3 对样品和变量进行聚类分析时,所构造的统计量分别是什么?简要说明为什么这样构造?
答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。
因为我们把n个样本看作p维空间的n个点。
点之间的距离即可代表样品间的相似度。
常用的距离为
(一)闵可夫斯基距离:1/1
()()
p
q q
ij ik jk k d q X X ==-∑
q 取不同值,分为 (1)绝对距离(1q =)
1
(1)p
ij ik jk k d X X ==-∑
(2)欧氏距离(2q =)
2
1/21
(2)()p
ij ik jk k d X X ==-∑
(3)切比雪夫距离(q =∞)
1()max ij ik jk
k p
d X X ≤≤∞=-
(二)马氏距离
(三)兰氏距离
对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。
将变量看作p 维空间的向量,一般用
(一)夹角余弦
(二)相关系数
5.4 在进行系统聚类时,不同类间距离计算方法有何区别?选择距离公式应遵循哪些原则?
答: 设d ij 表示样品X i 与X j 之间距离,用D ij 表示类G i 与G j 之间的距离。
(1). 最短距离法
2
1()()()ij i j i j d M -'=--X X ΣX X 11()p ik jk
ij k ik jk X X d L p X X =-=+∑
cos p
ik jk
ij X X θ=∑
()()p
ik i jk j ij X X X X r --=∑
ij G X G X ij d D j
j i i ∈∈=
,min
,min
i k j r
kr ij X G X G D d ∈∈=
min{,}kp kq D D =
(2)最长距离法
,max
i p j q
pq ij X G X G D d ∈∈=
,max
i k j r
kr ij X G X G D d ∈∈=
max{,}kp kq D D =
(3)中间距离法
其中−1/4≤β≤0
(4)重心法
2()()pq p q p q D X X X X '=-- )(1
q q p p r
r
X n X n n X +=
22
2
2
2
p q p q kr kp kq pq r
r
r n n n n D D D D n n n =
+
-
(5)类平均法
2
21
i p j j
pq ij X G X G p q
D d n n ∈∈=
∑∑
221
i k j r
kr ij X G X G k r
D d n n ∈∈=
∑∑
2
2
p q kp kq r
r
n n D D n n =
+
(6)可变类平均法
其中β是可变的且β <1
(7)可变法
2222
1()2
kr kp kq pq D D D D ββ-=
++ 其中β是可变的且β <1 (8)离差平方和法
1
()()t
n t it t it t t S X X X X ='=--∑
2
2222121pq kq kp kr D D D D β++= 22
22
(1)()p q kr kp
kq pq
r
r
n n D D D D n n ββ=-+
+
D pq 2=
n p n q nr
=(x ̅p −x ̅q )
′(x
̅p −x ̅q )=S r −S p −S q
2
2
2
2
k p k q k kr
kp
kq pq r k
r k
r k
n n n n n D D D D n n n n n n ++=
+
-
+++
通常选择距离公式应注意遵循以下的基本原则:
(1)要考虑所选择的距离公式在实际应用中有明确的意义。
如欧氏距离就有非常明确的空间距离概念。
马氏距离有消除量纲影响的作用。
(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。
如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。
(3)要考虑研究对象的特点和计算量的大小。
样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。
实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。
5.5试述K 均值法与系统聚类法的异同。
答:相同:K —均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。
不同:系统聚类对不同的类数产生一系列的聚类结果,而K —均值法只能产生指定类数的聚类结果。
具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K —均值法确定类数的参考。
5.6 试述K 均值法与系统聚类有何区别?试述有序聚类法的基本思想。
答:K 均值法的基本思想是将每一个样品分配给最近中心(均值)的类中。
系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。
具体类数的确定,有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K 均值法确定类数的参考。
有序聚类就是解决样品的次序不能变动时的聚类分析问题。
如果用)()2()1(,,,n X X X Λ表示
n 个有序的样品,则每一类必须是这样的形式,即)()1()(,,,j i i X X X Λ+,其中,1n i ≤≤且
n j ≤,简记为},,1,{j i i G i Λ+=。
在同一类中的样品是次序相邻的。
一般的步骤是(1)
计算直径{D (i,j )}。
(2)计算最小分类损失函数{L[p(l,k)]}。
(3)确定分类个数k 。
(4)最优分类。
5.7 检测某类产品的重量, 抽了六个样品, 每个样品只测了一个指标,分别为1,2,3,6,9,11.试用最短距离法,重心法进行聚类分析。
(1)用最短距离法进行聚类分析。
采用绝对值距离,计算样品间距离阵D (0)
G 1 G 2 G 3 G 4 G 5 G 6 G 1 0
G2 1 0
G3 2 1 0
G4 5 4 3 0
G58 7 6 3 0
G610 9 8 5 2 0
由上表易知D
中最小元素是D12=D23=1于是将G1,G2,G3聚为一类,记为G7(0)
计算距离阵D
(1)
G7G4G5G6
G70
G4 3 0
G5 6 3 0
G68 5 2 0
D
中最小元素是D56=2 于是将G5,G6聚为一类,记为G8
(1)
计算样本距离阵D
(2)
G7G4G8
70
G4 3 0
G8 6 3 0
D
中最小元素是D47=D48=3于是将G4,G7,G8聚为一类,记为G9
(2)
因此,
(2)用重心法进行聚类分析
计算样品间平方距离阵D2
(0)
G1G2G3G4G5G6
G10
G2 1 0
G3 4 1 0
G425 16 9 0
G564 49 36 9 0
G6100 81 64 25 4 0
易知D2
中最小元素是D212=D223=1于是将G1,G2,G3聚为一类,记为G7(0)
计算距离阵D2
(1)
G7G4G5G6
G70
G416 0
G549 9 0
G681 25 4 0
(1+2+1)]2,其他以此类推。
注:计算方法D247=[6−1
3
D2
中最小元素是D256=4 于是将G5,G6聚为一类,记为G8
(1)
计算样本距离阵D2
(2)
G7G4G8
G70
G416 0
G864 16 0
D2
中最小元素是D247=D248=16于是将G4,G7,G8聚为一类,记为G9(2)
因此,
5.8 下表是15个上市公司2001年的一些主要财务指标,使用系统聚类法和K-均值法分别
解:令净资产收益率为X1,每股净利润X2,总资产周转率为X3,资产负债率为X4,流动负债比率为X5,每股净资产为X6,净利润增长率为X7,总资产增长率为X8,用spss 对公司聚类分析的步骤如下: a) 系统聚类法:
1. 在SPSS 窗口中选择Analyze →Classify →Hierachical Cluster ,调出系统聚类分析主界
面,并将变量X8-X1移入Variables 框中。
在Cluster 栏中选择Cases 单选按钮,即对样品进行聚类(若选择Variables ,则对变量进行聚类)。
在Display 栏中选择Statistics 和Plots 复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。
图5.1 系统分析法主界面
2. 点击Statistics 按钮,设置在结果输出窗口中给出的聚类分析统计量。
我们选择
Agglomeration schedule 与Cluster Membership 中的Range of solution 2-4,如图5.2所示,点击Continue 按钮,返回主界面。
(其中,Agglomeration schedule 表示在结果中给出聚类过程表,显示系统聚类的详细步骤;Proximity matrix 表示输出各个体之间的距离矩阵;Cluster Membership 表示在结果中输出一个表,表中显示每个个体被分配到的类别,Range of solution 2-4即将所有个体分为2至4类。
)
3. 点击Plots 按钮,设置结果输出窗口中给出的聚类分析统计图。
选中Dendrogram
复选框和Icicle 栏中的None 单选按钮,如图5.3,即只给出聚类树形图,而不给出冰柱图。
单击Continue 按钮,返回主界面。
图5.2 Statistics子对话框图5.3Plots子对话框
4.点击Method按钮,设置系统聚类的方法选项。
Cluster Method下拉列表用于指定
聚类的方法,这里选择Between-group inkage(组间平均数连接距离);Measure栏
用于选择对距离和相似性的测度方法,选择Squared Euclidean distance(欧氏距离);
单击Continue按钮,返回主界面。
图5.4 Method子对话框图5.5 Save子对话框
5.点击Save按钮,指定保存在数据文件中的用于表明聚类结果的新变量。
None表示
不保存任何新变量;Single solution表示生成一个分类变量,在其后的矩形框中输
入要分成的类数;Range of solutions表示生成多个分类变量。
这里我们选择Range
of solutions,并在后面的两个矩形框中分别输入2和4,即生成三个新的分类变量,
分别表明将样品分为2类、3类和4类时的聚类结果,如图5.5。
点击Continue,返
回主界面。
6.点击OK按钮,运行系统聚类过程。
聚类结果分析:
下面的群集成员表给出了把公司分为2类,3类,4类时各个样本所属类别的情况,另外,从右边的树形图也可以直观地看到,若将15个公司分为2类,则13独自为一类,其余的为一类;若分为3类,则公司8分离出来,自成一类。
以此类推。
表5.1 各样品所属类别表。