多元统计分析课后习题解答第四章
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章判别分析
4.1 简述欧几里得距离与马氏距离的区别和联系。
答:设p维欧几里得空间中的两点X=和Y=
。则欧几里得距离为
。欧几里得距离的局限有①在多元数据分析中,其度量不合理。②会受到实际问题中量纲的影响。
设X,Y是来自均值向量为,协方差为
的总体G中的p维样本。则马氏距离为D(X,Y)=
。当
即单位阵时,D(X,Y)=
=即欧几里得距离。
因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。
4.2 试述判别分析的实质。
答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,…,Rk 是p 维空
间R p 的k 个子集,如果它们互不相交,且它们的和集为,则称为的
一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p 维空间构造一个
“划分”,这个“划分”就构成了一个判别规则。
4.3 简述距离判别法的基本思想和方法。 答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。 ①两个总体的距离判别问题
设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是μ1和μ2,对于一个新的样品X ,要
判断它来自哪个总体。计算新样品X 到两个总体的马氏距离D 2(X ,G 1)和D 2
(X ,G 2),则
X ,D 2
(X ,G 1)
D 2(X ,G 2)
X
,D 2(X ,G 1)> D 2
(X ,G 2,
具体分析,
记则判别规则为
2212(,)(,)
D G D G -X X 111122111111
11122211121112
2()()()()
2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2()
22()2()
---''=-++-'
+⎛
⎫=--- ⎪⎝⎭
''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ()()W '=-X αX μ
X ,W(X)
X ,W(X)<0
②多个总体的判别问题。
设有k 个总体k G G G ,,,21Λ,其均值和协方差矩阵分别是和k ΣΣΣ,,,21Λ,且ΣΣΣΣ====k Λ21。计算样本到每个总体的马氏距离,到哪个总体的距离最小就属于哪个总体。
具体分析,
取ααμΣI 1-=,αααμΣμ1
2
1-'-=C ,k ,,2,1Λ=α。
可以取线性判别函数为
,k ,,2,1Λ=α 相应的判别规则为若
4.4 简述贝叶斯判别法的基本思想和方法。
基本思想:设k 个总体,其各自的分布密度函数)(,),(),(21x x x k f f f Λ,假设k 个总体各自出现的概率分别为k q q q ,,,21Λ,0≥i q ,
11
=∑=k
i i
q
。设将本来属于i G 总体的样品
错判到总体j G 时造成的损失为)|(i j C ,。
设k 个总体相应的p 维样本空间为),,,(21k R R R R Λ=。 在规则R 下,将属于的样品错判为j G 的概率为
x x d f R i j P j
R i )(),|(⎰=j i k
j i ≠=,,2,1,Λ
k μμμ,,,21Λ21
(,)()()D G ααα-'=--X X μΣX μ111122()C α
ααα
α----'''=-+''=-+X ΣX μΣX μΣμX ΣX I X ()W C αα
α'=+X I X i G ∈X 1()max()i k
W C α
αα≤≤'=+X I X k G G G ,,,21Λk j i ,,2,1,Λ=k G G G ,,,21Λi G
则这种判别规则下样品错判后所造成的平均损失为
∑==k
j R i j P i j C R i r 1
)],|()|([)|(k i ,,2,1Λ=
则用规则R 来进行判别所造成的总平均损失为
∑==k
i i R i r q R g 1
),()(
∑∑===k i k
j i R i j P i j C q 1
1
),|()|(
贝叶斯判别法则,就是要选择一种划分,使总平均损失)(R g 达到极小。 基本方法:∑∑===
k i k
j i R i j P i j C q R g 1
1),|()|()(
x x d f i j C q k
i k
j R i i j
∑∑⎰===1
1
)()|(
∑⎰∑===k j R k
i i i j
d f i j C q 1
1
))()|((x x
令
,则∑⎰
==k
j R j j
d h R g 1
)()(x x
若有另一划分),,,(**2*1*
k
R R R R Λ=,∑⎰
==k
j R j j
d h R g 1
*
*)()(x x
则在两种划分下的总平均损失之差为
∑∑⎰
==⋂-=-k i k
j R R j i j
i d h h R g R g 11
*
*)]()([)()(x x x
因为在i R 上)()(x x j i h h ≤对一切j 成立,故上式小于或等于零,是贝叶斯判别的解。 从而得到的划分
)
,,,(21k R R R R Λ=为
k i ,,2,1Λ=
4.5 简述费希尔判别法的基本思想和方法。
答:基本思想:从k 个总体中抽取具有p 个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数
k R R R ,,,21Λ1
(|)()()k i
i
j
i q C j i f h ==∑x x 1{|()min ()}
i i j j k
R h h ≤≤==x x x