多元统计第五章判别分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
取线性判别函数为
X C , 1,2,, k W (X) I
相应的判别规则为 X C ) X Gi 如果 Wi ( X) max(I
1 k
针对实际问题,当 μ1 , μ 2 ,, μ k 和 Σ 均未知时,可以通过相 应的样本值来替代。设 X1 ,
( )
( 1,2,, k ) ,则 μ ( 1,2,, k )和 Σ 可估计为
n 1 1,2,, k X( ) Xi( ) , n i 1 k 1 ˆ Σ A , 其中 n n1 n2 nk n k 1
) 是来自总体 G 中的样本 , X(n
和
A (Xi( ) X( ) )(Xi( ) X( ) ) , 1,2,, k
i 1
n
同样, 我们注意到, 如果总体 G1 , G2 ,,G k 的协方差矩阵分别是
Σ1 , Σ 2 ,, Σ k ,而且它们不全相等,则计算 X 到各总体的马氏
距离,即
D2 (X, G ) (X μ )Σ 1 (X μ )
之差)是预报明天下雨或不下雨的两个重要因素。今测得x1=8.1,x2=2.0,试
问应预报明天下雨还是预报明天不下雨?
20
10
D2---非雨区
W(x1,x2)
新样本点
0
-10
D1---雨区
X2
-20 -20 -10 0 10 20
X1
判别分析要解决的问题是,根据已有各个类别的若干样本的数
据信息,总结出客观事物分类的规律性,建立判别公式和判别 准则,并用它来判定新的观测样品应归属的组别。
则判别规则为
1,2,, k
X Gi
如果 D ( X, Gi ) min D ( X, G )
2 2 1 k
当 μ1 , μ 2 ,, μ k 和 Σ1 , Σ 2 ,, Σ k 均未知时, μ ( 1,2,, k ) 的估计同前, Σ ( 1,2,, k )的估计为
D2 (X, G ) (X μ )Σ1 (X μ ) Σ1X μ Σ1μ XΣ1X 2μ
X C ) XΣ1X 2(I 1 1 1 Σ μ , 1,2,, k 。 这里 I Σ μ , C μ 2
新的样品 X 落入 R1 推断 X G1 ,落入 R2 推断 X G2 。
实质:在某种意义上,以最优的性质对p维空间R p构造 一 个“划分”,这个“划分”就构成了一个判别规则。
例:对破产的企业收集它们在破产前两年的年 度财务数据,同时对财务良好的企业也收集同一 时期的数据。数据涉及四个变量:x1=现金流量/ 总债务,x2=净收入/总资产,x3=流动资产/流动 债务,以及x4=流动资产/净销售额。数据列于下 表,Ⅰ组为破产企业,Ⅱ组为非破产企业。
( 1 ) 当 p 1 , G1 和 G2 的 分 布 分 别 为 N (1 , 2 ) 和
N ( 2 , 2 ) 时, 1 , 2 , 2 均为已知,且 1 2 ,则判别 1 2 0 ,判别函数为 系数为 2 W ( X ) ( X )
ˆ Σ
1 A , n 1
1,2,, k
三、判别分析的实质
设R1,R2,…,Rk是p维空间R p的k个子集,如果它们互
不 相交,且它们的和集为R p,则称R1,R2, …,Rk为R p的一 个划分。
在 两 个 总 体 的 距 离 判 别 问 题 中 , 利 用
W (X) (X μ)' α 可以得到空间 R p 的一个划分 R1 {X : W ( X) 0} R2 {X : W ( X) 0}
x4
0.35 0.33 0.63 0.69 0.69 0.35 0.4 0.52 0.55 0.58 0.26 0.52 0.56 0.2 0.38 0.48 0.47 0.18 0.44 0.3 0.45
0.0690 0.0814 (1) , X 1.3667 0.4376 0.8826 0.5695 0.5695 0.4201 A1 0.6899 0.5204 0.0829 0.0688 1.1292 0.2042 A2 1.7983 0.1609 0.2042 0.0570 0.2060 0.0044
组别
Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ
x1
0.38 0.19 0.32 0.31 0.12 -0.02 0.22 0.17 0.15 -0.1 0.14 0.14 0.15 0.16 0.29 0.54 -0.33 0.48 0.56 0.2 0.47
判别规则为
X G1 , X G2 ,
X X
(2) 当 μ1 μ 2 , Σ1 Σ 2 时,我们采用选择判别函数为
W * (X) D2 (X, G1 ) D2 (X, G2 )
1 1 (X μ1 )Σ1 (X μ1 ) (X μ2 )Σ2 (X μ2 )
1 其 中 μ (μ 1 μ 2 ) 是 两 个 总 体 均 值 的 平 均 值 , 2 α Σ 1 (μ1 μ 2 ) ,记
Baidu Nhomakorabea
W (X) (X μ)' α
则判别规则式可表示为
X G1 , 如果 W ( X) 0 X G2 , 如果 W ( X) 0 这里称 W ( X) 为两总体距离判别的判别函数, 由于它是 X 的 线性函数,故又称为线性判别函数, α 称为判别系数。
二、距离判别的思想及方法
1. 两个总体的距离判别问题 问题:设有协方差矩阵∑相等的两个总体G1和G2,其均值 分别是 1和 2,对于一个新的样品X,要判断它来自哪个总 体。 一般的想法是计算新样品X到两个总体的马氏距离D2(X
,
2 2 X G , 如果 D ( X , G ) D ( X, G2 ) G1)和D2(1X,G2),并按照如下的判别规则进行判断 1 2 2 X G , 如果 D ( X , G ) D ( X, G2 ) 2 1
在实际应用中,总体的均值和协方差矩阵一般是未知的,可 由样本均值和样本协方差矩阵分别进行估计。设 X1 , 自总体 G1 的样本,X1 , 的一个无偏估计分别为
(2) (1)
, X(1) n1 来
μ1 和 μ 2 , X(2) n2 是来自总体 G 2 的样本,
n1 1 X(1) Xi(1) n1 i 1
第五章 判别分析
第一节 引言
在我们的日常生活和工作实践中,常常会遇到判别分析问题。
案例一:为了研究中小企业的破产模型,选定4个经济指标:总负债率、
收益性指标、短期支付能力、生产效率性指标。对17个破产企业(1类)和21
个正常运行企业(2类)进行了调查,得关于上述四个指标的资料。现有8个 未知类型的企业的四个经济指标的数据,判断其属于破产企业一类还是正 常运行企业一类? 案例二:根据经验,今天与昨天的湿度差x1及今天的压温差x2 (气压与温度
这个判别规则的等价描述为:求新样品X到G1的距离与到G2的
距离之差,如果其值为正,X属于G2;否则X属于G1。
我们考虑
D2 (X, G1 ) D2 (X, G2 )
( X μ1 )Σ 1 ( X μ1 ) ( X μ 2 )Σ 1 ( X μ 2 )
1 Σ 1μ1 ( XΣ 1X 2 XΣ1μ 2 μ XΣ 1X 2XΣ 1μ1 μ1 Σ μ2 ) 2 1 Σ 1μ1 μ 2XΣ 1 (μ 2 μ1 ) μ1 Σ μ2 2 2XΣ 1 (μ 2 μ1 ) (μ1 μ 2 )Σ 1 (μ1 μ 2 ) μ1 μ 2 1 2 X Σ (μ1 μ 2 ) 2 2( X μ)α
设 X 和 Y 是来自均值向量为 μ ,协方差为 Σ( 0) 的总 体 G 中的 p 维样本,则总体 G 内两点 X 与 Y 之间的马氏距 离定义为
D2 (X, Y) (X Y)Σ1 (X Y) 定义点 X 到总体 G 的马氏距离为 D2 (X, G) (X μ)Σ1 (X μ)
表 破产状况数据
编号
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
组别
Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ
x1
-0.45 -0.56 0.06 -0.07 -0.1 -0.14 0.04 -0.07 0.07 -0.14 -0.23 0.07 0.01 -0.28 0.15 0.37 -0.08 0.05 0.01 0.12 -0.28
x2
-0.41 -0.31 0.02 -0.09 -0.09 -0.07 0.01 -0.06 -0.01 -0.14 -0.3 0.02 0 -0.23 0.05 0.11 -0.08 0.03 0 0.11 -0.27
x3
1.09 1.51 1.01 1.45 1.56 0.71 1.5 1.37 1.37 1.42 0.33 1.31 2.15 1.19 1.88 1.99 1.51 1.68 1.26 1.14 1.27
x4
0.45 0.16 0.4 0.26 0.67 0.28 0.71 0.4 0.34 0.43 0.18 0.25 0.7 0.66 0.27 0.38 0.42 0.95 0.6 0.17 0.51
编号
24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44
注:判别分析与聚类分析的联系与区别
本章介绍三种常用的判别分析方法:距离判别、贝叶斯( Bayes)判别和费希尔(Fisher)判别。
第二节
距离判别法
一、马氏距离的概念
p 设 p 维 欧 氏 空 间 R 中 的 两 点 X ( X1 , X 2 ,
, X p ) 和
Y (Y1, Y2 , , Yp ) 。
Σ 的一个联合无偏估计为
n
n2 1 和 X(2) Xi(2) n2 i 1 1 ˆ Σ ( A1 A2 ) n1 n2 2
这里
A ( Xi( ) X( ) )(Xi( ) X( ) ),
i 1
1, 2
' ^
此时,两总体距离判别的判别函数为 其中 X
x2
0.11 0.05 0.07 0.05 0.05 0.02 0.08 0.07 0.05 -0.01 -0.03 0.07 0.06 0.05 0.06 0.11 -0.09 0.09 0.11 0.08 0.14
x3
3.27 2.25 4.24 4.45 2.52 2.05 2.35 1.8 2.17 2.5 0.46 2.61 2.23 2.31 1.84 2.33 3.01 1.24 4.29 1.99 2.92
它是 X 的二次函数,相应的判别规则为
X G1 , X G2 ,
如果 如果
W * ( X) 0 W * ( X) 0
2.多个总体的距离判别问题
问题:设有 k 个总体 G1 , G2 ,,G k ,其均值和协方差矩阵分 别是 μ1 , μ 2 ,, μ k 和 Σ1 , Σ 2 ,, Σ k ,而且 Σ1 Σ 2 Σ k Σ 。 对于一个新的样品 X ,要判断它来自哪个总体。 该问题与两个总体的距离判别问题的解决思想一样。计算新 样品 X 到每一个总体的距离,即
ˆ ( X) ( X X) α W
1 (1) ˆ 1 (X(1) X(2) ) 。这样,判别规则为 ˆ Σ ( X X(2) ) , α 2 ˆ ( X) 0 X G1 , 如果 W ˆ ( X) 0 X G , 如果 W 2
这里我们应该注意到: