第七章 多元统计分析(2)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
d(x,G ) (x ˆ )T ˆ 1(x ˆ ), 1,2,, k
判别准则为:若
则判
d
(
x,
Gt
)
min
1 k
d
(
x,
G
)
x Gt
例 1 两种蠓虫 AF 和 APF 已由有关专家根据它们的触角 长度和翼长加以区分,现有 9 只 AF 和 6 只 APF 的触角
长度 x1和翼长 x2 的数据如下表所示:
L(x,G1) uT (x x (1) ) 2.93x1 0.2579x2 4.6053
L(x,G2 ) uT (x x (2) ) 2.93x1 0.2579x2 4.0804
样本回代检验结果见下表,可见回代正确率为
14/15=93.3%。
L(x,G1) 0.53 0.17 0.14 0.03 0.07 0.07 0.20 0.38 0.50 AF L(x,G2 ) 0.01 0.35 0.39 0.43 0.45 0.46 0.73 0.90 1.03
要求由上面数据建立一个判别准则,以便对任一个给
定的蠓虫(已知其触角长度 x1和翼长 x2 的数据),就能
判别它是 AF 还是 APF。
在本问题中,我们把 AF 类记成 G1 ,APF 类记成G2 。利用 上面样本可求得
ˆ1 11..840143, ˆ2 11..922273,
ˆ 1
0.00975 0.00813
,
又计算出
ˆ1 11..840143, ˆ2 11..922273,
Lˆ1 (n1 1) ˆ 1 800..0000987153
00..0010688183
0.0784 0.0647
00..00614374,
Lˆ2
(n2
1)
ˆ 2
5
0.0039 0.0042
00..00004728
0.0197 0.0210
因为向量 u (u1,u2,,up )T 表示 p 维空间中的一个方向(轴), y uT x 即 x 在 u 轴上的投影。
两类Fisher判别示意图
Y
G1
G2
L=b1X+b2Y
X
选择判别函数从几何上看就是选择一个合适的投影轴 u ,把样品观测值投影到这个轴上得一组投影值,然后根据 投影值进行判别,选择好的投影方向是为了更好地分辨,也 是要使各总体的投影值有显著差异。
5、定义样本 x 到总体 G ( 1,2,, k) 的距离
L(x,G ) uT (x x() ) ,
为判别函数。 若
1,2,, k
则判
L(
x,
Gt
)
min
1 k
L(
x,
G
)
x Gt
例 3 用费歇尔(Fisher)判别法建立例 1 中蠓虫种类的判
别准则。
在本问题中,我们把 AF 类记成 G1 ,APF 类记成G2 。利用上 面样本可求得
对任一样品x,依次计算
D
(x)
k
qj
f
j (x)L
|
j
(α=1,2,…,k
),
j 1
准则1:若
Dt
Βιβλιοθήκη Baidu
(
x)
min
1 k
D
(
x)
,则判定x∈Gt
。
若损失函数
L
j |i
1, 0,
i j ,则
i j
准则2:若
qt
ft
(x)
max
1 k
q
f
(x),则判定x∈Gt
。
若每个总体 G ~ N p ( , )( 1,2,, k) ,且各总 体协方差矩阵相等,即Σ1=Σ2=…=Σk=Σ,则
判别分析问题可以这样描述:设有总体 G1,G2,,Gk , 每 个 总 体 都 有 指 标 x1, x2 ,, x p , 通 过 来 自 总 体
的 样 品 , 建 立 判 别 函 数 G ( 1,2,, k)
x( (1)
)
,
x( ) (2)
,,
x( ) (n )
f (x1, x2 ,, x p ) 。对任一待判样品 x (x1, x2 ,, xp )T ,只要将其
x (1) 11..840143, x (2) 11..922273,
B
0.1354 0.1335
00..01537375,
E
0.100 0.086
00..107846,
u 02..29537090
设 x (x1, x2 )T 是任一只给定的蠓虫,则它到 AF 类和 APF 类的
距离分别为
三、 Fisher 判别法
这里我们再介绍一种把多维问题化为一维问题,而且用 线性判别函数来解决多个总体判别问题的费歇尔(Fisher) 判别法。
设 x (x1, x2,, xp )T 为 p 维空间中的一个点,x1, x2 ,, x p 的线
性判别函数即为 y u1x1 u2 x2 up xp uT x
准则3:若
vt
(
x)
max
1 k
v
(
x),则判定x∈Gt
。
其中
v
(x)
ln
q
ˆT ˆ 1x
1 2
ˆT ˆ 1ˆ
( 1,2,, k)
例 2 对例 1 在等误判损失及各总体协方差矩阵相同, 且都服从正态分布的假设下,建立 Bayes 判别准则。
以频率作为先验概率的估计值,即
q1
9 15
,
q2
6 15
x
1 n
k 1
n i 1
x( ) (i)
k
其中 n n 1
2、计算组间离差阵
k
B n [( x ( ) x)(x ( ) x)T ] 1
3、计算组内离差阵
k n
E
(
x ( (i)
)
x
(
)
)(
x ( (i)
)
x (
)
)T
1 i1
4、计算矩阵 E1B 的最大特征值对应的特征向量 u 。
二、 Bayes 判别法
距离判别法是利用所给样品到各个总体的距离的 远近来判断其归属,这种方法计算简单,且不涉及到 各个总体的分布,因此适用面很广。但这种方法未考 虑各个总体各自出现的可能性(概率)大小,同时也 未考虑一旦出现误判之后造成的损失如何,这有时是 不够合理的。
例如,在地震预报问题中,“有震”与“无震”这 两个总体本身出现的概率相差很大,“有震”报为“无 震”与“无震”报为“有震”所造成的损失也可能很 不相同,因此在做判别分析时就必须把这两个因素考 虑在内。Bayes 判别法正是综合考虑了这两个因素提 出的一种判别方法。
00..0010688183,
ˆ 2
0.0039 0.0042
00..00004728
设 x (x1, x2 )T 是任一只给定的蠓虫,则它到 AF 类和 APF 类
的马氏距离分别为
d (x, G1) (x ˆ1)T ˆ 11(x ˆ1)
1
(171 .4x12 99.473 x22 165 .8906 x1x2 185 .1098 x1 125 .7891 x2 245 .4082 ) 2
结论 AF AF AF AF AF AF AF AF AF v1 (x) 117.83 136.06 131.14 148.89 150.87 151.36
APF v2 (x) 124.65 147.40 137.49 157.04 155.14 158.33
结论 APF APF APF APF APF APF
§7.2
判别分析
在科学研究、生产实践、社会生活中,经常会遇到 如何根据观测到的数据资料对所研究的对象进行判别 归类的问题。例如,
在医学诊断中,一个病人肺部有阴影,医生要根据 测得的指标(阴影的大小、边缘是否光滑、体温多少等) 判断他是肺结核、肺部良性肿瘤还是肺癌。
在气象学中,根据已有的气象资料(气温、气压、 湿度等)来推断明天是天晴、阴天还是雨天。
思想:样品判给哪个总体带来的损失小,就判 该样品来自哪个总体。
准则:k个总体G1,G2,…,Gk,分别具有p维概率 密度函数 f1(x),f2(x),…,fk(x),已知k个总体出现 的先验概率分别是q1,q2,…,qk,样品来自总体Gi 而误判为总体Gj的损失为L( j | i ),并规定L( i | i )=0。
按照方差分析的原理,投影方向的选取应使投影值所形 成的组间差与组内差有尽可能大的比值,这便是 Fisher 判别 法的基本思想。
费歇尔(Fisher)判别法的具体步骤如下:
1、由已知的样本观测矩阵计算出各总体的样本均值向量
x ( ) 及总平均向量 x 。
x() 1 n
n
x( (i)
)
,
i1
1,2,, k
自总体 G
(
1,2,, k) 的样本
按下式分别对它 x( (1)
)
,
x( ) (2)
,,
x( ) (n )
们做估计:
ˆ
1 n
n
x( ) (i)
x ( ) ,
i1
1,2,, k
ˆ
1 n 1
n
(
x( (i)
)
i1
x
(
)
)
(
x( (i)
)
x ( ) )T ,
1,2,, k
定 义 样 品 x 到 总 体 G ( 1,2,, k) 的 马 氏 (Mahalanobis)距离为
结论 APF AF AF AF AF AF AF AF AF L(x,G1) 0.81 0.70 0.61 0.40 0.34 0.29 APF L(x,G2 ) 0.28 0.18 0.08 0.13 0.19 0.23 结论 APF APF APF APF APF APF
00..00328190
ˆ
Lˆ1 n1
Lˆ2 n2
2
00..00006765
00..00103646
ˆ 1
235.34 115.91
113115.7.921
代入
v (x)
ln
q
ˆT ˆ 1x
1 2
ˆT ˆ 1ˆ
( 1,2)
得到判别函数是
v1(x) 123 .4338 x1 73.8421 x2 154 .3223
d (x, G2 ) (x ˆ2 )T 21(x ˆ2 )
1
(467 .6259 x12 263 .789 x22 502 .3596 x1x2 175 .7656 x1 402 .2558 x2 485 .055 ) 2
两距离判别公式的样本回代检验结果见下表,可见回代
正确率为 100%。
v2 (x) 64.4623 x1 112 .0665 x2 148 .3110
样本回代检验结果见下表,可见回代正确率为 100%。
v1 (x) 125.74 142.03 137.12 150.41 156.32 144.02 162.75 170.16 191.83
AF v2 (x) 124.38 134.35 124.44 144.61 153.57 132.45 151.05 154.92 185.35
d(x,G1) 1.88 0.64 1.48 0.53 1.23 1.01 0.77 1.56 2.05 d(x,G2) 3.63 5.56 7.48 4.79 3.72 6.96 6.91 8.19 5.78 AF 结论 AF AF AF AF AF AF AF AF AF d(x,G1) 3.43 4.44 3.16 3.54 3.31 2.70 d(x,G2) 1.67 1.79 0.81 0.83 0.91 1.34 APF 结论 APF APF APF APF APF APF
指标值代入判别函数,根据它的函数值,便可判断 x 是
属于这 k 个总体中的哪个总体。
一、 距离判别法
距离判别是通过定义样品指标的观测值到各总体
的距离作为判别函数,以其大小判定样品属于哪个总
体。
设有总体 G1,G2,,Gk ,它们的均值向量分别为
1, 2,, k ,协方差矩阵分别为 1, 2,, k 。可以通过来
x1 1.24 1.36 1.38 1.38 1.38 1.40 1.48 1.54 1.56 AF x2 1.72 1.74 1.64 1.82 1.90 1.70 1.82 1.82 2.08
x1 1.14 1.16 1.20 1.26 1.28 1.30 APF x2 1.78 1.96 1.36 2.00 2.00 1.96
在考古学中,要根据挖掘出来的人头盖骨的高、宽 等特征来判断其性别。
在环境科学中,要根据某地区的多种大气污染元素 浓度来判断该地区是属严重污染、中度污染还是无污 染。
在体育运动中,根据运动员的多项运动指标来判定 某游泳运动员是适合蛙泳、仰泳、蝶泳还是自由泳。
在经济学中,根据人均国民收入、人均工农业产值、 人均消费水平等多种指标来判定一个国家的经济发展 程度,是发达国家、中等发达国家还是发展中国家。