判别分析-四种方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六章 判别分析
§6.1 什么是判别分析
判别分析是判别样品所属类型的一种统计方法,其应用之广可与回归分析媲美。
在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。
例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;在市场预测中,根据以往调查所得的种种指标,判别下季度产品是畅销、平常或滞销;在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在油田开发中,根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层;在农林害虫预报中,根据以往的虫情、多种气象因子来判别一个月后的虫情是大发生、中发生或正常; 在体育运动中,判别某游泳运动员的“苗子”是适合练蛙泳、仰泳、还是自由泳等;在医疗诊断中,根据某人多种体验指标(如体温、血压、白血球等)来判别此人是有病还是无病。
总之,在实际问题中需要判别的问题几乎到处可见。
判别分析与聚类分析不同。
判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。
对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型的。
正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。
判别分析内容很丰富,方法很多。
判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。
判别分析可以从不同角度提出的问题,因此有不同的判别准则,如马氏距离最小准则、Fisher 准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。
本章仅介绍四种常用的判别方法即距离判别法、Fisher 判别法、Bayes 判别法和逐步判别法。
§6.2 距离判别法
基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i 类的重心距离最近,就认为它来自第i 类。
距离判别法,对各类(或总体)的分布,并无特定的要求。
1 两个总体的距离判别法
设有两个总体(或称两类)G 1、G 2,从第一个总体中抽取n 1个样品,从第二个总体中抽取n 2个样品,每个样品测量p 个指标如下页表。
今任取一个样品,实测指标值为),,(1'=p x x X ,问X 应判归为哪一类?
首先计算X 到G 1、G 2总体的距离,分别记为),(1G X D 和),(2G X D ,按距离最近准则
判别归类,则可写成:
⎪⎩
⎪
⎨⎧=>∈<∈),(),( ,),(),(,),(),(,21212211G X D G X D G X D G X D G X G X D G X D G X 当待判当当 G 1总体: G 2总体:
记2,1,),,()
()
(1)
(='=i x x X
i p i i
如果距离定义采用欧氏距离,则可计算出
1(,)D X G ==2(,)D X G ==
然后比较),(1G X D 和),(2G X D 大小,按距离最近准则判别归类。
由于马氏距离在多元统计分析中经常用到,这里针对马氏距离对上述准则做较详细的讨论。
设)1(μ、)2(μ,)1(∑、)2(∑分别为G 1、G 2的均值向量和协方差矩阵。
如果距离定义采用马氏距离即
2,1)
()()(),()(1)()(2=-∑'-=-i X X G X D i i i i μμ
这时判别准则可分以下两种情况给出:
(1)当∑=∑=∑)2()1(时
考察),(22G X D 及),(12G X D 的差,就有:
)2(1)2()2(1112222),(),(μμμ-'--∑+∑'-∑'=-X X X X G X D G X D
]2[)1(1)1()1(11μμμ-'--∑+∑'-∑'-X X X
)()()(2)2()1(1)2()1()2()1(1μμμμμμ-∑'+--∑'=--X
)()(212)2()1(1)2()1(μμμμ-∑'
⎥⎦
⎤⎢⎣⎡+-=-X 令)(2
1)2()
1(μμμ+=
)()()()2()1(1μμμ-∑'-=-X X W
则判别准则可写成:
⎪⎩
⎪⎨⎧==<<∈>>∈),(),(D 0)( ,),(),(D 0)(,),(),(D 0)(,122212
22212221G X D G X X W G X D G X X W G X G X D G X X W G X 即当待判即当即当 当
)
2()1(,,μμ∑已知时,令
),,()(1)2()1(1'
∆-∑=-p a a a μμ则
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎣⎡--=-'='-=p p p x x a a X a a X X W μμμμ ),,()()()(1
11
)()(111p p p x a x a μμ-++-=
显然,W (X )是p x x ,,1 的线性函数,称W (X )为线性判别函数,a 为判别系数。
当)2()1(,,μμ∑未知时,可通过样本来估计。
设)
()(2)(1,,,i n
i i i
X X X 来自G i 的样本,i =1,2。
∑===1
1)
1()1(1)
1(1
ˆn i i X X n μ
∑
===2
1)
2()2(2
)2(1ˆn i i X
X n μ
)(2
1
ˆ2121S S n n +-+=∑
其中 ∑='--=
i
n t i i t i i t i X X X X
S 1
)()()()())((
)(2
1)2()
1(X X X +=
线性判别函数为:
)(ˆ)()()2()1(1X X X X X W -∑
'-=- 当p =1时,若两个总体的分布分别为),(21σμN 和),(22σμN ,判别函数
)(1)2()(21221μμσ
μμ-⎪⎭⎫ ⎝⎛
+-=X X W ,不妨设21μμ<,这时W(X)的符号取决于μ>X 或
μ<X 。
当μ<X 时,判1G X ∈;当μ>X 时,判2G X ∈。
我们看到用距离判别所得
到的准则是颇为合理的。
但从下图又可以看出,用这个判别法有时也会得出错判。
如X 来
自G 1,但却落入D 2,被判为属G 2,错判的概率为图中阴影的面积,记为)1/2(P ,类似有
)2/1(P ,显然)1/2(P =)2/1(P =⎪⎭
⎫
⎝⎛-Φ-σμμ2121。
当两总体靠得很近(即|21μμ-|小),则无论用何种办法,错判概率都很大,这时作判别分
析是没有意义的。
因此只有当两个总体的均值有显著差异时,作判别分析才有意义。
(2)当)2()1(∑≠∑时
按距离最近准则,类似地有:
⎪⎩
⎪
⎨⎧=>∈<∈),(),( ,),(),(,
),(),(,
21212211G X D G X D G X D G X D G X G X D G X D G X 当待判当当 仍然用),(),()(1222G X D G X D X W -=
)()()()2(1)2()2(μμ-∑'-=-X X
)()()()1(1)1()1(μμ-∑'---X X
作为判别函数,它是X 的二次函数。
2 多个总体的距离判别法
类似两个总体的讨论推广到多个总体。
设有k 个总体G 1, …, G k ,它们的均值和协方差阵分别为k i i i ,,1,,)()( =∑μ,从每个总体G i 中抽取n i 个样品,i =1,…,k ,每个样品测p 个指标。
今任取一个样品,实测指标值为
),,(1'=p x x X ,问X 应判归为哪一类?
G 1总体: … G k 总体:
记向量k i x x x X p i ,,1 ),,,(21)( ='= (1)当∑=∑-=∑)()1(k 时
此时k ,1,i )()(),()(1)(2 =-∑'-=-i i i X X G X D μμ判别函数为:
)],(),([2
1
)(22i j ij G X D G X D X W -=
()
k ,1,j i, )(21)()(1)()( =-∑'
⎥⎦
⎤
⎢⎣⎡+-=-j i j i X μμμμ
相应的判别准则为:
⎪⎩⎪⎨
⎧=≠>∈0)(W
,,0)(W
,ij ij X i j X G X i 若有某一个待判对一切当 当)1()1(,,μμ ,∑未知时可用其估计量代替,设从G i 中抽取的样本为
k i X X i n i i
,,1,,,)()(1
=,则)(ˆi μ
,∑ˆ的估计分别为 ∑====i
n a i a
i
i i k i X
n X
1
)()
()
(,,11ˆ μ
∑=-=∑
k
i i
S
k
n 1
1
ˆ
其中 ∑='--=
++=i
n a i i a i i a i i X X X X
S n n n 1
)()
()()(1))((, 为G i 的样本离差阵。
(2)当)
()
1(,,k ∑∑ 不相等时
此时判别函数为:
)(][)()()(1)()(j j j ji X V X X W μμ-'-=-
)(][)()(1)()(i i i X V X μμ-'---
相应的判别准则为:
⎪⎩⎪⎨
⎧=≠>∈0)(W
,,0)(W
,ij ij X i j X G X i 若某一个待判对一切当 当),,1(,)()(k i i i =∑μ未知时,可用)()(,i i ∑μ的估计量代替,即
)()(ˆi i X =μ
k i S n i
i i ,,11
1
ˆ)( =-=∑
例1 人文发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。
该报告建议,目前对人文发展的衡量应当以人生的三大要素为重点,衡量人生三大要素的指示指标分别要用出生时的预期寿命、成人识字率和实际人均GDP ,将以上三个指示指标的数值合成为一个复合指数,即为人文发展指数。
资料来源:UNDP 《人类发展报告》1995年。
今从1995年世界各国人文发展指数的排序中,选取高发展水平、中等发展水平的国家各五个作为两组样品,另选四个国家作为待判样品作距离判别分析。
数据选自《世界经济统计研究》1996年第1期
本例中变量个数p =3,两类总体各有5个样品,即521==n n ,有4个待判样品,假定两总体协差阵相等。
两组线性判别的计算过程如下:
⎥⎥⎥⎦
⎤
⎢⎢⎢⎣⎡=4.534308.9488.75)
1(X
⎥⎥⎥⎦
⎤
⎢⎢⎢⎣⎡=2.343074.9144.70)
2(X
(2)计算样本协差阵,从而求出∑
ˆ ∑
='--=
i
n a a a X
X X
X S 1
)
1()
1()
1()
1(1))((
⎥⎥
⎥⎦
⎤⎢⎢⎢⎣⎡--=2.1298724.25274.44824.252228.344022.5674.448022
.56228.36 类似地
∑
='--=
2
1
)
2()
2()
2()
2(2))((n a a a X
X X
X S
⎥⎥
⎥⎦
⎤⎢⎢⎢⎣⎡----=8.208738454.1131674.489554.11316672.188682.11774.4895682.117812
.86 经计算
⎥⎥
⎥⎦⎤⎢⎢⎢⎣⎡----=+=210037278.11568444778.115689.532704.1734447704.17304
.12321S S S
S S S n n 8
1)(21ˆ2121=+-+=∑
⎥⎥
⎥⎦
⎤⎢⎢⎢⎣⎡----=5.2625460975.1446875.5550975.14466125.66713.21875.555713.2138
.15 ⎥⎥⎥⎦
⎤
⎢⎢⎢⎣⎡--=∑
-00000434.00000799.00000442.00000799.0029278.003845.00000442.003845.0120896.0ˆ)1(
(3)求线性判别函数W (X )
解线性方程组)(ˆ)
2()
1(X
X a -=∑
得
)00873.0,0122.0,6523.0()(ˆ)2()1(1'=-∑
=-X X a ⎥⎦
⎤⎢⎣⎡
+-'=-'=∴)(21)()()2()1(X X X a X X a X W
1525.8700873.00122.06523.0321-++=x x x
(4)对已知类别的样品判别分类
对已知类别的样品(通常称为训练样品)用线性判别函数进行判别归类,结果如下,全部判对。
(5对判别效果作检验
判别分析是假设两组样品取自不同总体,如果两个总体的均值向量在统计上差异不显著,作判别分析意义就不大。
所谓判别效果的检验就是检验两个正态总体的均值向量是否相等,根据第三章§3.1可知检验的统计量为:
)1,(~)2(1)2(2122121--+-++--+=p n n p F T p
n n p n n F
其中 ⎥⎥⎦
⎤-+⎢⎢
⎣⎡
⋅'-+-+=-)()()2()2()1(21211)2()1(2121212X X n n n n S X X n n n n n n T
将上边计算结果代入统计量后可得:
76.4)6.3(6746.1205.0=>=F
F
故在05.0=a 检验水平下,两总体间差异显著,即判别函数有效。
(6)对待判样品判别归类结果如下表:
简短分析:回代率为百分之百,这与统计资料的结果相符,而待判的四个样品的判别结果表明:中国、罗马尼亚为中等发展水平国家即第二类,希腊、哥伦比亚为高发展水平国家即第一类,这是符合当时实际的,即与当时世界各国人文发展指数的水平相吻合。
例2 对全国30个省市自治区1994年影响各地区经济增长差异的制度变量:x 1—经济增长率(%)、x 2—非国有化水平(%)、x 3—开放度(%)、x 4—市场化程度(%)作判别分析。
资料来源:《经济理论与经济管理》1998年第1期
(1)两类地区各变量的均值
)80455.7314909.2502818.6573636
.15()1('=X
)105.58228125.910625.405625
.11()
2('=X
(2)计算样本协差阵,从而求出∑ˆ和1ˆ-∑ ⎥
⎥
⎥⎥⎦
⎤⎢
⎢⎢⎢⎣⎡=∑
11822.6451356.973185.69460767
.551356.90344.202665567.127837.1473185.69665567.10561.21298494.23460767.527837.1498494.23854518
.9ˆ
⎥
⎥
⎥⎥⎦
⎤⎢
⎢⎢
⎢⎣⎡--------=∑
-02546.000201.000978
.0012615.000201.0005898.0002008.001232.000978.0002008.0010532.002312.0012615.001232.002312
.0168616.0ˆ1 (3)求线性判别函数
解线性方程组)(ˆ)
2()
1(X
X a -=∑
得)(ˆ)
2()
1(1X X a -∑
=-
经计算
)69955.1592097.1592193
.24173864
.4()
2()
1('=-X
X
)176547.0060978.0044354
.0129411.0('
=a )95477.6518861
.1756722.5264943.13()(2
1)2()
1('=+X X
))(2
1()()()2()
1(X X X a X X a X W +-
'=-'=∴ 79018.16176547.0060978.0044354.0129411.04321-+++=x x x x
(4)对已知类别的样品回判 由于0)(,)
2()
1(>∴>X W X
X 为第一组,0)(<X W 为第二组。
上述回判结果表明,第一组中只有第10个样品判组号为2,与原组号不同,其余样品与原分组号相同;第二组中的各样品回判组号都是2,即与原组号完全相同。
我们仔细研究第10号样品广西的指标数据,可以看到它有可能是属于原分组时的错分样品。
总的回代判对率达96.3%。
(5)对待判样品判别归类,结果如下:
待判样品中江苏和安徽被判属第一组,陕西被判属第二组,这与实际情况较吻合。
§6.3 费歇(Fisher )判别法
Fisher 判别法是1936年提出来的,该法对总体的分布并未提出什么特定的要求。
1 不等协差阵的两总体Fisher 判别法
(1)基本思想:从两个总体中抽取具有p 个指标的样品观测数据,借助方差分析的思想造一个判别函数或称判别式:p p x c x c x c y +++= 2211,其中系数1c 、2c …、p c 确定的原则是使两组间的区别最大,而使每个组内部的离差最小。
有了判别式后,对于一个新的样品,将它的p 个指标值代入判别式中求出y 值,然后与判别临界值(或称分界点后面给出)进行比较,就可以判别它应属于哪一个总体。
(2)判别函数的导出
假设有两个总体G 1、G 2,从第一个总体中抽取n 1个样品,从第二个总体中抽取n 2个样品,每个样品观测p 个指标,列表如下:
G 1总体: G 2总体:
假设新建立的判别式为p p x c x c x c y +++= 2211,今将属于不同两总体的样品观测值代入判别式中去,则得:
1)
1()1(22)1(11)1(,,1n i x c x c x c y ip
p i i i =+++=
2)2()1(22)1(11)2(,,1n i x c x c x c y ip
p i i i =+++=
对上边两式分别左右相加,再乘以相应的样品个数,则有:
∑==p
k k
k
x c
y 1)
1()
1( ……第一组样品的“重心” ∑==
p k k
k
x c
y
1
)
2()
2( ……第二组样品的“重心” 为了使判别函数能够很好地区别来自不同总体的样品,自然希望: i )来自不同总体的两个平均值)2()1(,y y 相差愈大愈好。
ii )对于来自第一个总体的),,1(1)1(n i
y i =要求它们的离差平方和
∑=-1
1
2)1()
1()(n i i
y y
愈小
愈好,同样也要求
∑=-2
1
2)2()2()(n i i
y y
愈小愈好。
综合以上两点,就是要求:
∑∑==-+
--=
2
1
1
2
)2()2(1
2)1()1(2
)2()1()()()(n i i
n i i
y y
y y
y y I
愈大愈好。
记2)2()1(21)(),,,(y y c c c Q Q p -== 为两组间离差。
∑
∑
==-+
-=
=2
1
1
2
)2()2(1
2
)1()
1(21)()(),,,(n i i n i i p y
y y y c c c F F
为两组内的离差。
则
F
Q I =
利用微积分求极值的必要条件可求出使I 达到最大值的p c c c ,,,21 。
为此将上式两边取对数: 令
p ,1,k 0ln ln ln ==∂∂-∂∂=∂∂k
k k c F
c Q c I 则 k
k c F
F c Q Q ∂∂⋅=∂∂⋅11 即
k
k c F c Q I ∂∂=∂∂⋅1 而 2
1)2(1
)1(2
)2()
1()(⎪⎪⎭
⎫
⎝⎛-=-=∑
∑==p
k k
k p
k k k x c x c y y Q
2
1)
2()1()(⎥⎥⎦
⎤⎢⎢⎣⎡-=∑
=p k k k k x x c 2
1⎥⎥⎦
⎤⎢⎢⎣⎡∆∑
=p k k k d c 其中 )
2()1(k
k k x x d -= k p l l l k
d d c c Q ⎪⎪⎭
⎫ ⎝⎛=∂∂∴∑
=12
而 ∑
∑==-+
-=
1
2
11
2)2()2(2
)1()
1()()(n i n i i
i y y
y y F
∑∑∑∑====⎥⎦
⎤⎢⎣⎡-+⎥⎦⎤⎢⎣⎡-=1
2
112
1)2()
2(2
)1()1(1)()(n i n i p k k ik k k ik p k k x x c x x c ∑∑
∑
===⎥⎥⎦
⎤⎢⎢⎣⎡--=1
11)1()
1()1()1(1)()(n i p
l l il l k ik p k k x x c x x c
∑∑
∑===⎥⎥⎦⎤⎢⎢⎣⎡-⋅-+2
11)2()
2()2()2(1)()(n i p l l il
l k ik p k k x x c x x c ∑∑
∑
∑
====⎥⎥⎦
⎤⎢⎢⎣⎡--+--=p k p
l n i l l i k ik n i l l i k ik l k x x x x x x x x c c 111)2()
2()2()2(1)1()1()1()1(21))(())((
∑∑===
p
k p l kl
l k s
c c 11
其中
∑
∑
==--+
-
-
=
2
1
1
)
2()2()2()2(1
)1()1()1()1())(()
)((n i l il k ik n i l il
k ik
kl x x x x x x x x s
∑
==∂∂∴p
l kl l k s c c F 1
2 从而
∑
∑===⎪⎪⎭
⎫ ⎝⎛p l kl l k p l l l s c d d c I 1122 即
p ,1,k
11
1 ==⎪⎪⎭
⎫ ⎝⎛∑∑==p
l kl l k p
l l l s
c d d c I
令 ∑
==p
l l l d c I 1
1β
β是常数因子,不依赖于k ,它对方程组的解只起到共同扩大β倍的作用,不影响它的解p c c ,,1 之间的相对比例关系。
对判别结果来说没有影响,所以取β=1,于是方程组:
p ,1,k 1
==∑=k p
l kl
l d s
c
即
⎪⎪
⎩⎪⎪
⎨
⎧=+++=+++=+++p p pp p p p p p p d
c s c s c s
d c s c s c s d c s c s c s 221
12
22221211
1212111 写成矩阵形式为:
⎥⎥
⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡p p pp p p p p d d d c c c s s s s s s s s s 21212
1
2222111211
所以
⎥
⎥
⎥
⎥⎥
⎦⎤
⎢⎢⎢⎢⎢⎣⎡⎥⎥⎥⎥⎥⎦⎤⎢⎢
⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣
⎡-p pp p p p p p d d d s s s s s s s s s c c c 211
2122221112
1121 值得说明的是:本书有几处利用极值原理求极值时,只给出必要条件的数学推导,而有关充分条件的论证省略了,因为在通常遇到的实际问题中,根据问题本身的性质就能肯定有最大值(或最小值),如果所求的驻点只有一个,这时就不需要根据极值存在的充分条件判定它是极大还是极小而就能肯定这唯一的驻点就是所求的最大值(或最小值),为了避免用到较多的数学知识或数学上的推导,这里不追求数学上的完整性。
有了判别函数之后,欲建立判别准则还要确定判别临界值(分界点)y 0,在两总体先验
概率相等的假设下,一般常取y 0为)
1(y
与)
2(y
的加权平均值即
2
1)
2(2)
1(10n n y
n y
n y ++=
如果由原始数据求得)
1(y 与)
2(y 满足)
1(y >)
2(y ,则建立判别准则为:对一个新样品
),,(1'=p x x X 代入判别函数中去所得值记为y ,若y >y 0,则判定1G X ∈(见图一);若y <y 0,则判定2G X ∈。
如果)
1(y
<)
2(y
,则建立判别准则为:若y >y 0,则判定2G X ∈(见
图二);若y <y 0,则判定1G X ∈(注:为直观起见,给出两个正态总体等方差情况下的图形)。
(3)计算步骤 i )建立判别函数
图一 图二
求)
c ,,(c )c ,,(c p 1p 1 F Q I =
的最大值点p 21c ,c ,c ,根据极值原理,需解方程组
⎪⎪⎪
⎪⎩⎪⎪⎪⎪⎨⎧=∂∂=∂∂=∂∂0ln 0
ln 0ln 2
1p
c I c I c I 可得到p 1c ,,c ,写出判别函数p p x c x c y ++= 11。
ii )计算判别临界值0y ,然后根据判别准则对新样品判别分类。
iii )检验判别效果(当两个总体协差阵相同且总体服从正态分布)。
2112)
2(1)1(0:H :μμμμ≠===a a Ex Ex H
检验统计量:
)1,(~)2(1)2(21)(2
21210--+-++--+=
p n n p F T p
n n p n n F H 成立在 其中
⎥⎥⎦
⎤⎢⎢⎣⎡-+'-+⋅-+=-)()()2()2()1(21211)2()1(2121212
X X n n n n S X X n n n n n n T
∑
∑
==⨯--+
-
-
=
=2
1
1
)
2()2()2()2(1
)1()1()1()1())(()
)((,)(n a j aj i ai n a j aj
i ai
ij p p ij x x x x x x x x s s S
),,()()
(1)
('=i p
i i x x X
给定检验水平a , 查F 分布表,确定临界值a F ,若a F F >,则0H 被否定,认为判别有效。
否则认为判别无效。
值得指出的是:参与构造判别式的样品个数不宜太少,否则会影响判别式的优良性;其次判别式选用的指标不宜过多,指标过多不仅使用不方便,而且影响预报的稳定性。
所以建立判别式之前应仔细挑选出几个对分类特别有关系的指标,要使两类平均值之间的差异尽量大些。
例1 利用距离判别法中例1的人文发展指数的数据作Fisher 判别分析。
(1)建立判别函数
利用前例计算的结果,可得Fisher 判别函数的系数1c 、2c 、3c 为
)(ˆ8
1)2()1(13211321X X d d d S c c c -∑=⎥⎥⎥⎦
⎤
⎢⎢⎢⎣⎡=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡-- ⎥⎥⎥⎦
⎤
⎢⎢⎢⎣⎡=⨯=00109125.0001525.00815375.08
1a 所以判别函数为
32100109125.0001525.00815375.0x x x y ++= (2)计算判别临界值y 0 由于
1615.123
1)
1()
1(==∑
=k k k x c y
6266.931
)
2()
2(==
∑
=k k k x c y
所以 8941.102
1)2(2)
1(10=++=
n n y n y
n y
(3)判别准则
)
2()
1(y y
>
∴判别准则为
⎪⎩
⎪
⎨⎧=∈<∈>待判
时当判时当判时当 ,G X ,G X ,02010y y y y y y
(4)对已知类别的样品判别归类
上述回判结果表明:总的回代判对率为100%,这与统计资料的结果相符,而且与前面用距离判别法的结果也一致。
(5)对判别效果作检验
由于 76.4636746.1205.0=>=),(F F 所以在05.0=a 检验水平下判别有效。
(6)待判样品判别结果如下: 判别结果与实际情况吻合。
例2 用距离判别法中例2的制度变量对30个省市自治区作Fisher 判别分析。
(1)建立判别式 经计算得:
⎥
⎥
⎥⎥⎦
⎤⎢
⎢⎢
⎢⎣⎡=955.1602839
.237296.17435192
.136839.23786.505063917.419592.356296.174363917.41402.53016235.5995192.1369592
.3566235.599363.246S ⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎢⎣⎡------------=-001018.005800039.0000505.0058000236.00503.800049.000039.00503.8000421.000092.0000505.000049.000092.0006745.01
E E E E S ∴判别式为4321007062.0002439.0001774.0005176.0x x x x y +++= (2)求判别临界值y 0,对所给样品判别分类
563846.0,779369.0)
2()
1(==y
y
651651.02
1)
2(2)
1(10=++=
∴n n y n y
n y
由于)
2()
1(y y >,当样品代入判别工后,若0y y >,则判为第一组;若0y y <,则判为第二组。
回判结果如下:
等判样品判别结果
上述回判结果表明,第一组的第10号仍被回判为第2组,说明第10号样品确为误分。
而第二组的第16号被回判为第一组,仔细研究其指标,发现其数据介于第1组和第2组之间,差别不显著造成的。
总的回代判对率为25/27=92.59%。
关于待判的三个样品的判别结果与用距离判别法的相同,说明其判别结果是比较好的。
2 多总体Fisher 判别法
类似两总体Fisher 判别法可给出多总体Fisher 判别法。
设有k 个总体G 1, …, G k ,抽取样品数分别为k n n n ,,,21 ,令k n n n n +++= 21。
),,()
()(1)(i ap i a i a x x x =为第i 个总体的第a 个样品的观测向量。
假定所建立的判别函数为
x c x c x c x y p p '∆++= 11)(
其中 ),,(,),,(11'='=p p x x x c c c 记)
(i x
和)(i s 分别是总体i G 内x 的样本均值向量和样本协差阵,根据求随机变量线性组
合的均值和方差的性质可知,)(x y 在i G 上的样本均值和样本方差为
c s c x c y
i i i )(2i )
()
( ,'='=σ
记x 为总的均值向量,则x c y '=。
在多总体情况下,Fisher 准则就是要选取系数向量c ,使
∑∑
==-=
k
i i
i k
i i i q y y
n 1
2
1
2
)
()(σ
λ
达到最大,其中i q 是人为的正的加权系数,它可以取为先验概率。
如果取1-=i i n q ,并将c s c x c y x c y
i i i i )(2)
()
(,,'='='=σ代入上式可化为:
Ec
c Ac
c ''=λ 其中E 为组内离差阵,A 为总体之间样本协差阵,即
∑=⋅=
k
i i i
s q
E 1
)(
∑
='--=
k
i i i i x x
x x
n A 1
)
()
())((
为求λ的最大值,根据极值存在的必要条件,令
0=∂∂C
λ
,利用对向量求导的公式: )()
(2)()(22
2Ac c Ec c Ec
Ec c Ec c Ac C '⋅'-'⋅'=∂∂λ Ec c Ac c Ec c Ec Ec c Ac ''⋅
'-'=22 λ⋅'-'=Ec
c Ec Ec c Ac 22
因此 Ec Ac Ec
c Ec
Ec c Ac C λλλ=⇒='-'⇒=∂∂0220
这说明λ及c 恰好是A 、E 矩阵的广义特征根及其对应的特征向量。
由于一般都要求加权协差阵E 是正定的,因此由代数知识可知,上式非零特征根个数m 不超过min (k-1,p ),又因为A 为非负定的,所以非零特征根必为正根,记为021>≥≥≥m λλλ ,于是可构造m 个判别函数:
m ,1,l )()( =='x c x y l l
对于每一个判别函数必须给出一个用以衡量判别能力的指标i p 定义为:
m ,1,l 1
==
∑=m
i i
l
i p λ
λ
m 0个判别函数01,,m y y 的判别能力定义为:
∑∑∑====
∆
01
1
1
1
m l m
i i
m l l
m p
sp λ
λ
如果m 0达到某个人定的值(比如85%)则就认为m 0个判别函数就够了。
有了判别函数之后,如何对待判的样品进行分类?Fisher 判别法本身并未给出最合适的分类法,在实际工作中可以选用下列分类法之一去作分类。
(1)当取m 0=1时(即只取一个判别函数),此时有两种可供选用的方法 i )不加权法
若)
(1)
()(min )(j k
j i y
x y y
x y -=-≤≤
则判.i G x ∈ ii )加权法 将)
()
2()
1(,,,k y
y y 按大小次序排列,记为)()2()1(k y y y ≤≤≤ ,相应判别函数的标准
差重排为)(i σ。
令
1-k ,1,i )
()()1()
1()()()1(1, =++=
++++i i i i i i i i y y d σσσσ
则1,+i i d 可作为ji G 与1+ji G 之间分界点。
如果x 使得1,,1)(+-≤≤i i i i d x y d ,则判ji G x ∈。
(2)当取10>m 时,也有类似两种供选用的方法 i )不加权法
记k i x c y i l i l ,,1;m ,1,l
0)
()()
( ==='
对待判样品),,(1'=p x x x ,计算
x c x y l l )()('=
∑
==⎥⎦⎤⎢⎣⎡-=0
1
2
)(2
k ,1,i )(m l i l l i y x y D 若,min 212i k
i r D D ≤≤=则判r G x ∈。
ii )加权法
考虑到每个判别函数的判别能力不同,记
∑
=⎥⎦⎤⎢⎣⎡-=0
1
2
)(2
)(m l l i l l i y x y D λ 其中l λ是由Ec Ac λ=求出的特征根。
若,min 212i k
i r D D ≤≤=则判r G x ∈。
§6.4 贝叶斯(Bayes )判别法
从上节看到Fisher 判别法随着总体个数的增加,建立的判别式也增加,因而计算起来还是比较麻烦的。
如果对多个总体的判别考虑的不是建立判别式,而是计算新给样品属于各总体的条件概率k l x l P ,,1),/( =。
比较这k 个概率的大小,然后将新样品判归为来自概率最大的总体,这种判别法称为Bayes 判别法。
1 基本思想
Bayes 判别法的基本思想总是假定对所研究的对象已有一定的认识,常用先验概率来描述这种认识。
设有k 个总体G 1, G 2, …, G k ,它们的先验概率分别为k q q q ,,21 (它们可以由经验给出也可以估出)。
各总体的密度函数分别为:)(,),(),(21x f x f x f k (在离散情形是概率函数),在观测到一个样品x 的情况下,可用著名的Bayes 公式计算它来自第g 总体的后验概率(相对于先验概率来说,将它又称为后验概率):
k ,1,g )
()
()/(1
==∑=k i i i
g g x f q
x f q x g P
并且当 )/(max )/(1x g P x h P k
g ≤≤=
时,则判X 来自第h 总体。
有时还可以使用错判损失最小的概念作判决函数。
这时把x 错判归第h 总体的平均损失定义为
)/()
()
()/(1
g h L x f q
x f q x h E h
g k
i i i
g g ⋅=∑
∑≠= 其中)/(g h L 称为损失函数。
它表示本来是第g 总体的样品错判为第h 总体的损失。
显
然上式是对损失函数依概率加权平均或称为错判的平均损失。
当h = g 时,有0)/(=g h L ;当g h ≠时,有0)/(>g h L 。
建立判别准则为如果
)/(min )/(1x g E x h E k
g ≤≤=
则判定x 来自第h 总体。
原则上说,考虑损失函数更为合理,但是在实际应用中)/(g h L 不容易确定,因此常常在数学模型中就假设各种错判的损失皆相等,即
⎩
⎨
⎧≠==g h 1g h
0)/(g h L 这样一来,寻找h 使后验概率最大和使错判的平均损失最小是等价的,即
min )/(max )/(−→−⇔−→−h
h x h E x h p
2 多元正态总体的Bayes 判别法
在实际问题中遇到的许多总体往往服从正态分布,下面给出p 元正态总体的Bayes 判别法。
(1)判别函数的导出 由前面叙述已知,使用Bayes 判别法作判别分析,首先需要知道待判总体的先验概率g
q 和密度函数)(x f g (如果是离散情形则是概率函数)。
对于先验概率,如果没有更好的办法确定,可用样品频率代替,即令n
n q g g =
,其中g n 为用于建立判别函数的已知分类数据中
来自第g 总体样品的数目,且n n n n k =+++ 21,或者干脆令先检概率相等,即k
q g 1
=
,
这时可以认为先验概率不起作用。
p 元正态分布密度函数为:
⎭
⎬⎫⎩⎨⎧-∑'--⋅∑
=---)()(21exp )
2()()(1)()(1)(2
g g g g p g x x x f μμπ
式中)(g μ和)(g ∑分别是第g 总体的均值向量(p 维)和协差阵(p 阶)。
把)(x f g 代入
)/(x g P 的表达式中,因为我们只关心寻找使)/(x g P 最大的g ,而分式中的分母不论g 为何值都是常数,故可改令
max )(−→−g
g g x f q
取对数并去掉与g 无关的项,记为
)()(21
ln 21ln )/()(1)()()(g g g g g x x E q x g Z μμ-∑'---=-
)(1)()(1)()(1)()(2
1
21ln 21ln g g g g g g g g x x x E q μμμ--'-∑'+∑-∑'--=
则问题化为
max )/(−→−g
x g Z
(2)假设协方差阵相等
)/(x g Z 中含有k 个总体的协方差阵(逆阵及行列式值),而且对于x 还是二次函数,实际计算时工作量很大。
如果进一步假定k 个总体协方差阵相同,即
∑=∑==∑=∑)()2()1(K ,这时)/(x g Z 中)(ln 21g ∑和x x g 1)(2
1
-∑'两项与g 无关,求最
大时可以去掉,最终得到如下形式的判别函数与判别准则(如果协方差阵不等,则有非线性判别函数);
⎪⎩
⎪⎨
⎧
−→−∑'+∑-=--'max )/(21ln )/()(1)(1)(g g g g g
x g y x q x g y μμμ 上式判别函数也可以写成多项式形式:
∑=+
+
=p
i i g i
g g x C
C q x g y 1
)
()
(0
ln )/(
此处
p ,1,i 1
)()
( ==
∑=p
j g j ij
g i v
C μ
)(1)()
(02
1g g g C μμ-'∑-=
∑∑==-=p i p j g j g i ij v 11)()(21μμ
∑=-=p i g i g i C 1
)()(21μ
),,,(21'=p x x x x
),,,()
()(2)(1)('=g p g g g μμμμ
p p ij v ⨯=∑)(,
p p ij v ⨯-=∑
)(1
(3)计算后验概率
作计算分类时,主要根据判别式)/(x g y 的大小,而它不是后验概率)/(x g P ,但是有
了)/(x g y 之后,就可以根据下式算出)/(x g P :
{}
{}
∑==
k
i x i y x g y x g P 1
)/(exp )/(exp )/(
因为
)())(ln()/(x x f q x g y g g ∆-=
其中)(x ∆是))(ln(x f q g g 中与g 无关的部分。
所以
∑==
k
i i i
g g x f q
x f q x g P 1
)
()
()/(
{}
{}
∑=∆+∆+=
k
i x x i y x x g y 1
)()/(exp )()/(exp
{}{}
{}∑=∆∆=
k
i x x i y x x g y 1
)}
(exp{)/(exp )(exp )/(exp
{}
{}
∑==
k
i x i y x g y 1
)/(exp )/(exp
由上式知使y 为最大的h ,其)/(x h P 必为最大,因此我们只须把样品x 代入判别式中:分别计算)/(x g y ,k g ,,1 =。
若
{})/(max )/(1x g y x g y k
g ≤≤=
则把样品x 归入第h 总体。
例1 继续用前面距离判别法例1的人文发展指数的数据作Bayes 判别分析。
这里组数k =2,指标数p =3, n 1 = n 2 = 5
5.010
5
21==
=q q 693147.0ln ln 21-==q q )5343.4 94.08, ,88.75()1('=x
)3430.4 91.74, ,44.70()2('=x
⎥⎥
⎥⎦
⎤
⎢⎢⎢⎣⎡--=∑-00000434.00000799.00000442.00000799.0029278.003845.00000442.003845.0120896.01
代入判别函数:
()1,2g 2
1ln )/()(1)
(1=∑'+∑-
=--'g g g g x q x g y μμμ 得两组的判别函数分别为:
321103406.026383.079239.517194.323x x x f +++-=
321202533.025162.014013.502067.236x x x f +++-=
将原各组样品进行回判结果如下:
回判结果表明,总的回代判对率为100%,这与统计资料的结果相符,并与前面的距离判别法、Fisher 判别法的结果也相同。
待判样品判别结果如下:
待判样品的结果表明,判属类别与前面的判属类别完全相同,即中国、罗马尼亚属于第二类,希腊、哥伦经亚属于第一类。
例2 继续用前面距离判别法例2的制度变量的数据作Bayes 判别分析。
由前知:
)73.80455 25.14909 65.02818 73636.15()1('=x )58.105 9.228125 40.10625 5625.11()
2('
=x
⎥
⎥
⎥⎥⎦⎤
⎢
⎢⎢
⎢⎣⎡=∑11822.6451356.973185.69460767.551356.90344.202665567.127837.1473185.69665567.10561.21298494.23460767.527837.1498494.23854518.9^
⎥
⎥⎥⎥⎦
⎤
⎢
⎢⎢
⎢⎣⎡--------=∑-02546.000201.000978.0012615
.000201.0005898.0002008.001232.000978.0002008.0010532.002312.0012615.001232.002312.0168616.01
^ 89794.02711
ln
ln 1-==q 52325.027
16ln 2-==q
两组的判别函数分别为:
4321139083.106328.035051.0770953.19646.5389794.0x x x x f +--+--=
43212214283.112426.039486.0641542.17998.3652325.0x x x x f +--+--= 判别原则:若样品的21f f >,则属于第一组;若21f f <,则属于第二组。
回判结果如下:
Bayes 法的回判结果与距离判别法的结果是一样的,其判对率为96.3%。
待判样品判别结果如下:
在Bayes 法下,关于待判的三个样品的判别结果:江苏判属于第一组,安徽和陕西判属于第二组。
其中,安徽的判属组别与前两种方法不一样,这与方法本身有差异有关,但也与安徽的数据有关,其数据介于一组和二组之间,差别不显著。
§6.5 逐步判别法
前面介绍的判别方法都是用已给的全部变量p x x x ,,,21 来建立判别式的,但这些变量在判别式中所起的作用,一般来说是不同的,也就是说各变量在判别式中判别能力不同,有些可能起重要作用,有些可能作用低微,如果将判别能力低微的变量保留在判别式中,不仅会增加计算量,而且会产生干扰影响判别效果,如果将其中重要变量忽略了,这时作出的判别效果也一定不好。
如何筛选出具有显著判别能力的变量来建立判别式呢?由于筛选变量的
重要性,近三十年来有大量的文章提出很多种方法,这里仅介绍一种常用的逐步判别法。
1 基本思想
逐步判别法与逐步回归法的基本思想类似,都是采用“有进有出”的算法,即逐步引入变量,每引入一个“最重要”的变量进入判别式,同时也考虑较早引入判别式的某些变量,如果其判别能力随新引入变量而变为不显著了(例如其作用被后引入的某几个变量的组合所代替),应及时从判别式中把它剔除去,直到判别式中没有不重要的变量需要剔除,而剩下来的变量也没有重要的变量可引入判别式时,逐步筛选结束。
这个筛选过程实质就是作假设检验,通过检验找出显著性变量,剔除不显著变量。
2 引入剔除变量所用的检验统计量
设有k 个正态总体k i N i p ,,1),,()( =∑μ,它们有相同的协方差阵。
因此如果它们有产
左别也只能表现在均值向量)(i μ上,今从k 个总体分别抽取k n n ,,1 个样品,)
1()1(11
,,n X X ;
)
()(1 , , ;k nk
k X X ,令01n n n k =++ 。
今作统计假设 )()2()1(0:k H μμμ===
如果接受这个假设,说明这k 个总体的统计差异不显著,在此基础上建立的判别函数效果肯定不好,除非增加新的变量。
如果H 0被否定,说明这k 个总体可以区分,建立判别函数是有意义的,根据第三章§3.1检验H 0的似然比统计量为
)1,(~--Λ=+=Λk k n T
E
E A E P p
其中
∑∑
==-'-=k a n i a a i a a i a
X
X X
X E 11)
()()
()()()(
∑=-'-=
k
a a a a X X X X
n
A 1
)()
()()(
由p Λ的定义可知:10≤Λ≤p ,而E 、T 的大小分别反映了同一总体样本间的差异和k 个总体所有样本间的差异。
因此,p Λ值越小,表明相同总体间的差异越小,相对地,样本间总的差异越大,即各总体间有较大差异,因此对给定的检验水平a ,应由p Λ分布确定临界值a λ,使,}{a P a p =>Λλ当a p λ<Λ时拒绝H 0,否则H 0相容。
这里Λ标下角标)(p Λ是强调有p 个变量。
由于Wilks 分布的数值表,一般书上没有,所以常用下面的近似公式: Bartlett 近似式:
ln 1)(21⎥⎦⎤⎢⎣⎡----k p n 成立下在极限分布0H ))1((2-k p χ
Rao 近似式
[]))1(,1()11(1
))1((k p n k F k k p n p
p -----Λ-Λ⋅----极限分布
这里根据Rao 近似式给出引入变量和剔除变量的统计量。
为此先复习线性代数的一个定理。
设p p ij a A ⨯=)(且将A 剖分为:
⎥
⎦
⎤⎢⎣⎡=22211211A A A A
A 这里A 11、A 22是方阵且非奇异阵,则
121
11212211A A A A A A --= 211
22
121122A A A A A --=。