判别分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Obs type x1 x2 x3 1 2 3 4 5 6 7 8 9 10 11 12 1 1 1 1 1 1 1 2 2 2 2 2 9 7 8 8 9 8 7 4 3 6 2 1 8 6 7 5 9 9 5 4 6 3 4 2 7 6 8 5 3 7 6 4 6 3 5 2
(三) 多总体的距离判别法 三
3.27 2.25 4.24 4.45 2.52 2.05 2.35 1.80 2.17 2.50 .46 2.61 3.01 1.24 4.29 1.99 2.92 2.45 5.06 1.50 1.37
.55 .33 .63 .69 .69 .35 .40 .52 .55 .58 .26 .52 .47 .18 .45 .30 .45 .14 .13 .71 .40
变量
均值向量 优秀 一般 5.4 29.8 6.2 68.39 40.24 21.41
协方差矩阵
资金利润率
13.5
40.24 54.58 11.67
21.41 11.67 7.90
劳动生产率 40.7 产品净值率 10.7
0.119337 − 0.02753 − 0.28276 Σ −1 = − 0.02753 0.033129 0.025659 − 0.28276 0.025659 0.854988
y1 = −0.60581× 7.8 + 0.25362 × 39.1 + 1.83679 × 9.6 − 18.73596 = 4.0892 > 0(第一个新企业属于一类) y2 = −0.60581× 8.1 + 0.25362 × 34.2 + 1.83679 × 6.9 − 18.73596 = −2.2956 < 0(第二个新企业属于二类)
随着计算机计算能力的增强和计算机的普及,距离判 别法的判别函数也在逐步改进,一种等价的距离判别为: 设有个K总体,分别有均值向量µi(i=1,2,…,k)和协方差 阵Σi= Σ,各总体出现的先验概率相等。又设Y是一个待判 样品。则与的距离为(即判别函数)
′Σ −1 ( y − µ i ) d (y , Gi ) = (y − µ i )
类别 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2
.38 .19 .32 .31 .12 -.02 .22 .17 .15 -.10 .14 .14 -.33 .48 .56 .20 .47 .17 .58 .04 -.06
.11 .05 .07 .05 .05 .02 .08 .07 .05 -1.01 -.03 .07 -.09 .09 .11 .08 .14 .04 .04 .01 -.06
2
′Σ −1 µ i − 0.5µ i′Σ −1µ i′)最大 f i (Y ) = ( y
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 待判 待判
.07 -.13 .15 .16 .29 .54
-.01 -.14 .06 .05 .06 .11
1.37 1.42 2.23 2.31 1.84 2.33
.34 .44 .56 .20 .38 .48
待判 待判 待判 待判 待判 待判
2、当总体的协方差已知,且不相等 、当总体的协方差已知,
y ∈G , 如d 2 (y,G ) < d 2 (y,G2 ), 1 1 y ∈G2 , 如 2 (y,G2 ) < d 2 (y,G ) d 1 待 , 如d 2 ( y,G ) = d 2 ( y,G ) 1 2 判
d (y,G2 ) − d (y,G ) 1
判别函数的常数项(
µ1 + µ 2
2 − 0.60581 = [9.45 35.25 8.45] 0.25362 = 18.73596 1.83679
′ ) Σ −1 ( µ1 − µ 2 )
线性判别函数:
y = −0.60581x1 + 0.25362 x2 + 1.83679 x3 − 18.73596
−1
( y − µ 2 ) − ( y − µ1 )′Σ
−1
( y − µ1 )
′ = y′Σ −1y − 2y′Σ −1 µ 2 + µ 2 Σ −1µ 2
′ − (y′Σ −1y − 2y′Σ −1 µ1 + µ1Σ −1µ1 )
= 2y′Σ −1 ( µ1 − µ 2 ) − ( µ1 + µ 2 )′Σ −1 ( µ1 − µ 2 )
2
= y ′Σ −1 y − 2y′Σ −1 µ i + µ i′Σ −1µ i′
上式中的第一项Y’ Σ-1Y与i无关,则舍去,得一个等价的函数
′Σ −1 µ i + µ i′Σ −1µ i′ g i (Y ) = −2y
将上式中提-2,得
′Σ −1 µ i − 0.5µ i′Σ −1µ i′) g i (Y ) = −2( y 令 令 f i (Y ) = ( y ′Σ −1 µ i − 0.5µ i′Σ −1µ i′)
总负债率 -.45 -.56 .06 -.07 -.10 -.14 -.23 .07 .01 -.28 .15 .37 -.08 .05 .01 .12 -.28 .51 .08
收益性指标 -.41 -.31 .02 -.09 -.09 -.07 -.30 .02 .00 -.23 .05 .11 -.08 .03 .00 .11 -.27 .10 .02
破破 序号 1 2 3 4 5 6 7 8
判别 类型 1 1 1 1 2 2 2 2
判别函数 得分 -.56509 -.89817 -.59642 -1.02182 .25719 .34253 .27925 1.24010
判别为1的 概率 .69479 .80234 .70620 .83420 .35312 .32005 .34442 .09012
2 2
= (y − µ2 )′Σ2 (y − µ2 ) − (y − µ1)′Σ1 (y − µ1)
−1 −1
例 在破破的考核种,可以根据破破的生产经营情况 把破破分为优秀破破和一般破破。考核破破经营状况的 指标有: 资金利润率=利润总额/资金占用总额 劳动生产率=总产值/职工平均人数 产品净值率=净产值/总产值 三个指标的均值向量和协方差矩阵如下。现有二个破 破,观测值分别为 (7.8,39.1,9.6)和(8.1,34.2,6.9),问这两 个破破应该属于哪一类?
当总体的方差未知时,应该用样本的协方差矩阵代 替。步骤如下(假如两个总体): (1)分别计算各组的离差矩阵S1和S2; (2)计算
ˆ = S1 + S 2 Σ n1 + n2 − 2
(3)计算类的均值 (4)计算
µ1 , µ 2
µ + µ2 ˆ Σ −1 , µ1 − µ 2 , 1 2 (5)计算 判别函数的系数Σ −1 ( µ1 − µ 2 )
判别的为2 概率 .30521 .19766 .29380 .16580 .64688 .67995 .65558 .90988
判别分析利用已知类别的样本培训模型,为 未知样本判类的一种统计方法。 它产生于本世纪30年代。近年来,在自然科 学、社会学及经济管理学科中都有广泛的应用。 判别分析的特点是根据已掌握的、历史上每个类 别的若干样本的数据信息,总结出客观事物分类 的规律性,建立判别公式和判别准则。然后,当 遇到新的样本点时,只要根据总结出来的判别公 式和判别准则,就能判别该样本点所属的类别。
8.1 µ1 − µ 2 = 10.9 4.5
9.45 ( µ1 + µ 2 ) / 2 = 35.25 8.45
− 0.60581 判别函数的系数Σ −1 ( µ1 − µ 2 ) = 0.25362 1.83679
§2 距离判别
(一)马氏距离 马氏距离 距离判别的最直观的想法是计算样品到第i类 总体的平均数的距离,哪个距离最小就将它判 归哪个总体,所以,我们首先考虑的是是否能 够构造一个恰当的距离函数,通过样本与某类 别之间距离的大小,判别其所属类别。
设 x = (x , x ,L x )′和 y = ( y1, y2 ,L, ym )′ 是从 , m 1 2 期望µ= 和方差阵Σ= (µ1, µ2 ,L, µm )′ (σij )m×m > 0 的总体G抽得的两个观测值,则称
y ∈G , 如d 2 (y,G ) < d 2 (y,G2 ), 1 1 y ∈G2 , 如 2 (y,G2 ) < d 2 (y,G ) d 1 待 , 如d 2 ( y,G ) = d 2 ( y,G ) 1 2 判
d 2 ( y , G2 ) − d 2 ( y , G1 ) = ( y − µ 2 )′Σ
判 别 分 析
距离判别 贝叶斯判别 逐步判别 典型判别
§1 什么是判别分析 例 中小企业的破产模型
为了研究中小破破的破产模型,选定4个经济指标: X1总负债率(现金收益/总负债) X2收益性指标(纯收入/总财产) X3短期支付能力(流动资产/流动负债) X4生产效率性指标(流动资产/纯销售额) 对17个破产破破(1类)和21个正常常行破破 (2类)进行了调查,得如下资料:
d 2 (x, y) = (x − y)′Σ−1 (x − y) 为X与Y之间的Mahalanobis距离
样本X和Gi类之间的马氏距离定义为X与Gi类 重心间的距离:
d 2 (x,Gi ) = (x − µi )′Σ−1 (x − µi )
i =1,2,L, k
(二)两个总体距离判别法 1、方差相等 先考虑两个总体的情况,设有两个协差阵Σ相同 的p维正态总体和,对给定的样本Y,判别一个样本Y Y Y 到底是来自哪一个总体,一个最直观的想法是计算Y Y 到两个总体的距离。故我们用马氏距离来指定判别 规则,有:
( µ1 + µ 2 ) −1 = 2[y − ]′Σ ( µ1 − µ 2 ) 2 µ1 + µ 2 α = Σ −1 ( µ1 − µ2 ) = (a1 , a2 ,L, a p )′ 令µ = 2
W(y) = (y − µ)′α =α′(y − µ)
a1( y1 − µ1) +L+ ap ( yp − µp )
短期支付能力 1.09 1.51 1.01 1.45 1.56 .71 .22 1.31 2.15 1.19 1.88 1.99 1.51 1.68 1.26 1.14 1.27 2.49 2.01
生产效率指标 .45 .16 .40 .26 .67 .28 .18 .25 .70 .66 .27 .38 .42 .95 .60 .17 .51 .54 .53
则前面的判别法则表示为
W y > y ∈G ,如 ( ) 0, 1 W < 。 y ∈G2 ,如 (y) 0 待 , 如 (Y) = 0 W(Y 判 当 µ1, µ2 和Σ已知时,α= Σ−1 (µ1 − µ2 )是一个已 知的p维向量,W(y)是y的线性函数,称为线性 判别函数。α称为判别系数。用线性判别函数进行 判别分析非常直观,使用起来最方便,在实际中的 应用也最广泛。
2 (6)生成判别函数,将检验样本代入,得分,判类。 判别函数的常数项(
µ1 + µ 2
′ ) Σ −1 ( µ1 − µ 2 )
作破
(用excel完成)
某种产品的生产厂家有12家,其中7家的产 品受消费者欢迎,属于畅销品,定义为1类;5家 的产品不大受消费者欢迎,属于滞销品,定义为2 类。将12家的产品的式样,包装和耐久性进行了 评估后,得分资料,今有一新的厂家,得分为(6, 4,5),该厂的产品是否受欢迎。数据如下。
则距离判别法的判别函数为:
′Σ −1 µ i − 0.5µ i′Σ −1µ i′) f i (Y ) = ( y
判别规则为
f l ( y ) = max f i百度文库( x ),则 y ∈ Gl
1≤ i ≤ k
−1
注:这与前面所提出的距离判别是等价的.
d (y, Gi ) = (y − µ i )′Σ 2 (y − µ i )最小 ⇔