第四章 判别分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
.04
5.06
.13
2
.04
.01
1.50
.71
待判
-.06
-.06
1.37
.40
待判
.07
-.01
1.37
.34
-.13
-.14
1.42
.44
.15
.06
2.23
.56
.16
.05
2.31
.20
.29
.06
1.84
.38
.54
.11
2.33
.48
待判 待判 待判 待判 待判 待判
企业 序号
1 2 3 4 5 6 7 8
由于判别分析是假设两组或多组样品取自不同总 体,因此要求样本各类型的均值向量在统计上具 有显著差异,如能反映出显著差异,则判别函数 显著,有能力将不同的类型区别开来。
所以对判别效果的检验即是对多元正态总体的均 值向量是否相等进行检验,利用Hotelling T2统计 量进行检验。
回代是指将训练样本依次代入判别函数,检查错 判情况,回代错判率低即是指依训练样本建立的 判别函数偏差小,建立方法可靠。
短期支付能力 1.09 1.51 1.01 1.45 1.56 .71 .22 1.31 2.15 1.19 1.88 1.99 1.51 1.68 1.26 1.14 1.27 2.49 2.01
生产效率指标 .45 .16 .40 .26 .67 .28 .18 .25 .70 .66 .27 .38 .42 .95 .60 .17 .51 .54 .53
.52
2
.15
.05
2.17
.55
2
-.10
-1.01
2.50
.58
2
.14
-.03
.46
.26
2
.14
.07
2.61
.52
2
-.33
-.09
3.01
.47
2
.48
.09
1.24
.18
2
.56
.11
4.29
.45
2
.20
.08
1.99
.30
2
.47
.14
2.92
.45
2
.17
.04
2.45
.14
2
.58
3.交互验证:
这是近年来逐渐发展起来的一种非常重要的 判别效果验证技术。它在样本二分法的基础 上又大大前进了一步,具体来说,就是在建 立判别函数时依次去掉一例,然后用建立起 来的判别函数对该例进行判别,用这种方法 可以非常有效地避免强影响点的干扰。在 SPSS中已经提供了交互验证功能,可直接使 用对话框操作。
二、判别分析原理
原理: 判别分析是利用原有的分类信息,得到体现这种分
类的函数关系式(即判别函数,一般是与分类相关的 若干个指标的线性关系式),然后利用该函数去判断 未知样品属于哪一类 要点: 1、判别分析需要明确所研究样本共有几个类别 2、判别分析需要从现有已知类别的样本数据中提练出一 个判别函数
三、常用判别方法
距离判别法 Fisher判别法 贝叶斯判别法 典型判别与逐步判别法
第二节 距离判别法
一、基本思想
由训练样本得出每个分类的重心(中心 )坐标,然后对新样品求出它们离各个 类别重心的距离远近,从而归入离得最 近的分类。最常用的距离是马氏距离。
(一)马氏距离
距离判别的最直观的想法是计算样品到 第i类总体的平均数的距离,哪个距离最 小就将它判归哪个总体,所以,我们首 先考虑的是是否能够构造一个恰当的距 离函数,通过样本与某类别之间距离的 大小,判别其所属类别。
设有个K总体,分别有均值向量μi(i=1,2,…,k)和协方差 阵Σi= Σ,各总体出现的先验概率相等。又设Y是一个待 判样品。则距离为(即判别函数)
d 2 (y,Gi ) (y i ) 1(y i ) y1y 2y1i i1i
上式中的第一项Y’ Σ-1Y与i无关,则舍去,得一个等价的函数
第四章 判别分析
内容和要求
内容:
判别分析简介、基本原理、判别分析方法
要求:
1、熟悉判别分析基本原理。 2、掌握常用的判别分析准则。
3、能熟练使用软件进行判别分析,并能对判 别结果作深入讨论。
第一节 判别分析简介
关于判别分析基本概念和基本原 理
一、什么是判别分析?
判别分析是在已知分类情况的条件下根 据一定的指标对未知类别的数据进行归 类的方法。判别分析在生物学、医学、 地质学、石油、气象等领域得到较为广 泛的应用,在经济分析和市场研究中也 是我们认知事物的重要方法。
y y
G1, G2 ,
如d 2 y,G1 d 2 y,G2 , 如d 2 y,G2 d 2 y,G1
待判, 如d 2 ( y,G1) d 2 ( y,G2 )
d 2 (y,G2 ) d 2 (y,G1)
(y 2 ) 1(y 2 ) (y 1) 1(y 1)
y1y 2y12 212
9.45
(1 2 ) / 2 35.25
8.45
0.60581
1 (1
2 )
0.25362
1.83679
(1
2
2
)
1
(1
2
)
0.60581
9.45
35.25
8.45
0.25362
18.73596
1.83679
线性判别函数:
y 0.60581x1 0.25362x2 1.83679x3 18.73596 y1 0.60581 7.8 0.25362 39.11.83679 9.6 18.73596 4.0892 0
判别 类型
1 1 1 1 2 2 2 2
判别函数得 分
-.56509 -.89817 -.59642 -1.02182 .25719 .34253 .27925 1.24010
判别为1的 概率
.69479 .80234 .70620 .83420 .35312 .32005 .34442 .09012
d 2 (x,Gi ) (x i )1 (x i ) i 1, 2, , k
(二)两个总体距离判别法
1、方差相等
先考虑两个总体的情况,设有两个协差阵相同 的p维正态总体和,对给定的样本Y,判别一个样本Y 到底是来自哪一个总体,一个最直观的想法是计算Y 到两个总体的距离。故我们用马氏距离来指定判别 规则,有:
待判, 如d 2 ( y,G1) d 2 ( y,G2 )
d 2 (y,G2 ) d 2 (y,G1)来自(y2)
1 2
(y
2
)
(y
1
)11
(y
1
)
当总体的方差未知时,应该用样本的协方差矩阵代 替。步骤如下(假如两个总体):
(1)分别计算各组的离差矩阵S1和S2;
(2)计算
ˆ S1 S2
n1 n2 2
类别 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2
.38
.11
3.27
.55
2
.19
.05
2.25
.33
2
.32
.07
4.24
.63
2
.31
.05
4.45
.69
2
.12
.05
2.52
.69
2
-.02
.02
2.05
.35
2
.22
.08
2.35
.40
2
.17
.07
1.80
良好的外部应用性质是指该判别函数具有相当程 度的稳定性,不仅适用于本训练样本,而且在大 多数情况下具有普遍应用能力,这也正是我们建 立判别函数想要达到的目的。
为检验外部性,可采用的方法有:
1.外部数据验证法: 即判别函数建立完成后,重新再收集一部分数据,
用判别函数进行判别,看错判是否严重。这种验证 方法从理论上说较好,但再收集样本数据不能用来 建立判别函数有些浪费,而且很难保证两个样本具 有同质性。 2.样本二分法: 是外部数据法的改进,采用随机函数将所用样本分 为两部分,一般是按2:1的比例拆分,多的部分用 于建立判别函数,剩下的用于验证。这种做法可以 保证验证样本和训练样本的同质性是最为理想的, 但它要求样本量较大,否则建立的判别函数不稳定 ,白白浪费信息。
判别为2的 概率
.30521 .19766 .29380 .16580 .64688 .67995 .65558 .90988
判别分析利用已知类别的样本培训模型,为 未知样本判类的一种统计方法。
它产生于本世纪30年代。近年来,在自然科 学、社会学及经济管理学科中都有广泛的应用。 判别分析的特点是根据已掌握的、历史上每个类 别的若干样本的数据信息,总结出客观事物分类 的规律性,建立判别公式和判别准则。然后,当 遇到新的样本点时,只要根据总结出来的判别公 式和判别准则,就能判别该样本点所属的类别。
设 x (x1, x2 , , xm )和 y ( y1, y2 , , ym ) 是从期望
μ= (1, 2, , m )和 方差阵Σ=
ij
0
mm
的总体G抽得的两个观测值,则称
d 2 (x, y) (x y)1 (x y)
为X与Y之间的Mahalanobis距离
样本X和Gi类之间的马氏距离定义为X与Gi类 重心间的距离:
y2 0.605818.1 0.25362 34.2 1.83679 6.9 18.73596 2.2956 0
由此可以判断第一个企业属于优秀企业,第二个 企业属于一般企业
2、当总体的协方差已知,且不相等
y y
G1, G2 ,
如d 2 y,G1 d 2 y,G2 , 如d 2 y,G2 d 2 y,G1
举例
例 中小企业的破产模型
为了研究中小企业的破产模型,选定4个经济指标 : X1总负债率(现金收益/总负债) X2收益性指标(纯收入/总财产) X3短期支付能力(流动资产/流动负债) X4生产效率性指标(流动资产/纯销售额) 对17个破产企业(1类)和21个正常运行企业( 2类)进行了调查,得如下资料:
资金利润率=利润总额/资金占用总额 劳动生产率=总产值/职工平均人数 产品净值率=净产值/总产值 三个指标的均值向量和协方差矩阵如下。现有二个企 业,观测值分别为 (7.8,39.1,9.6)和(8.1,34.2,6.9),问这两个 企业应该属于哪一类?
变量
均值向量 优秀 一般
资金利润率 13.5 5.4 劳动生产率 40.7 29.8 产品净值率 10.7 6.2
(3)计算类的均值 1, 2
(4)计算
ˆ 1,
1
2
,
1
2
2
(5)计算 ˆ 1(1 2 )
从而计算(1
2
2
)
ˆ
1
(1
2
)
(6)生成判别函数,将检验样本代入,得分,判类。
(三) 多总体的距离判别法
随着计算机计算能力的增强和计算机的普及,距离判 别法的判别函数也在逐步改进,一种等价的距离判别为 :
68.39 40.24 21.41
协方差矩阵
40.24 54.58 11.67
21.41 11.67 7.90
0.119337 0.02753 0.28276 1 0.02753 0.033129 0.025659
0.28276 0.025659 0.854988
8.1
1 2 10.9
4.5
总负债率 -.45 -.56 .06 -.07 -.10 -.14 -.23 .07 .01 -.28 .15 .37 -.08 .05 .01 .12 -.28 .51 .08
收益性指标 -.41 -.31 .02 -.09 -.09 -.07 -.30 .02 .00 -.23 .05 .11 -.08 .03 .00 .11 -.27 .10 .02
gi (Y ) 2y1i i1i
将上式中提-2,得
gi
(Y
)
2(y
1 i
0.5i1i)
令 fi (Y ) (y1i 0.5i1i)
则距离判别法的判别函数为:
令
fi
(Y
)
(y
1 i
0.5i1i)
判别规则为
fl
(
y)
max
1ik
fi (x),y Gl
注:这与前面所提出的距离判别是等价的.
d 2 (y,Gi ) (y i )21(y i )最小
fi (Y ) (y1i 0.5i1i)最大
(三)、判别分析效果检验
良好的判别效果即是指所建立的判别函数具有相 当的稳定性和准确性,优良的判别函数应该是: 一理论基础稳固,具有准确判别的能力;二回代 错判率低;三具有良好的外部数据应用性质。
(y1y
2y11
1
1 1
)
2y1 (1 2 ) (1 2 )1(1 2 )
2[y
(1
2
2
)
]1
(1
2
)
令 1 2
2
1 (1 2 ) (a1, a2 ,
, ap )
W (y) (y ) (y )
a1( y1 1) 常数项ap ( yp p )
αy αμ
则前面的判别法则表示为
y G1, 如W(y) 0, y G2, 如W(y) 0。 待判, 如W (Y ) 0
当 1, 2 和已知时, 1 (1 2 )是一个已知的p 维向量,W(y)是y的线性函数,称为线性判别函数。 称为判别系数。用线性判别函数进行判别分析非常直观 ,使用起来最方便,在实际中的应用也最广泛。
例 4.1 在企业的考核中,可以根据企业的生产经营情 况把企业分为优秀企业和一般企业。考核企业经营状况 的指标有: