判别分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

如d 2 x,G1 d 2 x,G2 , 如d 2 x,G2 d 2 x,G1
待判, 如d 2 (x,G1) d 2 (x,G2 )
d 2 (x,G2 ) d 2 (x,G1)
(x 2 )1(x 2 ) (x 1)1(x 1)
x 1 x
2 x 1 2
2
1 2
(
x 1 x
2x11
3.2 10.4 2.0 2.5 0.0 12.7 -15.4 -2.5 1.3 6.8
非雨天
x1
x2
0.2
6.2
-0.1
7.5
0.4
14.6
2.7
8.3
2.1
0.8
-4.6
4.3
-1.7
10.9
-2.6
13.1
2.6
12.8
-2.8
10.0
10 非雨区G2 X2 0
-10 -10
-5
0
X1
l

雨区G1
是不下雨?
这个问题是两类判别问题,总体分为两类,用G1表 示下雨,G2表示不下雨。为进行预报,应先收集一批资 料,从已有的资料中找出规律,再作预报。
我们收集过去10个雨天和非雨天x1 和 x2 的数值
x1
-1.9 -6.9 5.2 5.0 7.3 6.8 0.9 -12.5 1.5 3.8
雨天
x2
1
1 1
)
112
2
1 1
2x1 (1 2 ) (1 2 )1(1 2 )
2[x
(1
2
2
) ]1
(1
2
)
令 1 2
2
1(1 2 ) (a1, a2, , ap )
2[x ]
W
(
x)
[
x
(1
2
2
)
]
1
(1
2
)
(x )
(x ) 1(1 2 ) (a1, a2, , ap )
则 W x 的符号取决于 x 还是 x
因此判别规则可写成:
若x 若x
,则x G1 ,则x G2
我们看到用距离判别所得到的准则是颇为合理的,但用这
个判别法有时会错判。如 x 来自 G1 ,但却落入 D2 ,
被判为属 G2 ,错判的概率为图中阴影部分的面积,记为
P2 /1 ,类似地有 P1 2
W
(
x)
[
x
(1
2
2
)
]1
(1
2
)
(x1 9.45
x2 35.25
68.39 x3 8.45) 40.24
21.41
40.24 54.58 11.67
21.411 8.1
11.67 10.9 7.90 4.5
0.60581x1 0.25362x2 1.83679x3 18.7359
例2 两类判别在市场分析中的应用
某企业生产新式大衣,将新产品的样品分寄给九个城市百 货公司的进货员,并附寄调查意见表征求对新产品的评价, 评价分质量、款式、颜色三个方面,以十分制评分。结果 五位喜欢,四位不喜欢。评价表如下:
喜 欢
1 2 3
组4
5
不 喜
1 2
欢3
组4
产品特性
x1 质量 x2款式
x3颜色
c
p
x(1) ip
i 1,2, , n1
y(2) i
c1
x(2) i1
c2
x(2) i2
c
p
x(2) ip
i 1,2, , n2
y y 1 1 n1
1
ni i 1
y y 2 1 n2
2
ni i 1
p
y 1
c1
x (1) 1
c2
x (1) 2
c
p
x
(1) p
ck
x (1) k
k 1
p
y (2)
例 人文发展指数是联合国开发计划署于1990年5月发表的第一份 《人类发展报告》中公布的。该报告建议,目前对人文发展 衡量应当以人生的三大要素为重点, X1:出生时的预期寿命(岁) X2:成人识字率(%) X3:实际人均GDP 将以上三个指标的数值合成为一个复合指数,即人文发展指 数。现选取高发展水平(第1类)、中等发展水平(第2类) 的国家各5 个作为两组样品,另选4个国家作为待判样品作 距离判别分析。
y c1x1 c2 x2 cp xp
系数 c1, c2 , , cp 确定的原则 使组间离差平方和最大,而组内离差平方和最小。
假设我们可以得到一个线性判别函数:
y c1x1 c2 x2 cp xp
我们把两个总体的样品数据代入上面的判别式
y (1) i
c1xi(11)
c2
x(1) i2
5
判别分析与聚类分析的区别
判别分析 已知研究对象分为若干个类别,并 且已 经取得每一类别的一批观测数据,在此 基础上寻求出分类的规律性,建立判别准则, 然后对未知类别的样品进行判别分类。
聚类分析 一批样品划分为几类事先并不知 道,正需要通过聚类分析来给以确定类型。
§2 距离判别
(一)距离判别法的基本思想
a1(x1 1) ap (xp p )
则前面的判别法则表示为
x G1, 如W(x) 0, x G2, 如W(x) 0。 待判, 如W (x) 0
特别地,当p=1时,若两个总体分别为 N 1, 2 和 N 2 , 2
则判别函数为
W
x
(x
)
1
2
1
2

其中
1 2
1
2
不妨设 1 2
数据见sasuser.disl02和sasuser.disldp02
2、当总体的协差阵已知,且不相等
x x
G1, G2 ,
如d 2 x,G1 d 2 x,G2 , 如d 2 x,G2 d 2 x,G1
待判, 如d 2 (x,G1) d 2 (x,G2 )
W (x) d 2 (x,G2 ) d 2 (x,G1)
均值向量 优秀 一般
13.5
5.4
40.7
29.8
10.7
6.2
协方差矩阵
68.39 40.24 21.41
40.24 21.41 54.58 11.67 11.67 7.90
现有二个企业,观测值分别为(7.8,39.1,9.6)和(8.1, 34.2,6.9),问这两个企业应该属于哪一类?
线性判别函数:
S1
1 4
5.2 0.5 1
0.5 5
1.25
1 1.3 1.25 0.125
6 0.25
1.25 0.3125
1.5
S2
1 3
6 3 3.5
3 5 2.5
3.5 2 2.5 1 2.5 1.167
1.25 0.833
0.833
11.2 3.5 2.5
判别分析
§1 判别分析的基本思想
基本思想
根据已知类别的样本所提供的信息,总结出 分类的规律性,建立判别公式和判别准则,判 别新的样本点所属类型,是判别个体所属群体 的一种统计方法。
根据经验,今天与昨天的湿度差及今天的压差(气 压与温度之差)是预报明天下雨或不下雨的两个重要因
素。今测得 x1=8.1, x2 =2.0,试问应预报明天下雨还
马氏距离不受变量间的相关性和量纲的影响
(二)两个总体距离判别法
1、总体协差阵相等
先考虑两个总体的情况,设有两个协差阵相同的
p维正态总体,对给定的样品 x ,判别一个样品 x 到
底是来自哪一个总体,一个最直观的想法是计算x到
两个总体的距离。故我们用马氏距离来给定判别规则, 有:
x x
G1, G2 ,
c1x1(2)
c2 x2(2)
c
p
x
(2) p
ck
x (2) k
距离判别的最直观的想法是计算样品到第 i 类总体
的距离,哪个距离最小就将它判归哪个总体,所以, 我们首先考虑的是是否能够构造一个恰当的距离函 数,通过样本与某类别之间距离的大小,判别其所 属类别。
判别分析中常用马氏距离
样品 x 和 Gi 类之间的马氏距离定义为 x 与 Gi 类
重心间的距离:
d 2 (x,Gi ) (x i )1(x i ) i 1,2, , k
判别准则:
x G1, 如W(x) 0, x G2, 如W(x) 0。 待判, 如W (x) 0
y1 0.60581 7.8 0.25362 39.11.83679 9.6 18.73596 4.0892 0 故属于优秀企业
y2 0.605818.1 0.25362 34.2 1.83679 6.9 18.73596 2.2956 0 故属于一般企业
d 2 (x,Gi ) (x i ) 1(x i )
x 1 x
2 x 1 i
i
1 i
上式中的第一项 x1x 与 i 无关,则舍去,得一个等价的函数
fi
(x)
2 x 1 i
i
1 i
将上式中提-2,得
fi
(x)
2( x 1 i
1 2
i1i
)
则距离判别法的判别函数为:

fi
(x)
( x 1 i
(x 2 )21(x 2 ) (x 1)11(x 1)
判别准则:
x G1, 如W(x) 0,
x
G2

如W(x)
0。
待判, 如W (x) 0
特别地,当p=1时,若两个总体分别为 N
1,
2
1

N
2
,
2
2
则判别函数为
Wx
x 2 2
2 2
x
12
12
当 1 x 2
W x 2 x x 1 12 21 x1 2
8
9.5
7
9
8.5
6
7
8.0
9
10
7.5
8.5
8
6.5
7
6
3
5.5
ห้องสมุดไป่ตู้
3
4
3.5
4
2
5
3
5
4
(1)先求两类样本的均值
x (1)
8.4 8.0
7.5
x 2
4.0 3.5
4.5
4.4 x (1) x (2) 4.5 3
x 1
2
x 2
6.2 5.75 6
(2)计算样本协方差矩阵,从而求出 ˆ 及 ˆ 1
ˆ
4S1 3S2 542
1 7
3.5
10
1.25 8.5
0.77
ˆ 1
0.28
0.28
0.84 0.21
0.91
(3) 求线性判别函数
W x
x 1
x 2
ˆ 1
x
x 1
2
x 2
3.808 x1 4.382 x2 0.553 x3 52.124
(4)对已知类别的样品判别归类
X 不能使总体 尽可能分开的方向
旋转坐标轴至总体单位尽可能分开的方向,此时 分类变量被简化为一个
费歇判别的基本思想
Fisher判别法由Fisher在1936年提出,是根据方差 分析的思想建立起来的一种能较好区分各个总 体的线性判别法,该判别方法对总体的分布不 做任何要求。
从两个总体中抽取具有p个指标的样品观测 数据,借助于方差分析的思想构造一个线性判别 函数:
回代率为百之百,全部判对。
(5)对待判样品判别归类
如果有一潜在顾客,他对新产品的质量、款式、颜色 的评价值为分别为6、8、8,则该顾客喜欢这款大衣 吗?
W (x) 3.808 6 4.3828 0.5538 52.124 10.204 0
故他属喜欢组
例 中小企业的破产模型
为了研究中小企业的破产模型,对破产的企业搜集它们 在破产前两年的年度财务数据,同时对财务良好的企 业也搜集同一时期的数据。数据涉及4个经济指标:
1 2
i
1 i
)
判别规则为
fl
(x)
max
1ik
fi (x),则x Gl
§3 费歇判别法
两个总体的费歇(Fisher)判别法
费歇判别的基本思 想是投影,将k组p 维数据投影到某一 个方向,使其投影 的组与组之间尽可 能地分开。
能使总体单位
尽可能分开的方向
u
显然,
P2
1
1
1
1
2 1 2

例1 在企业的考核中,可以根据企业的生产经营情况把企业分 为优秀企业和一般企业。考核企业经营状况的指标有:
资金利润率=利润总额/资金占用总额 劳动生产率=总产值/职工平均人数 产品净值率=净产值/总产值 三个指标的均值向量和协方差矩阵如下。
变量
资金利润率 劳动生产率 产品净值率
对已知类别的样品(通常称为训练样本)用线性判别函 数进行判别归类
样品
1 2 3 4 5
6 7 8 9
判别函数 W x 的值
23.84 22.71 14.57 23.52 10.69
-13.09 -21.24 -25.36 -16.58
原类号
1 1 1 1 1
2 2 2 2
判归类别
1 1 1 1 1
2 2 2 2
X1:总负债率(现金收益/总负债)
X2:收益性指标(纯收入/总财产)
X3:短期支付能力(流动资产/流动负债)
X4:生产效率性指标(流动资产/纯销售额)
对21个破产企业(1类)和25个正常运行企业(2类) 进行了调查。 数据见sasuser.disl01
要求建立企业破产模型,并对其它的企业进行判别。 数据见sasuser.disldp01
2
1
1 2
1 1 2
2
x
12 1
21 2
判别规则:
令 12 21 1 2
当x 时 当x 时
,则x G1 ,则x G2
(三) 多总体的距离判别法
随着计算机计算能力的增强和计算机的普及,距离判别法 的判别函数也在逐步改进,一种等价的距离判别为: 设有个K总体,分别有均值向量μi(i=1,2,…,k)和协方差阵Σi= Σ,各总体出现的先验概率相等。又设Y是一个待判样品。 则与Gi的距离为(即判别函数)
相关文档
最新文档