判别分析与聚类分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
判别分析(Discriminant Analysis)
一、概述:
判别问题又称识别问题,或者归类问题。
判别分析是由Pearson于1921年提出,1936年由Fisher首先提出根据不同类别所提取的特征变量来定量的建立待判样品归属于哪一个已知类别的数学模型。
根据对训练样本的观测值建立判别函数,借助判别函数式判断未知类别的个体。
所谓训练样本由已知明确类别的个体组成,并且都完整准确地测量个体的有关的判别变量。
训练样本的要求:类别明确,测量指标完整准确。一般样本含量不宜过小,但不能为追求样本含量而牺牲类别的准确,如果类别不可靠、测量值不准确,即使样本含量再大,任何统计方法语法弥补这一缺陷。
判别分析的类别很多,常用的有:适用于定性指标或计数资料的有最大似然法、训练迭代法;适用于定量指标或计量资料的有:Fisher二类判别、Bayers多类判别以及逐步判别。半定量指标界于二者之间,可根据不同情况分别采用以上方法。
类别(有的称之为总体,但应与population的区别)的含义——具有相同属性或者特征指标的个体(有的人称之为样品)的集合。如何来表征相同属性、相同的特征指标呢?
同一类别的个体之间距离小,不同总体的样本之间距离大。
距离是一个原则性的定义,只要满足对称性、非负性和三角不等式的函数就可以称为距
绝对距离
马氏距离:(Manhattan distance)
设有两个个体(点)X与Y(假定为一维数据,即在数轴上)是来自均数为μ,协方差阵为∑的总体(类别)A的两个个体(点),则个体X与Y的马氏距离为
(,)X与总体(类别)A的距离D X Y=
(,)
为D X A=
明考斯基距离(Minkowski distance):明科夫斯基距离
欧几里德距离(欧氏距离)
二、Fisher两类判别
一、训练样本的测量值
A类训练样本
编号 1x 2x m x
1 11A x 12A x 1A m x
2 21A x
22A x
2A m x
A n
1A An x 2A An x A An m x 均数
1A x
2A x
Am x
B 类训练样本
编号 1x 2x m x
1 11B x 12B x 1B m x
2 21B x
22B x
2B m x
B n
1B Bn x 2B Bn x B Bn m x 均数
1B x
2B x
Bm x
二、建立判别函数(Discriminant Analysis Function)为:
1122m m Y C X C X C X =+++
其中:1C 、2C 和m C 为判别系数(Discriminant Coefficient ) 可解如下方程组得判别系数。
1111221112112222221122()()()()()()
m m m m m m mm m m m w C w C w C x A x B w C w C w C x A x B w C w C w C x A x B +++=-+++=-++
+=
-
各类的离差阵分别以()L A 、()L B 表示
1112121
22212()()()()()
()()()()
()m m m m mm L A L A L A L A L A L A L A L A L A L A ⎛⎫
⎪ ⎪
= ⎪
⎪⎝⎭
1112121
22212()()()()()
()()()()
()m m m m mm L B L B L B L B L B L B L B L B L B L B ⎛⎫
⎪ ⎪
= ⎪
⎪⎝⎭
类内离差阵W 为()L A 、()L B 之和
()()W L A L B =+
11121212221
2
m m m m mm w w w w w w W w w w ⎛⎫
⎪ ⎪
= ⎪ ⎪⎝⎭
三、Y 值的判别界值
将1()x A 、2()x A 、 、()m x A 代入判别函数,得到相应的()Y A , 将1()x B 、2()x B 、 、()m x B 代入判别函数,得到相应的()Y B ,
两类的判别界值为:
()()
2
c Y A Y B Y +=
当两类的样本含量相差较多时应加权,用下式计算判别界值
()()
A B c A B
n Y A n Y B Y n n +=
+
将每个个体的1x 、2x 、
、m x 代入判别函数计算Y ,根据判别界值c Y 判别归
类。
四、对判别函数检验
T 为训练样本中两类和在一起的离差阵(注意与W 的区别)
111212122
212
m m m m mm t t t t t t T t t t ⎛⎫ ⎪ ⎪
= ⎪
⎪⎝⎭
计算Wilks 统计量U
W U T
=
11
U N m F U m
---=
⋅, 1m ν=,21n m ν=--
五、回代 观察判别函数的判别效果
举例 设要建立一个判别函数来判别医院的工作情况,公认的A 类医院11所,
B 类医院9所。
X 1 :床位使用率 X 2 :治愈率 X 3 :诊断指数
判别指标如下两表:
A 类医院
编号 X 1 X 2 X 3 Y 1 98.82 85.49 93.18 7.9839 2 85.37 79.10 99.65 7.9879 3 86.64 80.64 96.94 7.9391 4 73.08 86.82 98.70 8.1008 5 78.73 80.44 97.61 7.8836 6 103.44 80.40 93.75 7.8807 7 91.99 80.77 93.93 7.8161 8 87.50 82.50 94.10 7.3665 9 81.82 88.45 97.90 8.1802 10 73.16 82.94 92.12 7.6592 11 86.19 83.55 93.30 7.8919 均数
89.3373
82.8273
94.7073
7.8781
B 类医院
编号 X 1 X 2 X 3 Y 1
72.48
78.12
82.38
7.0300