判别分析与聚类分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
73.46 74.09 77.15 93.98 77.15 85.54 79.80 86.79 81.1489
6.7616 6.8505 7.0413 7.2244 7.0550 6.7346 7.3152 7.2522 7.0331
xBnB m xBm
二、建立判别函数 (Discriminant Analysis Function) 为:
Y C1X1 C2 X 2
Cm X m
其中: C1 、 C2 和 Cm 为判别系数( Discriminant Coefficient
)
可解如下方程组得判别系数。
w11C1 w12C2 w21C1 w22C2
t mm
W U
T
1U N m1
F
,
U
m
1 m, 2 n m 1
五、回代 观察判别函数的判别效果
举例 设要建立一个判别函数来判别医院的工作情况,公认的
A 类医院 11 所,
B 类医院 9 所。 X 1 :床位使用率 X 2 :治愈率 X 3 :诊断指数 判别指标如下两表:
A 类医院
编号
X1
X2
X3
Y
1
编号 1
X1 72.48
B 类医院 X2
78.12
X3 82.38
Y 7.0300
2 3 4 5 6 7 8 9 均数
58.81 72.48 90.56 73.73 72.79 74.27 93.62 78.69 76.3811
86.20 84.87 82.07 66.63 87.59 93.91 85.89 77.01 79.1433
wm1 wm2
w1m w2m
wmm
三、 Y 值的判别界值
将 x1 (A) 、 x2( A) 、
、 xm (A) 代入判别函数,得到相应的 Y ( A) ,
将 x1 (B) 、 x2( B) 、
两类的判别界值为:
、 xm (B) 代入判别函数,得到相应的 Y ( B) ,
Y (A) Y (B)
Yc
2
当两类的样本含量相差较多时应加权,用下式计算判别界值
L1m (A) L2m ( A)
Lmm ( A)
L (B)
L11 (B) L21 (B )
L12 (B ) L22 (B)
Lm1( B) L m2 (B )
L1m (B) L2m (B )
Lmm (B )
类内离差阵 W 为 L ( A) 、 L( B) 之和 W L (A) L(B)
w11 w12 w21 w22 W
D(X,Y) (X Y)T (1 X Y),类似地可以定义个体 X 与总体(类别) A 的距离
为 D( X , A) ( X )T (1 X )
明考斯基距离 ( Minkowski distance ) : 明科夫斯基距离 欧几里德距离 (欧氏距离)
一、训练样本的测量值
二、 Fisher 两类判别 A 类训练样本
w1mCm x1( A) x1(B) w2mCm x2( A) x2( B)
wm1C1 wm2C2
wmmCm xm( A) xm (B)
各类的离差阵分别以 L( A) 、 L (B) 表示
L ( A)
L11 (A) L21 ( A)
L12 ( A) L22 ( A)
Lm1( A) L m2 ( A)
7
91.99 80.77 93.93 7.8161
8
87.50 82.50 94.10 7.3665
9
81.82 88.45 97.90 8.1802
10
73.16 82.94 92.12 7.6592
11 均数
86.19 83.55 93.30 89.3373 82.8273 94.7073
7.8919 7.8781
呢?
同一类别的个体之间距离小,不同总体的样本之间距离大。
距离是一个原则性的定义,只要满足对称性、非负性和三角不等式的函数就可以称
为距
绝对距离
马氏距离: ( Manhattan distance ) 设有两个个体(点) X 与 Y(假定为一维数据,即在数轴上)是来自均数为
,协
方差阵为 的总体(类别) A 的两个个体(点) ,则个体 X 与 Y 的马氏距离为
判别分析 ( Discriminant Analysis )
一、概述: 判别问题又称识别问题,或者归类问题。 判别分析是由 Pearson 于 1921 年提出, 1936 年由 Fisher 首先提出根据不同 类别所提取的特征变量来定量的建立待判样品归属于哪一个已知类别的数学模型。
根据对 训练样本 的观测值建立判别函数,借助判别函数式判断未知类别的个体。
最大似然法 、 训
练迭代法 ;适用于定量指标或计量资料的有: Fisher 二类判别、 Bayers 多类判别以及逐
步判别。 半定量指标界于二者之间,可根据不同情况分别采用以上方法。
类别 (有的称之为总体, 但应与 population 的区别) 的含义——具有相同属性或者
特征指标的个体(有的人称之为样品)的集合。如何来表征相同属性、相同的特征指标
所谓 训练样本 由已知明确类别的个体组成, 并且都完整准确地测量个体的有关的判 别变量。
训练样本的要求:类别明确,测量指标完整准确。一般样本含量不宜过小,但不能 为追求样本含量而牺牲类别的准确,如果类别不可靠、测量值不准确,即使样本含量再 大,任何统计方法语法弥补这一缺陷。
判别分析的类别很多,常用的有:适用于定性指标或计数资料的有
98.82 85.49 93.18 7.9839
2
85.37 79.10 99.65 7.9879
3
86.64 80.64 96.94 7.9391
4
73.08 86.82 98.70 8.1008
5
78.73 80.44 97.61 7.8836
6
103.44 80.40 93.75 7.8807
编号 1 2
x1 x A11 x A21
x2 xA12 xA 22
nA
均数
编号 1 2
wk.baidu.comxAnA 1 xA1
xAnA 2 xA2
x1 xB11 xB 21
B 类训练样本
x2 xB12 xB 22
nB
均数
xBnB 1 xB1
xBnB 2 xB2
xm x A1m xA2 m
xAnA m xAm
xm xB1m xB2 m
Yc nAY ( A) nBY (B) nA nB
将每个个体的 x1、 x2 、
类。 四、对判别函数检验
、 xm 代入判别函数计算 Y ,根据判别界值 Yc 判别归
T 为训练样本中两类和在一起的离差阵(注意与
W 的区别)
t11 t12
t1m
T
t 21 t 22
t2 m
计算 Wilks 统计量 U
t m1 tm 2