第六讲判别分析
多元统计分析课件第六章-判别分析例题与操作过程可修改文字
.
(一) 操作步骤 1. 在SPSS窗口中选择Analyze→Classify→Discriminate,调 出判别分析主界面,将左边的变量列表中的“group”变量选 入分组变量中,将—变量选入自变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判 别分析。
1
5
50.06 23.03 2.83 23.74 112.52 63.3
1
6
33.24 6.24 1.18 22.9 160.01 65.4
2
7
32.22 4.22 1.06 20.7 124.7 68.7
2
8
41.15 10.08 2.32 32.84 172.06 65.85
2
9
53.04 25.74 4.06 34.87 152.03 63.5
由此表可知,两个Fisher判别函数分别为:
y1 74.99 1.861X1 1.656X 2 0.877 X3 0.798X 4 0.098X 5 1.579X 6 y2 29.482 0.867X1 1.155X 2 0.356X 3 0.089X 4 0.054X 5 0.69 X 6
判别分析例题
例1:设有两个正态总体 G1 和 G2 ,已知:
(1)
ห้องสมุดไป่ตู้
10 15
(2)
20 25
18 12 1=12 32
20 7
2
=
7
5
试用距离判别法判断:样品:
X
20 20
,应归属于哪一类
判别分析例题 解:比较X到两个总体的马氏距离的大小
所以X属于正态总体 G1
例2:
第六章--判别分析
设有两个正态总体,
现有一个样品如图所示的A点,
A
距总体X的中心
远,距总体Y的中心
远
若按欧氏距离来度量,A点离总体X要比离总体Y近一些。但是,从概率论的
角度看,A点位于 点离总体Y近一些。
右侧的
而位于
左侧的
处,应该认为A
样品点x到
的马氏距离为:
(一)当
时
(二)当
时
虽然在两个总体有显著差异的条件下,误判概率很小,但当这种差异不很显著时,误判的 概率就很大。因此,只有当两个总体的均值有显著差异时,做判别分析才有意义。
-7.182 -4.379 -2.144 -9.440 -6.573 -6.906 -4.245
原分类 1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3
新分类 1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 3 3 3
第二节 贝叶斯(Bayes)判别
判别分析就是在研究对象用某种方法分好若干类(组)的情况下,确定新样品属 于已知类别中哪一类的多元统计分析方法。
判别分析和聚类分析不同,判别分析是在已知研究对象分成若干类型(或 组别) 并已取得各种类型的一批已知样品的观测数据 ,在此基础上根据某种准则建立 判别函数式,然后对未知类型的样品进行判别分类。而对于聚类分析,一批给 定样品要划分的类型事先并不知道,需要通过聚类分析来确定各样品所属的类 型。所以,判别分析和聚类分析往往结合起来运用。
第六章 判别分析
第一节 什么是判别分析
在科学研究和日常生活中,往往会遇到这样的问题,即根据观测数据对所研究的对象 进行分类(组)判别。例如,在经济学中可根据人均国内生产总值、人均消费水平等 多种指标来判别一个国家的经济发展程度所属类型;在气象学中,根据已有的气象资 料(气温、气压、湿度等)来判断明天是阴天还是晴天,有雨还是无雨等。以上各方 面的问题具有一个共同特点:就是事先已有“类”的划分,或事先已对某些已知样品 分好了“类”,需要判断那些还未分好的的样品究竟属于哪一类。
判别分析
1 2
2
)T 1 ( 1 2 )
令
1 2
2
, u ( x) ( x )T 1 ( 1 2 ) ,则上述判别法则等价于:
若 u ( x) 0 ,则判 x 1 ,若 u ( x) 0 ,则判 x 2 。 令 a 1 ( 1 2 ) 则 u ( x) ( x )T a aT ( x ) 是 x 的一个线性函数, ˆ ( a1 , a2 , , a p )T , 称 u ( x) 为线性判别函数,而 a 为判别系数。上述判别规则相当于把 p 维空间划分 成二部分:
i i i i
由此得:
ˆ1
1 1 n1 1 ˆ2 xj ˆ x 1 , n2 n1 j 1
x x
j 1
2 j 2
n2
ˆ 1
n1
1 ˆ 1 W W1 , 2 2 n1 1 n2 1
n2
Hale Waihona Puke 其中 W1 ( xj1 x 1 )( xj1 x 1 )T , W2 ( xj2 x 2 )( xj2 x 2 )T 。
2 P (2 1) P (1 2) 1 2
从上式可知: 1 , 2 相差越大,误判概率越小。
在实际问题中 1 , 2 及 一般是未知的,设从 i 得到样本容量为 ni 的样本:
T i i i i i i T x1 ( x11 , x21 , , xpi1 )T , x2 ( x12 , x22 , , xpi2 ) , , xn ( x1 ni , x2 ni , , x pni ) (i 1, 2) i
判别分析Discriminant Analysis
(1)有无某种疾病 例:计算机用于胃癌普查,用于中风预报. (2)疾病的鉴别诊断 例:计算机用于对肺癌,肺结核和肺炎进行鉴别诊断. (3)患有某疾病中的哪一种或哪一型 例:鉴别诊断单纯性或绞窄性肠梗阻. 鉴别诊断阑尾炎中的卡他性,蜂窝织炎, 坏疽性和腹膜炎.
用一个实例来说明判别分析的基本思想
2. 判别分析步骤 欲用显微分光光度计对病人细胞进行检查以判断 病人是否患有癌症. (1)根据研究目的确定研究对象(样本)及所用指标 例:110例癌症病人和190例正常人. 指标:X1,X2和X3. X1: 三倍体的得分,X2: 八倍体的得分,X3: 不 整倍体的得分.(0-10分)
考虑事前概率可适当提高判别的敏感性. 事前概率可据于文献报道或以往的大样本研 究.但是困难在于事前概率往往不容易知道; 如果训练样本是从所研究的总体中随机抽取 的,则可用训练样本中各类的发生频率Q(Yj) 来估计各类别的事前概率q(Yj).如果事前概 率未知,而又不可以用Q(Yj)来估计q(Yj),就 只能将事前概率取为相等值,即取q(Yj)=1/g.
训练样本的数据内容与符号 ——————————————————————————————————— 解释变量 个体号 ——————————————————————— 类别变量(Y) X1 X2 … Xj … XP ——————————————————————————————————— 1 X11 X12 … X1j … X1P y1 2 X22 X22 … X2j … X2P y2 … … … … … … … … i Xi1 Xi2 … Xij … XiP y3 … … … … … … … … n Xn1 Xn2 … Xnj … XnP yP ————————————————————————————————————
判别分析解读 PPT
Discriminant Analysis
流行病与卫生统计学系
• 聚类分析:对(样本)总体进行分类 • 判别分析:对(样本)个体进行分类
判别与聚类
• 聚类分析可以对样本/指标进行分类,判别分析 只对样本进行分类。
• 聚类分析事先 不知道事物的类别,也不知道应 分几类;判别分析必须事先知道事物的类别, 也知道应分几类。
• 在农林害虫预报中,根据以往的虫情,多种气 象因子来判别一个月后的虫情是大发生,中发 生或正常
• 在体育运动中,判别某游泳运动员是适合练蛙 泳,仰泳还是自由泳
• 在医疗诊断中,根据某人多种检验指标来判断 此人是某病患者还是非患者
判别分析--诊断
• 临床诊断: • 急腹症的患者,需要诊断患病原因。 • 诊断阑尾炎时需要与其他急腹症作鉴别诊断;
• 聚类分析不需要分类的历史资料,能直接对样 本进行分类;判别分析需要历史资料去建立判 别函数,然后才能对样本进行分类。
• 判别分析:根据判别对象若干个指 标的观测结果判定其应属于哪一类 的统计学方法。
应用
• 在经济学中,根据人均国民收入,人均工农业 产值,人均消费水平等多个指标来判定一个国 家的经济发展程度所属等级
以p=q=k=2 来说明Fisher判别分析法的基本原理和计算方法
根据Fisher判别分析法的基本原理,就是要选择一组 适当的系数 c 1 , c 2 ,…, c k ,使得类间差异D最大 且类内差异V最小,即,使得下式的值 Q 达到最大。
根据多元函数求极值的原理和方法,使得 Q 取最大 值的点是Q 的一阶偏导函数等于0的方程组的解。 令上述方程组的解是: 那么,Fisher判别函数估计式是:
该类。 • 适合于多类的判别分析。
判别分析完整课件
2 i 1 m
m为判别指标数,根据自由度查F(m,n1+n2-m-1)。
(三)确定判别临界值
确定两类的判别临界值(即两类的分界点)yc, 据此对未知样本作出判断。
yc
n1 y(1) n2 y( 2 ) n1 n2
在医学科研资料中经常遇到指标变量不呈正态分 布或难以满足参数判别分析的要求,特别是有些 变量是分类变量,不可能服从正态分布,可以用 Logistic回归分析的方法。
实际资料中一般含有较多的指标,有些指标可能 对鉴别不同的类别毫无用处,或指标间彼此相关的情 况时不应该用所有的指标都参与建判别函数。所以, 在建函数之前,先进行变量筛选是很有必要的,即逐 步判别分析,此法建立的函数更简洁,效果也更好。 此外,对于某些指标间存在彼此相关的情况时, 先对众多的指标进行聚类,从聚成的几大类中各挑选 一个最有代表性的指标,用这些典型指标建立判别函 数。 逐步回归、判别分析、聚类分析等方法可以联合 应用。
y ci xi
i 1 n
2
n1
(y
i 1
n2
i ( 2)
y( 2 ) )
2
y(1) ck xk (1)
k 1
n1
y( 2) ck xk ( 2)
k 1
n2
根据求极值的原理,求I对判别系数Ci的偏导数,使其等 于零,得到下列方程组:
f11C1+f12C2+……f1mCm=d1 f21C1+f22C2+……f2mCm=d2 ……… …… …… ……… ….. fm1C1+fm2C2+……fmmCm=dm 其中, di
判别分析
多变量统计分析方法
01 简介
03 判别函数
目录
02 基本思想 04 建立方法
05 判别方法
07 应用
目录
06 验证方法
基本信息
判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的 一种多变量统计分析方法。
其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待 定系数,并计算判别指标。据此即可确定某一样本属于何类。
3)Fisher判别:亦称典则判别,是根据线性Fisher函数值进行判别,通常用于梁祝判别问题,使用此准则 要求各组变量的均值有显著性差异。该方法的基本思想是投影,即将原来在R维空间的自变量组合投影到维度较低 的D维空间去,然后在D维空间中再进行分类。投影的原则是使得每一类的差异尽可能小,而不同类间投影的离差 尽可能大。Fisher判别的优势在于对分布、方差等都没有任何限制,应用范围比较广。
判别方法
判别方法
判别方法是确定待判样品归属于哪一组的方法,可分为参数法和非参数法,也可以根据资料的性质分为定性 资料的判别分析和定量资料的判别分析。此处给出的分类主要是根据采用的判别准则分出几种常用方法。除最大 似然法外,其余几种均适用于连续性资料。
1)最大似然法:用于自变量均为分类变量的情况,该方法建立在独立事件概率乘法定理的基础上,根据训 练样品信息求得自变量各种组合情况下样品被封为任何一类的概率。当新样品进入是,则计算它被分到每一类中 去的条件概率(似然值),概率最大的那一类就是最终评定的归类。
基本思想
基本思想
根据判别中的组数,可以分为两组判别分析和多组判别分析; 根据判别函数的形式,可以分为线性判别和非线性判别; 根据判别式处理变量的方法不同,可以分为逐步判别、序贯判别等; 根据判别标准不同,可以分为距离判别、Fisher判别、Bayes判别法等。
第六章 判别分析
y = ∑cj xj
j =1
对于A类样品 yAi = ∑ c j x Aij
j =1
p
对于B类样品 y Bi = ∑ c j xBij
j =1
p
1 yA = nA 1 yB = nB
1 ∑ y Ai = n i =1 A 1 ∑ yBi = n i =1 B
nB
nA
∑∑c x
i =1 j =1 nB p j
第六章
判别分析
一、判别分析的概念
• • 引出 (1) 某勘探区已知有三层煤,已经分别取得 了这三层煤的若干个煤样(每个煤样是哪一层煤已 知),对这些煤样进行化验,取得了每个煤样的若干 项化验数据(称为属性或变量),现钻孔发现了煤, 但不知此煤是这三层煤中的哪一层,如何鉴别之。这 就是判别分析要解决的问题。 (2)一般的做法是,分别取已知为何层煤的煤样 若干,并取得每个煤层的若干项化验数据(变量), 建立用以判别未知煤样的关于此若干个变量的判别函 数。同样对未知煤样化验,取得同样项的化验数据, 利用判别方程,就可以判别出未知煤样属于些三层煤 中的哪一层。
nB nA 2 ( y Aij − y Aj ) + ∑ ( y Bij − y Bj ) 2 ∑ i =1 s jj = i =1 nA nB
2
( n A + n B − 2)
2
s jk j≠k
( y Aij − y Aj )( y Aik − y Ak ) + ∑ ( y Bij − y Bj )( y Bik − y Bk ) ∑ i =1 = i =1
经过整理得
c1 s11 + c 2 s12 + L + c p s1 p = bd1 c1 s 21 + c 2 s 22 + L + c p s 2 p = bd 2 LLLLLL c1 s p1 + c 2 s p 2 + L + c p s pp = bd p
第六章判别分析0
0.01 -0.06 -0.01 -0.14 0.06 0.05 0.06
1.5 1.37 1.37 1.42 2.23 2.31 1.84
0.71 0.4 0.34 0.44 0.56 0.2 0.38
0 0 0 0 0 0 0
0.54
0.11
2.33
0.48
0
§2 距离判别
1 (xi x j ) dij (xi x j )
d12 (x 1 )1 (x 1 ) 2.7163
2 d 2 (x 2 )1 (x 2 ) 4.155
如果假定它们有相同的协方差
d d (x ) (x ) (x ) (x )
2 2 1 1 2 1 2 2 1 1
待判点到此类的距离
0.04 0.01 x 1.5 0.71
2 d 2 (x 2 ) 1 (x 2 ) 4.998 2
如果假定它们有相同的协方差
2 4 0.07399125 0.03584580 0.03584580 0.04369786 4 6 0.17221934 0.05686315 6 8 9 9 - 0.00132211 - 0.00180881 0.17221934 - 0.00132211 6 9 0.05686315 - 0.00180881 8 9 1.19217268 0.04478862 8 0 0.04478862 0.03705156 0 5
判别函数的常数项( 1
2
2 0.60581 9.45 35.25 8.45 0.25362 18.73596 1.83679
) 1 ( 1 2 )
第6章判别分析(王斌会)
6.3 距离判别分析
思想:根据已知分类的数据,分别计算各类的重心即 各组的均值,判别准则是对任给的一次观测,若它与 第i类的重心距离最近,就认为它来自第i类。 1.两总体距离判别
第1个总体G1 抽n1个样品
第2个总体G2抽 n2个样品
判别标准
D(X, G1 ) D(X, G 2 ) D(X, G1 ) D(X, G 2 ) D(X, G1 ) D(X, G 2 )
5-5
2.计算判别界值
计算各类判别值均值:
两均值中点为界点:
Y1 Y2 Y0 2
3.建立判别标准 (1)当 Y1 Y2 时,Y<Y0,则X∈G1,否则X∈G2 (2)当 Y1 Y2 时,Y<Y0,则X∈G2,否则X∈G1 (3)当 Y1 Y2 时,待判
5-6
4.实例分析
雨天(A) 晴天(B) 组别 湿温差 气温差 组别 湿温差 气温差 1 -1.9 3.2 2 0.2 6.2 1 -6.9 0.4 2 -0.1 7.5 1 5.2 2 2 0.4 14.6 1 5 2.5 2 2.7 8.3
(tab=table(G,newG)) #混淆矩阵
newG G 1 2 1 9 1 2 1 9
sum(diag(prop.table(tab)))=0.9 #判对率 predict(ld,data.frame(x1=8.1,x2=2.0),data=d6.1) #判对率判别分析 结论:明天x1=8.1,x2=2.0,预测明天是雨天,此 90%。 5次准确率为 -9
问题:现根据该资料建立判别函数,根据判别准则进 行回判,假设有一新厂商推销其产品,Q=8.0,C=7.5, P=65,预测该产品销售前景如何?
5 - 12
数学建模课件-判别分析
第二节 Bayes判别分析
(一).
Bayes准则
设有定义明确的g个总体π 1,π 2,…,π g, 分别为 X1,X2,…,Xp的多元正态分布。对于任何一个个体, 若已 知p个变量的观察值,要求判断该个体最可能属于哪一个 总体。 如果我们制订了一个判别分类规则, 难免会发生错 分现象。把实属第i类的个体错分到第j类的概率记为 P(j|i),这种错分造成的损失记为C(j|i)。 Bayes判别 准则就是平均损失最小的准则。按照这个准则去找一种 判别分类的规则,就是Bayes判别。
X1 X11A X21A „„ Xn11A X1A
„„ „„ „„ „„ „„ „„
Xm X1mA X2mA „„ Xn1mA XmA
编号 1 2 „„ n2 均值
X1 „ „„ „„ „„
Xm X1mB X2mB „„ Xn2mB XmB
令欲建立一个判别函数
Y(B) 7.0300 6.7616 6.8505 7.0413 7.2244 7.0880 6.7346 7.3152 7.2522
76.38
79.14
81.15
7.0331
判别分析步骤
1、确定判别指标(X1,X2和X3) 2、收集数据,得到训练样本 3、根据实测资料(训练样本)用判别分析方法可 建立判别函数 4、考核该判别函数是否有实用价值(回顾性 考核,前瞻性考核),其符合率达到要求则可 应用于实践。 5、实际应用未知类别样品的判别归类。
第二步 解此方程组,得C1 =0.007440、C2=0.032412、 C3=0.048055 故判别函数为 Y=0.007440 X1+0.032412X2+0.048055 X3
第六章 bayes判别分析+ 举例
学 习 目 的
本章只介绍判别分析的几种最基本的方法: 贝 叶斯判别、距离判别及费歇判别.学习本章,要密 切联系实际, 着重理解判别分析的基本思想方法及 具体实现步骤,了解几种不同判别分析方法的优、 缺点及应用背景.
第六章
判 别 分 析
贝 贝 叶 叶 斯 斯 判 判 别 别
距 离 判 别 费 歇 判 别 费 歇 判 别
i =1
给定 R 的一个划分 R = ( R1 , R2 ,
Ri ∩ R j = φ (i ≠ j , i, j = 1,2,
, Rk ) , 即 ∪ Ri =R m ,
i =1
k
, k) , 由 R 规 定 的 判 别 准
空间 R m 的一个分划(有时也称为判别) 。即
R m = {R1 , R2 | R1 ∪ R2 = R m , R1 ∩ R2 = φ }
由 R 规定的判别准则如下: 如果 x 落在 R1 内,则判其来自总体 π 1 ; 如果 x 落在 R2 内,则判其来自总体 π 2 。 给定分划的损失函数及平均损失 设 C (1 | 2) 为样品 x 来自总体 π 2 而误判为总体 这 其 π 1 的损失, 一 误 判 的 概 率 记 为 P (1 | 2 , R ) , 中 R = ( R1 , R2 ) ; (2 | 1) 为样品 x 来自总体 π 1 而误判 C 于是有 为总体 π 2 的损失,误判的概率记为 P(2 | 1, R) 。
R m 的任一划分,即
(6-4)
* * 证明:设 R = ( R1 , R2 ) 由(6-4)给出, R * = ( R1 , R2 ) 为
* * * * R1 ∪ R2 = R m , R1 ∩ R2 = φ 。
g(R1 , R2 ) = q1C(2 | 1) P(2 | 1, R) + q2 C(1 | 2) P(1 | 2, R)
判别分析的基本原理
______________________________________________________________________________________________________________判别分析的基本原理和模型一、判别分析概述(一)什么是判别分析判别分析是多元统计中用于判别样品所属类型的一种统计分析方法,是一种在已知研究对象用某种方法已经分成若干类的情况下,确定新的样品属于哪一类的多元统计分析方法。
判别分析方法处理问题时,通常要给出用来衡量新样品与各已知组别的接近程度的指标,即判别函数,同时也指定一种判别准则,借以判定新样品的归属。
所谓判别准则是用于衡量新样品与各已知组别接近程度的理论依据和方法准则。
常用的有,距离准则、Fisher准则、贝叶斯准则等。
判别准则可以是统计性的,如决定新样品所属类别时用到数理统计的显著性检验,也可以是确定性的,如决定样品归属时,只考虑判别函数值的大小。
判别函数是指基于一定的判别准则计算出的用于衡量新样品与各已知组别接近程度的函数式或描述指标。
(二)判别分析的种类按照判别组数划分有两组判别分析和多组判别分析;按照区分不同总体的所用数学模型来分有线性判别分析和非线性判别分析;按照处理变量的方法不同有逐步判别、序贯判别等;按照判别准则来分有距离准则、费舍准则与贝叶斯判别准则。
二、判别分析方法(一)距离判别法1.基本思想:首先根据已知分类的数据,分别计算各类的重心,即分组(类)均值,距离判别准则是对于任给一新样品的观测值,若它与第i类的重心距离最近,就认为它来自精品资料第i 类。
因此,距离判别法又称为最邻近方法(nearest neighbor method )。
距离判别法对各类总体的分布没有特定的要求,适用于任意分布的资料。
2.两组距离判别两组距离判别的基本原理。
设有两组总体B A G G 和,相应抽出样品个数为21,n n ,n n n =+)(21,每个样品观测p 个指标得观测数据如下,总体A G 的样本数据为:()()()()()()()()()A x A x A x A x A x A x A x A x A x p n n n p p 111212222111211该总体的样本指标平均值为:()()()A x A x A x p 21,总体B G 的样本数据为:()()()()()()()()()B x B x B x B x B x B x B x B x B x p n n n p p 222212222111211该总体的样本指标平均值为:()()()B x B x B x p 21,现任取一个新样品X ,实测指标数值为X =(p x x x ,,,21 ),要求判断X 属于哪一类?首先计算样品X 与A G 、B G 两类的距离,分别记为()A G X D ,、()B G X D ,,然后按照距离最近准则判别归类,即样品距离哪一类最近就判为哪一类;如果样品距离两类的距离相同,则暂不归类。
判别分析
P273
• 4、classify的设定
用于分类的先 验概率
选择计算时的 协方差矩阵 输出判别分析正确 或错误分组的个数 交叉验证
• 结果:
标准化的典型判别函数的系数
Fisher线性判别函数
关于不同判别函 数的作用
• 例:有一个样本,四个自变量的取值分别为 50、33、14,2,判定它到底归属于哪一类。 • 第一种:非标准化的辨别函数: • Step1: • D1=-2.526-0.063 x50-0.155 x33+0.196 x 14+0.299 x2=-7.499 • D2=-6.987+0.007 x50+0.218 x33-0.089 x 14+0.271 x2=-0.147 • Step2:领域图
逐步分析方法。当认为不是 所有自变量都能对观测量特 性提供信息时,选择该项, 因此需要判别贡献的大小再 进行选择。选中该单选按钮 时,“Method”按钮被激活, 可以进一步选择判别分析方 法。
• 3、statistic的设定
自变量的分组及平均数 与标准差 自变量的单因素方差分析 组间协方差矩阵的检验
判别分析
• §1. 基本原理 • §2. 基本步骤 • §3. 实例分析
§1. 基本原理
• 定义:判别分析先根据已知类别的事物的性质 (自变量),建立函数式(自变量的线性组合, 即判别函数),然后对未知类别的新事物进行 判断以将之归入已知的类别中。 • 判别分析是一种有效的对个案进行分类分析的 方法。和聚类分析不同的是,判别分析时,组 别的特征已知。 有学者在研究中提出,可以利 用判别分析来对聚类分析结果的准确性进行检 验。聚类
• 练习:iris.Sav
• 作业:4-26.sav
第六章判别分析
第六章判别分析第六章判别分析近年来,判别分析在植物分类、天⽓预报、经济决策与管理、社会调查、农业科研、科研数据整理分析中都得到了⼴泛的应⽤。
判别分析是⼀种很有实⽤价值⽽且应⽤极其⼴泛的⼀种统计⽅法。
本章介绍两种常⽤的判别⽅法:距离判别及Fisher 判别。
§1 距离判别距离判别是先给出⼀个样品到某个总体的距离的定义,然后根据样品到各个总体的距离的远近,来判断该样品应归属于哪⼀个总体。
本节先介绍多元分析中⼴泛应⽤的马⽒距离的概念,然后,再介绍距离判别的⽅法。
⼀、马⽒距离 1.概念距离是⼀个最直观的概念,多元分析中许多⽅法都可⽤距离的观点来推导,其中最著名的⼀个距离是印度统计学家Mahalanobis 于1936年引进的,所以习惯上称之为马⽒距离。
下⾯我们很快会看到,马⽒距离是我们熟知的欧⽒距离的⼀种推⼴。
定义:设P 维总体G 的均值向量为u ,协差阵为V>0(有V -1>0存在)X,Y 是总体G 的两个样品,则:(1)X 与Y 两点的马⽒距离d(X,Y)为:211)]()[(),(Y X V Y X Y X d -'-=-(2) X 与总体G 的马⽒距离为:211)]()[(),(u X V u X G X d -'-=-2.性质很容易证明,马⽒距离符合作为距离的三条基本公理:设X ,Y ,Z 是总体G 的三个样品,则有: (1)⾮负性:Y X Y X d Y Xd =?=≥0),(,0),( (2)对称性:),(),(X Y d Y X d =(3)满⾜三⾓不等式:),(),(),(Z Y d Y X d Z X d +≤证:(2)),()]()[()]()[(),(211211X Y d X Y V X Y Y X V Y X Y X d =-'-=-'-=-- 其它性质不证。
由马⽒距离的定义知,当V=E 时,X 与Y 的马⽒距离就变成为欧⽒距离:221121)()()]()[(),(p p y x y x Y X Y X Y X d -++-=-'-=所以,马⽒距离是欧⽒距离的推⼴,欧⽒距离是马⽒距离的特例。
判别分析的原理及其操作
判别分析的原理及其操作1 判别分析的原理1.1 判别分析的涵义判别分析(Discriminant Analysis,简称DA)技术是由费舍(R.A.Fisher)于1936年提出的。
它是根据观察或测量到的若干变量值判断研究对象如何分类的方法。
具体地讲,就是已知一定数量案例的一个分组变量(grouping variable)和这些案例的一些特征变量,确定分组变量和特征变量之间的数量关系,建立判别函数(discriminant function),然后便可以利用这一数量关系对其他已知特征变量信息、但未知分组类型所属的案例进行判别分组。
沿用多元回归模型的称谓,在判别分析中称分组变量为因变量,而用以分组的其他特征变量称为判别变量(discriminant variable)或自变量。
判别分析技术曾经在许多领域得到成功的应用,例如医学实践中根据各种化验结果、疾病症状、体征判断患者患的是什么疾病;体育选材中根据运动员的体形、运动成绩、生理指标、心理素质指标、遗传因素判断是否选入运动队继续培养;还有动物、植物分类,儿童心理测验,地理区划的经济差异,决策行为预测等。
1.2 判别分析的假设条件判别分析的基本条件是:分组变量的水平必须大于或等于2,每组案例的规模必须至少在一个以上;各判别变量的测度水平必须在间距测度等级以上,即各判别变量的数据必须为等距或等比数据;各分组的案例在各判别变量的数值上能够体现差别。
判别分析对判别变量有三个基本假设。
其一是每一个判别变量不能是其他判别变量的线性组合。
否则将无法估计判别函数,或者虽然能够求解但参数估计的标准误很大,以致于参数估计统计性不显著。
其二是各组案例的协方差矩阵相等。
在此条件下,可以使用很简单的公式来计算判别函数和进行显著性检验。
其三是各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。
1.3 判别分析的过程1.3.1 对已知分组属性案例的处理此过程为判别分析的第一阶段,也是建立判别分析基本模型的阶段,即分析和解释各组指标特征之间的差异,并建立判别函数。
判别分析课件
断
○○○○○●●●●
界
○○○●●●●
值
○○●●●
○●●●
X平面
X平面
判别分析的应用: 1、用于临床上疾病的诊断和鉴别诊断。 2、疾病发病的预测 3、病人预后的预测
判别分析的分类
1、按类别分:二类判别 多类判别
Fisher、Bayes
2、方法:Fisher判别分析(距离判别) Bayes判别分析(概率判别) 非参数判别分析
详细资料见:皮质醇.xls
原始数据
整理数据
分析方法
分析方法
分析方法
Wilks λ统计量最小化 相邻两组马氏距离最大化
组间不可解释方差和最小化
分析方法
分析方法
分析结果
判别函数式:
新病人的数据分别代入,哪个值 大就判归哪种类型。
Y1=0.222ACTH8+3.985转移+8.595FHIT+4.744Ki-67-20.014 Y2=0.080ACTH8+3.647转移+6.246FHIT+4.239Ki-67-8.848 Y3=0.019ACTH8+14.462转移+4.153FHIT+9.483Ki-67-11.968
常数项
回归系数
构造判别函数式:
p yj|x 1 e 1 j x 1 e 1 j 1 x
j=1,2,3,….
新病人回代,哪个值大判归哪类。
Y=0的概率:
P y 0 1 e 5 .1 7 2 .3 2F 84 H 1 1 .7IK 5 T 6 8 i 2 7 .0P 56 CNA
判别分析的根本原理:
Y平面
诊断界值
○○○○○○○● ○○○○○○● ○○○○○●●●● ○○○●●●● ○○●●● ○●●●
应用多元统计分析-第六章 判别分析
判别分析例子
例10.1 数据“企业评价.sav” :企图用一 套打分体系来描绘企业的状况。该体系对 每个企业的一些指标(变量)进行评分。 这些指标包括:
企业规模、服务、 雇员工资比例、利润增长、 市场份额、市场份额增长、 流动资金比例、资金周转速度等等。
5
Disc.sav数据
企业评价.sav数据有8个用来建立判别标准 (或判别函数)的(预测)变量,另一个 (group)是类别。 因此每一个企业的打分在这8个变量所构成 的8维空间中是一个点。这个数据有90个点, 由于已经知道所有点的类别了,所以可以 求得每个类型的中心。这样只要定义了如 何计算距离,就可以得到任何给定的点 (企业)到这三个中心的三个距离。
各组协方差阵相等的检验
Test Results 207.175 Approx. 2.498 df1 72 df2 21089.679 Sig. .000 Tests null hypothesis of equal population covariance matrices. Box's M F
21
-4
-3
-2
-1
0
1
2
3
-4 -2 0 2 4 6
22
Fisher判别法
于是就寻找一个方向,也就是图上的虚线 方向,沿着这个方向朝和这个虚线垂直的 一条直线进行投影会使得这两类分得最清 楚。可以看出,如果向其他方向投影,判 别效果不会比这个好。 有了投影之后,再用前面讲到的距离远近 的方法来得到判别准则。这种首先进行投 影的判别方法就是Fisher判别法。
这样的判别虽然不能 保证百分之百准确, 但至少大部分判别都 是对的,而且用不着 杀死昆虫来进行判别 了。 3
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
15
判别分析的假设前提
每一个判别变量不能是其他判别变量的 线性组合
各组变量的协方差阵相等 各判别变量之间具有多元正态分布
16
第二节 距离判别
(一)马氏距离 距离判别的最直观的想法是计算样品到第i类总 体的平均数的距离,哪个距离最小就将它判归哪个 总体,所以,我们首先考虑的是是否能够构造一个 恰当的距离函数,通过样本与某类别之间距离的大 小,判别其所属类别。
y
=
-1
Σ2
x
-
μ
yy
=
-1
Σ2
x
-
μ
-1
Σ2
x
-
μ
=
x
-
μ
-
Σ
1 2
Σ
-
1 2
x
-
μ
= x - μ Σ-1 x - μ
20
3、若变量之间是相互无关的,则协方差矩阵为对角矩阵
1
11
Σ
22
11
1
O
pp
Σ1
22
O
1
pp
21
此时的马氏距离为
1
Hale Waihona Puke 111d2
(x,
G)
在自然科学和社会科学的各个领域经常遇 到需要对某个个体属于哪一类进行判断。如动 物学家对动物如何分类的研究和某个动物属于 哪一类、目、纲的判断。
判别
有一些昆虫的性别很难看出,只有通过解剖 才能够判别;
但是雄性和雌性昆虫在若干体表度量上有些 综合的差异。于是统计学家就根据已知雌雄 的昆虫体表度量(这些用作度量的变量亦称 为预测变量)得到一个标准,并且利用这个 标准来判别其他未知性别的昆虫。
13
判别分析举例:
根据发掘出来的人类头盖骨的高、宽等特征来 判断其是男性还是女性。
在税务稽查中,要判断某企业是否偷漏税。 医生对病情的诊断。 信用风险的判定。 成功概率的判定。 企业运行状态或财务状况的判定。
14
二、判别分析的种类
1、按判别的组数分有两组判别分析和多组 判别分析
2、按区分不同总体所用的数学模型分有 线性判别和非线性判别
(x
-
μ)
22
(x - μ)
O
1
pp
x1 1 2 x2 2 2 L xp p 2
11
22
pp
22
(二)两个总体距离判别法
1、方差相等
先考虑两个总体的情况,设有两个协差阵相同 的p维正态总体,对给定的样本X,判别一个样本X到 底是来自哪一个总体,一个最直观的想法是计算X到 两个总体的距离。故我们用马氏距离来给定判别规 则,有:
分类
俗语说,物以类聚、人以群分。 但什么是分类的根据呢? 比如,要想把中国的县分成若干类,就有很多
种分类法; 可以按照自然条件来分, 比如考虑降水、土地、日照、湿度等各方面; 也可以考虑收入、教育水准、医疗条件、基础
设施等指标; 既可以用某一项来分类,也可以同时考虑多项
指标来分类。
分类学是人类认识世界的基础科学。聚类 分析和判别分析是研究事物分类的基本方法, 广泛地应用于自然科学、社会科学、工农业生 产的各个领域。
设x (x1, x2, , xm )和 y ( y1, y2, , ym ) 是从
期望μ= (1, 2, , m )和 方差阵Σ= ij mm 0
的总体G抽得的两个观测值,则 X与Y之间的Mahalanobis距离 d 2 (x,y) (x y)1(x y)
样本X和Gi类之间的马氏距离定义为X与Gi类重 心间的距离:
另外就分成多少类来说,也要有道理。只要你高 兴,从分层聚类的计算机结果可以得到任何可能 数量的类。但是,聚类的目的是要使各类距离尽 可能的远,而类中点的距离尽可能的近,而且分 类结果还要有令人信服的解释。这一点就不是数 学可以解决的了。
判 别 分 析
概述 距离判别法 贝叶斯判别法 费歇尔判别法 逐步判别法
未知样品 判别归类
判别分析利用已知类别的样本培训模型,为 未知样本判类的一种统计方法。
它产生于本世纪30年代。近年来,在自然科 学、社会学及经济管理学科中都有广泛的应用。 判别分析的特点是根据已掌握的、历史上每个类 别的若干样本的数据信息,总结出客观事物分类 的规律性,建立判别公式和判别准则。然后,当 遇到新的样本点时,只要根据总结出来的判别公 式和判别准则,就能判别该样本点所属的类别。
这样的判别虽然不能保证百分之百准确,但 至少大部分判别都是对的,而且用不着杀死 昆虫来进行判别了。
什么是判别分析
判别分析是根据观测到的某些指标对所研 究的对象进行分类的一种多元统计分析方法。 在医学研究中经常遇到这类问题;例如, 临床 上常需根据就诊者的各项症状、 体征、实验 室检查、病理学检查及医学影像学资料等对其 作出是否有某种疾病的诊断或对几种可能患有 的疾病进行鉴别诊断,有时已初步诊断为某种 疾病,还需进一步作出属该类疾病中哪一种或 哪一型的判断。
聚类分析是根据事物本身的特性研究个体分类 的方法,原则是同一类中的个体有较大的相似 性,不同类中的个体差异很大。
判别分析是根据表明事物特点的变量值和它们 所属的类,求出判别函数。根据判别函数对未 知所属类别的事物进行分类的一种分析方法。
判别分析和聚类分析有什么不同呢?
主要不同点就是,在聚类分析中一般人们事 先并不知道或一定要明确应该分成几类,完 全根据数据来确定。
第一节 概述
一、什么是判别分析? 设有k个总体G1,G2,…,Gk,希望建立一
个准则,对给定的任意一个样本x,依据这个 准则就能判断它是来自哪个总体。应当要求这 种准则在某种意义下是最优的,如:错判概率 最小或错判损失最小等等。
11
判别分析的一般步骤
已知分类的 训练样本
判别分析方法
判别函数
建立判别准则
d 2 (x,Gi ) (x i )1(x i ) i 1,2, , k
18
马氏距离和欧式距离之间的差别
马氏距离 d 2(x,G) (x - μ)Σ-1(x - μ)
欧氏距离 d 2(x,G) (x - μ)(x - μ)
19
马氏距离有如下的特点:
1、马氏距离不受计量单位的影响;
2、马氏距离是标准化后的变量的欧式距离
而在判别分析中,至少有一个已经明确知道 类别的“训练样本”,利用这个数据,就可 以建立判别准则,并通过预测变量来为未知 类别的观测值进行判别了。
聚类分析
聚类要注意的问题
聚类结果主要受所选择的变量影响。如果去掉一 些变量,或者增加一些变量,结果会很不同。
相比之下,聚类方法的选择则不那么重要了。因 此,聚类之前一定要目标明确。