第五章 判别分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章 判别分析
在一些自然科学和社会科学的研究中,研究对象用某种 方法已划分为若干类型,当得到的一个新的样品数据(通常 是多元的),要确定该样品属于已知类型中的哪一类,这样 的问题属判别分析。 判别分析是根据观察或测量到若干变量值,判断研究对 象如何分类的方法。实际上是根据表明事物特点的变量值和 它们所属的类求出判别函数,根据判别函数对未知所属类别 的事物进行分类的一种分析方法。 分类: 1、按判别的组数来分,有两组判别分析和多组判别分析 2、按区分不同总体所用的数学模型来分,有线性判别和非 线性判别 3、按判别对所处理的变量方法不同有逐步判别、序贯判别。 4、按判别准则来分,有费歇尔判别准则、贝叶斯判别准则
y0 n1 n2
如果 y( A) y( B) ,则判定准则为: y>y0,x属于A 组; y<y0,x 属于B组 如果 y( A) y( B) ,则判定准则为:y>y0,x属于B组; y<y0, x属于A组
• 例1:为研究某地区育龄妇女的生育状况,根据生 育峰值年龄,一胎生育率,二胎生育率、多胎生 育率及总和生育率5项指标,将12个已知样本点 分为两组,根据已知样本建立判别函数,并判定 另外3个待判个体属于何组。数据见 spssex/ex601
2 误判率的交叉确认估计法
每次剔除一个样品,利用其余n1+n2-1个样本建立判别 准则,再用所建立的判别准则对删除的样品做判别,对样 本中每个样品都做上述分析,以其误判的比例来作为误判 概率的估计。具体步骤: (1) 从总体G1开始,剔除其中的一个样品,用剩余的n1-1 个样品为G1的样本, G2的样本不变,建立判别函数; (2) 用建立的判别函数对剔除的样品作判别; (3) 重复(1)(2),对G2也作如此处理,其误判样品个数分别 记为n12*、n21*。 n12 n 21 ˆ (4) 交叉误判率的估计 a* n1 n 2
§4 Fisher判别法 1. Fisher判别法的基本思想--投影 将k组m元数据投影到某一个方向,使得投影后组与组之间 尽可能地分开,并利用一元方差分析的思想导出判别函数。 由于线性函数的方便实用性,最常用的是线性判别函数。 设 Xi(t)=(Xi1(t) ,…,Xim(t) )是取自总体Gt的m元样本(t=1,…,k; i=1,…,nt)。令a=(a1,…,am)T为m维空间的任一向量,u(X)=aTX 为X向以a为法线方向上的投影。投影数据为 aTXi(t)(一元数据). 记
类间离差平方和 类内离差平方和
• 比值越大说明类与类间差异越大,分类效果越 好
• • • • • • •
二、两个类别的判别 步骤: 1、计算两类(A,B)各自的均值 2、计算类内离差平方和与类间离差平方和 3、求出判别函数 4、计算待判样本的三个值y, y (a) y (b) , 5、判断 先建立判别临界值y0,在两总体先验概率相等的假设 下,一般常取 n1y( A) n2 y( B)
当k个总体协方差矩阵相等时,Σ1=Σ2=...=Σk= Σ。判别函 数为 Wij(X) = 0.5[d2(X,Gi)-d2(X,Gj)]
= [X-0.5(μi+μj)]T Σ-1 (μi-μj)
距离判别准则为
(i , j = 1,…,k)
对所有的j≠i,当Wij(X)>0时,则判X ∈ Gi; 当Wij(X)=0时,则判X ∈ Gi或X∈ Gj。 实际问题中,μ1、…、μk、Σ往往未知,分别用其样本均 值和样本方差来估计
3 Fisher判别准则 (一) 两个总体的Fisher判别准则 易知两总体的组间离阵B的秩为1,故A-1B只有一个非零 特征值λ,对应的特征向量为b。线性判别函数u(X) = bTX, 相应的判别效率
d(P,Q)≥0,等号成立的充要条件是P = Q;
d(P,Q) = d(Q,P); d(P,Q)≤d(P,R) + d(R,Q)。
(3) 三角不等式
设两个m元总体G1、G2,它们的均值向量为μ1和μ2,协 方差阵分别为Σ1、Σ2。设X = (x1, x2, … , xm)是一待判样品, 距离判别准则为
1 k ˆ ΣS (nj 1)Sj n k j 1
其中 n nk
j 1
k
1.3 判别准则的评价
当一个判别准则提出后,还要研究其优良性,即要考 察误判概率。 1 误判率回代估计法
设 (X1(1),X2(1) ,…,Xn1(1) ) 与(X1(2) ,X2(2) ,…,Xn2(2) ) 是分别来 自总体G1、G2的样本,以全体样本作为n1+n2个新样本, 逐个代入已建立的判别准则中,判别其归属,这个过程为 回代。用n12、n21分别表示将本属于G1的样本误判为G2的 个数、将本属于G2的样本误判为G1的个数,误判率的回 代估计 ˆ n n 21 a 12 n1 n 2
第一节 距离判别法
第二节 以直线划分的判别法
第三节 以曲线划分的判别法
第四节 费歇尔判别法
第五节 逐步判别法
§1 距离判别法
1.1 统计距离 设m维空间上两点P(x1,x2,…,xm)与Q(y1,y2,…,ym),P与Q的 欧氏距离:
d(P,Q) = [(x1-y1)2+(x2-y2)2 +…+ (xm-ym)2]1/2
注:一般地,总体差异越大,判别准则越有效。
§2 以直线划分的判别法
• 一、判别的基本思想 • 把观测到的n个样本看作p维空间的n个点,以 某种方法将p维空间划分为互不相交的q个区域, 每个区域对应着一个类,对于给定的新样本点, 必然要落入其中某个类中。 • 对于满足类内样本点接近、类间样本点疏远的 性质,可以通过统计量来表现。
t 1 j 1 t 1 j 1 def k nt k nt
a TBa 若k 个总体均值有显著差异,则比值 (a) T 应充分大. a Aa
def
a T Aa
问题转化为求a使得Δ(a)达到最大。为使解唯一,变为条件 极值问题:求a使得Δ(a)在条件 aTAa = 1 达到最大。
2
线性判别函数的求法
T (t ) T 2 t 1 k T
样本均值
X (j t ), t 1,..., k
j 1
k (t )
nt
n (X
t 1 t
X) (X X) a a TBa
(t )
T
def
组内离差平方和
A 0 nt ( aT X (jt ) a T x ( t ))2 a T nt (X (j t ) X ( t )) (X (j t ) X ( t )) T a
(t ) (t ) T t 1
def
A 0 nt ( aT X (jt ) a T x ( t ))2 a T nt (X (j t ) X ( t )) (X (j t ) X ( t )) T a
t 1 j 1 t 1 j 1 def
k
nt
a T Aa
d2 (X,Gi ) (X μi ) T Σ-1(X μi ) (i 1,...,k)
距离判别准则为
若 d(X,Gj) = mini{d(X,Gi)} ,则 X ∈ Gj
实际问题中,μi、Σi 往往未知,分别用其样本均值和样本 方差来估计 n 1 j (j ) X (j ) X i n j i 1 ( j = 1,…,k ) nj 1 Sj (X (j ) X (j )) T (X (j ) X (j )) i i n j 1 i 1
1
1 2
d ( x, k ) zz ( x x(k ))sk ( x x(k ))
• 判别原则: • 二、马氏距离导出的二次曲线判别
• 例3.研究某年全国各地区农民家庭收支的分布规 律,根据抽样调查资料进行分类,共抽取28个省、 市、自治区的六个指标数据。先采用聚类分析, 将28个省、市、自治区分为三组,其中北京、上 海、广州3个城市属于孤立样本单位,未归属于已 分的三组中,现采用曲线判别法来判定北京、上 海、广州归属于哪个组。原始数据见 spssex/ex603
2 dm (X,G) (X μ)T Σ 1(X μ)
设两总体G1、G2,它们的均值向量为μ1和μ2,协方差阵都为 Σ,则总体G1和G2之间的马氏距离定义为
2 dm (G1, G2 ) (μ1 μ2 ) T Σ 1(μ1 μ2 )
马氏距离满足距离的三条公理
(1) 非负性
(2) 对称性
(1) 若 d(X,G1) ≥ d(X,G2) ,则 X ∈ G2; (2) 若 d(X,G2) ≥ d(X,G1) ,则 X ∈ G1; 实际问题中,μ1、μ2、Σ1、Σ2往往未知,分别用其样本 均值和样本方差来估计,则马氏距离的估计值分别为
-1 ˆ2 dm (X,G1 ) (X X (1)) T S1 (X X (1)) ˆ d2 (X,G ) (X X (2)) T S-1(X X (2))
欧氏距离在处理统计问题时的缺点:要求坐标各分量的度量 一致、波动幅度一致。
1936年,印度统计学家Mahalanobios引入统计距离概念, 也称为“马氏距离”
设Q点坐标固定,P点坐标相互独立变化。用s12,s22,…,sm2 表示P的m个坐标的n次观测的样本方差,则P到Q的统计距 离 2 2 2
1 k nt ( t ) 1 X X j , X ( t ) n t 1 j1 nt
B0 n t ( a X a X) a
T (t ) T 2 t 1 k nt k T
X (j t ), t 1,..., k
j 1
k
wk.baidu.comnt
nt (X X) (X X) a a TBa
已知a在条件 aTAa = 1下使Δ(a) 达到最大的方向,称u(X) = aTX为线性判别函数。利用拉格朗日乘数法求条件极值。 令L(a) = aTBa-λ(aTAa-1) = 1,又令 dL/da = 2(B- λA)a = 0,可得 Ba=λAa,即 A-1Ba =λa。这说明λ是A-1B 的特征值,a是相应的特征向量。进一步, Δ(a) = aTBa =λaTAa =λ
(x1 y 1 ) (x 2 y 2 ) (x m y m ) D(P,Q) 2 2 2 s1 s2 sm
设X、Y是从均值向量为μ、协方差阵为Σ的总体G中抽取的 两个样本,X与Y两点间的马氏距离定义为
2 dm (X,Y) (X Y)T Σ 1(X Y)
X与总体G的马氏距离定义为
y 1.035x1 4.117x2 1.544x3 2.008x5
• 三、三个类别情形的判别 • 1、三条线都有通过所有点的重心 • 2、三条线相交组成一个三角形
§3 以曲线划分的判别法
• 一、判别原理 • 马氏距离: • 判别函数:
2
dij (M ) [(xi x j )s 1 ( xi x j )]
• 将各组样本均值投影到某条直线上,得 到各组样本均值在该直线的投影坐标, 投影坐标值距离越远越容易判断待判样 本属于哪个组。
b
a
1 k nt ( t ) 1 X X j , X ( t ) n t 1 j1 nt 组间离差平方和
B0 n t ( a X a X) a
m 2 2
距离判别准则为 ∧ ∧ (1) 若 d(X,G1) ≥ d(X,G2) ,则 X ∈ G2;
(2) 若 d(X,G2) ≥ d(X,G1) ,则 X ∈ G1;


1.2
多个总体的距离判别
设k个m元总体G1、…、Gk,它们的均值向量为μ1、…、 μk,协方差阵分别为Σ1、...、Σk。设X = (x1, x2, … , xm)是 一待判样品,马氏距离为
问题最终转化为求A-1B的最大特征值。
设A-1B的正特征值λ1≥λ2≥…≥λr>0,相应的特征向量 a1,a2,…,ar。ui(X) =aiTX为第i个线性判别函数,当第1个线 性判别函数不能很好地区分多个总体时,可再利用第2、第 3、…线性判别函数。Δ(a) 也称为判别效率。 前q个线性判别函数的累计判别能力(q≤r) Pq = (λ1+…+λq) / (λ1+ … +λr)
相关文档
最新文档