14统计《应用多元统计分析》第04章_判别分析gxs

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
行判断
X
G1,
X G2,
如果 如果
D2 (X,G1) D2 (X,G2 ) D2 (X,G1) D2 (X,G2 )
(4.4)
这个判别规则的等价描述为:
求新样品X到G1的距离与到G2的距离之差, 如果其值为正,X属于G2;否则X属于G1。
D2 (X, G1) D2 (X, G2 ) (X μ1)Σ1(X μ1) (X μ2 )Σ1(X μ2 )
其中
将上边计算结果代人统计量后可得:
故在 函数有效。
检验水平下,两总体间差异显著,即判别
(6)对待判样品判别归类结果如下表:
2、继续用前面距离判别法例1的人文发展指数的数据作Bayes 判别分析。
这里组数k=2,指标数p=3,n1=n2=5
代人判别函数:
得两组的判别函数分别为:
将原各组样品进行回判结果如下一灯片表: 待判样品判别结果如下:
今从1995年世界各国人文发展指数的排序中,选取高发展 水平、中等发展水平的国家各五个作为两组样品,另选四个国 家作为待判样品作判别分析。
本例中变量个数p=3,两类总体各有5个样品,即n1=n2=5 , 有4个待判样品,假定两总体协差阵相等。 两组线性判别的计算过程如下: (1)计算两类样本均值
它是 X 的二次函数,相应的判别规则为
X
G1,
X G2,
如果 如果
W *(X) 0 W *(X) 0
2、多个总体的距离判别问题
问题:设有 k 个总体 G1, G2 ,,G k ,其均值和协方差矩阵分别是
μ1, μ 2 ,, μ k 和 Σ1, Σ 2 ,, Σ k ,而且 Σ1 Σ2 Σk Σ 。
判别规则为
x x
G1 G2
, ,
如果 如果
x x
(2) 当 μ1 μ 2 , Σ1 Σ2 时,我们采用(4.4)式作为判别
规则的形式。选择判别函数为
W *(X) D2 (X, G1) D2 (X, G2 ) (X μ1)Σ11(X μ1) (X μ2 )Σ21(X μ2 )
第二节 距离判别法
一 马氏距离的概念 二 距离判别的思想及方法 三 判别分析的实质
一、马氏距离的概念
设 p 维 欧 氏 空 间 R p 中 的 两 点 X ( X1, X 2 , , X p ) 和
Y (Y1,Y2 , ,Yp ) ,通常我们所说的两点之间的距离,是指欧
氏距离,即 d 2(X, Y) (X1 Y1)2 (X p Yp )2 (4.1)
X
G1
,
X G2 ,
如果 如果
Wˆ (X) 0 Wˆ (X) 0
(4.7)
注: ( 1 ) 当 p 1 , G1 和 G2 的 分 布 分 别 为 N (1, 2 ) 和 N (2 , 2 ) 时, 1, 2 , 2 均为已知,且 1 2 ,则判别
系数为 1 2 0 ,判别函数为 2 W (x) (x )
3、利用距离判别法中例l的人文发展指数的数据作 Fisher判别分析:
(2)计算样本协差阵,从而求出
类似地 经计算
(3)求线性判别函数W(X)
解线性方程组

(4)对已知类别的样品判别分类
对已知类别的样品(通常称为训练样品)用线性判别函数进行判 别归类,结果如下表,全部判对。
(5)对判别效果作检验 判别分析是假设两组样品取自不同总体,如果两个总体的均值 向量在统计上差异不显著,作判别分析意义就不大:所谓判别效果 的检验就是检验两个正态总体的均值向量是否相等,取检验的统计 量为:
在解决实际问题时,特别是针对多元数据的分析问题,欧氏距离 就显示出了它的薄弱环节。
第一、设有两个正态总体, X ~ N (1, 2 ) 和Y ~ N (2 ,4 2 ) ,
现有一个样品位于如图 4.1 所示的 A 点,距总体 X 的中心 2 远, 距总体 Y 的中心 3 远,那么, A 点处的样品到底离哪一个总体
XΣ1X 2XΣ1μ1 μ1Σ1μ1 (XΣ1X 2XΣ1μ2 μ2Σ1μ2 )
2XΣ1(μ2 μ1) μ1Σ1μ1 μ2Σ1μ2
2XΣ1(μ2 μ1) (μ1 μ2 )Σ1(μ1 μ2 )
2
X
ห้องสมุดไป่ตู้
μ1
2
μ2
Σ 1 (μ1
μ2
)
2(X μ)α 2α(X μ)
D2
(X,
G
)
(4.10)
当 μ1,μ 2 ,, μ k 和 Σ1, Σ2 ,, Σk 均未知时,μ( 1,2,, k )
的估计同前, Σ ( 1,2,, k )的估计为
Σˆ
1 n
1
S

1,2,, k
判别分析的实质
判别分析的实质: 利用已经测得的变量数据,找出一种判别函数, 使得这一函数具有某种最优性质,能把属于不同类别的
第四章 判别分析
第一节 引言 第二节 距离判别法 第三节 贝叶斯(Bayes)判别法 第四节 费歇(Fisher)判别法 第五节 实例分析与计算机实现
第一节 引言
在我们的日常生活和工作实践中,常常会遇到判别分析问题, 即根据历史上划分类别的有关资料和某种最优准则,确定一 种判别方法,判定一个新的样本归属哪一类。例如,某医院 有部分患有肺炎、肝炎、冠心病、糖尿病等病人的资料,记 录了每个患者若干项症状指标数据。现在想利用现有的这些 资料找出一种方法,使得对于一个新的病人,当测得这些症 状指标数据时,能够判定其患有哪种病。又如,在天气预报 中,我们有一段较长时间关于某地区每天气象的记录资料 (晴阴雨、气温、气压、湿度等),现在想建立一种用连续 五天的气象资料来预报第六天是什么天气的方法。这些问题 都可以应用判别分析方法予以解决。
近呢?若按欧氏距离来量度, A 点离总体 X 要比离总体Y “近
一些”。但是,从概率的角度看, A 点位于 1 右侧的 2 x 处,而 位于 2 左侧1.5 y 处,应该认为 A 点离总体Y“近一些”。显然,
后一种量度更合理些。
图4.1
第二、设有量度重量和长度的两个变量 X 与Y ,以单位分别 为 kg 和 cm 得到样本 A(0,5) ,B(10,0) ,C(1,0) ,D(0,10) 。
函数,故又称为线性判别函数, α 称为判别系数。
在实际应用中,总体的均值和协方差矩阵一般是未知的,可由样
本均值和样本协方差矩阵分别进行估计。设
X(1) 1
,
,
X(1) n1
来自总

G1
的样本,
X(2) 1
,
,
X(2) n2
是来自总体
G2
的样本,
μ
1

μ
2

一个无偏估计分别为
X(1)
1 n1
n1
X (1) i
i 1

X(2)
1 n2
n2
X(2) i
i 1
Σ 的一个联合无偏估计为
Σˆ
n1
1 n2
2
(S1
S2 )
这里
n
S (Xi( ) X( ) )(Xi( ) X( ) ), i 1
1, 2
此时,两总体距离判别的判别函数为
Wˆ (X) αˆ (X X)
其中 X 1 (X(1) X(2) ) , αˆ Σˆ 1(X(1) X(2) ) 。这样,判别规则为 2
记 W X X
1 2
1
2
1 1 2


μ
1 2
(μ1
μ2)












α Σ1 (μ1 μ 2 ) ,记 W (X) α(X μ)
(4.5)
则判别规则(4.4)式可表示为
XXGG12,,
如果 如果
W (X) 0 W (X) 0
(4.6)
这里称W (X) 为两总体距离判别的判别函数,由于它是 X 的线性
这里 I
Σ 1μ , C
1 2
μ
Σ1μ

1,2,, k

由( 4.8)式,可以取线性判别函数为
W (X) I X C , 1,2,, k
相应的判别规则为
X Gi 如果 Wi (X) m1axk (I X C )
( 4.9)
针对实际问题,当 μ1, μ 2 ,, μ k 和 Σ 均未知时,可以通过相应的
把这类问题用数学语言来表达,可以叙述如下:设有n个样 本,对每个样本测得p项指标(变量)的数据,已知每个样 本属于k个类别(或总体)G1,G2, …,Gk中的某一类,且 它们的分布函数分别为F1(x),F2(x), …,Fk(x)。我们希望 利用这些数据,找出一种判别函数,使得这一函数具有某种
最优性质,能把属于不同类别的样本点尽可能地区别开来,
并对测得同样p项指标(变量)数据的一个新样本,能判定 这个样本归属于哪一类。
判别分析内容很丰富,方法很多。判断分析按判别的总体 数来区分,有两个总体判别分析和多总体判别分析;按区分 不同总体所用的数学模型来分,有线性判别和非线性判别; 按判别时所处理的变量方法不同,有逐步判别和序贯判别等。 判别分析可以从不同角度提出问题,因此有不同的判别准则, 如马氏距离最小准则、Fisher准则、平均损失最小准则、最 小平方准则、最大似然准则、最大概率准则等等,按判别准 则的不同又提出多种判别方法。本章仅介绍常用的几种判别 分析方法:距离判别法、Fisher判别法、Bayes判别法和逐 步判别法。
今按照欧氏距离计算,有
AB 102 52 125 ; CD 12 102 101
如果我们将长度单位变为 mm,那么,有
AB 102 502 2600 ; CD 12 1002 10001
量纲的变化,将影响欧氏距离计算的结果。
为此,我们引入一种由印度著名统计学家马哈拉诺比斯 (Mahalanobis, 1936)提出的“马氏距离”的概念。
同 样,我注们注 意意:到,如果总体 G1, G2 ,,G k 的协方差矩阵分别是 Σ1, Σ 2 ,, Σ k ,而且它们不全相等,则计算 X 到各总体的马氏
距离,即
D2 (X, G ) (X μ )Σ 1(X μ ) 1,2,, k
则判别规则为
X Gi
如果
D2
(X,
Gi
)
min
1 k
样 本 值 来 替 代 。 设 X1() ,
,
X( n
)





G
中 的样 本
( 1,2,, k ),则 μ ( 1,2,, k )和 Σ 可估计为
X( ) 1 n
n
Xi( ) ,
i1
1,2,, k

Σˆ
n
1
k
k
S
1
, 其中 n n1 n2 nk
n
S (Xi( ) X( ) )(Xi( ) X( ) ) , 1,2,, k i 1
0} 0}
(4.11)
新的样品 X 落入 R1 推断 X G1 ,落入 R2 推断 X G2 。
判别分析问题实质上以最优的性质对p维空间R p构造一个 “划分”,这个“划分”就构成了一个判别规则。
例 人文发展指数是联合国开发计划署于1990年5月发表的 第一份《人类发展报告》中公布的。该报告建议,目前对人文 发展的衡量应当以人生的三大要素为重点,衡量人生三大要素 的指示分别采用出生时的预期寿命、成人识字率和实际人均 GDP,将以上三个指示指标的数值合成为一个复合指数,即为 人文发展指数。资料来源UNDP《人类发展报告》1995年。
这里应该注意到,当 Σ I (单位矩阵)时,即为欧氏距离
的情形。
二、距离判别的思想及方法
1、两个总体的距离判别问题
设有协方差矩阵∑相等的两个总体G1和G2,其均值分别
是1和 2,对于一个新的样品X,要判断它来自哪个总体。
一般的想法是计算新样品X到两个总体的马氏距离
D2(X,G1)和D2(X,G2),并按照如下的判别规则进
对于一个新的样品 X ,要判断它来自哪个总体。
该计X问到算题每新与一样两个个品总总体X体到的的距每距离个离,总判即别体问的题距的离解决,思即想一样。计算新样品
D2 (X, G ) (X μ )Σ1(X μ )
XΣ1X 2μ Σ1X μ Σ1μ XΣ1X 2(I X C )
4.8)
样本点尽可能地区别开来。
设R1,R2,…,Rk是p维空间R p的k个子集,如果它们互不相交, 且它们的和集为R p,则称R1,R2, …,Rk为R p的一个划分。
在两个总体的距离判别问题中,利用W (X) α(X μ) 可
以得到空间 R p 的一个划分
R1 R2
{X {X
:W :W
(X) (X)
设 X 和 Y 是来自均值向量为 μ ,协方差为 Σ( 0) 的总体 G
中的 p 维样本,则总体 G 内两点 X 与 Y 之间的马氏距离定
义为
D2 (X, Y) (X Y)Σ1(X Y) (4.2)
定义点 X 到总体 G 的马氏距离为
D2 (X,G) (X μ)Σ1(X μ)
(4.3)
相关文档
最新文档