判别分析四种方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(X
X
(1) )( X
(1)
X)
p
xa
(1)
xa
2
a 1
D(X ,G2)
(X
X
(2) )( X
X
(2)
)
p
xa
(2)
xa
2
a 1
然后比较 D( X , G1 ) 和 D( X , G2 ) 大小,按距离最近准则判别归类。
由于马氏距离在多元统计分析中经常用到,这里针对马氏距离对上述准则做较详细的讨
考察 D 2 ( X , G2 ) 及 D 2 ( X , G1 ) 的差,就有: D 2 ( X , G2 ) D 2 ( X , G1 ) X 1 X 2 X 1 X (2) (2) 1 (2)
[ X 1 X 2 X 1 (1) (1) 1 (1) ]
2 X 1 ( (1) (2) ) ( (1) (2) ) 1 ( (1) (2) )
均值
x1
x1(12) x2(21) x (2)
n2 1 (2)
x1
G2 总体:
x2
…
x1(22)
…Fra Baidu bibliotek
x
(2) 22
x (2) n2 2
…
(2)
x2
…
xp
x1(2p)
x
(2) 2p
x (2) n2 P
(2)
xp
记
X
(i)
(
(i
x1
)
,
,
x
(i p
)
),
i
1,2
如果距离定义采用欧氏距离,则可计算出
D(X ,G1)
§6.2 距离判别法
基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别 准则是对任给的一次观测,若它与第 i 类的重心距离最近,就认为它来自第 i 类。
距离判别法,对各类(或总体)的分布,并无特定的要求。 1 两个总体的距离判别法 设有两个总体(或称两类)G1、G2,从第一个总体中抽取 n1 个样品,从第二个总体中 抽取 n2 个样品,每个样品测量 p 个指标如下页表。 今任取一个样品,实测指标值为 X (x1,, x p ) ,问 X 应判归为哪一类?
x p
p
a1 (x1 1 ) a p (x p p )
论。
设 (1) 、 (2) , (1) 、 (2) 分别为 G1、G2 的均值向量和协方差矩阵。如果距离定义采
用马氏距离即
D 2 ( X , Gi ) ( X (i) )( (i) ) 1 ( X (i) )
i 1,2
这时判别准则可分以下两种情况给出:
(1)当 (1) (2) 时
变量 样品
x1
x1(1)
x1(11)
x
(1) 2
x2(11)
x (2) n1
x(1) n11
均值
(1)
x1
G1 总体:
x2
…
x1(12)
…
x2(12)
x (1) n1 2
…
(1)
x2
…
xp
x1(1p) x2(1p) x (1)
n1 P (1)
xp
变量 样品
x1(2) x2(2) x (2)
n2
首先计算 X 到 G1、G2 总体的距离,分别记为 D( X , G1 ) 和 D( X , G2 ) ,按距离最近准则
1
判别归类,则可写成:
X
X
G1,当D( X , G1 ) G2 ,当D( X , G1 )
D(X ,G2 ) D(X ,G2 )
待判, 当D( X ,G1 ) D( X ,G2 )
D 2 ( X , G1 ) D 2 ( X , G1 )
待判, 当W ( X ) 0 即D2 ( X ,G2 ) D 2 ( X ,G1 )
当 , (1) , (2) 已 知 时 , 令 a 1 ( (1) (2) )(a1 ,, a p ) 则
x1
1
W ( X ) ( X )a a( X ) (a1,, a p )
第六章 判别分析
§6.1 什么是判别分析
判别分析是判别样品所属类型的一种统计方法,其应用之广可与回归分析媲美。 在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。 例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一 个国家的经济发展程度所属类型;在市场预测中,根据以往调查所得的种种指标,判别下季 度产品是畅销、平常或滞销;在地质勘探中,根据岩石标本的多种特性来判别地层的地质年 代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在油田开发中, 根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层;在农林害虫预 报中,根据以往的虫情、多种气象因子来判别一个月后的虫情是大发生、中发生或正常; 在体育运动中,判别某游泳运动员的“苗子”是适合练蛙泳、仰泳、还是自由泳等;在医疗 诊断中,根据某人多种体验指标(如体温、血压、白血球等)来判别此人是有病还是无病。 总之,在实际问题中需要判别的问题几乎到处可见。 判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型(或组别)并已取 得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知 类型的样品进行判别分类。对于聚类分析来说,一批给定样品要划分的类型事先并不知道, 正需要通过聚类分析来给以确定类型的。 正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类 总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品 进行分类,然后再用判别分析建立判别式以对新样品进行判别。 判别分析内容很丰富,方法很多。判别分析按判别的组数来区分,有两组判别分析和多 组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时 所处理的变量方法不同,有逐步判别和序贯判别等。判别分析可以从不同角度提出的问题, 因此有不同的判别准则,如马氏距离最小准则、Fisher 准则、平均损失最小准则、最小平方 准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。本章仅 介绍四种常用的判别方法即距离判别法、Fisher 判别法、Bayes 判别法和逐步判别法。
2 X
1 2
( (1)
(2) ) 1 ( (1)
(2) )
令 1 ( (1) (2) ) 2 W ( X ) ( X ) 1 ( (1) (2) )
则判别准则可写成:
2
X X
G1,当W ( X ) G2 ,当W ( X )
0 0
即D2 ( X , G2 ) 即D2 ( X , G2 )