判别分析-四种方法

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第六章 判别分析

§6.1 什么是判别分析

判别分析是判别样品所属类型的一种统计方法,其应用之广可与回归分析媲美。 在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;在市场预测中,根据以往调查所得的种种指标,判别下季度产品是畅销、平常或滞销;在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在油田开发中,根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层;在农林害虫预报中,根据以往的虫情、多种气象因子来判别一个月后的虫情是大发生、中发生或正常; 在体育运动中,判别某游泳运动员的“苗子”是适合练蛙泳、仰泳、还是自由泳等;在医疗诊断中,根据某人多种体验指标(如体温、血压、白血球等)来判别此人是有病还是无病。总之,在实际问题中需要判别的问题几乎到处可见。

判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型的。

正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。

判别分析内容很丰富,方法很多。判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。判别分析可以从不同角度提出的问题,因此有不同的判别准则,如马氏距离最小准则、Fisher 准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。本章仅介绍四种常用的判别方法即距离判别法、Fisher 判别法、Bayes 判别法和逐步判别法。

§6.2 距离判别法

基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i 类的重心距离最近,就认为它来自第i 类。

距离判别法,对各类(或总体)的分布,并无特定的要求。 1 两个总体的距离判别法

设有两个总体(或称两类)G 1、G 2,从第一个总体中抽取n 1个样品,从第二个总体中抽取n 2个样品,每个样品测量p 个指标如下页表。

今任取一个样品,实测指标值为),,(1'=p x x X ,问X 应判归为哪一类?

首先计算X 到G 1、G 2总体的距离,分别记为),(1G X D 和),(2G X D ,按距离最近准则

判别归类,则可写成:

⎪⎩

⎨⎧=>∈<∈),(),( ,),(),(,),(),(,21212211G X D G X D G X D G X D G X G X D G X D G X 当待判当当 G 1总体: G 2总体:

记2,1,),,()

()

(1)

(='=i x x X

i p i i

如果距离定义采用欧氏距离,则可计算出

1(,)D X G ==2(,)D X G ==

然后比较),(1G X D 和),(2G X D 大小,按距离最近准则判别归类。

由于马氏距离在多元统计分析中经常用到,这里针对马氏距离对上述准则做较详细的讨论。

设)1(μ、)2(μ,)1(∑、)2(∑分别为G 1、G 2的均值向量和协方差矩阵。如果距离定义采用马氏距离即

2,1)

()()(),()(1)()(2=-∑'-=-i X X G X D i i i i μμ

这时判别准则可分以下两种情况给出:

(1)当∑=∑=∑)2()1(时

考察),(22G X D 及),(12G X D 的差,就有:

)2(1)2()2(1112222),(),(μμμ-'--∑+∑'-∑'=-X X X X G X D G X D

]2[)1(1)1()1(11μμμ-'--∑+∑'-∑'-X X X

)()()(2)2()1(1)2()1()2()1(1μμμμμμ-∑'+--∑'=--X

)()(212)2()1(1)2()1(μμμμ-∑'

⎥⎦

⎤⎢⎣⎡+-=-X 令)(2

1)2()

1(μμμ+=

)()()()2()1(1μμμ-∑'-=-X X W

则判别准则可写成:

⎪⎩

⎪⎨⎧==<<∈>>∈),(),(D 0)( ,),(),(D 0)(,),(),(D 0)(,122212

22212221G X D G X X W G X D G X X W G X G X D G X X W G X 即当待判即当即当 当

)

2()1(,,μμ∑已知时,令

),,()(1)2()1(1'

∆-∑=-p a a a μμ则

⎥⎥⎥⎥

⎢⎢⎢⎢⎣⎡--=-'='-=p p p x x a a X a a X X W μμμμ ),,()()()(1

11

)()(111p p p x a x a μμ-++-=

显然,W (X )是p x x ,,1 的线性函数,称W (X )为线性判别函数,a 为判别系数。

当)2()1(,,μμ∑未知时,可通过样本来估计。设)

()(2)(1,,,i n

i i i

X X X 来自G i 的样本,i =1,2。 ∑===1

1)

1()1(1)

1(1

ˆn i i X X n μ

===2

1)

2()2(2

)2(1ˆn i i X

X n μ

)(2

1

ˆ2121S S n n +-+=∑

其中 ∑='--=

i

n t i i t i i t i X X X X

S 1

)()()()())((

)(2

1)2()

1(X X X +=

线性判别函数为:

)(ˆ)()()2()1(1X X X X X W -∑

'-=- 当p =1时,若两个总体的分布分别为),(21σμN 和),(22σμN ,判别函数

)(1)2()(21221μμσ

μμ-⎪⎭⎫ ⎝⎛

+-=X X W ,不妨设21μμ<,这时W(X)的符号取决于μ>X 或

μX 时,判2G X ∈。我们看到用距离判别所得

到的准则是颇为合理的。但从下图又可以看出,用这个判别法有时也会得出错判。如X 来

自G 1,但却落入D 2,被判为属G 2,错判的概率为图中阴影的面积,记为)1/2(P ,类似有

)2/1(P ,显然)1/2(P =)2/1(P =⎪⎭

⎝⎛-Φ-σμμ2121。

当两总体靠得很近(即|21μμ-|小),则无论用何种办法,错判概率都很大,这时作判别分

相关文档
最新文档