判别分析的基本基础学习知识原理

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

判别分析的基本原理和模型

一、判别分析概述 (一)什么是判别分析

判别分析是多元统计中用于判别样品所属类型的一种统计分析方法,是一种在已知研究对象用某种方法已经分成若干类的情况下,确定新的样品属于哪一类的多元统计分析方法。

判别分析方法处理问题时,通常要给出用来衡量新样品与各已知组别的接近程度的指标,即判别函数,同时也指定一种判别准则,借以判定新样品的归属。所谓判别准则是用于衡量新样品与各已知组别接近程度的理论依据和方法准则。常用的有,距离准则、Fisher 准则、贝叶斯准则等。判别准则可以是统计性的,如决定新样品所属类别时用到数理统计的显著性检验,也可以是确定性的,如决定样品归属时,只考虑判别函数值的大小。判别函数是指基于一定的判别准则计算出的用于衡量新样品与各已知组别接近程度的函数式或描述指标。

(二)判别分析的种类

按照判别组数划分有两组判别分析和多组判别分析;按照区分不同总体的所用数学模型来分有线性判别分析和非线性判别分析;按照处理变量的方法不同有逐步判别、序贯判别等;按照判别准则来分有距离准则、费舍准则与贝叶斯判别准则。

二、判别分析方法 (一)距离判别法

1.基本思想:首先根据已知分类的数据,分别计算各类的重心,即分组(类)均值,距离判别准则是对于任给一新样品的观测值,若它与第i 类的重心距离最近,就认为它来自第i 类。因此,距离判别法又称为最邻近方法(nearest neighbor method )。距离判别法对各类总体的分布没有特定的要求,适用于任意分布的资料。

2.两组距离判别

两组距离判别的基本原理。设有两组总体B A G G 和,相应抽出样品个数为21,n n ,

n n n =+)(21,每个样品观测p 个指标得观测数据如下,

总体A G 的样本数据为:

()

()()

()()()()()()

A x A x A x A x A x A x A x A x A x p n n n p p 111212222111211Λ

ΛM

Λ

Λ

ΛΛ

该总体的样本指标平均值为:()()()A x A x A x p Λ21,

总体B G 的样本数据为:

()

()()

()()()()()()

B x B x B x B x B x B x B x B x B x p n n n p p 222212222111211Λ

ΛM

Λ

Λ

ΛΛ

该总体的样本指标平均值为:()()()B x B x B x p Λ21,

现任取一个新样品X ,实测指标数值为X =(p x x x ,,,21Λ),要求判断X 属于哪一类?

首先计算样品X 与A G 、B G 两类的距离,分别记为()A G X D ,、()B G X D ,,然后按照距离最近准则判别归类,即样品距离哪一类最近就判为哪一类;如果样品距离两类的距离相同,则暂不归类。判别准则写为:

A G X ∈,如果()A G X D ,<()

B G X D ,, B G X ∈,如果()A G X D ,>()B G X D ,,

X 待判,如果()A G X D ,=()B G X D ,。

其中,距离D 的定义很多,根据不同情况区别选用。如果样品的各个变量之间互不相关或相关很小时,可选用欧氏距离。采用欧氏距离时,

()A G X D ,=

∑=-p

A x x 1

2

))((α

αα

()B G X D ,=

∑=-p

B x x 1

2

))((α

αα

然后比较()A G X D ,和()B G X D ,的大小,按照距离最近准则判别归类。

但实际应用中,考虑到判别分析常涉及到多个变量,且变量之间可能相关,故多用马氏距离。马氏距离公式为:

()()()()()A A

A A X X S X X G X d -'-=-1

2,

()()()()()B B

B B X X S X X G X d -'-=-1

2, 其中()A X 、()B X 、A S 、B S 分别是A G 、B G 的均值和协方差阵。 这时的判别准则分两种情况给出: (1)当A S =B S =S 时

()()A B G X d G X d ,,22-

=

()()()()()()()()A

A

A

B

B

B

X X S X X X X S X X -'---'---11

=()()()()()()B A B A X X S X X X -'

⎥⎦

⎤⎢⎣⎡+--1

212

令()()()B A X X X +=

2

1

,同时记()=X W 2)),(),((22A B G X d G X d - 则()(

)()()()B

A

X X S

X X X W --=-1

所以判别准则写成:

A G X ∈,如果()0>X W ,

B G X ∈,如果()0

X 待判,如果()0=X W 。

该规则取决于()X W 的值,因此()X W 被称为判别函数,也可以写成:

()()X X X W -=α,其中()()()

B A X X S -=-1α。()X W 被称为线性判别函数。

作为特例,当1=p 时,两个总体的分布分别是(

)2

1,σ

μN 和()

22

,σμ

N ,判别函数为

()()2122112μμσ

μμ-⎪⎭⎫ ⎝⎛

+-=X X W

()()2122112x x s x x X X W -⎪⎭⎫ ⎝

+-=(使用样本资料代替总体参数时)

不妨设21μμ<,这时()X W 的符号取决于μ>X 或μ

μ>X 时,判B G X ∈。

两组距离判别法,简单容易理解,判别准则也是合理的,但是有时也会出现错判。如下

相关文档
最新文档