判别分析讲义

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

判别分析

一、 定义:

判断分析法是指通过一些具有市场经验的经营管理人员或专家对企业未来某一特定时期的产品销售业务情况迸行综合研究,并做出推测和判断的方法。

判别分析法简介:

判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。

其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。据此即可确定某一样本属于何类。当得到一个新的样品数据,要确定该样品属于已知类型中哪一类,这类问题属于判别分析问题。

判别分析的目的是得到充分体现分类的函数关系式,即判别函数。

判别分析法在气候分类、农业规划、土地类型划分中有着广泛的应用,在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;在市场预测中,根据以往调查所得的种种指标,判别下季度产品是畅销、平常或滞销;在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在油田开发中,根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层;在农林害虫预报中,根据以往的虫情、多种气象因子来判别一个月后的虫情是大发生、中发生或正常; 在体育运动中,判别某游泳运动员的“苗子”是适合练蛙泳、仰泳、还是自由泳等;在医疗诊断中,根据某人多种体验指标(如体温、血压、白血球等)来判别此人是有病还是无病。总之,在实际问题中需要判别的问题几乎到处可见。

其基本思想是在一直观测对象的分类和特征变量值的前提下,从中筛选出能够提供较多信息的变量,并建立判别函数,目标使得到的判别函数在对观测量进行判别其所属类别时的错判率最小。判别函数的一般形式是:

其中Y 为判别函数判别值,

1

2

,,...,n

x x x

为反映研究对象特征的变量,

1

2

,,...,n

a a a

为个变量的系数即判别系数.

常用的判别法:马氏距离判别法、Bayes (贝叶斯)判别法、Fisher (费希尔)判别法,此外还包括极大似然法,Logistic 判别法、逐步判别法等。

1、概念:设有m 个p 维的总体12,......m G G G ,分别服从一定的分布。现在有一个新的样品12(,,......)p x x x x =,它可能来自于这m 个总体中的某一个,依据该样品的p 项指标,从而判别它最可能来自于哪个总体。

2、判别分析的一般步骤:已知分类的训练样本−−−−−→判别分析方法

判别函数

−−−−−→

建立判别准则考核→ 未知样品判别归类

二、三种常用判别分析方法:

(1)距离判别法:(马氏距离判别)

两个总体判别法:印度统计学家马哈拉诺比斯提出了用

(,

)i D x G =

作为样品x 到总体i G 的距离。

其中i μ和i ∑分别是总体i G 的均值向量的协矩阵。 如此定义的距离i D(x,)G 称为x 到总体i G 的马氏距离。

取样品x 到总体

1

2

G G

和距离为马氏距离,并按照规则

若12(,)(,)D x D x G G < 则判 x 1G ∈ 若12(,)(,)D x D x G G > 则判 x 2G ∈

若12(,)(,)D x D x G G =

则不判

进行的判别,这种方法称为距离判别法。

多个总体判别法:假设共有n 个指标,第i 个指标共测得m 个数据(要求m>n ):

12...i i i im x x x x ⎛⎫ ⎪ ⎪= ⎪ ⎪ ⎪⎝⎭

于是,我们得到m n ⨯阶的数据矩阵X=(12,,...,n x x x )

,每一行是一个样本数据。

m n ⨯阶的数据矩阵X 的n n ⨯阶协方差矩阵记着cov (X )

: 求n 维向量12(,,...,)n r r r r =到m n ⨯阶的矩阵X 的马氏距离定义

11(,...,)n n r X x x r r -=--,则n 维向量12(,,...,)n r r r r =到m n ⨯阶的矩阵X 的

马氏距离的公式如下:、

mahal (r ,X )=1

()cov ()

()

T

r X X r X ---

其中,i x 表示第i 个指标i x 的算术平均值。

(2)贝叶斯判别法:

设m 个总体12,......m G G G ,其概率密度分别为

1

(),...,

()m

x x f

f

根据历史数据(或经验)给出这m 个总体各自出现的概率分别为1

,...m

q q ,这个概率分布叫先验分布。

在观测到一个样品x 的情况下,可用著名的Bayes 公式计算它来自第g 总体的后验概率(相对于先验概率来说,将它又称为后验概率):

k ,1,g )

()

()/(1

==

∑=k

i i i

g g x f q

x f q x g P

并且当 )/(max )/(1x g P x h P k

g ≤≤=

时,则判X 来自第h 总体。

假定已量化了各种错判的损失大小,将本该属于i G 的样品错判到j G 所造成的损失记为(|)c j i

寻求样品取值的范围的一个划分12...m R R R R =⋃⋃⋃,使得将一个来历不明的新样品x 作出各种错判的总平均损失

11111

()(,)[(|)(|,)][(|)()]j m

m

m

m

m

i i i i

i i i i i g R r i R c j i p j i R c j i x R q q q f

========∑∑∑∑∑⎰达到

最小。

判别规则为:若样品想x i R ∈,则判x i G ∈

(3)Fisher 判别法

将多个数据投影到某个表面上并且与总体分开,选择判别规划,进行分类,从k 个总体中抽取p 个总体的指标数据,由方差构造线性判别函数

相关文档
最新文档