第4章判别分析-PPT精品
合集下载
判别分析解读 PPT
![判别分析解读 PPT](https://img.taocdn.com/s3/m/08067d4614791711cc791761.png)
判别分析
Discriminant Analysis
流行病与卫生统计学系
• 聚类分析:对(样本)总体进行分类 • 判别分析:对(样本)个体进行分类
判别与聚类
• 聚类分析可以对样本/指标进行分类,判别分析 只对样本进行分类。
• 聚类分析事先 不知道事物的类别,也不知道应 分几类;判别分析必须事先知道事物的类别, 也知道应分几类。
• 在农林害虫预报中,根据以往的虫情,多种气 象因子来判别一个月后的虫情是大发生,中发 生或正常
• 在体育运动中,判别某游泳运动员是适合练蛙 泳,仰泳还是自由泳
• 在医疗诊断中,根据某人多种检验指标来判断 此人是某病患者还是非患者
判别分析--诊断
• 临床诊断: • 急腹症的患者,需要诊断患病原因。 • 诊断阑尾炎时需要与其他急腹症作鉴别诊断;
• 聚类分析不需要分类的历史资料,能直接对样 本进行分类;判别分析需要历史资料去建立判 别函数,然后才能对样本进行分类。
• 判别分析:根据判别对象若干个指 标的观测结果判定其应属于哪一类 的统计学方法。
应用
• 在经济学中,根据人均国民收入,人均工农业 产值,人均消费水平等多个指标来判定一个国 家的经济发展程度所属等级
以p=q=k=2 来说明Fisher判别分析法的基本原理和计算方法
根据Fisher判别分析法的基本原理,就是要选择一组 适当的系数 c 1 , c 2 ,…, c k ,使得类间差异D最大 且类内差异V最小,即,使得下式的值 Q 达到最大。
根据多元函数求极值的原理和方法,使得 Q 取最大 值的点是Q 的一阶偏导函数等于0的方程组的解。 令上述方程组的解是: 那么,Fisher判别函数估计式是:
该类。 • 适合于多类的判别分析。
Discriminant Analysis
流行病与卫生统计学系
• 聚类分析:对(样本)总体进行分类 • 判别分析:对(样本)个体进行分类
判别与聚类
• 聚类分析可以对样本/指标进行分类,判别分析 只对样本进行分类。
• 聚类分析事先 不知道事物的类别,也不知道应 分几类;判别分析必须事先知道事物的类别, 也知道应分几类。
• 在农林害虫预报中,根据以往的虫情,多种气 象因子来判别一个月后的虫情是大发生,中发 生或正常
• 在体育运动中,判别某游泳运动员是适合练蛙 泳,仰泳还是自由泳
• 在医疗诊断中,根据某人多种检验指标来判断 此人是某病患者还是非患者
判别分析--诊断
• 临床诊断: • 急腹症的患者,需要诊断患病原因。 • 诊断阑尾炎时需要与其他急腹症作鉴别诊断;
• 聚类分析不需要分类的历史资料,能直接对样 本进行分类;判别分析需要历史资料去建立判 别函数,然后才能对样本进行分类。
• 判别分析:根据判别对象若干个指 标的观测结果判定其应属于哪一类 的统计学方法。
应用
• 在经济学中,根据人均国民收入,人均工农业 产值,人均消费水平等多个指标来判定一个国 家的经济发展程度所属等级
以p=q=k=2 来说明Fisher判别分析法的基本原理和计算方法
根据Fisher判别分析法的基本原理,就是要选择一组 适当的系数 c 1 , c 2 ,…, c k ,使得类间差异D最大 且类内差异V最小,即,使得下式的值 Q 达到最大。
根据多元函数求极值的原理和方法,使得 Q 取最大 值的点是Q 的一阶偏导函数等于0的方程组的解。 令上述方程组的解是: 那么,Fisher判别函数估计式是:
该类。 • 适合于多类的判别分析。
判别分析完整课件
![判别分析完整课件](https://img.taocdn.com/s3/m/af80412ea5e9856a561260cd.png)
D ( y(1) y( 2) )(n1 n2 2) ( ci di )(n1 n2 2)
2 i 1 m
m为判别指标数,根据自由度查F(m,n1+n2-m-1)。
(三)确定判别临界值
确定两类的判别临界值(即两类的分界点)yc, 据此对未知样本作出判断。
yc
n1 y(1) n2 y( 2 ) n1 n2
在医学科研资料中经常遇到指标变量不呈正态分 布或难以满足参数判别分析的要求,特别是有些 变量是分类变量,不可能服从正态分布,可以用 Logistic回归分析的方法。
实际资料中一般含有较多的指标,有些指标可能 对鉴别不同的类别毫无用处,或指标间彼此相关的情 况时不应该用所有的指标都参与建判别函数。所以, 在建函数之前,先进行变量筛选是很有必要的,即逐 步判别分析,此法建立的函数更简洁,效果也更好。 此外,对于某些指标间存在彼此相关的情况时, 先对众多的指标进行聚类,从聚成的几大类中各挑选 一个最有代表性的指标,用这些典型指标建立判别函 数。 逐步回归、判别分析、聚类分析等方法可以联合 应用。
y ci xi
i 1 n
2
n1
(y
i 1
n2
i ( 2)
y( 2 ) )
2
y(1) ck xk (1)
k 1
n1
y( 2) ck xk ( 2)
k 1
n2
根据求极值的原理,求I对判别系数Ci的偏导数,使其等 于零,得到下列方程组:
f11C1+f12C2+……f1mCm=d1 f21C1+f22C2+……f2mCm=d2 ……… …… …… ……… ….. fm1C1+fm2C2+……fmmCm=dm 其中, di
2 i 1 m
m为判别指标数,根据自由度查F(m,n1+n2-m-1)。
(三)确定判别临界值
确定两类的判别临界值(即两类的分界点)yc, 据此对未知样本作出判断。
yc
n1 y(1) n2 y( 2 ) n1 n2
在医学科研资料中经常遇到指标变量不呈正态分 布或难以满足参数判别分析的要求,特别是有些 变量是分类变量,不可能服从正态分布,可以用 Logistic回归分析的方法。
实际资料中一般含有较多的指标,有些指标可能 对鉴别不同的类别毫无用处,或指标间彼此相关的情 况时不应该用所有的指标都参与建判别函数。所以, 在建函数之前,先进行变量筛选是很有必要的,即逐 步判别分析,此法建立的函数更简洁,效果也更好。 此外,对于某些指标间存在彼此相关的情况时, 先对众多的指标进行聚类,从聚成的几大类中各挑选 一个最有代表性的指标,用这些典型指标建立判别函 数。 逐步回归、判别分析、聚类分析等方法可以联合 应用。
y ci xi
i 1 n
2
n1
(y
i 1
n2
i ( 2)
y( 2 ) )
2
y(1) ck xk (1)
k 1
n1
y( 2) ck xk ( 2)
k 1
n2
根据求极值的原理,求I对判别系数Ci的偏导数,使其等 于零,得到下列方程组:
f11C1+f12C2+……f1mCm=d1 f21C1+f22C2+……f2mCm=d2 ……… …… …… ……… ….. fm1C1+fm2C2+……fmmCm=dm 其中, di
《应用多元统计分析》第04章-判别分析
![《应用多元统计分析》第04章-判别分析](https://img.taocdn.com/s3/m/c15b486a2bf90242a8956bec0975f46527d3a7cc.png)
量。通过反复迭代,最终构建最优的判别函数。
04
判别分析的实例与演示
数据来源与预处理
数据来源
判别分析所使用的数据通常来源于实际研究或调查,这些数据可能涉及到多个 变量和观测样本。
数据预处理
在应用判别分析之前,需要对数据进行预处理,包括数据清洗、缺失值处理、 异常值检测与处理、数据标准化等步骤,以确保数据的质量和可靠性。
2. 建立判别模型
选择合适的变量,并进行数据清理和预处 理,包括缺失值处理、异常值检测与处理 等。
选择合适的判别分析方法,如线性判别分析 (LDA)或二次判别分析(QDA),并利用 已知分类的数据来估计判别函数。
3. 模型评估
4. 应用模型
使用诸如混淆矩阵、准确率、召回率等指 标来评估模型的性能,并可能进行交叉验 证。
目的
通过建立判别函数,使得不同类别之 间的差异尽可能大,而同一类别内的 差异尽可能小。
判别分析与聚类分析的区别
01
判别分析基于已知分类数据, 目标是建立预测分类的规则; 而聚类分析则是将未知分类的 数据进行归类。
02
判别分析要求对各变量之间的 相关性进行建模,而聚类分析 则更注重数据之间的距离或相 似性。
总结词
两总体判别分析是一种基本的判别分析方法,用于根据已知分类的数据集构建判别函数,从而对新数据进行分类。
详细描述
两总体判别分析通常用于解决二分类问题,其基本思想是通过选择一组特征变量,使得不同类别的样本在这组变 量上的均值差异最大,同时使同类样本之间的离散度最小。判别函数通常采用线性或非线性形式,通过最小化分 类错误率来构建。
对特征选择敏感
判别分析的特征选择可能对结果 影响较大,如果选择不合适的特 征,可能会导致分类效果不佳。
04
判别分析的实例与演示
数据来源与预处理
数据来源
判别分析所使用的数据通常来源于实际研究或调查,这些数据可能涉及到多个 变量和观测样本。
数据预处理
在应用判别分析之前,需要对数据进行预处理,包括数据清洗、缺失值处理、 异常值检测与处理、数据标准化等步骤,以确保数据的质量和可靠性。
2. 建立判别模型
选择合适的变量,并进行数据清理和预处 理,包括缺失值处理、异常值检测与处理 等。
选择合适的判别分析方法,如线性判别分析 (LDA)或二次判别分析(QDA),并利用 已知分类的数据来估计判别函数。
3. 模型评估
4. 应用模型
使用诸如混淆矩阵、准确率、召回率等指 标来评估模型的性能,并可能进行交叉验 证。
目的
通过建立判别函数,使得不同类别之 间的差异尽可能大,而同一类别内的 差异尽可能小。
判别分析与聚类分析的区别
01
判别分析基于已知分类数据, 目标是建立预测分类的规则; 而聚类分析则是将未知分类的 数据进行归类。
02
判别分析要求对各变量之间的 相关性进行建模,而聚类分析 则更注重数据之间的距离或相 似性。
总结词
两总体判别分析是一种基本的判别分析方法,用于根据已知分类的数据集构建判别函数,从而对新数据进行分类。
详细描述
两总体判别分析通常用于解决二分类问题,其基本思想是通过选择一组特征变量,使得不同类别的样本在这组变 量上的均值差异最大,同时使同类样本之间的离散度最小。判别函数通常采用线性或非线性形式,通过最小化分 类错误率来构建。
对特征选择敏感
判别分析的特征选择可能对结果 影响较大,如果选择不合适的特 征,可能会导致分类效果不佳。
判别分析-实例-PPT
![判别分析-实例-PPT](https://img.taocdn.com/s3/m/75312089370cba1aa8114431b90d6c85ec3a88cc.png)
对光顾该商店的顾客进行n次观察。 设:n1组数据为购买者(A)
n2组数据为非购买者(B) 由已知变量X1,X2,将n1+n2=n组数据分成两大类; 购买者(A)—— X1i (A), X2i (A) (I=1,2,…,n1)
非购买者(B)—— X1 j (B), X2 j (B) (j=1,2,…,n2)
例:样本A,舒张血压为75mmHg,血浆胆固醇为150mg%, 分别代入方程后
G1=1.12364*75+0.21222*150-72.60310=43.5029
G2=0.94031*75+0.16755*150-49.34373=46.31202
由于G1小于G2,所以样本A判为正常人组(G=2)。
大家好
19
6、计算判别指标
y 1
C1
X
1
1
C2
X
1
2
C3
X
1
3
0.216928.29 0.01820 6.42 0.05604 6.00
2.251533
y 2
C1
X
2
1
C2
X
2
2
C3
X
2
3
0.21692 3.20 0.01820 3.80 0.05604 4.00
0.987464
判别指标为
大家好
35
大家好
36
大家好
37
大家好 待判样品
38
大家好
39
大家好
40
大家好
41
大家好
42
大家好
43
大家好
44
大家好
45
大家好
46
n2组数据为非购买者(B) 由已知变量X1,X2,将n1+n2=n组数据分成两大类; 购买者(A)—— X1i (A), X2i (A) (I=1,2,…,n1)
非购买者(B)—— X1 j (B), X2 j (B) (j=1,2,…,n2)
例:样本A,舒张血压为75mmHg,血浆胆固醇为150mg%, 分别代入方程后
G1=1.12364*75+0.21222*150-72.60310=43.5029
G2=0.94031*75+0.16755*150-49.34373=46.31202
由于G1小于G2,所以样本A判为正常人组(G=2)。
大家好
19
6、计算判别指标
y 1
C1
X
1
1
C2
X
1
2
C3
X
1
3
0.216928.29 0.01820 6.42 0.05604 6.00
2.251533
y 2
C1
X
2
1
C2
X
2
2
C3
X
2
3
0.21692 3.20 0.01820 3.80 0.05604 4.00
0.987464
判别指标为
大家好
35
大家好
36
大家好
37
大家好 待判样品
38
大家好
39
大家好
40
大家好
41
大家好
42
大家好
43
大家好
44
大家好
45
大家好
46
《多元统计分析讲义》第四章判别分析
![《多元统计分析讲义》第四章判别分析](https://img.taocdn.com/s3/m/63d907e30129bd64783e0912a216147917117e1d.png)
**
**
目录 上页 下页 返回 结束
§4.6 判别分析方法步骤及框 图 研究者首先应该关注被解释变量。被解释变量的组数可以是
两个或更多,但这些组必须具有相互排斥性和完全性。被解 释变量有时确实是定性的变量。然而也有一些情况,即使被 解释变量不是真的定性变量,判别分析也是适用的。我们可 能有一个被解释变量是顺序或者间隔尺度的变量,而要作为 定性变量使用。这种情况下我们可以创建一个定性变量。
*
*
目录 上页 下页 返回 结束
§4.1 判别分析的基本理
论
判别分析的假设之一,是每一个判别变量(解释变量)不 能是其他判别变量的线性组合。即不存在多重共线性问题。 判别分析的假设之二,是各组变量的协方差矩阵相等。判 别分析最简单和最常用的形式是采用线性判别函数,它们 是判别变量的简单线性组合。在各组协方差矩阵相等的假 设条件下,可以使用很简单的公式来计算判别函数和进行 显著性检验。 判别分析的假设之三,是各判别变量之间具有多元正态分 布,即每个变量对于所有其他变量的固定值有正态分布。 在这种条件下可以精确计算显著性检验值和分组归属的概 率。当违背该假设时,计算的概率将非常不准确。
**
目录 上页 下页 返回 结束
§4.3 Bayes判别
**
XXX
**
目录 上页 下页 返回 结束
§4.4 Fisher判别
**
**
目录 上页 下页 返回 结束
§4.4 Fisher判别
**
**
目录 上页 下页 返回 结束
§4.4 Fisher判别
**
**
目录 上页 下页 返回 结束
§4.4 Fisher判别
**
**
判别分析PPT
![判别分析PPT](https://img.taocdn.com/s3/m/f54f4a85dd88d0d233d46ab0.png)
判别分析有如下的假定: 预测变量服从正态分布。 预测变量之间没有显著的相关。 预测变量的平均值和方差不相关。 预测变量应是连续变量,因变量(类 别或组别)是间断变量。 两个预测变量之间的相关性在不同类 中是一样的。
在分析的各个阶段应把握如下的原则: 事前组别(类)的分类标准(作为判 别分析的因变量)要尽可能准确和可靠,否则 会影响判别函数的准确性,从而影响判别分析 的效果。 所分析的自变量应是因变量的重要影 响因素,应该挑选既有重要特性又有区别能力 的变量,达到以最少变量而有高辨别能力的目 标。 初始分析的数目不能太少。
8.5 判 别 分 析
前面3节讲述了不同种聚类分析的方法, 不论是哪种方法,聚类分析都是直接比较各事 物之间的性质,将性质相近的归为一类,将性 质差别较大的归入不同的类。
本节讲述的判别分析,也是一种比较常用 的分类分析方法。判别分析先根据已知类别的 事物的性质,利用某种技术建立函数式,然后 对未知类别的新事物进行判断以将之归入已知 的类别中。
(2)输出的结果文件中第二部分如下表所 示。
(3)输出的结果文件中第三部分如下表所 示。
(4)输出的结果文件中第四部分如下表 所示。
(5)输出的结果文件中第五个部分为组 间的协方差矩阵,如下表所示。
(6)输出的结果文件中第六个部分如下两 个表格所示。
(7)输出的结果文件中第七个部分如下表 所示。
实现步骤
图8-23 在菜单中选择“Discriminant”命令
图8-24 “Discriminant Analysis”对话框
图8-25 “Discriminant Analysis:Define”对话框
图8-26 “Discriminant Analysis:Stepwise Method”对话框
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
CD 12 102 101
可见,AB>CD
但是,如果我们将长度单位变为 mm,则有:
AB 102 502 2600 ;
CD 12 1002 10001
此时,却有 AB<CD
这说明:量纲的变化,将影响欧氏距离计算的结果。
8
为此,我们引入一种由印度著名统计学家马哈拉诺比斯 (Mahalanobis, 1936)提出的“马氏距离”的概念。
例如,某医院有部分患有肺炎、肝炎、冠心病、糖尿病等病 人的资料,记录了每个患者若干项症状指标数据。现在想利 用现有的这些资料找出一种方法,使得对于一个新的病人, 当测得这些症状指标数据时,能够判定其患有哪种病。
又如,在天气预报中,我们有一段较长时间关于某地区每天 气象的记录资料(晴阴雨、气温、气压、湿度等),现在想 建立一种用连续五天的气象资料来预报第六天是什么天气的 方法。这些问题都可以应用判别分析方法予以解决。
1、马氏距离不受计量单位的影响;
2、马氏距离是标准化后的变量的欧式距离
y
=
-1
Σ2
x-μ
D (y,G )yy=Σ -1 2x-μΣ -1 2x-μ
=x-μΣ-1 2Σ-1 2x-μ
=x-μΣ-1x-μ
11
3、若变量之间是相互无关的,则协方差矩阵为对角矩阵
1
11
Σ
22
11
1
O
pp
Σ
1
本章仅介绍常用的几种判别分析方法:距离判别法、Fisher 判别法、Bayes判别法。
4
第二节 距离判别法
一 马氏距离的概念 二 距离判别的思想及方法 三 判别分析的实质
5
一、马氏距离的概念
设 p 维 欧 氏 空 间 R p 中 的 两 点 X ( X1, X 2 ,L , X p ) 和
设 P 维向量 X 和 Y 是两个来自均值向量为 μ ,协方差为
Σ( 0) 的总体 G 中的 p 维样品,则总体 G 内两点 X 与 Y
之间的马氏距离定义为
D2 (X, Y) (X Y)Σ1(X Y) (4.2)
定义点 X 到总体 G 的马氏距离为
D2 (X,G) (X μ)Σ1(X μ)
3
判别分析内容很丰富,方法众多:
按判别的总体数来区分,有两个总体判别分析和多总体判别 分析;
按区分不同总体所用的数学模型来分,有线性判别和非线性 判别;
按判别时所处理的变量方法不同,有逐步判别和序贯判别等。
判别分析可以从不同角度提出问题,因此有不同的判别准则, 如马氏距离最小准则、Fisher准则、平均损失最小准则、最 小平方准则、最大似然准则、最大概率准则等等,按判别准 则的不同又提出多种判别方法。
第四章 判别分析
第一节 引言 第二节 距离判别法 第三节 贝叶斯(Bayes)判别法 第四节 费歇(Fisher)判别法 第五节 实例分析与计算机实现
1
第一节 引言
在我们的日常生活和工作实践中,常常会遇到判别分析问题, 即根据历史上划分类别的有关资料和某种最优准则,确定一 种判别方法,判定一个新的样本归属哪一类。
体。
一般的想法是计算新样品X到两个总体的马氏距离D2(X, G1)和D2(X,G2),并按照如下的判别规则进行判断
XXGG12,,
如果 如果
D2 (X,G1) D2 (X,G2 ) D2 (X,G1) D2 (X,G2 )
(4.4)
这个判别规则的等价描述为:求新样品X到G1的距离与到G2 的距离之差,如果其值为正,X属于G2;否则X属于G1。
22 O
1 pp
12
1
11
1
d 2 (x,G) (x - μ)
22
(x
-
μ)
O
1
pp
x1 1 112x2 2 222Lxp p pp2
13
二、距离判别的思想及方法
1、两个总体的距离判别问题
问题:设有协方差矩阵∑相等的两个总体G1和G2,其均值
分别是1和 2,对于一个新的样品X,要判断它来自哪个总
2
把这类问题用数学语言来表达,可以叙述如下:设 有n个样本,对每个样本测得p项指标(变量)的数 据,已知每个样本属于k个类别(或总体)G1, G2, …,Gk中的某一类,且它们的分布函数分别为 F1(x),F2(x), …,Fk(x)。我们希望利用这些数据, 找出一种判别函数,使得这一函数具有某种最优性 质,能把属于不同类别的样本点尽可能地区别开来, 并对测得同样p项指标(变量)数据的一个新样本, 能判定这个样本归属于哪一类。
(4.3)
这里应该注意到,当 Σ I (单位矩阵)时,即为欧氏距离
的情形。而且,马氏距离是一个纯量。
9
注意,在 P=1 时,
D2(X,G) (X μ)Σ1(X μ)
(X
μ)
1
2
(X
μ)
(X μ)2
2
可见,马氏距离是一个无单位的数值,它
的大小与各变量所使用的单位无关。
10
所以,马氏距离有如下的特点:
Y (Y1,Y2 ,L ,Yp ) ,通常我们所说的两点之间的距离,是指欧
氏距离,即 d 2(X, Y) (X1 Y1)2 L (X p Yp )2 (4.1)
在解决实际问题时,特别是针对多元数据的分析问题,欧氏距离 就显示出了它的薄弱环节。
第一、设有两个正态总体, X ~ N (1, 2 ) 和Y ~ N (2 ,4 2 ) , 现有一个样品位于如图 4.1 所示的 A 点,距总体 X 的中心 2 远, 距总体 Y 的中心 3 远,那么, A 点处的样品到底离哪一个总体 近呢?若按欧氏距离来量度, A 点离总体 X 要比离总体 Y “近 一些”。但是,从概率的角度看, A 点位于 1 右侧的 2 x 处,而 位于 2 左侧1.5 y 处,应该认为 A 点离总体 Y“近一些”。显然,
14
我们考虑
D2 (X, G1) D2 (X, G2 ) (X μ1)Σ1(X μ1) (X μ2 )Σ1(X μ2 )
后一种量度更合理些。 6
X~N(1,2)
Y~N(2,42)
Y~N(2,42)
2x 2 1.5y 3
图4.1
7
第二、设有量度重量和长度的两个变量 X 与Y ,以单位分别为 kg 和 cm 得到样本 A(0,5) , B(10,0) ,C(1,0) , D(0,10) 。今
按照欧氏距离计算,有
AB 102 52 125 ;
可见,AB>CD
但是,如果我们将长度单位变为 mm,则有:
AB 102 502 2600 ;
CD 12 1002 10001
此时,却有 AB<CD
这说明:量纲的变化,将影响欧氏距离计算的结果。
8
为此,我们引入一种由印度著名统计学家马哈拉诺比斯 (Mahalanobis, 1936)提出的“马氏距离”的概念。
例如,某医院有部分患有肺炎、肝炎、冠心病、糖尿病等病 人的资料,记录了每个患者若干项症状指标数据。现在想利 用现有的这些资料找出一种方法,使得对于一个新的病人, 当测得这些症状指标数据时,能够判定其患有哪种病。
又如,在天气预报中,我们有一段较长时间关于某地区每天 气象的记录资料(晴阴雨、气温、气压、湿度等),现在想 建立一种用连续五天的气象资料来预报第六天是什么天气的 方法。这些问题都可以应用判别分析方法予以解决。
1、马氏距离不受计量单位的影响;
2、马氏距离是标准化后的变量的欧式距离
y
=
-1
Σ2
x-μ
D (y,G )yy=Σ -1 2x-μΣ -1 2x-μ
=x-μΣ-1 2Σ-1 2x-μ
=x-μΣ-1x-μ
11
3、若变量之间是相互无关的,则协方差矩阵为对角矩阵
1
11
Σ
22
11
1
O
pp
Σ
1
本章仅介绍常用的几种判别分析方法:距离判别法、Fisher 判别法、Bayes判别法。
4
第二节 距离判别法
一 马氏距离的概念 二 距离判别的思想及方法 三 判别分析的实质
5
一、马氏距离的概念
设 p 维 欧 氏 空 间 R p 中 的 两 点 X ( X1, X 2 ,L , X p ) 和
设 P 维向量 X 和 Y 是两个来自均值向量为 μ ,协方差为
Σ( 0) 的总体 G 中的 p 维样品,则总体 G 内两点 X 与 Y
之间的马氏距离定义为
D2 (X, Y) (X Y)Σ1(X Y) (4.2)
定义点 X 到总体 G 的马氏距离为
D2 (X,G) (X μ)Σ1(X μ)
3
判别分析内容很丰富,方法众多:
按判别的总体数来区分,有两个总体判别分析和多总体判别 分析;
按区分不同总体所用的数学模型来分,有线性判别和非线性 判别;
按判别时所处理的变量方法不同,有逐步判别和序贯判别等。
判别分析可以从不同角度提出问题,因此有不同的判别准则, 如马氏距离最小准则、Fisher准则、平均损失最小准则、最 小平方准则、最大似然准则、最大概率准则等等,按判别准 则的不同又提出多种判别方法。
第四章 判别分析
第一节 引言 第二节 距离判别法 第三节 贝叶斯(Bayes)判别法 第四节 费歇(Fisher)判别法 第五节 实例分析与计算机实现
1
第一节 引言
在我们的日常生活和工作实践中,常常会遇到判别分析问题, 即根据历史上划分类别的有关资料和某种最优准则,确定一 种判别方法,判定一个新的样本归属哪一类。
体。
一般的想法是计算新样品X到两个总体的马氏距离D2(X, G1)和D2(X,G2),并按照如下的判别规则进行判断
XXGG12,,
如果 如果
D2 (X,G1) D2 (X,G2 ) D2 (X,G1) D2 (X,G2 )
(4.4)
这个判别规则的等价描述为:求新样品X到G1的距离与到G2 的距离之差,如果其值为正,X属于G2;否则X属于G1。
22 O
1 pp
12
1
11
1
d 2 (x,G) (x - μ)
22
(x
-
μ)
O
1
pp
x1 1 112x2 2 222Lxp p pp2
13
二、距离判别的思想及方法
1、两个总体的距离判别问题
问题:设有协方差矩阵∑相等的两个总体G1和G2,其均值
分别是1和 2,对于一个新的样品X,要判断它来自哪个总
2
把这类问题用数学语言来表达,可以叙述如下:设 有n个样本,对每个样本测得p项指标(变量)的数 据,已知每个样本属于k个类别(或总体)G1, G2, …,Gk中的某一类,且它们的分布函数分别为 F1(x),F2(x), …,Fk(x)。我们希望利用这些数据, 找出一种判别函数,使得这一函数具有某种最优性 质,能把属于不同类别的样本点尽可能地区别开来, 并对测得同样p项指标(变量)数据的一个新样本, 能判定这个样本归属于哪一类。
(4.3)
这里应该注意到,当 Σ I (单位矩阵)时,即为欧氏距离
的情形。而且,马氏距离是一个纯量。
9
注意,在 P=1 时,
D2(X,G) (X μ)Σ1(X μ)
(X
μ)
1
2
(X
μ)
(X μ)2
2
可见,马氏距离是一个无单位的数值,它
的大小与各变量所使用的单位无关。
10
所以,马氏距离有如下的特点:
Y (Y1,Y2 ,L ,Yp ) ,通常我们所说的两点之间的距离,是指欧
氏距离,即 d 2(X, Y) (X1 Y1)2 L (X p Yp )2 (4.1)
在解决实际问题时,特别是针对多元数据的分析问题,欧氏距离 就显示出了它的薄弱环节。
第一、设有两个正态总体, X ~ N (1, 2 ) 和Y ~ N (2 ,4 2 ) , 现有一个样品位于如图 4.1 所示的 A 点,距总体 X 的中心 2 远, 距总体 Y 的中心 3 远,那么, A 点处的样品到底离哪一个总体 近呢?若按欧氏距离来量度, A 点离总体 X 要比离总体 Y “近 一些”。但是,从概率的角度看, A 点位于 1 右侧的 2 x 处,而 位于 2 左侧1.5 y 处,应该认为 A 点离总体 Y“近一些”。显然,
14
我们考虑
D2 (X, G1) D2 (X, G2 ) (X μ1)Σ1(X μ1) (X μ2 )Σ1(X μ2 )
后一种量度更合理些。 6
X~N(1,2)
Y~N(2,42)
Y~N(2,42)
2x 2 1.5y 3
图4.1
7
第二、设有量度重量和长度的两个变量 X 与Y ,以单位分别为 kg 和 cm 得到样本 A(0,5) , B(10,0) ,C(1,0) , D(0,10) 。今
按照欧氏距离计算,有
AB 102 52 125 ;