第4章判别分析及MATLAB实现(2013)讲解

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

例 (1989年国际数学竞赛A题)蠓的分类 蠓是一种昆虫,分为很多类型,其中有一种名为
Af,是能传播花粉的益虫;另一种名为Apf,是会传播 疾病的害虫,这两种类型的蠓在形态上十分相似, 很难区别. 现测得6只Apf和9只Af蠓虫的触角长度和 翅膀长度数据
Apf:(1.14,1.78), (1.18,1.96), (1.20,1.86), (1.26,2.00), (1.28,2.00), (1.30,1.96) ;
第4章 判别分析
判别分析的基本思想是根据已知类别的样本所提 供的信息,总结出分类的规律性,建立判别公式和 判别准则,判别新的样本点所属类型。本章介绍距 离判别分析、Bayes判别分析及其MATLAB软件的 实现。
4.1 距离判别分析
4.1.1 判别分析的概念
在一些自然科学和社会科学的研究中,研究对象 用某种方法已划分为若干类型,当得到的一个新样 品数据(通常是多元的),要确定该样品属于已知 类型中的哪一类,这样的问题属于判别分析.
原则: 1.从统计学的角度,要求判别准则在某种准则
下是最优的,例如错判的概率最小等。
2.根据不同的判别准则,有不同的判别方法,
这里主要介绍距离判别和Bayes判别
4.1.2 距离的定义
1. 闵可夫斯基距离 设有n维向量 x (x1, x2 ,, xn )T , y ( y1, y2 ,, yn )T , 称
n
d1 (x, y) | xi yi | i 1
绝对距离
欧氏距离
n

d2 (x, y) (xi yi )2
i 1

n
dr (x, y) ( | xi yi |r )1/ r
i 1
为n维向量x,y之间的闵可夫斯基距离,其中 r (r 0)
为常数。
显然,当r=2和1时闵可夫斯基距离分别为欧氏距 离和绝对距离.
第4 章 判别分析(discriminant analysis)
§4.1 距离判别 及MATLAB实现 §4.2 Bayes判别 §4.3 判别分析 总结
计算与应用数学系, 中国石油大学(华东)理学院
丁永臻 2013
统计方法(判别分析):
➢ 判别分析—在已知研究对象分成若干类型,并已取 得各种类型的一批已知样品的观测数据,在此基础 上根据某些准则建立判别式,然后对未知类型的样 品进行判别分类。
从统计数据分析的角度,可概括为如下模型:
设有k个总体 G1,G2, ,Gk ,它们都是 p元总体, 其数量指标是 X (X1, X2, , X p )T
1) 若总体Gi 的分布函数是已知,对于任一新
样品数据 x (x1, x2, , xp )T ,判断它来自哪一个
总体 。
2) 通常各个总体 Gi的分布是未知的,由从各 个总体取得的样本(训练样本)来估计。一般, 先估计各个总体的均值向量与协方差矩阵。
2. 马氏距离
马氏距离是由印度统计学家马哈拉诺比斯(PC Mahalanobis)提出的,由于马氏距离具有统计意义, 在距离判别分析时经常应用马氏距离:
(1) 同一总体的两个向量之间的马氏距离
设有n维向量 x ( x1, x2, , xn )T , y ( y1, y2, , yn )T ,则称
➢ 距离判别法—首先根据已知分类的数据,分别计算 各类的重心,计算新个体到每类的距离,确定最短 的距离(欧氏距离、马氏距离)
➢ Fisher判别法—利用已知类别个体的指标构造判别 式(同类差别较小、不同类差别较大),按照判别 式的值判断新个体的类别
➢ Bayes判别法—计算新给样品属于各总体的条件概 率,比较概率的大小,然后将新样品判归为来自概 率最大的总体
这时
AB 52 102 125
CD 102 12 101
显然 AB>CD
如果现在长度用mm为单位,重量的单位保持不变, 于是A点的坐标为(0,50),B点的坐标为(0,100),此时 计算线段的长度为
AB 502 102 2600 CD 1002 12 10001
此时,AB<CD
这表明欧氏距离有一个缺陷,当向量的分量是不 同的量纲时欧氏距离的大小竟然与指标的单位有关. 而马氏距离则与量纲无关.
为 1 , 2,协方差矩Байду номын сангаас相等,皆为Σ,则两个总体之
间的马氏距离为
d (G1, G2 ) (1 2 )T 1(1 2 ) (4.1.3)
通常,在判别分析时不采用欧氏距离的原因在 于,该距离与量纲有关.例如平面上有A,B,C,D四个 点,横坐标为代表重量(单位:kg),纵坐标代表 长度(单位:cm),如下页图。
为n维向量x与总体G的马氏距离.
(4.1.2)
MATLAB中有一个命令:d=mahal(Y,X),计算X 矩阵每一个点(行)至Y矩阵中每一个点(行)的 马氏距离。其中Y的列数必须等于X的列数,但它们 的行数可以不同。X的行数必须大于列数。输出d是 距离向量。
(3) 两个总体之间的马氏距离
设有两个总体G1,G2,两个总体的均值向量分别
d(x, y) (x y)T 1(x y)
为n维向量x,y之间的马氏距离.
(4.1.1)
其中 为总体协方差矩阵,通常取为实对称正定 矩阵. 显然,当为单位矩阵时马氏距离就是欧氏距离.
(2) 一个向量到一个总体的马氏距离 总体G 的均值向量为μ,协方差矩阵为Σ .则称
d(x, G) (x )T 1(x )
4.1.3 两总体的距离判别分析
先考虑两个总体的情况。设 G1 ,G2 为两个不同
的p元已知总体,Gi 的均值向量是 i,i 1, 2 ,Gi 的 协方差矩阵是 i ,i 1, 2 .设 x (x1, x2 , , xm )T
是一个待判样品,距离判别准则为
x .
G1
,
x
G2
,
若d (x,G1) d (x,G2 ), 若d (x,G1) d (x,G2 )
Af:(1.24,1.72), (1.36,1.74), (1.38,1.64), (1.38,1.82), (1.38,1.90),
(1.40,1.70), (1.48,1.82),(1.54,1.82), (1.56,2.08).
试判别以下的三个蠓虫属于哪一类? (1.24,1.8),(1.28,1.84),(1.4,2.04)
相关文档
最新文档