判别分析和聚类分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第9章 判别分析和聚类分析
§9.1 判别分析问题的一般形式
在生产、科研和日常生活中,我们经常会遇到判别分类的问题。在这些问题中,已经知道研究对象可以分为几个类别,而且对这些类别已经作了一些观测,取得了一批样本数据。要求从已知的样本观测数据出发,建立一种判别方法,当我们取得一个新的样品时,可以根据这个样品的观测值,判定它属于哪一类,这种做法就称为判别分析(Discriminant Analysis )。
例1 岩石分类
从某矿床取得14块已知是铀矿石的样品和14块已知是围岩的样品,分别测定其中7种成分的含量,取得了一批观测数据:
要求建立一种判别方法,当我们从这个矿床取得一个新的岩石样品时,可以通过测定这个样品中7种成分的含量,判定它是铀矿石还是围岩。
例2 精神病的诊断(Rao 和Slater ,1949)
对114个处于焦虑状态的病人,33个患癔病的病人,32个有精神变态的病人,17个有强迫观念的病人,5个有变态人格的病人,以及55个正常人,分别进行3种精神病测试,得到测试分数1X ,2X 和3X 。
要求根据上述已知的测试数据,建立一种诊断方法,使得我们可以对一个新来的求诊者进行这3种精神病测试,根据测试得到的分数1X ,2X 和3X ,判断出求诊者是否正常,如果不正常,诊断出他患有哪一类精神病。
例3 (全国数学建模竞赛2000年A 题)DNA 序列分类
对于A,B 两种不同的DNA ,给出了20个类别已知的DNA 序列样品,其中1号~10号序列属于A 类,11号~20号序列属于B 类。另外还有20个类别未知的DNA 序列样品。
要求建立一种判别方法,判别出类别未知的DNA 序列样品属于哪一类。
由此可以归纳出判别分析问题的一般形式:
设有p 个已知的类别:p G G G ,,,21 ,对各个类别分别取样,共得到n 个样品,已知其中有1n 个属于1G ,2n 个属于2G ,…,p n 个属于p G 。对每一个样品进行观测检验,得到m 个变量m X X X ,,,21 的观测值ij x ,n i ,,2,1 =,m j ,,2,1 =:
要求建立一种判别方法,当我们取得一个新的样品时,可以对这个样品进行观测检验,测得m 个变量m X X X ,,,21 的观测值,根据观测值判定它属于哪一类。
§9.2 一些常用的判别分析方法
9.2.1 距离判别
设有一个要判别类型的样品,m x x x ,,,21 是对这个样品的m 个变量m X X X ,,,21 测
得的观测值,⎥⎥⎥⎦
⎤⎢⎢⎢⎣⎡=m x x x 1。 定义一种从样品x 到第k 类k G 的距离),(k G x d ,p k ,,2,1 =。
例如,可以定义它是普通的几何距离(欧氏距离)
),(k G x d )()(k T k x x x x --= ,
其中⎥⎥⎥⎦
⎤⎢⎢⎢⎣⎡=mk k k x x x 1是已知属于k G 的样品的样本均值向量,p k ,,2,1 =。 也可以定义它是Mahalanobis 距离(马氏距离)
),(k G x d )()(1k k T k x x S x x --=- ,
其中k S 是已知属于k G 的样品的样本协方差矩阵,p k ,,2,1 =。
对各类p G G G ,,,21 ,比较x 到各类距离),(,),,(),,(21p G x d G x d G x d 的大小,x 到哪一类的距离最近,就将这个样品判别为哪一类。
9.2.2 Fisher (费歇, 费希尔)判别
设⎥⎥⎥⎦⎤
⎢⎢⎢⎣⎡=nm n m x x x x X 1
111是观测值数据矩阵,T n n I H 111-=,T k n k n I H k 111-=,
p k ,,2,1 =。⎥⎥⎥
⎦
⎤
⎢⎢⎢⎣⎡=p H H C 1是对角块为p H H H ,,,21 的矩阵。 ⎥⎥⎥⎦⎤
⎢⎢⎢⎣⎡=m a a a 1是矩阵X C H X HX X T
T )()(1--的最大特征值1λ对应的特征向量。
设要判别类型的样品观测值为⎥⎥⎥⎦
⎤
⎢⎢⎢⎣⎡=m x x x 1,计算下列判别函数值 m m T x a x a x a x a y +++== 2211 。
对k G 类的样本均值⎥⎥⎥⎦
⎤
⎢⎢⎢⎣⎡=mk k k x x x 1,也计算判别函数值 m k m k k k T k x a x a x a x a y +++== 2211 ,p k ,,2,1 =。
比较距离p y y y y y y ---,,,21 的大小,到哪一类的距离最近,就将这个样品判别为哪一类。
Fisher 判别的基本思想是:在空间作一条方向为a 的直线,把待判样品x 和各类的样本均值p x x x ,,,11 都投影到这条直线上,得到投影y 和p y y y ,,,11 。看投影之间的距离,
y 到哪一个k y 的距离最近,就将样品判别为哪一类。
可以证明,按上述方法求出的投影方向a ,从某种意义上说,是能够最好地将各类别区分开来的方向。
9.2.3 回归判别
把类别已知的样本观测值作为自变量m X X X ,,,21 的观测值。对每一类k G ,人为地
给定一个因变量k Y ,设它的观测值为
⎩⎨
⎧=k k
ik G i G i y 个样品不属于
第个样品属于第01 ,n i ,,2,1 =,,p k ,,2,1 =。 从这些数据出发,通过回归分析,对每一类k G 建立一个线性回归方程:
m
m k k k k k X X X Y ββββˆˆˆˆˆ22110++++= , p k ,,2,1 =。 将待判别的样品的观测值m x x x ,,,21 代入各个回归方程,求出因变量的估计值
p y y y
ˆ,,ˆ,ˆ21 ,看哪一个k y ˆ最接近1,就把这个样品判别为哪一类。 特别,如果2=p ,只有两类,则只需要对第1类建立一个线性回归方程
m
m X X X Y 1221111011ˆˆˆˆˆββββ++++= 。 将m x x x ,,,21 代入回归方程,求出1ˆy ,如果1ˆy 2
1
>,就把这个样品判别为第1类,如果1ˆy
2
1
<,就把这个样品判别为第2类。
除了上面介绍的几种判别分析方法以外,最常用的、相对来说更好的一种判别方法是Bayes 判别。