判别分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
判别分析
第一节 判别分析概述
1、判别分析的基本思想
判别分析应用十分广泛。
例如,在工业生产中,要根据某种产品的一些非破坏测试性测试指标判别产品的质量等级;在经济分析中,根据人均国民收入、人均农业产值、人均消费水平等指标判断一个国家的经济发展程度;在考古研究中,根据挖掘的古人头盖骨的容量、周长等判断此人的性别;在地质勘探中,根据某地的地质结构、化探和物探等各项指标来判断该地的矿化类型;在医学诊断中,医生要根据某病人的化验结果和病情征兆判断别人患哪一种疾病等等。
可见,判别分析是一种十分使用的统计分析方法。
那么判别分析的基本思想是什么呢?用统计的语言来描述就是已知有g 个总体
123,,,
,g G G G G ,每个总体i G 可认为是属于i G 的指标12(,,
,)T i p X X X X =取值的全体,它们的
分布函数12(),(),,()g F x F x F x 均为p 维的函数(贝叶斯方法用到分布),对于任一给定的新样品
关于指标X 的观测值12(,,
,)T p x x x x =,我们要判断该样品应属于这g 个总体中的哪一个。
在实际应用中,通常由取自各总体的关于指标X 的样本为该总体的代表,该样本称为训练样本,判别分析即用训练样本中各总体的信息以构造一定的准则来决定新样本的归属问题。
训练样本往往是历史上对某现象长期观察或者使用昂贵的试验手段的得到的,因此对当前的新样品,我们自然希望将指标中的信息同各总体训练样本中的信息进行比较,以便在一定程度上判定新样品的所属类型。
2、多元正态分布的参数估计
在工程实际中,大部分数据都属于正态分布或近似正态分布,即使不是正态分布,也可以根据中心极限定理转换成正态分布,所以正态分布的参数求解是必须的。
多元正态分布不再象一元正态分布表达方式那么简单,它的主要参数是均值向量和协方差矩阵(教材《概率与数理统计》有介绍),即为(,)N μ∑,12(,,
,),[cov(,)]p i j p p X X μμμμ⨯=∑=,往往参数都是未知的,而这两
个参数又是计算不可缺少的,为了解决这个问题,有必要引入下面相关内容:
设随机向量X 服从p 维正态分布(,)p N μ∑,12(,,,)n X X X 为来自X 的样本(n>p ),n 为样
本个数,在此每i X 个都为p 维列随机向量,令
1
1n
i i X X n ==∑
1
()()n
T k k i S X X X X ==--∑
X 称为样本均值向量,S 为样本离差矩阵。
若令i x 为样品i X 的观察值,则S 的观察值为
1()()n
T k k k s x x x x ==--∑。
定理:若12(,,,)n X X X 为来自总体X 的样本,(,)p X N μ∑,则
(1)X 和
S n
分别是,μ∑的最大似然估计量,即ˆˆ,S X n μ
=∑=。
而μ和∑的最大似然估计值分别为1
1n i i x x n ==∑与11
()()n
T k k k s x x x x n n ==--∑
(2)X 和
1S n -分别是,μ∑的最小方差无偏估计,而x 和1
s n -分别是,μ∑的最小方差无偏估计值。
注:若X 不为正态总体,则结论可能变得弱些,但是近似计算也是可以应用的。
例:假定青黄麻植株的重量1X 与干黄麻植株的重量2X 服从二元正态分布,即12(,)
(,)X X N μ∑
今测试了10株黄麻,数据如表,试估计均值向量μ和协方差阵∑的最小方差无偏估计值。
解: 1268541ˆ54311110x X x μ
++⎛⎫
⎛⎫=== ⎪ ⎪++⎝⎭⎝⎭
10
10
101111111111122222222()()T
T
k k k k T
k k k k k k k k k x x x x x x x x S X X X X x x x x x x x x ===⎛⎫⎛⎫--⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫=--=--= ⎪⎪ ⎪ ⎪ ⎪⎪ ⎪ ⎪--⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭
⎝⎭⎝⎭∑∑∑
=1010
2
111
12211
1010
2
2211221
1()()()()()()k k k k k k k k k k x x x
x x x x x x x x x ====⎛⎫
--- ⎪
⎪
⎪--- ⎪⎝⎭
∑∑∑∑
第二节 距离判别
判别分析的基本思路就是想办法建立一定的判别准则,按照准则判断样品的归属。
而建立准
则的方法有很多中,比如fisher 准则,贝叶斯准则,距离判别准则等,这里距离判别比较简单实用,所以以下主要以此准则展开方法介绍。
1、距离的简介
我们比较熟悉的就是欧式距离,即在几何空间中以几何长度定义的距离:
22221122p p (,)()()()()()T d x y x y x y x y x y x y =-+-++-=--
欧式距离在判别过程中主要有两个弊端:一是没有考虑总体分布的分散程度,如果总体分布比较分散,在判断时就会出现归属不清的现象;二是欧式距离大小与度量单位有关,这就给判别带来很大麻烦,如果两个总体单位不同,稍不注意就会造成判断错误。
为了克服这样的缺点,下面介绍判别分析中主要的距离度量方法——马氏距离。
定义:
设x,y 是来自总体均值向量为μ,协方差矩阵为∑的总体两个样品,则x,y 两点之间的马氏距离定义为:21(,)()()T d x y x y x y -=-∑-;
定义x 与总体G 的马氏距离为:21(,)()()T d x G x x μμ-=-∑-。
(1-∑为逆矩阵) 这样要得到马氏距离,只需要将以上公式开方即可。
注:可以证明马氏距离与欧式距离有类似性质:非负性、自反性(d(x,y)=d(y,x))和三角不等式,这样就便于理解了。
2、两总体的距离判别
判别准则:112221,(,)(,),(,)(,)x G d x G d x G x G d x G d x G ∈<⎧⎨∈<⎩
下面分别就两总体的协方差矩阵相等和不相等两种情况进一步讨论该判别准则。
(1)设12∑=∑=∑
可以证明:2212112(,)(,)2()2()()T d x G d x G W x x μμμ--==-∑-,其中121
()2
μμμ=+
则以上的判别准则可以改为:
12,()0
,()0
x G W x x G W x ∈>⎧⎨
∈<⎩ 进一步,令112()T T αμμ-=-∑,则()W x 可表为()()T W x x αμ=-,分析不难发现W(x)是x 的线性函数,即我们常用的是线性判别,同时也有非线性判别。
但实际问题中,通常12,,μμ∑是未知的,我们所具有的资料只是来自两个p 维总体的样本观测值,称为训练样本。
设1
(1)(1)1,
,n x x 为来自1G 的容量为1n 的训练样本((1)i x 都为p 维向量);2
(2)(2)
1,
,n x x 为总体2G 的训练样本,容量为2n ,这时,可以通过训练样本估计的12,,μμ∑值(实际上对于实际问题总体的信息很少能够获得,都是近似计算的)。
11
12
(1)(1)(2)
(2)
1211
12
(1)(1)(1)(1)11(2)(2)(2)(2)21
12121211
ˆˆ,()()()()1
ˆ()
21ˆˆˆ()2
n n i i
i i n T i i i n T
i i i x x x
x n n S x x x x S x x x x S S n n μ
μμ
μμ=========--=--∑
=++-=+∑∑∑∑
这时,判别函数的估计为:112ˆˆˆˆ()()()T W
x x μμμ-=-∑- 则两个总体的距离判别准则为:12ˆ,()0ˆ,()0
x G W x x G W x ⎧∈>⎪⎨∈<⎪⎩
(2)设12∑≠∑
两总体协方差不相等时,判别函数()W x 就不再是线性的了,不过这并不影响计算,如下:
221121222111()(,)(,)()()()()T T W x d x G d x G x x x x μμμμ--=-=-∑---∑-
再利用准则判别:12,()0
,()0
x G W x x G W x ∈>⎧⎨∈<⎩
()W x 为x 的二次函数。
实际计算使用估计值1122211
1ˆˆˆˆˆˆˆ()()()()()T T W x x x x x μμμμ--=-∑---∑- 例:某种职业的适应性资料是进行了两个指标的测验得到的,设“适应该职业”为总体1G ,“不适应该职业”为总体2G ,且两总体分别服从1(,)N μ∑和2(,)N μ∑,其中12,μμ均未知。
但根据过
去资料估计出12241
1ˆˆˆ,,621
4μμ⎛⎫⎛⎫⎛⎫
==∑= ⎪ ⎪
⎪⎝⎭⎝⎭⎝⎭。
今对某一新人,想知道他是否适合这个职业,先对
他进行测验,得成绩35x ⎛⎫
= ⎪⎝⎭
,试计算x 到各总体的马氏距离,并回答此人是否适合这个职业?
解:属于12∑=∑=∑,应用判别函数112ˆˆˆˆ()()()T W
x x μμμ-=-∑- 待入数据得12ˆ()424W x x x =-++,当35x ⎛⎫= ⎪⎝⎭
时,计算12
ˆ()4241210420W x x x =-++=-++=> 根据准则12ˆ,()0ˆ,()0
x G W
x x G W x ⎧∈>⎪⎨∈<⎪⎩,可知此人人适合这个职业。
3、判别准则的评价
统计分析方法得出的结论都不可能是完全正确的,那么也就意味着不同的判别方法应该有着自身的优良性的评价,距离判别法也不例外。
这里,我们介绍一种方法来给出判别准则好坏的评价量----回判率。
设1
(1)(1)1,
,n x x 为来自1G 的容量为1n 的训练样本;2
(2)
(2)
1,,n x x 为总体2G 的训练样本,容量为2n ,以全体训练样本作为新样本,共1n +2n 个,逐个代入建立的判别准则中判别其归属,这个过程称为回判,显然训练样本的归属是确定的,如果经过回判发现有错误的归属,统计总数记为pan N ,
则回判率为12
ˆpan N n n α
=+,回判率越小,说明判别方法越可靠。
第三节 多总体的距离判别
多总体的距离判别其实就是在两总体的基础上,进行多次计算,找出最近距离的总体,记为归属,这里不再详细介绍,过程见matlab 实现。
应用matlab 可以方便的实现距离判别,下面是函数说明:
(1)musig:
根据样本输入值X ,估计均值mu 和最小方差无偏估计sigma=S/n-1的函数 调用格式:
[mu,sigma,S]=musig(X)
1112
12122212
()p p ij n p n n np x x x x x x X x x x x ⨯⎛⎫ ⎪ ⎪== ⎪ ⎪ ⎪⎝⎭ 输入参数是一个矩阵,第一列是第一个坐标;第二列是第二个坐标;…… 第一个输出参数是样本均值
第二个输出参数是样本协方差矩阵
第三个输出参数是S值
例如:chengxu12
(2)sigxd
计算当方差矩阵相等时,总体协方差矩阵和逆矩阵
调用格式:
[sig,sig_1]=sigxd(G1,G2,G3,...)
输入参数可以有多个
输出参数可选
如果没有输出参数,则显示协方差矩阵的估计
如果有第一个输出参数sig,则返回协方差矩阵的估计
如果有第二输出参数sig_1,则返回协方差矩阵的逆矩阵
==================================
(5)maju
计算多个总体中,任两个总体的马氏距离矩阵
D=maju(G1,G2,G3,...)
如果输入参数是多个总体,则输出的是一个矩阵
D(k1,k2)表示第k1个总体与第k2个总体的距离
如果输入参数是两个,则输出两个总体的马氏距离
======================
(6)mju
计算点到总体的马氏距离平方
调用格式:
D=mju(X,G)
第一个输入参数X是一个矩阵,每行是一个观察值
第二个输入参数是一个总体矩阵
输出参数D是一个列向量,每个元素是X的第k组到G的距离
================================
*(7)jlxd(协方差相等时的判别函数)
判别当各样本协方差矩阵相等时待判样本所属的总体
调用格式:
[jg,W]=jlxd(X,G1,G2,...)
输出参数可选
如果没有输出参数,则显示所给X属于哪个总体
如果有第一个输出参数,则返回所给X属于哪个总体
如果有第二输出参数,则是距离矩阵W
W(a,b)=d(a)-d(b),如果W(a,b)>0表示到a的距离大,到b的距离小,应属于b ==============================
*(10)jlbd(协方差不等式时的判别函数)(也可以计算回判率)
判别各样本协方差矩阵不等时,所给待判样本所属的总体
调用格式:
[jg,w]=jlbd(X,G1,G2,...)
第一个输入参数是需要求距离的观察值,为一个矩阵,每一行是一组观察值
输入参数第二、三、……为矩阵,为各组总体的观察值 如果没有输出参数,则显示所给X 属于哪个总体 如果有第一个输出参数,则返回所给X 属于哪个总体 如果有第二输出参数,则是距离矩阵W
W 的第一列表示X 到G1的距离;W 的第二列表示X 到G2的距离;…… ======================
练习题
1、设12,G G 为两个二维总体,从中分别抽取容量为3的训练样本如下:
求:(1)求两总体的样本均值向量x ,x 和样本协方差矩阵12,S S ; (2)假定两总体协方差相等,用12,S S 联合估计∑; (3)建立距离判别法的准则;
(4)设有一样品012(,)(2,7)T T x x x ==利用(3)中判别准则判断它属于那一个总体。
Chengxu15
2、为研究心肌梗的危险因素,考察两组人群,第一组G1是心肌梗塞组,第二组G2是正常组,考察两个血液指标:X1:总胆固醇;X2:高密度脂蛋白胆固醇。
两组人群各取23名,测得指标和的取值如表所示,现有5个新样本,判别他们分别属于哪一组?
3、
1x :震级 2x :震中距离(km );3x :水深(m )4x :土深(m ) 5x :贯入值; 6x :最大地面加速度(g );7x :地震持续时间(s );
今从已液化和未液化的地层中分别抽取12个和23个样品,其数据见上表,其中1组是已经液化的,2组是没有液化的,试根据此表数据建立判别砂基是否液化的准则,以备对样品判别,并对准则的优良性做出评价。