判别分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
判别分析
第一节 判别分析概述
1、判别分析的基本思想
判别分析应用十分广泛。例如,在工业生产中,要根据某种产品的一些非破坏测试性测试指标判别产品的质量等级;在经济分析中,根据人均国民收入、人均农业产值、人均消费水平等指标判断一个国家的经济发展程度;在考古研究中,根据挖掘的古人头盖骨的容量、周长等判断此人的性别;在地质勘探中,根据某地的地质结构、化探和物探等各项指标来判断该地的矿化类型;在医学诊断中,医生要根据某病人的化验结果和病情征兆判断别人患哪一种疾病等等。可见,判别分析是一种十分使用的统计分析方法。
那么判别分析的基本思想是什么呢?用统计的语言来描述就是已知有g 个总体
123,,,
,g G G G G ,每个总体i G 可认为是属于i G 的指标12(,,
,)T i p X X X X =取值的全体,它们的
分布函数12(),(),,()g F x F x F x 均为p 维的函数(贝叶斯方法用到分布),对于任一给定的新样品
关于指标X 的观测值12(,,
,)T p x x x x =,我们要判断该样品应属于这g 个总体中的哪一个。
在实际应用中,通常由取自各总体的关于指标X 的样本为该总体的代表,该样本称为训练样本,判别分析即用训练样本中各总体的信息以构造一定的准则来决定新样本的归属问题。训练样本往往是历史上对某现象长期观察或者使用昂贵的试验手段的得到的,因此对当前的新样品,我们自然希望将指标中的信息同各总体训练样本中的信息进行比较,以便在一定程度上判定新样品的所属类型。 2、多元正态分布的参数估计
在工程实际中,大部分数据都属于正态分布或近似正态分布,即使不是正态分布,也可以根据中心极限定理转换成正态分布,所以正态分布的参数求解是必须的。多元正态分布不再象一元正态分布表达方式那么简单,它的主要参数是均值向量和协方差矩阵(教材《概率与数理统计》有介绍),即为(,)N μ∑,12(,,
,),[cov(,)]p i j p p X X μμμμ⨯=∑=,往往参数都是未知的,而这两
个参数又是计算不可缺少的,为了解决这个问题,有必要引入下面相关内容:
设随机向量X 服从p 维正态分布(,)p N μ∑,12(,,,)n X X X 为来自X 的样本(n>p ),n 为样
本个数,在此每i X 个都为p 维列随机向量,令
1
1n
i i X X n ==∑
1
()()n
T k k i S X X X X ==--∑
X 称为样本均值向量,S 为样本离差矩阵。若令i x 为样品i X 的观察值,则S 的观察值为
1()()n
T k k k s x x x x ==--∑。
定理:若12(,,,)n X X X 为来自总体X 的样本,(,)p X N μ∑,则
(1)X 和
S n
分别是,μ∑的最大似然估计量,即ˆˆ,S X n μ
=∑=。而μ和∑的最大似然估计值分别为1
1n i i x x n ==∑与11
()()n
T k k k s x x x x n n ==--∑
(2)X 和
1S n -分别是,μ∑的最小方差无偏估计,而x 和1
s n -分别是,μ∑的最小方差无偏估计值。 注:若X 不为正态总体,则结论可能变得弱些,但是近似计算也是可以应用的。 例:假定青黄麻植株的重量1X 与干黄麻植株的重量2X 服从二元正态分布,即12(,)
(,)X X N μ∑
今测试了10株黄麻,数据如表,试估计均值向量μ和协方差阵∑的最小方差无偏估计值。
解: 1268541ˆ54311110x X x μ
++⎛⎫
⎛⎫=== ⎪ ⎪++⎝⎭⎝⎭
10
10
101111111111122222222()()T
T
k k k k T
k k k k k k k k k x x x x x x x x S X X X X x x x x x x x x ===⎛⎫⎛⎫--⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫⎛⎫=--=--= ⎪⎪ ⎪ ⎪ ⎪⎪ ⎪ ⎪--⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭⎝⎭
⎝⎭⎝⎭∑∑∑
=1010
2
111
12211
1010
2
2211221
1()()()()()()k k k k k k k k k k x x x
x x x x x x x x x ====⎛⎫
--- ⎪
⎪
⎪--- ⎪⎝⎭
∑∑∑∑
第二节 距离判别
判别分析的基本思路就是想办法建立一定的判别准则,按照准则判断样品的归属。而建立准
则的方法有很多中,比如fisher 准则,贝叶斯准则,距离判别准则等,这里距离判别比较简单实用,所以以下主要以此准则展开方法介绍。 1、距离的简介
我们比较熟悉的就是欧式距离,即在几何空间中以几何长度定义的距离:
22221122p p (,)()()()()()T d x y x y x y x y x y x y =-+-++-=--
欧式距离在判别过程中主要有两个弊端:一是没有考虑总体分布的分散程度,如果总体分布比较分散,在判断时就会出现归属不清的现象;二是欧式距离大小与度量单位有关,这就给判别带来很大麻烦,如果两个总体单位不同,稍不注意就会造成判断错误。
为了克服这样的缺点,下面介绍判别分析中主要的距离度量方法——马氏距离。 定义:
设x,y 是来自总体均值向量为μ,协方差矩阵为∑的总体两个样品,则x,y 两点之间的马氏距离定义为:21(,)()()T d x y x y x y -=-∑-;
定义x 与总体G 的马氏距离为:21(,)()()T d x G x x μμ-=-∑-。(1-∑为逆矩阵) 这样要得到马氏距离,只需要将以上公式开方即可。
注:可以证明马氏距离与欧式距离有类似性质:非负性、自反性(d(x,y)=d(y,x))和三角不等式,这样就便于理解了。 2、两总体的距离判别
判别准则:112221,(,)(,),(,)(,)x G d x G d x G x G d x G d x G ∈<⎧⎨∈<⎩
下面分别就两总体的协方差矩阵相等和不相等两种情况进一步讨论该判别准则。 (1)设12∑=∑=∑
可以证明:2212112(,)(,)2()2()()T d x G d x G W x x μμμ--==-∑-,其中121
()2
μμμ=+
则以上的判别准则可以改为:
12,()0
,()0
x G W x x G W x ∈>⎧⎨
∈<⎩ 进一步,令112()T T αμμ-=-∑,则()W x 可表为()()T W x x αμ=-,分析不难发现W(x)是x 的线性函数,即我们常用的是线性判别,同时也有非线性判别。