06 第六章 判别分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
判别分析方法处理问题时,通常要给出用来衡 量新样品与各已知组别的接近程度的指标,即判别 函数,同时也指定一种判别准则,借以判定新样品 的归属。所谓判别准则是用于衡量新样品与各已知 组别接近程度的理论依据和方法准则。常用的有, 距离准则、Fisher准则、贝叶斯准则等。判别准则 可以是统计性的,如决定新样品所属类别时用到数 理统计的显著性检验,也可以是确定性的,如决定 样品归属时,只考虑判别函数值的大小。判别函数 是指基于一定的判别准则计算出的用于衡量新样品 与各已知组别接近程度的函数式或描述指标。
w(ijl 1)
w(ijl)w(rrl), w(ijl) w(irl)
i r,j r w(rjl)w(rrl),i r,j r
1w(rrl),
i
r,j
r
w(irl)w(rrl),
i r,j r
h
h
ph xmax Eh xmin
根据上述思想,在假定协方差矩阵相等的条件 下,即可以导出判别函数。
2.多元正态总体的Bayes判别法
在实际问题中遇到的许多总体往往服从正态分 布,下面给出p元正态总体的Bayes判别法,以及判 别函数的导出。
(1)待判样品的先验概率和密度函数 使用Bayes准则进行分析,首先需要知道待判总 体的先验概率 和密度函数 (如果是离散情形 则是概率函数)。
2.两组判别分析
(1)方法原理
(2)判别系数的导出
(3)判别准则
(4)两组判别分析的检验
由于判别分析是假设两组样品是取自不同总体, 如果两个总体的均值向量在统计上差异不显著,则 进行判别分析意义不大。所以,两组判别分析的检 验,实际就是要检验两个正态总体的均值向量是否 相等,为此,检验的统计量为:
由于判别分析是假设两组样品是取自不同总体, 如果两个总体的均值向量在统计上差异不显著,则 进行判别分析意义不大。所以,两组判别分析的检 验,实际就是要经验两个正态总体的均值向量是否 相等,为此,检验的统计量为:
F
n1 n2 n1
2 p 1 n2 2p T
2
~
F p, n1
n2
p
1
3.多个总体的距离判别法
类似两个总体的讨论推广到多个总体。
(二)费舍判别法 费舍判别法是1936年提出来的,该方法对总体
分布未提出什么特定的要求。 1.基本思想 费舍判别法是基于统计上的费舍准则,即判别
的结果应该使两组间区别最大,使每组内部离散性 最小。在费舍准则意义下,确定线性判别函数:
y c1 x1wenku.baidu.com c2 x2 c p x p
其中 c1, c2 c p 为待求的判别函数的系数。判 别函数的系数的确定原则是使两组间区别最大,使 每组内部离散性最小。有了判别函数后,对于一个 新的样品,将p个指标的具体数值代入判别式中求 出值,然后与判别临界值进行比较,并判别其应属 于哪一组。
(2)假设各组协方差阵相等,导出判别函数
(3)计算后验概率
说明:
贝叶斯方法一般多用于多组判别分析,贝叶斯 判别方法的数学模型所要求的条件严格,它要求各 组变量必须服从多元正态分布,各组的协方差矩阵 相等,各组的均值向量有显著差异。而费舍判别法 主要要求各组均值向量有显著差异即可。
第二节 逐步判别分析
一、逐步判别分析的基本思想 二、逐步判别的基础理论
――对判别变量附加信息的检验 三、引入和剔除变量的依据和检验统计量 四、求解判别函数中的矩阵变换 五、建立判别式,对样品判别分类 六、逐步判别分析在Excel上的实现
一、逐步判别分析的基本思想
在判别问题中,当判别变量个数较多时,如果 不加选择地一概采用来建立判别函数,不仅计算量 大,还由于变量之间的相关性,可能使求解逆矩阵 的计算精度下降,建立的判别函数不稳定。因此适 当地筛选变量的问题就成为一个很重要的事情。
( tijl)( trrl),
i r,j r
( tijl 1)
( tijl)
( tirl)•
( trjl)( trrl),i
r,j
r
1( t( tirrl) rl)( t, rrl),
i r,j r
i
r,j
(二)判别分析的种类 按照判别组数划分有两组判别分析和多组判别 分析; 按照区分不同总体的所用数学模型来分有线性 判别分析和非线性判别分析; 按照处理变量的方法不同有逐步判别、序贯判 别等; 按照判别准则来分有距离准则、费舍准则与贝 叶斯判别准则。
判别分析方法
(一)距离判别法 1.基本思想: 首先根据已知分类的数据,分别计算各类的重
(3)判别准则
有了判别函数之后,如何对待判的样品进行分类? Fisher判别法本身并未给出最合适的分类法,在实际工作 中可以选用下列分类法之一进行分类。
(三)贝叶斯判别法 1.基本思想
显然考虑损失函数更为合理,但是由于实际应 用中,由于L(h/g)不容易确定,经常在数学模型中 假定各种错判的损失皆相等,这样,寻找h使后验 概率最大实际上等价于使错判损失最小。
三、引入和剔除变量的依据和检验统计量
在上述理论基础上,下面给出,判别分析中引入变量 和剔除变量的依据和检验方法。
四、求解判别函数中的矩阵变换
为求判别函数,逐步判别在计算上采用的是 “求解求逆紧凑变换法”将变量逐步引入或剔除, 每引入或剔除一个变量称为逐步判别的一步。
设初始的组内离差矩阵为( ),初始的总 的离差矩阵为( ),从它们开始,每步施行一 次变换,假如已经进行了L步,引入了L个变量,则 第L+1步无论是引入还是剔除变量 ,都要进行 如下的变化:
心,即分组(类)均值,距离判别准则是对于任给 一新样品的观测值,若它与第类的重心距离最近, 就认为它来自第类。因此,距离判别法又称为最邻 近方法(nearest neighbor method)。距离判别 法对各类总体的分布没有特定的要求,适用于任意 分布的资料。
2.两组距离判别
两组距离判别的基本原理。
r
逐步判别过程,就是不断的引入和剔除变量的 过程,可以证明,前三步都只引入,而不必考虑剔 除,在以后的各步中则首先考虑剔除,如果不能剔 除则再考虑引入,当既不能剔除又不能引入时,逐 步计算的过程即告终止,将已选中的变量建立判别 函数。
五、建立判别式,对样品判别分类
本章内容讲授结束
F
n1 n2 n1
2 p 1 n2 2p T
2
~
F p, n1
n2
p
1
3、多组费舍判别分析 (1)方法原理 类似两总体的费舍判别法,下面给出多总体的 费舍判别法。
(2)判别函数
判别系数(矩阵A关于矩阵E的广义特征向量)的 导出。
判别函数的判别能力与判别函数的个数:
二、逐步判别的基础理论 ――对判别变量附加信息的检验
根据逐步判别分析的基本思想,进行判别分析 需要解决两个关键的问题,一个是引入或剔除判别 变量的依据和检验问题;另外则是判别函数的及时 导出的问题。其中的理论基础又在于如何对判别变 量在区别各个总体中是否提供附加信息的检验。为 此这里先给出如何对判别变量在区别各个总体中是 否提供附加信息进行检验的基础理论。
说明:
当两总体靠的比较近时,即两总体的均值差 异较小的时候,无论用何种判别方法,错判的概 率都比较大,这时的判别分析也是没有意义的。 因此只有当两总体的均值有显著差异时,进行判 别分析才有意义,为此,要对两总体的均值差异 性进行检验,对此在下文中叙述。
(3)关于两组判别分析的检验
多元统计分析方法及其应用
统计学院
第六章 判别分析
第一节 判别分析的基本原理和模型 第二节 逐步判别分析
第一节 判别分析的基本原理和模型
一、判别分析概述 二、判别分析方法 三、判别分析在Excel中的实现
一、判别分析概述
(一)什么是判别分析 判别分析是多元统计中用于判别样品所属类型
的一种统计分析方法,是一种在已知研究对象用某 种方法已经分成若干类的情况下,确定新的样品属 于哪一类的多元统计分析方法。
凡具有筛选变量能力的判别分析方法就统称为 逐步判别法。
逐步判别法和通常的判别分析一样,也有许多不同的原 则,从而产生各种方法。这里讨论的逐步判别分析方法是在 多组判别分析基础上发展起来的一种方法,判别准则为贝叶 斯判别函数,其基本思路类似于逐步回归分析,采用“有进 有出”的算法,即按照变量是否重要,从而逐步引入变量, 每引入一个“最重要”的变量进入判别式,同时要考虑较早 引入的变量是否由于其后的新变量的引入使之丧失了重要性 变得不再显著了(例如其作用被后引入地某几个变量的组合 所代替),应及时从判别式中把它剔除,直到判别式中没有 不重要的变量需要剔除,剩下来的变量也没有重要的变量可 引入判别式时,逐步筛选结束。也就是说每步引入或剔除变 量,都作相应的统计检验,使最后的贝叶斯判别函数仅保留 “重要”的变量。