判别分析讲解
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
判别分析
1.判别分析的适用条件
(1)自变量和因变量间的关系符合线性假设。
(2)因变量的取值是独立的,且必须是事先就己经确定。
(3)自变量服从多元正态分布。
(4)所有自变量在各组间方差齐,协方差矩阵也相等。
(5)自变量间不存在多重共线性。
2.违背条件时的处理方法
(1)当样本的多元正态分布假设不能满足的时候采取的措施和方法如下:
<>如果数据的超平面是若干分段结构的话,采用分段判别分析。
<>如果数据满足方差和协方差的齐次性可以采用距离判别分析、经典判别分析、贝叶斯判别分析中的任何一种,因为此时三者是等价的,建议使用经典判别分析。
<>如果数据不满足方差和协方差的齐次性,则采用经典判别分析、非参数判别分析、距离判别分析,这些方法无此适用条件。
<>进行变量变换。
(2)方差和协方差的齐次性不能满足的时候可以采取的措施如下:
<>增加样本,这有时可以使其影响减小。
<>慎重的进行变量变换。
<>采用经典判别分析、非参数判别分析、距离判别分析,这些方法无此适用条件。
<>在合乎总体实际情况的前提下,保证各个分组的样本量一样,判别分析中分组之间样本量一样可以带来以下几个好处:使得结果与方差齐次性假设不会偏离得太大;F检验时第
二类错误(实际上为虚假的条件下正确的拒绝了原假设的概率)得到减小;使得均值更加容易比较和检验。
<>要是样本服从多元正态分布,采用二次判别,但是应该注意到二次判别分析没有计算判错率和统计检验的公式。
(3)存在多重共线性时可以采取的措施如下:
<>增加样本量。
<>使用逐步判别分析。
<>采用岭判别分析。
<>对自变量进行主成分分析,用因子代替自变量进行判别分析。
<>通过相关矩阵结合实际的理论知识删去某些产生共线性的自变量。
显然,上述措施和线性回归中对共线性的处理方式是非常类似的。
(4)当线性假设被违反的时候可以采取的措施如下:
<>采用二次判别分析。
<>K最近邻判别分析或核密度判别分析两种非参数判别分析。
<>离散型判别分析或混合型判别分析。
3.典型判别分析的基本原理
试图找到一个由原始自变量组成的线性函数使得组间差异和组内差异的比值最大化。
所谓Fisher判别法,就是一种先投影的方法。
考虑只有两个(预测)变量的判别分析问题。
假定这里只有两类。
数据中的每个观测值是二维空间的一个点。
见图(下一张幻灯片)。
这里只有两种已知类型的训练样本。
其中一类有38个点(用“o”表示),另一类有44个点(用“*”表示)。
按照原来的变量(横坐标和纵坐标),很难将这两种点分开。
于是就寻找一个方向,也就是图上的虚线方向,沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。
可以看出,如果向其他方向投影,判别效果不会比这个好。
有了投影之后,
再用前面讲到的距离远近的方法来得到判别准则。
4.例题:鸢尾花数据(花瓣,花萼的长宽) 5个变量:花瓣长(slen),花瓣宽(swid), 花萼长(plen), 花萼宽(pwid), 分类号
(1:Setosa, 2:Versicolor, 3:Virginica)
结果分析:
结果的判别可以有两种方式进行,一种通过判别函数进行判定。
详细输出内容如下所示:
表13.1给出了判别函数的特征根以及判别指数,本例中只提取了两个判别函数
(Funxtion1,2),且绝大部分信息都在第一个判别函数上(”% of Variance:”99%),上文中发现第二个判别函数(”% of Variance:”1%)携带的信息量很少。
表13.2就是进一步对特征根的显著性检验,实际是间接的检验判别函数有无统计学意义,其原假设是:各分组的均值直向量相等,分析结果显示两个判别函数均很有意义,第二个函数还是值得保留的。
-4-20246
-4-3-2-10123
表13.3为两个判别函数中各个变量的标准化系数,可用来判断两个函数分别主要受哪些变量的影响较大。
同时,知道了该系数就可以写出标准化的判别函数式。
本例的两个典型判别函数式如下:
D1=-0.346Xz花尊长-0.525 Xz花尊宽+0.846 Xz花瓣长+0.613xz花瓣宽
D2=0.039Xz花尊长+0.742 Xz花尊宽-0.386 Xz花瓣长+0.555 Xz花瓣宽
变量名前加z表明是标准化以后的数值。
实际上两个函数式计算的是各观测在各个判别维度上的坐标值,这样,就可以通过这两个函数式计算出各观测的具体空间位置。
另外,这里的标化判别函数实质上和典型相关分析中得到的典型变量的转化公式等价。
表13.4给出的是判别得分和自变量之间的相关系数,有些书也称它为组内结构系数/判别负载(Structure correlations/Discriminant loadings.),SPSS在结果中用"*"标识出了每个自变量中与每组判别得分中相关系数最大的一个函数,这有些类似于主成分分析中的成分结构。
由表格可见,第一判别函数主要与"花瓣长"这个自变量相关,另三个自变量则主要与第二判别函数相关。
由于前面的结果己经表明第一个判别函数携带了绝大多数判别信息,这提示我们可能"花瓣长"这个变量在判别分析中起了主要作用。
表13.5给出的是各组的判别函数的重心,或者说是各组的判别得分的均值向量。
前面的判别函数的检验就是分别检验这两个向量在各组是否相等。
在得知各类别重心后,只需要为每个待判个案求出判别得分,然后计算出该个案的散点离哪一个中心最近,就可以得到该个案的判别结果了。
上面给出的就是默认情况下的全部分析结果,可见其中的判别函数使用的是标化变量,相对而言使用不是非常方便,如果希望得到直接使用原始变量的判别函数,则可以在Statistic子对话框中选择最左下方的Unstandarized框,可以得到如表13.6所示的输出。
表13.6给出的就是使用原始变量的判别函数,式中有常数项,可写出表达式如下: D1=-2.526-O.063 x花尊长-0.155 x花尊宽+0.196 x花瓣长+0.299 x花瓣宽
D2=-6.987+O.007 x 花尊长+0.218 x 花尊宽-0.089 x 花瓣长+0.271 x 花瓣宽
03.2)
另一种判别结是以图形化方式展示,可以使用Classify 子对话框中的Plot 框组进行结果的图形化展示,如图13.3所示,三个复选框分别用于输出联合分布图、单独分布图和领域图(Territorial Map ),
上图显示为领域图的结果,其中Function1为横轴,Function2为纵轴,而整个图形中以数字1,数字2,数字3把图形划分为3个区域。
例如当第一个函数值为4时,如果第二个函数值为一4,则该案例应被判为2类;如果值为4,则应为3类。
因此第二个函数仍然应当在判别中使用,以上图形观察的结果和前面统计表格的结果完全一致。
最为关键的是判别分析主要是用来将未知类别的数据判定其所归属的类别,比如,现在检测到四个自变量的取值分别为50、33、14,2,我们要判定它到底归属于哪一类。
其实方法很简单,在执行上述所有的操作前,将需要预测的数据添加至原始数据的最后一列,当然此记录的组信息是空的,然后按照执行步骤执行一遍。
此时重要的结果不再是显示在OUTPUT 中,而是需要我们返回到数据窗口,现在的数据窗口一定会多一列(Dis_1),该列显示即为判定的分组信息,最后一列的分组信息也会在此项中显示(1)。
但是一定要注意,如果需要判定一定要在”save —勾选Predicted group membership ”。
区域1 区域2 区域3
原理在于将4个自变量的取值分别为50、33、14,2,将这些数值代入未标化的判别公式,可以得到坐标值如下:
D1=-2.526-0.063 x50-0.155 x33+0.196 x 14+0.299 x2=-7.499
D2=-6.987+0.007 x50+0.218 x33-0.089 x 14+0.271 x2=-0.147
5.判别效果的验证
Classify子对话框左下角的Display框组用于对判别分析的效果进行验证。
其中Casewise框用于列表输出所有案例的判别情况,summary框给出当前样本判别效果汇总表,leave-one-out框用于给出交互验证的判别验证结果,
表13.7的上半部分就是采用回代法得到的判别信息,其实等价于且summary刚毛花全部正确预测,则另两种花则存在错判,红圈处标出的为出错的样本。
下半部分就是用交互印证法得到的判别信息,最后也会给出错误率。
附注(其他选项说明):
选择观测量
如果希望使用一部分观测量进行判别函数的推导,而且有一个变量的某个值可以作为某些观测量的标识,则用Select功能进行选择。
操作方法是,单击“Select”按钮展开小选择框,在“Vaiable:”后面矩形框中输入该变量的变量名,在“Value:”后面输入标识参与分析的观测量所具有的该变量值。
一般均使用数据文件中的所有合法观测量。
此步骤可以省略。
选择分析方法
在主对话框中自变量矩形框下面有两个选择项,被选中的方法前面的圆圈中加有黑点。
这两个选择项是选择判别分析方法的。
(1)Enter independent together
当你认为所有自变量都能对观测量特性提供丰富的信息时,使用该选择项。
选择该项将不加选择地使用所有自变量进行判别分析,建立全模型。
不需要进一步进行选择。
(2)Use Stepwise method
当你不认为所有自变量都能对观测量特性提供丰富的信息时,使用该选择项。
因此根据对判别贡献的大小进行选择。
当鼠标单击该项时,"Method"按钮加亮。
可以进一步判别分析方法。
单击“Method”按钮,展开“Stepwise method”对话框(子对话框)如下图所示。
①选择进行逐步判别分析的方法
选择判别分析方法在Method组的矩形框中进行。
可供选择的判别分析方法有:
●Wilks'lambda 使Wilk的统计量最小化法。
●Unexplained variance 使各类不可解释的方差和最小化法。
●Mahalanobis'distance 使最近两类间的 Mahalanobis距离最大化法。
●Smallest F ratio。
使任何两类间的最小的F值最大化法。
●Rao' V 使 RaoV统计量最大化。
可以对一个要加入到模型中的变量的V值指定一个最小增量。
选择此种方法后,应该在该项下面的"V to dntce'"后的矩形框中输这个增量的指定值。
②选择逐步判别停止的判据
选择逐步判别停止的判据在criteria组的矩形框中进行。
可供选择的判据有:
Use F value:使用F值,是系统默认的判据,默认值是:Entry:3.84;removal:2.71。
即当被加入的变量F值>=3.84时才把该变量加入到模型中,否则变量不能进入模型;或者,当要从模型中移出的变量F值<=2.71时,该变量才被移出模型,否则模型中的变量不会被移出。
应该使Entry值(加入变量的F值)>removal值(移出变量的F值)
③显示内容的选择
对于逐步选择变量的过程和最后结果的显示可以通过Method对话框最下面的"Display"矩形框中的三项进行选择:
Resul at each step要求在逐步选择变量过程中的每一步之后显示每个变量的统计量。
Summary仅要求显示加入或移出模型的变量的综计量。
即选择变量的小结。
F for Pairwise distances要求显示两两类之间的两两 F值矩阵。
当以上①②③三项都给予了确定的选择后,单击"continue"按钮,返回主对话框。
Save对话框
在工作数据文件中建立以下三个新变量,可以选择。
①Predicted group membership要求建立一个新变量,表明预测的类成员。
指定此项后,每行一次Descriminant过程,就建立一个表明使用判别函数预测的各观测量属于哪一类的新变量。
第一次运行建立新变量的变量名为dis-1,如果在工作数据文件中不把前一次建立的新变删除,第n次运行Descriminant过程建立的新变量默认的变量名为dis-n。
②Descriminant score要求建立表明判别分数的新变量。
每次运行Descriminant过程都给出组表明判别分数的新变量。
建立几个典则判别函数就有几个判别分数变量。
参与分析的观测量共分为m类,则建立m-l个典则判别函数,指定该选择项,就可以生成m-l个表明判别数的新变量。
例如,原始数据观测量共分为3类,建立两个典则判别函数。
第一次运行判别过程建立的新变量名为dis1_1,dis2_1,第二次运行判别过程建立的新变量名为dis1_2,dis2_2…依此类推。
分别表示代入第一和第二个判别函数所得到的判别分数。
③Probabilities of group membership要求建立新变量表明观测量属于某一类的概率。
有m类,对一个观测量就会给出m个概率值,因此建立m个新变量。
例如,原始和预测分类数是:指定该选择项,在第一次运行判别过程后,给出的表明分类概率的新变量名为dis1_2,dis2_2,dis3_2.选择了新变量类型后,按"continue"。