第五讲 判别分析
第5章 判别分析_1

'
def
2W ( X )
其中
W ( X ) ( X X * )' S 1 ( X (1) X ( 2) ) 1 (1) * X ( X X ( 2) ) 2
则判别准则还可以写为:
判 X G1 , 当W ( X ) 0时 判 X G2 , 当W ( X ) 0时
(2) < (1) ) , 令
(x )
(1) 2
2 1
(x )
( 2) 2
2 2
(1) 2 ( 2) 1 x 1 2
def
*
判 X G1 , x * 而按这种距离最近的判别准则为: 判 X G2 , x *
因只有一个指标,这时判别函数为:Y=Y(x)=x.此例中 * =79,因
表5.1 盐泉的特征数值 K· 3/Cl Br· 3/Cl K· 3/ 盐 10 10 10 (X1) (X2) (X3) 13.85 22.31 28.82 15.29 28.79 2.18 3.85 11.40 3.66 12.10 8.85 28.60 20.70 7.90 3.19 12.40 16.80 15.00 2.79 4.67 4.63 3.54 4.90 1.06 0.80 0.00 2.42 0.00 3.38 2.40 6.70 2.40 3.20 5.10 3.40 2.70 7.80 12.31 16.18 7.50 16.12 1.22 4.06 3.50 2.14 5.68 5.17 1.20 7.60 4.30 1.43 4.43 2.31 5.02
判别分析是用于判别样品所属类型的一种统计分析方
法,是根据表明事物特点的变量值和它们所属的类,求出判
判别分析的基本原理

______________________________________________________________________________________________________________判别分析的基本原理和模型一、判别分析概述(一)什么是判别分析判别分析是多元统计中用于判别样品所属类型的一种统计分析方法,是一种在已知研究对象用某种方法已经分成若干类的情况下,确定新的样品属于哪一类的多元统计分析方法。
判别分析方法处理问题时,通常要给出用来衡量新样品与各已知组别的接近程度的指标,即判别函数,同时也指定一种判别准则,借以判定新样品的归属。
所谓判别准则是用于衡量新样品与各已知组别接近程度的理论依据和方法准则。
常用的有,距离准则、Fisher准则、贝叶斯准则等。
判别准则可以是统计性的,如决定新样品所属类别时用到数理统计的显著性检验,也可以是确定性的,如决定样品归属时,只考虑判别函数值的大小。
判别函数是指基于一定的判别准则计算出的用于衡量新样品与各已知组别接近程度的函数式或描述指标。
(二)判别分析的种类按照判别组数划分有两组判别分析和多组判别分析;按照区分不同总体的所用数学模型来分有线性判别分析和非线性判别分析;按照处理变量的方法不同有逐步判别、序贯判别等;按照判别准则来分有距离准则、费舍准则与贝叶斯判别准则。
二、判别分析方法(一)距离判别法1.基本思想:首先根据已知分类的数据,分别计算各类的重心,即分组(类)均值,距离判别准则是对于任给一新样品的观测值,若它与第i类的重心距离最近,就认为它来自精品资料第i 类。
因此,距离判别法又称为最邻近方法(nearest neighbor method )。
距离判别法对各类总体的分布没有特定的要求,适用于任意分布的资料。
2.两组距离判别两组距离判别的基本原理。
设有两组总体B A G G 和,相应抽出样品个数为21,n n ,n n n =+)(21,每个样品观测p 个指标得观测数据如下,总体A G 的样本数据为:()()()()()()()()()A x A x A x A x A x A x A x A x A x p n n n p p 111212222111211该总体的样本指标平均值为:()()()A x A x A x p 21,总体B G 的样本数据为:()()()()()()()()()B x B x B x B x B x B x B x B x B x p n n n p p 222212222111211该总体的样本指标平均值为:()()()B x B x B x p 21,现任取一个新样品X ,实测指标数值为X =(p x x x ,,,21 ),要求判断X 属于哪一类?首先计算样品X 与A G 、B G 两类的距离,分别记为()A G X D ,、()B G X D ,,然后按照距离最近准则判别归类,即样品距离哪一类最近就判为哪一类;如果样品距离两类的距离相同,则暂不归类。
第五讲-指标体系及权重确定

,说明在固定m,p的情况下,单纯由q的变动引起的X的变动, 即由于平均开放床位数的增加,使得1988年1季度较1987年 同期的住院收入增加了0.35%。
.
3.平均床位周 q q1 1m m 转 1 0p p0 0次 5 41 8数 7 5 ..4 82 3 4 6指 9 4 1.8 3 3 0% 数 2
,说明在固定q,p的情形下,单纯由m的变动而引起的X的 变动,即由于病床周转次数的下降,使得住院收入减少了 6.18%。
4.出院者人 q q 1 均 1 m m 1 1p p 1 0 费 4 68 1用 ..5 0 8 0 3 4 6 8 1 指 1 8.2 9 0 5 % 数 5 6
,说明在固定q,m的情形下,单纯由p的变动而引起的X的 变动,即由于人均费用的增加,使住院收入增加了25.79%。
.
综合指数是编制总指数的基本计算形式。它一方面,我 们可利用综合指数的方法来进行因素分析;当我们可以把某个 总量指标分解为两个或多个因素指标时,如果固定其中的一个 或几个指标,便可观察出其中某个指标的变动程度;另一方面, 也可以综合观察多个指标同时变动时,对某一现象或结果影响 的程度和方向,进而评价其优劣。
得:W1=0.6370,W2=0.2583,W3=0.1047。
.
用同样方法可获得其他分层中各项目的权重系数,见表5-9 表5-9 第二层、第三层子目标权重系数
.
(4)求组合权重 病床使用率的组合权重系数
C1=0.6370*0.2970=0.1892; 治疗有效率的组合权重系数
C2=0.6370*0.5396*0.6670=0.2292 重患收治率的组合权重系数
1.30,那么加权后的权数分配为A:B:C:D=114:83:51: 27,经归一化处理后,A:B:C:D=0.41:0.30:0.19:0.10。
第5章 判别分析

3.54
4.90 1.06 0.80 0.10 2.40 0.01 3.38 2.40 6.70 2.40 3.20 5.10
7.50
16.12 1.22 4.06 3.50 2.14 5.68 5.17 1.20 7.60 4.30 1.43 4.43
( 当、 (1)、 2) 已知时,令 ( a 1 ( (1) 2)) (a1 , a2 , , a p )
则W ( X )=(X- ) a a1 ( x1 1 ) a2 ( 2 ) a p ( x p p ) 显然,W ( X )是x1,x2, ,x p的线性函数。 称W ( X )为线性判别函数。a称为判别系数。
(i )
线性判别函数为: ˆ W ( X ) ( X X ) 1 ( X (1) X ( 2 ) )
我们注意到: 当p 1时,若两个正态总体的分布分别为N ( 1 , 2 )和 2 不妨设1 2,这时W ( X )的符号取决于X 或X 。
2
第五章
判别分析
党耀国
经济与管理学院
Iamdangyg@
判别分析
5.1 判别分析的概念 5.2 距离判别法 5.3 费歇尔判别法 5.4 贝叶斯判别法 5.5 逐步判别法 5.6 实例分析
5.1 判别分析的概念
• 在生产、科研和日常生活中,我们经常需要根据观 测到的数据资料,对所研究的对象进行判别分类,即 是根据历史上划分类别的有关资料和某种最优准则, 确定一种判别方法,判定一个新的样品归属于哪一类。 例如某医院有部分患有肺炎、肝炎、冠心病、高血压、 糖尿病等病人的资料,记录了每个患者若干症状的指 标数据,现在想利用现有的这些资料数据找出一种方 法,使对于一个新的病人,当测得这些症状指标数据 时,能够判断其患有哪一种疾病。在经济学中,根据 人均国民收入、人均工农业总产值、人均消费水平等 多项指标来判断一个国家所处的经济发展阶段。在气 象预报中,根据已有的气象资料(气温、气压、湿度 等)来判断明天、后天是阴天还是晴天,是有雨还是 无雨。在地质学中根据以往对矿物勘探资料(矿石的 化学和物理性质和所含化学成分)的分析,判断某一 矿石把他应归于哪一类矿石。总之,在实际问题中需 要判别的问题几乎无处不在。
五章判别分析

每一组中所有样品的p维指标值 x x1, x2, , xp 构 成了该组的一个p元总体分布,我们试图主要从各组 的总体分布或其分布特征出发来判断新样品x是来自 哪一组的。
2
§5.1 引言
判别分类的例子: 1.有偿付力与无偿付力的财产责任保险公司。
测量变量:总资产,股票与债券价值,股票与债券 的市值,损失支出,盈余,签定的保费金额。 2.非溃疡胃病组(胃功能紊乱者)与控制组(“正常” 者)。 测量变量:焦虑、依赖性、罪恶感、完美主义的量 度
3
3.两种野草。
判别规则:
x x
1 2
, ,
若d 2 x,1 d 2 x, 2 若d 2 x,1 d 2 x, 2
d2 x,1d2 x,2=x μ1 Σ1 x μ1x μ2 Σ1 x μ2
=xΣ1x2xΣ1μ1 μ1Σ1μ1 xΣ1x2xΣ1μ2 μ2Σ1μ2
=2xΣ1 μ2 μ1 μ1Σ1μ1 μ2Σ1μ2
=2xΣ1 μ2 μ1μ1 μ2 Σ1 μ1 μ2
2
x
μ1
2
μ2
Σ1
μ1
μ2
2x
μ
a
2ax
μ
7
其中
μ
1 2
μ1
5.判别分析和分类分析-讲解(下)

目录定义和应用判别分析和分类分析介绍两群体Fisher线性判别分析多群体Fisher线性判别分析判别分析:分类规则两群体Fisher分类两群体贝叶斯分类多群体分类分类分析:分类结果分类分析判别分析旨在寻找一种分类规则,而分类分析更进一步:将新的观察对象分到一个合适的类别——即在分析过程中进行的预测回想前面贷款的例子,银行需要决定是否同意申请者的贷款,最终目标是判断新申请者是属于“按时还款组”还是“倾向违约组”假设:分类思想:两个群体 和 有相同的协方差矩阵 ,并且基于Fisher判别函数 ,比较新个体转化后所得 与均值转化后 和 的距离,如果那么 和 更近,应被归为 ,反之,应被归为 .定理:如果那么将新观察对象 分为类别如果那么将 分为类别真实数据中,任何分类法则通常都不能完全正确地分类。
我们可以用如下表格表示总错分率(Total probability of misclassification, TPM)例:“今天”和“昨天”的湿度差( )和温度差( )是用来预测“明天”是否会下雨的两个很重要的因素雨天组别晴天组别绘制数据散点图:用Fisher‘s LDA分类:因此,判别函数为我们可以用模型回测现有样本计算总错分率(TPM)从箱线图可以看出Fisher‘s LDA分类效果很好如果我们得知今天的数据是 ,如何预测明天的天气?按照Fisher's LDA模型的结果,明天应该是雨天从数学角度来看,很容易发现Fisher分配法则在做的事情,实际上是在比较新观测对象 与 、 间的马氏距离。
即如果相较于 , 与 更近,那么把 分到 :反之,分到由于我们没有对分布作假设,因此 Fisher 法则是一种非参数方法,但是当样本是正态分布或者有线性趋势,LDA能表现的更好。
如下非线性分类问题中,Fisher判别分析就失效了。
目录定义和应用判别分析和分类分析介绍两群体Fisher线性判别分析多群体Fisher线性判别分析判别分析:分类规则两群体Fisher分类两群体贝叶斯分类多群体分类分类分析:分类结果贝叶斯分类动机•通常,一家公司陷入财务困境并最终破产的(先验)概率很小,所以我们应该首先默认一家随机选择的公司不会破产,除非数据压倒性地支持公司将会破产这一事件。
第五章 判别分析ppt课件

在经济学中,根据人均国民收入、人均消费水平、人均住房 面积等多种指标来判定一个国家的经济发展程度所属类型。
在考古学中,根据发掘出来的人类头盖骨的高、宽等特征来 判断其性别是男性还是女性。
在税务稽查中,要判断某纳税户是诚实户还是偷税户。
……
2008.8 休息一下
最新版整理ppt
统计学专业主干课程——多元统计分析
休息一下统计学专业主干课程多元统计分析20088精选1fisher判别函数和判别准则1fisher判别函数和判别准则休息一下统计学专业主干课程多元统计分析20088精选1fisher判别函数和判别准则1fisher判别函数和判别准则休息一下统计学专业主干课程多元统计分析20088精选1fisher判别函数和判别准则1fisher判别函数和判别准则542fisher判别函数和判别准则休息一下统计学专业主干课程多元统计分析20088精选休息一下统计学专业主干课程多元统计分析20088精选2应用实例2应用实例542fisher判别函数和判别准则休息一下统计学专业主干课程多元统计分析20088精选2应用实例2应用实例542fisher判别函数和判别准则休息一下统计学专业主干课程多元统计分析20088精选2应用实例2应用实例542fisher判别函数和判别准则休息一下统计学专业主干课程多元统计分析20088精选多元分析中有一个非常重要的思想方法就是采用降维技术把rp中的点通过适当方式投影到低维空间即用低维向量近似地替代p维向量然后在低维空间上在进行组的判别
本章的大部分内容是讨论两组判别分析。
2008.8 休息一下
最新版整理ppt
统计学专业主干课程——多元统计分析
5.1.3 判别分析的类型
2、按判别函数的形式分
按判别函数的形式(区分不同总体所用的数学模型)分, 有线性判别和非线性判别。
判别分析解读 PPT

Discriminant Analysis
流行病与卫生统计学系
• 聚类分析:对(样本)总体进行分类 • 判别分析:对(样本)个体进行分类
判别与聚类
• 聚类分析可以对样本/指标进行分类,判别分析 只对样本进行分类。
• 聚类分析事先 不知道事物的类别,也不知道应 分几类;判别分析必须事先知道事物的类别, 也知道应分几类。
• 在农林害虫预报中,根据以往的虫情,多种气 象因子来判别一个月后的虫情是大发生,中发 生或正常
• 在体育运动中,判别某游泳运动员是适合练蛙 泳,仰泳还是自由泳
• 在医疗诊断中,根据某人多种检验指标来判断 此人是某病患者还是非患者
判别分析--诊断
• 临床诊断: • 急腹症的患者,需要诊断患病原因。 • 诊断阑尾炎时需要与其他急腹症作鉴别诊断;
• 聚类分析不需要分类的历史资料,能直接对样 本进行分类;判别分析需要历史资料去建立判 别函数,然后才能对样本进行分类。
• 判别分析:根据判别对象若干个指 标的观测结果判定其应属于哪一类 的统计学方法。
应用
• 在经济学中,根据人均国民收入,人均工农业 产值,人均消费水平等多个指标来判定一个国 家的经济发展程度所属等级
以p=q=k=2 来说明Fisher判别分析法的基本原理和计算方法
根据Fisher判别分析法的基本原理,就是要选择一组 适当的系数 c 1 , c 2 ,…, c k ,使得类间差异D最大 且类内差异V最小,即,使得下式的值 Q 达到最大。
根据多元函数求极值的原理和方法,使得 Q 取最大 值的点是Q 的一阶偏导函数等于0的方程组的解。 令上述方程组的解是: 那么,Fisher判别函数估计式是:
该类。 • 适合于多类的判别分析。
判别分析完整课件

2 i 1 m
m为判别指标数,根据自由度查F(m,n1+n2-m-1)。
(三)确定判别临界值
确定两类的判别临界值(即两类的分界点)yc, 据此对未知样本作出判断。
yc
n1 y(1) n2 y( 2 ) n1 n2
在医学科研资料中经常遇到指标变量不呈正态分 布或难以满足参数判别分析的要求,特别是有些 变量是分类变量,不可能服从正态分布,可以用 Logistic回归分析的方法。
实际资料中一般含有较多的指标,有些指标可能 对鉴别不同的类别毫无用处,或指标间彼此相关的情 况时不应该用所有的指标都参与建判别函数。所以, 在建函数之前,先进行变量筛选是很有必要的,即逐 步判别分析,此法建立的函数更简洁,效果也更好。 此外,对于某些指标间存在彼此相关的情况时, 先对众多的指标进行聚类,从聚成的几大类中各挑选 一个最有代表性的指标,用这些典型指标建立判别函 数。 逐步回归、判别分析、聚类分析等方法可以联合 应用。
y ci xi
i 1 n
2
n1
(y
i 1
n2
i ( 2)
y( 2 ) )
2
y(1) ck xk (1)
k 1
n1
y( 2) ck xk ( 2)
k 1
n2
根据求极值的原理,求I对判别系数Ci的偏导数,使其等 于零,得到下列方程组:
f11C1+f12C2+……f1mCm=d1 f21C1+f22C2+……f2mCm=d2 ……… …… …… ……… ….. fm1C1+fm2C2+……fmmCm=dm 其中, di
多元统计第五章判别分析

第一节 引言
在我们的日常生活和工作实践中,常常会遇到判别分析问题。
案例一:为了研究中小企业的破产模型,选定4个经济指标:总负债率、
收益性指标、短期支付能力、生产效率性指标。对17个破产企业(1类)和21
个正常运行企业(2类)进行了调查,得关于上述四个指标的资料。现有8个 未知类型的企业的四个经济指标的数据,判断其属于破产企业一类还是正 常运行企业一类? 案例二:根据经验,今天与昨天的湿度差x1及今天的压温差x2 (气压与温度
ˆ Σ
1 A , n 1
1,2,, k
三、判别分析的实质
设R1,R2,…,Rk是p维空间R p的k个子集,如果它们互
不 相交,且它们的和集为R p,则称R1,R2, …,Rk为R p的一 个划分。
在 两 个 总 体 的 距 离 判 别 问 题 中 , 利 用
W (X) (X μ)' α 可以得到空间 R p 的一个划分 R1 {X : W ( X) 0} R2 {X : W ( X) 0}
x2
-0.41 -0.31 0.02 -0.09 -0.09 -0.07 0.01 -0.06 -0.01 -0.14 -0.3 0.02 0 -0.23 0.05 0.11 -0.08 0.03 0 0.11 -0.27
x3
1.09 1.51 1.01 1.45 1.56 0.71 1.5 1.37 1.37 1.42 0.33 1.31 2.15 1.19 1.88 1.99 1.51 1.68 1.26 1.14 1.27
Σ 的一个联合无偏估计为
n
n2 1 和 X(2) Xi(2) n2 i 1 1 ˆ Σ ( A1 A2 ) n1 n2 2
《判别分析》课件

在金融领域的应用
信用评分
利用判别分析模型,通过借款人 的特征和历史表现,预测其未来 违约风险,为金融机构提供信贷
决策依据。
市场风险评估
判别分析用于评估金融市场风险 ,通过分析市场数据和变量,预 测市场走势,帮助投资者做出合
理决策。
投资组合优化
利用判别分析对投资组合进行优 化,通过评估不同资产的风险和 回报,为投资者提供最佳资产配
对判别分析的未来展望
改进算法
针对判别分析的假设严格问题,未来研究可以尝试改进算法,放宽 假设条件,使其更适用于实际数据。
结合其他技术
可以考虑将判别分析与其它机器学习算法相结合,如神经网络、支 持向量机等,以提高分类性能和泛化能力。
拓展应用领域
随着大数据时代的到来,判别分析在各个领域的应用越来越广泛,未 来可以进一步拓展其应用领域,解决更多实际问题。
在市场营销中,判别分析可用于市场 细分,根据消费者的购买行为、偏好 和需求等因素,将市场划分为不同的 细分市场,帮助企业制定更加精准的 市场策略。
广告投放优化
通过判别分析对广告投放效果进行评 估和优化,基于历史数据和实时监测 数据,分析不同广告渠道和创意的表 现,提高广告投放的效率和效果。
06 判别分析的案例分析
金融领域的判别分析案例
信用风险评估
利用判别分析对银行客户进行信用风险评估,根据客户的历 史表现和其他相关信息,预测其未来违约的可能性,帮助银 行制定更加精准的信贷政策。
股票市场预测
通过判别分析对股票市场走势进行预测,基于历史数据和市 场信息,构建预测模型,以指导投资者进行投资决策。
1. 单变量判别函数
基于单个特征的判别函数。
2. 多变量判别函数
第五讲 判别分析

天行健,君子以自强不息。
地势坤,君子以厚德载物。
常用的判别方法
一 距离判别 二 Fisher判别 三 Bayes判别
四 逐步判别
天行健,君子以自强不息。
地势坤,君子以厚德载物。
距离判别
1.
2.
判别准则 根据各类的 ng 个样本,求出每类的中 心坐标 再根据新样品离开每个类中心的距离 远近作出它属于哪一类的判断
天行健,君子以自强不息。
地势坤,君子以厚德载物。
20
10
0
-10
U
1
X2
-20 -20 -10 0 10
0
天行健,君子以自强不息。
X1
地势坤,君子以厚德载物。
20
10Leabharlann D2---非雨区U(x1,x2)
新样本点
0
-10
D1---雨区
X2
-20 -20 -10 0 10 20
X1
天行健,君子以自强不息。 地势坤,君子以厚德载物。
i 1
1, 2
此时,两总体距离判别的判别函数为
ˆ ( X) α ˆ ( X X) W
1 (1) (2) ˆ 1 ( X(1) X(2) ) 。这样,判别规则为 ˆ Σ 其中 X ( X X ) , α 2 ˆ ( X) 0 X G1 , 如果 W (4.7) ˆ ( X) 0 X G , 如果 W 2
天行健,君子以自强不息。 地势坤,君子以厚德载物。
图4.1
天行健,君子以自强不息。
地势坤,君子以厚德载物。
第二、 设有量度重量和长度的两个变量 X 与 Y , 以单位分别 为 kg 和 cm 得到样本 A(0,5) ,B(10,0) , C (1,0) ,D(0,10) 。 今按照欧氏距离计算,有
第5章判别分析

第5章判别分析判别分析(discriminantanalysis)是在已知样品分类的前提下,将给定的新样品按照某种分类准则判入某个类中,它是研究如何将个体“归类”的一种统计分析方法.这里的判别规则通常是以已有的数据资料或者现有的部分样品数据作为所谓的“训练样本”建立起来的,并用来对未知类别的新样品进行判别.这种统计方法在实际中很常用,例如医生在掌握了以往各种病症(如肺炎、肝炎、冠心病、糖尿病等)指标特点的情况下,根据一个新患者的各项检查指标来判断该病人有哪类病症;又如在天气预报中,利用已有的一段时期某地区每天气象的记录资料(阴晴雨、气温、风向、气压、湿度等),建立一种判别准则来判别(预报)明天或未来多天的天气状况;再如研究人员依照国家划分不同地区经济类型的数量标准,根据某个地区的GDP、人均收入、消费水平等相关指标判断该地区属于哪一种经济类型等.当然,我们要求判别规则在某种意义下是最优的,例如样品距所属类别的距离最短,或样品归属某个类别的概率最大,或错判平均损失最小等.判别分析与聚类分析的主要区别在于:作聚类分析时,人们事先并不知道所讨论的样品应该分成几类,完全根据样品数据的具体情况来确定;而作判别分析时,样品的分类事先已经明确,需要做的主要工作是利用训练样本建立判别准则,对新样品所属类别进行判定.判别分析的方法很多,本章主要介绍常用的三种,即距离判别、Fisher判别和Bayes判别,并介绍它们在R中的实现过程.5.1 距离判别5.1.1 距离距离是判别分析中的基本概念,距离判别法根据一个样品与各个类别距离的远近对该样品的所属类别进行判定.第4章中列举了六种距离,其中常用的是欧氏距离和马氏距离.设和是两个随机向量,有相同的协方差矩阵Σ,则α与y之间的马氏距离定义为:(5.1)特别地,当∑=I时,马氏距离就是通常的欧氏距离.在判别分析中,马氏距离更常用,这是因为欧氏距离对每一个样品同等对待,将样品x的各分量视作互不相关,而马氏距离考虑了样品数据之间的依存关系,从绝对和相对两个角度考察样品,消除了变量单位不一致的影响,更具合理性.这里以二维情形下一个简单的图形做直观的解释:如图5-1所示,设大椭圆和小椭圆分别表示两个总体G₁和G₂的置信度均为1-α的置信区域,尽管样品x到总体G₂的欧氏距离比到总体G₁的欧氏距离更短,但x却包含在总体G₁的置信椭圆内,同时位于总体G₂的置信椭圆外,说明若用马氏距离这种“标准化”距离来度量的话,样品x到总体G₁的距离更近,应该把样品x判入总体G₁.图5-1欧氏距离与马氏距离的选择示意图5.1.2 两个总体的距离判别设有两个总体G₁和G₂,其均值分别为μ₁和μ₂,有相同的协方差矩阵Σ,对于给定的一个样品x,要判断它属于哪一个总体.如果将样品x到两个总体G₁和G₂的距离d(x,G₁)和d(x,G₂)分别规定为x与μ(i=1,2)的马氏距离,那么,直观的方法i是分别计算样品x到两个总体G₁和G₂的马氏距离d(x,μ₁)和d(x,μ₂),再根据这两个距离的大小来判断x的归属:当d(x,μ₁)<d(x,μ₂)时,判x属于总体G₁;当d(x,μ₁)>d(x,μ₂)时,判α属于总体G₂;当d(x,μ₁)=d(x,μ₂)时,x可以属于总体G₁和G₂中的任何一个,通常把x判入总体G₁.因此判别准则可描述为:由于马氏距离与马氏距离的平方等价,为方便起见,以下考虑两个马氏距离的平方的差(5.2)令,并记(5.3)于是判别准则等价于这个判别准则取决于W(x)的值,通常称W(x)为判别函数,由于它是x的线性函数,又称其为线性判别函数,称a为判别系数.线性判别函数W(x)使用最方便,在实际中应用也最广泛.特别地,当p=1,G₁和G₂的分布分别为N(μ₁,o²)和N(μ₂,o²),μ₁,μ2,o²均为已知,且μ₁<μ₂时,则判别系数为,判别函数为.判别准则为:在实际应用中,总体的均值和协方差矩阵一般是未知的,可由样本均值和样本协方差矩阵分别进行估计.设是来自总体G₁的样本,是来自总体G₂的样本,μ₁和μ₂的一个无偏估计分别为:协方差矩阵Σ的一个联合无偏估计为:式中,此时,判别函数为,其中.这样,判别准则为:应该注意,当μi≠μz,Z₁≠Z₂时,我们仍可采用式(5.2)的变式作为判别函数,即(5.4)它是x的二次函数,相应的判别规则为:最后要强调的就是作距离判别时,μ₁和μ₂要有显著的差异才行,否则判别的误差较大,判别结果没有多大意义.【例5.1】已知某种昆虫的体长和翅长是表征性别的两个重要体形指标,根据以往观测值,雌虫的体型标准值为,雄虫的体型标准值,它们的共同的协方差矩阵为.现捕捉到这种昆虫一只,测得它的体长和翅长分别为7.2和5.6,即,试判断这只昆虫的性别.解:由已知条件,可由式(5.3)计算得所以可判断这只昆虫是一只雄虫.在R中可编写一个简单的程序计算W(x)(注意W(x)=[d²(x,μ₂)-d²(x,μ₁)]/2).>W2equal=function(x,mu1,mu2,S){(mahalanobis(x,mu2,S)-mahalanob is(x,mu1,S))/2}>mu1=c(6,5);mu2=c(8,6);S=matrix(c(9,2,2,4),nrow=2);x=c(7.2,5.6 )>W2equal(x,mu1,mu2,S)[1]-0.053125所以应判断这只昆虫是一只雄虫.若又捕捉到另一只同类昆虫,其体长和翅长数据为,则可继续计算如下:>x=c(6.3,4.9>W2equal(x,mu1,mu2,S)[1]0.225应将其判断为一只雌虫.当雌虫和雄虫的协方差矩阵不相同时,可由式(5.4)来计算W*(x),再根据计算结果作出判别.假定雌虫和雄虫总体数据对应的协方差矩阵分别为和那么可编写R程序如下:>W2unequal=function(x,mu1,mu2,S1,S2){mahalanobis(x,mu2,S2)-mah alanobis(x,mu1,S1)}>mu1=c(6,5);mu2=c(8,6);S1=matrix(c(9,2,2,4),nrow=2);S2=matrix( c(6,22,3),nrow=2)>x=c(7.2,5.6>W2unequal(x,mu1,mu2,S1,S2)[1]-0.07696429这里仍然用了最初那只昆虫的体长和翅长数据,结果仍然判断它是一只雄虫.两总体的距离判别还可使用自编程序“DDA2.R”,用法参见本章附录1.5.1.3 多个总体的距离判别设有k个总体G₁,G₂,…,Gk ,其均值和协方差矩阵分别是μ₁,μ₂,…,μg和Σ₁,Σ₂,…,Σk,而且Σ₁= Σ₂= … = Σk = Σ.对于一个新的样品x,要判断它来自哪个总体.该问题与两个总体的距离判别问题的解决思路一样,计算新样品x到每一个总体的距离,即式中,.故可以取线性判别函数为:相应的判别规则为:与二维情形类似,当μ₁,μ₂,…,μk和Σ均未知时,可以通过相应的样本均值和样本协方差矩阵来替代.另外,各总体的协方差矩阵Σ₁,Σ₂,…,Σk,不完全相同时也可以仿照二维情形讨论(参阅参考文献[10]).多总体的距离判别可使用本章附录所给出的R程序“DDAM.R”,使用方法可参见本章附录2后的说明.5.2 Fisher判别Fisher于1936年提出了该判别法,这是判别分析中奠基性的工作.该方法的主要思想是通过将多维数据投影到一维直线上,使得同一类别(总体)中的数据在该直线上尽量靠拢,不同类别(总体)的数据尽可能分开.从方差分析的角度来说,就是组内变差尽量小,组间变差尽量大.然后再利用前面的距离判别法来建立判别准则.Fisher判别法属于确定性判别法,有线性判别、非线性判别和典型判别等多种常用方法.以下主要介绍线性判别法.5.2.1两总体Fisher判别先考虑有两个总体G₁和G₂的情形,判别法的思想是将高维空间中的点投影到一维直线y上,使得由总体G₁和G₂产生的y尽可能分开,在此基础上再利用前面的距离判别法来建立判别准则.我们用一个简单的图形(见图5-2)来说明其原理.如图5-2所示,二维平面上有两类点,小圆点属于总体G₁,大圆点属于总体G₂,按照原来的横坐标x₁和纵坐标x₂,很难将它们区分开,但若把它们都投影到直线y上,则它们的投影点明显分为两组,同类的点聚集在一起,容易区分;又若把它们投影到与直线y垂直的直线上,则它们的投影点混杂在一起,难以分开.可见,投影直线的选取不一样,数据点的分类效果就大不相同,这提示我们要去寻找分类效果最好的投影直线y,使得在该投影直线上,同一类别的点的投影点尽量靠拢,不同类别的点的投影点尽量分开.显然,直线y是x₁和x₂的线性组合,即y=c₁x₁+c₂x₂.一般,在p维情况下,x的线性组合为:(5.5)图5-2投影直线选取示意图式中,a为p维实向量.设总体G₁和G₂的均值分别为μ₁和μ₂,它们有共同的协方差矩阵Σ,那么线性组合的均值为:(5.6)方差为:(5.7)显然,使得μ1y 与μ2y的距离越大的线性组合越好,所以考虑比值(5.8)现在的问题简化为:如何选取a,使得式(5.8)达到最大.定理5.1设x为p维随机向量,,当(c≠0为常数)时,式(5.8)达到最大.特别地,当c=1时,线性函数(5.9)称为Fisher线性判别函数(证明略).取(5.10)在μ₁≠μ₂的条件下,容易证明,于是可得Fisher判别准则如果记,则判别准则等价于需要指出的是:当总体的均值和协方差矩阵未知时,通常用样本均值和样本协方差矩阵来估计.设和,分别是来自总体G₁和G₂的样本,就可以分别用和估计μ₁和μ₂,用来估计Σ,这里.5.2.2多总体Fisher判别如果变量很多或有多个总体,通常要选择若干个投影,即若干个判别函数来进行判别.设有k个总体G₁,G ₂,…,Gx,它们有共同的协方差矩阵Σ,均值分别为μ₁,μ₂,…,μk,令(5.11)考虑p维随机向量x的线性组合,a为p维实向量,则均值和方差分别为:(5.12)注意到(5.13)考虑比值(5.14)问题等价于:如何选择a,使得式(5.14)达到最大.为了方便起见,设.定理5.2设λ₁,λ₂,…,λs(λ₁≥λ₂≥…≥λs>0)为Σ-¹G的s个非零特征值,s≤min(k-1,p),e₁,e₂,…,e为相应的特征向量且满足,那么当a₁=e₁s时,式(5.14)达到最大,称为第一判别函数,而a₂=e₂是在约束条件之下使得式(5.14)达到最大值的解,称为第二判别函数,如此下去,as =es是在约束条件之下使得式(5.14)达到最大值的解,称为第s个判别函数(证明略).当总体的均值和协方差矩阵未知时,通常用样本均值和样本协方差矩阵来估计,与两总体的Fisher判别方法类似,也可以建立多个总体的Fisher判别准则,但形式比较复杂,这里不再讨论.【例5.2】在R软件的内置档案中自带了著名的鸢尾花(iris)数据,该数据框有5列:Sepal.Length(花萼长度),Sepal.Width(花萼宽度),Petal.Length(花瓣长度),Petal.Width(花瓣宽度)和Species(品种).品种又分为setosa(刚毛鸢尾花),versicolor(变色鸢尾花)和virginica(弗吉尼亚鸢尾花).每个品种各有50行,即数据框共有150行.解:先读取iris数据,再用程序包MASS中的线性判别函数lda()作判别分析,R程序如下:>data(iris)>irisSepal.Length Sepal.Width Petal.LengthPetal.Width Species1 5.1 3.5 1.4 0.2setosa2 4.9 3.0 1.4 0.2setosa......50 5.0 3.3 1.4 0.2setosa51 7.0 3.2 4.7 1.4versicolor52 6.4 3.2 4.5 1.5versicolor......100 5.7 2.8 4.1 1.3 versicolor101 6.3 3.3 6.0 2.5 virginica102 5.8 2.7 5.1 1.9 virginica......150 5.9 3.0 5.1 1.8 virginica>attach(iris) #把数据变量的名字放入内存,这样能直接使用各列数据>library(MASS) #加载MASS程序包,这是必须的,否则找不到1da()函数>1d=lda(Species~Sepal.Length+Sepal.Width+Petal.Length+Petal.Wi dth)#也可以用命令iris.lda=lda(iris[,1:4],iris[,5]),注意第5列是品种,取作因变#量y>1dCall:lda(Species~Sepal.Length+Sepal.Width+Petal.Length+Petal.WidthPriorprobabilitiesofgroups:setosa versicolor virginica0.3333333 0.3333333 0.3333333Groupmeans:Sepal.Length Sepal.Width Petal.LengthPetal.Widthsetosa 5.006 3.428 1.4624.260Versicolor 5.936 2.770 4.2601.326Virginica 6.588 2.974 5.5522.026Coefficientsoflineardiscriminants:LD1 LD2Sepal.Length 0.8293776 0.02410215Sepal.Width 1.5344731 2.16452123Petal.Length -2.2012117 -0.93192121Petal.Width -2.8104603 2.83918785Proportionoftrace:LD1 LD20.9912 0.0088以上输出中包括lda()所用的公式、先验概率、各组均值向量、第一及第二线性判别函数的系数、两个判别式对区分各总体贡献的大小等.可以在R中使用help(lda)查看该函数的详细用法.需要指出的是,R中有内置函数predict(),可以对原始数据进行回判分类,从而可以将lda()的输出结果与原始数据真正的分类进行对比,考察误差的大小.R程序及结果如下:>Z=predict(ld)>newG=Z$class>cbind(Species,newG,Z$x) #Z$x给出了Z中两个判别函数相应的值Species new GLD1 LD21 1 1 8.0617998 0.3004206212 1 1 7.1286877 -0.786660426 ......70 2 2 -1.0904279 -1.62658349671 2 3 -3.7158961 1.04451442172 2 2 -0.9976104 -0.490530602 ......83 2 2 -0.8987038 -0.90494003484 2 3 -4.4984664 -0.88274991585 2 2 -2.9339780 0.027379106133 3 3 -6.8001500 0.580895175134 3 2 -3.8151597 -0.942985932 135 3 3 -5.1074897 -2.130589999 ......149 3 3 -5.8861454 2.345090513150 3 3 -4.6831543 0.332033811 这里Species是原始类别,newG是回判类别,LD1和LD2分别是第一和第二线性判别函数的值.我们还可以用table()函数来列表比较,R程序及结果如下:>tab=table(newG,Species)>tabSpeciesnewG setosa versicolor virginicasetosa 50 0 0Versicolor 0 48 1virginica 0 2 49由结果可以看出,对150个原始数据的预测中,只有3个错误,误差率为2%,其中有2朵versicolor鸢尾花(71号和84号)被误认为是virginica鸢尾花,有1朵virginica鸢尾花(134号)被误认为是versicolor鸢尾花.5.3 Bayes判别上面讲的几种判别分析方法计算简单,易于操作,比较实用.但是这些方法也有明显的不足之处.一是判别方法与总体各自出现的概率的大小无关;二是判别方法与错判之后所造成的损失无关.Bayes判别法就是为了解决这些问题而提出的一种判别方法,它假定对研究对象已经有了一定的认识,这种认识可以用先验概率来描述,当取得样本后,就可以利用样本来修正已有的先验概率分布,得到后验分布,再通过后验分布进行各种统计推断.Bayes判别法属于概率判别法,判别准则是以个体归属某类的概率最大或错判总平均损失最小为标准.5.3.1两总体的Bayes判别设有两个总体G₁和G₂,它们的概率密度函数分别为f₁(x)与f₂(x),其中x是一个p维随机向量,Ω为x的所有可能取值构成的样本空间,R₁为x的根据某种规则被判入总体G₁的取值全体的集合,那么R₂=Ω-R₁就为x的根据同样规则被判入总体G₂的取值全体的集合.设样本α来自总体G₁(形式记为x∈G₁),但被判入总体G₂的概率为:又记x来自总体G₂(形式记为x∈G₂),但被判入总体G₁的概率为:类似地,x来自总体G₁被判入G₁,来自总体G₂被判入G₂的概率可分别记为:又设总体G₁和G₂出现的先验概率(priorprobabilities)分别为p₁和pz,且p ₁+p₂=1,于是同理假设L(j|i)(i,j=1,2)表示x来自总体Gi而被误判入总体Gj引起的损失,显然有L(1|1)=L(2|2)=0,将上述误判概率与误判损失结合起来,可以定义所谓的平均误判损失(expected cost of misclassification,ECM)为:(5.15)一个合理的判别选择是极小化ECM.可以证明(见参考文献[10]):极小化ECM 所对应的样本空间2的划分为:(5.16)因此,可以将式(5.16)作为Bayes判别的判别准则.当两总体服从正态分布时,设,可分两种情形讨论.若Σ₁=Σ₂=Σ,则两总体的密度函数为:此时式(5.16)等价于(5.17)式中(5.18)(5.19)由此可见,对于两正态分布总体的Bayes判别,其判别式(5.17),(5.18)和(5.19)可以看成两总体距离判别的推广,当p₁=pz,L(1|2)=L(2|1)时,β=ln1=0,这正是距离判别,这里的W(x)也与两总体距离判别的W(x)完全一致,参见式(5.3).若Σ₁≠Σ₂,可仿照上面对式(5.16)作推广,参见参考文献[12].5.3.2多总体的Bayes判别从上面的讨论可知,Bayes判别的本质就是寻找一种适当的判别准则,使得平均误判损失ECM达到最小.在两总体情形下,由式(5.15)可知,若假设所有错判损失相同,即设L(2|1)=L(1|2)=C,那么要ECM尽量小,相当于要p₁P(1|1)+p₂P(2|2)尽量大,这有助于理解多总体Bayes判别所用的判别准则.设有k个总体G₁,G₂,…,Gx,其各自的分布密度函数为f(x),f2(x),…,fk(x),相应的先验概率分别为p₁,p₂,…,pk,并假设所有的错判损失相同,对待判样品x,相应的判别准则为:(5.20)以下只对G₁,G₂,…,Gk均为正态总体,即进行讨论.当k个总体的协方差矩阵都相同,即时,总体Gi 的密度函数为:计算函数在计算过程中,协方差矩阵Σ可用其估计式代替.当k个总体的协方差矩阵不全相同时,总体Gj的密度函数为:则相应计算函数在计算过程中,协方差矩阵Σj可用其估计式代替.判别准则式(5.20)等价于【例5.3】(数据文件为eg5.3)表5-1是某气象站预报有无春旱的数据资料,x₁和x₂是两个综合性预报因子.表中给出了有春旱的6个年份数据和无春旱的8个年份数据.它们的先验分布用各组数据出现的比例(6/14,8/14)来估计,并假设误判损失相等,试用Bayes判别法对数据进行分析.表5-1某气象站有无春旱的数据资料解:先在eg5.3中选取G,x1,x₂三列数据,然后复制,回到R命令窗口中输入如下命令后再确定,就可将复制的数据读入R.R程序及结果如下:>d5.3=read.table("clipboard",header=T)>attach(d5.3)>library(MASS)>1d=1da(G~x1+x2,prior=c(6,8)/14)>1dCall:lda(G~x1+x2,prior=c(6,8)/14)Prior probabilities of groups:1 20.4285714 0.5714286#若先验概率未知,可以先设为均匀分布,即prior=c(0.5,0.5) Groupmeans:x1 x21 25.31667 -2.4166672 22.02500 -1.187500Coefficients of linear discriminants:LD1x1 -0.6312826x2 1.0020661再用函数predict()对原始数据进行回判分类,并与lda()的输出结果进行对比,R程序及结果如下:>Z=predict(1d)>newG=Z$class>cbind(G,newG,Z$x)#Z$x为判别函数的值G newG LD11 1 1 -1.14755452 1 1 -1.10648313 1 1 -3.28592944 1 2 -0.22668045 1 1 -1.68965906 1 1 -3.89116217 2 2 1.85959468 2 2 1.4737896......13 2 2 1.358561514 2 2 1.7002528>tab=table(G,newG)>tabnewgG 1 21 5 12 0 8>sum(diag(prop.table(tab)))[1] 0.9285714程序输出说明,第一组样本中只有第4号样本被误判入第二组,第二组样本回判全部正确,回判符合率为92.857%.我们还可以用命令Z$post计算后验概率:>Z$post1 21 0.9386546174 6.134538e-022 0.9303445828 6.965542e-023 0.9999448424 5.515761e-05......13 0.0038092358 9.961908e-0114 0.0012325974 9.987674e-015.4案例分析与R实现案例5.1(数据文件为case5.1)表5-2中列出了1994年我国30个省、直辖市、自治区影响各地区经济增长差异的制度变量数据,分为两组.其中,x₁为经济增长率(%);x₂为非国有化水平(%);x₃为开放度(%);x₄为市场化程度(%).借助R 软件,分别用两总体的距离判别法、Fisher判别法和Bayes判别法进行判别分析,并对江苏、安徽和陕西三个待判地区作出判定.(注:样本号为28,29,30的待判样品的类别先暂定为2,待实际判别分析后再确定,这样做的好处是录入和处理数据较为方便.)表5-2 1994年我国30个省、直辖市、自治区影响各地经济增长差异的制度变量数据解:(1)距离判别法.要读入Excel数据,先在case5.1中选取数据区域D1:H31(注意:要连待判数据一起选),然后复制,回到R命令窗口中输入如下命令后再确定,就可将复制的数据读入R.然后把本章附录中两总体距离判别程序“DDA2.R”放到当前工作目录下,再载入R并执行,还可以用var(classG1)和var(classG2)分别计算两个训练样本的协方差矩阵,结果发现它们明显不相等.R程序及结果如下:>case5.1=read.table("clipboard",header=T) #将已复制到剪贴板中的数据读入R>attach(case5.1) #把数据变量名字放入内存>classG1=case5.1[1:11,2:5] #选取训练样本1>classG2=case5.1[12:27,2:5] #选取训练样本2>newdata=case5.1[28:30,2:5] #选取待测样本用于后面判定>source("DDA2.R") #载入自编程序DDA2.R>DDA2(classG1,classG2) #执行程序DDA2.R1 2 ... 8 9 10 11 12 13 (24)25 26 27blong 1 1 ... 1 1 2 1 2 2 (2)2 2 2回代判别的结果说明只有第10号样本“广西”被错判入第二组,判别符合率为26/27=96.3%.最后对江苏、安徽和陕西三个样本进行判定(样本号为28,29,30),数据已包含在newdata中,R程序为:>DDA2(classG1,classG2,newdata)#对待判样本newdata进行判定1 2 3blong 1 2 2输出结果第一行中的1,2,3分别表示江苏、安徽和陕西三个待测样本(样本号为28,29,30),判别结果是江苏被判入第一组,安徽和陕西均被判入第二组.(2)Fisher判别法也是先要读入数据,在case5.1中选取数据区域D1:H28(注意:这里不选待判数据,因为lda()函数要使用已有的各列数据作为变量来建立判别模型),然后复制,回到R命令窗口中输入如下命令后再确定,就可将复制的数据读入R.R 程序及结果如下:>case5.1=read.table("clipboard",header=T)>attach(case5.1)>library(MASS)>1d=1da(G~x1+x2+x3+x4)>ldCalllda(G~x1+x2+x3+x4)Prior probabilities of groups:1 20.4074074 0.5925926Groupmeans:x1 x2 x3 x41 15.73636 65.02818 25.149091 74.3502 11.56250 40.10625 9.228125 58.105Coefficients of linear discriminants:LD1x1 -0.06034498x2 -0.01661878x3 -0.02532111x4 -0.08078449以上输出结果中包括lda()所用的公式、先验概率、各组均值向量、第一线性判别函数的系数.再用predict()函数对原始数据进行回判分类,将lda()判别的输出结果与原始数据真正的分类进行对比.R程序及结果如下:>Z=predict(ld) #预测判定结果>nevG=Z$class #新分类>cbind(G,newG,Z$x) #合并原分类、新分类及判别函数值G newG LD11 1 1 -0.636598122 1 1 -0.85792242....9 1 1 -3.8115753710 1 2 0.1086677611 1 1 -0.65403492....26 2 2 2.2650082627 2 2 1.52288285>tab=table(G,newG) #原分类和新分类列表比较>tabnevGG 1 21 10 12 0 1>sum(diag(prop.table(tab))) #计算判别符合率[1] 0.962963可见,只有第一组中的第10号样品“广西”被错判入第二组,与距离判别法结果一致.还可以用命令sum(diag(prop.table(tab)))计算判别符合率.最后对三个待判样本进行判定.先要读入待判样本数据,在case5.1中选取待判样本数据区域D1:H31(注意:要连待判数据一起选),然后复制,回到R命令窗口中输入如下命令后再确定,将复制的数据读入R.在其基础上选取待判样本数据.R程序及结果如下:>case5.1=read.table("clipboard",header=T)>newdata=case5.1[28:30,2:5] #选取待判样本用于下面判别>predict(ld,newdata=newdata)$class[1] 1 2 2Levels: 1 2$posterior1 228 0.87303785 0.126962229 0.48273895 0.517261130 0.01957491 0.9804251$xLD128 -1.187448129 -0.348841830 1.2655298说明:由$class可以看出28号样本被判人第一组,29,30号样本被判入第二组,结果与距离判别法一致;$x给出了线性判别函数的值.(3)Bayes判别法Bayes判别法和Fisher判别法类似,不同的是在使用函数lda()时要输入先验概率.它们的先验概率用各组数据出现的比例(11/27,16/27)来估计(默认情形),并假设误判损失相等.同Fisher判别法的分析过程一样,先复制数据,读入R,具体操作及结果如下:>case5.1=read.table("clipboard",header=T)>attach(case5.1)>library(MASS)>1d=lda(G~x1+x2+x3+x4,prior=c(11/27,16/27))>ldCall:lda(G~x1+x2+x3+x4,prior=c(11/27,16/27))Prior probabilities of groups:1 20.4074074 0.5925926Groupmeans:x1 x2 x3 x41 15.73636 65.02818 25.149091 74.3502 11.56250 40.10625 9.228125 58.105Coefficients of linear discriminants:LD1x1 -0.06034498x2 -0.01661878x3 -0.02532111x4 -0.08078449>Z=predict(ld)>newG=Z$class>cbind(G,newG,Z$x)G newG LD11 1 1 -0.636598122 1 1 -0.85792242....9 1 1 -3.8115753710 1 2 0.1086677611 1 1 -0.65403492....26 2 2 2.2650082627 2 2 1.52288285>tab=table(G,newG)>tabnewGG 1 21 10 12 0 16>sum(diag(prop.table(tab))[1] 0.962963判别结果与距离判别法、Fisher判别法一致.另外,Bayes判别法对三个样本数据的判别过程和判定结果也与Fisher判别法相同.习题5.1在定理5.1的假设下,证明:当μ₁≠μ₂时,有μ₁y-μ₂>0及μ2y-μy<0成立.5.2(数据文件为ex5.2)根据经验,今天的湿温差x₁和气温差x₂是预报明天下雨或不下雨的两个重要因子,试就表5-3中的数据建立Fisher线性判别函数进行判别.又设今天测得x₁=8.1,x₂=2.0,问:应该预报明天是雨天还是晴天?表5-3 雨天和晴天的湿温差x₁和气温差x₂续前表5.3(数据文件为ex5.3)某企业生产的产品,其造型、性能和价位及所属级别如表5-4所示.试利用表中数据,使用Fisher判别法和Bayes判别法进行判别分析.表5-4 某企业产品的造型、性能、价位及级别等指标序号造型性能价位级别13342872286577337775614164379153446841617556827487851286562692944796021037542731188874531256733631338567631477288435.4(数据文件为ex5.4)在研究砂基液化问题中,选了七个因子.今从已液化和未液化的地层中分别抽了12个和23个样本,其中1类表示已液化类,2类表示未液化类.试用距离判别法对原来的35个样本进行回代分类并分析误判情况.表5-5 砂基液化原始分类数据编号类别x1 x2 x3 x4 x5 x6 x71 1 6.6 39 1.0 6.0 6 0.12 202 1 6.6 39 1.0 6.0 12 0.12 203 1 6.1 47 1.0 6.0 6 0.08 124 1 6.1 47 1.0 6.0 12 0.08 125 1 8.4 32 2.0 7.5 19 0.35 756 1 7.2 6 1.0 7.0 28 0.30 307 1 8.4 113 3.5 6.0 18 0.15 758 1 7.5 52 1.0 6.0 12 0.16 409 1 7.5 52 3.5 7.5 6 0.16 4010 1 8.3 113 0.0 7.5 35 0.12 180续前表编号类别T1 T2 Z3 Z4 T5 Z6 T711 1 7.8 172 1.0 3.5 14 0.21 4512 1 7.8 172 1.5 3.0 15 0.21 4513 2 8.4 32 1.0 5.0 4 0.35 7514 2 8.4 32 2.0 9.0 10 0.35 7515 2 8.4 32 2.5 4.0 10 0.35 7516 2 6.3 11 4.5 7.5 3 0.20 1517 2 7.0 8 4.5 4.5 9 0.25 3018 2 7.0 8 6.0 7.5 4 0.25 3019 2 7.0 8 1.5 6.0 1 0.25 3020 2 8.3 161 1.5 4.0 4 0.08 7021 2 8.3 161 0.5 2.5 1 0.08 7022 2 7.2 6 3.5 4.0 12 0.30 3023 2 7.2 6 1.0 3.0 3 0.30 3024 2 7.2 6 1.0 6.0 5 0.30 3025 2 5.5 6 2.5 3.0 7 0.18 1826 2 8.4 113 3.5 4.5 6 0.15 7527 2 8.4 113 3.5 4.5 8 0.15 7528 2 7.5 52 1.0 6.0 6 0.16 4029 2 7.5 52 1.0 7.5 8 0.16 4030 2 8.3 97 0.0 6.0 5 0.15 18031 2 8.3 97 2.5 6.0 5 0.15 18032 2 8.3 89 0.0 6.0 10 0.16 18033 2 8.3 56 1.5 6.0 13 0.25 18034 2 7.8 172 1.0 3.5 6 0.21 4535 2 7.8 283 1.0 4.5 6 0.18 455.5(数据文件为ex5.5)表5-6是某金融机构客户的个人资料.对一个金融机构来说,对客户信用度的了解至关重要,因为利用这些资料,可以挖掘出许多重要的信息,建立客户的信用度评价体系.所选8个指标:x₁为月收入;x₂为月生活费支出;x₃是虚拟变量,住房的所有权属于自己的为“1”,租用的为“0”;x₄为目前工作的年限;x₅为前一个工作的年限;x₆为目前住所的年限;x₇为前一个住所的年限;x₈为家庭赡养的人口数;G为信用度级别,信用度最高为“5”,信用度最低为“1”.试对表5-6中的数据进行Fisher判别分析;又若一位新客户的8个指标分别为(2500,1500,0,3,2,3,4,1),试对该客户的信用度进行评价.表 5-6某金融机构客户的个人信用度评价数据序号x1 x2 x3 x4 x5 x6 x7 x8 G1 1000 3000 0 0.1 0.3 0.1 0.3 4 12 3500 2500 0 0.5 0.5 0.5 2 1 13 1200 1000 0 0.5 0.5 1 0.5 3 14 800 800 0 0.1 15 1 3 1续前表序号x1 x2 x3 x4 x5 x6 x7 x8 G5 3000 2800 0 1 2 3 4 3 16 4500 3500 0 8 2 10 1 5 27 3000 2600 1 6 1 3 4 2 28 3000 1500 0 2 8 6 2 5 39 850 425 1 3 3 25 25 1 310 2200 1200 1 6 3 1 4 1 311 4000 1000 1 3 5 3 2 1 412 7000 3700 1 10 4 10 1 4 413 4500 1500 1 6 4 4 9 3 414 9000 2250 1 8 4 5 3 2 515 7500 3000 1 10 3 10 3 4 516 3000 1000 20 5 15 10 1 517 2500 700 10 5 15 5 3 55.6(数据文件为ex5.6)为了研究中小企业的破产模型,选定4个经济指标:x₁为总负债率(现金收益/总负债);x₂为收益性指标(纯收入/总财产);x₃为短期支付能力(流动资产/流动负债);x₄为生产效率性指标(流动资产/纯销售额).对17个破产企业(1类)和21个正常运行企业(2类)进行了调查,得如下资料(见表5-7).试对表5-7中的数据进行Bayes判别分析并对8个待判样品类别进行判定.表5-7 中小型企业破产模型经济指标续前表附录附录1(两总体G₁和G₂距离判别的R程序“DDA2.R”)DDA2<-function(TrnG1,TrnG2,TstG=NULL,var.equal=FALSE){if(is.null(TstG)==TRUE)TstG<-rbind(TrnG1,TrnG2)if(is.vector(TstG)==TRUE)TstG<-t(as.matrix(TstG))elseif(is.matrix(TstG)!=TRUE)TstG<-as.matrix(TstG)if(is.matrix(TrnG1)!=TRUE)TrnG1<-as.matrix(TrnG1)if(is.matrix(TrnG2)!=TRUE)TrnG2<-as.matrix(TrnG2);nx<-nrow(TstGblong<-matrix(rep(0,nx),nrow=1,byrow=TRUE,dimnames=list("blong ",1:nx))mu1<-colMeans(TrnG1);mu2<-colMeans(TrnG2)if(var.equal==TRUE||var.equal==T){S<-var(rbind(TrnG1,TrnG2))w<-mahalanobis(TstG,mu2,S)-mahalanobis(TstG,mu1,S)}else{S1<-var(TrnG1);S2<-var(TrnG2)w<-mahalanobis(TstG,mu2,S2)-mahalanobis(TstG,mu1,S1)}for(iin1:nx){if(w[i]>0)blong[i]<-1elseblong[i]<-2}blong在该程序中,输入变量TrnG1和TrnG2分别表示来自总体G₁和G₂的训练样本,其输入格式是数据框或矩阵(样本按行输入);输入变量TstG是待测样本,其输入格式是数据框、矩阵(样本按行输入)或向量(一个待测样本).如果不输入TstG(默认值),则待测样本为两个训练样本之和,即计算训练样本的回判情况.输入变量var.equal是逻辑变量,var.equal=TRUE表示两个总体的协方差矩阵相同,否则(默认值)为不同.函数的输出是由“1”和“2”构成的一维矩阵,“1”表示待测样本属于G₁类,“2”表示待测样本属于G₂类.当两总体样本协方差矩阵相同时,该程序的使用命令为:DDA2(classG1,classG2,var.equal=TRUE).当两总体样本协方差矩阵不相同时,该程序的使用命令为:DDA2(classG1,classG2),附录2(多总体距离判别的R程序“DDAM.R”)DDAM<-function(TrnX,TrnG,TstX=NULL,var.equal=FALSE){if(is.factor(TrnG)==FALSE){mx<-nrow(TrnX);mg<-nrow(TrnG)TrnX<-rbind(Trnx,TrnG)TrnG<-factor(rep(1:2,c(mx,mg)))}if(is.null(TstX)==TRUE)TstX<-TrnXif(is.vector(TstX)==TRUE)TstX<-t(as.matrix(TstX))elseif(is.matrix(TstX)!=TRUE)TstX<-as.matrix(TstX)if(is.matrix(TrnX)!=TRUE)TrnX<-as.matrix(TrnX)nx<-nrow(TstX)blong<-matrix(rep(0,nx),nrow=1,dimnames=list("blong",1:nx))g<-length(levels(TrnG))mu<-matrix(0,nrow=g,ncol=ncol(Trnx))for(iin1:g)mu[i,]<-colMeans(TrnX[TrnG==i,])D<-matrix(0,nrow=g,ncol=nx)if(var.equal==TRUE|var.equal==T){for(iin1:g)D[i,]<-mahalanobis(Tstx,mu[i,],var(TrnX))}else{for(iin1:g)D[i,]<-mahalanobis(Tstx,mu[i,],var(Trnx[TrnG==i,]))}。
chap05 判别分析

∑q
l
= 1.则判别D1 , D2 ,, Dk
k k
所造成的误判损失的期望 — —平均误判损失为:
g ( D1 ,, Dk ) =
∑ q ∑ l P( j | i) = ∑∑ q l P( j | i).
i ij i ij i =1 j =1 i =1 j =1
Bayes判别就是使平均误判损失g ( D1 ,, Dk )达到 最小的一个判别{D1 , D2 ,, Dk }.
多元统 计分析
第五章 判别分析
一,判别分析的基本概念 二,Bayes判别准则 判别准则 两个类的Bayes判别 三,两个类的 判别 个类的Bayes判别 四,k个类的 个类的 判别 五,Fisher判别准则 判别准则 六,用SPSS做判别分析 做判别分析
转向练习
多元统 一,判别分析的基本思想 计分析 让我们来看几个建模比赛的题目: 让我们来看几个建模比赛的题目: 1,AMCM-89A:蠓虫分类 , : 2,CUMCM-00A:DNA序列分类 , : 序列分类
Dl = {x | ql f l ( x) > q j f j ( x), j ≠ l , j = 1,2,, k}, l = 1,2, k .
多元统 计分析
Dl = {x | ql f l ( x) > q j f j ( x), j ≠ l , j = 1,2,, k}, l = 1,2, k .
第5章判别分析fisher判别等

Discriminant analysis
判别分析
用于判别样本所属类型的统计分析方法 基因识别:根据某一DNA序列的核苷酸组分、信号特 征等指标,判别是否编码蛋白序列? 医学诊断:某一病人肺部存在阴影,判别:
肺结核?良性肿瘤?肺癌? 人类考古学:根据头盖骨的特征,判别:民族、性别、 生活年代? 股票分析预测: 气象分析预测: 自然灾害分析预测: ……
p k 1
(
x (1) ki
x (1) i
)(
x (1) kj
x
(1) j
)
s(2) ij
1 q 1
q
(
x(2) ki
k 1
x (2) i
)(
x(2) kj
x
( j
2)
)
i, j 1,2,..., n i, j 1,2,..., n
Discriminant analysis
Discriminant analysis
判别分析问题 设有k个m维的总体G1, G2, …, Gk, (1). 它们的分布特征已知,可以表示为F1(x), F2(x), …,
Fk(x) (2). 或者知道来自各个总体的样本(训练样本)。 对于给定的一个未知样本X(检测样本),判别X属于
哪个总体。 多元的、复杂的、高度综合的统计分析问题
ss12((1ll1))
s(l) 12
s(l) 22
... ....
s(l) 1n
s(l) 2n
1ቤተ መጻሕፍቲ ባይዱ
x1 x2
判别分析

P273
• 4、classify的设定
用于分类的先 验概率
选择计算时的 协方差矩阵 输出判别分析正确 或错误分组的个数 交叉验证
• 结果:
标准化的典型判别函数的系数
Fisher线性判别函数
关于不同判别函 数的作用
• 例:有一个样本,四个自变量的取值分别为 50、33、14,2,判定它到底归属于哪一类。 • 第一种:非标准化的辨别函数: • Step1: • D1=-2.526-0.063 x50-0.155 x33+0.196 x 14+0.299 x2=-7.499 • D2=-6.987+0.007 x50+0.218 x33-0.089 x 14+0.271 x2=-0.147 • Step2:领域图
逐步分析方法。当认为不是 所有自变量都能对观测量特 性提供信息时,选择该项, 因此需要判别贡献的大小再 进行选择。选中该单选按钮 时,“Method”按钮被激活, 可以进一步选择判别分析方 法。
• 3、statistic的设定
自变量的分组及平均数 与标准差 自变量的单因素方差分析 组间协方差矩阵的检验
判别分析
• §1. 基本原理 • §2. 基本步骤 • §3. 实例分析
§1. 基本原理
• 定义:判别分析先根据已知类别的事物的性质 (自变量),建立函数式(自变量的线性组合, 即判别函数),然后对未知类别的新事物进行 判断以将之归入已知的类别中。 • 判别分析是一种有效的对个案进行分类分析的 方法。和聚类分析不同的是,判别分析时,组 别的特征已知。 有学者在研究中提出,可以利 用判别分析来对聚类分析结果的准确性进行检 验。聚类
• 练习:iris.Sav
• 作业:4-26.sav
判别分析的原理及其操作

判别分析的原理及其操作1 判别分析的原理1.1 判别分析的涵义判别分析(Discriminant Analysis,简称DA)技术是由费舍(R.A.Fisher)于1936年提出的。
它是根据观察或测量到的若干变量值判断研究对象如何分类的方法。
具体地讲,就是已知一定数量案例的一个分组变量(grouping variable)和这些案例的一些特征变量,确定分组变量和特征变量之间的数量关系,建立判别函数(discriminant function),然后便可以利用这一数量关系对其他已知特征变量信息、但未知分组类型所属的案例进行判别分组。
沿用多元回归模型的称谓,在判别分析中称分组变量为因变量,而用以分组的其他特征变量称为判别变量(discriminant variable)或自变量。
判别分析技术曾经在许多领域得到成功的应用,例如医学实践中根据各种化验结果、疾病症状、体征判断患者患的是什么疾病;体育选材中根据运动员的体形、运动成绩、生理指标、心理素质指标、遗传因素判断是否选入运动队继续培养;还有动物、植物分类,儿童心理测验,地理区划的经济差异,决策行为预测等。
1.2 判别分析的假设条件判别分析的基本条件是:分组变量的水平必须大于或等于2,每组案例的规模必须至少在一个以上;各判别变量的测度水平必须在间距测度等级以上,即各判别变量的数据必须为等距或等比数据;各分组的案例在各判别变量的数值上能够体现差别。
判别分析对判别变量有三个基本假设。
其一是每一个判别变量不能是其他判别变量的线性组合。
否则将无法估计判别函数,或者虽然能够求解但参数估计的标准误很大,以致于参数估计统计性不显著。
其二是各组案例的协方差矩阵相等。
在此条件下,可以使用很简单的公式来计算判别函数和进行显著性检验。
其三是各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。
1.3 判别分析的过程1.3.1 对已知分组属性案例的处理此过程为判别分析的第一阶段,也是建立判别分析基本模型的阶段,即分析和解释各组指标特征之间的差异,并建立判别函数。
判别分析课件

断
○○○○○●●●●
界
○○○●●●●
值
○○●●●
○●●●
X平面
X平面
判别分析的应用: 1、用于临床上疾病的诊断和鉴别诊断。 2、疾病发病的预测 3、病人预后的预测
判别分析的分类
1、按类别分:二类判别 多类判别
Fisher、Bayes
2、方法:Fisher判别分析(距离判别) Bayes判别分析(概率判别) 非参数判别分析
详细资料见:皮质醇.xls
原始数据
整理数据
分析方法
分析方法
分析方法
Wilks λ统计量最小化 相邻两组马氏距离最大化
组间不可解释方差和最小化
分析方法
分析方法
分析结果
判别函数式:
新病人的数据分别代入,哪个值 大就判归哪种类型。
Y1=0.222ACTH8+3.985转移+8.595FHIT+4.744Ki-67-20.014 Y2=0.080ACTH8+3.647转移+6.246FHIT+4.239Ki-67-8.848 Y3=0.019ACTH8+14.462转移+4.153FHIT+9.483Ki-67-11.968
常数项
回归系数
构造判别函数式:
p yj|x 1 e 1 j x 1 e 1 j 1 x
j=1,2,3,….
新病人回代,哪个值大判归哪类。
Y=0的概率:
P y 0 1 e 5 .1 7 2 .3 2F 84 H 1 1 .7IK 5 T 6 8 i 2 7 .0P 56 CNA
判别分析的根本原理:
Y平面
诊断界值
○○○○○○○● ○○○○○○● ○○○○○●●●● ○○○●●●● ○○●●● ○●●●
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四讲 判别分析第一节 判别分析概述1.1 判别分析的任务假设事先存在若干个已知类(group),判别分析是研究将一个新的个体(case),用什么方法将它分到最合适的已知类中去。
1.2 数学描述设有m 个已知类:G 1, G 2, … ,G m ,类的特征由p 个变量X 1,X 2,…,X p 决定,这p 个变量也叫判别指标。
今后用一个p 维向量),...,,(21'=p X X X x表示;类G i 含n i 个个体,其弟k 个个体(特征)为:m i n k XXXx i i kpi k i k i k ,...,2,1,,...,2,1,),...,,()()(2)(1)(=='=并且有:∑==mi inn 1。
现有一个新的个体),...,,()0()0(2)0(1)0('=pX X X x,设计一种归类的方法,将)0(x归入最适合它的已知类中去。
第二节 判别函数2.1 判别的基本方法是把新个体归入与它性质最相近的类。
在表达“性质最相近”时,有时候是的距离远近衡量,有时候用损失的大小表示。
不管用什么方法表达,都离不开判别函数。
2.2 判别函数1.形式 (线性)判别函数是判别指标(变量)的线性函数q s x c Xc X c X c f s psp s s s ,...,2,1,2211='=+++=其中,向量:q s c c c c sp s s s ,...,2,1,),...,,(21='= (<p )2.本质 判别函数是一组由R p →R q 的映射,它把一个原本属于高维空间的问题转换成为一个维数较低的空间问题。
我们把空间R p 中原始已知类G i 经过f s 映射后在空间R q 中的像记为f s (G i )。
3.判别函数应具备的基本要求判别函数是从高维空间R p 到较低维空间R q 的一组线性变换,为了使低维空间内的判别工作变得更容易,很自然地对判别函数提出两个基本要求:(1)空间R p 中的原始类:G 1,G 2,…,G m 在空间R q 中的像集合f (G 1),f (G 2),…,f (G m )应该容易区分,即这些像集合之间应有较大的间隔空间;(2)每个原始类G i 的像集合f (G i ),其元素在空间的分布上应较为集中,或者说f (G i )有较大的“密度”。
4.基本要求的数学表达 (1)引入一些符号: 像集合f (G i )的中心:mi x f n fi n k i k ii ,...,2,1,)(11)()(==∑=像空间R q 中,所有像点的中心:∑∑∑=====m i i i m i n k i k fn nx f nf i 1)(11)(1)(1(2)定义两个平方和: 组内平方和(Within Groups)∑∑==-=m i n k i i ki ffSW112)()()(组间平方和(Between Groups)21)()(∑=-=m i i i f fn SB我们看到:SB 可以表示R q 中类间的间隔,SW 则是R q 中类的密度大小的一种度量。
因此,对判别函数提出的两个基本要求就被表示成为:SB 要充分大,SW 要尽可能小。
5)特征值(Eigenvalue)SWSB Eigenvalue=可见,对于一个判别函数来说:特征值越大,区别已知类的能力就越强。
这是比较判别函数好坏的一个重要指标。
第三节 典型判别函数(Cannonical Discriminant)3.1 判别函数的获得获得判别函数的过程就是根据样本对判别函数中的系数作出估计的过程。
由于采用的估计方法不同,也就派生出不同的判别法:距离判别,F isher 判别,Bayes 判别等。
3.2 典型判别基于典型相关分析原理估计判别参数,并用得到的判别函数进行判别分析,这种做法叫典型判别分析。
普通相关分析是在两个变量X 和Y 之间进行,典型相关分析则是在两组变量(X 1,…,X p )和(Y 1,…,Y m )之间进行,也就是考察两个向量之间的相关关系。
现在,向量),...,,(21'=p X X X x代表判别指标,而向量),,(1'=m Y Y y其中m i G x G x Y ii i ,,2,101=⎩⎨⎧∉∈=如果如果 如果判别函数是:qs Xc x f pj jsj s ,,2,1)(1==∑=它的系数c s j 的估计过程,也是求x和y的典型变量过程。
第四节 判别效果的检验以下的统计检验,都要求已知类),(~)(i i p i N G ∑μ ,i =1,2,…,m ;并且协方差矩阵相等:∑1=∑2=⋯=∑m 。
4.1 判别函数有效性检验实际是已知类G 1,G 2,…,G m 在所选判别指标与样本数据之下,能否被区别的检验。
检验的原假设是:H 0:μ1=μ2=⋯=μp其中的:μi =E(X i ),i =1,2,…,p . 如果原假设显著,则所采用的判别指标),,,(21'=p X X X x无法区分已知类G 1,G 2,…,G m 。
这也就等于说:判别函数无效。
此项检验所用的统计量是威尔克斯Λ(Wilks ’ lambda ),在原假设H 0为真时,它服从Wilks 分布:Λ~Λ(m , n-p , p-1),这个分布也可以用χ2分布来近似。
在SPSS 判别分析输出文件中,这部分检验见Summary of Canonical Discriminant Functions 中的Wilks ’ lambda 表格。
*4.2 协方差矩阵相等的Box 检验(Box ’s test of equality of variance matrices)原假设H 0:∑1=∑2=⋯=∑m ,其中∑i 是已知类G i 的协方差。
检验统计量为Box ’s M ,原假设H 0为真时,该统计量近似服从F 分布。
在SPSS 输出文件中有相关检验结果。
4.3 判别指标的显著性检验(Test of equality of group means) 1.这项检验是逐个检查每个判别指标,其类平均值在一定的显著性水平下是否有显著差异,也就是能否用来当作分类特征。
原假设H i0:)()(2)(1i p i i μμμ=== , i =1,2,…,m其中,)(i j μ是变量X j 在已知类G i 上的均值。
此假设即:被检验指标的类平均值无显著差异,即该指标不能当作分类特征。
检验统计量是Wilk s’lambda,在原假设H0为真时,它服从第一自由度为m-1,第二自由度为n-m-(p-1)的F分布,这里n为样本容量。
在SPSS判别分析的输出文件中有这一检验的详细列表。
例如:在0.05的显著性水平下,检验结果输出的Sig.值大于0.05,则接受原假设,该指标不能用作分类特征;反之,如Sig.值小于0.05,则否定原假设,该指标可以用作分类特征。
2.如果检验结果表明有多项判别指标不显著,就要考虑逐步判别。
这一过程有如回归分析中的逐步回归。
最后得到的判别函数中,不包含不显著变量。
第五节判别分析举例例数据data07,该文件的前15个观察值是15个确诊病例,第16个观察值是待判病例。
判别指标为:铜蓝蛋白(X1)、蓝色反应(X2)、尿引哚乙酸(X3)、中性硫化物(X4)。
试作判别分析。
检验的显著性水平取0.05。
打开Discriminant Analysis对话框。
将四个判别变量输入Independents,将变量gp输入Grouping Variable,并定义最小值Minimum=1,最大值Maximum=3。
点击,选择其中的Means、UnivariateANOVAs、Box’s和Unstandardize,返回,点击Territorial Map,返回,点击Save,选择Predicted group membership和Probabilities of groupmembership1.判别函数概况这是标准化典型判别函数的系数,写成函数便是:4321243211608.0600.0811.0175.0299.0662.0596.0453.0XX XX f XXXX f ++--=+++=这是非标准化判别函数的系数,写出来便是:448.5062.0160.0055.0004.0784.8031.0176.0040.0010.04321243211+++--=-+++=X X XX g XXXX g这是结构矩阵,实际是判别函数与判别变量之间的相关系数矩阵,表中数据为Pearson 相关系数。
2.判别函数的判别能力与显著性检验这是特征值表。
判别函数f 1的特征值为3.044,f 2的特征值为0.207,函数f 1的判别能力大于f 2。
方差百分比(% of Variance )的算法为:207.0044.3207.0%4.6,207.0044.3044.3%6.93+=+=函数f 1能够解释绝大部分方差。
典型相关系数(Canonical Correlation)显示第一对典型变量的相关系数是0.868,第二对典型变量的相关系数是0.414。
这是判别函数显著性检验。
原假设都是所列判别函数不显著。
可见在0.05的显著性水平下,用f 1, f 2两个函数判别,Sig.= 0.034,判别效果显著;单用f 2判别,S ig.=0.577,判别效果不显著。
3.判别指标的显著性检验原假设为:H 0:)3()2()1(kkk μμμ==均值的上标为类指标,下标k为变量指标,k=1,2,3,4分别对应四个指标变量。
原假设的含义就是该变量不显著。
在0.05的显著性水平下,蓝色反应、尿引哚乙酸显著,铜蓝蛋白、中性硫化物不显著。
4.不同类的判别函数值特点参阅Territorial Map(此图太大,不便复制,参阅系统生成的图形),图中显示:第一类病人(胃癌患者)f1值偏大,第二类病人(萎缩性胃炎患者)f2值偏大,第三类病人(一般胃病患者)f1、f2的值都不大。
5.类协方差矩阵相等的检验原假设为H0:∑1=∑2=∑3,即三个类的协方差矩阵相等。
现有结果Sig.=0.357,接受原假设。
6.预测这是非标准化判别函数的类中心坐标值。
各观察值就要按照到哪个中心距离近归类。
附录:关于Wilks ’ lambda 统计量记总体G i 的容量为n i 的样本为:mi n k X X X x i i kp i k i k i k ,...,2,1,,...,2,1),,,()()(2)(1)(=='=并有∑==mi inn 1。
定义以下矩阵:1.合并组内离差阵:∑∑=='--=mi n k i i k i i k ix x x x A 11)()()()())(( 2.组间离差阵:∑='--=m i i i i x xx xn B 1)()())((称行列式之比:BA A +=Λ为Wilks ’统计量。