第五章 判别分析(第1、2节 绪论、距离判别法)

合集下载

数学地质系列______5判别分析

数学地质系列______5判别分析

(2)非线性判别函数
双变量: y=c1x1+c2x22 或
y=c1x12+c2x2
多变量:y=c1x1i+c2x2i+„+ckxki
i=1,为线性判别函数
i>=2,为非线性函数
一般情况下,若样品有m个变量,那么新变量y形式为:
y c1 x1 c 2 x 2
cm xm c j x j
主要思想:用统计方法将待判的未知样品与已知类 型样品进行类比,以确定待判样品应归属于哪一类。
矿产预测、地球化学分析、石油及天然气地质中都有 大量的判别类型的问题,
如,判别岩石类型、地层时代、古生物种属、判别钻井穿
过的层位的含油性、判别沉积相、判别地层的生油条件等
10
4、判别分析的具体做法
在已知类型(如A、B、C三类)中抽取样本, 然后根据每个样品的多个指标经过数学运算处理,建立每
= x - μ Σ Σ
-
1 2
-
1 2
x - μ
26
= x - μ Σ-1 x - μ
3、若变量之间是相互无关的,则协方差矩阵为对角矩阵
11 22 Σ
1 11 Σ 1 pp
另有8个待判样品。
利用SPSS软件进行计算: 由样本值得统计量F=14.4644,
对于给定的显著水平α =0.01,查表得临界值 F0.01 (4,5)
=11.4,由于
F F ,则拒绝 H0 ,
这说明A盆地和B盆地的盐泉特征有显著性的差异,
因此进行判别分析是有意义的。
下面进行判别分析:
两组间平方距离(马氏距离)为37.029

应用多元统计分析课后习题答案高惠璇第五章部分习题解答

应用多元统计分析课后习题答案高惠璇第五章部分习题解答

u (2) a (2)
1 89765
(32,33)
2205
1465 4.8897 89765
u (1) u (2)
当X (1)
20 20
时,
u(
X
(1)
)
1 89765
(32,33)
20 20
4.3390
因u( X (1) ) 4.3390 u* , 判X (1) G2.
当X (1)
15 20
解 : (a) (ad )2 (ad )(ad )
aSa
aSa
a( X
(1)
X
(2) )( X aSa
(1)
X
(2) )a
def
aBa aSa
1
其中1为S 1B的最大特征值,且仅当a 1对应的
特征向量时等号成立.
又S 1B ( X (1) X (2) )( X (1) X (2) )S 1与
判X G2 , 当W ( X ) 0, 试求错判概率P(2 |1)和P(1| 2).
解 : 记a 1 ( (1) (2) ),W ( X ) ( X )a是X的
线性函数,当X
G1时,W
(X
)
~
N1
(
1
,
2 1
),

21
第五章 判别分析
1
E(W ( X
))
( (1)
)a
1 2
( (1)
2
PU a PU b
(1) 2
(2) 1
(1) 1
(2) 2
.
.
(b) (a)
4
第五章 判别分析
5-2 设三个总体的分布分别为: G1为N(2,0.52), G2为

判别分析

判别分析
Clause) 十六.信用证生效性条款(Valid Conditions Clause) 十七.信用证特别条款(Special Conditions)
三、信用证项下单证的流转程序
① 买卖双方签订贸易合同,在合同中规定 使用信用证方式支付货款。
② 买方向当地银行提出申请,根据所签的 贸易合同填写开证申请书,落实开证保证 金,或提供其它保证,请银行(开证行) 开证。
什么是判别分析
在气象学中,由气象资料判断明天是阴天还是晴天, 是有雨还是无雨.
在市场预测中,由调查资料判断下季度(或下个月) 产品是畅销、平常或滞销.
股票持有者根据某种股票近期的变化情况判断此 种股票价格下一周是上升还是下跌.
在环境科学中,由气象条件,污染浓度等判断该地 区是属严重污染,一般污染还是无污染.
设有k个m维总体G1,G2,…,Gk,其分布特征已知(如已 知分布函数分别为F1(x),F2(x),…,Fk(x),或知道来自各 个总体的训练样本).对给定的一个新样品X,我们要判 断它来自哪个总体.
在进行判别归类时,由假设的前提,判别的依据及处 理的手法不同,可得出不同判别方法.如距离判别,Bayes 判别,Fisher判别或典型判别,逐步判别,序贯判别等.
在地质勘探中,由岩石标本的多种特征判断地层的 地质年代,是有矿还是无矿,是富矿还是贫矿.
在体育运动中,由运动员的多项运动指标来判定游 泳运动员的"苗子"是适合练蛙泳,仰泳还是自由泳等
3
第五章 判别分析
什么是判别分析
判别分析是应用性很强的一种多元统计方法, 已渗透到各个领域.但不管是哪个领域,判别分析问题 都可以这样描述:
③开证行根据开证申请书的内容,向卖方 (受益人)开出信用证,并发往(寄交) 卖方所在地银行或代理行(统称通知行)。

五章判别分析

五章判别分析
测量变量:萼片与花瓣的长度,花瓣裂缝的深度, 苞的长度,花粉直径。 4.新产品的速购者与迟购者。 测量变量:教育,收入,家庭大小,过去更换品牌 的次数。 5.良好信用与不良信用风险。 测量变量:收入,年龄,信用卡数目,家庭规模。
每一组中所有样品的p维指标值 x x1, x2, , xp 构 成了该组的一个p元总体分布,我们试图主要从各组 的总体分布或其分布特征出发来判断新样品x是来自 哪一组的。
2
§5.1 引言
判别分类的例子: 1.有偿付力与无偿付力的财产责任保险公司。
测量变量:总资产,股票与债券价值,股票与债券 的市值,损失支出,盈余,签定的保费金额。 2.非溃疡胃病组(胃功能紊乱者)与控制组(“正常” 者)。 测量变量:焦虑、依赖性、罪恶感、完美主义的量 度
3
3.两种野草。
判别规则:


x x
1 2
, ,
若d 2 x,1 d 2 x, 2 若d 2 x,1 d 2 x, 2
d2 x,1d2 x,2=x μ1 Σ1 x μ1x μ2 Σ1 x μ2
=xΣ1x2xΣ1μ1 μ1Σ1μ1 xΣ1x2xΣ1μ2 μ2Σ1μ2
=2xΣ1 μ2 μ1 μ1Σ1μ1 μ2Σ1μ2
=2xΣ1 μ2 μ1μ1 μ2 Σ1 μ1 μ2

2
x

μ1
2
μ2

Σ1

μ1

μ2


2x

μ
a

2ax

μ
7
其中
μ

1 2

μ1

判别分析

判别分析

(1) 1 n1 (1) X i X (1) n1 i 1

( 2)
X ( 2)
(1) ( 2) 1 X X ( (1) ( 2 ) ) , 2 2 1 ( S1 S2 ), n1 n2 2
其中Si ( X
数学建模培训课件
判别分析
邱国新
qiugx02@
Def :判别分析是在已知研究对象分成若干类型(或 组别)并已取得各种类型的一批已知样品观测 数据,在此基础上根据某些准则建立判别式, 然后对未知类型的样品进行分类.
判别分析和聚类分析往往联合起来使用,当 总体分类不清楚时,可先用聚类分析对原来的一批 样品进行分类,然后再用判别分析建立判别式以对 新样品进行判别. 按照判别准则的不同,判别方法又分为距离判别 法,Fisher判别法,Bayes判别法和逐步判别法.
(1)当 (1) ( 2 ) 时, D 2 ( X , G2 ) D 2 ( X , G1 ) 2[ X
1 (1) 令 ( ( 2 ) ), 2
(1) ( 2 )
2
] 1 ( (1) ( 2 ) )
W ( X ) ( X ) 1 ( (1) ( 2 ) )
G2总体
X 1( 2 ) (2) X2 (2) Xn 2
( 2) X 11 ( 2) X 21 ( 2) Xn 21 ( 2) X 12 ( 2) X 22 ( 2) Xn 22 ) X 1( 2 p ( 2) X2p ( 2) Xn 2p
1
15
where
n1
( 1) ( 2) d k xk xk ,

第五章 判别分析 ppt课件

第五章 判别分析 ppt课件

例F1如(X错),判F的2(X概),率…最…小或FK错(X判)(的均损为失p最元小分等布。函数),希望建立一 个准则,对于一个给定样品X,依据这个准则就能判断出这个
样品来自哪个总体。
2008.8 休息一下
安徽财经大学统计与应用数学学院
统计学专业主干课程——多元统计分析
5.1.2 判别分析的基本思想
……
2008.8 休息一下
安徽财经大学统计与应用数学学院
统计学专业主干课程——多元统计分析
5.1.1 引 例
这些问题有一个共同的特点,就是事先已有“类”的划分, 或事先已对某种已知样本分好了“类”。
判别分析要解决的问题就是在已知历史上用某些方法已把研 究对象分成若干类的情况下,来判定新的观测样品属于已知类 别中的哪一类。
1、按判别的组数 2、按判别函数的形式 3、按处理变量的方法 4、按判别准则
安徽财经大学统计与应用数学学院 2008.8 休息一下
返回
统计学专业主干课程——多元统计分析
5.1.3 判别分析的类型
根据资料的性质,分为定性资料的判别分析和定量资料的 判别分析。
本章的大部分内容是讨论定量资料的判别分析。
统计学专业主干课程——多元统计分析
5.2 距离判别
5.2.1 距离判别的基本思想 5.2.2 两总体距离判别 5.2.3 多总体距离判别
1、两总体距离判别 2、应用实例
安徽财经大学统计与应用数学学院 2008.8 休息一下
返回
统计学专业主干课程——多元统计分析
5.2.2 两总体距离判别
1、两总体距离判别
2008.8 休息一下
安徽财经大学统计与应用数学学院
统计学专业主干课程——多元统计分析

判别分析

判别分析

(2) 误判率的交叉确认估计法 步骤:
第 10 页 共 18 页 第 5 章 判别分析
1) 依次 G1 − { x} , 用余 n1 − 1 + n2 个,建判别准则,. 2) 判别 x , 记录正误, 直到结束, 记录误判数 n12
*
3) 对 G2 作类似步骤, 记录误判数 n21 ,
* * n12 + n21 ˆ p = n1 + n2 * c
W1 ( x ) ≥ W2 ( x )
W1 ( x )
的均值 μ1 , μ2 和协方差 S1 , S2 代总体的均值和方差.
d 2 ( x, G2 ) − d 2 ( x, G1 )
aT ( μ1 − μ2 )T Σ −1
ˆ ( n − 1) S1 + ( n2 − 1) S2 及相应的 由此得 S = Σ = 1 n1 + n2 − 2 ˆ ˆ ⎧ x ∈ G1 , if W1 ( x ) ≥ W2 ( x ) ⎪ ⎨ ˆ ˆ ⎪ x ∈ G2 , if W1 ( x ) < W2 ( x ) ⎩ ˆ ⎧ x ∈ G1 , if W ( x ) ≥ 0 ⎪ . ⎨ ˆ ( x) < 0 ⎪ x ∈ G2 , if W ⎩
此判定与统计学上似然大小比较结果是一致的. 虽直观, 但不很方便, 其他方法.(本质相通)
第 3 页 共 18 页
1 T a1 μ1T Σ −1 ,b1 − μ1T Σ −1 μ1 2
===========− 2 [W2 ( x ) − W1 ( x )] , 此时有
T W2 ( x ) a2 x + b2
G1 的 10 号, 被判为 G2 ;
G2 的 13 号和 16 号,被判为 G3 。

距离判别分析

距离判别分析

现测得6只 蠓虫的触长,翅长数据 例1.现测得 只Apf和9只Af蠓虫的触长 翅长数据 现测得 和 只 蠓虫的触长 Apf:(1.14,1.78), (1.18,1.96), (1.20,1.86), : (1.26,2.00), (1.28,2.00), (1.30,1.96) Af:(1.24,1.72), (1.36,1.74), (1.38,1.64), : (1.38,1.82), (1.38,1.90), (1.40,1.70), (1.48,1.82),(1.54,1.82), (1.56,2.08) 若两类蠓虫协方差矩阵相等, 若两类蠓虫协方差矩阵相等,试判别以下 的三个蠓虫属于哪一类? 的三个蠓虫属于哪一类? (1.24,1.8),(1.28,1.84),( ,2.04) , ,(1.4, ,( )
如何解读计算主成分的数学表达式 我们设计算第一主成分的公式为: 我们设计算第一主成分的公式为:
Y1 = a 11 x 1 + a 12 x 2 + a 13 x 3 + a 14 x 4
的绝对值比较大, 若a11, a12 ,a14的绝对值比较大,表明第一主成 分主要提取了x1, x2 ,x4三个原始指标的信息; 三个原始指标的信息; 分主要提取了 如果此时再计算第二主成分, 如果此时再计算第二主成分,你会发现第二主 成分x 系数的绝对值就比x1, 系数的绝对 成分 3系数的绝对值就比 x2 ,x4系数的绝对 值要大, 值要大,也就是说第二主成分弥补了第一主成 分的不足. 分的不足
第四章 判别分析 判别分析利用已知类别的样本为标准, 判别分析利用已知类别的样本为标准,对未 知样本进行判类的一种统计方法。 知样本进行判类的一种统计方法。它产生于本世 30年代 近年来,在自然科学、 年代。 纪30年代。近年来,在自然科学、社会学及经济 管理学科中都有广泛的应用。 管理学科中都有广泛的应用 。 判别分析的特点 是根据已掌握的、 是根据已掌握的、历史上每个类别的若干样本的 数据信息,总结出客观事物分类的规律性, 数据信息,总结出客观事物分类的规律性,建立 判别公式和判别准则。然后, 判别公式和判别准则。然后,当遇到新的样本点 只要根据总结出来的判别公式和判别准则, 时,只要根据总结出来的判别公式和判别准则, 就能判别该样本点所属的类别。 就能判别该样本点所属的类别。

判别分析

判别分析

判别分析判别分析是用以判别个体所属群体的一种统计方法。

最常用的判别方法:距离判别法、Bayes 判别法、Fisher 判别法。

1、距离判别法最为直观,其想法简单自然,就是计算新样品x 到各组的距离,然后将该样品判为离它距离最近的那一组。

定义:设组π的均值为μ,协方差矩阵为∑,x 是一个样品(样本),称()()μμπ-∑'-=-x x x d 1),(为x 到总体π的马氏距离或统计距离。

判别准则:不妨假设有k 组,记为k ππ...1,,均值分别为k μμ...1,,协方差矩阵分别为k ∑∑...,1,,若),(min ),(212i ki l x d x d ππ≤≤=,则判断x 来自第l 组。

注1:若k ∑==∑...1,上述准则可以化简,如果不确定是否相等,可两种情况都试试,那种规则误判概率小选哪种。

注2:实际中k μμ...1,以及k ∑∑...,1,均未知,用估计量代替。

2、Bayes 判别法(1)最大后验概率准则设有k 个组k ππ...1,,且组i π的概率密度为()x f i ,样品x 来自组i π的先验概率为,,...,1,k i p i =且.11=∑=ki i p 利用Bayes 理论,x 属于i π的后验概率(即当样品x 已知时,它属于i π的先验概率)为()().,...,2,1,)(1k i x f p x f p x P k j j j i i i ==∑=π最大后验概率法是采用如下的判别规则:()x P x P x l ji l l πππ≤≤=∈1max )(,若. (2)最小平均误判代价准则()()()()∑∑≠=≤≤≠==∈ki j j j j k i j k l j j j l j i c x f p j l c x f p x 111m i n ,若π,其中)(j i c 表示将来自j π的x 判为i π的代价。

例:设有321,,πππ三个组,欲判别某样品0x 属于何组,已知()()().4.2,63.0,10.0,30.0,65.0,05.0030201321======x f x f x f p p p 计算:()()004.04.230.063.065.010.005.010.005.0)(1111=⨯+⨯+⨯⨯==∑=k j j j x f p x f p x P π ()361.02=x P π()635.03=x P π假定误判代价矩阵为95.4110063.065.020010.005.0:305.36504.230.01010.005.0:239.51604.230.02063.065.0:1=⨯⨯+⨯⨯==⨯⨯+⨯⨯==⨯⨯+⨯⨯=l l l 3、Fisher 判别基本思想:先对原始数据进行降维,然后对新数据使用距离判别法进行判别。

判别分析(第1、2节_绪论、距离判别法)

判别分析(第1、2节_绪论、距离判别法)
按这种距离最近的判别准则:
x * , X G1 , * x , X G2 .
第二节 距离判别法
因为是单指标的问题,这时判别函数设为:Y Y ( x) x 此例中 * 79, 因 x0 78 * ,故判 X 0 G2 。
,在
下面给出对于 m元总体的这种相对距离 —即所谓的马氏距离 定义
2 更一般地,设总体G1的分布为 N (1 , 1 ) ,设总体G2的分布为
N (2 , 22 ) ,则利用统计距离,可以找出分界点 * ,且不妨设
1 2 ,所以若令 ( x 1 )2 ( x 2 )2 解出 1 2 2 1 * x , 12 22 1 2
d (X, Y) 2 ( X1 Y1 )2
( X p Yp )2 .
但在解决实际问题时,特别是针对多元数据的分析问题,欧氏 距离就显示出了它的一些缺陷。 譬 如 , 设 有 两 个 正 态 总 体 , X ~ N ( 1 , ) 和
2
Y ~ N ( 2 ,4 2 ) ,现有一个样品位于如图 5.1 所示的 A 点,距总 体 X 的中心的距离为 2 远,距总体 Y 的中心的距离为 3 远, 那么, A 点处的样品到底离哪一个总体近呢?
第一节 引言
判别分析内容很丰富,方法很多。①判断分析方法按判别的
总体个数来区分,有两个总体判别分析和多总体判别分析;②按
区分不同总体所用的数学模型来分,有线性判别和非线性判别; ③按判别时所处理的变量方法不同,有逐步判别和序贯判别等。
④判别分析可以从不同角度提出问题,因此有不同的判别准则,
如马氏距离最小准则、Fisher准则、平均损失最小准则、最小平 方准则、最大似然准则、最大概率准则等等,按判别准则的不同

第五章 判别分析

第五章 判别分析

欧氏距离在处理统计问题时的缺点:要求坐标各分量的度量 一致、波动幅度一致。
1936年,印度统计学家Mahalanobios引入统计距离概念, 也称为“马氏距离”
设Q点坐标固定,P点坐标相互独立变化。用s12,s22,…,sm2 表示P的m个坐标的n次观测的样本方差,则P到Q的统计距 离 2 2 2
t 1 j 1 t 1 j 1 def k nt k nt
a TBa 若k 个总体均值有显著差异,则比值 (a) T 应充分大. a Aa
def
a T Aa
问题转化为求a使得Δ(a)达到最大。为使解唯一,变为条件 极值问题:求a使得Δ(a)在条件 aTAa = 1 达到最大。
2
线性判别函数的求法
2 dm (X,G) (X μ)T Σ 1(X μ)
设两总体G1、G2,它们的均值向量为μ1和μ2,协方差阵都为 Σ,则总体G1和G2之间的马氏距离定义为
2 dm (G1, G2 ) (μ1 μ2 ) T Σ 1(μ1 μ2 )
马氏距离满足距离的三条公理
(1) 非负性
(2) 对称性
已知a在条件 aTAa = 1下使Δ(a) 达到最大的方向,称u(X) = aTX为线性判别函数。利用拉格朗日乘数法求条件极值。 令L(a) = aTBa-λ(aTAa-1) = 1,又令 dL/da = 2(B- λA)a = 0,可得 Ba=λAa,即 A-1Ba =λa。这说明λ是A-1B 的特征值,a是相应的特征向量。进一步, Δ(a) = aTBa =λaTAa =λ
2 误判率的交叉确认估计法
每次剔除一个样品,利用其余n1+n2-1个样本建立判别 准则,再用所建立的判别准则对删除的样品做判别,对样 本中每个样品都做上述分析,以其误判的比例来作为误判 概率的估计。具体步骤: (1) 从总体G1开始,剔除其中的一个样品,用剩余的n1-1 个样品为G1的样本, G2的样本不变,建立判别函数; (2) 用建立的判别函数对剔除的样品作判别; (3) 重复(1)(2),对G2也作如此处理,其误判样品个数分别 记为n12*、n21*。 n12 n 21 ˆ (4) 交叉误判率的估计 a* n1 n 2

多元统计第五章判别分析

多元统计第五章判别分析
第五章 判别分析
第一节 引言
在我们的日常生活和工作实践中,常常会遇到判别分析问题。
案例一:为了研究中小企业的破产模型,选定4个经济指标:总负债率、
收益性指标、短期支付能力、生产效率性指标。对17个破产企业(1类)和21
个正常运行企业(2类)进行了调查,得关于上述四个指标的资料。现有8个 未知类型的企业的四个经济指标的数据,判断其属于破产企业一类还是正 常运行企业一类? 案例二:根据经验,今天与昨天的湿度差x1及今天的压温差x2 (气压与温度
ˆ Σ
1 A , n 1
1,2,, k
三、判别分析的实质
设R1,R2,…,Rk是p维空间R p的k个子集,如果它们互
不 相交,且它们的和集为R p,则称R1,R2, …,Rk为R p的一 个划分。
在 两 个 总 体 的 距 离 判 别 问 题 中 , 利 用
W (X) (X μ)' α 可以得到空间 R p 的一个划分 R1 {X : W ( X) 0} R2 {X : W ( X) 0}
x2
-0.41 -0.31 0.02 -0.09 -0.09 -0.07 0.01 -0.06 -0.01 -0.14 -0.3 0.02 0 -0.23 0.05 0.11 -0.08 0.03 0 0.11 -0.27
x3
1.09 1.51 1.01 1.45 1.56 0.71 1.5 1.37 1.37 1.42 0.33 1.31 2.15 1.19 1.88 1.99 1.51 1.68 1.26 1.14 1.27
Σ 的一个联合无偏估计为
n
n2 1 和 X(2) Xi(2) n2 i 1 1 ˆ Σ ( A1 A2 ) n1 n2 2

判别分析-距离判别

判别分析-距离判别

= 2y′Σ −1 ( µ1 − µ 2 ) − ( µ1 + µ 2 )′Σ −1 ( µ1 − µ 2 )
( µ1 + µ 2 ) −1 = 2[y − ]′Σ ( µ1 − µ 2 ) 2 µ1 + µ 2 α = Σ −1 ( µ1 − µ2 ) = (a1 , a2 ,L, a p )′ 令µ = 2
利用这些数据找到一种判别函数,使得这一函数 具有某种最优性质,能把属于不同类别的样本点 尽可能的区别开来,并对同样测得 p项指标的新 样本进行归类.
关键:确定判别函数
判别准则: 判别准则: 用于衡量新样品与各已知组别接近程度的思路原则。 常用的有,距离准则、Fisher准则、贝叶斯准则。
判别函数: 判别函数: 基于一定的判别准则计算出的用于衡量新样品与各 已知组别接近程度的描述指标。
µ1 + µ 2
判别函数的常数项( 2 ′ ) Σ −1 ( µ1 − µ 2 )
(6)生成判别函数,将检验样本代入,判类。
三、多总体的距离判别法
设有 k 个 m元总体 G1,L, Gk ,分别有均值向量 µi和协方 差阵 Σi,对任给的 m元样品 X,判断它来自哪个总体 计算 X 到 k个总体的马氏距离,比较后,把 X 判归给 距离最小的那个总体,若
Y = (Y1 , Y2 ,..., Y p )',通常我们所说的两点间的距
离是指欧氏距离:
d 2 ( X , Y ) = ( X 1 − Y1 ) 2 + ... + ( X p − Yp ) 2
缺陷: 缺陷: 1、量纲的改变 2、数据的分散程度
1、设有量度重量和长度的两个变量 X和Y ,以单位 分别为kg和cm得到样本 A(0,5), B(10,0), C (1,0), D(0,10), 按照欧氏距离计算,有:

判别分析

判别分析

多元统计分析
2.判别分析的数学描述 假设有K个总体:G1,G2,…GK,它们的分布 函数分别为F1,F2,…FK,每个Fi觉为p维分 布函数,现在抽到一个新样品X(0)要判断它 来自哪一个总体?
多元统计分析
3.分类
1、按判别的组数来分,有两组判别分析和多组 判别分析 2、按区分不同总体所用的数学模型来分,有线 性判别和非线性判别 3、按判别对所处理的变量方法不同有逐步判别、 序贯判别。 4、按判别准则来分,有费歇尔判别准则、贝叶 斯判别准则
Plots:统计图: Plots
Combined-groups Combined-groups:根据前两个典则判别函数,对所有组生成一张综合散点图;如果只有 一个判别函数,则显示条图; Separate-groups:根据前两个典则判别函数,对每组生成一张散点图。如果只有一个判 Separate-groups 别函数,则显示条图; Territorial map:分类区域散点图,即将平面图划分为与组数相同的区域,每一组占据 map 一个区域,在图中显示分组的组心与组界,只有一个判别函数时不显示。
多元统计分析
Stepwise Method子对话框介绍
如果在主对话框中选择Use stepwise method,则Method Method…按钮被 Method 激活,打开Stepwise Method子对话框

多元统计分析
逐步判别分析方法的四部分
Method: Method:逐步判别分析方法: Wilds’lambda 默认选择项) ⊙ Wilds lambda (默认选择项):在每一步,将具有最小的Wilds’lambda值的变量选入模型; variance:在每一步,将具有最小的未被解释的组间方差的变量选入模型; ○ Unexplained variance distance:在每一步,将具有最小近邻组间最大的Mahalanobis距离的变量选入模型; ○ Mahalanobis distance ratio:在每一步,将在“成组最小F比率”项取值最大的变量选入模型; ○ Smallest F ratio Rao’s V:在每一步,将具有最大Rao’s V增量的变量选入模型; ○ Rao s V V to enter 0: V值的最小增量,系统默认为0。 Criteria:逐步判别停止判据: Criteria value(默认选择项) ⊙ Use F value(默认选择项):使用F值: Entry 3.84 Removal 2.74:系统默认当变量的F值>=3.84时将变量加入到判别模型中,否 则不能加入;或者当变量的值F值<=2.71时,才将变量从模型中移出,否则保留变量。注意Entry 的值必须小于Removal的值,否则模型中无变量。 F:使用F值的概率: ○ Use probability of F Entry:0.05 Removal:0.01系统默认加入变量的F值概率的默认值是5%;移出变量的F值概率 是10%,注意Entry 的值必须小于Removal的值,否则模型中无变量。 Display: 显示内容 steps(默认选择项) Summary of steps(默认选择项):显示逐步选择变量过程中每一步的各变量的统计量及显著水平,包括 Wilks’lambda值、F-to-Remove(移出变量的F值)、 F-to-Enter(移入变量的F值)、D.f(自由 度)、Sig.(P值)、Tolerance(容许度)等。 distances:显示组间的F比值矩阵 □ F for pairwise distances

判别分析的概念距离判别法费歇尔判别法贝叶

判别分析的概念距离判别法费歇尔判别法贝叶

用数学的语言来说,判别问题可以表述为:对于n个样品, 每个样品有p个指标,已知每个样品属于某一k类别(总 体)G1,G2,…,Gk,对于每类别其分布函数分别为 f1(y),f2(y),…,fk(y),对于一个给定样品y,我们要判 断出这个样本来自哪个总体。判别分析的主要问题就是 如何寻找最佳的判别函数和建立判别规则。
D( X , G1) (X X (1) )( X X (1) )
D( X , G2 ) (X X (2) )( X X (2) ) X (1),X (2)分别为G1、G2的均值向量。 然后比较D( X , G1),D( X , G2 )的大小,按最近准则判别归类。 在多元统计分析中经常用马氏距离做上述判别分析。
聚类分析数据格式
k
判别分析数据格式
第二节 距离判别法
距离判别法就是根据已知分类的数 据,分别计算各类的重心即分组(类) 的均值,判别准则是对任给的一次观测, 若它与第i类的重心距离最近,就认为 它来自第i类。
距离判别法对各类(或总体)的分 布,并无特别的要求。
1、两个总体的距离判别法
设有两个总体G1、G2,村第一个总体中抽取n1个样品, 从第二个总体中抽取n2个样品,每个样品观测p个指标。 今取任一个样品,实测指标值为X=(x1, x2 , , xp ),问
X应判归那一类?
首先计算X到G1、G2总体的距离,分别记为D( X ,G1)和
D( X ,G2 ),按距离最近原则判别归类,则可以写成:
X G1,
X
Байду номын сангаас
G2
,
待判,
当D( X ,G1) D( X ,G2 ) 当D( X ,G1) D( X ,G2 ) 当D( X ,G1) D( X ,G2 )

第5章判别分析

第5章判别分析

第5章判别分析判别分析(discriminantanalysis)是在已知样品分类的前提下,将给定的新样品按照某种分类准则判入某个类中,它是研究如何将个体“归类”的一种统计分析方法.这里的判别规则通常是以已有的数据资料或者现有的部分样品数据作为所谓的“训练样本”建立起来的,并用来对未知类别的新样品进行判别.这种统计方法在实际中很常用,例如医生在掌握了以往各种病症(如肺炎、肝炎、冠心病、糖尿病等)指标特点的情况下,根据一个新患者的各项检查指标来判断该病人有哪类病症;又如在天气预报中,利用已有的一段时期某地区每天气象的记录资料(阴晴雨、气温、风向、气压、湿度等),建立一种判别准则来判别(预报)明天或未来多天的天气状况;再如研究人员依照国家划分不同地区经济类型的数量标准,根据某个地区的GDP、人均收入、消费水平等相关指标判断该地区属于哪一种经济类型等.当然,我们要求判别规则在某种意义下是最优的,例如样品距所属类别的距离最短,或样品归属某个类别的概率最大,或错判平均损失最小等.判别分析与聚类分析的主要区别在于:作聚类分析时,人们事先并不知道所讨论的样品应该分成几类,完全根据样品数据的具体情况来确定;而作判别分析时,样品的分类事先已经明确,需要做的主要工作是利用训练样本建立判别准则,对新样品所属类别进行判定.判别分析的方法很多,本章主要介绍常用的三种,即距离判别、Fisher判别和Bayes判别,并介绍它们在R中的实现过程.5.1 距离判别5.1.1 距离距离是判别分析中的基本概念,距离判别法根据一个样品与各个类别距离的远近对该样品的所属类别进行判定.第4章中列举了六种距离,其中常用的是欧氏距离和马氏距离.设和是两个随机向量,有相同的协方差矩阵Σ,则α与y之间的马氏距离定义为:(5.1)特别地,当∑=I时,马氏距离就是通常的欧氏距离.在判别分析中,马氏距离更常用,这是因为欧氏距离对每一个样品同等对待,将样品x的各分量视作互不相关,而马氏距离考虑了样品数据之间的依存关系,从绝对和相对两个角度考察样品,消除了变量单位不一致的影响,更具合理性.这里以二维情形下一个简单的图形做直观的解释:如图5-1所示,设大椭圆和小椭圆分别表示两个总体G₁和G₂的置信度均为1-α的置信区域,尽管样品x到总体G₂的欧氏距离比到总体G₁的欧氏距离更短,但x却包含在总体G₁的置信椭圆内,同时位于总体G₂的置信椭圆外,说明若用马氏距离这种“标准化”距离来度量的话,样品x到总体G₁的距离更近,应该把样品x判入总体G₁.图5-1欧氏距离与马氏距离的选择示意图5.1.2 两个总体的距离判别设有两个总体G₁和G₂,其均值分别为μ₁和μ₂,有相同的协方差矩阵Σ,对于给定的一个样品x,要判断它属于哪一个总体.如果将样品x到两个总体G₁和G₂的距离d(x,G₁)和d(x,G₂)分别规定为x与μ(i=1,2)的马氏距离,那么,直观的方法i是分别计算样品x到两个总体G₁和G₂的马氏距离d(x,μ₁)和d(x,μ₂),再根据这两个距离的大小来判断x的归属:当d(x,μ₁)<d(x,μ₂)时,判x属于总体G₁;当d(x,μ₁)>d(x,μ₂)时,判α属于总体G₂;当d(x,μ₁)=d(x,μ₂)时,x可以属于总体G₁和G₂中的任何一个,通常把x判入总体G₁.因此判别准则可描述为:由于马氏距离与马氏距离的平方等价,为方便起见,以下考虑两个马氏距离的平方的差(5.2)令,并记(5.3)于是判别准则等价于这个判别准则取决于W(x)的值,通常称W(x)为判别函数,由于它是x的线性函数,又称其为线性判别函数,称a为判别系数.线性判别函数W(x)使用最方便,在实际中应用也最广泛.特别地,当p=1,G₁和G₂的分布分别为N(μ₁,o²)和N(μ₂,o²),μ₁,μ2,o²均为已知,且μ₁<μ₂时,则判别系数为,判别函数为.判别准则为:在实际应用中,总体的均值和协方差矩阵一般是未知的,可由样本均值和样本协方差矩阵分别进行估计.设是来自总体G₁的样本,是来自总体G₂的样本,μ₁和μ₂的一个无偏估计分别为:协方差矩阵Σ的一个联合无偏估计为:式中,此时,判别函数为,其中.这样,判别准则为:应该注意,当μi≠μz,Z₁≠Z₂时,我们仍可采用式(5.2)的变式作为判别函数,即(5.4)它是x的二次函数,相应的判别规则为:最后要强调的就是作距离判别时,μ₁和μ₂要有显著的差异才行,否则判别的误差较大,判别结果没有多大意义.【例5.1】已知某种昆虫的体长和翅长是表征性别的两个重要体形指标,根据以往观测值,雌虫的体型标准值为,雄虫的体型标准值,它们的共同的协方差矩阵为.现捕捉到这种昆虫一只,测得它的体长和翅长分别为7.2和5.6,即,试判断这只昆虫的性别.解:由已知条件,可由式(5.3)计算得所以可判断这只昆虫是一只雄虫.在R中可编写一个简单的程序计算W(x)(注意W(x)=[d²(x,μ₂)-d²(x,μ₁)]/2).>W2equal=function(x,mu1,mu2,S){(mahalanobis(x,mu2,S)-mahalanob is(x,mu1,S))/2}>mu1=c(6,5);mu2=c(8,6);S=matrix(c(9,2,2,4),nrow=2);x=c(7.2,5.6 )>W2equal(x,mu1,mu2,S)[1]-0.053125所以应判断这只昆虫是一只雄虫.若又捕捉到另一只同类昆虫,其体长和翅长数据为,则可继续计算如下:>x=c(6.3,4.9>W2equal(x,mu1,mu2,S)[1]0.225应将其判断为一只雌虫.当雌虫和雄虫的协方差矩阵不相同时,可由式(5.4)来计算W*(x),再根据计算结果作出判别.假定雌虫和雄虫总体数据对应的协方差矩阵分别为和那么可编写R程序如下:>W2unequal=function(x,mu1,mu2,S1,S2){mahalanobis(x,mu2,S2)-mah alanobis(x,mu1,S1)}>mu1=c(6,5);mu2=c(8,6);S1=matrix(c(9,2,2,4),nrow=2);S2=matrix( c(6,22,3),nrow=2)>x=c(7.2,5.6>W2unequal(x,mu1,mu2,S1,S2)[1]-0.07696429这里仍然用了最初那只昆虫的体长和翅长数据,结果仍然判断它是一只雄虫.两总体的距离判别还可使用自编程序“DDA2.R”,用法参见本章附录1.5.1.3 多个总体的距离判别设有k个总体G₁,G₂,…,Gk ,其均值和协方差矩阵分别是μ₁,μ₂,…,μg和Σ₁,Σ₂,…,Σk,而且Σ₁= Σ₂= … = Σk = Σ.对于一个新的样品x,要判断它来自哪个总体.该问题与两个总体的距离判别问题的解决思路一样,计算新样品x到每一个总体的距离,即式中,.故可以取线性判别函数为:相应的判别规则为:与二维情形类似,当μ₁,μ₂,…,μk和Σ均未知时,可以通过相应的样本均值和样本协方差矩阵来替代.另外,各总体的协方差矩阵Σ₁,Σ₂,…,Σk,不完全相同时也可以仿照二维情形讨论(参阅参考文献[10]).多总体的距离判别可使用本章附录所给出的R程序“DDAM.R”,使用方法可参见本章附录2后的说明.5.2 Fisher判别Fisher于1936年提出了该判别法,这是判别分析中奠基性的工作.该方法的主要思想是通过将多维数据投影到一维直线上,使得同一类别(总体)中的数据在该直线上尽量靠拢,不同类别(总体)的数据尽可能分开.从方差分析的角度来说,就是组内变差尽量小,组间变差尽量大.然后再利用前面的距离判别法来建立判别准则.Fisher判别法属于确定性判别法,有线性判别、非线性判别和典型判别等多种常用方法.以下主要介绍线性判别法.5.2.1两总体Fisher判别先考虑有两个总体G₁和G₂的情形,判别法的思想是将高维空间中的点投影到一维直线y上,使得由总体G₁和G₂产生的y尽可能分开,在此基础上再利用前面的距离判别法来建立判别准则.我们用一个简单的图形(见图5-2)来说明其原理.如图5-2所示,二维平面上有两类点,小圆点属于总体G₁,大圆点属于总体G₂,按照原来的横坐标x₁和纵坐标x₂,很难将它们区分开,但若把它们都投影到直线y上,则它们的投影点明显分为两组,同类的点聚集在一起,容易区分;又若把它们投影到与直线y垂直的直线上,则它们的投影点混杂在一起,难以分开.可见,投影直线的选取不一样,数据点的分类效果就大不相同,这提示我们要去寻找分类效果最好的投影直线y,使得在该投影直线上,同一类别的点的投影点尽量靠拢,不同类别的点的投影点尽量分开.显然,直线y是x₁和x₂的线性组合,即y=c₁x₁+c₂x₂.一般,在p维情况下,x的线性组合为:(5.5)图5-2投影直线选取示意图式中,a为p维实向量.设总体G₁和G₂的均值分别为μ₁和μ₂,它们有共同的协方差矩阵Σ,那么线性组合的均值为:(5.6)方差为:(5.7)显然,使得μ1y 与μ2y的距离越大的线性组合越好,所以考虑比值(5.8)现在的问题简化为:如何选取a,使得式(5.8)达到最大.定理5.1设x为p维随机向量,,当(c≠0为常数)时,式(5.8)达到最大.特别地,当c=1时,线性函数(5.9)称为Fisher线性判别函数(证明略).取(5.10)在μ₁≠μ₂的条件下,容易证明,于是可得Fisher判别准则如果记,则判别准则等价于需要指出的是:当总体的均值和协方差矩阵未知时,通常用样本均值和样本协方差矩阵来估计.设和,分别是来自总体G₁和G₂的样本,就可以分别用和估计μ₁和μ₂,用来估计Σ,这里.5.2.2多总体Fisher判别如果变量很多或有多个总体,通常要选择若干个投影,即若干个判别函数来进行判别.设有k个总体G₁,G ₂,…,Gx,它们有共同的协方差矩阵Σ,均值分别为μ₁,μ₂,…,μk,令(5.11)考虑p维随机向量x的线性组合,a为p维实向量,则均值和方差分别为:(5.12)注意到(5.13)考虑比值(5.14)问题等价于:如何选择a,使得式(5.14)达到最大.为了方便起见,设.定理5.2设λ₁,λ₂,…,λs(λ₁≥λ₂≥…≥λs>0)为Σ-¹G的s个非零特征值,s≤min(k-1,p),e₁,e₂,…,e为相应的特征向量且满足,那么当a₁=e₁s时,式(5.14)达到最大,称为第一判别函数,而a₂=e₂是在约束条件之下使得式(5.14)达到最大值的解,称为第二判别函数,如此下去,as =es是在约束条件之下使得式(5.14)达到最大值的解,称为第s个判别函数(证明略).当总体的均值和协方差矩阵未知时,通常用样本均值和样本协方差矩阵来估计,与两总体的Fisher判别方法类似,也可以建立多个总体的Fisher判别准则,但形式比较复杂,这里不再讨论.【例5.2】在R软件的内置档案中自带了著名的鸢尾花(iris)数据,该数据框有5列:Sepal.Length(花萼长度),Sepal.Width(花萼宽度),Petal.Length(花瓣长度),Petal.Width(花瓣宽度)和Species(品种).品种又分为setosa(刚毛鸢尾花),versicolor(变色鸢尾花)和virginica(弗吉尼亚鸢尾花).每个品种各有50行,即数据框共有150行.解:先读取iris数据,再用程序包MASS中的线性判别函数lda()作判别分析,R程序如下:>data(iris)>irisSepal.Length Sepal.Width Petal.LengthPetal.Width Species1 5.1 3.5 1.4 0.2setosa2 4.9 3.0 1.4 0.2setosa......50 5.0 3.3 1.4 0.2setosa51 7.0 3.2 4.7 1.4versicolor52 6.4 3.2 4.5 1.5versicolor......100 5.7 2.8 4.1 1.3 versicolor101 6.3 3.3 6.0 2.5 virginica102 5.8 2.7 5.1 1.9 virginica......150 5.9 3.0 5.1 1.8 virginica>attach(iris) #把数据变量的名字放入内存,这样能直接使用各列数据>library(MASS) #加载MASS程序包,这是必须的,否则找不到1da()函数>1d=lda(Species~Sepal.Length+Sepal.Width+Petal.Length+Petal.Wi dth)#也可以用命令iris.lda=lda(iris[,1:4],iris[,5]),注意第5列是品种,取作因变#量y>1dCall:lda(Species~Sepal.Length+Sepal.Width+Petal.Length+Petal.WidthPriorprobabilitiesofgroups:setosa versicolor virginica0.3333333 0.3333333 0.3333333Groupmeans:Sepal.Length Sepal.Width Petal.LengthPetal.Widthsetosa 5.006 3.428 1.4624.260Versicolor 5.936 2.770 4.2601.326Virginica 6.588 2.974 5.5522.026Coefficientsoflineardiscriminants:LD1 LD2Sepal.Length 0.8293776 0.02410215Sepal.Width 1.5344731 2.16452123Petal.Length -2.2012117 -0.93192121Petal.Width -2.8104603 2.83918785Proportionoftrace:LD1 LD20.9912 0.0088以上输出中包括lda()所用的公式、先验概率、各组均值向量、第一及第二线性判别函数的系数、两个判别式对区分各总体贡献的大小等.可以在R中使用help(lda)查看该函数的详细用法.需要指出的是,R中有内置函数predict(),可以对原始数据进行回判分类,从而可以将lda()的输出结果与原始数据真正的分类进行对比,考察误差的大小.R程序及结果如下:>Z=predict(ld)>newG=Z$class>cbind(Species,newG,Z$x) #Z$x给出了Z中两个判别函数相应的值Species new GLD1 LD21 1 1 8.0617998 0.3004206212 1 1 7.1286877 -0.786660426 ......70 2 2 -1.0904279 -1.62658349671 2 3 -3.7158961 1.04451442172 2 2 -0.9976104 -0.490530602 ......83 2 2 -0.8987038 -0.90494003484 2 3 -4.4984664 -0.88274991585 2 2 -2.9339780 0.027379106133 3 3 -6.8001500 0.580895175134 3 2 -3.8151597 -0.942985932 135 3 3 -5.1074897 -2.130589999 ......149 3 3 -5.8861454 2.345090513150 3 3 -4.6831543 0.332033811 这里Species是原始类别,newG是回判类别,LD1和LD2分别是第一和第二线性判别函数的值.我们还可以用table()函数来列表比较,R程序及结果如下:>tab=table(newG,Species)>tabSpeciesnewG setosa versicolor virginicasetosa 50 0 0Versicolor 0 48 1virginica 0 2 49由结果可以看出,对150个原始数据的预测中,只有3个错误,误差率为2%,其中有2朵versicolor鸢尾花(71号和84号)被误认为是virginica鸢尾花,有1朵virginica鸢尾花(134号)被误认为是versicolor鸢尾花.5.3 Bayes判别上面讲的几种判别分析方法计算简单,易于操作,比较实用.但是这些方法也有明显的不足之处.一是判别方法与总体各自出现的概率的大小无关;二是判别方法与错判之后所造成的损失无关.Bayes判别法就是为了解决这些问题而提出的一种判别方法,它假定对研究对象已经有了一定的认识,这种认识可以用先验概率来描述,当取得样本后,就可以利用样本来修正已有的先验概率分布,得到后验分布,再通过后验分布进行各种统计推断.Bayes判别法属于概率判别法,判别准则是以个体归属某类的概率最大或错判总平均损失最小为标准.5.3.1两总体的Bayes判别设有两个总体G₁和G₂,它们的概率密度函数分别为f₁(x)与f₂(x),其中x是一个p维随机向量,Ω为x的所有可能取值构成的样本空间,R₁为x的根据某种规则被判入总体G₁的取值全体的集合,那么R₂=Ω-R₁就为x的根据同样规则被判入总体G₂的取值全体的集合.设样本α来自总体G₁(形式记为x∈G₁),但被判入总体G₂的概率为:又记x来自总体G₂(形式记为x∈G₂),但被判入总体G₁的概率为:类似地,x来自总体G₁被判入G₁,来自总体G₂被判入G₂的概率可分别记为:又设总体G₁和G₂出现的先验概率(priorprobabilities)分别为p₁和pz,且p ₁+p₂=1,于是同理假设L(j|i)(i,j=1,2)表示x来自总体Gi而被误判入总体Gj引起的损失,显然有L(1|1)=L(2|2)=0,将上述误判概率与误判损失结合起来,可以定义所谓的平均误判损失(expected cost of misclassification,ECM)为:(5.15)一个合理的判别选择是极小化ECM.可以证明(见参考文献[10]):极小化ECM 所对应的样本空间2的划分为:(5.16)因此,可以将式(5.16)作为Bayes判别的判别准则.当两总体服从正态分布时,设,可分两种情形讨论.若Σ₁=Σ₂=Σ,则两总体的密度函数为:此时式(5.16)等价于(5.17)式中(5.18)(5.19)由此可见,对于两正态分布总体的Bayes判别,其判别式(5.17),(5.18)和(5.19)可以看成两总体距离判别的推广,当p₁=pz,L(1|2)=L(2|1)时,β=ln1=0,这正是距离判别,这里的W(x)也与两总体距离判别的W(x)完全一致,参见式(5.3).若Σ₁≠Σ₂,可仿照上面对式(5.16)作推广,参见参考文献[12].5.3.2多总体的Bayes判别从上面的讨论可知,Bayes判别的本质就是寻找一种适当的判别准则,使得平均误判损失ECM达到最小.在两总体情形下,由式(5.15)可知,若假设所有错判损失相同,即设L(2|1)=L(1|2)=C,那么要ECM尽量小,相当于要p₁P(1|1)+p₂P(2|2)尽量大,这有助于理解多总体Bayes判别所用的判别准则.设有k个总体G₁,G₂,…,Gx,其各自的分布密度函数为f(x),f2(x),…,fk(x),相应的先验概率分别为p₁,p₂,…,pk,并假设所有的错判损失相同,对待判样品x,相应的判别准则为:(5.20)以下只对G₁,G₂,…,Gk均为正态总体,即进行讨论.当k个总体的协方差矩阵都相同,即时,总体Gi 的密度函数为:计算函数在计算过程中,协方差矩阵Σ可用其估计式代替.当k个总体的协方差矩阵不全相同时,总体Gj的密度函数为:则相应计算函数在计算过程中,协方差矩阵Σj可用其估计式代替.判别准则式(5.20)等价于【例5.3】(数据文件为eg5.3)表5-1是某气象站预报有无春旱的数据资料,x₁和x₂是两个综合性预报因子.表中给出了有春旱的6个年份数据和无春旱的8个年份数据.它们的先验分布用各组数据出现的比例(6/14,8/14)来估计,并假设误判损失相等,试用Bayes判别法对数据进行分析.表5-1某气象站有无春旱的数据资料解:先在eg5.3中选取G,x1,x₂三列数据,然后复制,回到R命令窗口中输入如下命令后再确定,就可将复制的数据读入R.R程序及结果如下:>d5.3=read.table("clipboard",header=T)>attach(d5.3)>library(MASS)>1d=1da(G~x1+x2,prior=c(6,8)/14)>1dCall:lda(G~x1+x2,prior=c(6,8)/14)Prior probabilities of groups:1 20.4285714 0.5714286#若先验概率未知,可以先设为均匀分布,即prior=c(0.5,0.5) Groupmeans:x1 x21 25.31667 -2.4166672 22.02500 -1.187500Coefficients of linear discriminants:LD1x1 -0.6312826x2 1.0020661再用函数predict()对原始数据进行回判分类,并与lda()的输出结果进行对比,R程序及结果如下:>Z=predict(1d)>newG=Z$class>cbind(G,newG,Z$x)#Z$x为判别函数的值G newG LD11 1 1 -1.14755452 1 1 -1.10648313 1 1 -3.28592944 1 2 -0.22668045 1 1 -1.68965906 1 1 -3.89116217 2 2 1.85959468 2 2 1.4737896......13 2 2 1.358561514 2 2 1.7002528>tab=table(G,newG)>tabnewgG 1 21 5 12 0 8>sum(diag(prop.table(tab)))[1] 0.9285714程序输出说明,第一组样本中只有第4号样本被误判入第二组,第二组样本回判全部正确,回判符合率为92.857%.我们还可以用命令Z$post计算后验概率:>Z$post1 21 0.9386546174 6.134538e-022 0.9303445828 6.965542e-023 0.9999448424 5.515761e-05......13 0.0038092358 9.961908e-0114 0.0012325974 9.987674e-015.4案例分析与R实现案例5.1(数据文件为case5.1)表5-2中列出了1994年我国30个省、直辖市、自治区影响各地区经济增长差异的制度变量数据,分为两组.其中,x₁为经济增长率(%);x₂为非国有化水平(%);x₃为开放度(%);x₄为市场化程度(%).借助R 软件,分别用两总体的距离判别法、Fisher判别法和Bayes判别法进行判别分析,并对江苏、安徽和陕西三个待判地区作出判定.(注:样本号为28,29,30的待判样品的类别先暂定为2,待实际判别分析后再确定,这样做的好处是录入和处理数据较为方便.)表5-2 1994年我国30个省、直辖市、自治区影响各地经济增长差异的制度变量数据解:(1)距离判别法.要读入Excel数据,先在case5.1中选取数据区域D1:H31(注意:要连待判数据一起选),然后复制,回到R命令窗口中输入如下命令后再确定,就可将复制的数据读入R.然后把本章附录中两总体距离判别程序“DDA2.R”放到当前工作目录下,再载入R并执行,还可以用var(classG1)和var(classG2)分别计算两个训练样本的协方差矩阵,结果发现它们明显不相等.R程序及结果如下:>case5.1=read.table("clipboard",header=T) #将已复制到剪贴板中的数据读入R>attach(case5.1) #把数据变量名字放入内存>classG1=case5.1[1:11,2:5] #选取训练样本1>classG2=case5.1[12:27,2:5] #选取训练样本2>newdata=case5.1[28:30,2:5] #选取待测样本用于后面判定>source("DDA2.R") #载入自编程序DDA2.R>DDA2(classG1,classG2) #执行程序DDA2.R1 2 ... 8 9 10 11 12 13 (24)25 26 27blong 1 1 ... 1 1 2 1 2 2 (2)2 2 2回代判别的结果说明只有第10号样本“广西”被错判入第二组,判别符合率为26/27=96.3%.最后对江苏、安徽和陕西三个样本进行判定(样本号为28,29,30),数据已包含在newdata中,R程序为:>DDA2(classG1,classG2,newdata)#对待判样本newdata进行判定1 2 3blong 1 2 2输出结果第一行中的1,2,3分别表示江苏、安徽和陕西三个待测样本(样本号为28,29,30),判别结果是江苏被判入第一组,安徽和陕西均被判入第二组.(2)Fisher判别法也是先要读入数据,在case5.1中选取数据区域D1:H28(注意:这里不选待判数据,因为lda()函数要使用已有的各列数据作为变量来建立判别模型),然后复制,回到R命令窗口中输入如下命令后再确定,就可将复制的数据读入R.R 程序及结果如下:>case5.1=read.table("clipboard",header=T)>attach(case5.1)>library(MASS)>1d=1da(G~x1+x2+x3+x4)>ldCalllda(G~x1+x2+x3+x4)Prior probabilities of groups:1 20.4074074 0.5925926Groupmeans:x1 x2 x3 x41 15.73636 65.02818 25.149091 74.3502 11.56250 40.10625 9.228125 58.105Coefficients of linear discriminants:LD1x1 -0.06034498x2 -0.01661878x3 -0.02532111x4 -0.08078449以上输出结果中包括lda()所用的公式、先验概率、各组均值向量、第一线性判别函数的系数.再用predict()函数对原始数据进行回判分类,将lda()判别的输出结果与原始数据真正的分类进行对比.R程序及结果如下:>Z=predict(ld) #预测判定结果>nevG=Z$class #新分类>cbind(G,newG,Z$x) #合并原分类、新分类及判别函数值G newG LD11 1 1 -0.636598122 1 1 -0.85792242....9 1 1 -3.8115753710 1 2 0.1086677611 1 1 -0.65403492....26 2 2 2.2650082627 2 2 1.52288285>tab=table(G,newG) #原分类和新分类列表比较>tabnevGG 1 21 10 12 0 1>sum(diag(prop.table(tab))) #计算判别符合率[1] 0.962963可见,只有第一组中的第10号样品“广西”被错判入第二组,与距离判别法结果一致.还可以用命令sum(diag(prop.table(tab)))计算判别符合率.最后对三个待判样本进行判定.先要读入待判样本数据,在case5.1中选取待判样本数据区域D1:H31(注意:要连待判数据一起选),然后复制,回到R命令窗口中输入如下命令后再确定,将复制的数据读入R.在其基础上选取待判样本数据.R程序及结果如下:>case5.1=read.table("clipboard",header=T)>newdata=case5.1[28:30,2:5] #选取待判样本用于下面判别>predict(ld,newdata=newdata)$class[1] 1 2 2Levels: 1 2$posterior1 228 0.87303785 0.126962229 0.48273895 0.517261130 0.01957491 0.9804251$xLD128 -1.187448129 -0.348841830 1.2655298说明:由$class可以看出28号样本被判人第一组,29,30号样本被判入第二组,结果与距离判别法一致;$x给出了线性判别函数的值.(3)Bayes判别法Bayes判别法和Fisher判别法类似,不同的是在使用函数lda()时要输入先验概率.它们的先验概率用各组数据出现的比例(11/27,16/27)来估计(默认情形),并假设误判损失相等.同Fisher判别法的分析过程一样,先复制数据,读入R,具体操作及结果如下:>case5.1=read.table("clipboard",header=T)>attach(case5.1)>library(MASS)>1d=lda(G~x1+x2+x3+x4,prior=c(11/27,16/27))>ldCall:lda(G~x1+x2+x3+x4,prior=c(11/27,16/27))Prior probabilities of groups:1 20.4074074 0.5925926Groupmeans:x1 x2 x3 x41 15.73636 65.02818 25.149091 74.3502 11.56250 40.10625 9.228125 58.105Coefficients of linear discriminants:LD1x1 -0.06034498x2 -0.01661878x3 -0.02532111x4 -0.08078449>Z=predict(ld)>newG=Z$class>cbind(G,newG,Z$x)G newG LD11 1 1 -0.636598122 1 1 -0.85792242....9 1 1 -3.8115753710 1 2 0.1086677611 1 1 -0.65403492....26 2 2 2.2650082627 2 2 1.52288285>tab=table(G,newG)>tabnewGG 1 21 10 12 0 16>sum(diag(prop.table(tab))[1] 0.962963判别结果与距离判别法、Fisher判别法一致.另外,Bayes判别法对三个样本数据的判别过程和判定结果也与Fisher判别法相同.习题5.1在定理5.1的假设下,证明:当μ₁≠μ₂时,有μ₁y-μ₂>0及μ2y-μy<0成立.5.2(数据文件为ex5.2)根据经验,今天的湿温差x₁和气温差x₂是预报明天下雨或不下雨的两个重要因子,试就表5-3中的数据建立Fisher线性判别函数进行判别.又设今天测得x₁=8.1,x₂=2.0,问:应该预报明天是雨天还是晴天?表5-3 雨天和晴天的湿温差x₁和气温差x₂续前表5.3(数据文件为ex5.3)某企业生产的产品,其造型、性能和价位及所属级别如表5-4所示.试利用表中数据,使用Fisher判别法和Bayes判别法进行判别分析.表5-4 某企业产品的造型、性能、价位及级别等指标序号造型性能价位级别13342872286577337775614164379153446841617556827487851286562692944796021037542731188874531256733631338567631477288435.4(数据文件为ex5.4)在研究砂基液化问题中,选了七个因子.今从已液化和未液化的地层中分别抽了12个和23个样本,其中1类表示已液化类,2类表示未液化类.试用距离判别法对原来的35个样本进行回代分类并分析误判情况.表5-5 砂基液化原始分类数据编号类别x1 x2 x3 x4 x5 x6 x71 1 6.6 39 1.0 6.0 6 0.12 202 1 6.6 39 1.0 6.0 12 0.12 203 1 6.1 47 1.0 6.0 6 0.08 124 1 6.1 47 1.0 6.0 12 0.08 125 1 8.4 32 2.0 7.5 19 0.35 756 1 7.2 6 1.0 7.0 28 0.30 307 1 8.4 113 3.5 6.0 18 0.15 758 1 7.5 52 1.0 6.0 12 0.16 409 1 7.5 52 3.5 7.5 6 0.16 4010 1 8.3 113 0.0 7.5 35 0.12 180续前表编号类别T1 T2 Z3 Z4 T5 Z6 T711 1 7.8 172 1.0 3.5 14 0.21 4512 1 7.8 172 1.5 3.0 15 0.21 4513 2 8.4 32 1.0 5.0 4 0.35 7514 2 8.4 32 2.0 9.0 10 0.35 7515 2 8.4 32 2.5 4.0 10 0.35 7516 2 6.3 11 4.5 7.5 3 0.20 1517 2 7.0 8 4.5 4.5 9 0.25 3018 2 7.0 8 6.0 7.5 4 0.25 3019 2 7.0 8 1.5 6.0 1 0.25 3020 2 8.3 161 1.5 4.0 4 0.08 7021 2 8.3 161 0.5 2.5 1 0.08 7022 2 7.2 6 3.5 4.0 12 0.30 3023 2 7.2 6 1.0 3.0 3 0.30 3024 2 7.2 6 1.0 6.0 5 0.30 3025 2 5.5 6 2.5 3.0 7 0.18 1826 2 8.4 113 3.5 4.5 6 0.15 7527 2 8.4 113 3.5 4.5 8 0.15 7528 2 7.5 52 1.0 6.0 6 0.16 4029 2 7.5 52 1.0 7.5 8 0.16 4030 2 8.3 97 0.0 6.0 5 0.15 18031 2 8.3 97 2.5 6.0 5 0.15 18032 2 8.3 89 0.0 6.0 10 0.16 18033 2 8.3 56 1.5 6.0 13 0.25 18034 2 7.8 172 1.0 3.5 6 0.21 4535 2 7.8 283 1.0 4.5 6 0.18 455.5(数据文件为ex5.5)表5-6是某金融机构客户的个人资料.对一个金融机构来说,对客户信用度的了解至关重要,因为利用这些资料,可以挖掘出许多重要的信息,建立客户的信用度评价体系.所选8个指标:x₁为月收入;x₂为月生活费支出;x₃是虚拟变量,住房的所有权属于自己的为“1”,租用的为“0”;x₄为目前工作的年限;x₅为前一个工作的年限;x₆为目前住所的年限;x₇为前一个住所的年限;x₈为家庭赡养的人口数;G为信用度级别,信用度最高为“5”,信用度最低为“1”.试对表5-6中的数据进行Fisher判别分析;又若一位新客户的8个指标分别为(2500,1500,0,3,2,3,4,1),试对该客户的信用度进行评价.表 5-6某金融机构客户的个人信用度评价数据序号x1 x2 x3 x4 x5 x6 x7 x8 G1 1000 3000 0 0.1 0.3 0.1 0.3 4 12 3500 2500 0 0.5 0.5 0.5 2 1 13 1200 1000 0 0.5 0.5 1 0.5 3 14 800 800 0 0.1 15 1 3 1续前表序号x1 x2 x3 x4 x5 x6 x7 x8 G5 3000 2800 0 1 2 3 4 3 16 4500 3500 0 8 2 10 1 5 27 3000 2600 1 6 1 3 4 2 28 3000 1500 0 2 8 6 2 5 39 850 425 1 3 3 25 25 1 310 2200 1200 1 6 3 1 4 1 311 4000 1000 1 3 5 3 2 1 412 7000 3700 1 10 4 10 1 4 413 4500 1500 1 6 4 4 9 3 414 9000 2250 1 8 4 5 3 2 515 7500 3000 1 10 3 10 3 4 516 3000 1000 20 5 15 10 1 517 2500 700 10 5 15 5 3 55.6(数据文件为ex5.6)为了研究中小企业的破产模型,选定4个经济指标:x₁为总负债率(现金收益/总负债);x₂为收益性指标(纯收入/总财产);x₃为短期支付能力(流动资产/流动负债);x₄为生产效率性指标(流动资产/纯销售额).对17个破产企业(1类)和21个正常运行企业(2类)进行了调查,得如下资料(见表5-7).试对表5-7中的数据进行Bayes判别分析并对8个待判样品类别进行判定.表5-7 中小型企业破产模型经济指标续前表附录附录1(两总体G₁和G₂距离判别的R程序“DDA2.R”)DDA2<-function(TrnG1,TrnG2,TstG=NULL,var.equal=FALSE){if(is.null(TstG)==TRUE)TstG<-rbind(TrnG1,TrnG2)if(is.vector(TstG)==TRUE)TstG<-t(as.matrix(TstG))elseif(is.matrix(TstG)!=TRUE)TstG<-as.matrix(TstG)if(is.matrix(TrnG1)!=TRUE)TrnG1<-as.matrix(TrnG1)if(is.matrix(TrnG2)!=TRUE)TrnG2<-as.matrix(TrnG2);nx<-nrow(TstGblong<-matrix(rep(0,nx),nrow=1,byrow=TRUE,dimnames=list("blong ",1:nx))mu1<-colMeans(TrnG1);mu2<-colMeans(TrnG2)if(var.equal==TRUE||var.equal==T){S<-var(rbind(TrnG1,TrnG2))w<-mahalanobis(TstG,mu2,S)-mahalanobis(TstG,mu1,S)}else{S1<-var(TrnG1);S2<-var(TrnG2)w<-mahalanobis(TstG,mu2,S2)-mahalanobis(TstG,mu1,S1)}for(iin1:nx){if(w[i]>0)blong[i]<-1elseblong[i]<-2}blong在该程序中,输入变量TrnG1和TrnG2分别表示来自总体G₁和G₂的训练样本,其输入格式是数据框或矩阵(样本按行输入);输入变量TstG是待测样本,其输入格式是数据框、矩阵(样本按行输入)或向量(一个待测样本).如果不输入TstG(默认值),则待测样本为两个训练样本之和,即计算训练样本的回判情况.输入变量var.equal是逻辑变量,var.equal=TRUE表示两个总体的协方差矩阵相同,否则(默认值)为不同.函数的输出是由“1”和“2”构成的一维矩阵,“1”表示待测样本属于G₁类,“2”表示待测样本属于G₂类.当两总体样本协方差矩阵相同时,该程序的使用命令为:DDA2(classG1,classG2,var.equal=TRUE).当两总体样本协方差矩阵不相同时,该程序的使用命令为:DDA2(classG1,classG2),附录2(多总体距离判别的R程序“DDAM.R”)DDAM<-function(TrnX,TrnG,TstX=NULL,var.equal=FALSE){if(is.factor(TrnG)==FALSE){mx<-nrow(TrnX);mg<-nrow(TrnG)TrnX<-rbind(Trnx,TrnG)TrnG<-factor(rep(1:2,c(mx,mg)))}if(is.null(TstX)==TRUE)TstX<-TrnXif(is.vector(TstX)==TRUE)TstX<-t(as.matrix(TstX))elseif(is.matrix(TstX)!=TRUE)TstX<-as.matrix(TstX)if(is.matrix(TrnX)!=TRUE)TrnX<-as.matrix(TrnX)nx<-nrow(TstX)blong<-matrix(rep(0,nx),nrow=1,dimnames=list("blong",1:nx))g<-length(levels(TrnG))mu<-matrix(0,nrow=g,ncol=ncol(Trnx))for(iin1:g)mu[i,]<-colMeans(TrnX[TrnG==i,])D<-matrix(0,nrow=g,ncol=nx)if(var.equal==TRUE|var.equal==T){for(iin1:g)D[i,]<-mahalanobis(Tstx,mu[i,],var(TrnX))}else{for(iin1:g)D[i,]<-mahalanobis(Tstx,mu[i,],var(Trnx[TrnG==i,]))}。

判别分析距离判别.ppt

判别分析距离判别.ppt
y1 0.60581 7.8 0.25362 39.11.83679 9.6 18.73596 4.0892 0(第一个新企业属于一类 )
y2 0.605818.1 0.25362 34.2 1.83679 6.9 18.73596 2.2956 0(第二个新企业属于二类 )
2、当总体的协方差已知,但不相等
体温 肺癌
2、某地区气象预报
气温
气压
湿度
阴晴 雨
3、经济学 人均消费水平 国民生产总值
工农业产值
国民经济发展 快速 中速 慢速
用数学语言表达:
设有n个样本,对每个样本测量p项指标的数据, 已知每个样本属于k 个类别(或总体)G1, G2 ,..., Gk
的某一类,分布函数分别为 F1(x), F2 (x),..., Fk (x) . 1、病人肺部阴影
P(X 2 )
P(X 2
2
1
2
2
2 )
P(X 2
2
1
2
2
)
P( X 2 2 1 2 )
2
1 (1 2 ) 2
1. 距离判别规则是符合习惯的; 2. 用这种判别方法是会发生误判的; 3. 当两总体靠得比较近时,即两总体的均值差
异较小时,无论用何种判别方法,判错的概 率都比较大,这时的判别分析也是没有意义 的,因此只有当两总体的均值有明显差异时, 进行判别分析才有意义,为此,要对两总体 的均值差异性进行检验. 4. 落在 附近的样品按上述判别规则虽可进行 判断,但误判的可能性较大。
和协方
i
差阵 i,对任给的m元样品 X,判断它来自哪个总体
计算 X 到 k个总体的马氏距离,比较后,把 X 判归给 距离最小的那个总体,若
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
后一种量度更合理些。
图5.1
第二节 距离判别法
更精确的说明例子,可参见教材 P.176 例子和图 5.1.
N ( , ) 更一般地,设总体G1的分布为
,设总体G2的分布为 2
,则利用统计距离,可以找出分界点 ,且不妨1设 1
N (2,,所2以2 )若令
*
1 2
(x 1)2
(x 2)2
解出
x
1
又如,在天气预报中,我们有一段较长时间关于某地区每天气象的记录资料(晴阴雨、气温、气压、湿度等),现在想建立一种 用连续五天的气象资料来预报第六天是什么天气的方法。这些问题都可以应用判别分析方法予以解决。
第一节 引言
直观上讲,判别分析是用来判别样品所属类型的一种多元统计分析方法。
这类问题可用数学语言来表达如下:设有n个样品,对每个样品测得p项指标(变量)的数据,已知每个样品 属于k个类别(或总体)G1,G2, …,Gk中的某一类,且它们的分布函数分别为F1(x),F2(x), …,Fk(x)。我们 希望利用这些数据,找出一种判别函数(或判别准则),使得这一函数具有某种最优性质,能把属于不同类别 的样本点尽可能地区别开来,并对测得同样p项指标(变量)数据的一个新样品(待判样品),能判定这个样品 归属于哪一类。
则判别规则可表示为
X X
G1 , G2 ,
如果 如果
W(X) 0 W(X) 0
这里称W (X ) 为两总体距离判别的判别函数,由于它是 X 的线
性函数,故又称为线性判别函数, α 称为判别系数。
第二节 距离判别法
在实际应用中,总体的均值和协方差矩阵一般是未知的,可
由样本均值和样本协方差矩阵分别进行估计。设
第二节 距离判别法
作为特殊情形,我们考虑:
1 X
2X
1 2
212 )
2
X
1 ( 2
1)
111
2
1 2
2X 1(2 1) (1 2 )1(1 2 )
2
X
1
2
2
1 ( 1
2
)
2(X *) 2(X *)
第二节 距离判别法


*
1 2
(1
2
)












1(1 2 ) ,记
W (X ) (X *)
X
G1,
X G2,
如果 如果
D2 (X ,G1) D2 (X ,G2) D2 (X ,G1) D2 (X ,G2 )
(*)
第二节 距离判别法
D2 ( X ,G1) D2 ( X ,G2 )
( X 1)1( X 1) ( X 2 )1( X 2 )
X
1 X
2X
1 1
111
(X
X (1) 1
,
,
X
(1) n1

自总体 G1 的样本,X1(2),
,
X (2) n2
是来自总体
G2的样本,1来自和2的一个无偏估计分别为
X (1)
1 n1
n1 i1
X (1) i

X ( 2 ) 1 n2
n2
Xi
i1
(2)
Σ 的一个联合无偏估计为
ˆ
n1
1 n2
2
(S1
S2
)
n
这里
S
(
X
( i
)
第二节 距离判别法
□ 马氏距离
设 p 维 欧 氏 空 间 R p 中 的 两 点 X ( X1, X 2, , X p ) 和
Y (Y1,Y2 , ,Yp ) ,通常我们所说的两点之间的距离,是指欧 氏距离,即 d(X, Y) 2 (X1 Y1)2 ( X p Yp )2 .
但在解决实际问题时,特别是针对多元数据的分析问题,欧氏 距离就显示出了它的一些缺陷。
定义 5.1 设 X 和 Y 是来自均值向量为 μ ,协方差为 Σ( 0) 的总体 G 中的 p 维样本,则总体 G 内两点 X 与 Y 之间的马氏距离定义为
D2 (X, Y) (X Y)Σ1(X Y)
定义点 X 到总体 G 的马氏距离为
D2 (X,G) (X μ)Σ1(X μ) 这里应该注意到,当 Σ I (单位矩阵)时,即为欧氏距离的情形。
2
21
*,
2 1
2 2
1 2
按这种距离最近的判别准则:
x x
* *
, ,
X X
G1, G2.
第二节 距离判别法
因为是单指标的问题,这时判别函数设为:


,在此例中 Y Y (因x) x
,故
* 79, x0 78 *
X 0 G2
下面给出对于m元总体的这种相对距离—即所谓的马氏距离定义
第一节 引言
■ 什么是判别分析?
在我们的日常生活和工作实践中,常常会遇到判别分析问题,即根据历史上划分类别的有关资料和某种最优准则,确定一种判别 方法,判定一个新的样品归属哪一类。
例如,在医学诊断中,一个病人肺部有阴影,医生要判断该病人患的是肺结核、肺部良性肿瘤还是肺癌?这里三种病人的集合 体可看做是三个总体,病人是来源于三个总体之一的样本。判别分析的目的是通过检测病人的一些指标(如阴影大小、边缘的光滑 度、体温等)来判定该病人应属于那个总体.
第二节 距离判别法
1、两个总体的距离判别问题
(1)
情形: 有协方差矩阵∑相等的两个总体G1和G2,其均值分别是1和 2,对于一个新的样品X,
Σ Σ Σ 要判断它来自哪1 个总体2。
一般的想法是计算新样品X到两个总体的马氏距离D2(X,G1)和D2(X,G2),并按照如下的判别规则进行
判断
这个判别规则的等价描述为:求新样品X到G1的距离与到G2的距离之差,如果其值为正,X属于G2;否则X属 于G1。
X
( )
)(
X
( i
)
X
( )
),
1, 2
i 1
第二节 距离判别法
此时,两总体距离判别的判别函数为 Wˆ ( X ) ˆ( X X *)
其中 X * 1 ( X (1) X (2) ) ,ˆ ˆ 1(X (1) X (2) ) 。这样,判别规则
2

X
G1
,
X G2,
如果 如果
Wˆ (X ) 0 Wˆ (X ) 0
譬 如 , 设 有 两 个 正 态 总 体 , X ~ N (1, 2 ) 和 Y ~ N (2 ,4 2 ) ,现有一个样品位于如图 5.1 所示的 A 点,距总 体 X 的中心的距离为 2 远,距总体Y 的中心的距离为 3 远, 那么, A 点处的样品到底离哪一个总体近呢?
第二节 距离判别法
若按欧氏距离来量度, A 点离总体 X 要比离总体Y “近一 些”。但是,从概率的角度看, A 点位于 1 右侧的 2 x 处,而位 于 2 左侧1.5 y 处,应该认为 A 点离总体Y “近一些”。显然,
相关文档
最新文档