第5章 判别分析_1
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
'
def
2W ( X )
其中
W ( X ) ( X X * )' S 1 ( X (1) X ( 2) ) 1 (1) * X ( X X ( 2) ) 2
则判别准则还可以写为:
判 X G1 , 当W ( X ) 0时 判 X G2 , 当W ( X ) 0时
(2) < (1) ) , 令
(x )
(1) 2
2 1
(x )
( 2) 2
2 2
(1) 2 ( 2) 1 x 1 2
def
*
判 X G1 , x * 而按这种距离最近的判别准则为: 判 X G2 , x *
因只有一个指标,这时判别函数为:Y=Y(x)=x.此例中 * =79,因
表5.1 盐泉的特征数值 K· 3/Cl Br· 3/Cl K· 3/ 盐 10 10 10 (X1) (X2) (X3) 13.85 22.31 28.82 15.29 28.79 2.18 3.85 11.40 3.66 12.10 8.85 28.60 20.70 7.90 3.19 12.40 16.80 15.00 2.79 4.67 4.63 3.54 4.90 1.06 0.80 0.00 2.42 0.00 3.38 2.40 6.70 2.40 3.20 5.10 3.40 2.70 7.80 12.31 16.18 7.50 16.12 1.22 4.06 3.50 2.14 5.68 5.17 1.20 7.60 4.30 1.43 4.43 2.31 5.02
判别分析是用于判别样品所属类型的一种统计分析方
法,是根据表明事物特点的变量值和它们所属的类,求出判
别函数.根据判别函数对未知所属类别的事物进行分类的一
种分析方法. 在自然科学和社会科学的各个领域经常遇到需要对某个个
体属于哪一类进行判断.在生产、科研和日常生活中经常遇
到如何根据观测到的数据资料对所研究的对象进行判别归 类的问题.如动物学家对动物如何分类的研究和某个动物属 于哪一类、目、纲的判断.又如在医学诊断中,一个病人肺 部有阴影,医生要判断他患的是肺结核、肺部良性肿瘤还是 肺癌?
第五章 判别分析
(discriminant analysis)
主要内容
距离判别
贝叶斯(Bayes)判别法及广义平方判别法
费希尔(Fisher)判别
判别效果的检验及各变量判别能力的检验 逐步判别
判别
有一些昆虫的性别很难看出,只有通过解剖才能够判 别; 但是雄性和雌性昆虫在若干体表度量上有些综合的 差异.于是统计学家就根据已知雌雄的昆虫体表度量 (这些用作度量的变量亦称为预测变量)得到一个标 准,并且利用这个标准来判别其他未知性别的昆虫. 这样的判别虽然不能保证百分之百准确,但至少大部 分判别都是对的,而且用不着杀死昆虫来进行判别了.
X
(i ) (t )
( x , x ,, x )
(i ) t1 (i ) t2
(i ) ' tm
(i 1,2 ; t 1,2,, ni )
其中ni是取自Gi的样品个数,则总体Gi的均值向量(i)的估计量为
(i )
X
1 n i
1 x ,, n t 1 i
(i ) t1
1. 1=2时的判别方法 一个最直观的想法是,分别计算样品X到两个总体的距离d12(X) 和d22(X)(或记为 d 2(X,G1) 和 d 2(X,G2) ),并按距离最近准则判别归 类,判别准则为
判 X G1 , 当d 2 ( X , G1 ) d 2 ( X , G2 )时 判 X G2 , 当d 2 ( X , G1 ) d 2 ( X , G2 )时
ni
( x ( x1(i ) ,, xmi ) ) ' t 1
ni (i ) tm
'
总体Gi的协方差阵 i 的估计 Si (称为组内协方差阵)为
1 ( Si Ai ( slji ) ) mm ni 1
Ai ( X ((ti)) X (i ) )( X ((ti)) X (i ) )' 称为组内离差阵; 其中
或
判 X G1 , 当d 2 ( X , G1 ) d 2 ( X , G2 )时 判 X G2 , 当d 2 ( X , G1 ) d 2 ( X , G2 )时 待定, 当d 2 ( X , G1 ) d 2 ( X , G2 )时
这里的距离是指马氏距离.利用马氏距离的定义及两总体协方差
t 1 ni
s
(i ) lj
1 ( ( ( xtli ) xl(i ) )(xtji ) x (j i ) ) ni 1 t 1
(l , j 1,2,, m)
ni
当假定1=2
def
时,反映分散性的协方差阵 的估计为
1 k S Ai (slj )mm n k i 1
2
d
2 2
( x0 )
2 2
( 2) 2
(78 75) 2.25 4
2
因为d2(x0) =1.5 < 4 = d1(x0),按这种距离准则应判断X0为设备 B生产的.
一般地,我们假设总体G1的分布为N((1),12),总体G2的分布为 N((2),22) , 则利用相对距离的定义 , 可以找出分界点 * (不妨设
'
X ( x1 , x2 ,, xm ) 与总体 G 的马氏距离定义为
2 ' 1
d ( X , G) ( X ) ( X ) .
当 m = 1 时,
d ( x, G)
2
(x ) (x )
'
2
(x )
2
2
.
二、两总体的距离判别 先考虑两个总体(k=2)的情况.设有两个总体G1和G2,已知来自 Gi(i=1,2)的训练样本为
K/Br (X4) 49.60 47.80 62.15 43.20 58.10 20.60 47.10 0.00 15.10 0.00 26.10 127.00 30.20 33.20 9.90 24.60 31.30 64.00
类别号 A A A A A B B B B B
第一类: 含钾盐泉 (A盆地)
说明A和B两盆地的盐泉特征有显著差异,因此讨论判别归类问题
中,至少有一个已经明确知道类别的“训练样本”,利用这个数据, 就可以建立判别准则,并通过预测变量来为未知类别的观测值进 行判别了. 在进行判别归类时,由假设的前提,判别的依据及处理的手法
不同,可得出不同判别方法,如距离判别,贝叶斯(Bayes)判别,费希
尔(Fisher)判别,逐步判别,序贯判别等.本章介绍几种常用的判别 方法.
别归类,或者类似地计算判别函数W(X),并用于判别归类.令
W ( X ) d ( X , G2 ) d ( X , G1 )
2 2
def
Z ( X ) Z0
其中Z(X)是X的二次函数(因1≠2), Z0是一个常数(其中具体表达 式省略了).判别准则仍可写为
判 X G1 , 当W ( X ) 0时 判 X G2 , 当W ( X ) 0时
m
的一个划分.显然判别方法的最
终结果是得到 中的一个划分.由判别函数W(X)得到划分D1 , D2, 当样品 X 落入 D1中时判X∈G1;当X 落入 D2中时判X∈G2.
2. 1≠2时的判别方法 当两总体协方差阵不等时,按距离判别准则先分别计算 X 到
两个总体的距离 d 2(X,G1) 和 d 2(X,G2) ,然后按距离最近准则判
1 (i ) ' 1 (i ) ci ( X ) S X 2
称为常数项.
若考察这两个马氏距离之差,经计算可得:
1 (1) ( 2) d ( X ) d ( X ) 2 X ( X X ) S 1 ( X (1) X ( 2) ) 2
2 2 2 1
量稍差,其平均耐磨度(2)=75,反映设备精度的方差22=4.今有一
产品X0,测得耐磨度x0=78,试判断该产品是哪一台设备生产的?
下面考虑一种相对分散性的距离. 记X0与G1或G2的相对平方距离为d12(x0)或d22(x0),则有:
d
2 1
( x0 )
(1) 2
12
(78 80) 16 0.25
总之,判别分析是应用性很强的一种多元统计分析方法,已渗
透到各个领域.但不管是哪个领域,判别分析问题都是可以这样描
述:设有 k 个 m 维总体G1,G2,…,Gk,其分布特征已知(如已知分布函 数分别为F1(x),F2(x),…,Fk(x),或知道来自各个总体的训练样本).对
给定的一个新样品 X ,我们要判断它是来自哪个总体.在判别分析
并称 S 为合并样本协方差阵,其中
1 2 slj n k i 1
( ( ( xtli ) xl(i ) )(xtji ) x (j i ) ) t 1
ni
(l , j 1,2,, m)
问题是对任意ቤተ መጻሕፍቲ ባይዱ定的m维样品 X ( x1 ,, xm )' ,要判断它 来自哪个总体.
阵相等的假设,可以简化马氏距离的计算公式:
d 2 ( X , Gi ) ( X X (i ) )' S 1 ( X X (i ) )
1 (i ) ' 1 1 (i ) ' X S X 2( S X ) X ( X ) S X (i) 2
' 1
X ' S 1 X 2Yi ( X ) (i 1,2) .
其中 Yi (X) 是 X 的线性函数.对给定的样品 X ,计算 X 到各总体的
马氏距离,只需计算 Yi (X) :
1 (i ) ' 1 (i ) Yi ( X ) ( S X ) X ( X ) S X 2
1 (i ) '
(i 1,2)
Yi(X) 称为线性判别函数, ai=S -1X(i) 称为判别系数向量,
x0=78 < *, 故判X0∈G2.
下面给出一般m元总体中这种相对距离——马氏 (全称:马 哈拉诺比斯(Mahalanobis) ) 距离的定义. 定义5.1.1 (马氏距离) 向量为 样品 设总体G为m元总体(考察m个指标),均值
'
(1 , 2 ,, m ) ,协方差阵为 =(ij)m×m ,则
§5.1
距离判别
距离判别的基本思路是:样品和哪个总体距离最近,就
判别它属哪个总体.距离判别也称为直观判别法.
一、马氏距离 已知有两个类G1和G2,比如G1是设备A生产的产品,G2是设备B 生产的同类产品.设备A的产品质量高(如考察指标为耐磨度X),其 平均耐磨度(1)=80,反映设备精度的方差12=0.25;设备B的产品质
第二类: 含钠盐泉 (B盆地)
待 判 盐 泉
解:把A盆地和B盆地看作两个不同的总体,并假定两总体协方差
阵相等.本例中变量个数m=4,两类总体各有5个训练样品(n1=n2=5),
另有8个待判样品.使用SPSS软件进行判别归类. 计算结果,首先给出两组间的平方距离(即马氏距离)为37.02876, 检验H0:(1)=(2)的 F 统计量为14.46346,相应的 p=0.0059<0.01,这
例5.1.1(盐泉含钾性判别) 某地区经勘探证明, A 盆地是一个钾盐 矿区, B 盆地是一个钠盐(不含钾)矿区,其他盐盆地是否含钾盐有 待作出判别.今从 A 和B两盆地各抽取5个盐泉样品;从其他盐地
抽得8个盐泉样品,18个盐泉的特征值见表5.1.试对后8待判盐泉
进行含钾性判别.
盐泉类别
序号 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8
W(X) 是 X 的线性函数,即 W
'
( X ) a' ( X X * ) 其中 ,
a S 1 ( X (1) X ( 2) ) . W(X)也称为线性判别函数, a为判别系数.
W(X)把 m 维空间
m划分为两个部分 :
m
D1={X:W(X)>0}和
D2={X:W(X)≤0},即 D1 , D2 是