第三章 判别分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
解 SAS程序:
数据步
data ex3_1; input group$ x1-x5@@; cards; a 12.5 0.6 5.2 0.1 0.5 …………………………. a 11.2 0.7 4.9 0.1 0.5 b 12.1 0.4 2.8 0.2 0.6 …………… b 7.5 0.3 2.2 0.3 0.6 ;
§3.1 距离判断
一、两个总体的情况
设有两个总体G1和G2, x=(x1,x2, …,xp)是一个样品,
若能定义x到G1和G2的距离d(x,G1)和d(x,G2),则判别规
则为
x G1, 若d(x,G1) d(x,G2)
x
G2
,
若 d(x,G1) d(x,G2)
待判, 若 d(x,G1) d(x,G2)
其中Yi (x) xT 1(i) (i)T 1(i) / 2] aiT x bi
是x的线性函数,称为线性判别函数。
判别准则为
x G1, 若Y1(x) Y2 (x)
x
G2
,
若 Y1(x) Y2 (x)
待判, 若 Y1(x) Y2(x)
实际上,这种情况还可以进一步简化为
d 2 (x, G2 ) d 2 (x, G1 ) 2((1) (2) )T 1(x )
协方差矩阵分别为1, 2, …, k。类似两总体距离判别, 计算新样品到各总体的马氏距离, 距离最短者属于响应 的总体。
1. 总体协方差矩阵相等
任取两个总体Gi, Gj, 考察x到Gi,Gj的马氏距离的平方差
d2 (x,Gj ) d2 (x,Gi ) 2(Wj (x) Wi (x))
其中:Wi (x) aiT x bi ,
别,其判别结果如下表:
回判情况
实际归类
G1
G2
G1
n11
n12
G2
n21
n22
1. 误差率回代估计法
设
x(1) 1
,
x(1) 2
,
...,
x(1) n1
;
x(2) 1
,
x(2) 2
,
...,
x(2) n2
分别是来自两个总体的样本,将每个样品进行回代判
别,其判别结果如下表:
回判情况
实际归类
G1
G2
G1
1 12.1 0.4 2.8 0.2 0.6 2 12.8 0.5 2.8 0.1 0.5 3 11.4 0.5 4.9 0.4 0.8 4 8.5 0.4 5.0 0.3 0.6 5 10.0 0.4 4.2 0.2 0.7 6 9.4 0.4 3.9 0.2 0.6 7 8.6 0.4 2.2 0.2 0.7 8 7.1 0.4 3.4 0.3 0.4 9 9.5 0.3 4.2 0.7 0.8 10 7.8 0.4 4.0 0.2 0.7 11 7.0 0.4 2.7 0.2 0.7 12 7.5 0.3 2.2 0.3 0.6
当一个判别法则提出以后,还要研究其优良性。考察一
个判别法则的优良性,要考察误判率,即考察 x属于G1 而误判为属于G2或x属于G2而误判为属于 G1 的概率。
1. 误差率回代估计法
设Βιβλιοθήκη Baidu
x(1) 1
,
x(1) 2
,
...,
x(1) n1
;
x1(
2)
,
x(2) 2
,
...,
x(2) n2
分别是来自两个总体的样本,将每个样品进行回代判
第三章 判别分析
判别分析(discriminant analysis)是研究判断个体所 属类型的一种统计方法。
判别分析的应用十分广泛。如判别产品质量的等级; 判断一个国家的经济发展程度;判断该地的矿物类型; 判断病人患哪种疾病;判断明天是晴、多云或有雨等 等。判断分析所处理的问题往往是包含大量的数据资 料,且其数量指标往往是多元的。判别分析是一种有 效的多元数据分析方法,它能科学地判断得到的样品 属于什么类型,揭示内在的规律,做出正确的判断。
检验结果不显著(p=0.7341>0.1),即两总体的协方差 矩阵相等。
(4)类间距离的检验 检验结果显著(p=0.0007),两总体间差异显著。
(5)线性判别函数
W1(x) = -41.05361 – 0.74441 x1+100.24194 x2 +1.39795 x3 + 4.56860 x4+ 41.67557 x5
ai
1i ,bi
1 2
iT
1 i
Wj (x) aTj x bj ,
aj
1 j , bj
1 2
T j
1
j
d2 (x,Gj ) d2 (x,Gi ) 2(Wj (x) Wi (x))
易见
d 2 (x, Gj ) d 2 (x, Gi ) Wi (x) Wj (x) d 2 (x, Gj ) d 2 (x, Gi ) Wi (x) Wj (x)
d 2 (x,Gj ) (x j )T j1(x j ),
记二次判别函数
j 1, 2,..., k
d
2 j
(x)
d
2
(
x,
Gj
),
j 1, 2,..., k
判别准则:若总体Gj0满足
d
2 j0
(x)
min
1 jk
d
2 j
(
x)
则判定 x 属于Gj0。
判别准则为
x G1, x G2,
若d 2 (x,G1) d 2 (x,G2 ) 若 d 2 (x,G1) d 2 (x,G2 )
待判, 若 d 2 (x,G1) d 2 (x,G2 )
此时为非线性判别。
当1, 2 , 1, 2未知时的样本估计为 x (1) , x (2) , S1, S2
二、 判别准则的评价
定义3.1 设x,y是从均值向量为、协方差矩阵为 的
总体G中抽取的两个样品,则x,y两点之间的马氏距离平
方是 d 2 (x, y) (x y)T 1(x y)
定义3.1 设x,y是从均值向量为、协方差矩阵为 的
总体G中抽取的两个样品,则x,y两点之间的马氏距离平 方是
d 2 (x, y) (x y)T 1(x y)
差矩阵均为1和2,则
d 2 (x,G1) (x (1) )T 11(x (1) )
d 2 (x,G2) (x (2) )T 21(x (2) )
1. 两个总体协方差矩阵相等的情况 若1=2=,则
d 2 (x,Gi ) (x (i) )T 1(x (i))
xT 1x 2[xT 1(i) (i)T 1(i) / 2]
xT 1x 2Yi (x), i 1, 2
其中Yi (x) xT 1(i) (i)T 1(i) / 2] aiT x bi
d 2 (x,Gi ) (x (i) )T 1(x (i))
xT 1x 2[xT 1(i) (i)T 1(i) / 2]
xT 1x 2Yi (x), i 1, 2
n11
n12
G2
n21
n22
其中 n11+n12=n1, n12为样品属于G1而误判为G2的个数;
n21+n22=n2, n21为样品属于G2而误判为G1的个数.
误判率的回代估计为 aˆ n12 n21 n1 n2
2. 误判率的交叉确认估计
误判率的交叉确认估计是每次剔除样本中的一个样 品, 利用其余n1+n2-1样品建立判别准则, 再用所建立的 判别准则对删除的那个样品作判别. 对样本中的每个 样品作上述分析, 以其误判比例作为误判概率的估计 。设G1的n1个样品中, 有n*12个样品被误判;G2的n*21 个样品被误判。则误判率的交叉确认估计为
x (1) )T
S2
1 n2 1
n2 i 1
( xi(2)
x (2) )(xi(2)
x (2) )T
当∑1=∑2=∑时, 的无偏估计为
S ˆ (n1 1)S2 (n2 1)S2 n1 n2 2
2. 两个总体协方差矩阵不等的情况:∑1≠∑2
d12 (x, G1) (x (1) )T 11(x (1) ) d22 (x, G2 ) (x (2) )T 21(x (2) )
ˆ j
1 nj
nj
x( j) i
x( j),
i1
j 1, 2,..., k
S j
1 nj 1
nj i 1
(xi( j)
x ( j) )(xi( j)
x ( j) )T ,
j
1, 2,..., k
ˆ
1 nk
k
(nj 1)S j ,
j 1
n n1 n2 ... nk
2. 总体协方差矩阵∑j不全相等 计算x至各总体Gj的马氏平方距离
W2(x) = -30.81622 + 0.11215 x1 + 67.67498 x2 -0.28010 x3 +12.18045 x4+ 48.55509 x5
(6)样品回判结果
(7)回判结果概要与误判率
(8)交叉确认回判结果概要与误判率
三、多个总体的距离判断
设有k个总体G1,G2, …Gk, 均值向量分别为1,2,….,k
又定义x与总体G的马氏距离平方是
d 2(x,G) (x )T 1(x )
当两总体G1和G2的均值向量分别为(1)和 (2),协方
差矩阵均为1和2,则
d 2 (x,G1) (x (1) )T 11(x (1) ) d 2 (x,G2) (x (2) )T 21(x (2) )
当两总体G1和G2的均值向量分别为(1)和 (2),协方
判别分析的模型如下: 设有k个总体G1,…,Gk,都是p元总体,其数量指标是
X=(X1, X2, …, Xp)T 设Gi的分布函数Fi(x), 概率密度fi(x)=fi(x1,x2,…,xp)。 对任一样品 x=(x1,x2, …, xp)T,判断它来自哪个总体。 由于判别准则不同,则有不同的判别分析方法,本 章主要介绍距离判别、Bayes 判别和Fisher判别。
a* n1*2 n2*1 n1 n2
SAS系统可以计算误判率的交叉确认估计。
例3.1 马尾松苗紫化病是一种生理性病害,现从病苗(紫化苗)中 选取12株,健苗中选取8株分别测定其每平方厘米叶片所含5种 元素的微克数,其数据见表3.1,试据此作距离判别分析。
表3.1 马尾松苗数据
序号
G1:健苗 x1 x2 x3 x4 x5
,
x(1) 2
,
...,
x(1) n1
;
x(2) 1
,
x(2) 2
,
...,
x(2) n2
来自两个总体的样本,均值和协方差矩阵的估计为
ˆ (1)
1 n1
n1 i 1
x(1) i
x (1) ,
ˆ (2)
1 n2
n2
x(2) i
x (2)
i1
S1
1 n1 1
n1 i 1
(
x(1) i
x
(1)
)(
x(1) i
这样, 得到多总体在总体协方差矩阵相等时的距离判 别准则:若总体Gj0满足
Wj0
(
x)
max
1 jk
Wj
(
x)
则判定 x 属于Gj0。
当总体均值j和协方差矩阵未知时,用样本估计。设
x1(
j
)
,
x2(
j
)
,
...,
xn(
j
j
)
,
j 1, 2,..., k
是来自总体Gj的样本,均值和协方差矩阵的估计为
过 proc discrim data=ex3_1 pool=test slpool=0.1
程 method=normal distance simple list
步
crosslisterr wcov class group; var
pcov; x1-x5;
run;
说明:pool=test 检验方差阵相等(或=yes或=no); slpool=0.1 指定显著性水平,仅与pool=test匹配; method=normal (或npar非参数方法)前者为缺省;
其中 = 1 ( (1) (2) )
2
若记 W (x) aT (x )
a 1((1) (2) )
判别规则:
x G1, 若W (x) 0 x G2, 若W (x) 0 待判, 若W (x) 0
其中W(x)也是线性函数。
当, (1), (2)未知时,用样本估计。设
x(1) 1
distance 输出各组间距离并进行检验, 理论从略; simple 输出简单统计量;
list 输出每个样品的判别结果; crosslisterr 输出交叉确认法误判率信息;
wcov 输出各类的组内协差阵; pcov 输出联合协方差矩阵。
输出结果:
(1)简单统计量
(2)协方差矩阵
(3)协方差矩阵是否相等的检验
序号
G2:紫花苗 x1 x2 x3 x4 x5
1 12.5 0.6 5.2 0.1 0.5 2 12.1 0.8 7.8 0.2 0.4 3 11.1 0.6 5.2 0.2 0.7 4 9.4 0.6 6.1 0.1 0.6 5 7.0 0.5 5.2 0.2 0.4 6 8.4 0.5 4.3 0.1 0.4 7 7.1 0.5 6.1 0.1 0.5 8 11.2 0.7 4.9 0.1 0.5