判别分析实例汇总
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例:人文与发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中
公布的。
该报告建议,目前对人文发展的衡量指标应当以人生的三大要素为重点。
衡量人生
的三大要素的指标分别为:实际人均GDP指数、出生时的预期寿命指数、受教育程度指数
(由成人识字率指数和综合总人学率指数按2/3、1/3的权重加权而得),将一生三个指数合成为一个指数就是人文发展指数。
今从2007年世界各国人文发展指数(2005年)的排序中, 选取高发展水平、中等发展水平和低发展水平国家各6个作为三组样品,另选四个国家作为待判样品,资料如下表所示。
试用判别分析过程对以下数据资料进行判别分析,并据此对待
选的四个国家进行判别归类。
data develop;
in put type gdp life rate zhrate@@;
cards ;
1 4189077.999.593.3
1 2946179.199.288
1 2338178.99699
1 2966379.492.587.3
1 2852980.398.490.6
1 2202977.99996
2 6000 77.799.887.6
2 9060 71.997.376.8
2 8402 71.788.687.5
2 8677 69.692.671.2
2 5137 7192.681.1
2 8407 71.487.468.7
3 1550 62.648.658.1
3 1128 46.569.156.2
3 2299 49.867.962.3
3 2370 64.649.940
3 3071 73.790.363.9
3 3843 69.790.468.2
.3126782.39985.9
.3452 63.76163.8
.6757 72.590.969.1
.1111050.882.477
proc discrim simple wcov dista nee list ; /*simple: 要求技术各类样品的简单描述
统计量;选项WCOV要求计算类内协方差阵;选项DISTANCE要求计算马氏距离;选项LIST要求输出重复替换归类结果。
由于没有给出方法选项,所以系统按缺省时的正态分布进行有关参数的
估计和归类。
*/
class type;
run ;
proc discrim poo匸test slpool =0.05 list ; /*simple: */ class type;
priors '1' =0.3 2 =0.4 3 =0.3 ;
run ;
proc discrim method =npar k = 2 list ; /*simple: */ class type;
run ;
proc can disc out =result ncan =2; /*simple: */
class type;
var gdp life rate zhrate;
run ;
proc gplot data =reult; ―|
plot can 1*ca n2=type;
run ;
proc discrim data =result dista nee list ;
class type;
var canl can2;
run ;
表1已知样本分类水平信息
The DISCRIM Procedure
Observations Variables Classes
18
4
3
DF To怙1
DF Within Classes
DF Between Classes
17
15
2 Class Level Informal ion
Variable Prior type Name Frequency Weight Proportion Probabi1 ity 1_16G.00000.$888380.333333 2J6 6.00000.3333330.333333
36G.00000.3333330.333333表2样本统计量信息
type = 1, DF = 5
Variable gdp life rate zhrate gdp49408532.97-1234.124172.07-11022.03 1 ife-1234.120.85-0.88-2.09
rate4172.07-0.887.43 2.74 zhrate-11022.03-2.09 2.7421.19
type = 2, DF = 5
Variable gdp life rate zhrate gdp2642240.567-2026.117•2419.950-6404.957 1 ife-2026.1177.8868.86113.946 rate-2419.9508.86123.15114.327 zhrate-6404.95713.94614.32764.438
type = 3, DF = 5
Variable gdp life rate zhrate gdp976170.96677840.770012624.07334200.8033 1 ife7840.7700117.611073.166015.3730 rate12624.073373.1660338.6067136.1087 2hrate4200.803315.3730136.108796.9017
Simple Statistics
Tot&l-Sfthple
Standard
Mean V&riance Devi at ion
St.andard
Variable N Sun Mean V&r idnce Dev i at i on
油 6 174S5329169 4940B633 7029
life 6 473.50000 78.91667 0,E49S7 0.9218
rate 6 584.60000 97.48888 7.43467 2J267
zhrate 6 554.20000 92.866B7 21J0GG7 4.6029
Variable N Sum M郭n Variance
Standard
[Jeviftt ion
gdp 0 45683 ?614 2642241 1625
life 6 438.30000 72.21667 7.68567 2.8081
rate 6 558.80000 S3.05000 28J5100 4.6116
zhrate 6 472.90000 78.81667 64*43767 8.(N73
type = 3
Variable Sum Naan Variance
Standard Devi at
ion
sdp61426123119761719BB.0196
life&866.900006L15000117.6110010.9449
rate&416.2000069.3B66733B.606G7IB.4019
zhr«ite6348.70000E0J16679G.901679.0439
…4 Pooled Covariance Matrix Infomation
Covariance Matrix
Rank
Natural Log of the Determinant of
the Covariance Matrix
428 剧28
表3类间距离及三类总体均值差异的显著性检验
Variable N
gap life
rate
zhr^te
234697
1274
1559
1376
13050
70.76111
36.61667
76.48388
157818362
S3.98605
269.50971
263.70235
12563
9.6946
16.41GG
1C.2389
Pairw i se Squared Distances Between G roups
2
-1 -
D ( :i|j) =(X-X
y
cov (x -
X )
■1 -1 1 J
电
[|
J
Squared Distance to t ype
From type
1
2
3
1 0
37.5E2S3
76.87B03 2 37,58288 0
10.81428
3
75*57803
10.91423
F Statist g NDF=4, DDF 二12 far Squared Distance to type
From type
1 2
3
1 0
22.64373 45.5S562 2 22.5^973 Q
G.54057
8
45.58562
B.64857
Prob > Mahsilanobls Distance f or Squared Distance to tj/pe
From type
1
2
3
1 LQOOO <.0001 <.0001
2 <.0001 LOOOQ 0.0049 8
<.0001
0.0043
1.0000
Pa i rff i se Genera 1 ized Squared Di stances Between Groups
2
-1 _
D (ilj) - CX - X
y
cov (x -
X )
i J
i J
表3给出了类1与类2之间的马氏距离为 37.58288,类1与类3之间的马氏距离为
75.97603,类2与类3之间的马氏距离为 10.91428.类与类之间总体均值的 F 检验统计量值
分布为 22.54978, 45.58562,22.54973,对应的检验概率分别为 <0.0001, <0.0001,<0.0001,说 明三类
总体均值两辆之间的差异是显著的,因此判别分析有意义。
表4线形判别函数
Linear Discriminant Function for type
Variable 1
2
3
Constant -167.10892
-93.12840 -62.22473 gdp 0.00204 0.0006250
0.0002578 1 i fe 1.66562 1.49389 1.31B81 rate
-0.37065 -0.002 -0.D884O zhreite
1.72951
1.19559
0.85253
由表4可写出线形判别函数如下:
高发展水平:y 仁-157.18932+0.00204gdp+1.66582life-0.37085rate+1.72851zhrate 中等发展水平 Y2=-99.12840+0.0006250gdp+1.49389life-0.09262rate+1.19559zhrate 低发展水平:Y3=-62.22473+0.0002576gdp+1.31631life-0.08940rate+0.85253zhrate
表5:用距离判别法判别分析结果
Resubstitution Results using Linear Discriminant Function
General ized Squared Distance Fundiion
1 2 -T _
D (X)二(X-X Y GOV (X-X)
J J J
Posterior Probabi 1ity of Membership in Each type
22
Pr(j IX)=:exp(-.5 D (X)) J/ SUM exp(-.5 D (X)) k k
Posterior Probabi1Ity of Membership in t m
Fron Class If led
Obs type Into type123
111LOQOO0.0000Q.0000
211LOOOO0.00000.0000
311LOOOO0.0000o.mo
411LOOOO0.00000.0000
511LODOO0*00000.0000
611LOOOO0.00000.0000
122O.OOOD0.99990.0001
8220.00000,99470.0053
9220.00000.99980.0002
IQ220.00000.94110』即9
11220.00000.994。
0.0060
12220.00000.89530.1042
13330.00000,00430.9957
U330.00000.00010.9999
1533(kOOOO0.0023 D.8977
16330.00000.0000 1.0000
17330.00000,25790.7421
18330.00000,45780.5022
19 1 *LOQQQ0.00000.0000
20I* 3 *0.0000O.OB71Q.8328
21■ 2 «0.0000O.86C00.1340
22■ 2 *0.00000,9139O.OB71
$M i sc lass if led observat i on
20 由表5得,最后四个观测的归类结果为19号(日本)观测为高发展水平国家,第
号(印度)为第3类,即低发展水平国家,21号(中国)和22号(南非)归为中等发展水平国家。
表6距离判别法判别分析结果小结
Resub^titution Summary Linear Discriminant Function
General(zed Squared Distance Function
2
D (X)=
_ _1
(x-x y aw (X-X )
j j J Posterior Probabi 1ity of Membership in Each type
Pr(j |X) - exp(-. 5 2
D (X)) / SUM
2 exp(^5 D 00)
j k k
Number o f Observat ions 皐nd Percent Clft&slf ied I nto type
From type
12
3Total
1 2 14
25.00 50.0025血100.00
1 S 006
100.00 0,00 100,00
2 0 e06
O.OQ IOD.OO0.00 100.00
3 a 0 £s
0.00 0.00 10LOO 100.00
Total7 e 7 22
3L82 36.3B 31.82 100.00
Priors 0.93999 0.38393 0.39933
Error Count Est i mates far type
12
3Total
Rate0.0000 0.0000 0.0000 0.0000
P riors 0.3333 0.3333 0.9SS3
表6给出了分类错误信息,由输出结果可知分类错误的比率为0,即正确的比率为100%。
本程序中第二个判别分析过程的选项“pool=test,”求进行类内协方差阵一致性检验,
检验的显著性水平由选项”slpool=0.05 ”给出为0.05. priors语句给出了各发展水平国家的先
验概率。
表7分类信息及类内协方差阵一致性检验结果
Class Level Information type
1 2 3
Variable Neime _1 _2 _3
Frequency g 6 g
Weight Proport ion
G.0000 0.333333 6.0000 0J33333 £.0000
0.333333
Prior
Probabi 1 ii ty
0.300000 0.400000 0.300000
Vlthln Covariance M atrix Information
Natural Loe of the
Cavari ance Det erm i nant of the
type Matrix Rank
Covar i ance Matrix
1
4 21.B1319
2 4 22J9095
3
4 26,58432
Poo 1ed
4
28*69428
Chi-Square
DF Pr > ChiSq 、
4E ・Q 翱893
20
0.00(18
Since the Chi-Square va I ue is significant at the 0.05 I eve I, the within covari fines mat r i css will be used in th& discriminant f unct ion* Reference : Morrison, D ・F ・ (1976) Multivariate Statistical Methods p2G2.
表7表明3个类的先验概率分别为 0.3, 0.4 , 0.3,类内协方差阵行列式的自然对数不相 等,表明类内协方差阵不相等, 而卡方统计量值为 46.068898,对应的概率是0.0008,在0.05 的显著性水平下是显著的, 即类内协方差阵存在显著差异。
由于类内协方差阵不等, 所以判
别函数应是二次函数。
表8类间配对广义马氏距离
General ized Squared Distainc :总 to type
From type
1
2
3
1
24/2114 316.04476 2619
2
230.67593
24.62953 1Q2.516S7
3
1354
66.37461
28.97226
由表8可知,类内广义马氏距离不再为 0,而且类间的广义马氏距离也不再相等,因而
类内协方差和先验概率对后验概率的计算是起作用的。
表9用Bayes 判别法得到的判别分析部分结果
□sing; Ckiadratic Discriminant Fund ion
Genera I i;ed Squared Distance Functiun 2 _ -1 _
D (X )= (X-X V COY CX-X ) + In I COY I
H
l!
-IK
fi
J
J
J J
)
Posterior Probabi I ity of Membership in Each type 2 2
PrCJlX)二 exp(-.5 D (X)) / SUM eacp(-.5 D (X))
由表9本程序中的第三个过程要求进行非参数分析,即对类密度函数进行非参数估计。
选项 K=2要求用最近邻的两个样品进行密度函数估计,选项 list 要求输出重复替换归类结果。
该
过程运行结果如下:
表10用NPAR 方法得到的判别分析部分结果
Squared D i stance Funct ion 2 -1 D (XJ) =
COY (X-Y)
Posterior Probab I I ity of Membership I n Each type
m (X) : P report ion of oLs in group k in 2 k nearest neighbors of X Pr(j|X)二■ (X) PRIOR / SUM ( m (X) PRIOR )
Resubst i tut ion Results Poster i or Probabi I ity of Membership in type
Obs
From Classified type into type
128456783Q123456783Q12
111111222222333333 #
1
1.0000
0.0000 1
Loaoo 0.0000 1
1』顶 0.0000 1
Loaoo 0.0000 1
1.0000 0.0000 1
Loaoo o.nooo 2 0.0000 1.0000 2 Q.oaoo 1.0000 2 0.0000 1.0000 2 o.oaoo i.nooo 2 0.0000 0.3999 2 Q.oaoo 1.0000 3 0.0000 0.0000 £ o.oaoo 0.0000 S 0.0000 0.0000 3 a.ouoo 0.0000 5 0.0000 0.0001 £ a.oaoo 0.0272 1 * 1.0000 0.0000 3出 a.oaoo 0.0000 2窗 0.0000 1.0000 2 « a.oaoo 1.0000
0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0000 1.0000 1.0000 1.0000 1.0000 0.9999 0.972G 0.0000 1.0000 0.0000 0.0000
$ M i sc I ass i fIsd
observat I on
Posterior Probability of 血mb 已reh ip in type
From Classified
type iinto type
由表10可知,4个待判的样品中19号和21号归类结果与BAYES 判别归类结果是一致 的,但20号和22号所属类别则不能确定,这是与前面
2中判别方法结果不一致的地方。
第四种FISHER 判别:第一个过程执行典型判别分析。
第二个过程要求绘制第一个
典型变量CAN1和第二个典型变量 CAN2的散点图,以便更加直观了解分类情况。
第一、 二个过程输出结果如下:
表11典型相关的多变量检验结果
The CANDISC Procedure
Multivariate Statistics and F Approx I M&tIons
S=2
M=0.5 N=5 Statistic
Value
F Value Num OF
Den DF
Pr > F V/1 Iks* Lambda 0.03400739 13.27 8 24 <.0001 Pi 1 lai ?s Trace
1.36758414 7*03 3
<,0001 Hotel 1 inc-Lavley Trace 18.59842548 £8.94 B 15 <.0001 Rafs Grea t 曲 Root
16.86144947
6L62
4
13
<.0001
NOTE: F Statistic
for Roy's Greatest Root is an upper
bound.
NOTE : F Stat ist ic for Wi lks T Lambda is exact .
由上表对相关阵的显著性检验结果可知,至少有
1 1 1.0000 0.0000 0.0000 1 1 1.0000 0.0000 0.0000 1 1 1.0000 0.0000 0.0000 1 1 1.000Q 0.0000 0.0000 1 1 1.0000 O.OOOD 0.0000 1 1 1.0000 0.0000 0.0000
2 2 0.0000 1.0000 0.0000 2 2 0.0000 1.0000 0.0000 2 2 0.0000 1.0000 0.0000 2 2 0.0000 1.0000 0.0000 2 2 0.0000 1.0000 0.0000 2 2 0.0000 1.0000 0.0000
3 3 0.0000 0.00001 1.0000 3 3 0.0000 0.0000 1.0000 3 3 0.0000 0.0000 1.0000 3 3 0.0000 0.0000 1.0000 3 3 0.0000 0.00001 1.0000 3
3 0.0000 O.OQOO 1.0000
1水
1.0000 0.0000 0.0000 V
Other T
0.0000 0.5000 0.G000 ■ 2沖
Q.0000 1.0000 0.0000 ■
Other T
0.0000
0.5000
0.5000
* Niscluslf led
observat ion
T Tie for Iareest probabi I ity
表12典型相关与特征值
The CANDISC Procedure
上表可知,第一典型相关为 0.969875,而第二典型相关为 0.653396。
第一个特征值为 15.8514,所占比例为95.51%,第二个特征值为 0.7450,所占比例仅有 4.49%,说明只需用 第一个典型变量即可。
表13原始变量的典型相关系数
Raw CanonicEi 1 Coeff Sclents
Variable Canl
Can2
gdp 0.0002088544 -.0001135485 1 ife
0.0802aBOE52 0.0394378902 rate
-.0348872260 O.OGOOB65681 zhrate
0.0988009134
0.0890500134
由表12可得两个典型变量分别为:
CAN1=0.0002096544gdp+0.0382960552life-0.0346472260rate+0.0988009134zhrate Can2=-0.0001135485gdp+0.0394378902life+0.0500655661rate+0.0390500134zhrate
表14类间马氏距离及各类总体均值的显著性检验
Canon iceI Correlation 1
0.9S9875
2
0.653396
Adj u^ted Canonical Correlat icin
0.964192
0.615361
Approx I mate Standard Error
0.C143S3
0.138991
Squared Canon I c*I Corral at ion 0.94C658 0.42(926
EiI of InvfEj^H =CanRsq/(1-OnRsq)
Eiserrvalue difference Proport ion Cuimulat ive
Test of 40: The canonical tcrrelat icns in the curren t row and al I that follow are zero
Like I ihood ripprox ima
Ratio F Veilue Ns DF Den DF Pr > F
15.8514
0.7450
15.1065 0.9551
0,9551 0,03400739 1.0000 0.57307373
13*27 a. 23
2A <*0001 13 0,0577
Squared Distance to type
From type1 2 3
1 0 37.56286 76.97EQ3
2 37,53268 0 10.91429
375*97603 10.91426 0
From type123
10 52,61604 10B.3BB45
2 S2.61G04 0 15.27993
3 106.36645 16.£7999 0
Prob > Maha I anob is Di stance for Squared Distance to type
Fro« type1 2 3
1 LOOOO <t0001 <.0001
2caooi 1.0000 0.0009
3 <.0001 0.0003 1.0000
由上表的显著性概率可知,在0.05的显著性水平下,三个类的总体均值两两显著不等。
表15线性判别函数
L i near Discriminant Funct ion for type
Var Iab le
3
12
Cori 妣sint-12.D1131 -L1676B -7.56654
Canl 4J8922 -L07130 -3.81792
Can2 -DJ4378 1J89B1 -0 J4604 由表15得3个类的线形判别函数分别为:
第一类:Y1=-12.01131+4.88922ca n1-0.34378ca n2
第二类:Y2=-1.16768-1.07130ca n1+1.08981ca n2
第三类:y3=-7.56654-3.81792ca n1-0.74604ca n2
表16由DISCRIM 利用两个典型变量进行判别部分样品归类结果
Posterior Probabi Iity of Membership I n type
Obs From
type
C1 ass if ied into
type
1 1 1
2 11
3 1 1 411 5 1 1 611
7 2 2
8 2 2
3 2 2
10 2 2
11 2 2
12 2 2
13 3 3
14 3 3
15 3 3 ie a 3 17 3 3 IE 3 3 19 1 * 20■3笨21 2 * 22■2笨
• Mlsclass if led
1
1.0000
2
O.OQOO
3
0.0000
koooo 0.0000 0.0000
1,0000 O.OQOO 0.0000
koooo O.OQQO 0.0000
1.0000 O.OQOO 0.0000
koooo 0.0000 0.0000
0.0000 0.8999 0,0001
0.0000 0.99470.0053
0-0000 0.99SB 0.0002
0.0000 0.9411 0.0589
0.0000 0.9940 0 JDB0
0.0000 0.SS6S 0.1042
0-0000 0.0043 0,9957
0.0000 0.OQ01 0.9899
0.0000 0.0029 0.3977
0.0000 O.OQQO 1.0000
0-0000 0,2579 0.7421
0.0000 0.4976 0.5022
1.0000 0.0000 0.0000
0.0000 O.OS71 0.9829
0.0000 0.8S$0 0.1340
0.0000 0.9129 0.0871 observation
Error Count Est i mates far type
Total
12
3
Rate D.OOOO 0.0000 0,0000 0.0000
Prior® 0,3333 0,9333 0,9333
上表分类结果与前几种分类方法结果一样,总错判率为0.。