判别分析三种方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
作业一:
为研究1991年中国城镇居民月平均收入状况,按标准化欧氏平方距离、离差平方和聚类方法将30个省、市、自治区.分为两种类型。试建立判别函数,判定广东、西藏分别属于哪个收入类型。判别指标及原始数据见表9-4。
1991年30个省、市、自治区城镇居民月平均收人数据表
单位:元/人 x1:人均生活费收入 x6:人均各种奖金、超额工资(国有+集体) x2:人均国有经济单位职工工资 x7:人均各种津贴(国有+集体)
x3:人均来源于国有经济单位标准工资 x8:人均从工作单位得到的其他收入
x4:人均集体所有制工资收入 x9:个体劳动者收入
x5:人均集体所有制职工标准工资
一、距离判别法
解:变量个数p=9,两类总体各有11个样品,即n1=n2=11 ,有2个待判样品,假定两总体协差阵相等。由spss可计算出:协方差和平均值
合计x1 123.2881 23.27817 22 22.000
x2 80.4895 22.04796 22 22.000
x3 50.8709 6.14867 22 22.000
x4 10.1450 3.11887 22 22.000
x5 6.0659 2.72297 22 22.000
x6 14.6060 6.73264 22 22.000
x7 15.7215 6.64603 22 22.000
x8 8.7895 3.02700 22 22.000
x9 1.5291 1.31496 22 22.000
知道了均值和协方差可利用matlab计算线性判别函数W(x)的判别系数a和判别常数。程序如下:
v=[1.000,0.217,0.299,0.045,-0.054,0.688,0.212,0.121,-0.245;.217,1,.102,-.234,-.211,. 136,-.052,.116,.154;.299,.102,1,-.296,-.062,.091,-.017,-.607,-.034;.045,-.234,-.296,1,. 762,-.172,-.297,.103,-.554;-.054,-.211,-.062,.762,1,-.156,-.342,.022,-.654;.688,.136,.0 91,-.172,-.156,1,.235,.384,-.098;.212,-.052,-.017,-.297,-.342,.235,1,-.040,.424;.121,.1 16,-.607,.103,.022,.384,-.040,1,-.071;-.245,.154,-.034,-.554,-.654,-.098,.424,-.071,1]; >>
m1=[139.2664;93.0918;53.9882;11.2073;6.7645;17.9345;17,8327;11.0018;1.6736];m 2=[107.3099;67.8873;47.7536;9.0827;5.3673;11.2775;13.6102;6.5773;1.3845];
>> m=(m1+m2)/2;
>> arfa=inv(v)*(m1-m2);
二、Fisher判别方法
1、操作步骤:
1)录入数据,选择菜单项Analyze→Classify→Discriminate,打开Discriminate Analysis对话框,如图2-1。
图2-1
2)单击Statistics按钮,在跳出的Statistics子对话框中指定输出的描述统计量和判别函数系数。如图2-2
图2-2
3)单击Classify按钮,打开Classification子对话框,对它的先验概率、输
出以及图等的选择。如图2-3
图2-3
4)单击Save按钮,打开Save子对话框,如图2-4,指定在数据文件中生成代表判别分类结果和判别函数值的新变量。
图2-4
5)单击‘OK’即可。
2、结果分析
1)表2-1是Fisher判别函数的特征值表。特征值为相应Fisher判别函数的特征值,等于判别函数值组间平方和与组内平方和之比,该值越大表明判别函数效果越好。特征值的个数与Fisher判别函数的个数相等,由于本例中总体只有两
类,所以至多有一个Fisher判别函数。正则相关性为典型相关系数,等于组间平方和与组内平方和之比的平方根。
表2-1Fisher判别函数特征值
2)表2-2给出了Fisher判别函数有效性检验结果。该检验的原假设是不同组的平均Fisher判别函数值不存在显著差异。从表中给出的α值来看,05
.0
000
.0≤
=
α说明在0.05的显著性水平下有理由拒绝原假设,即应认为不同组的平均Fisher判别函数值存在显著差异,这意味着判别函数是有效的。
表2-2Fisher判别函数有效性检验
3)表2-3和表2-4分别给出了标准化的Fisher判别函数和未标准化的Fisher 判别函数。标准化的Fisher判别函数是由标准化的自变量通过Fisher判别法得到的,所以要得到标准化的Fisher判别函数值,代入该函数的自变量必须是经过标准化的。而未标准化的Fisher判别函数系数由于可以将实测的样品观测值直接代入求出判别函数值,所以该系数使用起来比标准化的系数要方便一些。由表2-4可知,Fisher判别函数为:
582
.
20
252
.0
618
.0
051
.0
064
.0 011
.0
217
.0
225
.0
009
.0
005
.0
9
8
7
6
5
4
3
2
1
-
+
+
+
-
-
+
+
+
=
x
x
x
x
x
x
x
x
x
y Wilks 的 Lambda
函数检验Wilks 的
Lambda 卡方df Sig.
1 .135 31.003 9 .000