应用多元统计分析SAS作业审批稿
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
应用多元统计分析S A S
作业
YKK standardization office【 YKK5AB- YKK08- YKK2C- YKK18】
5-9 设在某地区抽取了14块岩石标本,其中7块含矿,7块不含矿。
对每块岩石测定了Cu,Ag,Bi三种化学成分的含量,得到的数据如表1。
表1 岩石化学成分的含量数据
(1)假定两类样本服从正态分布,使用广义平方距离判别法进行判别归类(先验概率取为相等,并假定两类样本的协方差阵相等);
(2)今得一块标本,并测得其Cu,Ag,Bi的含量分别为2.95,2.15和1.54,试判断该标本是含矿还是不含矿?
问题求解
1 使用广义平方距离判别法对样本进行判别归类
用SAS软件中的DISCRIM过程进行判别归类。
SAS程序及结果如下。
data d59;
input group x1-x3@@;
cards;
1 2.58 0.9 0.95
1 2.9 1.23 1
1 3.55 1.15 1
1 2.35 1.15 0.79
1 3.54 1.85 0.79
1 2.7 2.23 1.3
1 2.7 1.7 0.48
2 2.25 1.98 1.06
2 2.16 1.8 1.06
2 2.3
3 1.7
4 1.1
2 1.96 1.48 1.04
2 1.94 1.4 1 2
3 1.3 1 2 2.78 1.7 1.48 ;
proc print data =d59; run ;
proc discrim data =d59 pool =yes distance list ; class group; var x1-x3; run ;
由输出结果可知,两总体间的广义平方距离为D 2=3.19774。
还可知两个三元总体均值相等的检验结果:D =3.19774,F =3.10891,p =0.0756<0.10,故在显着性水平=0.10α时量总体的均值向量有显着差异,即认为讨论这两个三元总体的判别问题是有意义的。
线性判别函数为:
判别结果为含矿的6号样本错判为不含矿;不含矿的13号样本错判为含矿。
2 对给定样本判别归类
将Cu ,Ag ,Bi 的含量数值2.95、2.15、1.54分别代入线性判别函数得:
1244.674246.978882Y Y ==,。
贝叶斯判别的解{}***1,
,k D D D = 为
{}*|()(),,1,
,(1,
,)t t j D X Y X Y X j t j k t k =>≠==,
由于1244.6742246.97888Y Y =<=,因此待判的样品判为不含矿。
5-10 已知某研究对象分为三类,每个样品考察4项指标,各类的观测样品数分别为7,4,6;类外还有3个待判样品(所有观测数据见表2)。
假定样本均来自正态总体。
表2 判别分类的数据
(1)试用马氏距离判别法进行判别分析,并对3个待判样品进行判别归类。
(2)使用其他的判别法进行判别分析,并对3个待判样品进行判别归类,然后比较之。
问题求解
1判别分析及判别归类
使用SAS软件中的DISCRIM过程进行判别归类,SAS程序及结果如下。
data d510;
input x1-x4 group @@;
cards;
6 -11.5 19 90 1
-11 -18.5 25 -36 3
90.2 -17 17 3 2
-4 -15 13 54 1
0 -14 20 35 2
0.5 -11.5 19 37 3
-10 -19 21 -42 3
0 -23 5 -35 1
20 -22 8 -20 3
-100 -21.4 7 -15 1
-100 -21.5 15 -40 2
13 -17.2 18 2 2
-5 -18.5 15 18 1
10 -18 14 50 1
-8 -14 16 56 1
0.6 -13 26 21 3
-40 -20 22 -50 3
-8 -14 16 56 . 92.2 -17
18
3 . -1
4 -18.
5 25
-36 .
;
proc print ; run ;
proc discrim data =d510 simple pcov wsscp psscp wcov distance list ; class group; var x1-x4; run ;
从结果来看,样本2、3类之间的马氏距离为d 212=1.34,检验(2)
(3)0:H μ
μ= 的F 统
计量为0.63177,相应的p =0.651>0.10,故在显着性水平=0.10α时量总体2、3类的均值向量没有显着差异,即认为对讨论样本分为2、3类的判别问题是没有太大意义的。
此外,判别结果中两个样本被判错归类:1类中8号样本应属于2类,2类中9号样本应属于1类;且待判得三个样本分别属于1,2,3类。
2 二次判别函数判别
由第一问SAS 运行结果可知三个总体的协方差阵不同,因此使用二次判别函数进行判别。
此时贝叶斯判别的解{}***1,
,k D D D = 为
{}*|()(),,1,
,(1,
,)t t j D X Z X Z X j t j k t k =>≠==,
其中
将第一问中SAS 程序proc discrim data=d510后加入pool=no ,使其采用二次判别函数进行再分类,变动部分程序如下:
proc discrim data =d510 simple pool =no distance list ;
程序运行结果如下图。
由此可知,17个观测全部判别正确;待判的三个观测依次判归1,1,3类。
5-11某城市的环保监测站与1982年在全市均匀地布置了14个监测点,每日三年次定时抽取大气样品,测量大气中的二氧化硫、氮氧化物和飘尘的含量。
前后5天,每个取样点(监测点)每种污染元素实测15次,取15次实测值的平均作为该取样点的大气污染元素的含量(数据见表3)。
表中最后一列给出的类号是使用第六章将介绍的聚类分析方法分析得到的结果(第1类为严重污染地区,第2类为一般污染地区,第3类为基本没有污染地区)。
表3 大气污染数据
(1)试用广义平方距离判别法建立判别准则(假设三个总体为多元正态总体,其协方差阵相等,先验概率取为各类样本的比例),并列出回判结果。
(2)该城市另有两个单位在同一期间测定了所在单位大气中这三种污染元素的含量(见表3中最后两行),试用马氏距离判别方法判断这两个单位的污染情况属于哪一类。
问题求解
用SAS软件中的DISCRIM过程进行判别归类。
data d511;
input x1-x3 group @@;
cards;
0.045 0.043 0.265 2
0.066 0.039 0.264 2
0.094 0.061 0.194 2
0.003 0.003 0.102 3
0.048 0.015 0.106 3
0.210 0.066 0.263 1
0.086 0.072 0.274 2
0.196 0.072 0.211 1
0.187 0.082 0.301 1
0.053 0.060 0.209 2
0.020 0.008 0.112 3
0.035 0.015 0.170 3
0.205 0.068 0.284 1
0.088 0.058 0.215 2
0.101 0.052 0.181 .
0.045 0.005 0.122 .
;
proc print;
run;
proc discrim data=d511 simple distance list;
class group;
var x1-x3;
run;
由输出结果可知三个三元总体均值相等的检验结果中均满足 p<0.10,故在显着性水
时量总体的均值向量有显着差异,即认为讨论这三个三元总体的判别问题是平=0.10
有意义的。
判别结果:14个监测点全部判对。
且待判的两个观测点依次判归2,3类。