应用多元统计分析SAS作业

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

5-9 设在某地区抽取了14 块岩石标本,其中 7 块含矿, 7 块不含矿。

对每块岩石测定了 Cu,Ag ,Bi 三种化学成分的含量,得到的数据如表 1。

表 1岩石化学成分的含量数据
类型序号Cu Ag Bi类型序号Cu Ag Bi
1 2.580.900.958 2.25 1.98 1.06
2 2.90 1.2
3 1.009 2.16 1.80 1.06
含3 3.55 1.15 1.00不10 2.33 1.74 1.10
4 2.3
5 1.150.79含
11 1.96 1.48 1.04
矿矿
5 3.54 1.850.7912 1.94 1.40 1.00
6 2.70 2.23 1.3013 3.00 1.30 1.00
7 2.70 1.700.4814 2.78 1.70 1.48
(1)假定两类样本服从正态分布,使用广义平方距离判别法进行判别归类(先验概率取为相等,并假定两类样本的协方差阵相等);
(2)今得一块标本,并测得其 Cu,Ag ,Bi 的含量分别为 2.95,2.15 和 1.54,试判断该标本是含矿还是不含矿?
问题求解
1使用广义平方距离判别法对样本进行判别归类用 SAS
软件中的 DISCRIM 过程进行判别归类。

SAS 程序及结
果如下。

dat a d59 ;
input group x1-x3@@; cards ;
1 2.58 0.
9 0.95
1 2.9 1.23 1
1 3.55 1.1
5 1
1 2.35 1.1
5
0.7
9
1 3.54 1.8
5
0.7
9
1 2.7
2.23 1.3 1 2.7 1.7 0.48
2 2.25 1.9
8
1.0
6
2 2.16 1.
8 1.06
2 2.3
3 1.7
4 1.1
2 1.96 1.4
8
1.0
4
2 1.94 1.
4 1
231.31
2 2.78 1.
7 1.48

pro
c print data =d59; run ;
pro c discri
m
data =d59 pool =yes
distance
list
;
class group;
var x1-x3;
run ;
由输出结果可知,两总体间的广义平方距离为D2=3.19774。

还可知两个三元总体均值相等的检验结果:D=3.19774,F=3.10891,p=0.0756<0.10,故在显著性水平=0.10 时量总体的均值向量有显著差异,即认为讨论这两个三元总体的
判别问题是有意义的。

线性判别函数为:
Y131.1105 13.7895Cu 8.2120Ag 11.3311Bi,
Y228.7375 10.3139Cu 8.9904Ag 16.8578Bi.
判别结果为含矿的 6 号样本错判为不含矿;不含矿的 13 号样本错判为含矿。

2对给定样本判别归类
将 Cu,Ag ,Bi 的含量数值 2.95、2.15、1.54 分别代入线性判别函数得:
Y144.6742,Y246.97888。

贝叶斯判别的解 D
* D1*
,
, D
k
* 为
Dt * X | Yt
( X )
Yj
( X ),
j
t,
j
1, ,k
(t
1, ,
k )

由于 Y
1
44.67422 Y2 46.97888,因此待判的样品判为不含矿。

5-10 已知某研究对象分为三类,每个样品考察 4 项指标,各类的观测样品数分别为 7,4,6;类外还有 3 个待判样品(所有观测数据见表2)。

假定样本均来自正态总体。

X1表 2判别分类的数据
样品号X2 X3X4 类别号
1 6.0-11.519.090.01
2-11.0-18.525.0-36.03
390.2-17.017.0 3.0 2
4-4.0-15.013.054.01
50.0-14.020.035.02
60.5-11.519.037.03
7-10.0-19.021.0-42.03
80.0-23.0 5.0-35.01
920.0-22.08.0-20.03
10-100.0-21.47.0-15.01
11 -100.0-21.515.0-40.02
1213.0-17.218.0 2.0 2
13-5.0-18.515.018.01
1410.0-18.014.050.01
15-8.0-14.016.056.01
160.6-13.026.021.03
17-40.0-20.022.0-50.03
1-8.0-14.016.056.0
292.2-17.018.0 3.0
3-14.0-18.525.0-36.0
(1)试用马氏距离判别法进行判别分析,并对 3 个待判样品进行判别归类。

(2)使用其他的判别法进行判别分析,并对 3 个待判样品进行判别归类,然后比较之。

问题求解
1判别分析及判别归类
使用 SAS 软件中的DISCRIM 过程进行判别归类,SAS 程序及结果如下。

dat
a
d510;
input
x1-x4 group @@;
cards ;
6 -
11.5 19 90 1
-11 -
18.5 25 -36 3
90.
2 -17 17
3 2 -
4 -1
5 13 54 1
0 -14 20 35 2
0.5 -
11.5 19 37 3
-10 -19 21 -42 3 0 -23 5 -35 1 20 -22 8 -20 3
-100-
21.4 7 -15 1
-100-
21.5 15 -40 2
13 -
17.2 18 2 2
-5 -
18.5 15 18 1
10 -18 14 50 1 -8 -14 16 56 1 0.6 -13 26 21 3 -40 -20 22 -50 3
-8 -14 16 56 .
92.
2 -17 18
3 .
-14 -
18.5 25
-
36
.

pro c print ;
run ;
pro c discri
m data
=d510
simple
pcov wsscp psscp wcov distance list ;
clas
s group;
var x1-x4;
run ;
从结果来看,样本 2、3 类之间的马氏距离为d212=1.34,检验 H 0 : (2)(3)的
F 统计量为 0.63177,相应的 p=0.651>0.10,故在显著性水平=0.10 时量总体 2、
3 类的均值向量没有显著差异,即认为对讨论样本分为2、 3 类的判别问题是没
有太大意义的。

此外,判别结果中两个样本被判错归类: 1 类中 8 号样本应属于 2 类,2 类
中 9 号样本应属于 1 类;且待判得三个样本分别属于1, 2, 3 类。

2 二次判别函数判别
由第一问 SAS 运行结果可知三个总体的协方差阵不同,因此使用二次判别函数进行
判别。

此时贝叶斯判别的解 D * D1* , , D k*为
D t*X | Z t (X ) Z j ( X ), j t , j 1, , k (t 1, , k) ,
其中
Z j ( X ) l n q j f j ( X ) d0
12ln q
j ln S j d 2
j ( X )
2
将第一问中 SAS 程序 proc discrim data=d510后加入 pool=no,使其采用二次
判别函数进行再分类,变动部分程序如下:
proc discrim data =d510 simple pool =no
distance list ;
程序运行结果如下图。

由此可知, 17 个观测全部判别正确;待判的三个观测依次判归1,1,3 类。

5-11 某城市的环保监测站与1982 年在全市均匀地布置了14 个监测点,每日三年
次定时抽取大气样品,测量大气中的二氧化硫、氮氧化物和飘尘的含量。

前后 5 天,每个取样点(监测点)每种污染元素实测 15 次,取 15 次实测值的平均作为该取样点的大气污染元素的含量(数据见表 3)。

表中最后一列给出的类号是使用第六章将介绍的聚类分析方法分析得到的结果(第 1 类为严重污染地区,第 2 类为一般污染地区,第 3 类为基本没有污染地区)。

表 3大气污染数据
污染元素二氧化硫氮氧化物飘尘类别
样品号(X1) (X2) (X3)
10.0450.0430.2652
20.0660.0390.2642
30.0940.0610.1942
40.0030.0030.1023
50.0480.0150.1063
60.2100.0660.2631
70.0860.0720.2742
80.1960.0720.2111
90.1870.0820.3011
100.0530.0600.2092
110.0200.0080.1123
120.0350.0150.1703
130.2050.0680.2841
140.0880.0580.2152
150.1010.0520.181
160.0450.0050.122
(1)试用广义平方距离判别法建立判别准则(假设三个总体为多元正态总体,其协方
差阵相等,先验概率取为各类样本的比例),并列出回判结果。

(2)该城市另有两个单位在同一期间测定了所在单位大气中这三种污染元素的含量
(见表 3 中最后两行),试用马氏距离判别方法判断这两个单位的污染情况属于哪一类。

问题求解
用 SAS 软件中的 DISCRIM 过程进行判别归类。

data d511;
input x1-x3 group @@;
cards ;
0.045 0.043 0.265 2
0.066 0.039 0.264 2
0.094 0.061 0.194 2
0.003 0.003 0.102 3
0.048 0.015 0.106 3
0.210 0.066 0.263 1
0.086 0.072 0.274 2 0.196 0.072 0.211 1 0.187 0.082 0.301 1 0.053 0.060 0.209 2 0.020 0.008 0.112 3 0.035 0.015 0.170 3 0.205 0.068 0.284 1 0.088 0.058 0.215 2 0.101 0.052 0.181 .
0.045 0.005 0.122 . ;
pro c print ;
run ;
pro
c discrim data =d511
simple distance
list
;
class group; var x1-x3; run ;
WORD格式
由输出结果可知三个三元总体均值相等的检验结果中均满足 p<0.10,故在显著性水平=0.10 时量总体的均值向量有显著差异,即认为讨论这三个三元总
体的判别问题是有意义的。

判别结果: 14 个监测点全部判对。

且待判的两个观测点依次判归2,3 类。

专业资料整理。

相关文档
最新文档