多元统计分析第二章部分课后习题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章课后习题
1.现选取内蒙古、广西、贵州、云南、西藏、宁夏、新疆、甘肃和青海等9个内陆边远省区。
选取人均GDP、第三产业比重、人均消费支出、人口自然增长率及文盲半文盲人口占15岁以上人口等五项能够较好的说明各地区社会经济发展水平的指标,验证一下边远及少数民族聚居区的社会经济发展水平与全国平均水平有无显著差异。
边远及少数民族聚居区社会经济发展水平的指标数据
地区人均GDP
(元)
三产比重
(%)
人均消费
(元)
人口增长
(%)
文盲半文盲
(%)
内蒙古506831.121418.2315.83广西407634.220409.0113.32贵州234229.8155114.2628.98云南435531.3205912.125.48西藏371643.5155115.957.97宁夏427037.3194713.0825.56
新疆622935.4 274512.8111.44甘肃345632.8161210.0428.65青海436740.9204714.4842.92资料来源:《中国统计年鉴(1998)》,北京,中国统计出版社,1998。
五项指标的全国平均水平为:
)
15.78
9.5
2972
32.87
01
.
6212
(
0'
=
μ
解:(1)先利用SPSS软件检验各变量是否遵从多元正态分布(见输出结果1-1)输出结果1-1
正态性检验
Kolmogorov-Smirnov a Shapiro-Wilk
统计量Df Sig. 统计量df Sig.
人均GDP .219 9 .200*.958 9 .781 三产比重.145 9 .200*.925 9 .437 人均消费.209 9 .200*.873 9 .131 人口增长.150 9 .200*.949 9 .682 文盲半文盲.246 9 .124 .898 9 .242 *. 这是真实显著水平的下限。
a. Lilliefors 显著水平修正
上表给出了对每一个变量进行正态性检验的结果,因为该例中样本数n=9,所以此处选用Shapiro-Wilk 统计量。
则Sig.值分别为0.781、0.437、0.131、0.682、0.242均大于显著性水平,由此可以知道,人均GDP 、三产比重、人均消费、人口增长、文盲半文盲这五个变量组成的向量均服从正态分布,即我们认为这五个指标可以较好对各地区社会经济发展水平做出近似的度量。
(2)提出原假设及备选假设
00:μμ=H 01:μμ≠H
(3)做出统计判断,最后对统计判断作出具体的解释
SPSS 的GLM 模块可以完成多元正态分布有关均值与方差的检验。
依次点选Analyze →General Linear Mode →lMultivariate ……进入Multivariate 对话框,将人均GDP 、第三产业比重、人均消费支出、人口自然增长率及文盲半文盲人口占15岁以上人口等这五项指标选入Dependent 列表框,将分类指标选入Fixed Factor(s)框,点击OK 运行,则可以得到如下结果(见输出结果1-2)。
输出结果1-2 主体间因子 值标签
N 分类
1.00 边远及少数民族聚居区社会经济发展水平 9
2.00
全国经济平均发展水平
1
多变量检验a
效应
值 F 假设 df
误差 df
Sig.
截距
Pillai 的跟踪 .990 81.986b 5.000 4.000 .000 Wilks 的 Lambda
.010
81.986b 5.000 4.000 .000 Hotelling 的跟踪 102.482 81.986b 5.000 4.000 .000 Roy 的最大根 102.482
81.986b 5.000 4.000 .000 分类
Pillai 的跟踪
.834 4.029b 5.000 4.000 .101 Wilks 的 Lambda
.166 4.029b 5.000 4.000 .101 Hotelling 的跟踪 5.037 4.029b 5.000 4.000 .101 Roy 的最大根
5.037
4.029b
5.000
4.000
.101
a. 设计 : 截距 + 分类
b. 精确统计量
上面第一张表是样本数据分别来自边远及少数民族聚居区社会经济发展水平、全国的个数。
第二张表是多变量检验表,该表给出了几个统计量。
由Sig.值可以看到,无论从哪个统计量来看,两个分类的经济发展水平是无显著差别的。
实际上,GLM模型是拟合了下面的模型:
ε
β
β+
+
=X
Y
1
式中
Y GDP?' =(人均第三产业比重人均消费支出人口自然增长率文盲半文盲)
X=分类
上面多变量检验表实际上是对该线性模型显著性的检验,此处有常数项
β是因为不能肯定模型过原点。
而模型没有通过显著性检验,意味着分类中的不同取值对Y的取值无显著影响,也就是说,不同分类的经济发展水平是相同的。
但是,在实际中,我们往往更希望知道差别主要来自哪些分类,或者不同分类经济发展水平的比较。
对此,对GLM模块的选项作如下设置:在GLM主对话框中点击Contrasts…按钮进入Contrasts对话框,在Change Contrasts框架中打开Contrasts右侧的下拉框并选择Simple,此时下侧的Reference Category 被激活,默认是Last被选中,表明边远及少数民族聚居区社会经济发展水平与全国平均发展水平作比较,点击Change按钮,Continue继续,OK进行,得到如下结果(见输出结果1-3)
输出结果1-3
对比结果(K 矩阵)
分类简单对比a因变量
人均GDP 三产比
重人均消费人口增
长
文盲半文
盲
级别 1 和级别 2 对比估算值-2003.232 2.274 -1006.111 2.712 12.014 假设值0 0 0 0 0 差分(估计 - 假设)-2003.232 2.274 -1006.111 2.712 12.014 标准误差1129.265 4.912 395.860 2.761 15.688 Sig. .114 .656 .035 .355 .466 差分的 95% 置信区
间
下限-4607.321 -9.053 -1918.967 -3.655 -24.162
上限600.857 13.602 -93.256 9.079 48.190
a. 参考类别 = 2
见输出结果1-3表示
(1)在显著性水平0.05
∂=的水平下,可以看到Sig.值分别为0.114、0.656、0.035、0.355、0.466,由此我们可以知道边远及少数民族聚居区社会经济发展水平与全国平均发展水平中的人均消费存在显著差别,即全国的平均人均消费大于边远及少数民族聚居区人均消费,相差值为1006.111元。
人均GDP、三产比重、人口增长率、文盲半文盲等指标无明显差别。
(2)在显著性水平0.01
∂=的水平下,可以看到Sig.值分别为0.114、0.656、0.035、0.355、0.466均大于显著性水平∂,我们可以看出边远及少数民族聚居区社会经济发展水平与全国平均发展水平中的人均GDP、三产比重、人均消费、人口增长率、文盲半文盲等指标无明显差别。
输出结果1-4
多变量检验结果
值 F 假设 df 误差 df Sig.
Pillai 的跟踪.834 4.029a 5.000 4.000 .101
Wilks 的 lambda .166 4.029a 5.000 4.000 .101
Hotelling 的跟踪 5.037 4.029a 5.000 4.000 .101
Roy 的最大根 5.037 4.029a 5.000 4.000 .101
a. 精确统计量
输出结果1-4是上面多重比较可信性的度量,由Sig.值可以看到,比较检验是可信的。
2、为研究某系列杀虫剂的杀虫效果,随机抽取一批标准试验田分别使用该系列
三种不同杀虫剂(1、2、3),结果如spss所示。
试比较杀虫剂对玉米和棉花的作用,并分析杀虫剂与农作物是否存在交互作用。
解:在SPSS中依次选择:
分析→一般线性模型→多变量后将效果1和效果2选入因变量中,将杀虫剂和农作物选入固定因子对话框中,在对比对话框中,将杀虫剂用差值进行对比;在绘制中,将杀虫剂选入水平轴,农作物选入单图;将杀虫剂进行两两比较;在选型对话框中进行方差齐性检验,得到以下输出结果:
输出结果2-1
主体间因子
N
杀虫剂 1 8
2 8
3 8 农作物0 12
1 12
由上表知,杀虫剂共有三类,所含个体数均为8个;农作物分为两个,所含个体数均为12个。
输出结果2-2
协方差矩阵等同性的Box 检验a
Box 的M 17.133 F .812 df1 15 df2 1772.187 Sig. .665 检验零假设,即观测到的因变量的协方差矩阵在所有组中均相等。
a. 设计: 截距+ 杀虫剂+ 农作物+ 杀虫剂* 农作物
由该表知,检验统计量是Box’M,由Sig.值可以认为观测到的因变量的协方差矩阵在所有组中是均相等的。
输出结果2-3
误差方差等同性的Levene 检验a
F df1 df2 Sig.
效果1 1.509 5 18 .236 效果2 .499 5 18 .773 检验零假设,即在所有组中因变量的误差方差均相等。
a. 设计: 截距+ 杀虫剂+ 农作物+ 杀虫剂* 农作物
由上表知,在显著性水平∂位0.05下,Sig.值分别为0.236、0.773,它们均大于∂,则不应该拒绝原假设,即认为效果1和效果2的误差方差是相等的。
输出结果2-4
主体间效应的检验
源因变量III 型平方和df 均方 F Sig.
校正模型效果1 344.708a 5 68.942 20.944 .000 效果2 165.500b 5 33.100 7.401 .001 截距效果1 1617.042 1 1617.042 491.253 .000 效果2 1536.000 1 1536.000 343.453 .000 杀虫剂效果1 308.083 2 154.042 46.797 .000 效果2 147.250 2 73.625 16.463 .000 农作物效果1 30.375 1 30.375 9.228 .007 效果2 16.667 1 16.667 3.727 .069 杀虫剂* 农作物效果1 6.250 2 3.125 .949 .406 效果2 1.583 2 .792 .177 .839 误差效果1 59.250 18 3.292
效果2 80.500 18 4.472
总计效果1 2021.000 24
效果2 1782.000 24
校正的总计效果1 403.958 23
效果2 246.000 23
a. R 方= .853(调整R 方= .813)
b. R 方= .673(调整R 方= .582)
见输出结果2-4我们可以知道,在杀虫剂中,效果1和效果2的Sig.值均为0小于∂,拒绝原假设,我们认为三种类型的杀虫剂在效果1和效果2上存在显著差别;在农作物中,效果1和效果2的Sig.值分别为0.007、0.069均大于∂,不应拒绝原假设,即认为两种不同的农作物(玉米和棉花)在效果1和效果2上没有显著差别;在杀虫剂 * 农作物中,效果1和效果2的Sig.值分别为0.406、0.839均大于∂,不应拒绝原假设,即认为杀虫剂与农作物综合考虑条件下在效果1和效果2上是没有显著差别的。
输出结果2-5
见输出结果2-4知,
①在效果1的估算边际均值中两条线之间接近平行,没有相交,则我们认为在效果1中杀虫剂与农作物之间不存在交互作用;
②在效果2的估算边际均值中两条线之间接近平行,没有相交,则我们认为在效果2中杀虫剂与农作物之间不存在交互作用;。