数据分析习题集

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
B 的各水平 Bj 上的均值μij 的置信度为 95%的置信区间以及两两之 差的置信度不小于 95%的 Bonferroni 同时置信区间,固定 B 的各水 平 Bj,关于因素 A 作类似分析,你能否选出最佳的水平组合。
5
成都信息工程学院>>精品课程>>数据分析
第四章 主成分分析与典型相关分析
1、设总体 X = ( X 1 X 2 X 3 )T 的协方差矩阵为
179.41
13
福建
19.46
250.16
14
江西
10.93
122.06
15
山东
40.26
552.74
16
河南
19.82
268.20
17
湖北
19.49
221.43
18
湖南
16.01
197.68
19
广东
99.32
1080.26
20
广西
14.77
160.6021海南3.9639.51
22
重庆
10.49
111.76
(2) 求出方差分析表,解释线性回归关系显著性检验结果,求复相关系数的
平方 R 2 的值并解释其意义。
(3) 分别求 b1 和 b 2 的置信度为 0.95 的置信区间。 (4) 该 公 司 欲 在 一 个 适 宜 使 用 该 化 妆 品 的 人 数 x01 = 220 , 人 均 月 收 入
x02 = 2500 的城市销售该化妆品,求其销量的预测值及其置信度为 0.95 的置信区 间。
表 1.5 血液中 4 种成分的含量数据
x1 18.8 17.4 16.0 19.3 17.4 15.3 16.7 17.4 16.2 16.7 18.2 16.7 x2 28.1 25.6 27.4 29.5 27.4 25.3 25.8 26.7 25.7 26.7 28.0 26.7 x3 5.1 4.9 5.0 1.7 4.5 3.6 4.4 4.4 2.3 6.4 3.2 2.1 x4 35.1 33.9 32.2 29.1 35.6 32.2 33.0 33.0 33.9 35.0 29.7 34.9
成都信息工程学院 数学学院 杨韧(编)2011.4
1
成都信息工程学院>>精品课程>>数据分析
4、2002 年 11 月以及 1 至 11 月全国省、市、区财政预算收入数据如表 1.4 所示
(单位:亿元)。
表 1.4 全国省、市、区财政预算收入数据
序号
省市区
11 月
1~11 月
1
北京
35.22
499.80
23
四川
21.71
250.09
24
贵州
13.06
95.87
25
云南
20.34
183.62
成都信息工程学院 数学学院 杨韧(编)2011.4
2
成都信息工程学院>>精品课程>>数据分析
26
西藏
0.77
6.08
27
陕西
11.38
133.50
28
甘肃
3.66
64.86
29
青海
1.21
18.30
30
宁夏
2.31
第二章 线性回归分析
2.1 写出下列回归模型的矩阵形式。
(1)
yi
=
b1 xi1
+
b
2
x
2 i2
+ ei
,i
= 1,2,L, n
(2) yi = b 0 + b1 ln xi1 + b 2 xi2 + b3 (xi1 + sin xi2 ) + e i , i = 1,2,L, n 2.2 对于过原点的简单线性回归模型
23.81
31
新疆
3.24
103.81
求 X1 与 X2 观测值的 pearson 相关系数与 Spearman 相关系数
5、对某民族的 21 人测量其血液中 4 种成分的含量。分别以 X1, X 2 , X 3 , X 4 记这 4
种成分,观测数据如表 1.5 所示。求总体均值向量 μ 及总体协方差矩阵 S 的估计。
2
天津
10.41
161.37
3
河北
17.22
273.29
4
山西
10.70
134.79
5
内蒙古
10.29
90.92
6
辽宁
18.66
348.99
7
吉林
4.41
106.89
8
黑龙江
6.24
196.44
9
上海
49.72
656.95
10
江苏
47.70
580.70
11
浙江
36.55
518.10
12
安徽
14.85
假设 Y 与 x1, x2 之间满足线性关系: yi = b0 + b1xi1 + b2 xi2 + e i i=1,2,……,15
其中 e i ~ N (0,s 2 ) (i=1,2,……,15),且各 e i 相互独立。
(1) 求回归系数 b0 , b1 , b 2 的最小二乘估计和误差方差s 2 的估计,写出 回归方程,并对回归方程作解释。
x1 18.1 16.7 18.1 20.2 20.2 21.5 18.8 21.6 21.3 x2 26.7 26.0 30.2 30.5 29.5 31.5 30.6 27.8 29.5 x3 4.3 3.0 7.0 4.8 5.5 5.8 5.4 5.4 5.8 x4 31.5 32.7 34.9 34.4 36.2 36.5 35.4 34.1 35.8
6、对表 1.5 的血液成分含量数据,计算中位数向量 M 、Pearson 相关矩阵 R 及 Spearman 相关矩阵 Q ,并分别对 R 的元素 rjk 和 Q 的元素 q jk ( j ¹ k ) 进行显著性检 验。
成都信息工程学院 数学学院 杨韧(编)2011.4
3
成都信息工程学院>>精品课程>>数据分析
é s 2 s 2r 0 ù
S = êês 2 r
s2
s
2
r
ú ú
êë 0 s 2 r s 2 úû
求 X 的主成分以及其各主成分的贡献率。

8.5 9.7 10.1 7.8 9.6 9.5
假定生产能力提高量服从方差分析模型.
3.2 为研制一种治疗枯草热病的药物,将两种成分(A 和 B)各按三种不同剂量
(低、中、高)混合,将 36 位自愿受试患者随机分为 9 组,每组 4 人服用各种
剂量混合下的药物,记录其病情缓解的时间(单位:小时)如下表所示:
成都信息工程学院精品课程数据分析成都信息工程学院数学学院杨韧编20114数据分析习题集杨韧编成都信息工程学院数学学院二一一年四月成都信息工程学院精品课程数据分析成都信息工程学院数学学院杨韧编20114i目录第一章数据的描述性分析
成都信息工程学院>>精品课程>>数据分析
数据分析习题集
杨 韧(编)
成都信息工程学院 数学学院
中、高三档)对当年生产能力提高的影响,调查了共计 27 家生产该设备的公司,
对当年生产能力较之三年前的提高量作评估,得数据如表 3.16 所示:
表 3.16
科研经费投入
不同科研经费投入下生产能力的提高量
生产能力提高量

7.6 8.2 6.8 5.8 6.9 6.6 6.3 7.7 6.0

6.7 8.1 9.4 8.6 7.8 7.7 8.9 7.9 8.3 8.7 7.1 8.4
(1) 计算每个水平组合(Ai,Bj)上的均值μij 的估计值 yij. (i, j = 1,2,3) ,
做出形如图 3.2 的图形,判断 A 与 B 的交互效应是否显著? (2) 假设所给数据服从方差分析模型,建立方差分析表,A 与 B 的交互
效应在α=0.05 下是否显著? (3) 若 A 与 B 的交互效应显著,分别就 A 的各水平 Ai (i=1,2,3),给出在
(5) 求 Y 的拟合值,残差及学生化残差,根据学生化残差正态性的频率检验 及正态 QQ 图检验说明模型误差项的正态性假定是否合理,有序学生化残差和相 应标准正态分布的分位数的相关系数是多少?作出各种残差图,分析模型有关假 设的合理性。
4
成都信息工程学院>>精品课程>>数据分析
第三章 方差分析
3.1 为了了解生产某种电子设备的公司在过去三年中的科研经费投入(分为低、
yi = bxi + e i , i = 1,2,L, n
设 e i (i = 1,2,L, n) 相互独立且服从 N (0,s 2 ) 分布,求 β 的最小二乘估计,它是否 是 β 的无偏估计? 2.3 某公司管理人员为了解某化妆品在一个城市的月销售量 Y(单位:箱)与该城
市中适合使用该化妆品的人数 x1(单位:千人)以及他们人均月收入 x2 (单位:元) 之间的关系,在某个月对 15 个城市作了调查得上述各量的观测值如下表所示:
不同剂量组合下病情缓解的时间

成分
分 B
A
低剂量
中剂量
高剂量
低剂量
2.4 2.7 2.3 2.5 4.6 4.2 4.9 4.7 4.8 4.5 4.4 4.6
中剂量
5.8 5.2 5.5 5.3 8.9 9.1 8.7 9.0 9.1 9.3 8.7 9.4
高剂量
6.1 5.7 5.9 6.2 9.9 10.1 10.6 10.1 13.5 13.0 13.3 13.2
成都信息工程学院 数学学院 杨韧(编)2011.4
i
成都信息工程学院>>精品课程>>数据分析
第一章 数据的描述性分析
1、某小学 60 名 11 岁学生的身高(单位:厘米)数据如下: 126 149 143 141 127 123 137 132 135 134 146 142 135 141 150 137 144 137 134 139 148 144 142 137 147 138 140 132 149 131 139 142 138 145 147 137 135 142 151 146 129 120 143 145 142 136 147 128 142 132 138 139 147 128 139 146 139 131 138 149 (1)计算均值、方差、标准差、变异系数、偏度、峰度; (2)计算中位数、上、下四分位数、四分位极差、三均值; (4)作出茎叶图。 2、1949—1980 年全国历年人口数(单位:亿人)如下: 5.4167 5.5196 5.6300 5.7482 5.8796 6.0266 6.1465 6.2828 6.4653 6.5994 6.7207 6.6207 6.5859 6.7295 6.9172 7.0499 7.2538 7.4542 7.6368 7.8534 8.0671 8.2992 8.5229 8.7177 8.9211 9.0859 9.2420 9.3717 9.4974 9.6259 9.7542 9.8705 10.0072 10.1541 10.2495 10.3475 10.4532 (1)计算均值、方差、标准差、变异系数、偏度、峰度; (2)计算中位数、上、下四分位数、四分位极差、三均值; (4)作出茎叶图 3、1978 年至 1999 年我国农村居民消费数据如下表所示(单位:元) 年份: 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 农村居民: 138 158 178 199 221 246 283 347 376 417 508 年份: 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 农村居民: 553 571 621 718 855 1118 1434 1768 1876 1895 1973 分别对农村居民的消费数据计算以下各项: (1) 均值、方差、标准差、变异系数、偏度、峰度; (2) 中位数、上、下四分位数、四分位极差、三均值; (3) 作出直方图; (4) 作出茎叶图; (5) 找出异常值.
二○一一年四月
成都信息工程学院 数学学院 杨韧(编)2011.4
成都信息工程学院>>精品课程>>数据分析
目录
第一章 数据的描述性分析 ..................................................................1 第二章 线性回归分析..........................................................................4 第三章 方差分析 .................................................................................5 第四章 主成分分析与典型相关分析 ..................................................6 第五章 判别分析 .................................................................................8 第六章 聚类分析 ...............................................................................10
相关文档
最新文档