统计学第五版课后题答案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

统计学
第五版贾俊平版课后题答案(部分)
第三章数据的图表展示
3.1 为评价家电行业售后服务的质量,随机抽取了由100个家庭构成的一个样本。

服务质量的等级分别表示为:A.好;B.较好;C一般;D.较差;E.差。

调查结果如下:
B E
C C A
D C B A E
D A C B C D
E C E E
A D
B
C C A E
D C B
B A
C
D
E A B D D C
C B C E
D B C C B C
D A C B C D
E C E B
B E
C C A
D C B A E
B A
C E E A B
D D C
A D
B
C C A E
D C B
C B C E
D B C C B C
要求:
(1)指出上面的数据属于什么类型。

顺序数据
(2)用Excel制作一张频数分布表。

用数据分析——直方图制作:
接收频率
E16
D17
C32
B21
A14
(3)绘制一张条形图,反映评价等级的分布。

用数据分析——直方图制作:
(4)绘制评价等级的帕累托图。

逆序排序后,制作累计频数分布表:
接收 频数 频率(%) 累计频率(%) C 32 32 32 B 21 21 53 D 17 17 70 E 16 16 86 A
14
14
100
5101520253035C
D
B
A
E
20406080100120
3.2 某行业管理局所属40个企业2002年的产品销售收入数据如下: 152 124 129 116 100 103 92 95 127 104 105 119 114 115 87 103 118 142 135 125 117 108 105 110 107 137 120 136 117 108 97
88
123
115
119
138
112
146
113
126
要求:
(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。

1、确定组数: ()lg 40lg() 1.60206111 6.32lg(2)lg 20.30103
n K =+
=+=+=,取k=6 2、确定组距:
组距=( 最大值 - 最小值)÷ 组数=(152-87)÷6=10.83,取10 3
(2)按规定,销售收入在125万元以上为先进企业,115~125万元为良好企业,105~115 万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业
3.3 某百货公司连续40天的商品销售额如下:
单位:万元
41 25 29 47 38 34 30 38 43 40 46 36 45 37 37 36 45 43 33 44 35 28 46 34 30 37 44 26 38 44 42
36
37
37
49
39
42
32
36
35
要求:根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。

1、确定组数: ()lg 40lg() 1.60206111 6.32lg(2)lg 20.30103
n K =+
=+=+=,取k=6 2、确定组距:
组距=( 最大值 - 最小值)÷ 组数=(49-25)÷6=4,取5
3.4 利用下面的数据构建茎叶图和箱线图。

57 29 29 36 31
23 47 23 28 28
35 51 39 18 46
18 26 50 29 33
21 46 41 52 28
21 43 19 42 20
data Stem-and-Leaf Plot
Frequency Stem & Leaf
3.00 1 . 889
5.00 2 . 01133
7.00 2 . 6888999
2.00 3 . 13
3.00 3 . 569
3.00 4 . 123
3.00 4 . 667
3.00 5 . 012
1.00 5 . 7
Stem width: 10
Each leaf: 1 case(s)
3.6一种袋装食品用生产线自动装填,每袋重量大约为50g,但由于某些原因,每袋重量不会恰好是50g。

下面是随机抽取的100袋食品,测得的重量数据如下:
单位:g 57 46 49 54 55 58 49 61 51 49 51 60 52 54 51 55 60 56 47 47
53 51 48 53 50 52 40 45 57 53 52 51 46 48 47 53 47 53 44 47 50 52 53 47 45 48 54 52 48 46 49 52 59 53 50 43 53 46 57 49 49 44 57 52 42 49 43 47 46 48 51 59 45 45 46 52 55 47 49 50 54 47 48 44 57 47 53 58 52 48 55 53 57 49 56 56 57 53 41 48 要求:
(1)构建这些数据的频数分布表。

(2)绘制频数分布的直方图。

(3)说明数据分布的特征。

解:(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。

1、确定组数:
()lg 100lg()2111 6.64lg(2)lg 20.30103
n K =+
=+=+=,取k=6或7 2、确定组距:
组距=( 最大值 - 最小值)÷ 组数=(61-40)÷6=3.5,取3或者4、5 组距=( 最大值 - 最小值)÷ 组数=(61-40)÷7=3, 3、分组频数表
组距3,上限为小于
直方图:
组距4,上限为小于等于
直方图:
组距5,上限为小于等于
直方图:
分布特征:左偏钟型。

3.8 下面是北方某城市1——2月份各天气温的记录数据:
-3 2 -4 -7 -11 -1 7 8 9 -6 14 -18 -15 -9 -6 -1 0 5 -4 -9 6 -8 -12 -16 -19 -15 -22 -25 -24 -19 -8 -6 -15 -11 -12 -19 -25 -24 -18 -17 -14
-22
-13
-9
-6
0 -1 5 -4 -9 -3 2 -4 -4 -16 -1
7
5
-6
-5
要求:
(1)指出上面的数据属于什么类型。

数值型数据
(2)对上面的数据进行适当的分组。

1、确定组数:
()lg 60lg() 1.778151111 6.90989lg(2)lg 20.30103
n K =+
=+=+=,取k=7 2、确定组距:
组距=( 最大值 - 最小值)÷ 组数=(14-(-25))÷7=5.57,取5 3、分组频数表
(3)绘制直方图,说明该城市气温分布的特点。

解:
(1)根据上面的数据,画出两个班考试成绩的对比条形图和环形图。

(2)比较两个班考试成绩分布的特点。

甲班成绩中的人数较多,高分和低分人数比乙班多,乙班学习成绩较甲班好,高分较多,而低分较少。

(3)画出雷达图,比较两个班考试成绩的分布是否相似。

分布不相似。

3.14 已知1995—2004年我国的国内生产总值数据如下(按当年价格计算):
要求:
(1)用Excel绘制国内生产总值的线图。

(2)绘制第一、二、三产业国内生产总值的线图。

(3)根据2004年的国内生产总值及其构成数据绘制饼图。

第四章 数据的概括性度量
4.1(1)众数:100 M 。

中位数:5.52
11021=+=+=n 中位数位置,10210
10=+=e M 。

平均数:6.910
96
101514421
==++++=
=
∑= n
x
x n
i i。

(2)5.24
10
4===
n Q L 位置 ,5.5274=+=L Q 。

5.74
10
343=⨯==n Q U 位置,1221212=+=U Q 。

(3)
2.49
4
.1561
10)6.915()6.914()6.94()6.92(1)(2
2221
2
==
--+-++-+-=
--=∑= n x x
s n
i i
(4)由于平均数小于中位数和众数,所以汽车销售量为左偏分布。

4.2(1)从表中数据可以看出,年龄出现频数最多的是19和23,所以有两个众数,即19
0=M 和
23
0=M 。

将原始数据排序后,计算的中位数的位置为:13212521=+=+=n 中位数位置,第13个位置
上的数值为23,所以中位数23=e M 。

(2)25.64
25
4===
n Q L 位置,19)1919(25.019=-⨯+=L Q 。

75.184
25
3=⨯=
位置U Q ,56.252-7257.052=⨯
+=)(U Q 。

(3)平均数2425
600
25231715191
==++++=
=
∑= n x
x n
i i。

65.61
251062
1
25)2423()2417()2415()2419(1)(2
2221
2
=-=
--+-++-+-=
--=∑= n x x
s n
i i
(4)偏态系数:()
08.165.6)225)(125(24253
3
=⨯---=
∑i x SK 。

峰态系数:[]
77.065
.6)325)(225)(125()
125()24(3)24()125(254
2
24=⨯-------+=
∑∑i i x x K 。

(5)分析:从众数、中位数和平均数来看,网民年龄在23~24岁的人数占多数。

由于标准差较大,说明网民年龄之间有较大差异。

从偏态系数来看,年龄分布为右偏,由于偏态系数大于1,所以偏斜程度很大。

由于峰态系数为正值,所以为尖峰分布。

4.3(1)茎叶图如下:
茎 叶 数据个数 5 5 1 6 6 7 8 3 7 1 3 4 8 8 5 (2)79
63
98.78.76.65.5==++++=
x 。

714.08
08
.419)78.7()78.7()76.6()75.5(2222==--+-++-+-= s 。

(3)由于两种排队方式的平均数不同,所以用离散系数进行比较。

第一种排队方式:274.02.797.11==
v ;102.07
714.02==v 。

由于21v v >,表明第一种排队方式的离散程度大于第二种排队方式。

(4)选方法二,因为第二种排队方式的平均等待时间较短,且离散程度小于第一种排队方式。

4.4(1)1.27430
8223
1
==
=
∑=n
x
x n
i i。

5.152
130=+=
中位数位置,5.2722273272=+=
e M 。

(2)5.74
30
==
位置L Q ,5.2592261258=+=L
Q 。

5.224
30
3=⨯=位置U Q ,5.2872291284=+=
U Q 。

(3)17.211
307
.130021
)(1
2
=-=
--=
∑=n x x
s n
i i。

4.5(1)41.19340
6600
30
1500203000152100150030002100==++++==
总产量总成本甲企业的平均成本。

92.18342
55
6230
1500200051152553150000515523==++++==
总产量总成本乙企业的平均成本.
原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较
大,因此拉低了总平均成本。

4.6(1)平均数计算过程见下表:
按利润额分组 组中值
i M
企业数
i f
i i f M
200~300 250 19 4750 300~400 350 30 10500 400~500 450 42 18900 500~600 550 18 9900 600以上 650 11 7150 合计

120
51200
67.426120
51200
1
==
=
∑=n
f M
x k
i i
i。

48.1161
1207
.16146661
)(1
2=-=
--=
∑=n f x M
s k
i i
i。

(2)偏态系数和峰态系数的计算过程见下表:
偏态系数:203.048.1161204
.38534964)(3
313=⨯=
-=
∑=ns f x M
SK k
i i
i。

峰态系数:688.0348
.1161204
.851087441643)(4
4
1
4-=-⨯=
--=
∑=ns f x M
K k
i i
i。

4.7(1)两位调查人员所得到的平均身高应该差不多相同,因为均值的大小基本上不受样本大小的影响。

(2)两位调查人员所得到的身高的标准差应该差不多相同,因为标准差的大小基本上不受样本大小的影响。

(3)具有较大样本的调查人员有更大的机会取到最高或最低者,因为样本越大,变化的范围就可能越大。

4.8 (1)要比较男女学生体重的离散程度应该采用离散系数。

女生体重的离散系数为
1.0505
==
女v ,男生体重的离散系数为08.0605==男v ,所以女生的体重差异大。

(2)男生:1322.260=⨯=x (磅),112.25=⨯=s (磅); 女生:1102.250=⨯=x (磅),112.25=⨯=s (磅); (3)假定体重为对称分布,根据经验法则,在平均数加减1个标准差范围内的数据个数大约为68%。

因此,男生中大约有68%的人体重在55kg 到65kg 之间。

(4)假定体重为对称分布,根据经验法则,在平均数加减2个标准差范围内的数据个数大约为95%。

因此,女生中大约有95%的人体重在40kg 到60kg 之间。

4.9 通过计算标准分数来判断:
115100115=-=-=
A A A A s x x z ;5.050
400
425=-=-=B B B B s x x z 。

该测试者在A 项测试中比平均分数高出1个标准差,而在B 项测试中只高出平均分数0.5
个标准差,由于A 项测试的标准分数高于B 项测试,所以A 项测试比较理想。

4.10 通过标准分数来判断,各天的标准分数如下表:
日期 周一 周二
周三 周四 周五 周六 周日 标准分数Z 3 -0.6
-0.2
0.4
-1.8
-2.2
周一和周六两天失去了控制。

4.11(1)应该采用离散系数,因为它消除了不同组数据水平高低的影响。

(2)成年组身高的离散系数:024.01.1722
.4==
s v ; 幼儿组身高的离散系数:035.03
.715
.2==
s v ; 由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相
对较大。

4,11(1)应该从平均数和标准差两个方面进行评价。

在对各种方法的离散程度进行比较时,应该采用离散系数。

(2)下表给出了用Excel 计算一些主要描述统计量。

从三种方法的集中趋势来看,方法A 的平均产量最高,中位数和众数也都高于其他两种方法。

从离散程度来看,三种方法的离散系数分别为:013.06
.16513
.2==
A v ,014.073.12875.1==
B v ,022.053
.12577
.2==C v 。

方法A 的离散程度最小。

因此应选择
方法A 。

4.12(1)用方差或标准差来评价投资的风险。

(2)从直方图可以看出,商业类股票收益率的离散程度较小,说明投资风险也就较小。

(3)从投资风险角度看,应该选择风险较小的商业类股票。

当然,选择哪类股票还与投资者的主观判断有很大关系。

第五章 概率与概率分布
5.1 略
5.2 P(AB)=P(A)+P(B)-P(A+B)=50%+60%-85%=35% 5.3 因为
()()P AB P AB P(AB)=1/3++;()()P B (A(B+B))=P(AB)P AB =1/3P =+
()()P A (A(B+B))=P(AB)P AB =1/3-1/9=2/9P =+
5.4
()()P AB P AB P(AB)P(AB)=1+++;
()()P A|B P AB /()1/6P B ==; ()P AB 1/6*1/31/18∴==
()()P A (A(B+B))=P(AB)P AB P =+;()P AB 1/31/185/18=-=
同理()()
P B (B(A+A))=P(AB)P AB P =+;()
P AB =518/
()()11/185/185/18
P A|B P AB /()7/1211/3
P B ---==
=-
5.5 (1)()P(A)P B 0.8*0.70.56==; (2)()P A+B (A)+P(B)-P(AB)=0.8+0.7-0.8*0.7=0.94P = (3)()P A+B (A)+P(B)-2P(AB)=0.8+0.7-2*0.8*0.7=0.38P = 5.6 ()()(A P B|A 96%*75%=0.72P B P ==) 5.7 ()()1/2
P A|B P AB /()2/334
P B ===/ 5.8 贝叶斯公式:
()()()()k k k P A )P(B|A 10%*20%
P A |B 3.63%P A P B|A 10%*20%50%*50%40%*70%
===++∑
()()()()k k k P A )P(B|A 50%*50%
P A |B 45.45%P A P B|A 10%*20%50%*50%40%*70%
=
==++∑
()()()()
k k k P A )P(B|A 40%*70%
P A |B 50.9%P A P B|A 10%*20%50%*50%40%*70%=
==++∑
5.9 贝叶斯公式:
()()()()
k k k P A )P(B|A 30%*0.1
P A |B 0.249P A P B|A 30%*0.127%*0.0525%*0.218%*0.15===+++∑
()()()()
k k k P A )P(B|A 27%*0.05
P A |B 0.112P A P B|A 30%*0.127%*0.0525%*0.218%*0.15=
==+++∑
5.10 P(x=0)=0.25; P(x=1)=0.5; P(x=2)=0.25
5.11 (1) P(x=1)=0.20; P(x=10)=0.01; P(x=100)=0.001 (2)Ex=1*0.2+10*0.01+100*0.001=0.4
5.12 (1) 2
3137
8
x dx θ
θ=⎰,2θ∴= (2) 3213 1.58x Ex dx ==⎰;21340.158x Dx dx ==⎰ 5.13 (5,0.25)x B ,学生凭猜测至少答对4道的概率为:
(4)(5)P x P x =+==4415
5055
0.250.750.250.75C C +=164
5.14 P(x=k)=λ^k×e^(-λ)/k!①
P(x=k+1)=λ^(k+1)×e^(-λ)/(k+1)!② ②/①得 P(x=k+1)/P(x=k)=λ/(k+1)
令P(x=k+1)/P(x=k)>1, 则λ>k+1, k<λ-1 令P(x=k+1)/P(x=k)<1, 则λ<k+1, k>λ-1
若λ<2, 则P(x=k)随着k 增大而减小, ∴k=1时最大
若λ>2, 则P(x=1)<……<P(x=[λ-1])<P(x=[λ-1]+1)>P(x=[λ-1]+2)>……, ∴k=[λ-1]+1=[λ]是最大
综上, λ<2时,k=1;λ>2时,k=[λ](写成分段的形式,[]是取整符号) 5.16 (1)0.6997 (2)0.5 5.17 173.913
5.18 (1)0.9332 (2)0.383
第六章 统计量及其抽样分布
6.1 调节一个装瓶机使其对每个瓶子的灌装量均值为μ盎司,通过观察这台装瓶机对每个瓶子的灌装量服从标准差 1.0σ=盎司的正态分布。

随机抽取由这台机器灌装的9个瓶子形成一个样本,并测定每个瓶子的灌装量。

试确定样本均值偏离总体均值不超过0.3盎司的概率。

解:总体方差知道的情况下,均值的抽样分布服从(
)
2
,N n σμ的正态分布,由正态分布,
标准化得到标准正态分布:
x ()0,1N ,因此,样本均值不超过总体均值的概率P
为:
()0.3P x μ-≤
=P ⎫≤
=x P ⎛⎫
≤≤
=()0.90.9P z -≤≤=2()0.9φ-1,查标准正态分布表得()0.9φ=0.8159
因此,()
0.3P x μ-≤=0.6318 6.2 ()
0.3P Y μ-≤
=P ⎫≤
=x P ⎛⎫
≤≤
=(||P z ≤
=(21φ-=0.95
查表得: 1.96= 因此n=43
6.3 1Z ,2Z ,……,6Z 表示从标准正态总体中随机抽取的容量,n=6的一个样本,试确定常数b ,使得6210.95i i P Z b =⎛⎫
≤= ⎪⎝⎭

解:由于卡方分布是由标准正态分布的平方和构成的: 设Z 1,Z 2,……,Z n 是来自总体N (0,1)的样本,则统计量
222
2
12χ=++
+n
Z Z Z 服从自由度为n 的χ2分布,记为χ2~ χ2(n ) 因此,令6
2
2
1
i
i Z χ==∑,则()6
2
22
1
6i
i Z
χχ==∑,那么由概率6210.95i i P Z b =⎛⎫
≤= ⎪⎝⎭
∑,可知:
b=()210.956χ-,查概率表得:b=12.59
6.4 在习题6.1中,假定装瓶机对瓶子的灌装量服从方差21σ=的标准正态分布。

假定我们计划随机抽取10个瓶子组成样本,观测每个瓶子的灌装量,得到10个观测值,用这10个
观测值我们可以求出样本方差22
21
1(())1n i i S S Y Y n ==--∑,确定一个合适的范围使得有较大的概率保证S 2落入其中是有用的,试求b 1,b 2,使得 212()0.90p b S b ≤≤=
解:更加样本方差的抽样分布知识可知,样本统计量:
2
22
(1)~(1)n s n χσ--
此处,n=10,21σ=,所以统计量
2
2222
(1)(101)9~(1)1
n s s s n χσ--==-
根据卡方分布的可知:
()()2212129990.90P b S b P b S b ≤≤=≤≤=
又因为:
()()()222
1221911P n S n ααχχα--≤≤-=-
因此:
()()()()22221212299919110.90P b S b P n S n ααχχα-≤≤=-≤≤-=-= ()()()()222212122999191P b S b P n S n ααχχ-⇒≤≤=-≤≤- ()()()2220.950.059990.90P S χχ=≤≤=
则: ()()2
210.95
20.05
99,99b b χ
χ⇒==()
()
220.950.051299,9
9
b b χχ⇒=
=
查概率表:()20.95
9χ=3.325,()2
0.05

=19.919,则
()
2
0.95199
b χ=
=0.369,()
2
0.05299
b χ=
=1.88
第7章 参数估计
7.1(1)已知:5=σ,40=n ,25=x ,05.0=α,96
.105.0=z 。

样本均值的抽样标准差
79
.040
5==
=
n
x σ
σ。

(2)估计误差55
.140
5
96.12
=⨯
==n
z E σ
α。

7.2(1)已知:15=σ,49=n ,120=x ,05.0=α,96.105.0=z 。

样本均值的抽样标准差
14
.249
15==
=
n
x σ
σ。

(2)估计误差20
.449
15
96.12
=⨯
==n
z E σ
α。

(3)由于总体标准差已知,所以总体均值μ的95%的置信区间为:
20
.412049
1596.11202
±=⨯
±=±n
z x σ
α,即(115.8,124.2)。

7.3已知:100=n ,85414=σ,104560=x ,05.0=α,96.1205.0=z 。

由于总体标准差已知,所以总体均值μ的95%的置信区间为:
144
.16741104560100
8541496.11045602
±=⨯
±=±n
z x σ
α,即(87818.856,
121301.144)。

7.4(1)已知:100=n ,81=x ,12=s ,1.0=α,645
.121.0=z 。

由于100=n 为大样本,所以总体均值μ的90%的置信区间为:
974
.181100
12645.1812
±=⨯
±=±n
s z x α,即(79.026,82.974)。

(2)已知:05.0=α,96.105.0=z 。

由于100=n 为大样本,所以总体均值μ的95%的置信区间为:
352
.281100
1296.1812
±=⨯
±=±n
s z x α,即(78.648,83.352)。

(3)已知:01.0=α,58.2201.0=z 。

由于100=n 为大样本,所以总体均值μ的99%的置信区间为:
096
.381100
1258.2812
±=⨯
±=±n
s z x α,即(77.940,84.096)。

7.5(1)已知:25=x ,5.3=σ,60=n ,05.0=α,96.1205.0=z 。

由于总体标准差已知,所以总体均值μ的95%的置信区间为:
89
.02560
5.39
6.1252
±=⨯
±=±n
z x σ
α,即(24.11,25.89)。

(2)已知:6.119=x ,89.23=s ,75=n ,02.0=α,33.202.0=z 。

由于75=n 为大样本,所以总体均值μ的98%的置信区间为:
43
.66.11975
89.2333.26.1192
±=⨯
±=±n
s z x α,即(113.17,126.03)。

(3)已知:419.3=x ,974.0=s ,32=n ,1.0=α,645.121.0=z 。

由于32=n 为大样本,所以总体均值μ的90%的置信区间为:
283
.0419.332
974.0645.1419.32
±=⨯
±=±n
s z x α,即(3.136,3.702)。

7.6(1)已知:总体服从正态分布,500=σ,15=n ,8900=x ,05.0=α,96.1205.0=z 。

由于总体服从正态分布,所以总体均值μ的95%的置信区间为:
03
.253890015
50096.189002
±=⨯
±=±n
z x σ
α,即(8646.97,9153.03)。

(2)已知:总体不服从正态分布, 500=σ,35=n ,8900=x ,05.0=α,96.1205.0=z 。

虽然总体不服从正态分布,但由于35=n 为大样本,所以总体均值μ的95%的置信区间为:
65
.165890035
50096.189002
±=⨯
±=±n
z x σ
α,即(8734.35,9065.65)。

(3)已知:总体不服从正态分布,σ未知,35=n ,8900=x ,500=s ,1.0=α,
645
.11.0=z 。

虽然总体不服从正态分布,但由于35=n 为大样本,所以总体均值μ的90%的置信区间为:
03
.139890035
500645.189002
±=⨯
±=±n
s z x α,即(8760.97,9039.03)。

(4)已知:总体不服从正态分布,σ未知,35=n ,8900=x ,500=s ,01.0=α,
58
.2201.0=z 。

虽然总体不服从正态分布,但由于35=n 为大样本,所以总体均值μ的99%的置信区间为:
05
.218890035
50058.289002
±=⨯
±=±n
s z x α,即(8681.95,9118.05)。

7.7已知:36=n ,当α为0.1、0.05、0.01时,相应的
645
.121.0=z 、
96
.1205.0=z 、
58
.2201.0=z 。

根据样本数据计算得:32.3=x ,61.1=s 。

由于36=n 为大样本,所以平均上网时间的90%的置信区间为:
44
.032.336
61.1645.132.32
±=⨯
±=±n
s z x α,即(2.88,3.76)。

平均上网时间的95%的置信区间为:
53
.032.336
61.196.132.32
±=⨯
±=±n
s z x α,即(2.79,3.85)。

平均上网时间的99%的置信区间为:
69
.032.336
61.158.232.32
±=⨯
±=±n
s z x α,即(2.63,4.01)。

7.8已知:总体服从正态分布,但σ未知,8=n 为小样本,05.0=α,365.2)18(205.0=-t 。

根据样本数据计算得:10=x ,46.3=s 。

总体均值μ的95%的置信区间为:
89
.2108
46.3365.210±=⨯
±=±n
s t x α,即(7.11,12.89)。

7.9已知:总体服从正态分布,但σ未知,16=n 为小样本,05.0=α,131.2)116(205.0=-t 。

根据样本数据计算得:375.9=x ,113.4=s 。

从家里到单位平均距离的95%的置信区间为:
191
.2375.916
113.4131.2375.92
±=⨯
±=±n
s t x α,即(7.18,11.57)。

7.10(1)已知: 36=n ,5.149=x ,05.0=α,96
.1205.0=z 。

由于36=n 为大样本,所以零件平均长度的95%的置信区间为:
63
.05.14936
93.196.15.1492
±=⨯
±=±n
s z x α,即(148.87,150.13)。

(2)在上面的估计中,使用了统计中的中心极限定理。

该定理表明:从均值为μ、方差为
2σ的总体中,抽取容量为n 的随机样本,当n 充分大时(通常要求30≥n ),样本均值x 的
抽样分布近似服从均值为μ、方差为
2σ的正态分布。

7.11(1)已知:总体服从正态分布,但σ未知,50=n 为大样本,05.0=α,96
.1205.0=z 。

根据样本数据计算得:32.101=x ,63.1=s 。

该种食品平均重量的95%的置信区间为:
45
.032.10150
63.196.132.1012
±=⨯
±=±n
s z x α,即(100.87,101.77)。

(2)根据样本数据可知,样本合格率为9.05045
==
p 。

该种食品合格率的95%的置信区间
为:
08.09.050)
9.01(9.096.19.0)1(±=-±=-±n p p z p α,即(0.82,0.98)。

7.12已知:总体服从正态分布,但
σ未知,25=n 为小样本,01.0=α,
797
.2)125(201.0=-t 。

根据样本数据计算得:128.16=x ,871.0=s 。

总体均值μ的99%的置信区间为:
487
.0128.1625
871.0797.2128.16±=⨯
±=±n
s t x α,即(15.64,16.62)。

7.13已知:总体服从正态分布,但σ未知,18=n 为小样本,1.0=α,740.1)118(1.0=-t 。

根据样本数据计算得:56.13=x ,80.7=s 。

网络公司员工平均每周加班时间的90%的置信区间为:
20
.356.1318
80.7740.156.13±=⨯
±=±n
s t x α,即(10.36,16.76)。

7.14(1)已知:44=n ,51.0=p ,01.0=α,58
.2201.0=z 。

总体总比例π的99%的置信区间为:
19.051.044)
51.01(51.058.251.0)1(±=-±=-±n p p z p α,即(0.32,0.70);
(2)已知:300=n ,82.0=p ,05.0=α,96
.1205.0=z 。

总体总比例π的95%的置信区间为:
04.082.0300)
82.01(82.096.182.0)1(±=-±=-±n p p z p α,即(0.78,0.86);
(3)已知:1150=n ,48.0=p ,1.0=α,645
.121.0=z 。

总体总比例π的90%的置信区间为:
02.048.01150)
48.01(48.0645.148.0)1(2
±=-±=-±n p p z p α,即(0.46,0.50)。

7.15已知:200=n ,23.0=p ,α为0.1和0.05时,相应的645.121.0=z ,96
.1205.0=z 。

总体总比例π的90%的置信区间为:
05.023.0200)
23.01(23.0645.123.0)1(±=-±=-±n p p z p α,即(0.18,0.28)。

总体总比例π的95%的置信区间为:
06.023.0200)
23.01(23.096.123.0)1(2
±=-±=-±n p p z p α,即(0.17,0.29)。

7.16已知:1000=σ,估计误差200=E ,01.0=α,58
.2201.0=z 。

应抽取的样本量为:167200100058.2)(2
2
22
2
22=⨯==
E z n σα。

7.17(1)已知:02.0=E ,40.0=π,04.0=α, 2.05
204.0=z 。

应抽取的样本量为:
252202.0)
40.01(40.005.2)
1()(2
22
22=-⨯=-⋅=
E z n ππα。

(2)已知:04.0=E ,π未知,05.0=α, 1.96
205.0=z 。

由于π未知,可用使用0.5。

应抽取的样本量为:
601
04.0)
50.01(50.096.1)
1()(222
22=-⨯=-⋅=
E z n ππα。

(3)已知:05.0=E ,55.0=π,1.0=α, 1.645
21.0=z 。

应抽取的样本量为:26805.0)
55.01(55.0645.1)
1()(2
22
22=-⨯=-⋅=
E z n ππα。

7.18(1)已知:50=n ,
64.05032
==
p ,05.0=α, 1.9605.0=z 。

总体中赞成该项改革的户数比例的95%的置信区间为:
13.064.050)
64.01(64.096.164.0)1(2
±=-±=-±n p p z p α,即(0.51,0.77)。

(2)已知:80.0=π,05.0=α, 1.96
05.0=z 。

应抽取的样本量为:
621.0)
80.01(80.096.1)
1()(2
22
22=-⨯=-⋅=
E z n ππα。

7.20 顾客到银行办理业务时往往需要等待一段时间,而等待时间的长短与许多因素有关,比如,银行业务员办理业务的速度,顾客等待排队的方式等。

为此,某银行准备采取两种排队方式进行试验,第一种排队方式是:所有顾客都进入一个等待队列;第二种排队方式是:顾客在三个业务窗口处列队三排等待。

为比较哪种排队方式使顾客等待的时间更短,银行各随机抽取
(1)构建第一种排队方式等待时间标准差的95%的置信区间。

解:估计统计量:()()222
1~1
n S n χσ
-- 经计算得样本标准差2
2s =3.318,1α-=0.95,n=10,
()221n αχ-=()20.0259χ=19.02,()211n αχ--=()20.9759χ=2.7
置信区间:()()()()22
2222121111n S n S n n αασχχ---≤≤--=90.227290.2272,19.02 2.7⨯⨯⎛⎫
⎪⎝⎭
=(0.1075,0.7574)
因此,标准差的置信区间为(0.3279,0.8703)
(2)构建第二种排队方式等待时间标准差的95%的置信区间。

解:估计统计量:()()222
1~1
n S n χσ
-- 经计算得样本标准差21s =0.2272,1α-=0.95,n=10,
()221n αχ-=()20.0259χ=19.02,()211n αχ--=()20.9759χ=2.7
置信区间:()()()()222
222121111n S n S n n αασχχ---≤≤--=9 3.3189 3.318,19.02
2.7⨯⨯⎛⎫ ⎪⎝⎭=(1.57,11.06)
因此,标准差的置信区间为(1.25,3.33)
(3)根据(1)和(2)的结果,你认为哪种排队方式更好? 第一种方式好,标准差小。

7.21 正态总体,独立小样本,方差未知但相等:
12()x x -±22
2
1122
12(1)(1)2
p
n s n s s n n -+-=
+-,12(2)df n n +-)
(1)()2121t n n α+-=()0.051472t +-=1.7291,代入略 (2)()121t n n α+-=()0.0251472t +-=2.0930,代入略 (3)()121t n n α+-=()0.051472t +-=2.8609,代入略
7.22
(1)正态或非正态总体,独立大样本,方差未知
12()x x -±(2)正态总体,独立小样本,方差未知但12σσ=:
12()x x -±22
2
1122
12
(1)(1)2p
n s n s s n n -+-=
+-,12(2)df n n +-) (3)正态总体,独立小样本,方差未知12σσ≠但12n n =,122df n n =+-
12()x x -±(4)正态总体,独立小样本,方差未知但12σσ=,12n n ≠:
12()x x -±22
2
1122
12(1)(1)2p
n s n s s n n -+-=
+-,12(2)df n n +-)
(5)正态总体,独立小样本,方差未知但12σσ≠,12n n ≠
12()x x -±(其中22
21212
2
222
112212()()()
11
s s n n df s n s n n n +=+--)
d d =1.75,d s =2.62996
(2)设12μμ和分别为总体A 和总体B 的均值,构造12d μμμ=-的95%的置信区间。

解:小样本,配对样本,总体方差未知,用t 统计量
d d t =
()1t n -
均值=1.75,样本标准差s=2.62996,1α-=0.95,n=4,()2
1t n α
-=()0.0253t =3.182
置信区间:(
)(
)2211d t n d t n α
α⎛
--+- ⎝
=1.75 3.182 3.182⎛
-+ ⎝
=(-2.43,5.93)
7.24小样本,配对样本,总体方差未知:()2
1t n α
-=()0.025101t -=2.2622
(
)21d t n α±-
=11 2.2622±=(6.3272,15.6728) 7.25 从两个总体中各抽取一个12n n ==250的独立随机样本,来自总体1的样本比例为1
p =40%,来自总体2的样本比例为2p =30%。

要求: (1)构造12ππ-的90%的置信区间。

(2)构造12ππ-的95%的置信区间。

解:总体比率差的估计
大样本,总体方差未知,用z 统计量:
p p z ---=
()0,1N
样本比率p1=0.4,p2=0.3,
置信区间:
122122p p z p p z αα⎛ ---+ ⎝ 1α-=0.90,2z α=
0.025z =1.645
122122p p z p p z αα⎛ ---+
⎝ =
0.1 1.645 1.645⎛ -+ ⎝ =(3.02%,16.98%)
1α-=0.95,2z α=
0.025z =1.96
122122p p z p p z αα⎛ ---+
⎝ =
0.1 1.96 1.96⎛ -+ ⎝ =(1.68%,18.32%)
7.26 生产工序的方差是工序质量的一个重要度量。

当方差较大时,需要对序进行改进以减
要求:构造两个总体方差比1/2的95%的置信区间。

解:统计量:
2
12122
2
2s s
σσ()121,1F n n --
置信区间:()()22
112222
2121212,1,11,1s s s s F n n F n n αα-⎛⎫ ⎪ ⎪---- ⎪ ⎪⎝⎭
21s =0.058,2
2
s =0.006,n1=n2=21,1α-=0.95,()2121,1F n n α--=()0.02520,20F =2.4645, ()12121,1F n n α---=
(
)
2211
1,1F n n α--
()12121,1F n n α---=()0.97520,20F =
()
0.0251
20,20F =0.4058
()()22
112222
212112,1,11,1s s s s F n n F n n αα-⎛⎫ ⎪ ⎪---- ⎪ ⎪⎝⎭
=(4.05,24.6)
7.27 根据以往的生产数据,某种产品的废品率为2%。

如果要求95%的置信区间,若要求估计误差(边际误差)不超过4%,应抽取多大的样本? 解:2
z α
∆=
,()
222
1p
z p p n α⋅⋅-=
∆, 1α-=0.95,z α=0.025z =1.96
()2221p
z p p n α⋅⋅-=∆=22
1.960.020.980.04⨯⨯=47.06,取n=48或者50。

7.28 某超市想要估计每个顾客平均每次购物花费的金额。

根据过去的经验,标准差大约为120元,现要求以95%的置信水平估计每个顾客平均购物金额的置信区间,并要求边际误差不超过20元,应抽取多少个顾客作为样本? 解:2222x
z n ασ
⋅=∆,1α-=0.95,2z α=0.025z =1.96,
2222x
z n ασ
⋅=∆22
2
1.9612020⨯=
=138.3,取n=139或者140,或者150。

第八章 假设检验
1. 已知某炼铁厂的含碳量服从正态分布N (4.55,0.108²),现在测定了9炉铁水,其平均含碳量为4.484。

如果估计方差没有变化,可否认为现在生产的铁水平均含碳量为4.55(α=0.05)? 解: 已知μ0=4.55,σ²=0.108²,N=9,=4.484,
这里采用双侧检验,小样本,σ已知,使用Z 统计。

假定现在生产的铁水平均含碳量与以前无显著差异。

则, H 0 :μ =4.55 ; H 1 :μ ≠4.55 α=0.05,α/2 =0.025 ,查表得临界值为 1.96
计算检验统计量:
= (4.484-4.55)/(0.108/√9) = -1.833 决策:∵Z 值落入接受域,∴在=0.05的显著性水平上接受
H 0。

结论:有证据表明现在生产的铁水平均含碳量与以前没有显著差异,可以认为现在生产的铁水平均含碳量为4.55。

2. 一种元件,要求其使用寿命不得低于700小时。

现从一批这种元件中随机抽取36件,测得其平均寿命为680小时。

已知该元件寿命服从正态分布,σ=60小时,试在显著性水平0.05下确定这批元件是否合格。

n
x Z / σ - =
μ0
解: 已知N=36,σ=60,=680,μ0 =700
这里是大样本,σ已知,左侧检验,采用Z 统计量计算。

提出假设:假定使用寿命平均不低于700小时 H 0:μ≥700 H 1: μ < 700
= 0.05,左检验临界值为负,查得临界值: -Z 0.05=-1.645 计算检验统计量:
= (680-700)/(60/√36) = -2
决策:∵Z 值落入拒绝域,∴在=0.05的显著性水平上拒绝
H 0,接受H 1
结论:有证据表明这批灯泡的使用寿命低于700小时,为不合格产品。

3. 某地区小麦的一般生产水平为亩产250公斤,其标准差是30公斤。

现用一种化肥进行试验,从25个小区抽样,平均产量为270公斤。

这种化肥是否使小麦明显增产(α=0.05)? 解:已知μ0 =250,σ = 30,N=25,=270
这里是小样本分布,σ已知,用Z 统计量。

右侧检验,α =0.05,则Z α=1.645
提出假设:假定这种化肥没使小麦明显增产。

即 H 0:μ≤250 H 1: μ > 250
n x Z / σ - =
μ0
计算统计量:
Z = (-μ0)/(σ/√N )= (270-250)/(30/√25)= 3.33 结论:Z 统计量落入拒绝域,在α =0.05的显著性水平上,拒绝H 0,接受H 1。

决策:有证据表明,这种化肥可以使小麦明显增产。

4. 糖厂用自动打包机打包,每包标准重量是100千克。

每天开工后需要检验一次打包机工作是否正常。

某日开工后测得9包重量(单位:千克)如下:(略)
已知包重服从正态分布,试检验该日打包机工作是否正常。

(α =0.05)
解:已知N=9,这里是小样本正态分布,σ未知,双侧检验,采用t 统计量,自由度为N-1=8。

α =0.05,则T α/2=2.37
= 99.98
≈1.22
提出假设,假设打包机工作正常: 即 H 0:μ= 100 H 1: μ ≠ 100 计算统计量: = (99.98-100)/( 1.22/√9)≈-0.049
-
=
n
s x t μ0
结论:∵t 值落入接受域,∴在=0.05的显著性水平上接受H 0 决策:有证据表明这天的打包机工作正常。

5. 某种大量生产的袋装食品,按规定不得少于250克。

今从一批该食品中任意抽取50袋,发现有6袋低于250克。

若规定不符合标准的比例超过5%就不得出厂,问该批食品能否出厂(=0.05)? 解:已知N=50,P=6/50=0.12,为大样本,右侧检验,用Z 统计量计算。

=0.05,即Z =1.645
H 0:丌≤5% H 1:丌>5%
= (0.12-0.05)/√(0.05×0.95÷50)≈2.26
(因为没有找到丌表示的公式,这里用P 0表示丌0)
结论:因为Z 值落入拒绝域,所以在=0.05的显著性水平上,拒绝H 0,而接受H 1。

决策:有证据表明该批食品合格率不符合标准,不能出厂。

6. 某厂家在广告中声称,该厂生产的汽车轮胎在正常行驶条件下超过目前的平均水平25000公里。

对一个由15个轮胎组成的随机样本做了试验,得到样本均值和标准差分别为27000公里和5000公里。

假定轮胎寿命服从正态分布,问该厂家的广告是否真实(=0.05)? 解:N=15, =27000,s=5000,小样本正态分布,σ未知,用t 统计
0)
1,0(~)1(000
N n P P P p z --=
量计算。

这里是右侧检验,=0.05,自由度N-1=14,即t =1.77
H 0:μ0 ≤25000 H 1:μ >25000
= (27000-25000)/(5000÷√15)≈1.55
结论:因为t 值落入接受域,所以接受H 0 ,拒绝H 1。

决策:有证据表明,该厂家生产的轮胎在正常行驶条件下使用寿
命与目前平均水平25000公里无显著性差异,该厂家广告不真实。

7. 某种电子元件的寿命x (单位:小时)服从正态分布。

现测得16只元件的寿命如下:(略)。

问是否有理由认为元件的平均寿命显著地大于225小时(=0.05)?
解:= 241.5,
= 98.726
由于N=16,小样本正态分布,σ未知,用t 统计量计算。

这里是右侧分布,
=0.05,自由度N-1=15,即t =1.753
H 0:μ0 ≤225 H 1:μ >225
= (241.5-225)/(98.726÷√16)≈0.67
结论:因为t 值落入接受域,所以接受H 0 ,拒绝H 1。

- =
n
s x t - =
n
s x t μ0
μ0
决策:有证据表明,元件平均寿命与225小时无显著性差异,不能认为元件的平均寿命显著地大于225小时。

8.10 装配一个部件时可以采用不同的方法,所关心的问题是哪一个方法的效率更高。


动效率可以用平均装配时间反映。

现从不同的装配方法中各抽取12件产品,记录各自的装配时间(单位:分钟)如下:
甲方法:31 34 29 32 35 38 34 30 29 32 31 26 乙方法:26 24 28 29 30 29 32 26 31 29 32 28
两总体为正态总体,且方差相同。

问两种方法的装配时间有无显著不同 (a =0.05)? 解:建立假设
H 0:μ1-μ2=0 H 1:μ1-μ2≠0
总体正态,小样本抽样,方差未知,方差相等,检验统计量
x x t -=
根据样本数据计算,得1n =12,2n =12,1x =31.75,1s =3.19446,2x =28.6667,
2s =2.46183。

()()22
1112212112
p
n s n s s
n n -+-=
+- =
()()22
1210.922161210.7106712122
-⨯+-⨯+-=8.1326
x x t -=
=2.648
α=0.05时,临界点为()122t n n α+-=()0.02522t =2.074,此题中t >2t α,故拒绝原假设,认为两种方法的装配时间有显著差异。

8.11 调查了339名50岁以上的人,其中205名吸烟者中有43个患慢性气管炎,在134
名不吸烟者中有13人患慢性气管炎。

调查数据能否支持“吸烟者容易患慢性气管炎”这种观点(a =0.05)? 解:建立假设
H 0:π1≤π2;H 1:π1>π2
p 1=43/205=0.2097 n1=205 p 2=13/134=0.097 n2=134 检验统计量
p p d
z --=
0.20980.0970
--=3
当α=0.05,查表得z α=1.645。

因为z >z α,拒绝原假设,说明吸烟者容易患慢性气管炎。

8.12 为了控制贷款规模,某商业银行有个内部要求,平均每项贷款数额不能超过60万元。

随着经济的发展,贷款规模有增大的趋势。

银行经理想了解在同样项目条件下,贷款的平均规模是否明显地超过60万元,故一个n=144的随机样本被抽出,测得x =68.1万元,s=45。

用a =0.01的显著性水平,采用p 值进行检验。

解:H 0:μ≤60;H 1:μ>60
已知:x =68.1
s=45
由于n=144>30,大样本,因此检验统计量:
x z =
=2.16 由于x >μ,因此P 值=P (z ≥2.16)=1-()2.16φ,查表的()2.16φ=0.9846,P 值=0.0154 由于P >α=0.01,故不能拒绝原假设,说明贷款的平均规模没有明显地超过60万元。

8.13 有一种理论认为服用阿司匹林有助于减少心脏病的发生,为了进行验证,研究人员把自愿参与实验的22 000人随机平均分成两组,一组人员每星期服用三次阿司匹林(样本1),另一组人员在相同的时间服用安慰剂(样本2)持续3年之后进行检测,样本1中有104人患心脏病,样本2中有189人患心脏病。

以a =0.05的显著性水平检验服用阿司匹林是否可以降低心脏病发生率。

解:建立假设
H 0:π1≥π2;H 1:π1<π2
p 1=104/11000=0.00945 n1=11000 p 2=189/11000=0.01718 n2=11000
检验统计量
p p d
z --=
0.009450.017180
--=-5
当α=0.05,查表得z α=1.645。

因为z <-z α,拒绝原假设,说明用阿司匹林可以降低心脏
病发生率。

8.15 有人说在大学中男生的学习成绩比女生的学习成绩好。

现从一个学校中随机抽取了25名男生和16名女生,对他们进行了同样题目的测试。

测试结果表明,男生的平均成绩为82分,方差为56分,女生的平均成绩为78分,方差为49分。

假设显著性水平α=0.02,从上述数据中能得到什么结论?
解:首先进行方差是否相等的检验:
建立假设
H 0:21σ=22σ;H 1:21σ≠2
2σ n1=25,21s =56,n2=16,22s =49
2
122
s F s ==5649=1.143 当α=0.02时,()2
24,15F α=3.294,()1224,15F α-=0.346。

由于()1224,15F α-<F
<()2
24,15F α
,检验统计量的值落在接受域中,所以接受原假设,说明总体方差无显
著差异。

检验均值差: 建立假设
H 0:μ1-μ2≤0 H 1:μ1-μ2>0
总体正态,小样本抽样,方差未知,方差相等,检验统计量
x x t -=
根据样本数据计算,得1n =25,2n =16,1x =82,21s =56,2x =78,2
2s =49
()()22
11122
12112
p
n s n s s
n n -+-=
+-=
53.308 x x t -=
=1.711
α=0.02时,临界点为()122t n n α+-=()0.0239t =2.125,t <t α,故不能拒绝原假设,不能认为大学中男生的学习成绩比女生的学习成绩好。

第十一章一元线性回归
11.5 一家物流公司的管理人员想研究货物的运输距离和运输时间的关系,为此,他抽出了公司最近10个卡车运货记录的随机样本,得到运送距离(单位:km)和运送时间(单位:天)的数据如下:
要求:
(1)绘制运送距离和运送时间的散点图,判断二者之间的关系形态:
(2)计算线性相关系数,说明两个变量之间的关系强度。

(3)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。

解:(1)
可能存在线性关系。

(2)
相关性
x运送距离(km)y运送时间(天)
x运送距离(km)Pearson 相关性 1 .949(**)
显著性(双侧)0.000
N 10 10
y运送时间(天)Pearson 相关性.949(**) 1
显著性(双侧)0.000
N 10 10
**. 在.01 水平(双侧)上显著相关。

有很强的线性关系。

(3)
系数(a)
模型
非标准化系数标准化系数
t 显著性B 标准误Beta
1 (常量)0.118 0.355 0.333 0.748
x运送距离(km)0.004 0.000 0.949 8.509 0.000
a. 因变量: y运送时间(天)
回归系数的含义:每公里增加0.004天。

要求:
(1)人均GDP作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系形态。

(2)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。

(3)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。

(4)计算判定系数,并解释其意义。

(5)检验回归方程线性关系的显著性(a=0.05)。

(6)如果某地区的人均GDP为5 000元,预测其人均消费水平。

(7)求人均GDP为5 000元时,人均消费水平95%的置信区间和预测区间。

解:(1)
可能存在线性关系。

(2)相关系数:
相关性
人均GDP(元)人均消费水平(元)
人均GDP(元)Pearson 相关性 1 .998(**)
显著性(双侧)0.000
N 7 7 人均消费水平(元)Pearson 相关性.998(**) 1
显著性(双侧)0.000
N 7 7
**. 在.01 水平(双侧)上显著相关。

有很强的线性关系。

(3)回归方程:
系数(a)
模型非标准化系数标准化系数
t 显著性B 标准误Beta
1 (常量)734.693 139.540 5.265 0.003
人均GDP(元)0.309 0.008 0.998 36.492 0.000 a. 因变量: 人均消费水平(元)。

相关文档
最新文档