抽样技术-第三版-全部课后答案

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

抽样技术-第三版-全部课后答案
第二章习题
2.1判断下列抽样方法是否是等概的：
（1）总体编号1~64，在0~99中产生随机数r ，若r=0或r>64则舍弃重抽。

（2）总体编号1~64，在0~99中产生随机数r ，r 处以64的余数作为抽中的数，若余数为0则抽中64.
（3）总体20000~21000，从1~1000中产生随机数r 。

然后用r+19999作为被抽选的数。

解析：等概抽样属于概率抽样，概率抽样具有一些几个特点：第一，按照一定的概率以随机原则抽取样本。

第二，每个单元被抽中的概率是已知的，或者是可以计算的。

第三，当用样本对总体目标进行估计时，要考虑到该样本被抽中的概率。

因此（1）中只有1~64是可能被抽中的，故不是等概的。

（2）不是等概的【原因】（3）是等概的。

2.2抽样理论和数理统计中关于样本均值y 的定义和性质有哪些不同？
2.3为了合理调配电力资源，某市欲了解50000户居民的日用电量，从中简单随机抽取了300户进行，现得到其日用电平均值=y 9.5（千瓦时），=2s 206.试估计该市居民用电量的95%置信区间。

如果希望相对误差限不超过10%，则样本量至少应为多少？
解：由已知可得，N=50000，n=300，5.9y =，2062=s
1706366666206*300
50000300
1500001)()ˆ(222=-
=-==s n
f N y N v Y
V 19.413081706366666(==）y v 该市居民用电量的95%置信区间为
[])(y [2
y V z N α±=[475000±1.96*41308.19]
即为（394035.95，555964.05）由相对误差公式
y
)
(v u 2y α≤10%
可得%10*5.9206*n
50000
n 1*
96.1≤- 即n ≥862
欲使相对误差限不超过10%，则样本量至少应为862
2.4某大学10000名本科生，现欲估计爱暑假期间参加了各类英语培训的学生所占的比例。

随机抽取了两百名学生进行调查，得到P=0.35，是估计该大学所有本科生中暑假参加培训班的比例的95%置信区间。

解析：由已知得：10000=N 200=n 35.0=p 02.0==N
n
f
又有：35.0)()(===∧p p E p E 0012.0)1(1
1)(=---=∧p p n f
p V
该大学所有本科学生中暑假参加培训班的比例95%的置信区间为：
])()([2
∧
∧±P V Z P E α
代入数据计算得：该区间为[0.2843，0.4157]
2.5研究某小区家庭用于文化方面（报刊、电视、网络、书籍等）的支出，N=200，现抽取一个容量为20的样本，调查结果列于下表：
编号文化支出编号文化支出 1 200 11 150 2 150 12 160 3 170 13 180 4 150 14 130 5 160 15 100 6 130 16 180 7 140 17 100 8
100
18
180
9 110 19 170 10 240 20 120
估计该小区平均的文化支出Y ,并给出置信水平95%的置信区间。

解析：由已知得：200=N 20=n
根据表中数据计算得：5.14420120
1
==∑=i i y y
()
06842.827120120
1
22
=--=∑=i i
y y s 21808.37)1(1)(2=-=
s N n
n y V 10015.6)(=y V ∴ 该小区平均文化支出Y 的
95%置信区间为：])(y [2
y V z α±即是：
[132.544 ,156.456]
故估计该小区平均的文化支出Y =144.5,置信水平95%的置信区间为[132.544 ,156.456]。

2.6某地区350个乡为了获得粮食总产量的估计，调查了50个乡当年的粮食产量，得到y =1120（吨），25602=S ，据此估计该地区今年的粮食总产量，并给出置信水平95%的置信区间。

解析：由题意知：y =1120 1429.0350
50
n ===
N f 25602=S ⇒160=s 置信水平95%的置信区间为：]1y [2
s n
f
z -±α
代入数据得：置信水平95%的置信区间为：[1079.872，1160.872]
2.7某次关于1000个家庭人均住房面积的调查中，委托方要求绝对误差限为2平方千米，置信水平95%，现根据以前的调查结果，认为总体方差682=S ，是确定简单随机抽样所需的样本量。

若预计有效回答率为70%，则样本量最终为多少?
解析：简单随机抽样所需的样本量2
2
22
2
12
2
S Z Nd S NZ n αα+=
%
701
2n n =
由题意知：1000=N 2=d 682
=S 96
.12
=αZ
代入并计算得：613036.611≈=n
87142.87%701
2≈==
n n
故知：简单随机抽样所需的样本量为61，若预计有效回答率为70%，则样本量最终为87
2.8某地区对本地100家化肥生产企业的尿素产量进行调查，一直去年的总产量为2135吨，抽取10个企业调查今年的产量，得到25=y ，这些企业去年的平均产量为22=x 。

试估计今年该地区化肥总产量。

解析：由题可知22x =，
35.211002135
===
N X X ,25y =
则，该地区化肥产量均值Y 的比率估计量为
26
.242425
35.21===∧
x y X
Y
该地区化肥产量总值Y 的比率估计量为 242626.24*100ˆˆ===R Y N Y 所以，今年该地区化肥总产量的估计值为2426吨。

2.9如果在解决习题2.5的问题时可以得到这些家庭月总支出，得到如下表：
置信水平95%的置信区间，并比较比估计和简单估计的效率。

解析：由题可知1580
130017002300201
x n 1x n 1i i =+++==∑=）（
5.144y =
091.015805.144ˆ=≈===x y r R
又
329.14615805.144*1600x y y ===X
R
053.826)(111
22
=--=∑=n
i i y y n S
158.3463))((111
=---=∑=n
i i i xy
x x y y n S
579.8831)(111
22
=--=∑=n i i x
x x n S
故平均文化支出的95%的置信区间为
,)ˆˆ2(1[2222
x yx R S R S R S n f Z y +---α])ˆˆ2(1222
2x
yx R S R S R S n f Z y +--+α
代入数据得（146.329±1.96*1.892）
即为[142.621,150.037]
2.10某养牛场购进了120头肉牛，购进时平均体重100千克。

现从中抽取10头，记录重量，3个月后再次测量，结果如下：
计的结果进行比较。

解：由题可知，6.1021059510
1
x n 1x n 1i i =++==∑=）
（ 16317015010
1
y n 1y n 1i i =+==∑=）（
222.2121910*9
1)(1112
2
==--=∑=n i i
y y n S 333.1461317*9
1))((111==---=∑=n i i i xy
x x y y n S
933.1064.926*9
1)(11122
==--=∑=n i i x
x x n S 故有368.1933
.106333
.1462
0==
=
x
xy S S β
所以总体均值Y 的回归估计量为
443.159)6.102100(*368.1163)(0=-+=-+=x X y y lr β 其方差估计为：
)2(1)(ˆ02202xy
x lr S S S n
f y V ββ-+-= =
)333.146*368.1*2933.106*368.1222.212(101201012-+-
=1.097
而2
1y (ˆS n
f V -=）
=
222.212*1012010
1- =19.454
显然)(ˆ)(ˆy V y V lr
< 所以，回归估计的结果要优于简单估
第三单元习题答案（仅供参考） 1解：（1）不合适
（2）不合适（3）合适（4）不合适
2．将800名同学平均分成8组，在每一级中抽取一名“幸运星”。

=
=20.1
V（）=-
=9.7681-0.2962
=9.4719
=3.0777
（2）置信区间为95%相对误差为10%，则有
按比例分配的总量：n==185.4407185
=n=56，=92，=37
按内曼分配：n==175
=33，=99，=43
==0.924
根据各层层权及抽样比的结果，可得
（）==0.000396981
=1.99%
估计量的标准差为1.99%，比例为9.24%
按比例分配：n=2663
=479，=559，=373，=240，=426，=586
内曼分配：n=2565
=536，=520，=417，=304，=396，=392 5．解：由题意，有
==75.79
购买冷冻食品的平均支出为75.79元
又由V（）=+
又n=
V（）=53.8086
=7.3354
95%的置信区间为[60.63，90.95]。

7．解：（1）对
（2）错
（3）错
（4）错
（5）对
8．解：（1）差错率的估计值=70%+30%=0.027
估计的方差v（）==3.1967
标准差为S()=0.0179。

（2）用事后分层的公式计算差错率为==0.03
估计的方差为；v（）=-=2.5726
（2）用分别比估计，有=0.4，=0.65，所以用分别比估计可计算得=6.4。

用联合比估计，有=0.5，=0.625，所以用联合比估计可计算得=6.5。

第四章习题
4.1邮局欲估计每个家庭的平均订报份数，该辖区共有4000户，划分为400个
群，每群10户，现随机抽取4个群，取得资料如下表所示：
解：由题意得到400=N ，4=n ，10=M ，01.0400
4===
N n f 故875.14
1020
1620191ˆ1
=⨯+++=
=
=∑
=n
i i y Mn
y Y （份）
75.18875.110=⨯=⋅=y M y （份） 750040010ˆ=⨯=⋅⋅=y N M Y
（份） ∑=--=
n
i i
b
y y
n M s 1
22)(1
∑=---=
-=n
i i
b y y
n nM f s nM f y v 1
222)(1
111)(
14)75.1820()75.1819(10
401.012
22
--++-⨯⨯-= 00391875.0=
6270000391875.010400)()ˆ(2222=⨯⨯==y v M N Y
v 于是由以上的计算结果得到平均每户的订报份数为 1.875，估计量方差为
0.00391875。

该辖区总的订阅份数为7500，估计量方差为62700。

4.2 某工业系统准备实行一项改革措施。

该系统共有87个单位，现采用整群抽
样，用简单随机抽样抽取15个单位做样本，征求入选单位中每个工人对政
（2）在调查的基础上对方案作了修改，拟再一次征求意见，要求估计比例的
允许误差不超过8%，则应抽取多少个单位做样本?
解：题目已知87=N ，15=n ，87
15
=
=N n f 1）由已知估计同意改革的比例
709.0911
646
ˆ1
1
≈=
=∑∑==n i i
n
i i
M
y
p
733.6011
==
∑=n i i
M
n
M
008687.0)ˆ(1111)ˆ(1
22=---=∑=n
i i i
M p
y
n n f M
p
v 此估计量的标准差为
9321.0008687.0)ˆ()ˆ(===p v p
s
4.3 某集团的财务处共有48个抽屉，里面装有各种费用支出的票据。

财务人员
欲估计办公费用支出的数额，随机抽取了其中的10个抽屉，经过清点，整
）。

解：已知N=48, n=10, f=4810
=N n , 由题意得7361=∑=n i i y ，3651
=∑=n
i i M ，
则办公费用的总支出的估计为8.353273610
48
ˆ1
=⨯=
=∑=n
i i
y
n
N Y
（元）群总和均值6.7373610
1
11=⨯==∑=n i i y n y （元）
1
)()1()ˆ(1
2
2
--⋅-=∑=n y y
n
f N Y
v n
i i
=9
)6.7380(...)6.7362()6.7383(10)
48101(482222-++-+-⨯
-
⨯ = 182.4⨯9
1
⨯3590.4
= 72765.44 )ˆ(Y
v =269.7507 则Y
ˆ的置信度为95%的置信区间为3532.8±1.96⨯269.7507，即[3004.089，4061.511].
4.4 为了便于管理，将某林区划分为386个小区域。

现采用简单随机抽样方法，
估计整个林区树的平均高度及95%的置信区间。

解：由已知得386=N ，20=n ，0518.038620===
N n f 整体的平均高度909.51046
8
.6180y Y ˆ
1
-i n
1i ==
=
=∑∑=n i
i
i
M
y M
3.5211
==
∑=n
i i
M
n
M
方差估计值1
)(1)()ˆ
(1
2
2
---=
=∑=n y M y
M n f y v Y v n
i i i
02706.0=
标准方差1644.002706.0)ˆ
()ˆ(===Y v Y s
在置信度95%下，该林区的树木的平均高度的置信区间为
)2312.6,5868.5()1644.096.1909.5()Y ˆ(t Y ˆ/2=⨯±=⋅±）（s α
4.5 某高校学生会欲对全校女生拍摄过个人艺术照的比例进行调查。

全校共有
女生宿舍200间，每间6人。

学生会的同学运用两阶段抽样法设计了抽样方案，从200间宿舍中抽取了10间样本宿舍，在每间样本宿舍中抽取3位
解：题目已知200=N ，10=n ，6M =，3=m ，05.0200101===
N n f ，5.02==M
m f 3.03
109
ˆ1
=⨯=
=∑=nm
y
p
n
i i
005747.0)(1111)ˆ(1
2=⋅--⋅
-⋅=∑=n
i i
m p y
n n f m
p v
0758.0005747.0)ˆ()ˆ(===p v p
s 在置信度95%下，p 的置信区间为
))ˆ(ˆ(2/p v t p
α±=）0.448568,0.151432()0758.096.13.0(=⨯±
4.6 上题中，学生会对女生勤工助学月收入的一项调查中，根据以往同类问题
的调查，宿舍间的标准差为1S =326元，宿舍内同学之间的标准差为2S =188元。

以一位同学进行调查来计算，调查每个宿舍的时间1c 为1分钟，为了调查需要做各方面的准备及数据计算等工作，所花费的时间为0c 是4小时，如果总时间控制在8小时以内，则最优的样本宿舍和样本学生是多少？
解：由已知条件得到以下信息：
326S 1=（元）188S 2=（元）10c 1=（分钟）1c 2=（分钟）240
604c 0=⨯=（分钟）由此得到
106276S 21
=，
35344S 22
=，
33.1003856
35344106276S 2
212u
=-=-=M S S
82.11
10
326188m 2112opt ≈⨯=⋅=
c c S S 因而取最优的2m =，进一步计算opt n 由于总时间的限制480C =，由关系式
nm c n c c C 210++=得到opt opt 2n 10n 240480++=
计算方程得到20n opt =，因而取20n =
则最优的样本宿舍数为20间，最优样本学生数为2。

4.7 某居委会欲了解居民健身活动情况，如果一直该居委会有500名居民，居
住在10个单元中。

现先抽取4个单元，然后再样本单元中分别抽出若干居民，两个阶段的抽样都是简单随机抽样，调查了样本居民每天用于健身锻单元i
居民人数i M 样本量i m
健身锻炼时间ij y
1 3
2 4 4，2，3，6
2 45 5 2，2，4，3，6
3 36
4 3，2，5，8 4 54 6 4，3，6，2，4，6
（1）简单估计量（2）比率估计量
（3）对两种估计方法及结果进行评价。

解：（1）简单估计
∑∑====n
i i i n
i i u
Y n N
y M n
N Y 1
1
ˆˆ
=
)17.4545.4364.34575.332(4
10
⨯+⨯+⨯+⨯⨯ =1650，
则3.3500
1650
ˆY ˆ0u ===M Y u ，
又1656604
1ˆ1Y ˆ1u =⨯==∑=n i i Y n ，所以∑∑==-+---=n
i i
i
i i n
i u
i
m s f M n
N
n Y Y f 12
2221
2
1
2
u )1(1
)ˆˆ(n 1(N )Y ˆv(）
分别计算
1926
3
5778]
)165225()165162()165153()165120[(3
1
1
)
ˆˆ(22221
2
==-+-+-+-⨯=--∑=n Y Y n
i u
i
48.46286
2.2)546
1(544
7)364
1(3658.2)4551(45492.2)3241(32)1(222212
222=⨯-⨯+
⨯-⨯+⨯-⨯+⨯-
⨯=-∑=n
i i
i
i i m s f M
所以，162
.0046285.011556.0)1(1)ˆˆ(n 1(N 1)ˆ(1
222212120≈+=⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎣
⎡-+
---=∑∑==n
i i i i i n
i u i u m s f M n
N n Y Y f M Y v ）所以标准差402.0)ˆ
()ˆ(==u u Y v Y s (2) 比率估计
9532.354
36453217
.4545.4364.34575.332ˆ1
1
=+++⨯+⨯+⨯+⨯=
=∑∑==n i i
i
n
i i
R M
y M
y
∑
∑==-+---=n i i
i
i i n
i u
i
R m s f M n N n Y Y f y
v 12
2221
2
1
2
)1(1
)ˆˆ(n 1(N
)ˆ(）
其中∑∑===
=n i i
i
n
i i
R R M
y M
M Y Y 1
10
ˆˆ
0715.0)ˆ()ˆ(2
==M Y v y
v R R
2647.00715.0)ˆ()ˆ(===R R y v y
s （3）简单估计标准差402.0)ˆ
(=u Y s ，比率估计标准差2647.0)ˆ(=R y
s ∴比率估计更好
第五章不等概抽样习题答案
5.1解：
分析题目可知“代码法”与“拉希里法”都是PPS 抽样（放回的与规模大小
成比例的不等概抽样）的实施方法，而此题需要用此两种方法进行不放回抽样，故需进一步进行改进：即采用重抽法抽取，如果抽到重复单元，则放弃此样本单元，重新抽取，直到抽到规定的样本量且所有样本党员不重复：（1）代码法：由i Z =
∑==N 1
i i
i 0
i M M
M M 可假设0M =1000000，则M i =i Z M 0列成数据表
个随机数为444703， 615432， 791937， 921813 ， 738207， 176266， 405706 935470， 916904， 57891按照范围我们可以知道抽取的PSU9, PSU16, PSU19, PSU24, PSU18, PSU2, PSU8 PSU24 PSU23 PSU2,我们看到第2组和24组重复抽取了，故进行重新抽取，抽到4组和6组；综上所述，抽取的样本为2，4，6，8，9，16，18，19，23，24组
（2）拉希里法：M ⨯=78216，N=25，在[1, 25]和[1, 78216]中分别产生（n,m ）：（13，38678），M 13=40654≥38678,入样；（8， 57764），M 8=38981<57764，舍弃，重抽；（23，13365），M 23=9066<13365,舍弃，重抽；（19，38734），M 19=69492≥38734，入样；
以此类推，当得到重复入样情况时，同上重新抽取，得到抽取结果为： 2，3，5，6，7，12 ，13，16， 19，24组 5.2解：
由数据可得：
t 1=∑=i
M j j y 1
1=20， t ∑===2
1
2225M j j y ，t 3=38， t 4=24， t 5=21；
结合t 值数据，我们可以推得Z 的值 Z 1=
2.025
5
01==M M ,Z 2=0.16，Z 3=0.32，Z 4=0.2，Z 5=0.12，
由公式()
()()⎪⎪⎭
⎫
⎝
⎛-+----=
∑=N
i i i
j i j i j i ij Z
Z Z Z Z Z Z Z 1211212114π
5.3 解：
设：0M =1，则有：i i Z M =，得到下表：
为103，最后在[1,1000]中产生第三个随机数为982，则它们所对应的第7、1、10号单元被抽中。

5.4 解：
利用汉森-赫维茨估计量对总体总值进行估计：
()
9.322877.792543.1037061]006.2217121.0290006.2217062.0120006.2217138.0320[61111006.2217]121
.0290062.0120138.0320[3112
2
2
2
11++⨯=⎪⎭
⎫
⎝⎛-+⎪⎭⎫ ⎝⎛-+⎪⎭⎫ ⎝⎛-⨯=⎪⎪⎭
⎫ ⎝⎛--=⎪⎭⎫ ⎝⎛=++⨯==∑∑=∧∧
=∧
n i HH i i HH n i i i HH
Y Z y n n Y v Z y n Y =20318.8
5.142=⎪⎭
⎫
⎝⎛=⎪⎭⎫ ⎝⎛∴
∧∧HH HH Y v Y s
5.5解：由题可知
∑∑====6
1
1
0i i N
i i X X X =2+9+3+2+1+6=23
由0X X n
i
i =π得下表：
由上表显然有i Z ＜1/2，于是我们可以采用布鲁尔方法：
()
()
()⎪⎪⎭
⎫
⎝
⎛-+----=
∑=N
i i i
j i j i j i ij Z
Z Z Z Z Z Z Z 1211212114π
(1) 78.25455.00476.01053.01764.07999.11053.0211=+++++=-∑=N
i i
i
Z Z
∑=∧
=n i i i
HH
Z x n X 11 i i n i i
i HT nZ x X ==∑=∧ππ1
HT HH X X ∧
∧
=∴
另外：
()2
12
11∑∑∑=>∧
=∧
⎪⎪⎭
⎫ ⎝⎛-
-=⎪⎭⎫ ⎝⎛⎪⎪⎭
⎫ ⎝⎛-=⎪⎭⎫ ⎝⎛N
i N
i
j j j i i ij j i HT i i N
i i HH X X X V X Z X Z n X V πππππ 代入数据，经计算得到：
⎪⎭
⎫ ⎝⎛==⎪⎭⎫ ⎝⎛∧∧HT HH X V X V 0
6=Y ()
∑=--=N
i i Y
Y N S 1
2
2
11=11.5
所以有：()
2
1S n
f y V -=
=10.0625 x
y R y
P y
N Y y Y =
===∧
∧
∧
∧
()
()
5625.2510625
.
102==⎪⎭
⎫
⎝⎛==⎪⎪⎭
⎫ ⎝⎛∴∧∧y V N Y V y V Y V （2）
由定义有：
()
()()
3211
8.55
.11111
1
21
2
2
=---=
==--===∑∑==∧
∧∧∧
X X Y Y N S S Y Y N S R
X Y R
X N Y i N
i i yx x N
i i R R
⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛=⎪⎪⎭
⎫ ⎝⎛⎪
⎭⎫
⎝⎛=⎪⎭⎫ ⎝⎛∴⎪⎪⎭
⎫ ⎝⎛+--=⎪⎭⎫ ⎝⎛∧
∧
∧
∧∧∧∧R V N X Y V R V X Y V S R S R S n f X R V Ri Ri x yx 2
22222211
结合题目已知条件，我们选择的包含概率与i X 成正比： P Z i i ==π（第i 项被选中） =⨯+⨯+⨯+⨯+⨯=⎪⎭
⎫
⎝⎛-=⎪⎭⎫ ⎝⎛∴∧=∧∑183623610376.5549.1872
1Y Y Z Y V HH N i i 254.71
由以上计算结果可以看出：⎪⎭
⎫
⎝⎛>⎪⎭⎫ ⎝⎛>⎪⎭⎫ ⎝⎛∧∧∧Y V Y V Y V HH R ，比估计在样本量很小的情
况下即使是最小的方差也远比另外两种估计的方差大，而简单估计又比PPS 汉
森-赫维茨估计略好。

5.7 解：已知 n=2 m=5 34011=∑∑==n
i m
j ij y 设公司总人数为0M
由于这个样本是自加权的，所以有：
00
1103434010
M M y nm M Y n i m j ij
=⨯==∑∑==∧
（分钟） 340
==
∴∧
M Y
y （分钟）所以该公司职工上班交通平均所需时间为34分钟。

()()
()()()()[]
244244010
1
34303460^3410344010
112
222112=⨯=
-+-++-+-⨯=-=∑∑==n i m j ij
y y nm y ν
()()
62.15==∴y y s ν（分钟）
5.8 说明:25616=-
y 解:由题可知:4.495299186101101110
1
1011====∑∑∑=-==∧
∧
i i i i i n
i i i HH
y Z y Z Y n Y (吨) 所以,全集团季度总运量为495299.4吨.
⎪⎭
⎫
⎝⎛∧HH Y V 的一个无偏估计为: 95183360186901111101212
=⎪⎭⎫
⎝⎛-=⎪⎪⎪⎭
⎫ ⎝⎛--=⎪⎭⎫ ⎝⎛∑∑=∧-=∧∧
∧i HH i n i HH i
i HH Y y Y Z Y n n Y ν 因为 2/αt =2.306 所以 2/αt 95183360=22497.8 所以置信度95%的置信区间为[472894.6 , 517890.2]
第6章
第2题
⑴证明：将总体平方和按照全部可能的系统样本进行分解，可以得到 ∑∑==-=-k
r n
j rj Y y S N 11
2
__
2
)()1(∑∑==-=k
r n
j r rj y y 11
2
__
)(+∑∑==-k
r n
j r Y Y 11
2__
__
)(
∑=-=k r r Y y n 1
2
____)(+∑∑==-k r n
j r rj y y 11
2__
)(
∑=-=k r r Y y k nk 12____)(+∑∑==-k r n
j r rj y y 11
2__
)( ∑=-k r r Y y k 12____)(1[
-
-=2)1(1
S N nk
∑∑==-k r n
j r rj
y y
11
2
__
)(]
根据)(__
sy y V 的定义，且N nk =，有
)(__
sy y V =∑=-k r r Y y k 12____)(1-
-=2
)1(S N
N ∑∑==-k r n
j r rj
y y
N 11
2__
)(1
令=2
wsy
S
∑∑==--k r n j r rj y y n k 11
2
__
)()1(1
则有)(__
sy y V =
--2)1(S N N 2
)1(wsy S N
n k -
⑵证明：在样本量相同的情况下
)(__sy y V )(__
sys y V ---=2)1(S N N 2)1(wsy S N n k -2
1S n
f --
--=2)1(S N N 2S Nn n N -2
)1(wsy S N n k --
--=2)(S N n N N 2
)1(wsy S N n k -
--=2S N k N 2)1(wsy S N n k -)()1(2
2wsy S S N
n k --=
立即可得到当且仅当22
S S wsy >时，系统抽样优于简单随机抽样。

第3题
解：⑴[]7.5740=⎥⎦
⎤
⎢⎣⎡=⎥⎦⎤⎢⎣⎡=n N k ，k 取最接近于5.7而不大于5.7的整数5，则将
该班同学编号1~40，随机起点r=5，则该样本单元序号为5，10，15，20，25，30，35。

⑵35=N ，7=n ，5==n
N
k 。

Sethi 对称系统抽样：5=r ，入样单元为:5，6，10，16，15，26，20
Singh 对称系统抽样：由于n 为奇数，则从两个断点开始分层，最后
中间的半层取中间位置的单元，5=r ，入样单元为：5，31，10，26，15，21，18
第4题
解：由题，N=360，k=8，则n=N/k=45
取()()1 451Y 0 451rj r j r j -+⎧⎪=⎨-+⎪⎩第号住户的户主为汉族
第号住户的户主不为汉族
，
1,2,,8r =，1,2,,45j =,
总体均值0.1972Y =
总体方差()
2
845
2
11
1Y 0.15881rj r j S Y N ===-=-∑∑
平均样本内方差()21
S 0.13430.21010.176840.20.16360.17698
r ∙=
++⨯++= 则：()
22
1(1)S 0r sy N k n V y S N N
∙--=-≈
运用简单随机抽样：n=45，450.125360f ==，()
2
10.0031sys f V y S n
-== 显然：()()
sys sy V y V y >，说明等距样本的精确度较简单随机样本的精确度要高。

第5题
答：⑴欲估计汉族所占比例，选择第⑴种系统抽样的方法好。

按照题给条件排
序，在户口册中每5人中抽1人，且平均每户有5口人，分布较均匀，且如此抽样，每户人家基本均有1人入样。

⑵男性所占比例与孩子所占比例。

采用简单随机抽样的方法较合适，因为
按题条件排序后，采用等距抽样，若抽得初始单元为1，则男生比例为1，孩子比例为0，如此，则有较大误差。

第6题
解：取Y rj =⎩
⎨⎧特征个单元不具有所研究的第群，若总体中第征个单元具有所研究的特
第群，若总体中第j r j r ""0""1
则总体比例P 的简单估计量为^
P =P=sy n
j rj y y n __
1
1=∑=，即对总体比例的估计可
化成对总体均值的估计。

① 估计男性所占比例：则，取Y rj =⎩⎨⎧，其他个单元为男性
第群，第0""1j r
由题意，系统抽样 K=5，n=10，则所有可能样本如下表：
总体均值__Y 48.01
5110
1
==
∑∑==r j rj
Y
N
总体方差S 2547.0)(11512__
10
1
2
=--=∑∑==r j rj Y Y N ，平均群内方差2489.05151
2
2.==∑=j rj r
S S
以行为“系统样本”的系统抽样：k=5,n=10
0256
.002559.0)1(1)1(1)(2
.222__
≈=---=---=r wsy sy S N
n k S N N S N n k S N N y V
简单随机抽样：n=10，f=20%=0.2 0256.00204.02547.010
2
.011)(2__
<≈⨯-=-=S n f y V
)()(__
__
y V y V sy >，说明简单随机抽样精度较高。

② 估计孩子所占比例：取Y rj =⎩⎨⎧，其他个单元为小孩
第群，第0""1j r
由题意，系统抽样：k=5，n=10，则所有可能样本如下表：
总体均值__
Y 48.01
5
110
1
==
∑∑==r j rj
Y
N
总体方差S 2547.0)(11512__
10
1
2
=--=∑∑==r j rj Y Y N 平均群内方差2134.05151
2
2.≈=∑=j rj r
S S
以行为“系统样本”的系统抽样：k=5,n=10
0576.0)1(1)1(1)(2
.222__
≈---=---=r wsy sy S N
n k S N N S N n k S N N y V
简单随机抽样：n=10，f=20%=0.2 0256.00204.02547.010
2
.011)(2__
<≈⨯-=-=S n f y V
)()(__
__
y V y V sy >，说明简单随机抽样精度较高。

③ 估计具体某种职业的住户人员的比例：取Y rj =⎩⎨⎧，不满足条件，满足条件
01
由题意，系统抽样 K=5，n=10，则所有可能样本如下表：
总体均值__
Y 38.01
5
110
1
==
∑∑==r j rj
Y
N
总体方差S 2404.0)(11512__
10
1
2
=--=∑∑==r j rj Y Y N 平均群内方差26.05151
2
2.≈=∑=j rj r
S S
以行为“系统样本”的系统抽样：k=5,n=10
0016.0)1(1)1(1)(2
.222__
≈---=---=r wsy sy S N
n k S N N S N n k S N N y V
简单随机抽样：n=10，f=20%=0.2 0016.001923.01)(2
__
>=-=S n
f y V
)()(__
__
y V y V sy <，说明系统抽样精度较高。

第7题
解：①由题，N=15，n=3，直线等距抽样k=⎥⎦
⎤
⎢⎣⎡n N =5,则所有可能样本如下：
总体均值__
Y 81
1
==
∑=N
i i
Y
N
总体方差S 20)(1121
__
2
=--=∑=N
i i Y Y N 平均样本方差255151
2
2.==∑=i ri r
S S
则以直线等距抽样：
2)1(1)1(1)(2
.222__
=---=---=r wsy sy S N
n k S N N S N n k S N N y V
简单随机抽样：n=3，f=N
n
=1/5=0.2
23334.51)(2
__
>=-=S n
f y V
)()(__
__
y V y V sy <，说明直线等距抽样的精度较高。

②由题，要求抽样间距k=4，n=3，nk=12<15 ∑==n
i i sy
y n y 1
__
1 ∑∑∑∑∑∑=======>===k r k r n
j rj
n j rj k r r k r r sy Y y
N
y nk y k k y y E 11__
111__1
__
__
1
11)1()(
所以样本均值不是总体均值的无偏估计。

当nk=N 时，∑∑∑∑=====
k r k r n
j rj
n j rj y
N
y nk 111
11
1， __
__
)(Y y E sy =。

即当nk=N 时，样本均值为总体均值的无偏估计。

第8题
解：由题，N=30，k=5，则n=30/5=6
则按照所给顺序等距抽样，可能样本如下：
由上表数据可得：
总体方差()
2
562
11
1Y 11.85751rj r j S Y
N ===-=-∑∑ 平
均样
本
内
方
差
()21
S 17.46677.4667 6.566711.466718.966712.38675
r ∙=
++++= 则：()
22
1(1)S 1.14r sy N k n V y S N N
∙--=-=
第七章（仅供参考）
１、根据题中所给表格，可计算各层的权重：
17.050085'1==w 25.0500125'2==w 28.0500140'
3==w
22.0500110'4==w 08.050040'
5==w
（1）根据式（7.1），可得该县棉花平均种植面积为：
8
4101
08.022560722.028442328.025180625.01749017.01
'
⨯+⨯+⨯+⨯+⨯
==∑=L
h h h stD y w y 27.164=
该县共有2000个村，帮全县的棉花种植总面积为：
32854027.1642000=⨯==stD y N Y
（2）根据式（7.4），stD y 的方差估计为：
∑∑==--+-=L h stD h h L
h h h h h
stD y y w N n s w n n y v 12'
'12'')()11()11()(
由公式 ∑∑==--=--=h h n j n j h hj h h hj h h y n y n y y n s 11
2
2)(11)(11，由表中数据可得： 6544
.901=s
7733
.1952=s
6773
.13353=s
5519.8554=s
1429.143345=s
第一项：
7733.19525.0)125
1251(6544.9017.0)851171()11(
21
22''⨯⨯-+⨯⨯-=-∑=L
h h h h h s w n n 1864
.141429.1433408.0)40
181(5519.85522.0)1101221(6773.133528.0)1401281(
2
22=⨯⨯-+⨯⨯-+⨯⨯-+ 第二项： 9705
.16760]
)27.1648
4101
(08.0)27.164225607(22.0)27.16428
4423(28.0)27.164251806(25.0)27.16417490(17.0[)200015001()()11(222221
2'
'=-⨯+-⨯+-⨯+-⨯+-⨯⨯-=--∑=L h stD h h y y w N n 因此 1569.167759705.167601864.14)(=+=stD y v
该县种植总面积的抽样标准误差估计为
8883.259037)()()(==∙=stD stD y v N y s N Y s
2、解：本题首先对22
2
21,,S S S 进行估计由于比例估计的方差 )1(1
2P P N N
S --=
故我们可以取 )1(2P P S -≈进行估计。

根据题意知：5.021==W W 2.01=P 8.02=P 25.01=c 102=h c 故总体比例 5.02211=+=P W P W P 从而： 16.08.02.0)1(1121=⨯=-=P P S
16.02.08.0)1(222
2
=⨯=-=P P S 25.05.05.0)1(2=⨯=-=P P S （1）根据式（7.10）及式（7.7）
⎪
⎪
⎪⎩
⎪⎪⎪⎨⎧+='
-=∑∑==L h hD h h T L
h h h h h hD f W c c C n S W S c c S f 121*1
2221)
(
由题意有元）(300*
=T C
代入上式有 2108.0)
16.025.0(1025
.016.0=-⨯⨯
=1D f
2108.0)
16.025.0(1025
.016.02=-⨯⨯
=D f
1272)
22108.05.010(25.0300
=⨯⨯⨯+=
'n
1345.012722108.011111=⨯⨯='='
=W n f n f n D D 1345.012722108.022222=⨯⨯='='
=W n f n f n D D
此时 ∑=-'+-'=L h hD h h stD f n S W S N n P V 1
2
2)11
()11()(，依题意
由于N n N N S '<=25.02，而N
n '
忽略不计，故N S 2亦可忽略不计故 ∑=-'+'≈L
h hD h h stD f n S W n S P V 1
22)11
()(
2)]12108
.01
(127216.05.0[127225.0⨯-⨯⨯+=
000667462.0=
（2）不分层的简单随机抽样，样本量为268=n
000932835.05.05.0268
1
)1(1)1(111)(=⨯⨯=-≈---=
P P n P NP N n f P V 因此二重分层抽样比不分层的简单随机抽样效率高。

（3）略
3、解：由题知，602='x ，由表，计算 25.568=y ，5833.568=x ，9994.0ˆ=R
89.2788362
=y s ，86.2561542=x
s ，02.256262=yx s 所以，该地区年末牛的总头数估计为：
头）(1.7448396025833
.56825.5681238ˆ=⨯⨯='==x x y N y N Y RD
RD 根据式（7.15），RD
Y ˆ的方差估计为： )]2ˆ)(11(1[)()()ˆ(22222yx
x y RD RD RD Rs s R n n s n N y v N y N v Y v -'
-+≈==
86.2561549994.0)(5001
241(2489.278836[123822⨯-+⨯≈
)]02.2562629994.02⨯⨯- 2220650080=
所以RD Y ˆ的标准差为7740.47123)ˆ(=RD
Y v 。

4、解：（1）根据式（7.10）及式（7.7） ⎪
⎪
⎪⎩
⎪⎪⎪⎨⎧+='
-=∑∑==L h hD h h T L
h h h h h hD f W c c C n S W S c c S f 121*1
2221)
(
代入数据计算得： 1329.0)]
922214.0312786.0(620[1001
7.171=⨯+⨯-⨯⨯
=D f
2282.0)]
922214.0312786.0(620[1001
4.302=⨯+⨯-⨯⨯
=D f
612)
2282.0214.011329.0786.01(01.0100
=⨯⨯+⨯⨯+=
'n
64786.06121329.011111=⨯⨯='='
=W n f n f n D D 30214.06122282.022222=⨯⨯='='
=W n f n f n D D
此时， ∑=-'+-'=L h hD
h h stD f n S W S N n y V 12
2)11
()11()(
]12282.01620922214.011329.01620312786.0[612620⎪⎭
⎫
⎝⎛-⨯⨯+⎪⎭⎫ ⎝⎛-⨯⨯+≈
6700.4≈
（2）略
5、解：由题意可知
3001=n 2002=n 62=m
由式（7.21） 33.95911
)
1)(1(~21=-+++=m n n N
由式（7.22）
7.782262
63138238201301)2()1())()(1)(1()~
(2
22121≈⨯⨯⨯⨯=++--++=m m m n m n n n N v 6、解：（1）由题意 71=n 122=n 4=m
由式（7.21） 8.1911
)
1)(1(~21
=-+++=m n n N 由式（7.22）
64.166
583138)2()1())()(1)(1()~
(2
22121=⨯⨯⨯⨯=++--++=m m m n m n n n N v 其95%的置信区间为 )~
(96.1~N v N ± 即 )64.24,64.8( （2）由题意 161=n 192=n 11=m
由式（7.21） 33.27112
201711)
1)(1(~21
=-⨯=-+++=m n n N 由式（7.22）
26.713
12852017)2()1())()(1)(1()~
(2
22121=⨯⨯⨯⨯=++--++=m m m n m n n n N v 其95%的置信区间为 )~
(96.1~N v N ± 即 )03.30,63.24( （3）
○
1、总体是封闭的——两次抽样间没有人进入或离开湖心塘地区。

○
2、每个样本都是来自总体的简单随机抽样。

即湖心塘地区的每一个人都有同样的机会被找到。

○
3、两个样本是独立的。

即第一次找到的人混合到了湖心塘地区后，跟
第二次被找到的概率没有关系。

○4、不会丢失人找到过的人的信息。

7、（1）略
（2）由题意由式（7.21） 11
)
1)(1(~21-+++=m n n N
由表中数据4511=n 1521=n 21=m 代入公式得
33.244~
1=N
同理有
95~2=N 48~3=N 5.79~4=N 5.44~5=N 114~6=N 67.41~
7=N
5.30~8=N 33.62~9=N 159~10=N 5.31~11=N 4~12=N 35~
13=N
3~14=N 3~15=N 1~
16=N
（3）累积所有年份的数据，有2631=n 932=n 19=m
代入公式，有8.123911
19)
193()1263(~=-++⨯+=N
（2）中得到的1970-1985年间的先天性风疹的总病例数为33.996~
~16
1
=='∑=i i N N
（4）略。