抽样技术-第三版-全部课后答案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
抽样技术-第三版-全部课后答案
第二章习题
2.1判断下列抽样方法是否是等概的:
(1)总体编号1~64,在0~99中产生随机数r ,若r=0或r>64则舍弃重抽。
(2)总体编号1~64,在0~99中产生随机数r ,r 处以64的余数作为抽中的数,若余数为0则抽中64.
(3)总体20000~21000,从1~1000中产生随机数r 。
然后用r+19999作为被抽选的数。
解析:等概抽样属于概率抽样,概率抽样具有一些几个特点:第一,按照一定的概率以随机原则抽取样本。
第二,每个单元被抽中的概率是已知的,或者是可以计算的。
第三,当用样本对总体目标进行估计时,要考虑到该样本被抽中的概率。
因此(1)中只有1~64是可能被抽中的,故不是等概的。
(2)不是等概的【原因】(3)是等概的。
2.2抽样理论和数理统计中关于样本均值y 的定义和性质有哪些不同?
2.3为了合理调配电力资源,某市欲了解50000户居民的日用电量,从中简单随机抽取了300户进行,现得到其日用电平均值=y 9.5(千瓦时),=2s 206.试估计该市居民用电量的95%置信区间。
如果希望相对误差限不超过10%,则样本量至少应为多少?
解:由已知可得,N=50000,n=300,5.9y =,2062=s
1706366666206*300
50000300
1500001)()ˆ(222=-
=-==s n
f N y N v Y
V 19.413081706366666(==)y v 该市居民用电量的95%置信区间为
[])(y [2
y V z N α±=[475000±1.96*41308.19]
即为(394035.95,555964.05) 由相对误差公式
y
)
(v u 2y α≤10%
可得%10*5.9206*n
50000
n 1*
96.1≤- 即n ≥862
欲使相对误差限不超过10%,则样本量至少应为862
2.4某大学10000名本科生,现欲估计爱暑假期间参加了各类英语培训的学生所占的比例。
随机抽取了两百名学生进行调查,得到P=0.35,是估计该大学所有本科生中暑假参加培训班的比例的95%置信区间。
解析:由已知得:10000=N 200=n 35.0=p 02.0==N
n
f
又有:35.0)()(===∧p p E p E 0012.0)1(1
1)(=---=∧p p n f
p V
该大学所有本科学生中暑假参加培训班的比例95%的置信区间为:
])()([2
∧
∧±P V Z P E α
代入数据计算得:该区间为[0.2843,0.4157]
2.5研究某小区家庭用于文化方面(报刊、电视、网络、书籍等)的支出,N=200,现抽取一个容量为20的样本,调查结果列于下表:
编号 文化支出 编号 文化支出 1 200 11 150 2 150 12 160 3 170 13 180 4 150 14 130 5 160 15 100 6 130 16 180 7 140 17 100 8
100
18
180
9 110 19 170 10 240 20 120
估计该小区平均的文化支出Y ,并给出置信水平95%的置信区间。
解析:由已知得:200=N 20=n
根据表中数据计算得:5.14420120
1
==∑=i i y y
()
06842.827120120
1
22
=--=∑=i i
y y s 21808.37)1(1)(2=-=
s N n
n y V 10015.6)(=y V ∴ 该小区平均文化支出Y 的
95%置信区间为:])(y [2
y V z α±即是:
[132.544 ,156.456]
故估计该小区平均的文化支出Y =144.5,置信水平95%的置信区间为[132.544 ,156.456]。
2.6某地区350个乡为了获得粮食总产量的估计,调查了50个乡当年的粮食产量,得到y =1120(吨),25602=S ,据此估计该地区今年的粮食总产量,并给出置信水平95%的置信区间。
解析:由题意知:y =1120 1429.0350
50
n ===
N f 25602=S ⇒160=s 置信水平95%的置信区间为:]1y [2
s n
f
z -±α
代入数据得: 置信水平95%的置信区间为:[1079.872,1160.872]
2.7某次关于1000个家庭人均住房面积的调查中,委托方要求绝对误差限为2平方千米,置信水平95%,现根据以前的调查结果,认为总体方差682=S ,是确定简单随机抽样所需的样本量。
若预计有效回答率为70%,则样本量最终为多少?
解析:简单随机抽样所需的样本量2
2
22
2
12
2
S Z Nd S NZ n αα+=
%
701
2n n =
由题意知:1000=N 2=d 682
=S 96
.12
=αZ
代入并计算得:613036.611≈=n
87142.87%701
2≈==
n n
故知:简单随机抽样所需的样本量为61,若预计有效回答率为70%,则样本量最终为87
2.8某地区对本地100家化肥生产企业的尿素产量进行调查,一直去年的总产量为2135吨,抽取10个企业调查今年的产量,得到25=y ,这些企业去年的平均产量为22=x 。
试估计今年该地区化肥总产量。
解析:由题可知22x =,
35.211002135
===
N X X ,25y =
则,该地区化肥产量均值Y 的比率估计量为
26
.242425
35.21===∧
x y X
Y
该地区化肥产量总值Y 的比率估计量为 242626.24*100ˆˆ===R Y N Y 所以,今年该地区化肥总产量的估计值为2426吨。
2.9如果在解决习题2.5的问题时可以得到这些家庭月总支出,得到如下表:
置信水平95%的置信区间,并比较比估计和简单估计的效率。
解析:由题可知1580
130017002300201
x n 1x n 1i i =+++==∑=)(
5.144y =
091.015805.144ˆ=≈===x y r R
又
329.14615805.144*1600x y y ===X
R
053.826)(111
22
=--=∑=n
i i y y n S
158.3463))((111
=---=∑=n
i i i xy
x x y y n S
579.8831)(111
22
=--=∑=n i i x
x x n S
故平均文化支出的95%的置信区间为
,)ˆˆ2(1[2222
x yx R S R S R S n f Z y +---α])ˆˆ2(1222
2x
yx R S R S R S n f Z y +--+α
代入数据得(146.329±1.96*1.892)
即为[142.621,150.037]
2.10某养牛场购进了120头肉牛,购进时平均体重100千克。
现从中抽取10头,记录重量,3个月后再次测量,结果如下:
计的结果进行比较。
解:由题可知,6.1021059510
1
x n 1x n 1i i =++==∑=)
( 16317015010
1
y n 1y n 1i i =+==∑=)(
222.2121910*9
1)(1112
2
==--=∑=n i i
y y n S 333.1461317*9
1))((111==---=∑=n i i i xy
x x y y n S
933.1064.926*9
1)(11122
==--=∑=n i i x
x x n S 故有368.1933
.106333
.1462
0==
=
x
xy S S β
所以总体均值Y 的回归估计量为
443.159)6.102100(*368.1163)(0=-+=-+=x X y y lr β 其方差估计为:
)2(1)(ˆ02202xy
x lr S S S n
f y V ββ-+-= =
)333.146*368.1*2933.106*368.1222.212(101201012-+-
=1.097
而2
1y (ˆS n
f V -=)
=
222.212*1012010
1- =19.454
显然)(ˆ)(ˆy V y V lr
< 所以,回归估计的结果要优于简单估
第三单元习题答案(仅供参考) 1解:(1)不合适
(2)不合适 (3)合适 (4)不合适
2.将800名同学平均分成8组,在每一级中抽取一名“幸运星”。
=
=20.1
V()=-
=9.7681-0.2962
=9.4719
=3.0777
(2)置信区间为95%相对误差为10%,则有
按比例分配的总量:n==185.4407185
=n=56,=92,=37
按内曼分配:n==175
=33,=99,=43
==0.924
根据各层层权及抽样比的结果,可得
()==0.000396981
=1.99%
估计量的标准差为1.99%,比例为9.24%
按比例分配:n=2663
=479,=559,=373,=240,=426,=586
内曼分配:n=2565
=536,=520,=417,=304,=396,=392 5.解:由题意,有
==75.79
购买冷冻食品的平均支出为75.79元
又由V()=+
又n=
V()=53.8086
=7.3354
95%的置信区间为[60.63,90.95]。
7.解:(1)对
(2)错
(3)错
(4)错
(5)对
8.解:(1)差错率的估计值=70%+30%=0.027
估计的方差v()==3.1967
标准差为S()=0.0179。
(2)用事后分层的公式计算差错率为==0.03
估计的方差为;v()=-=2.5726
(2)用分别比估计,有=0.4,=0.65,所以用分别比估计可计算得=6.4。
用联合比估计,有=0.5,=0.625,所以用联合比估计可计算得=6.5。
第四章习题
4.1邮局欲估计每个家庭的平均订报份数,该辖区共有4000户,划分为400个
群,每群10户,现随机抽取4个群,取得资料如下表所示:
解:由题意得到400=N ,4=n ,10=M ,01.0400
4===
N n f 故875.14
1020
1620191ˆ1
=⨯+++=
=
=∑
=n
i i y Mn
y Y (份)
75.18875.110=⨯=⋅=y M y (份) 750040010ˆ=⨯=⋅⋅=y N M Y
(份) ∑=--=
n
i i
b
y y
n M s 1
22)(1
∑=---=
-=n
i i
b y y
n nM f s nM f y v 1
222)(1
111)(
14)75.1820()75.1819(10
401.012
22
--++-⨯⨯-= 00391875.0=
6270000391875.010400)()ˆ(2222=⨯⨯==y v M N Y
v 于是由以上的计算结果得到平均每户的订报份数为 1.875,估计量方差为
0.00391875。
该辖区总的订阅份数为7500,估计量方差为62700。
4.2 某工业系统准备实行一项改革措施。
该系统共有87个单位,现采用整群抽
样,用简单随机抽样抽取15个单位做样本,征求入选单位中每个工人对政
(2) 在调查的基础上对方案作了修改,拟再一次征求意见,要求估计比例的
允许误差不超过8%,则应抽取多少个单位做样本?
解:题目已知87=N ,15=n ,87
15
=
=N n f 1)由已知估计同意改革的比例
709.0911
646
ˆ1
1
≈=
=∑∑==n i i
n
i i
M
y
p
733.6011
==
∑=n i i
M
n
M
008687.0)ˆ(1111)ˆ(1
22=---=∑=n
i i i
M p
y
n n f M
p
v 此估计量的标准差为
9321.0008687.0)ˆ()ˆ(===p v p
s
4.3 某集团的财务处共有48个抽屉,里面装有各种费用支出的票据。
财务人员
欲估计办公费用支出的数额,随机抽取了其中的10个抽屉,经过清点,整
)。
解:已知N=48, n=10, f=4810
=N n , 由题意得7361=∑=n i i y ,3651
=∑=n
i i M ,
则办公费用的总支出的估计为8.353273610
48
ˆ1
=⨯=
=∑=n
i i
y
n
N Y
(元) 群总和均值6.7373610
1
11=⨯==∑=n i i y n y (元)
1
)()1()ˆ(1
2
2
--⋅-=∑=n y y
n
f N Y
v n
i i
=9
)6.7380(...)6.7362()6.7383(10)
48101(482222-++-+-⨯
-
⨯ = 182.4⨯9
1
⨯3590.4
= 72765.44 )ˆ(Y
v =269.7507 则Y
ˆ的置信度为95%的置信区间为3532.8±1.96⨯269.7507,即[3004.089,4061.511].
4.4 为了便于管理,将某林区划分为386个小区域。
现采用简单随机抽样方法,
估计整个林区树的平均高度及95%的置信区间。
解:由已知得386=N ,20=n ,0518.038620===
N n f 整体的平均高度909.51046
8
.6180y Y ˆ
1
-i n
1i ==
=
=∑∑=n i
i
i
M
y M
3.5211
==
∑=n
i i
M
n
M
方差估计值1
)(1)()ˆ
(1
2
2
---=
=∑=n y M y
M n f y v Y v n
i i i
02706.0=
标准方差1644.002706.0)ˆ
()ˆ(===Y v Y s
在置信度95%下,该林区的树木的平均高度的置信区间为
)2312.6,5868.5()1644.096.1909.5()Y ˆ(t Y ˆ/2=⨯±=⋅±)(s α
4.5 某高校学生会欲对全校女生拍摄过个人艺术照的比例进行调查。
全校共有
女生宿舍200间,每间6人。
学生会的同学运用两阶段抽样法设计了抽样方案,从200间宿舍中抽取了10间样本宿舍,在每间样本宿舍中抽取3位
解:题目已知200=N ,10=n ,6M =,3=m ,05.0200101===
N n f ,5.02==M
m f 3.03
109
ˆ1
=⨯=
=∑=nm
y
p
n
i i
005747.0)(1111)ˆ(1
2=⋅--⋅
-⋅=∑=n
i i
m p y
n n f m
p v
0758.0005747.0)ˆ()ˆ(===p v p
s 在置信度95%下,p 的置信区间为
))ˆ(ˆ(2/p v t p
α±=)0.448568,0.151432()0758.096.13.0(=⨯±
4.6 上题中,学生会对女生勤工助学月收入的一项调查中,根据以往同类问题
的调查,宿舍间的标准差为1S =326元,宿舍内同学之间的标准差为2S =188元。
以一位同学进行调查来计算,调查每个宿舍的时间1c 为1分钟,为了调查需要做各方面的准备及数据计算等工作,所花费的时间为0c 是4小时,如果总时间控制在8小时以内,则最优的样本宿舍和样本学生是多少?
解:由已知条件得到以下信息:
326S 1=(元)188S 2=(元)10c 1=(分钟)1c 2=(分钟)240
604c 0=⨯=(分钟) 由此得到
106276S 21
=,
35344S 22
=,
33.1003856
35344106276S 2
212u
=-=-=M S S
82.11
10
326188m 2112opt ≈⨯=⋅=
c c S S 因而取最优的2m =,进一步计算opt n 由于总时间的限制480C =,由关系式
nm c n c c C 210++=得到opt opt 2n 10n 240480++=
计算方程得到20n opt =,因而取20n =
则最优的样本宿舍数为20间,最优样本学生数为2。
4.7 某居委会欲了解居民健身活动情况,如果一直该居委会有500名居民,居
住在10个单元中。
现先抽取4个单元,然后再样本单元中分别抽出若干居民,两个阶段的抽样都是简单随机抽样,调查了样本居民每天用于健身锻单元i
居民人数i M 样本量i m
健身锻炼时间ij y
1 3
2 4 4,2,3,6
2 45 5 2,2,4,3,6
3 36
4 3,2,5,8 4 54 6 4,3,6,2,4,6
(1) 简单估计量 (2) 比率估计量
(3) 对两种估计方法及结果进行评价。
解:(1)简单估计
∑∑====n
i i i n
i i u
Y n N
y M n
N Y 1
1
ˆˆ
=
)17.4545.4364.34575.332(4
10
⨯+⨯+⨯+⨯⨯ =1650,
则3.3500
1650
ˆY ˆ0u ===M Y u ,
又1656604
1ˆ1Y ˆ1u =⨯==∑=n i i Y n , 所以∑∑==-+---=n
i i
i
i i n
i u
i
m s f M n
N
n Y Y f 12
2221
2
1
2
u )1(1
)ˆˆ(n 1(N )Y ˆv()
分别计算
1926
3
5778]
)165225()165162()165153()165120[(3
1
1
)
ˆˆ(22221
2
==-+-+-+-⨯=--∑=n Y Y n
i u
i
48.46286
2.2)546
1(544
7)364
1(3658.2)4551(45492.2)3241(32)1(222212
222=⨯-⨯+
⨯-⨯+⨯-⨯+⨯-
⨯=-∑=n
i i
i
i i m s f M
所以,162
.0046285.011556.0)1(1)ˆˆ(n 1(N 1)ˆ(1
222212120≈+=⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎣
⎡-+
---=∑∑==n
i i i i i n
i u i u m s f M n
N n Y Y f M Y v ) 所以标准差402.0)ˆ
()ˆ(==u u Y v Y s (2) 比率估计
9532.354
36453217
.4545.4364.34575.332ˆ1
1
=+++⨯+⨯+⨯+⨯=
=∑∑==n i i
i
n
i i
R M
y M
y
∑
∑==-+---=n i i
i
i i n
i u
i
R m s f M n N n Y Y f y
v 12
2221
2
1
2
)1(1
)ˆˆ(n 1(N
)ˆ()
其中∑∑===
=n i i
i
n
i i
R R M
y M
M Y Y 1
10
ˆˆ
0715.0)ˆ()ˆ(2
==M Y v y
v R R
2647.00715.0)ˆ()ˆ(===R R y v y
s (3) 简单估计标准差402.0)ˆ
(=u Y s ,比率估计标准差2647.0)ˆ(=R y
s ∴比率估计更好
第五章不等概抽样习题答案
5.1解:
分析题目可知“代码法”与“拉希里法”都是PPS 抽样(放回的与规模大小
成比例的不等概抽样)的实施方法,而此题需要用此两种方法进行不放回抽样,故需进一步进行改进:即采用重抽法抽取,如果抽到重复单元,则放弃此样本单元,重新抽取,直到抽到规定的样本量且所有样本党员不重复: (1) 代码法:由i Z =
∑==N 1
i i
i 0
i M M
M M 可假设0M =1000000,则M i =i Z M 0列成数据表
个随机数为444703, 615432, 791937, 921813 , 738207, 176266, 405706 935470, 916904, 57891按照范围我们可以知道抽取的PSU9, PSU16, PSU19, PSU24, PSU18, PSU2, PSU8 PSU24 PSU23 PSU2,我们看到第2组和24组重复抽取了,故进行重新抽取,抽到4组和6组; 综上所述,抽取的样本为2,4,6,8,9,16,18,19,23,24组
(2)拉希里法:M ⨯=78216,N=25,在[1, 25]和[1, 78216]中分别产生(n,m ): (13,38678),M 13=40654≥38678,入样; (8, 57764),M 8=38981<57764,舍弃,重抽; (23,13365),M 23=9066<13365,舍弃,重抽; (19,38734),M 19=69492≥38734,入样;
以此类推,当得到重复入样情况时,同上重新抽取,得到抽取结果为: 2,3,5,6,7,12 ,13,16, 19,24组 5.2解:
由数据可得:
t 1=∑=i
M j j y 1
1=20, t ∑===2
1
2225M j j y ,t 3=38, t 4=24, t 5=21;
结合t 值数据,我们可以推得Z 的值 Z 1=
2.025
5
01==M M ,Z 2=0.16,Z 3=0.32,Z 4=0.2,Z 5=0.12,
由公式()
()()⎪⎪⎭
⎫
⎝
⎛-+----=
∑=N
i i i
j i j i j i ij Z
Z Z Z Z Z Z Z 1211212114π
5.3 解:
设:0M =1,则有:i i Z M =,得到下表:
为103,最后在[1,1000]中产生第三个随机数为982,则它们所对应的第7、1、10号单元被抽中。
5.4 解:
利用汉森-赫维茨估计量对总体总值进行估计:
()
9.322877.792543.1037061]006.2217121.0290006.2217062.0120006.2217138.0320[61111006.2217]121
.0290062.0120138.0320[3112
2
2
2
11++⨯=⎪⎭
⎫
⎝⎛-+⎪⎭⎫ ⎝⎛-+⎪⎭⎫ ⎝⎛-⨯=⎪⎪⎭
⎫ ⎝⎛--=⎪⎭⎫ ⎝⎛=++⨯==∑∑=∧∧
=∧
n i HH i i HH n i i i HH
Y Z y n n Y v Z y n Y =20318.8
5.142=⎪⎭
⎫
⎝⎛=⎪⎭⎫ ⎝⎛∴
∧∧HH HH Y v Y s
5.5解:由题可知
∑∑====6
1
1
0i i N
i i X X X =2+9+3+2+1+6=23
由0X X n
i
i =π得下表:
由上表显然有i Z <1/2,于是我们可以采用布鲁尔方法:
()
()
()⎪⎪⎭
⎫
⎝
⎛-+----=
∑=N
i i i
j i j i j i ij Z
Z Z Z Z Z Z Z 1211212114π
(1) 78.25455.00476.01053.01764.07999.11053.0211=+++++=-∑=N
i i
i
Z Z
∑=∧
=n i i i
HH
Z x n X 11 i i n i i
i HT nZ x X ==∑=∧ππ1
HT HH X X ∧
∧
=∴
另外:
()2
12
11∑∑∑=>∧
=∧
⎪⎪⎭
⎫ ⎝⎛-
-=⎪⎭⎫ ⎝⎛⎪⎪⎭
⎫ ⎝⎛-=⎪⎭⎫ ⎝⎛N
i N
i
j j j i i ij j i HT i i N
i i HH X X X V X Z X Z n X V πππππ 代入数据,经计算得到:
⎪⎭
⎫ ⎝⎛==⎪⎭⎫ ⎝⎛∧∧HT HH X V X V 0
6=Y ()
∑=--=N
i i Y
Y N S 1
2
2
11=11.5
所以有:()
2
1S n
f y V -=
=10.0625 x
y R y
P y
N Y y Y =
===∧
∧
∧
∧
()
()
5625.2510625
.
102==⎪⎭
⎫
⎝⎛==⎪⎪⎭
⎫ ⎝⎛∴∧∧y V N Y V y V Y V (2)
由定义有:
()
()()
3211
8.55
.11111
1
21
2
2
=---=
==--===∑∑==∧
∧∧∧
X X Y Y N S S Y Y N S R
X Y R
X N Y i N
i i yx x N
i i R R
⎪⎭⎫ ⎝⎛⎪⎭⎫ ⎝⎛=⎪⎪⎭
⎫ ⎝⎛⎪
⎭⎫
⎝⎛=⎪⎭⎫ ⎝⎛∴⎪⎪⎭
⎫ ⎝⎛+--=⎪⎭⎫ ⎝⎛∧
∧
∧
∧∧∧∧R V N X Y V R V X Y V S R S R S n f X R V Ri Ri x yx 2
22222211
结合题目已知条件,我们选择的包含概率与i X 成正比: P Z i i ==π(第i 项被选中) =⨯+⨯+⨯+⨯+⨯=⎪⎭
⎫
⎝⎛-=⎪⎭⎫ ⎝⎛∴∧=∧∑183623610376.5549.1872
1Y Y Z Y V HH N i i 254.71
由以上计算结果可以看出:⎪⎭
⎫
⎝⎛>⎪⎭⎫ ⎝⎛>⎪⎭⎫ ⎝⎛∧∧∧Y V Y V Y V HH R ,比估计在样本量很小的情
况下即使是最小的方差也远比另外两种估计的方差大,而简单估计又比PPS 汉
森-赫维茨估计略好。
5.7 解:已知 n=2 m=5 34011=∑∑==n
i m
j ij y 设公司总人数为0M
由于这个样本是自加权的,所以有:
00
1103434010
M M y nm M Y n i m j ij
=⨯==∑∑==∧
(分钟) 340
==
∴∧
M Y
y (分钟) 所以该公司职工上班交通平均所需时间为34分钟。
()()
()()()()[]
244244010
1
34303460^3410344010
112
222112=⨯=
-+-++-+-⨯=-=∑∑==n i m j ij
y y nm y ν
()()
62.15==∴y y s ν(分钟)
5.8 说明:25616=-
y 解:由题可知:4.495299186101101110
1
1011====∑∑∑=-==∧
∧
i i i i i n
i i i HH
y Z y Z Y n Y (吨) 所以,全集团季度总运量为495299.4吨.
⎪⎭
⎫
⎝⎛∧HH Y V 的一个无偏估计为: 95183360186901111101212
=⎪⎭⎫
⎝⎛-=⎪⎪⎪⎭
⎫ ⎝⎛--=⎪⎭⎫ ⎝⎛∑∑=∧-=∧∧
∧i HH i n i HH i
i HH Y y Y Z Y n n Y ν 因为 2/αt =2.306 所以 2/αt 95183360=22497.8 所以置信度95%的置信区间为[472894.6 , 517890.2]
第6章
第2题
⑴证明:将总体平方和按照全部可能的系统样本进行分解,可以得到 ∑∑==-=-k
r n
j rj Y y S N 11
2
__
2
)()1(∑∑==-=k
r n
j r rj y y 11
2
__
)(+∑∑==-k
r n
j r Y Y 11
2__
__
)(
∑=-=k r r Y y n 1
2
____)(+∑∑==-k r n
j r rj y y 11
2__
)(
∑=-=k r r Y y k nk 12____)(+∑∑==-k r n
j r rj y y 11
2__
)( ∑=-k r r Y y k 12____)(1[
-
-=2)1(1
S N nk
∑∑==-k r n
j r rj
y y
11
2
__
)(]
根据)(__
sy y V 的定义,且N nk =,有
)(__
sy y V =∑=-k r r Y y k 12____)(1-
-=2
)1(S N
N ∑∑==-k r n
j r rj
y y
N 11
2__
)(1
令=2
wsy
S
∑∑==--k r n j r rj y y n k 11
2
__
)()1(1
则有)(__
sy y V =
--2)1(S N N 2
)1(wsy S N
n k -
⑵证明:在样本量相同的情况下
)(__sy y V )(__
sys y V ---=2)1(S N N 2)1(wsy S N n k -2
1S n
f --
--=2)1(S N N 2S Nn n N -2
)1(wsy S N n k --
--=2)(S N n N N 2
)1(wsy S N n k -
--=2S N k N 2)1(wsy S N n k -)()1(2
2wsy S S N
n k --=
立即可得到当且仅当22
S S wsy >时,系统抽样优于简单随机抽样。
第3题
解:⑴[]7.5740=⎥⎦
⎤
⎢⎣⎡=⎥⎦⎤⎢⎣⎡=n N k ,k 取最接近于5.7而不大于5.7的整数5,则将
该班同学编号1~40,随机起点r=5,则该样本单元序号为5,10,15,20,25,30,35。
⑵35=N ,7=n ,5==n
N
k 。
Sethi 对称系统抽样:5=r ,入样单元为:5,6,10,16,15,26,20
Singh 对称系统抽样:由于n 为奇数,则从两个断点开始分层,最后
中间的半层取中间位置的单元,5=r ,入样单元为:5,31,10,26,15,21,18
第4题
解:由题,N=360,k=8,则n=N/k=45
取()()1 451Y 0 451rj r j r j -+⎧⎪=⎨-+⎪⎩第号住户的户主为汉族
第号住户的户主不为汉族
,
1,2,,8r =,1,2,,45j =,
总体均值0.1972Y =
总体方差()
2
845
2
11
1Y 0.15881rj r j S Y N ===-=-∑∑
平均样本内方差()21
S 0.13430.21010.176840.20.16360.17698
r ∙=
++⨯++= 则:()
22
1(1)S 0r sy N k n V y S N N
∙--=-≈
运用简单随机抽样:n=45,450.125360f ==,()
2
10.0031sys f V y S n
-== 显然:()()
sys sy V y V y >,说明等距样本的精确度较简单随机样本的精确度要高。
第5题
答:⑴欲估计汉族所占比例,选择第⑴种系统抽样的方法好。
按照题给条件排
序,在户口册中每5人中抽1人,且平均每户有5口人,分布较均匀,且如此抽样,每户人家基本均有1人入样。
⑵男性所占比例与孩子所占比例。
采用简单随机抽样的方法较合适,因为
按题条件排序后,采用等距抽样,若抽得初始单元为1,则男生比例为1,孩子比例为0,如此,则有较大误差。
第6题
解:取Y rj =⎩
⎨⎧特征个单元不具有所研究的第群,若总体中第征个单元具有所研究的特
第群,若总体中第j r j r ""0""1
则总体比例P 的简单估计量为^
P =P=sy n
j rj y y n __
1
1=∑=,即对总体比例的估计可
化成对总体均值的估计。
① 估计男性所占比例:则,取Y rj =⎩⎨⎧,其他个单元为男性
第群,第0""1j r
由题意,系统抽样 K=5,n=10,则所有可能样本如下表:
总体均值__Y 48.01
5110
1
==
∑∑==r j rj
Y
N
总体方差S 2547.0)(11512__
10
1
2
=--=∑∑==r j rj Y Y N , 平均群内方差2489.05151
2
2.==∑=j rj r
S S
以行为“系统样本”的系统抽样:k=5,n=10
0256
.002559.0)1(1)1(1)(2
.222__
≈=---=---=r wsy sy S N
n k S N N S N n k S N N y V
简单随机抽样:n=10,f=20%=0.2 0256.00204.02547.010
2
.011)(2__
<≈⨯-=-=S n f y V
)()(__
__
y V y V sy >,说明简单随机抽样精度较高。
② 估计孩子所占比例:取Y rj =⎩⎨⎧,其他个单元为小孩
第群,第0""1j r
由题意,系统抽样:k=5,n=10,则所有可能样本如下表:
总体均值__
Y 48.01
5
110
1
==
∑∑==r j rj
Y
N
总体方差S 2547.0)(11512__
10
1
2
=--=∑∑==r j rj Y Y N 平均群内方差2134.05151
2
2.≈=∑=j rj r
S S
以行为“系统样本”的系统抽样:k=5,n=10
0576.0)1(1)1(1)(2
.222__
≈---=---=r wsy sy S N
n k S N N S N n k S N N y V
简单随机抽样:n=10,f=20%=0.2 0256.00204.02547.010
2
.011)(2__
<≈⨯-=-=S n f y V
)()(__
__
y V y V sy >,说明简单随机抽样精度较高。
③ 估计具体某种职业的住户人员的比例:取Y rj =⎩⎨⎧,不满足条件,满足条件
01
由题意,系统抽样 K=5,n=10,则所有可能样本如下表:
总体均值__
Y 38.01
5
110
1
==
∑∑==r j rj
Y
N
总体方差S 2404.0)(11512__
10
1
2
=--=∑∑==r j rj Y Y N 平均群内方差26.05151
2
2.≈=∑=j rj r
S S
以行为“系统样本”的系统抽样:k=5,n=10
0016.0)1(1)1(1)(2
.222__
≈---=---=r wsy sy S N
n k S N N S N n k S N N y V
简单随机抽样:n=10,f=20%=0.2 0016.001923.01)(2
__
>=-=S n
f y V
)()(__
__
y V y V sy <,说明系统抽样精度较高。
第7题
解:①由题,N=15,n=3,直线等距抽样k=⎥⎦
⎤
⎢⎣⎡n N =5,则所有可能样本如下:
总体均值__
Y 81
1
==
∑=N
i i
Y
N
总体方差S 20)(1121
__
2
=--=∑=N
i i Y Y N 平均样本方差255151
2
2.==∑=i ri r
S S
则以直线等距抽样:
2)1(1)1(1)(2
.222__
=---=---=r wsy sy S N
n k S N N S N n k S N N y V
简单随机抽样:n=3,f=N
n
=1/5=0.2
23334.51)(2
__
>=-=S n
f y V
)()(__
__
y V y V sy <,说明直线等距抽样的精度较高。
②由题,要求抽样间距k=4,n=3,nk=12<15 ∑==n
i i sy
y n y 1
__
1 ∑∑∑∑∑∑=======>===k r k r n
j rj
n j rj k r r k r r sy Y y
N
y nk y k k y y E 11__
111__1
__
__
1
11)1()(
所以样本均值不是总体均值的无偏估计。
当nk=N 时,∑∑∑∑=====
k r k r n
j rj
n j rj y
N
y nk 111
11
1, __
__
)(Y y E sy =。
即当nk=N 时,样本均值为总体均值的无偏估计。
第8题
解:由题,N=30,k=5,则n=30/5=6
则按照所给顺序等距抽样,可能样本如下:
由上表数据可得:
总体方差()
2
562
11
1Y 11.85751rj r j S Y
N ===-=-∑∑ 平
均样
本
内
方
差
()21
S 17.46677.4667 6.566711.466718.966712.38675
r ∙=
++++= 则:()
22
1(1)S 1.14r sy N k n V y S N N
∙--=-=
第七章(仅供参考)
1、根据题中所给表格,可计算各层的权重:
17.050085'1==w 25.0500125'2==w 28.0500140'
3==w
22.0500110'4==w 08.050040'
5==w
(1)根据式(7.1),可得该县棉花平均种植面积为:
8
4101
08.022560722.028442328.025180625.01749017.01
'
⨯+⨯+⨯+⨯+⨯
==∑=L
h h h stD y w y 27.164=
该县共有2000个村,帮全县的棉花种植总面积为:
32854027.1642000=⨯==stD y N Y
(2)根据式(7.4),stD y 的方差估计为:
∑∑==--+-=L h stD h h L
h h h h h
stD y y w N n s w n n y v 12'
'12'')()11()11()(
由公式 ∑∑==--=--=h h n j n j h hj h h hj h h y n y n y y n s 11
2
2)(11)(11,由表中数据可得: 6544
.901=s
7733
.1952=s
6773
.13353=s
5519.8554=s
1429.143345=s
第一项:
7733.19525.0)125
1251(6544.9017.0)851171()11(
21
22''⨯⨯-+⨯⨯-=-∑=L
h h h h h s w n n 1864
.141429.1433408.0)40
181(5519.85522.0)1101221(6773.133528.0)1401281(
2
22=⨯⨯-+⨯⨯-+⨯⨯-+ 第二项: 9705
.16760]
)27.1648
4101
(08.0)27.164225607(22.0)27.16428
4423(28.0)27.164251806(25.0)27.16417490(17.0[)200015001()()11(222221
2'
'=-⨯+-⨯+-⨯+-⨯+-⨯⨯-=--∑=L h stD h h y y w N n 因此 1569.167759705.167601864.14)(=+=stD y v
该县种植总面积的抽样标准误差估计为
8883.259037)()()(==∙=stD stD y v N y s N Y s
2、解:本题首先对22
2
21,,S S S 进行估计 由于比例估计的方差 )1(1
2P P N N
S --=
故我们可以取 )1(2P P S -≈进行估计。
根据题意知:5.021==W W 2.01=P 8.02=P 25.01=c 102=h c 故总体比例 5.02211=+=P W P W P 从而: 16.08.02.0)1(1121=⨯=-=P P S
16.02.08.0)1(222
2
=⨯=-=P P S 25.05.05.0)1(2=⨯=-=P P S (1)根据式(7.10)及式(7.7)
⎪
⎪
⎪⎩
⎪⎪⎪⎨⎧+='
-=∑∑==L h hD h h T L
h h h h h hD f W c c C n S W S c c S f 121*1
2221)
(
由题意有元)(300*
=T C
代入上式有 2108.0)
16.025.0(1025
.016.0=-⨯⨯
=1D f
2108.0)
16.025.0(1025
.016.02=-⨯⨯
=D f
1272)
22108.05.010(25.0300
=⨯⨯⨯+=
'n
1345.012722108.011111=⨯⨯='='
=W n f n f n D D 1345.012722108.022222=⨯⨯='='
=W n f n f n D D
此时 ∑=-'+-'=L h hD h h stD f n S W S N n P V 1
2
2)11
()11()(,依题意
由于N n N N S '<=25.02,而N
n '
忽略不计,故N S 2亦可忽略不计 故 ∑=-'+'≈L
h hD h h stD f n S W n S P V 1
22)11
()(
2)]12108
.01
(127216.05.0[127225.0⨯-⨯⨯+=
000667462.0=
(2)不分层的简单随机抽样,样本量为268=n
000932835.05.05.0268
1
)1(1)1(111)(=⨯⨯=-≈---=
P P n P NP N n f P V 因此二重分层抽样比不分层的简单随机抽样效率高。
(3)略
3、解:由题知,602='x ,由表,计算 25.568=y ,5833.568=x ,9994.0ˆ=R
89.2788362
=y s ,86.2561542=x
s ,02.256262=yx s 所以,该地区年末牛的总头数估计为:
头)(1.7448396025833
.56825.5681238ˆ=⨯⨯='==x x y N y N Y RD
RD 根据式(7.15),RD
Y ˆ的方差估计为: )]2ˆ)(11(1[)()()ˆ(22222yx
x y RD RD RD Rs s R n n s n N y v N y N v Y v -'
-+≈==
86.2561549994.0)(5001
241(2489.278836[123822⨯-+⨯≈
)]02.2562629994.02⨯⨯- 2220650080=
所以RD Y ˆ的标准差为7740.47123)ˆ(=RD
Y v 。
4、解:(1)根据式(7.10)及式(7.7) ⎪
⎪
⎪⎩
⎪⎪⎪⎨⎧+='
-=∑∑==L h hD h h T L
h h h h h hD f W c c C n S W S c c S f 121*1
2221)
(
代入数据计算得: 1329.0)]
922214.0312786.0(620[1001
7.171=⨯+⨯-⨯⨯
=D f
2282.0)]
922214.0312786.0(620[1001
4.302=⨯+⨯-⨯⨯
=D f
612)
2282.0214.011329.0786.01(01.0100
=⨯⨯+⨯⨯+=
'n
64786.06121329.011111=⨯⨯='='
=W n f n f n D D 30214.06122282.022222=⨯⨯='='
=W n f n f n D D
此时, ∑=-'+-'=L h hD
h h stD f n S W S N n y V 12
2)11
()11()(
]12282.01620922214.011329.01620312786.0[612620⎪⎭
⎫
⎝⎛-⨯⨯+⎪⎭⎫ ⎝⎛-⨯⨯+≈
6700.4≈
(2)略
5、解:由题意可知
3001=n 2002=n 62=m
由式(7.21) 33.95911
)
1)(1(~21=-+++=m n n N
由式(7.22)
7.782262
63138238201301)2()1())()(1)(1()~
(2
22121≈⨯⨯⨯⨯=++--++=m m m n m n n n N v 6、解:(1)由题意 71=n 122=n 4=m
由式(7.21) 8.1911
)
1)(1(~21
=-+++=m n n N 由式(7.22)
64.166
583138)2()1())()(1)(1()~
(2
22121=⨯⨯⨯⨯=++--++=m m m n m n n n N v 其95%的置信区间为 )~
(96.1~N v N ± 即 )64.24,64.8( (2)由题意 161=n 192=n 11=m
由式(7.21) 33.27112
201711)
1)(1(~21
=-⨯=-+++=m n n N 由式(7.22)
26.713
12852017)2()1())()(1)(1()~
(2
22121=⨯⨯⨯⨯=++--++=m m m n m n n n N v 其95%的置信区间为 )~
(96.1~N v N ± 即 )03.30,63.24( (3)
○
1、总体是封闭的——两次抽样间没有人进入或离开湖心塘地区。
○
2、每个样本都是来自总体的简单随机抽样。
即湖心塘地区的每一个人都有同样的机会被找到。
○
3、两个样本是独立的。
即第一次找到的人混合到了湖心塘地区后,跟
第二次被找到的概率没有关系。
○4、不会丢失人找到过的人的信息。
7、(1)略
(2)由题意 由式(7.21) 11
)
1)(1(~21-+++=m n n N
由表中数据4511=n 1521=n 21=m 代入公式得
33.244~
1=N
同理有
95~2=N 48~3=N 5.79~4=N 5.44~5=N 114~6=N 67.41~
7=N
5.30~8=N 33.62~9=N 159~10=N 5.31~11=N 4~12=N 35~
13=N
3~14=N 3~15=N 1~
16=N
(3)累积所有年份的数据,有2631=n 932=n 19=m
代入公式,有8.123911
19)
193()1263(~=-++⨯+=N
(2)中得到的1970-1985年间的先天性风疹的总病例数为33.996~
~16
1
=='∑=i i N N
(4)略。