(完整版)抽样调查期中习题(答案)重点讲义资料
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《抽样调查 》期中习题
一、 选择题
1. ( B ) 是总体里最小的、不可再分的单元。
A.抽样单元
B.基本单元
C.初级单元
D.次级单元 2. 抽样调查的根本功能是( C )
A. 获取样本资料
B. 计算样本资料
C . 推断总体数量特征 D. 节约费用
3. 概率抽样与非概率抽样的根本区别是( B )
A.是否能保证总体中每个单位都有完全相同的概率被抽中
B.是否能保证总体中每个单位都有事先已知或可以计算的非零概率被抽中
C.是否能减少调查误差
D.是否能计算和控制抽样误差
4. 与简单随机抽样进行比较,样本设计效果系数Deff >1表明( A ) A.所考虑的抽样设计比简单随机抽样效率低 B.所考虑的抽样设计比简单随机抽样效率高 C.所考虑的抽样设计与简单随机抽样效率相同 D.以上皆错。
5. 优良估计量的标准是( B )
A.无偏性、充分性和一致性
B.无偏性、一致性和有效性
C. 无误差性、一致性和有效性
D. 无误差性、无偏性和有效性
6.抽样标准误差的大小与下列哪个因素无关( C ) A .样本容量 B .抽样方式、方法 C .概率保证程度 D .估计量
7. 抽样标准误差与抽样极限误差之间的关系是( B ) A.θ
θ
)ˆ(SE =
∆ B.)ˆ(θtSE =∆ C.θθ)ˆ(tSE =∆ D.t
SE )ˆ(θ=∆
8. 应用比率估计量能使估计精度有较大改进的前提条件是调查变量与辅助变量之间大致成
( A )关系
A.正比例
B.反比例
C.负相关
D.以上皆是
9. 能使)2(1)(2
22YX X Y lr S S S n
f y V ββ-+-=达到极小值的β值为( B )
A.YX X Y S S S ⋅
B.2X YX S S
C.2Y YX
S S D.X
YX S S 2
10. 某县欲估计今年的小麦总产量,已知去年的总产量为12820吨,全县共123个村,抽取13个村调查今年的产量,得到63.118=y 吨,这些村去年的产量平均为21.104=x 吨。
用比率估计方法估计今年该地区小麦总产量为( B ) 。
A.12820.63
B.14593.96
C.12817.83
D.14591.49
11. 在要求的精度水平下,不考虑其他因素的影响,若简单随机抽样所需要的样本量为300,分层随机抽样的设计效应deff=0.8,那么若想达到相同的精度,分层随机抽样所需要的样本量为( C )。
A.375
B.540
C.240
D.360
12. 抽样框最直接反映的是( C )
A.目标总体
B.实际总体
C.抽样单元
D.基本单元
13. 在给定费用下使估计量的方差达到最小,或者对于给定的估计量方差使得总费用达到最小的样本量分配为( C )
A. 常数分配
B.比例分配
C. 最优分配
D.梯次分配
14. 分层抽样也常被称为( D )
A.整群抽样
B.系统抽样
C.组合抽样
D.类型抽样
15. 非概率抽样与概率抽样的主要区别为( D )
A. 适用的场合不同
B. 总体特征值的估计不同
C. 样本量的确定不同
D. 抽样时是否遵循随机原则
16. 分层抽样中的层的划分标准为( B )。
A.尽可能使层间的差异小,层内的差异大
B.尽可能使层间的差异大,层内的差异小
C.尽可能使层间的差异大,层内的差异大
D.尽可能使层间的差异小,层内的差异小
二、判断题
×1.总体比率与总体比例两者是一样的概念,只是符号不同。
()
√2.比估计量是有偏估计量。
()
×3.分层抽样在划分层时,要求层内差异尽可能大,层间差异尽可能小。
()
×4.对于同一总体,样本容量同抽样标准误差之间是正相关关系。
()
C。
()×5.设总体容量为N,样本容量为n,采用有顺序放回简单随机抽样,样本配合种数为n N
×6.一个调查单位只能对接与一个抽样单位。
()
√7. 营业员从笼中抓取最靠近笼门的母鸡,该种抽样方式属于非概率抽样。
()
√8. 当调查单位的抽样框不完整时,无法直接实施简单随机抽样。
()
√9 分层抽样不仅能对总体指标进行推算,而且能对各层指标进行推算。
()
×10 分层的基本原则是尽可能地扩大层内方差,缩小层间方差。
()
√11 分层抽样的效率较简单随机抽样高,但并不意味着分层抽样的精度也比简单随机抽样高。
()
√12 分层抽样克服了简单随机抽样可能出现极端的情况。
()
√13 分层抽样的样本在总体中分布比简单随机抽样均匀。
()
×14 分层后各层要进行简单随机抽样。
()
√15 分层抽样的主要作用是为了提高抽样调查结果的精确度,或者在一定的精确度的减少样本的单位数以节约调查费用。
()
√16 分层后总体各层的方差是不同的,为了提高估计的精度,通常的做法是在方差较大的层多抽一些样本。
()
√17 在不同的层中每个单位的抽样费用可能是不等的。
()
×18 在分层抽样的条件下,样本容量的确定与简单随机抽样的共同点都是取决于总体的方差。
()
√19 有时在抽样时无法确定抽样单位分别属于哪一层,只有在抽取样本之后才能区分。
()
×20 比例分配指的是按各层的单元数占样本单元数的比例进行分配。
()
√21 所谓最优分配是指给定估计量方差的条件下,使总费用最小。
( )
√22 在奈曼分配时,如果某一层单元数较多,内部差异较大,费用比较省,则对这一层的样本量要多分配一些。
( )
√23 在实际工作中如果第k 层出现kn 超过kN ,最优分配是对这个层进行100%的抽样。
( ) √24 在实际工作中,如果要给出估计量方差的无偏估计,则每层至少2个样本单元,层数不能超过n/2。
( )
×25 无论层的划分与样本量的分配是否合理,分层抽样总是比简单随机抽样的精度要高。
( ) ×26 即使层权与实际情况相近,利用事后分层技术也难以达到提高估计精度的目的。
( ) ×27.在任何条件下,估计量的方差都与估计量的均方差相等,因此一般所讲的估计误差也就是指估计量的方差。
( )
×28.估计抽样误差时,在各种抽样技术条件下都可以用样本方差代替总体方差。
( ) ×29.比估计就是比例估计。
( )
×30.比估计与回归估计都充分利用了有关辅助变量,因此一般情况下都较简单估计的精度要高。
( )
三、名词解释 1. PPS 抽样 2. 概率抽样 3. 不等概率抽样
4. PS π抽样的Brewer 方法
四、计算题
1、(简单随机抽样的均值、比例估计和样本量的确定)某住宅区调查居民的用水情况,该区共有N =1000户,调查了n =100户,得y =12.5吨,2
s =1252,有40户用水超过了规定的标准。
要求计算: ○1该住宅区总的用水量及95%的置信区间; ○2若要求估计的相对误差不超过10%,应抽多少户作为样本? ○3以95%的可靠性估计超过用水标准的户数;
○
1估计该住宅区总的用水量Y 为:
ˆY=Ny=100012.5=12500⨯
估计该住宅区总的用水量Y 的方差和标准差为:
22221-f 10.1ˆv(Y)=N v(y)=N s 10001252=11268000
n 100ˆ3356.7842-=⨯⨯=≈
因此,在95%的置信度下,该住宅总的用水量的置信区间估计为:
ˆˆY
ts(Y)=125001.963356.7842125006579±±⨯≈± 即,我们可以以95%的把握认为该住宅总的用水量在 5921吨~19079吨之间。
○2根据题意,要求估计的相对误差不超过10%,即r ≤0.1,假定置信度为95%
根据公式:22202222
t s 1.961252
n 3078r y 0.112.5⨯==
≈⨯ 由于
n 3.0780.05N =>,所以需要对0n 进行修正: 00n 3078
n = 755n 1+3.0781N
=≈+
若要求估计的相对误差不超过10%,应抽不少于755户作为样本。
○3以95%的可靠性估计超过用水标准的户数;
令超过用水标准的户数为A ,样本中超过用水标准的户数为a = 40,估计超过用水标准的比例P 为:
a 40p = 40%
n 100==
估计超过用水标准的比例P 的方差和标准差为:
1f 10.1
v(p)pq 40%60%0.002182n 11001
s(p) 4.67%
--=
=⨯⨯≈--==≈
在95%的可靠性下,超过用水标准的比例P 的估计区间为: p ts(p)40%1.96 4.67%±=±⨯
因此,我们有95%的把握认为,超过用水标准的比例P 在30.85%49.15%之间,超过用水标准的户数的点估计为:100040%400⨯=户,超过用水标准的户数在100030.85%⨯户~100049.15%⨯户之间,即309户~492户之间。
2、
设1000=n
○1采用按比例分层抽样的方法估计Y 和P 并计算其标准误; ○2采用奈曼分配的方法估计Y 和P 并计算标准误;
解:○1根据题中已知条件,采用按比例分层抽样的方法估计Y 为: L
st h h h 1y W y 0.35 3.10.55 3.90.17.8 4.01===⨯+⨯+⨯=∑
估计Y 的方差和标准误差为:
L
2222st h h h 1
st 1f
1
v(y )W S (0.3520.55 3.30.111.3)0.0201585n 1000s(y )0.141981
=-=
≈
⨯+⨯+⨯≈=≈∑
估计P 及其方差和标准误差为:
L
prop h h h 1
L prop h h h
h 1prop p W p 0.350.540.550.390.10.240.4275
1f 1
v(p )W p q (0.350.540.460.550.390.610.10.240.76)0.000218n 1000s(p )0.014765
====⨯+⨯+⨯=-≈≈⨯⨯+⨯⨯+⨯⨯≈==≈∑∑ ○2采用Neyman 分配的方法估计Y 和P 的方法和与○1是一样的,即
L
st h h h 1
L
prop h h h 1
y W y 0.35 3.10.55 3.90.17.8 4.01p W p 0.350.540.550.390.10.240.4275
====⨯+⨯+⨯===⨯+⨯+⨯=∑∑
但是采用Neyman 分配估计Y 和P 的方差的方法不同,分别为:
L L 22
2st h h h h h 1h 1st L
2prop h 1prop 111v(y )(W S )W S (0.3520.55 3.30.111.3)0.013286
n N 1000s(y )0.115265
11v(p )(W (0.350.550.10.000236
n 1000s(p )====-≈⨯+⨯+⨯≈==≈≈≈∑∑
∑0.015362
=≈
3、(比率估计)某养兔场共有100只兔子,上月末称重一次对每只兔的重量
○2估计现有兔子的平均重量及其标准误差; ○3将比估计方法与均值估计法进行比较,哪一种方法效率高?分析其原因。
解:○1已知:N = 100 ,n = 10 ,设X ,Y 分别代表上月兔子总重量和本月兔子总重量,则
X = 3.1,n 10
f = 0.1N 100
==。
由表中数据可得:
1010
i i i=1i=1102
2y i i 110
22
x i
i 1
10
yx i i i 1
11y = y 4 x = x 2.97
10101s (y y)0.022210-11s (x x)0.024610-11s (x x)(y y)0.015
10-1======-≈=-≈=--=∑∑∑∑∑, 因此,对这批兔子较上月末增重的比率估计为: y 4ˆR =
1.3468x
2.97
=≈ ˆR
方差的估计为: 2222y x yx 22
1f 10.1ˆˆˆv(R)(s R s 2Rs )(0.0222 1.34680.02462 1.34680.015)0.0002474nX 10(3.1)
--≈+-=+⨯-⨯⨯≈⨯ˆR 标准误差的估计为:
ˆ0.015729=≈ ○2对现有兔子的平均重量的比率估计为:
R ˆy = RX=1.3468 3.1 4.17508⨯=
R y 方差的估计为:
2222R y x yx
1f 10.1ˆˆv(y )(s R s 2Rs )(0.02221.34680.024621.34680.015)0.0023775n
10
--≈+-=+⨯-⨯⨯≈ R y 标准误差的估计为:
R s(y 0.04876≈ ○3对现有兔子的平均重量的均值估计为:
10
i i=1
1y = y 410=∑
y 方差的估计为: 2y 1f 10.1
v(y)s 0.02220.001998n 10
--=
≈⨯=
因此,得到现有兔子平均重量的比率估计量设计效应的估计为:
R v(y )0.0023775
ˆdeff =
=1.1899v(y)0.001998
≈ 对于本问题,均值估计方法的效率比比率估计方法的效率要高。
原因是:比率估计是有偏的,
当样本量足够大时,估计的偏倚才趋于零,而本问题中的样本量较小,使用比率估计量时不能忽视其偏倚,所以无法保证估计的有效,使得估计效率比均值估计方法的效率低。
4、对某地区171980户居民家庭收入进行调查,以居民户为抽样单位,根据城镇和乡村将居
试根据此估计:
(1)居民平均收入及其95%的置信区间。
(2)若是按比例分配和奈曼分配时,各层样本量分别应为多少?
解:(1) 由题中相关数据资料:元)(39.105852
1≈⋅=∑=h h h st y W y
(元)
3082.166057364.160595718.545)1()(2
2
12
=+≈⋅-⋅=∑=h
h
h h h
st n S f W y v 户),元/(86.128)(≈st Y se 96.1=t
该地区居民平均收入的95%的置信区间为:
元)96.10837,82.10332()(→⋅±st st Y se t Y
(2)按比例分配:
户)(82137.060011=⨯=⋅=W n n 户)(518863.060022=⨯=⋅=W n n
按奈曼分配:
∑=⋅⋅⋅
=L
h h
h
h
h h S W
S W n n 1
由表中资料:362.2604,198.2197,164.407,6002
1
2211====∑=h h h S W S W S W n
由上可得根据奈曼分配,各层所需样本容量为:
94362
.2604164
.4076001≈⨯
=n
506362
.2604198
.21976002≈⨯=n
5、某工厂生产的新产品供应国内市场的300家用户,试销售滿一年后,现欲请用户对该厂的
若要求估计评价成绩均值的方差1.0)(=st y V ,并且费用最省(假定费用为线性形式),求样本量n 在各层的分配。
解:()∑∑∑+=222))(/(i i st i i i i i i N y S N C N C N n σσσ=2806.2754.81990004.210238.126≈=+⨯
()∑∑+2
2
2
)/(i
i st i i i N y S
N C N σ
σ
∑)/(i i i C N σ=
38.1266
8
.15358.19335.1154=⨯+⨯+⨯ ∑)i i
i
C N σ
=4.21026*8.1*535*8.1*933*5.1*154=++
()st y S N 22=90001.030022=⨯
∑2
i
i
N σ
=54.81924.3*5324.3*9325.2*154=++
17059.1738
.12677
28)
//1
111≈=⨯
==∑i i
i
C N C N n
n σ
σ
742.738
.12648
.3328)
//2
222≈=⨯
==∑i i
i
C N C N n
n σ
σ
4523.338
.1269
.1528)
//3
333≈=⨯
==∑i i
i
C N C N n
n σ
σ
即各层的样本量分别为17、7、4
6、 一个县内所有农场按规模大小分层,各层内平均每个年农场谷物(玉米)的英亩数列在下
现要抽出一个包含100个农场的样本,目的是估计该县平均每个农场的玉米面积,请问: (1)按比例分配时,各层的样本量为多少?
(2)按最优分配时,各层的样本量为多少?(假定各层的单位调查费用相等) 解:(1)比例分配:
根据表中所给的数据,利用公式h h N
n n N
=直接可计算出各层样本量:
123456720,23,19,17,8,6,7n n n n n n n =======
(2)最优分配:
当各层的单位调查费用相等时,最优分配样本量计算公式为:
1
h h
h L
h
h
h N S n n N S
==⋅
∑
同样将表中的相关数据代入公式即可求出此时各层的样本量为:
123456710,18,17,19,12,9,15n n n n n n n =======
7、 某县欲调查某种农作物的产量,由于平原、丘陵和山区的产量有差别,故拟划分为平原、丘陵和山区三层采用分层抽样。
平原区共有150个村庄,丘陵区共有100个村庄,山区共有250个村庄。
按照各种地形等比例各抽取5%样本,进行实割实测产量,结果计算如下表。
(1)在95%的概率保证程度下,试估计该县农作物平均每村产量的区间范围。
(2)
若村庄的农作物产量低于150吨,县政府并将其归为低产量村,从而对其加强农业补贴政策。
样本方差:5.337424
1235.47584.3672.822222
2
=⨯+⨯+⨯==
∑∑i
i i n
n σσ
抽样平均误差56.11%)51(24
5.3374)1(2
=-=-
=
N n n
u x σ 概率保证程度为95.45%,可查表获得t=1.96,12.2356.112=⨯==∆x x tu
在95.45%的概率保证程度下,可得该县农作物平均每村产量的置信区间为(150.24-23.12,
150.24+23.12)。
(2) 样本成数%67.4112
577
12=++++=p
样本方差
21.024121251275545177572)1()1(=⨯⨯+⨯⨯+⨯⨯=-=-∑∑i
i i i n n p p p p
抽样平均误差%12.9%)51(24
21.0)1()1(=-=--=
N n n p p u p 概率保证程度为95.45%,可查表获得t=1.96,%24.18%12.92=⨯==∆x x tu 在95.45%的概率保证程度下可得该县低产量村比例的置信区间为(41.67%-18.24%,
41.67%+18.24%)。