第六章 二重抽样(抽样调查理论与方法
其他抽样方法
其他抽样方法一、二重抽样二重抽样是指在抽样时分两步抽取样本,每一步抽取一个样本。
一般情况下,先从总体N 中抽取一个较大的样本n ',称为第一重样本,对之进行调查以获得总体的某些辅助信息,为下一步的抽样估计提供条件。
然后进行第二重抽样,第二重抽样所抽的样本n 相对较小,但是第二重抽样调查才是主调查。
一般地,第二重样本是从第一重样本中抽取的,即第一重样本的子样本,但是有时也可以从总体中独立抽取。
二重抽样与两阶段抽样在概念上很容易引起混淆。
虽然二者都可以被视为分阶段抽样方法,但是二重抽样与两阶段抽样的差异还是很显著的。
首先,两阶段抽样是先从总体N 个单元(初级单元)中抽出n 个样本单元,却并不对这n 个样本单元中的所有小单元(二级单元)都进行调查,而是在其中再抽出若干个二级单元进行调查;二重抽样则不同,要对第一重样本进行调查以获取总体的某些辅助信息,并且要利用这些辅助信息进行排序、分层、抽样或估计。
其次,两阶段抽样的第一阶段抽样单位和第二阶段抽样单位往往是不同的,比如第一阶段抽样单位是居委会,第二阶段抽样单位是住户;而二重抽样的第二重样本则往往是第一重样本的子样本,两次抽样的单位是相同的。
二、分层的二重抽样进行分层抽样有一个前提,即需要将总体N 个单元划分为L 个互不重叠的层,而且需要知道各层的权重NN W hh =。
如果事先无法知道总体的权层,则可采用二重分层抽样方法。
1、符号说明用下标h 表示层数,L h ,,2,1 =h N :总体第h 层的单元数;总体单元数∑==Lh h N N 1hn ':第一重样本第h 层的单元数;第一重样本单元数∑='='Lh h n n 1 h n :第二重样本第h 层的单元数;第二重样本单元数∑==Lh h n n 1N N W h h =:总体单元第h 层的权重;n n w h h''=':第一重样本第h 层的权重 hhhD n n f '=:第二重样本第h 层的抽样比,10≤<hD f hj y :第二重样本第h 层j 单元的观测值,L h n j h ,,2,1;,,2,1 ==∑==hn j hjhh yn y 11:第二重样本第h 层样本单元的平均数2S :总体方差;2h S :第h 层的总方差;2hs ':第一重样本第h 层方差 ∑=--=hn j h hj h hy y n s 122)(11:第二重样本第h 层方差 2、抽样方法第一步:利用简单随机抽样,从总体的N 个单位中随机抽取第一重样本,样本单位数为n ';根据已知的分层标志将第一重样本分层,令nn w hh''='L h ,,2,1 =,则hw '是总体权层h W 的无偏估计。
抽样调查-二重抽样(课件类别)
课件精选
返回 2
§9.2 为分层的二重抽样
分层抽样是一种应用广泛的抽样方程,但进行分层抽 样有一个前提,即需要将总体N个单元划分为L个互不重 叠的层,而且需要知道各层的权重。如果事先无法知道 总体的层权,可以采用二重抽样方法。
一、符号说明
用下标h表示层数,h 1,2,, L
L
总体第h层的单元数: Nh
L
ystD wh yh 0.54 2 0.32 7 0.1015 0.04 40
h1
6.42 (百万元)课件精选
返回 9
该银行共有8000个客户,故全部客户资产总额为:
Y N ystD 8000 6.42 51360 (百万元)
y stD 的方差估计为:
性质3 y stD的样本估计量为:
L
v( ystD )
h1
(1 nh
1 nh
)wh 2sh2
(1 n
1 N
L
)
h1
wh
(
yh
y stD
)2
式中,v( ystD )为V ( ystD ) 的近似无偏估计;sh2为第二重样
本第h层方差。
课件精选
返回 7
【例9.1】某银行要调查其客户的资产情况,已知该银
j 1,2,, nh;h 1,2,, L
第二重样本第h层样本单元的平均数: yh 总体方差:S 2 ,第h层的课总件精体选方差: Sh2
1 nh
nh
yhj
j 1
返回 4
第一重样本第h层方差:sh 2
第二重样本第h层方差:sh2
1 nh 1
第6章抽样设计
第四节 抽样误差与样本量
• 一、调查误差的概念与种类 • 调查误差是指调查的结果和客观实际情况的出入和差数。
一般有两种误差存在, 即非抽样误差和抽样误差。 • 非抽样误差是基于抽样之外的许多其它原因而产生的误差。
• 抽样误差是指一个样本的测定值与对该变量真值之间的差 异,抽样误差无特定偏向,其误差大小主要受以下三个因 素影响:
• 单位顺序的排列方式有两种: 一种是排列顺 序与调查项目无关。另一种是按与调查项 目有关标志排队。
• 三、分层抽样
• 分层抽样又叫类型抽样, 它是先将总体 所有单位按某一重要标志进行分类(层), 然后再各类(层)中采用简单随机抽样或 等距抽样方式抽取样本单位的一种抽样方 式。
• 分层抽样比简单随机抽样和机械抽样更 为精确, 能够通过对较少的抽样单位的调查, 得到比较准确的推断结果, 特别是当总体较 大、内部结果复杂时, 分层抽样常能取得令 人满意的效果。同时, 分层抽样在对总体推 断的同时, 还能获得对每层的推断。
• (二)特点
• 与全面调查相比,抽样调查具有以下三个 显著特点:
• 1、经济
• 与全面调查相比,抽样调查的样本量大大 减少,从而可以显著地节约人力、物力和 财力。
• 2、高效
• 由于抽样调查只对总体中少量单位进行调 查,故能十分迅速地得到调查讨论。
• 3.准确
• 抽样调查是调查部分总体单位,数目较少,
• 第一,被研究总体各单位标志值的变异程度。 • 第二,抽样的样本量。 • 第三,抽样调查的组织方式。
• 二、样本量 • 在开始组织抽样调查之前,确定抽多少样本单位是个很重
要的问题。 • (一)影响样本量的因素 • 抽样调查的样本量取决于以下几个因素: • 1、被调查对象标志的差异程度 • 2、允许误差数值的大小 • 3、调查结果的可靠程度 • 4、抽样的方法 • 5.抽样的组织形式
第六章 二重抽样(抽样调查理论与方法-北京商学院 李平)
2
1 n s yx ( y2 j y )( x2 j x ) n 1 j 1
例6.2 某县共有200个村,现要估计去年全县平均每村交售肉 猪的头数。已知肉猪的交售头数与生猪年终存栏数之间有较高 的相关性,而存栏头数的资料容易取得。采用二重比估计的方 法,先抽取80个村作为第一重样本,得年终平均每村的生猪存 栏数为1080头。然后在这80个村中又选了13个村作为第二重样 本,分别统计了年终的存栏数和交售头数,资料见下表。
二重抽样的用途很多,以下对几个方面进行叙述。 当为了提高抽样效率,打算使用某些抽样或者估计方法, 但又不知道某些必要的辅助信息时,二重抽样可以发挥很大 作用。分层抽样需要事先将总体单元分成层,进行估计时需 要知道层权,在构造比估计或回归估计时要求知道辅助变量 的总体总和或均值。在缺少这种辅助信息的情况下,就可以 使用二重抽样先抽一个大样本以获取这些信息,然后再对较 小的第二重样本进行实际调查并利用第一重样本中所得信息 改善估计量的精度。这里有一个费用问题,一般情况下,第 一重抽样的费用应该是非常低廉的,由此而增加的费用可以 通过提高估计量的精度而得到益处进行补偿,否则采用二重 抽样就不值得了。 有时候,调查的总体只是一个大总体中的小总体,但我 们对这个小总体却知之甚少,甚至连小总体的单元数都不知 道。在这种情况下,就可以使用二重抽样,从总体单元中筛 选主调查的对象。
试估计该县去年全年平均每村交售肉猪的头数,并计算其标 准差。
村i
1 2 3 4 5 6 7 8 9 10 11 12 13
年终生猪存栏头数( x2 j )
550 720 1500 1020 620 980 928 1200 1350 1750 670 729 1530
(6.6)
chap6 二重抽样
易知每层的抽样比
h
nh nh'
L
nh n
h1
L
nh' n
h1
9.2.2估计方法
记yhj是第二重样本第h层第j单元的观测值,h=1,2,…,L;
j=1,2,…,nh,则第h层的平均数
yh
1 nh
nh h1
yhj
是第一重样本第h层平均数 yh 的无偏估计.
总体均值 Y 的二重分层抽样的估计量取为
s
2 y
,
sx2
,
s
yx
及其比值
Rˆ 分别代替上式中的
SY2
,
S
2 X
,
SYX
及R,得
v
yRD
1 n
s
2 y
1 n
1 n
^
R2
sx2
2 Rˆ s yx
【例2】(冯P169)
某县共有200个村,现欲估计去年全县平均每村 交售肉猪的头数,已知肉猪的交售头数与生猪年 中存栏头数之间有较高的相关,而存栏头数的资 料较容易取得。现采用二重比估计的方法,先抽 取80个村作为第一重样本,得年终平均每村的生 猪存栏数为1080头,然后在这80个村中又抽选13 个村作为第二重样本,分别统计了年终的存栏头 数和肉猪的交售头数数据如下表。试估计该县去 年全年平均每村交售肉猪的头数和估计量的标准 差。
h
1
h
1E1
wh Sh2
h
1 n
Wh
Sh2
1
h
1
06-第六章 二重抽样
ˆ ,有以下结果: 则对按二步抽样获得的估计量 q ˆ) = E é E (q ˆ) ù E (q 1ë 2 û ˆ) = V é E (q ˆ) ù + E éV (q ˆ) ù V (q 1ë 2 1ë 2 û û
(6.1) (6.2)
举例说明: 一个学院有三个班级, 每个班级有三名学生, 现在第一步抽取两个班级, 第二步从每个中选班级抽取两个学生来估计该学院平均每名学生的每周上 网时间。 二重抽样估计量期望与方差过程示意图 上网时间 可能的样本 样本均值 班级 (小时) 16 (16,14) x A1 = 15 A 14 24 18 15 B 7 11 11 (15,7) (15,11) (7,11) (16,24) (14,24)
2 (6.7)式右边第二项经展开为: 其中 S 是总体方差。
5
L é ù éL 2 ù ¢ y h ) ú = E1 ê å wh ¢ V2 ( y h ) ú E1 êV2 (å wh ë h=1 û ë h =1 û L é æ 1 1 öù ¢2 sh ¢2 ç - ÷ ú = E1 ê å wh h øû è nh n¢ ë h =1
(6.7)
上式左边的第一项应为
L é ù éL ù ¢ V1 ê E2 (å w¢ y ) V = h h ú 1 ê å wh E2 y h ú ë h =1 û ë h=1 û éL ù ¢ y h¢ ú = V1 ê å wh ë h =1 û = V ( y¢ )
( )
1
(6.8)
1- f 2 S n¢ æ1 1ö = ç - ÷S2 è n¢ N ø =
1
本以获取这些信息, 然后再对较小的第二相样本进行实际调查并利用第一重 样本中所得信息改善估计量的精度。 这中间有一个费用的问题。 一般情形下, 第一重抽样的费用应当是非常低廉的, 因为由此而增加的费用必须在因提高 估计量的精度而得益上得到补偿,否则采用二重抽样就不值得了。 4. 在一些连续性抽样调查中,同一单元不同时间的指标值往往存在相 关,利用这种相关采用回归估计可以提高精度。但是样本又不能一直不变, 因为长期使用同一样本单元会因厌倦情绪等原因影响调查质量。 为降低这种 样本老化所带来的负面影响通常采用样本轮换的方法。 二重抽样可以用来研 究样本轮换中的某些问题。 6.1.3 二步抽样估计量求均值与方差的一般公式 为研究二重抽样估计量的性质, 本小节我们给出二步抽样中对估计量求 均值(期望)与方差的一般公式。记 E2 、V2 为给定第一步抽样结果的条件 下对第二步抽样求均值与方差, E1 、 V1 则是对第一步抽样求均值与方差,
统计学第六章 抽样法
第六章 抽样法
序号
1 2 3 4
5 6 7 8
9 10 11 12
13 14 15 16 合计
样本变量x
40、40 40、50 40、70 40、80
50、40 50、50 50、70 50、80
70、40 70、50 70、70 70、80
80、40 80、50 80、70 80、80
-
x
x E(x)
总体
研究如何利用 样本数据来 推断总体特 征。
内容包括:参 数估计和假 设检验。
目的:对总体
特征作出推
样 本
断。
这是推断统计学研 究的问题
5
第六章 抽样法
描述统计与推断统计的关系
反映客观 现象的数
据
概率论
(包括分布理论、大 数定律和中心极限定
理等)
样本数
描述统计
推断统计
据
总体数 据
(统计数据的搜集 、整理、显示和分
13
第六章 抽样法
第二节 有关抽样的基本概念(2)
(二)抽样总体
也称子样,样本或样本总体,它是从全 及总体中随机抽取出来的,代表全及总体的 那部分单位的集合体。抽样总体的单位数称 为样本容量,用n表示,对于N来说,n是很 小的。
总体
样 本
14
第六章 抽样法
第二节 有关抽样的基本概念(3)
• 二 全及指标和抽样指标p.249 (一) 全及指标
研究总体中 的品质标志
总体成数 P N1
N
总体成数标准差 P
P1 P
17
第六章 抽样法
第二节 有关抽样的基本概念(5)
(二)抽样指标
抽样指标是由样本总体各单位标志值 或标志特征计算的综合指标,也称统计量。 与全及指标相对应有:样本平均数,样本 标准差;样本成数,样本成数的标准差。
第六章抽样调查习题答案
第六章抽样调查习题答案一、单项选择题1、 C2、 A3、 D4、 D5、C6、 D7、 C8、 A9、 D 10、A11、 D 12、 C 13、 B 14、 A 15、A16、 B 17、 B 18、 D 19、 A 20、A21、 A 22、 D 23、 D 24、 B 25、A二、判断题1、 CD2、 AE3、 BCD4、 ABDE5、ABD6、 AB7、 ABCD8、 AC9、 ABCD三、判断题1、×2、√3、√4、√5、√6、×7、√8、×9、√ 10、√11、× 12、√ 13、√ 14、× 15、×16、√ 17、√ 18、×四、填空题1、随机、部分、总体2、计算、控制3、重复、不重复4、大于5、点估计、区间估计6、增加到4倍、减少三分之二、减少四分之三 7、大样本、小样本 8、正、反五、复习思考题1、影响抽样误差的主要因素有哪些?答:影响抽样误差大小的因素主要有:(1)总体单位的标志值的差异程度。
差异程度愈大则抽样误差愈大,反之则愈小。
(2)样本单位数的多少。
在其他条件相同的情况下,样本单位数愈多,则抽样误差愈小。
(3)抽样方法。
抽样方法不同,抽样误差也不相同。
一般说,重复抽样比不重复抽样,误差要大些。
(4)抽样调查的组织形式。
抽样调查的组织形式不同,其抽样误差也不相同,而且同一组织形式的合理程度也会影响抽样误差。
2、什么是抽样调查?它有哪些特点?答:抽样调查是根据部分实际调查结果来推断总体标志总量的一种统计调查方法,属于非全面调查的范畴。
它是按照科学的原理和计算,从若干单位组成的事物总体中,抽取部分样本单位来进行调查、观察,用所得到的调查标志的数据以代表总体,推断总体。
(1)只抽取总体中的一部分单位进行调查。
(2)用一部分单位的指标数值去推断总体的指标数值(3)调查样本是按随机的原则抽取的,在总体中每一个单位被抽取的机会是均等的,因此,能够保证被抽中的单位在总体中的均匀分布,不致出现倾向性误差,代表性强。
第六章抽样
册和登记表(抽样框)就可进行。
• 其局限是,只适用于总体单位数量不多,且分布
较均匀的调查总体,即单位间差异性不大的研究
对象,否则将无法保证样本的代表性。
• 练习 请利用随机数表,从N=60总体中抽取15个样本。
系统抽样
• 系统抽样(等轴抽样、等距抽样、机械抽样): 把总体的单位进行编号排序,在计算出某中间隔, 然后按这个固定的间隔抽取个体的号码来组成样 本的方法。 • 基本和简单随机抽样一样,计算公式也一样。 • 需要完整的样本框,直接从总体中抽取个体。
• 获得完全正确的样本框几乎是不可能的。 • 制定抽样框是抽样的关键步骤之一。 • 当抽样是分段进行时,在几个不同的抽样层次上 进行时,则要分别建立起几个不同的样本框。 • 比如:研究某市小学生的学习情况。从500所小 学中抽取10所小学,再从这10所小学,每个小学 抽取3个班级,被抽中的班级中再抽取10名同学。 所以要有三个样本框: 全市学校名单 每所抽中学校班级名单 每个被抽中班级学生的名单
抽样的概念
• 统计值(样本值):样本中某一个变量的综合描 述。 • 是从样本中计算出来的。 • 是作为总体值的估计值。
2 抽样的作用
• 用十分有限的人力、财力、时间去了解庞杂、广 阔、纷繁、多变的社会现象。 • 比如:民意测验,要求迅速、准确。往往调查对 象不到2000人。
3.抽样的类型
• 概论抽样 • 非概率抽样
决定抽样方案
• 对于具有不同研究目的、不同范围、不同对象和 不同客观条件的社会研究,所使用的抽样方法是 不一样的。 • 依据研究的目的的要求、依据各种抽样的特点, 以及其他有关因素来觉得具体采用哪种抽样方法。 • 同时确定样本规模以及主要的精确程度。
实际抽取样本
二重抽样
6.1概述 概述
6.1.1二重抽样的定义 二重抽样的定义 二重抽样(也叫二相抽样),抽样过程分两 二重抽样(也叫二相抽样),抽样过程分两 ),抽样过程分 进行: 步进行:
第一步称为第一 第一步称为第一重(相)抽样,是从总体中抽取 抽样, 一个比较大的样本,称为第一重( 比较大的样本 样本。 一个比较大的样本,称为第一重(相)样本。目 的是获取有关总体的某些辅助信息 辅助信息, 的是获取有关总体的某些辅助信息,为下一步的 第二重抽样估计提供条件。 第二重抽样估计提供条件。 第二步称为第二 抽样, 第二步称为第二重(相)抽样,是从第一重样本 中抽取的相对较小的样本,称为第二重( 较小的样本 中抽取的相对较小的样本,称为第二重(相)样 它是第一重样本的一个子样本, 本。它是第一重样本的一个子样本,对它进行的 调查是主调查。 调查是主调查。
Y
′ ystD = ∑ wh yh
h =1
L
性质: 性质:
(1)
E ( ystD ) = Y
1 1 1 2 2 1 (2)V ( ystD ) = − S + ∑ Wh S h − 1 n′ N h n′ γh
V 的一个近似无偏估计: (3) ( ystD ) 的一个近似无偏估计:
1 1 22 1 1 2 ′ v ( ystD ) = ∑ − w′h sh + − ∑ wh ( yh − ystD ) ′ nh n′ N h h nh
证明: 证明:
K (1)E( y ) = E E ( y ) = E E ′ 1 2 ∑ wh yh stD 1 2 stD h=1
二重抽样
表7-1
某银行客户的样本数据
2 2 2 (2 6.42) 0.32 (7 6.42) 0.1 ( 15 6.42) 1 1 L ' 1 1 0.54 2 ( ' ) h ( y h y stD ) ( ) 2 n N h 1 1000 800 0 . 04 ( 40 6 . 42 )
h
y h )] E ( y stD ) E1 [ E 2 ( y stD )] E1 [ E 2 ( wh
h 1
L
y h ) E1 ( y ) Y E1 ( wh
h 1
L
定理7.2
y stD 的方差为:
2 1 1 2 L Wh S h 1 V ( y stD ) ( )S ( 1) n N n f hD h 1 2 f hD 是第二重样本第h 式中,S2是总体方差;S h 是第h层的总体方差;
6.3 不等概率系统抽样
行政村编号 1
人数 134
累计人数 134
抽中代码 100
2 3
4
376 202
106
510 712
818
5
6 7 8 9 10
634
397 306 247 95 588
1452
1849 2155 2402 2497 3085
1128
2156
7.1 二重抽样
前面介绍的抽样技术中,大多需要事先了解关于总体的 信息,例如分层抽样需要事先知道各层权重,比率估计 和回归估计需要知道总体的某些辅助信息,但在有些情 况下,这些信息在调查前无法预知。这时,可以先从总 体中抽取一个大的初始样本,获得总体的辅助信息,然 后再从初始样本或总体中抽取一个子样本,这种方法就 是二重抽样。
自考“社会调查原理与方法”复习资料第六章
第六章抽样 第⼀节抽样与抽样调查 ⼀、含义: 1.抽样是⼀种选择调查对象的程序和⽅法,即总体中选取⼀部分代表的过程。
2.抽样调查,即从研究对象的总体中选择⼀部分代表加以调查研究,然后⽤所得的结果推论和说明总体特征;始于1891年的⼈⼝调查,关键在于<1>如何判断⼀个样本误差的⼤⼩;<2>怎样才抽到⼀个所要求的精度的样本。
3.选取样本的⽅法包括:<1>依据研究任务的要求和对调查对象的分析,主观地有意识地在研究对象的总体中进⾏选择,即⾮概率抽样;<2>依据概率理论,按照随机原则选择调查对象的程序和⽅法,即概率抽样。
⼆、抽样调查优点: <1>调查费⽤较低;<2>速度快;<3>应⽤范围⼴;<4>可获得内容丰富的资料,抽样调查因调查对象的数⽬远较普查少,因此可以设置较多和较复杂的调查项⽬,并能集中时间和精⼒作详细的分析。
<5>准确性⾼。
2.抽样调查的优点成⽴的依据是:<1>部分含于整体之中;<2>部分与整体有同样的特征;<3>部分能够为研究者提供⼀个有关群体的⽣活、群体态度的更为清晰的脉络。
第⼆节抽样的术语与程序 ⼀、抽样的术语 1.个体与抽样单位:<1>个体是收集信息的基本单位,即分析单位,⼜称为调查对象;<2>信息单位是⼀次抽样当中抽取的单位。
<3>个体与抽样单位在有些研究中是相同的,在进⾏实际抽样时,抽样单位往往是多层次的。
2.研究总体与调查总体:<1>研究总体是在理论上明确界定的个体的集合体。
<2>调查总体是研究者实际抽取样本的个体的集合体。
<3>样本只能推论调查总体⽽不是研究总体——判断P168 3.抽样框——概率抽样需要,⼜称为抽样范畴,是抽取样本的所有抽样单位的名单。
第六章 抽样
例:以某高校6000名在校大学生为总体:
抽样1:按一定方式抽取300名大学生作样本;
抽样2:按一定方式抽取10个班作样本;
分析:两种抽样方式下的抽样单位和抽样框
(四)抽样框sample frame
一次直接抽样时总体中所有元素的名单。 抽样框是抽样操作依据的名单,是和调查的总体相 对应的
究总体的操作化界定,规定了调查对象选择的具体指标。
• 目标总体和调查总体吻合度越高,调查的代表性就越好;否则会
产生覆盖误差。
(二)制定抽样框
1.抽样框是对研究总体的进一步操作。
2.抽样框的意义
(1)抽样框与研究/调查总体之间可能不匹配,可能包含研 究总体之外的某些人,或可能遗漏其中的某些人. (2) 根据样本所得到的结果,只能代表组成抽样框的各个 要素的集合 (3) 样本的大小(规模)与其能否正确代表总体比较起 来,是一项不太重要的因素。
(五)参数值——又称总体值,是关于总体中某一变量的 的综合描述,或者说是总体中所有元素的某种特征的综 合数量表现。 –参数值只有对总体中每一个元素都进行调查或测量才 能得到。 (六)统计值——又称样本值,是关于样本中某一变量的 综合描述,或者说是样本中所有元素的某种特征的综合 数量表现。 –统计值是从样本中计算出来的,它是相应的参数值的 估计量。
一、简单随机抽样
(一)定义
又称纯随机抽样,是概率抽样的最基 本形式。 它是按等概率原则,直接从含有N个 元素的总体中随机抽取n个元素组成样本 (N>n)。
(二)选取样本的两种办法
1.抽签方式 (1)将总体名单从1到N编号,形成抽样框; (2)准备N张卡片,每张卡片上的号码与总体 名单编号对应,将卡片放在盒子里,混合均匀; (3)根据抽样设计的样本规模,从盒内n次取 出n张卡片; (4)根据取出的卡片上的号码,找到总体名单 上对应的元素,构成样本。
第六章 抽样设计
七、敏感性问题
敏感性问题是指在抽样调查中,被调查的问题是属 于被调查人私人机密或不愿意如实回答的问题。
如调查被调查者是否曾冒充顾客进商店行窃,是否 吸毒,个人储蓄是多少等。
这类涉及个人隐私或违法行为的敏感性问题,若采 用直接问答的方式,被调查者往往会拒绝回答或故 意作出错误的回答。这样就破坏了数据的真实性, 而且其破坏程度的大小无法度量。
有独立控制配额抽样和交叉控制配的抽样。
独立控制配额抽样只用一个变量进行配额 交叉控制配额抽样采用多个变量进行配额
7
三、配额抽样
独立控制配额抽样之例: 某项调查确定样本量为200人,其中:男性70%,女性
30%。请对抽样进行配额。
男 女 合计
比例 70% 30% 100%
性别
人数 140 60 200
8
三、配额抽样
交叉控制配额抽样之例: 某项调查确定样本量为200人,其中男性70%,女性30%;
农村20%,城市80%。请对抽样进行配额。
男性比例 (70%)
地 农村(20%) 区 城市(80%)
合计
14% 56% 70%
性别
男性 人数
女性比例 (30%)
28
6%
112
24%
140
30%
女性 人数
0.71.35
故总体 A 的置信区间为:
0.565A0.835
35
2、西蒙斯随机化回答模型
西蒙斯模型是1967年由西蒙斯(Simmons)提出的。 其设计思想仍是基于沃纳的随机化回答思想,只是在设计
中用无关的问题Y代替了沃纳模型中的敏感性问题A的对 立问题。这有助于进一步消除被调查者的顾虑。
12 48 60
抽样调查-第9节二重抽样
s(Y ) Ns( ystD ) N v( ystD ) 2427.32 (百万元)
四、二重分层抽样样本量的最优分配
二重分层抽样中有两次抽样,这两次抽样的样本量
即n和n ,直接影响估计的精度。第一重抽样n越大,
对分层信息的了解和估计就越精确,从而可以减少估计
量的误差;同样,第二重抽样 n 越大,估计量的方差越
采用二重分层抽样,对总体均值Y 的估计量为:
Байду номын сангаас
L
ystD wh yh
h1
(二)均值估计量 ystD 的性质
性质1 估计量 y stD是 Y的无偏估计。即 E( ystD ) Y
因为
E(yh)
y
h
L
所以有 E( ystD ) E1[E2 ( ystD )] E1[E2 ( wh yh )]
h1
j 1,2, , nh;h 1,2, , L
第二重样本第h层样本单元的平均数: yh
总体方差:S 2
,第h层的总体方差:
S
2 h
1 nh
nh
yhj
j 1
返回
第一重样本第h层方差:sh 2
第二重样本第h层方差:sh2
1 nh 1
nh
( yhj
j 1
yh )2
二、抽样方法
第一步: 利用简单随机抽样,从总体的N个单元中随机
h1
(1 nh
1 nh
)wh 2sh2
(1 n
1 N
L
)
h1
wh
(
yh
y stD
)2
式中,v( ystD )为V ( ystD ) 的近似无偏估计;sh2为第二重样
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
有时候,调查的总体只是一个大总体中的小总体,但我 们对这个小总体却知之甚少,甚至连小总体的单元数都不知 道。在这种情况下,就可以使用二重抽样,从总体单元中筛 选主调查的对象。
.
例如,调查的总体是老年痴呆症患者的全体,它仅是老 年人口中的一部分,一开始我们并不知道如何把这个总体从 老年人口中区分出来进行调查。我们只能从老年人口中抽取 一个样本,然后对这个样本中的老年痴呆症患者再进行抽样 调查。又如,在一项办公自动化设备使用情况的调查中,要 求调查单位的微机、复印机、传真机等办公设备的使用情况, 但我们事先也不能确定哪家单位一定有这些设备。碰到类似 这种情况,就可以使用二重抽样,先从总体中抽出一个大的 样本来,进行相对比较简单的调查测试,筛选出满足条件的 对象,从中再抽样进行主调查。
L
n n h
(6.1)
h1
.
并且可以得到大样本中各层的层权:
h n nh
h1,2,L,L
(6.2)
根据第三章第四节百分数的估计,我们知道 h 是总体层权
Wh Nh N的一个无偏估计。
此时,我们仅是对大样本的很容易进行的分层标志或者某些
辅助信息进行了观察,而对指标值 y i的主调查并未进行。由
于经费或者其它条件的限制,不能对大样本中的每一个指标
值 y i 进行观察,而是把大样本作为总体看待,对它进行分层
抽样。记抽得的样本为:
{ y 1 1 , L ,y 1 n 1 ,y 2 1 , L ,y 2 n 2 , L ,y h 1 , L ,y h n h , L ,y L 1 , L ,y L n L }
在一些连续定期进行的抽样调查中,同一单元不同时间 的指标值往往存在着相关关系,利用这种相关关系采用回归 估计可以提高精度。因此,在很多实际的抽样调查中,在后 一次调查的样本中大部分单元是前一次调查样本的单元。如 此处理,不仅可以提高精度,而且还可以节约费用,为调查 工作带来很多方便。但是,样本又不能一直不变,因为长期 使用同样的单元调查对象会产生厌倦情绪,或者样本的代表 性发生问题,从而影响调查质量。为降低这种样本老化所带 来的负面影响,通常采用样本轮换方法。二重抽样可以用来 研究样本轮换中的某些问题。
.
§2 二重分层抽样
进行分层抽样时,必须首先按照某种方式把总体所有单
元分成若干层,已知每一层的层权(该层单元占总体的比例)
然后在各层中独立地进行抽样。如果对总体分层的情况不甚
了解,但如果知道层权,也还可以使用事后分层技术。如果
连层权都不知道,那么二重分层抽样或许是解决问题的一个
好办法。所谓二重分层抽样就是说先对总体按简单随机方式
.
二重抽样的用途很多,以下对几个方面进行叙述。
当为了提高抽样效率,打算使用某些抽样或者估计方法, 但又不知道某些必要的辅助信息时,二重抽样可以发挥很大 作用。分层抽样需要事先将总体单元分成层,进行估计时需 要知道层权,在构造比估计或回归估计时要求知道辅助变量 的总体总和或均值。在缺少这种辅助信息的情况下,就可以 使用二重抽样先抽一个大样本以获取这些信息,然后再对较 小的第二重样本进行实际调查并利用第一重样本中所得信息 改善估计量的精度。这里有一个费用问题,一般情况下,第 一重抽样的费用应该是非常低廉的,由此而增加的费用可以 通过提高估计量的精度而得到益处进行补偿,否则采用二重 抽样就不值得了。
很多情况就是如此,第一次抽样的实施是非常方便的。 例如,进行上海市大学毕业生就业意愿调查时,试图将大学 生按生源地分成本市和外地两层,但没有掌握来自本市或者 外地学生的比例。这时,可以先进行一次抽样调查,而这次 调查并不需要找学生本人,只要对各校学生花名册抽样即可
.
二重抽样也称为二相抽样。这种抽样的主要特点是先后 进行二次抽样,每次抽取一个样本。实际进行时,两次抽样 也可以是同时进行的,只是对样本中大多数个体或者单元仅 调查一些简单的辅助信息,进行详细调查的只是这些样本中 的一部分。
y h j 是从第 h 层中按简单随机抽样所得样本的第 j 个单元的指
在大多数抽样调查中,调查的总体指标往往不是一个而 是多个。不同的指标往往有不同的精度要求,调查的难易程 度也不一样,它们并不需要相同的样本量。为了节约调查费 用,对那些个体指标差异大的、精度要求高的指标,调查一 个较大样本;而对指标值差异小或者估计精度要求较低的指 标,可以仅调查一个较小的样本。
.
例如,在住户家庭开支调查中,对高档耐用消费品、旅 游及婚丧嫁娶一类开支的调查就需要有较大的样本量,而对 家庭日用品、粮食、油盐酱醋一类开支则仅需要较小的样本 量。对这类调查若采用二重抽样既能保证精度,又节约了调 查费用。
进行第一重抽样,抽得一个大样本,把这个大样本看作是一
个总体(子总体),对其进行分层,对这个子总体进行分层抽
样。
二重分层抽样具体步骤如下:先从总体中抽出一个大样
本,记作{y1, y2,L , yn},按照某种标志,把它分成 L 层
这种标志是易于观察的。第
h层的第
j个指标值记为
y
这个大样本中第 h层的单元数,有
第六章 二重抽样
§1 二重抽样简述
我们知道在进行抽样设计时,往往要求先掌握关于总体 的一些知识。比如分层抽样时,必须知道各层的权重。又如 进行比估计和回归估计时,必须事先知道辅助变量的总体总 和或者均值。有时候,我们对这些知识一无所知,似乎不能 利用一些好的抽样方法。其实不然,只要获取那些知识的代 价并不算大,我们就可以先进行一次抽样,获得辅助信息的 知识,然后再进行第二次抽样。第二次抽样就可以使用分层 抽样或者比估计等方法了。这就是二重抽样。