1抽样1
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
24
25
样本序 号 1
性 别 男
男
年龄
婚姻状 况 未婚
已婚
收入
汽车拥有情 况 无
有
青年
中老年
2100
3000
4样本-〉 估算7样本 5样本-〉 估算9样本 10、12样本?
2
3
4 5 6 7 8 9 10 11 12
女
男 男 女 男 女 男 女 男 男
青年
中老年 青年 中老年 中老年 青年 青年 中老年 青年 中老年
5
第二节
抽样框误差分析
6
一、抽样框误差的成因
丢失目标总体中的单位:覆盖不足,丢失单位,使总 体总值的估计值偏低; 包含非目标总体单位:过涵盖,有“空名单”,“异 质单位”; 复合联接 :目标总体中的一个调查单位与抽样框中 的多个抽样单位相联接,或抽样框中的一个抽样单位 与目标总体中的多个调查单位相联接; ——例如通过职工名单,对职工家庭做调查 不够准确或不够完善的辅助信息; 抽样框陈旧,即抽样框老化;
10
二、无回答误差的影响
设总体由回答层与无回答层两部分组成,每层的单 元数分别为N1和N0,则
R1 N1 N
N0 N
称为总体的回答率 称为总体的无回答率
R0
若记Y1和Y0分别是回答层和无回答层的均值,则总体均值为
Y RY1 R0Y0 1
11
Y RY1 R0Y0 1
假定从总体中简单随机抽取n个单元,有n1个来自 回答层,有回答的计量值,另有n0个属于无回答层, 没有计量值,则
22
解:按题意,C1=1.0,c2=1.2,c0=13.5,w0=0.4
C0 (1 W0 ) 13.5 (1 0.4) k 2.17 C1 C2W1 1.0 1.2 0.6
S2 n 1000的简单随机样本,fpc 0, n 1000 V
S2 则:n 1 (k 1)W0 1000 1 2.17 1 0.4 1468 V
21
例
欲进行一次民意测验,N很大,按精度要求需要 抽取n=1000人(简单随机抽样)。 现拟先采用邮寄问卷调查,预期无回答率为 40%,然后对所有无回答的再抽一个简单随机 子样本进行派员访问。 设邮寄一份问卷的费用是1.0元,对回答的每份 问卷数据处理费用是1.2元,派员调查与数据处 理费用合计每份13.5元。 假定无回答层方差与总体方差相等,试求为满 足精度要求应邮寄多少份问卷?对无回答者进 行派员调查的比例是多少?预期费用多少?
13
例:某市调查市民每月在外就餐的次数,随机抽取了 n=1000人进行问卷调查,其中n1=800人作了回答,结果是 平均2.5次,如果以此值来估计全市市民平均在外就餐的次数, 则其偏倚为
R0 (Y1 Y0 ) 0.2(Y1 Y )
若对无回答的n0=200人又随即抽取了50人进行了面访,结 果这50人平均每月在外就餐次数为1.2次,则偏倚的估计为
15
四、对无回答的调整
1.二重抽样法; 2. 估算法; 3.加权调整法。
16
1.二重抽样法
这种方法是先对抽中的被调查者进行邮寄(问 卷)调查,然后从那些无回答者中抽选出一个子样 本进行访问调查并尽量取得完整资料,最后把邮寄 调查结果与子样本访问调查结果综合起来得出总体 指标的估计值。
17
设n为首次邮寄调查的样本量,n1个样本单元作了回答,样本均值为y1;
k
(C W C ) S02 1 1 2
n
kC k (C1 W 1C 2) W 0C 0
若估计量方差V给定:
N S 2 ( k 1)W0 S0 2 n ˆ NV (Y Hale Waihona Puke Baidu S 2
20
2 当S0 S 2且N 较大时,k 和n的简化式为
C0 (1 W0 ) k C1 C2W1 S2 给定V , 则:n 1 ( k 1)W0 V
28
第十一章
非抽样误差
第一节
非抽样误差构成
一、非抽样误差的来源
非抽样误差是指除抽样误差外,由于其他各 种原因而引起的误差。 非抽样误差存在于各种抽样和调查中,而且 通常不能通过增大样本量而得到控制。
2
◆在抽样方案设计阶段,非抽样误差的来源: (1)抽样框的编制与准备不够充分完善; (2)问卷设计不够科学合理。 ◆在数据收集阶段,非抽样误差的来源: (1)调查数据的残缺; (2)调查数据的错误。 ◆在数据处理阶段,非抽样误差存在于对调查资 料的整理、分组、计算、编码和计算机录入等 过程中,是一种工作上的差错。
n1 r1 n n r0 0 n
称为样本的回答率, 称为样本的无回答率,
1 n1 在估计推断总体时,若只根据回答的样本计量值 y1 yi n i 1
偏倚为:
E( y1 ) Y Y1 Y R0 (Y1 Y0 )
12
E( y1 ) Y Y1 Y R0 (Y1 Y0 )
可以看出:无回答造成的偏倚大小取决于两个方面: 无回答率R0,回答层与无回答层的均值的差异; 若果调查项目对回答层和无回答层没有影响,即均 值相同,这是估计值就不存在偏差; 现实中,两层的均值通常是不同的;当两层的差别 为常数时,无回答率R0越高,偏差越大; 降低无回答率对减少估计量的偏倚十分重要。
该估计量的方差为:
1 f 2 W0 ( k 1) 2 V ( y) S S0 n n
N0 S 是无回答层的方差,W0 = 是总体无回答率, N n n , k 0 , f N n0
2 0
18
二重抽样的最优配置——第一重样本的样 本量以及第二重样本的抽样比的确定
C C1n C2n1 C0n0
未婚
已婚 未婚 寡 已婚 离异 未婚 寡 未婚 已婚
3000
2100 2700 900 1500 600 2600 -
无
有 有 无 有 无 有 26
3.加权调整法
通过一定的权数对调查中的回答数据进行加权 来达到对数据进行调整、减少因无回答造成的估计 偏差的目的。 权数由调查中的回答概率来确定,一般是该概率 的倒数。 即回答概率大的赋予较小的权,回答概率小的赋 予较大的权,从而使估计量的偏差得到一些纠正。
无回答的单元数为n0,又从中随机抽取容量为n0的第二重样本, 再次访问获得样本均值y0,于是总体均值的无偏估计量为
1 y = ( n1 y1 n0 y0 ) w1 y1 w0 y0 n
n1 (样本回答率) 其中: n n0 w0 = (样本无回答率) n w1
C1:第一重样本每单元的调查费用; C2:收集和处理每个回答样本的单元费用; C0:无回答单元第二重样本的每单元费用;
可以写成:
W0n C C1n C2W1n C0 k
k
n0 , n0
19
当 C既定时,使估计量方差达到最小的 k和 n 为:
2 2 C 0 ( S W 0 S0 )
0.2(Y1 Y ) 0.2 (2.5 1.2) 0.26
实际上是利用二重抽样调整无回答误差。
14
三、无回答误差的控制
1.事前准备充分,争取尽量高的首次回答率; 2.搞清无回答的原因,有针对性地进行复调查; 3.必要时,对无回答者进行替; 4.对于一些敏感性问题,可以采用随机化回答技术 (沃纳模型,西蒙斯模型,格林伯格模型等); 5.当无回答不可避免时,可采用一些专门技术来调 整估计结果,以减少估计偏差。
27
非抽样误差作业:
某调查公司欲对消费者偏好哪种洗衣粉品牌进行调查, 但为了节省经费,采用邮寄方式,每个样本的费用为2元;对 于回答样本处理费用为每份5元,然后对所有无回答的样本再 抽一个简单随机样本,采用面访的方式调查,每个单位平均 80元。 现已知如果没有不回答问题,则满足精度要求,采用简单 随机抽样的方法抽取,样本量为1000(忽略抽样比)。 试求为满足精度要求应邮寄多少份问卷?对无回答者进 2 行派员的比例是多少?假设预期的回答率为50%,S0 与S 2近似相等
7
二、抽样框误差的控制
重在预防 积极补救 心理准备
8
第三节
无回答误差分析
9
一、无回答误差的含义
无回答(Nonresponse):是指未能取得所要搜 集资料的一种现象,它包括两种情况: 单元无回 答和项目无回答。 ——单元无回答也称全无回答,是指被调查者没 有接受调查、造成整张问卷出现空白的现象; ——项目无回答也称部分无回答,是指被调查者 回答了问卷中的部分调查项目未能回答其它调查项 目的现象。 各种原因:P241
3
◆把上述三个阶段的各种非抽样误差加以归纳,可
以概括为三类:
非抽样误差
抽样框误差 无回答误差 计量误差
其中计量误差包括抽样方案设计阶段有缺陷的问卷设 计、数据收集阶段有错误的调查数据和数据处理阶段工作 上的差错所带来的误差,也就是调查性误差。
4
二、非抽样误差的特点
非特有性 :并非抽样调查所特有; 非一致性 :使抽样估计结果产生偏差 , 并且样本越大产生偏差的可能性越大; 难测定性 :难以对其进行描述和测定,具 有很强的隐蔽性; 难评价性 :非抽样误差的存在使得对抽样 效果的评价与衡量复杂化; 全过程性 :存在于抽样调查的所有阶段。
n0 587, n1 881,n0 271
C 1.0 1468 1.2 881 13.5 271 6183.70 (元)
23
2. 估算法
这种方法是当无回答出现时,用其它已有的数据来 顶替无回答的缺失数据,进而对总体作出估计。
常用于项目无回答。 可用现有回答数据的整体或分类平均数/众数/回 归估计估算缺失项目,或者,用与无回答单元其 他特征基本类似的单元的数据直接替代。