抽样调查第11章 调查中的非抽样误差课件

合集下载

《调查抽样》PPT课件

《调查抽样》PPT课件
4500 13000 1000 18500
27
分层抽样的优缺点
优点: 层内差异比较小,样本代表性高,可能得到较高 精度的推断结果 可对各层的特性加以比较
不足: 有时分层不容易划分,增加工作难度.工作量 和费用较大
4. 整群抽样
整群抽样又称聚类抽样、整体抽样,也称集团 抽样,是在当总体的所在基本单位自然组合为或 被划分为若干个群后,从中随机抽取部分群并对 抽中群内全部基本单位进行调查的一种抽样组合 形式。
39
独立控制的定额抽样举例
调查某地居民消费情况,计划抽取样本200 人。先将这些人按年龄、职业和收入特征 分层,再决定配额数量。
在这三层中虽然年龄、职业和收入都有具体规定, 但三者之间的交叉关系没有作规定,如高收入40 人既可以从18~34岁中选取,也可以从35~49岁 中选取,这些都没具体规定,完全由调查者根据 判断来选取。
与分层抽样的比较
同:先分层,后在各层中抽样。 异:分层抽样中各层的子样本是随机抽取 的,而配额抽样中各层的子样本是非随机 抽取的。
37
定额抽样分类
独立控制的定额抽样 相互控制的定额抽样
38
1)独立控制的定额抽样
又称单项特征配额,只对具有某种特征的 样本数规定配额,而对具有两种特征或两 种以上特征的样本数则不作规定。
合计
40
110
43
50
200
一项关于某品牌洗发水的消费者座谈会的抽样
研究对象:18~40岁 的女性,30人
经济
高低
选择“经济收入”和 “发型”为控制特征
收入
配额要求高低收入者 按1:1,烫发和直发按 3:2
依上述要求,设计一 个配额抽样控制表。
发 直发 型

抽样调查-调查中的非抽样误差培训课件PPT课件

抽样调查-调查中的非抽样误差培训课件PPT课件

根据非抽样误差的来源、性质 可分为以下三类:
(1)抽样框误差,即由不完善的抽样框引起的
误差; (2)无回答误差,即由于种种原因没有从被调 查单元获得调查结果,造成调查数据的缺失; (3)计量误差,即所获得的调查数据与其真值 之间不一致造成的误差。
§11.2 抽样框误差
一、概念
抽样调查中的总体有两个: 目标总体—调查研究对象的全体。 抽样总体—从中抽取样本的总体。 (即抽样框) 理想抽样框的标志是目标总体和抽样总 体完全重合。否则抽样框就是不完善的。
●抽样框存在的问题,有些是不容易解决的。 因此抽样框的维护、抽样框使用情况的不断 总结与研讨,对于经常性的调查项目来说是 十分必要的。
●抽样框的不完善并不是不能使用。可以进 行修补、调整。
N1
(3)抽样框误差的影响
设目标总体单元:N
抽样框中单元:N1 抽样框中丢失的单元:N0
N=N1+N0 ■ 总体总量的估计 总体总量的真值是:
W0 (Y1 Y0 ) W0 (1 r)
Y
rW0 (1 W0 )
由上式可以看出,如果丢失单元的均值与
抽样单元的均值相同,即
r
1
,则估计量
Y
是目标变量 Y 的无偏估计。
r 反之,如果 r 1 ,偏倚状况则随着
的变化而变化。
Y
三、不完善抽样框的使用
抽样框不完善并不是不能使用,因为构造一个完 善的抽样框有时是非常困难的。使用不完善抽样框时 若能采用一些补救措施,有助于减小抽样框误差。主 要采用以下三项补救措施:
ቤተ መጻሕፍቲ ባይዱ
N N1 N0
R1
N1 N
, R0
N0 N
则总体均值为: Y R1Y 1 R0Y 0

《抽样调查》PPT课件

《抽样调查》PPT课件
抽样极限误差计算臵信区间计算5简单随机抽样重复抽样的必要抽样单位数计算掌握浙江财经大学20201215精选ppt1抽样调查分类2抽样调查特点3全及总体分类及全及指标4抽样方式分类5抽样误差概念及分类6抽样平均误差影响因素7可信程度概率度8抽样方案设计基本原则9主要的抽样组织方式种类理解浙江财经大学20201215精选ppt1抽样调查的意义2抽样调查的适用范围3不同抽样方式的可能样本数目4抽样调查的理论依据5抽样平均误差的意义6各种抽样组织方式介绍7不重复抽样的必要抽样单位数计算了解浙江财经大学20201215精选ppt第一节第二节基本概念及理论依据第三节抽样平均误差第四节全及指标推断第五节抽样方案设计浙江财经大学20201215浙江财经大学20201215精选ppt1抽样调查概念广义
顺序的不重复抽样、不考虑顺序的重复抽样和不考虑顺序的不
重复抽样。
2021/5/27
浙江财经大学
14
2、样本可能数目
1〕考虑顺序的重复抽样
BNn k N n
2〕考虑顺序的不重复抽样
ANn k N (N 1)
(N n 1) N ! (N n)!
3〕不考虑顺序的不重复抽样
CNn
k
N (N 1)
P(1 P) (1 n )
n
N
p(1 p) (1 n )
n
N
现实中,总体标准差往往是未知的,此时采用样本
标准差和样本成数作为总体标准差和总体成数的估计
值。当总体单位总数未知时,那么默认采用重复抽样
的2计021算/5/公27式。假设N,浙未江说财经明大重学 复或不重复抽样,那26
2、抽样平均误差的影响因素:
2021/5/27
浙江财经大学
21
二、抽样平均误差的计算 1、理论公式

第十一章非抽样误差及其控制

第十一章非抽样误差及其控制

第十一章 非抽样误差及其控制数据的准确性与可靠性是抽样调查的生命力之所在。

如前所述,在抽样调查中,除存在抽样误差外,还经常出现一些非抽样误差,主要的非抽样误差产生原因有抽样框不完善、无回答的出现、调查过程的差错以及数据整理登记过程中的差错等。

因此,抽样调查中,不仅要控制抽样误差,而且还要控制非抽样误差。

如何有效地控制非抽样误差,取得准确可靠的数据资料,以及如何对已经取得的数据进行质量评价,一直是抽样调查理论和实践中所经常关注和着力研究解决的重要问题。

第一节 抽样框误差及其控制一、抽样框误差的产生抽样框是有关总体全部单元的名录或地图等的框架,是抽取样本单元的依据。

理想的抽样框(也称抽样总体)应该同所研究现象的总体(也即目标总体)一致,但在实践中,抽样总体与目标总体常常不一致,由此产生的误差就是抽样框误差。

考察抽样框误差的成因,大致有以下几个方面:(1)丢失目标总体单元。

在此情形下,抽样框没有能够覆盖全部目标总体单元,也就是使部分目标总体单元没有包括在抽样框中,因而也就没有机会被选入样本。

由于存在丢失单元,使得总体总和的估计偏低,总体均值的估计也可能会出现偏差。

丢失单元是一种威胁性较大的抽样框误差,具有较强的隐蔽性,不易被发现。

(2)包含非目标总体单元。

有时,抽样框中也可能包含了一些不属于研究对象总体即非目标总体的单元,由此容易导致总体总和的估计偏高。

但这种类型的抽样框误差一般要比丢失单元的威胁性小。

因为在调查中,非目标总体单元往往更容易被发现,并予以剔除。

(3)复合联接。

实践中常可能会遇到这种情况:抽样框中的单元与目标总体单元不完全为一一对应,而是一对多或多对一,即存在复合联接。

在这种情形下,目标总体中各个单元的入样概率可能会受到相应的影响,从而导致非抽样误差的扩大。

但是,有时候采用经过精心设计的有复合联接的抽样框可以提高稀有元素被抽中的概率。

(4)不正确的辅助信息。

一般将不包含辅助信息的抽样框称之为简单抽样框,而将包含辅助信息的抽样框称为复杂抽样框。

抽样技术-课件全-抽样技术-第11章全文

抽样技术-课件全-抽样技术-第11章全文
CPS的样本轮换采用的是4—8—4模式,即一个 住户单位在连续的4个月内接受调查,在接下来 的8个月中退出样本,然后再接受连续4个月的调 查,最终退出样本。轮换方案的设计使得具有相 同特征的住户单位替换退出的住户单位。
CPS的样本轮换具有如下主要特征
1.在任何一个月内,都有八分之一的住户单位第一次接受 调查,八分之一的住户单位第二次接受调查,如此下去
2.每个月都有新的样本组代替从样本中永久退出的老样本 组
3.每个月都有一个样本组在8个月的闲置后重新接受调查。 重新接受调查的样本组代替了刚刚退出,进入闲置期的 样本组
4.设计保证了每个样本单元在两个年份的4个相同月份中 接受调查
5.在连续的两个月内,有四分之三的样本是相同的;在连 续的两年中,有二分之一的样本是相同的。
劳动力特征
3. 抽样时以州为总体,因而设计也是以州为总体的设 计
4. 样本量由变异系数CV及可靠性要求所决定 5. 在失业率为6%的自定义下,各州对变异系数的要求 在8%—9%之间。这样就能保证进行全国估计的变异系 数控制在1.8%之内
11.2.2第一阶段的抽样
第一阶段的抽样涉及三个方面的工作。这些工 作是:初级抽样单元(PSU)的界定;将初级抽 样单元PSU分层;PSU的抽选
11.4.5 广义方差(Generalized Variance)
广义方差函数GVF用于产生人口总量x估计值的估计方差。 函数形式为
Var( Xˆ ) aX 2 bX 式中,a和b是用最小二乘法得到的估计参数。该模型的原理是假定x的方差可以表示为简 单随机样本的方差与设计效应(deff)的乘积。设计效应deff是指某一复杂抽样设计相对于
第11章 设计与方法-美国CPS案例
美国人口现状调查(Current Population Survey,简称CPS)被认为是全国性大规模居 民住户抽样调查的典范。

非抽样误差(1).pptx

非抽样误差(1).pptx

1)R0
10001
1 0.4608
1
0.4
1468
n0 587, n1 881,n0 271
CT 1.0 1468 1.2 881 13.5 271 6183.7(0 元)
(二)加权调整法
一般是:回答率低的赋予大的权数,回答率 高的赋予较小的权数
如每个样本单元回答率Pi,那么对回答数据 进行加权调整时,以1/Pi为权数进行调整, 不过,一般Pi是未知的。
二、表现:
1.单元无回答和项目无回答 单元无回答: 项目无回答: 2.有意无回答和无意无回答
三、无回答的影响
1.无意无回答的影响: 2.有意无回答的影响: 主要影响有效样本量,会造成估计量方
差的增大,造成估计的偏倚。
四、降低无回答的措施与方法
1.改进调查的组织,加强对调查员的培训 2.多次访问 3.替换样本单元 4.对敏感性问题(所调查的内容涉及私人机密而
波利茨、西蒙斯的调整方法
ti是其他5晚在家的可接受调查的天数。
Pˆi
pi
1 (t 6
1),t
0.1.2.3.4.5
按t分为6组,t组均值yt ,频数nt
总体均值的估计为:
5
5
yt nt / pt
yt nt /(t 1)
y ps
t 0 5
t0 5
nt / pt
nt /(t 1)
N[S 2
(1/
0
1)
R0
S
2 0
NV S 2
给定CT,则:n
c
CT c1R1
c0
0 R0
当S
2 0
S 2且N较大时, 0和n的简化式为
0

11-第十一章_非抽样误差

11-第十一章_非抽样误差

(
)
(11.3)
这表明此时估计量低估了总体总和。若令 r 为丢失单元指标均值 Y 0 与抽样 框单元指标均值 Y A 之比:
r=
Y0 YA
又 W0 是丢失单元占全部目标总体单元的比重:
3
W0 =
N0 N
则 N A y A 的相对偏倚可表示为:
-
Y0 W0 r =Y W0 r + (1 - W0 )
2
多或多对一的现象。例如在一项入户调查中若目标总体单元系独立的家庭 户, 而抽样框采用的按地区的门牌号, 那么一个家庭也许有两个或两个以上 的住所, 在一个门牌号内也可能住着两户或更多户的家庭。 这种情况称为抽 样框(抽样总体)与目标总体存在着复合连接。 4. 有些复杂抽样框还包含辅助信息(当采用分层抽样、不等概率抽样 以及使用比估计或回归估计等情形) ,如果这些辅助信息不完全或不正确, 不仅不能提高抽样的效率,反而会降低估计的准确性,从而导致误差。 *11.2.2 丢失总体单元引起的抽样框误差 丢失目标总体单元是抽样框误差中影响最为显著而且也较难进行补救 的一种,为此我们对它作稍微深入的研究。 首先我们对丢失目标总体单元引起的误差进行定量分析。 我们主要分析 由此产生的估计量的偏倚。 设目标总体由 N A 个抽样总体单元以及另外 N 0 个没有包含在该抽样总 体的丢失单元组成, N = N A + N 0 ,则总体总和
ˆ (a ) = N y (a ) Y A a A
(11.7)
7
ˆ (ab) = N y (ab) Y A ab A
(11.8)
其中 y A ( a ) 与 y A ( ab) 分别是落在区域 a 与区域 ab 样本观测值的平均数。 类似地根据从框 B 的样本,对区域 b 的总和 Yb 与对区域 ab 的总和 Yab 的估 计分别为:

非抽样误差抽样理论与方法,河南财政学院

非抽样误差抽样理论与方法,河南财政学院

(n
1 1)P2
( m )(1 n
m n
)是V(ˆ
)的无偏估计
A
2021/4/4
30
10.5 计量误差
一、计量误差分类: 设计引起的误差 由调查员引起的误差 由被调查者引起的误差
2021/4/4
31
10.6 离群值的检测和处理
一、 yi离数据中心的相对距离di 法 y1,y2,…,yn是要观测的样本数据 m和s分别是测度数据集中趋势和离散趋势的指标
则相对偏倚可以写为
E(y) Y R0(Y1 Y0 )
Y
Y
2021/4/4
14
1.汉森-赫维茨的再抽样调整 总体均值的估计值
Y
1 n
(n1 y1
n0
y
' 0
)
w1
y1
w0
y
' 0
V(Y)
V1
(y)
E1
(w0
k
n
1
s02
)
1
n
f
S2
W0
k
n
1
S02
S02 为总体中无回答层的方差 k n0
得k的最优值kopt
c0 (S2 W0S02 ) S0(2 c c1W1)
给定V,使C达到最小值,得nopt 2021/4/4
N(S2
(k 1)W0S02 ) NV S2
18
例:第一个样本用邮寄方式取得,预计回答率为50%。希
望达到的精度月容量为1000的简单随机样本(全部回答)
所达到的精度一样。邮寄一张问卷的费用是0.1美元。派
估计分别为:
Yˆ B (b)
Nb nb
yB (b)

抽样理论与方法:非抽样误差

抽样理论与方法:非抽样误差

NA
NB
结合调查费用确定各个抽样框的样本量nA,nB和权数WA C nACA nBCB
在总费用给定条件下使方差最小的最优抽样比为
nA
C
S
2 a
(1

)

Sa2b WA2
,
nB
C
Sb2
(1

)

S
2 ab
WB2
NA
CA
NB
CB
WA

n A nA nB
, WB

nB nA nB
分层的总和估计分别为:
Yˆ A
(a)

Na na
yA
(a)
Yˆ A (ab)

Nab nab
yA (ab)
na与nab为落入区域a和区域ab的样本单元数;
yA(a)和yA(ab)为区域a和区域ab的样本观测值总和。
利用抽样框B的样本对区域b和区域ab进行事后分层的总和
估计分别为:
Yˆ B (b)

则相对偏倚可以写为

E(Y) Y W0 (Y1 Y0 ) W0(1 r)
Y
Y
rW0 (1 W0 )
其中
r

Y0 Y1
, W0

N0 N
三、不完善抽样框的使用 1.调整抽样框 2.使用多个抽样框
A AB A
设样本取自A、B两个抽样框。这两个抽样框的单元数分 别为NA,NB。两个抽样框将目标总体划分为三个区域。
➢ 1.非特有性 ➢ 2.非一致性 ➢ 3.难测定性 ➢ 4.难评价性 ➢ 5.全过程性
10.2 抽样框误差
一、 抽样框误差 ➢ 1.丢失目标总体单元; ➢ 2.包含非目标总体单元; ➢ 3.抽样框中的单元与目标总体单元不完全是一一应;

抽样调查11

抽样调查11
作为总体均值估计时的偏倚:
E(yA ) Y W0 YA Y
使用相对比例:
W0 YA Y W0 1 r
Y
rW0 (1 W0 )
11.2 抽样框误差
• 11.2.2丢失总体单元引起的抽样误差
丢失单元 比重W0
0.01 0.05 0.1 0.25 0.5
r=Y / Y
R0 Y1 Y0 0.20Y1 Y0
在n0 200中再抽n0 50,结果y0 1.2 偏倚的估计为:
R0 Y1 Y0 =0.20* 2.5-1.2 =0.26
11.3无回答误差
• 11.3.3降低无回答的措施与方法
1.改进调查的组织,加强培训
问题归纳分类
• 抽样框误差 • 无回答误差 • 计量误差
11.2 抽样框误差
• 11.2.1抽样框误差及其影响
导致抽样框误差的原因:目标总体与抽样总体不一致可 以分以下几类: 1.目标总体单元丢失
总和估计偏低、均值估计有偏倚、误差估计的影响较大 2.包含非目标总体单元
总和估计偏高、均值估计有偏倚、可以想法剔除 3.抽样框中出现一对多或多对一的情况
汽车拥有情 况
1
男 青年 未婚 70


男 中老年 已婚 100

3
女 青年 未婚 50

4
男 中老年 已婚 70

5
男 青年 未婚 90

5样本-〉 估算9样本
6
女 中老年 寡
30

7
男 中老年 已婚
-
-
8
女 青年 离异 45

9
男 青年
未婚

第11章调查中的非抽样误差

第11章调查中的非抽样误差
(四)插补调整
是指在数据整理阶段利用调查结果,采用一定的方式 为无回答的缺失值确定一个合理的估计值,插补到 原缺失数据的位置上。
实际中一般涌均值插补。
补充:敏感性问题调查与随机化回答技术
1、敏感性问题(sensitive question)是指所调查的 内容涉及私人机密而不愿意或不便于公开表态或 陈述的问题,如:社会上的卖淫嫖娼、赌博吸毒、 偷税漏税、婚前性行为等等。
(3)相对偏倚为:
W0(Y1 Y0) W0(1 r)
Y
rW0 (1W0)
分析
1、r=1,丢失单元均值和抽样单元均值相同 时,估计量是目标变量的无偏估计;
2、 r 1 偏倚状况随着r的变化而变化。
r>1估计偏低,r<1估计偏高。
三、不完善抽样框的使用
(一)实行连接
在调查方案设计阶段制定一定的规则,使没有包 含在抽样框中的目标单元与包含在抽样框中的 单元相连接。
二、无回答产生的原因及影响
在数据收集过程中都可能产生无回答误差: 1、查找阶段由于地址不详或已经搬迁而无法找到被
调查者,调查者不熟悉地址等等; 2、接触阶段被调查者由于客观原因无法接受调查或
由于主观原因不愿意接受调查; 3、采访阶段,被调查者对于某些问题不愿意提供答
案或调查人员粗心遗漏一些项目或调查中断等等。
如:对不在抽样框中的学生与被抽中的学生实行 连接
(二)惟一连接 对于抽样框中存在的复合连接,在方案设计中规
定只有唯一的单元被抽中。
(三)使用多个抽样框
设样本来自A、B两个抽样框,两个抽样框的单元总 数分别为NA,NB,目标总体被分成三个部分:区域a、 区域b、区域ab
1、利用抽样框A的样本对区域a、区域ab进行事后分 层的总和估计为:

《抽样调查教学》课件

《抽样调查教学》课件

非概率抽样的优点和缺点
优点
可用于难以抽样用于抽样的软件工具
现代统计软件如SPSS、R等提供了丰富的抽样调查工具和方法。
抽样调查的案例分析
通过实际案例分析,展示抽样调查在不同领域的应用和效果。
抽样调查的结果分析
对抽样调查结果进行统计分析,得出结论和洞察,并提供专业的数据可视化 展示。
《抽样调查教学》PPT课 件
抽样调查教学PPT课件大纲
什么是抽样调查?
抽样调查是指从大量的样本中抽取一部分代表性的样本,并基于这些样本进行数据收集和分析。
为什么要进行抽样调查?
抽样调查能够提供有效的数据样本,从而节省时间、成本和资源,同时还能 准确反映总体情况。
抽样调查的优点和缺点
优点
节省时间和成本
确定调查目标
明确研究问题和目标
确定样本容量
根据总体规模和抽样误差确定样本 容量
进行数据收集
通过问卷、访谈等方法收集数据
选取抽样调查设计类型
根据调查目标和资源限制,选择适合的抽样调查设计类型,如简单随机抽样、 分层抽样等。
样本容量的确定
样本容量的确定需要考虑总体规模、抽样误差和置信水平等因素,以确保结果的准确性和可靠性。
有哪些抽样方法?
1 随机抽样
每个样本具有相同的机会被选中
2 分层抽样
将总体划分为若干层次,从每个层次中抽取样本
3 整群抽样
将总体划分为若干群组,从每个群组中抽取全部样本
抽样误差和度量
抽样误差是指样本与总体之间的差异,常用的度量指标有标准误差和置信区间。
抽样中的生物学偏差
生物学偏差是指样本中个体间存在的差异,可能对抽样调查结果产生影响, 需要注意控制和统计分析。

统计学抽样调查ppt课件

统计学抽样调查ppt课件
三、抽样调查的作用
(一)用于一些不可能或不必要进行全面调查 的社会经济现象,以达到对总体数量特征的 认识,可以取得事半功倍的效果
(二)对全面调查的资料进行补充和修正 (三)广泛运用于工业生产过程中的质量检验
与控制
病原体侵入机体,消弱机体防御机能 ,破坏 机体内 环境的 相对稳 定性, 且在一 定部位 生长繁 殖,引 起不同 程度的 病理生 理过程
样本成数的平均误差的计算公式。
1.在重复抽样下:
μp=
σ2
n
n
=
p (1 p )
n
2.在不重复抽样下:
μp=
2 Nn
( )= n N 1
p (1 p ) n
(N n) N 1
病原体侵入机体,消弱机体防御机能 ,破坏 机体内 环境的 相对稳 定性, 且在一 定部位 生长繁 殖,引 起不同 程度的 病理生 理过程
第二节、抽样误差和抽样估计
一、抽样误差 (一)概念:是指抽样估计值与被估计的
未知的真实参数( 总体特征值)之差。 (二)误差的来源
1、登记性误差 2、系统性误差 3、偶然性误差
病原体侵入机体,消弱机体防御机能 ,破坏 机体内 环境的 相对稳 定性, 且在一 定部位 生长繁 殖,引 起不同 程度的 病理生 理过程
病原体侵入机体,消弱机体防御机能 ,破坏 机体内 环境的 相对稳 定性, 且在一 定部位 生长繁 殖,引 起不同 程度的 病理生 理过程
2、区间估计
对于总体的未知指标X, 根据样本确定 总体指标所在的区间,并指出估计推断的可 靠程度。
x1、x2(x1 x < 2),使随机区间 (x1,x2)
包含X的概率等于给定值1-α(0<α<1),
病原体侵入机体,消弱机体防御机能 ,破坏 机体内 环境的 相对稳 定性, 且在一 定部位 生长繁 殖,引 起不同 程度的 病理生 理过程
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

学习交流PPT
18
三、降低无回答的措施
学习交流PPT
6
N1
(3)抽样框误差的影响
设目标总体单元:N
抽样框中单元:N1 抽样框中丢失的单元:N0
N=N1+N0 ■ 总体总量的估计 总体总量的真值是:
N1
N1
N0
Y Yi Yi Y1Y0
i1
i1
现从抽样框中的N1个单元中采用简单随机 抽样抽出容量为n的一个样本,由于n取自于N1 对总体总量的估计为:
(即抽样框) 理想抽样框的标志是目标总体和抽样总 体完全重合。否则抽样框就是不完善的。
学习交流PPT
4
二、抽样框误差的类型及影响
(1) 抽样框误差的类型 ● 丢失目标总体单元。 ● 包含非目标总体单元。 ● 抽样框中的单元与目标总体单元不一一对 应。(存在一对多或多对一的情况) ●不正确的辅助信息。(如分层抽样、不等
学习交流PPT
16
无回答的影响: 回答层(N1)
总体(N) 无回答层(N0)
NN1N0
R1
N1 N
,R0
N0 N
则总体均值为: YR1Y1R0Y0
回答层样本(n1 ) 总体样本(n)
无回答层样本(n0 )
学习交流PPT
17
根据回答层单元计算出的样本均值为
y1
用 y 1作为总体真值 Y得估计量,其偏倚为:
学习交流PPT
12
从无回答的内容来看可分为: 单元无回答 (被调查单元没有参入或拒绝受调查,他
们交的是一份白卷) 项目无回答 (被调查单元虽然接受了调查,但对其
中的一些项目没有回答)
学习交流PPT
13
从无回答的性质来看可分为: 有意无回答
(有意无回答常常与调查内容有关,如对调 查内容反感,或涉及个人隐私不愿意回答)
学习交流PPT
15
二、无回答产生的原因及影响
如果把采集数据的过程划分为查找、接触和 采访三个阶段,三个阶段都有可能出现无回答。
1、查找阶段 调查人员无法找到被调查者, 主要原因有地址不详、被调查者搬迁、调查人 员不熟悉地址; 2、接触阶段 被调查生病、对调查不感兴趣 或别的原因拒访; 3、采访阶段 调查开始后被调查者对某些问题 不愿提供答案、调查员由于粗心遗漏某些项目等
无意无回答
(无意无回答常常与调查内容无关,之所以 无回答是因为被调查者生病或很忙,无法接 受调查)
学习交流PPT
14
有意无回答对数据质量的影响很大,回 答者和不回答者之间往往存在系统性差异。 这种不回答不仅减少了有效样本量,造成估 计量方差增大,而且会带来估计偏倚。
无意无回答可以看成是随机的,这种不 回答虽然会造成估计量方差增大,但通常认 为不会带来估计偏倚。
学习交流PPT
7
Y
N1 n
n
yi
i 1
显然此时的估计是有偏的,偏倚为:
E(Y)YY1YY0
这表明估计量低估了总体总量,令
r
Y0 Y1
,W0
N0 N
Y的相对偏倚可以写为
Y0
W0r
Y
rW 0 (1W0)
学习交流PPT
8
r
由上式可知,总体总和的相对偏倚取决于
r和 W 0
■ 总体均值的估计
在抽样框存E ( y 1 ) Y Y 1 ( R 1 Y 1 R 0 Y 0 ) R 0 ( Y 1 Y 0 )
R0
相对偏倚
(y1)
R0(Y1 Y0) Y
由上式可以看出:无回答偏倚主要来自两
个方面:一个是回答层与无回答层之间的数量
差异 (Y1 Y 0 ) ;一个是无回答率 R 0 。
2、在抽样调查中,由于非抽样误差的影响,往往造成 估计量的有偏;
3、有些非抽样误差难以识别和测定。如抽样框是不完 善的,而调查设计人员并没有意识到;
4、有些非抽样误差成因复杂,对其研究不够,因此, 在很多时候非抽样误差比抽样误差造成的影响更严重, 对此必须引起高度重视。
学习交流PPT
2
根据非抽样误差的来源、性质 可分为以下三类:
第十一章 调查中的非抽样误差
§11.1 引言
非抽样误差是指除抽样误差以外的,由于 各种原因引起的误差。
在概率抽样、非概率抽样、其他全面调 查和非全面调查已及普查中,非抽样误差都 有可能存在。
学习交流PPT
1
同抽样误差相比,非抽样误差有如下特点:
1、非抽样误差不是由于抽样的随机性带来的,所以在 抽样调查中,它不可能随着样本量的增大而减小;
(1)抽样框误差,即由不完善的抽样框引起的 误差;
(2)无回答误差,即由于种种原因没有从被调 查单元获得调查结果,造成调查数据的缺失;
(3)计量误差,即所获得的调查数据与其真值 之间不一致造成的误差。
学习交流PPT
3
§11.2 抽样框误差
一、概念 抽样调查中的总体有两个:
目标总体—调查研究对象的全体。 抽样总体—从中抽取样本的总体。
Y
的变化而变化。
学习交流PPT
10
三、不完善抽样框的使用
抽样框不完善并不是不能使用,因为构造一个完 善的抽样框有时是非常困难的。使用不完善抽样框时 若能采用一些补救措施,有助于减小抽样框误差。主 要采用以下三项补救措施:
●利用核查,掌握误差情况,对不完善抽样框 进行调整;
●事先制定一些规则,对发现的抽样框问题进 行现场处理;
概抽样、比率估计和回归估计等所需的辅助 信息)
学习交流PPT
5
(2)对抽样框误差的基本认识
●有些误差来自构成抽样框资料本身,而不 是由于抽样设计的问题。
●抽样框存在的问题,有些是不容易解决的。 因此抽样框的维护、抽样框使用情况的不断总 结与研讨,对于经常性的调查项目来说是十分 必要的。
●抽样框的不完善并不是不能使用。可以进 行修补、调整。
r
Y
Y
1 n
n i 1
yi
此时估计量的偏倚为:E(Y)YW0(Y1Y0)
Y 的相对偏倚可以写为:
W0(Y1 Y0) W0(1r)
Y
rW 0(1W0)
学习交流PPT
9
由上式可以看出,如果丢失单元的均值与
抽样单元的均值相同,即
r
1
,则估计量
Y
是目标变量 Y 的无偏估计。
r 反之,如果 r 1 ,偏倚状况则随着
●使用多个抽样框进行抽样。
学习交流PPT
11
§11.3 无回答误差
一、概念
无回答误差是指在调查中由于各种原因, 调查人员没能够从入选样本的单元处获得所需 要的信息,由于数据缺失造成估计量的偏差。
无回答误差是一种重要的非抽样误差,这 种现象十分普遍,对估计量的危害也比较大, 所以国际上对这方面的讨论一直比较热烈,目 前这种讨论还在继续。
相关文档
最新文档