抽样调查-第11章 调查中的非抽样误差

合集下载

抽样调查答案

抽样调查答案

抽样技术第1、2章试题一、单选题1.非概率抽样的优点(D)A.能计算抽样误差B.能从概率的意义上控制误差C.样本数据能对总体情况进行推断D.操作简单,不需要抽样框,经济、快速,调查数据的处理也容易2.概率抽样与非概率抽样的根本区别是(B)A、是否能保证总体中每个单位都有完全相同的概率被抽中B、是否能保证总体中每个单位都有事先已知或可以计算的非零概率被抽中C、是否能减少调查误差D、是否能计算和控制抽样误差3.以下哪种抽样不属于非概率抽样(C)A、判断抽样B、方便抽样C、不等概率抽样D、配额抽样3.抽样调查的根本功能是(C)A、获取样本资料B.、计算样本资料C、推断总体数量特征D、节约费用4.下列不属于概率抽样的是(B)A、不等概率抽样B、滚雪球抽样C、系统抽样D、整群抽样5.下列抽样框中不属于名录框的是(A)A、时间B、学生名单C、公司名录册D、电话号码簿6.用样本统计量对总体参数进行估计时产生的误差是(C)A、总体方差B、样本方差C、估计量方差D、偏倚7.以下抽样方法不属于非概率抽样的是(C)A、目的抽样B、随意抽样C、随机抽样D、判断抽样8.下列说法错误的是(C)A、对于无偏估计量,均方误差等于方差B、抽样误差是抽样方法本身所引起的误差,是由于样本不能完全代替总体而导致的误差C、抽样方差是依据样本方差计算,而方差估计量是依据总体方差计算D、抽样标准误差是抽样方差的平方根9.下列关于非概率抽样和概率抽样说法正确的是(A)A、非概率抽样的一个重要应用是充当预调查角色,作为开发概率抽样的厨师步骤。

B、概率抽样是指按照一定的概率以随机原则抽取样本,也称为等概率抽样。

C、随机与随便的本质区别就在于,是否按照给定的抽样概率,通过一定的随机化程序抽取样本单元。

D、非概率抽样的偏倚较小,有利于评价样本的代表性。

10.概率抽样中的基本抽样方法不包括(C)A、简单随机抽样B、分层抽样C、定额抽样D、整群抽样11. 下列属于总体参数的是(B )A 、)y y (ˆn 21+++=L y nN Y B 、)(121N Y Y Y NY +++=L C 、)(n1ˆ21n y y y P +++=L D 、∑∑===ni in i i x y R 11/ˆ 12. 抽样框的具体表现形式不包括(B )A 、区域框B 、初级框C 、自然框D 、名录框13. 估计量方差是(B )A 、指按照某一抽样方案反复进行抽样,估计值的数学期望与待估参数之间的离差。

抽样调查-调查中的非抽样误差培训课件PPT课件

抽样调查-调查中的非抽样误差培训课件PPT课件

根据非抽样误差的来源、性质 可分为以下三类:
(1)抽样框误差,即由不完善的抽样框引起的
误差; (2)无回答误差,即由于种种原因没有从被调 查单元获得调查结果,造成调查数据的缺失; (3)计量误差,即所获得的调查数据与其真值 之间不一致造成的误差。
§11.2 抽样框误差
一、概念
抽样调查中的总体有两个: 目标总体—调查研究对象的全体。 抽样总体—从中抽取样本的总体。 (即抽样框) 理想抽样框的标志是目标总体和抽样总 体完全重合。否则抽样框就是不完善的。
●抽样框存在的问题,有些是不容易解决的。 因此抽样框的维护、抽样框使用情况的不断 总结与研讨,对于经常性的调查项目来说是 十分必要的。
●抽样框的不完善并不是不能使用。可以进 行修补、调整。
N1
(3)抽样框误差的影响
设目标总体单元:N
抽样框中单元:N1 抽样框中丢失的单元:N0
N=N1+N0 ■ 总体总量的估计 总体总量的真值是:
W0 (Y1 Y0 ) W0 (1 r)
Y
rW0 (1 W0 )
由上式可以看出,如果丢失单元的均值与
抽样单元的均值相同,即
r
1
,则估计量
Y
是目标变量 Y 的无偏估计。
r 反之,如果 r 1 ,偏倚状况则随着
的变化而变化。
Y
三、不完善抽样框的使用
抽样框不完善并不是不能使用,因为构造一个完 善的抽样框有时是非常困难的。使用不完善抽样框时 若能采用一些补救措施,有助于减小抽样框误差。主 要采用以下三项补救措施:
ቤተ መጻሕፍቲ ባይዱ
N N1 N0
R1
N1 N
, R0
N0 N
则总体均值为: Y R1Y 1 R0Y 0

抽样技术-课件全-抽样技术-第11章全文

抽样技术-课件全-抽样技术-第11章全文
CPS的样本轮换采用的是4—8—4模式,即一个 住户单位在连续的4个月内接受调查,在接下来 的8个月中退出样本,然后再接受连续4个月的调 查,最终退出样本。轮换方案的设计使得具有相 同特征的住户单位替换退出的住户单位。
CPS的样本轮换具有如下主要特征
1.在任何一个月内,都有八分之一的住户单位第一次接受 调查,八分之一的住户单位第二次接受调查,如此下去
2.每个月都有新的样本组代替从样本中永久退出的老样本 组
3.每个月都有一个样本组在8个月的闲置后重新接受调查。 重新接受调查的样本组代替了刚刚退出,进入闲置期的 样本组
4.设计保证了每个样本单元在两个年份的4个相同月份中 接受调查
5.在连续的两个月内,有四分之三的样本是相同的;在连 续的两年中,有二分之一的样本是相同的。
劳动力特征
3. 抽样时以州为总体,因而设计也是以州为总体的设 计
4. 样本量由变异系数CV及可靠性要求所决定 5. 在失业率为6%的自定义下,各州对变异系数的要求 在8%—9%之间。这样就能保证进行全国估计的变异系 数控制在1.8%之内
11.2.2第一阶段的抽样
第一阶段的抽样涉及三个方面的工作。这些工 作是:初级抽样单元(PSU)的界定;将初级抽 样单元PSU分层;PSU的抽选
11.4.5 广义方差(Generalized Variance)
广义方差函数GVF用于产生人口总量x估计值的估计方差。 函数形式为
Var( Xˆ ) aX 2 bX 式中,a和b是用最小二乘法得到的估计参数。该模型的原理是假定x的方差可以表示为简 单随机样本的方差与设计效应(deff)的乘积。设计效应deff是指某一复杂抽样设计相对于
第11章 设计与方法-美国CPS案例
美国人口现状调查(Current Population Survey,简称CPS)被认为是全国性大规模居 民住户抽样调查的典范。

第10章 非抽样误差

第10章 非抽样误差

二、无回答误差的统计影响
• 导致估计量估计偏差
若无回答者与回答者在调查项目的数量特征上存在差异,这种无回答 就会导致无回答偏差
E ( y回答 ) Y Y回答 (
N回答 N
Y回答
N 无回答 N
• 降低估计效率
N 无回答 Y无回答) (Y回答 Y无回答) N
无回答减少了实际调查的样本数量,因而扩大估计量的方差,导致估 计效率降低
s
1 ˆ i i
yi
关于加权的一些注意事项
• 要求很高:即假定每一个加权单元中,回 答者和无回答者是相似的,也就是说不管 同一加权组中各单位的回答值是否相等, 它们回答的可能性都相等。 • 加权法可能会改进估计量,但它并不能消 除所有的无回答偏差。 • 常用于处理单位无回答,而非项目无回答
5.插补法(imputation method)
2
从而估计量方差增大的量为: n1 2 2 2 1 n n1 S n S S r0 2 2 =S = S n1 = n n1 n n n
1
n1 n0 其中 r 0 = = 1- n 为样本无回答率。 n
1
估计量方差增大的程度则为:
n1 r0 -1= (1 r 0) n
在这种情况下,为了达到抽样方案所 规定的抽样估计效果,就需要增加样本 N0 容量。如果总体无回答率为 R 0 = ,那 n N n 么样本容量应该确定为 = (1 R ) 。
四、无回答的补救措施
• • • • • 替代法 汉森与赫维茨(Hansen and Hurwitz,1946)方法 复制估算法 加权调整法 插补法
1.替代法
• 访员可以在实际调查现场选择一个替代单位或使 用事先准备的指定替代单位 • 1975年密歇根州进行的物品滥用情况调查 (Michigan Survey of Substance Abuse)就是为 了估计在前一年内使用过16类物品的人数。根据 抽样设计,该调查采用分层多阶段抽样对2100个 住户进行了访问。对每一个住处都重复访问3次, 若仍没有人则尝试其右侧的住户,接下来再尝试 左侧住户。

第十章(非抽样误差)

第十章(非抽样误差)

西蒙斯随机化回答模型
沃纳模型中随机化回答的两个问题是同一敏感问题的两个方面,有些被 调查者仍可能有疑虑不肯合作,而且从精度方面考虑,当P与0.5很接近 时,方差大,而太远,增加了疑虑。所以西蒙斯(W.R.Simmons)进行了 改进,将第二个问题改为与所要调查的敏感性问题完全无关的另一个 非敏感性问题。西蒙斯随机化回答模型中两个问题一般表述为: I 你具有特征A吗? II 你具有特征B吗? 其中特征A为敏感性问题,特征B为无关问题。需要估计的是特征A的比例, 特征B的比例为在设计时要求已知。两个问题在随机化过程中出现的比例 仍假设为P: (1-P),其中P为已知。 仍以调查考试作弊为例,两问题的设置
• 例:某电影公司调查学生每月看电影的次 数,随机抽取了1000人, • 进行问卷调查,其中800人作了回答,回答 的均值为2.5;若对无回答 • 的200人中,又随机抽取了50人进行面访, 结果这50人的平均每月看 • 电影次数为1.2次,求偏倚的估计值。
此例指出了调整无回答误差的一个途径。即可通过多次访问。
2.
3.
根据非抽样误差的来源、性质和处理方法不 同常分为以下三类: (1)抽样框误差 (2)无回答误差 (3)计量误差
抽样框误差
抽样框:一份包含全部抽样单元的清单或图示 ( 抽样框是用来抽取抽样单元的依据。) 目标总体:希望从中获取信息的总体 调查总体(抽样总体):实际调查所覆盖的总体。
理想状态下,两个总体应该完全一致。调查总体与目标总体 一般不完全相同。因此就产生了抽样框误差。主要如下
若用Ny1估计总体总和,偏倚为 E ( Ny1 ) Y NR0 (Y1 Y0 ) 以上两种估计量的相对偏倚都是 R0 (Y1 Y0 ) / Y
根据以上分析,无回答的偏倚大小由两方面决定。一为回答率,二为 回答层与无回答层均值的差异。无论何种情况,降低无回答率对于减 少估计量的偏倚是重要的。

卫生统计学第十一章统计设计

卫生统计学第十一章统计设计
答案解析:实验设计四大原则是均衡原则、对照原则、重复原则和随机化原则。均衡原则是指各个处理组、对照组间除处理因素不同外其他条件相同或一致,也可称为组间齐同。
做答人数:0
做对人数:0
所占比例: 0
题号: 3 本题分数: 1.7
下列说法正确的是
A. 因抽样误差随抽样样本含量的增大而减小,所以在抽样研究中总是考虑样本含量越大越好
做答人数:0
做对人数:0
所占比例: 0
题号: 2 本题分数: 1.7
实验设计的四原则是
A. 收集、整理、分析、结论
B. 齐同、对照、重复、随机
C. 设计、操作、计算、推断
D. 对照、随机、操作、归纳
E. 对照、随机、操作、汇总
正确答案: B
D. 分组原则、随机原则、重复原则、均衡原则
E. 对照原则、随机原则、分组原则、均衡原则
正确答案: A
做答人数:0
做对人数:0
所占比例: 0
题号: 12 本题分数: 1.7
将实验和对照在同一受试对象身上进行的对照称为
A. 空白对照
B. 实验对照
做答人数:0
做对人数:0
所占比例: 0
题号: 14 本题分数: 1.7

将受试对象完全随机分配到各个处理组中进行实验观察或分别从不同总体中随机抽样进行对比观察,此种设计为
A. 随机区间设计
B. 完全随机设计
C. 配对设计
D. 配伍组设计
E. 以上均不对
做答人数:0
做对人数:0
所占比例: 0
题号: 7 本题分数: 1.7
抽样调查必须遵循

市场调查中非抽样误差的产生和控制

市场调查中非抽样误差的产生和控制

市场调查中非抽样误差的产生和控制摘要:非抽样误差直接与市场调查的准备阶段、抽样阶段、问卷设计阶段、实地访问阶段、统计处理阶段等各阶段的工作质量好坏存在密切的关联。

本文在具体分析这些阶段导致非抽样误差产生的工作情形后,提出了科学设计调查方案、重视对调查员的培训和管理、减少被调查者误差和做好调查资料的汇总工作等几方面控制非抽样误差的对策。

关键词:非抽样误差;调查方案;调查员;被调查者一、非抽样误差的产生非抽样误差产生的原因多种多样,尤其在实施调查过程中最为常见。

非抽样误差直接与调查的准备阶段、抽样阶段、问卷设计阶段、实地访问阶段、统计处理阶段等各阶段的工作质量好坏存在密切的关联。

1.准备阶段准备阶段是整个调查的起始阶段,准备阶段的主要任务是:确定调查任务,设计调查方案,组织调查队伍。

调查设计者首先要列出具体研究目标,从而确定所要研究的问题和识别研究的总体,最后明确调查任务并给整个调查活动一个纲领。

具体说来,设计调查方案包括调查指标的设计、调查总体方案的设计和调查方案可行性研究三方面的内容。

在本阶段可能产生误差的工作主要有:(1)调查设计者可能误解了主办者的目的意图,制定了错误方针,误导研究方向。

(2)目标总体与实际的调查总体不一致。

例如,进行电话访谈时,社区周边的居民用户电话号码可能没有列到电话号码簿中,另一些用户可能已经搬迁而导致电话为空号,因此目标总体和被调查总体出现一定的差异。

(3)调查设计者没有事先预先设定好调查的具体步骤和时间表、可能出现的问题以及未事先培训和挑选恰当的调查员,因而导致计量质量的下降。

(4)预算的限定。

任何调查都有费用,市场调查也同样。

并且由于市场调查的主办者一般都是企业,因此费用上的限制就更为明显。

如果资金短缺,只能缩小研究范围或进一步寻求资金。

上述第一点是调查设计者误解调查主办者的目的,这必然导致系统误差,使调查信度和效度下降。

第二点由于空号的原因,造成缺失值误差。

第三点由于没有预先设定调查步骤和很好的培训访问员,即没有制定标准化的市场调查结构,这样也会降低信度。

第十章 非抽样误差(抽样理论与方法,河南财政学院)

第十章 非抽样误差(抽样理论与方法,河南财政学院)

费用函数为
c 0n 0 cn c1n1 k c是进行第一次调查,每个样本单元的平均费用 c1 是对第一次调查作出回答的问卷进行数据处理的费用 c 0 是进行第二次调查并对问卷进行数据处理的费用
c 0 W0n 则平均总费用 C T cn c1 W1n k c 0 W0n (c c1 W1 )n k
10.4 敏感性问题调查 与随机化回答技术
一、 敏感性问题: 指所调查的内容涉及私人机密而不愿或不便于公开 表态或陈述的问题。
河南财经学院
二、沃纳随机化回答模型 例:某大学欲调查本科生考试作弊现象。从本科生中抽取 100个学生进行调查。在一个密闭容器中有完全相同的 三个球,其中有2个红球,1个白球。抽中红球就回答问 题1,抽中白球就回答问题2。设计的问题为:
1 ' ' Y (n 1 y 1 n 0 y 0 ) w 1 y 1 w 0 y 0 n

V( Y) V1 ( y ) E1 ( w 0
S0
2

k 1 2 1 f 2 k 1 2 s0 ) S W0 S0 n n n
为总体中无回答层的方差
n0 k m
河南财经学院
2
2
给定V,使C达到最小值,得 n opt 河南财经学院
例:第一个样本用邮寄方式取得,预计回答率为50%。希望 达到的精度月容量为1000的简单随机样本(全部回答) 所达到的精度一样。邮寄一张问卷的费用是0.1美元。派 人作一次上门调查的费用为4.10美元。应当寄出多少份 问卷?对不回答者派人上门调查 的百分比试多少?(假 定 S 2 S 0 2 ,且N很大) 解: c 0.1,c 0.4,c 4.5,S 2 S 2
河南财经学院

统计学中的抽样误差与非抽样误差

统计学中的抽样误差与非抽样误差

统计学中的抽样误差与非抽样误差【统计学中的抽样误差与非抽样误差】统计学作为一门重要的科学方法,广泛应用于各个领域。

在进行数据分析和研究过程中,抽样误差和非抽样误差是其中关键的概念。

本文将从定义、影响因素、测量方法以及减少误差的策略等方面,深入探讨统计学中的抽样误差与非抽样误差。

1. 抽样误差的定义和影响因素抽样误差指的是从总体中选取样本所导致的估计误差。

在真实总体很大的情况下,由于实际调查的限制,我们很难直接获得全体数据,因此需要采用抽样方法。

抽样误差的大小直接关系到样本数据的代表性和准确性,主要受以下因素影响:(1) 样本容量:样本容量越大,抽样误差越小。

(2) 抽样方法:合理的抽样方法可降低抽样误差。

(3) 抽样框的准确性:抽样框是指包含总体的框架,若抽样框不准确,则会增加抽样误差。

2. 非抽样误差的定义和影响因素非抽样误差指的是除抽样误差以外的其他误差来源,主要包括调查设计、数据采集过程中的操作和测量等误差。

非抽样误差的大小直接影响着最终统计结果的准确性,以下是一些常见的非抽样误差来源:(1) 调查设计偏差:调查设计的不完善或缺陷会引入误差。

(2) 非回应误差:调查对象拒绝参与或无法联系到的情况。

(3) 数据处理误差:包括数据录入、清洗和分析过程中的误差。

3. 抽样误差和非抽样误差的测量方法对于抽样误差,一种常用的测量方法是计算标准误差。

标准误差是样本观测值与总体参数估计值之间的差异度量,可以用来评估样本数据的准确性和稳定性。

同时,还可以利用置信区间来估计总体参数的范围和可信度。

对于非抽样误差,常用的测量方法是检查数据质量和进行误差分析。

数据质量的检查包括对数据的完整性、准确性和一致性等方面进行评估,并采取纠正措施。

误差分析可以通过对调查过程的审查和再次检测等方式,发现和纠正非抽样误差。

4. 减少抽样误差和非抽样误差的策略在实际研究和调查中,减少抽样误差和非抽样误差是提高数据分析效果和可信度的关键。

非抽样误差产生的原因及控制.

非抽样误差产生的原因及控制.

非抽样误差产生的原因及控制抽样调查是目前我国搜集统计资料的一种主要方法,但抽样调查的结果始终要受到抽样误差和非抽样误差的影响。

抽样误差是由于样本随机性引起的,根据样本数据计算的对总体目标量的估计是随样本而异的,由此产生的误差即是抽样误差。

抽样误差是不可避免的,其大小可以通过调查样本容量,改变抽样方式等加以控制。

非抽样误差是指除抽样误差以外。

由于各种原因引起的。

非抽样误差由于其产生的原因及其复杂且具有不易观测和非随机性等特点而难以控制。

两种误差构成了总方差,两者之间呈此消彼长的关系。

一般情况下同时减少两类误差是很困难的。

非抽样误差占据了很大的一部分,怎样通过降低非抽样误差,从而降低总方差,有着非常重要的现实意义。

一、非抽样误差分类自1902年K?皮尔逊首次讨论非抽样误差这个概念以来,在非抽样误差的分类上。

主要有以下几种:(一)希里1957年把非抽样误差分为3类:1、范围误差:指由于样本单位的遗漏或重复产生的误差。

2、确定误差:指在资料收集、编辑、编码和计算输入阶段所产生的样本单位特征值的测量误差和回答偏差。

3、替代误差:由于对缺失数据进行替代和(或)在最后估计阶段对缺失数据进行替代所产生的误差。

(二)科克伦把非抽样误差分为3类:1、对被抽选出的样本中的一些单位未能进行计量而产生的误差。

2、一个单位的计量误差。

3、对调查结果进行编辑、编码和汇总过程中产生的误差。

(三)戴伦纽斯1988年把非抽样误差按调查活动分为3类:1、资料搜集过程中产生的误差。

2、测量过程中产生的误差。

3、资料加工过程中产生的误差。

在我国比较常见的分类方式有两种:第一,按性质和处理方法不同分为抽样框误差、无回答误差和计量误差。

第二,按产生的环节不同分为设计误差、调查误差和汇总误差。

二、各类非抽样误差产生的原因1、调查设计过程中引起的误差设计阶段误差是由于这一阶段某些失误而导致调查结果产生的偏误,调查设计有两个主要环节,即调查设计和抽样设计。

调查中的误差与结果解释

调查中的误差与结果解释

调查中的误差与结果解释导言:调查是社会科学研究中常用的方法之一,通过收集和分析数据来获取有关群体、社会和市场等相关信息。

然而,在进行调查研究时,难免会存在一定误差,这些误差可能会对结果的解释产生影响。

本文将从样本误差、测量误差、非回应误差、抽样误差、分析误差和解释误差等六个方面,对调查中的误差及其对结果解释的影响进行详细论述。

一、样本误差1. 概念解释及产生原因:样本误差是指从总体中选取的调查样本与总体之间的差异。

样本误差的产生原因包括样本选择的不合理性、样本量不足、样本偏倚等。

2. 影响结果解释的因素:样本误差会导致对总体的估计产生偏差,进而影响结果的解释。

比如,偏小的样本容量可能导致抽样误差加大,从而使结果的波动性增加,解释结果时需谨慎。

二、测量误差1. 概念解释及产生原因:测量误差是指调查工具或操作方法导致的实际量和被测量的量之间的差异。

测量误差的产生原因包括调查问卷设计不当、答题者误解问题、回答不准确等。

2. 影响结果解释的因素:测量误差可能导致结果的不准确性,从而影响结果的解释。

解释结果时,需要考虑测量误差的影响,以免对研究结论做出错误的解释。

三、非回应误差1. 概念解释及产生原因:非回应误差是指在调查过程中,一些被选择的个体拒绝或未能回答调查的情况下产生的误差。

非回应误差的产生原因包括个体主观意愿、调查方式不当等。

2. 影响结果解释的因素:非回应误差可能导致样本的不完整性,从而影响结果的解释。

需要在解释结果时,对样本的非回应情况进行分析,并以合适的方式报告非回应误差的影响。

四、抽样误差1. 概念解释及产生原因:抽样误差是指样本可能无法完全代表总体的情况下,由此产生的误差。

抽样误差的产生原因主要包括抽样方法不当、抽样过程的偏差等。

2. 影响结果解释的因素:抽样误差可能导致样本的不具备代表性,从而影响结果的解释。

解释结果时,需要对抽样误差进行估计,并考虑其对结果的影响。

五、分析误差1. 概念解释及产生原因:分析误差是指对收集到的数据进行统计分析过程中产生的误差。

第11章调查中的非抽样误差

第11章调查中的非抽样误差
(四)插补调整
是指在数据整理阶段利用调查结果,采用一定的方式 为无回答的缺失值确定一个合理的估计值,插补到 原缺失数据的位置上。
实际中一般涌均值插补。
补充:敏感性问题调查与随机化回答技术
1、敏感性问题(sensitive question)是指所调查的 内容涉及私人机密而不愿意或不便于公开表态或 陈述的问题,如:社会上的卖淫嫖娼、赌博吸毒、 偷税漏税、婚前性行为等等。
(3)相对偏倚为:
W0(Y1 Y0) W0(1 r)
Y
rW0 (1W0)
分析
1、r=1,丢失单元均值和抽样单元均值相同 时,估计量是目标变量的无偏估计;
2、 r 1 偏倚状况随着r的变化而变化。
r>1估计偏低,r<1估计偏高。
三、不完善抽样框的使用
(一)实行连接
在调查方案设计阶段制定一定的规则,使没有包 含在抽样框中的目标单元与包含在抽样框中的 单元相连接。
二、无回答产生的原因及影响
在数据收集过程中都可能产生无回答误差: 1、查找阶段由于地址不详或已经搬迁而无法找到被
调查者,调查者不熟悉地址等等; 2、接触阶段被调查者由于客观原因无法接受调查或
由于主观原因不愿意接受调查; 3、采访阶段,被调查者对于某些问题不愿意提供答
案或调查人员粗心遗漏一些项目或调查中断等等。
如:对不在抽样框中的学生与被抽中的学生实行 连接
(二)惟一连接 对于抽样框中存在的复合连接,在方案设计中规
定只有唯一的单元被抽中。
(三)使用多个抽样框
设样本来自A、B两个抽样框,两个抽样框的单元总 数分别为NA,NB,目标总体被分成三个部分:区域a、 区域b、区域ab
1、利用抽样框A的样本对区域a、区域ab进行事后分 层的总和估计为:

论抽样调查中非抽样误差及其控制1

论抽样调查中非抽样误差及其控制1

论抽样调查中非抽样误差及其控制论抽样调查中非抽样误差及其控制2009-08-24 19:31[摘要] 在抽样调查中,非抽样误差产生的原因十分复杂,且种类繁多,其对整个抽样调查的影响是不容忽视的。

本文对各种非抽样误差产生的原因进行了全面、深入的分析,并提出了防范非抽样误差的具体措施。

[关键字] 抽样调查;非抽样误差;抽样误差;控制措施[中途分类号] F222.1 [文献标识码] A [文章编号] 1008—9306(2001)05—0056—03抽样调查是目前我国收集统计资料的一种主要方法,但抽样调查的结果始终要受到抽样误差和非抽样误差的影响。

其中抽样误差是不可避免的,它是由样本的结构与总体结构的随机差异导致产生的,其大小可以通过调整样本容量、改变抽样方式等加以控制;非抽样误差由于其产生的原因复杂而且又不易预测和非随机性等特点而难以控制,成为影响抽样调查结果准确性的重要原因。

因此,如何控制和减少抽样调查中的非抽样误差,确保抽样调查资料的质量,是我国统计界普遍关注的一个问题。

非抽样调查误差的产生及分解非抽样误差产生的原因很多,从抽样设计,调查问卷的制定,调查人员的素质,到调查数据的处理,每一个环节都可能出现误差。

根据非抽样误差产生的方式和出现的阶段不同,可以将非抽样误差分解为以下几类:非抽样误差按其产生的方式不同,可以分为登记性误差和系统性误差登记性误差是指在调查过程中,由于工作出现失误而造成的误差。

产生登记性误差的主要原因可以归纳为两类:一类是由于计量手段的局限性所带来的难以绝对符合实际而出现的误差;另一类是由于登录、计算、抄报、汇总错误及被调查者所报不实或调查者有意虚报满报等所带来的误差。

系统性误差,是指在抽取样本单位时,由于加入主观意愿,破坏了随机抽样原则使样本不足以代表总体而造成的误差。

非抽样误差按其产生的环节不同,可以分为设计误差、调查误差和汇总误差设计误差是指在抽样设计阶段产生的误差。

产生设计误差的主要原因是由于采用了有缺陷的抽样框或者是调查问卷设计不科学所造成的。

第11章 抽样设计

第11章 抽样设计

第11章抽样设计抽样设计 教学目标:1.了解抽样的基本术语2.了解采用抽样的原因3.了解抽样的基本程序4.描述概率抽样和非概率抽样技术5.描述样本容量的确定方法第 第 11 11章 v v v v v抽样设计抽样设计 了解抽样的基本术语了解采用抽样的原因了解抽样的基本程序描述概率抽样和非概率抽样技术描述样本容量的确定方法开篇案例:开篇案例:1936年美国总统大选前,《文摘 向的明信片,然后依据收回的200万份调查结果极其自信地预测共和党候 选人兰登将以领先15%的得票率战胜民主党候选人罗斯福而当选总统 而,选举结果使预测者们大失所望: 且其得票率反超过兰登《文摘》杂志也因此而关了门 是什么原因导致《文摘》预测失败呢 对抽样的总体缺乏认识和明确界定也是极为重要的原因 样所依据的并不是美国全体已登记的选民名单 志用户作为调查对象。

对象明确,才能有的放矢 面的信息资料。

只有明确调查总体, 抽样的样本符合要求。

总统大选预测失败 文摘》杂志寄出1000万张询问投票倾万份调查结果极其自信地预测共和党候 的得票率战胜民主党候选人罗斯福而当选总统。

然 :获胜者不是兰登,而是罗斯福,并 杂志也因此而关了门。

预测失败呢?除了邮寄方式上的原因外, 对抽样的总体缺乏认识和明确界定也是极为重要的原因。

因为它当时抽 样所依据的并不是美国全体已登记的选民名单,而是以订阅《文摘》杂 才能有的放矢,取得真实、可靠、全 ,才能从中进行正确的抽样,并保证抽样设计概述 v 抽样的基本术语 v v 抽样与全面调查v抽样设计概述采取抽样调查的原因开发样本计划的程序v 总体:由市场研究项目的目标明确规定的整个集合 v 样本和样本单位:™样本是总体的一个子集, ™样本单位是组成样本的基本单位v 抽样误差:™抽样误差是在调查中因使用的样本而发生的任何误差 ™由两个因素引起:①样本选择的方法 抽样的基本术语由市场研究项目的目标明确规定的整个集合。

商业调查中非抽样误差来源及控制研究

商业调查中非抽样误差来源及控制研究

因素,不可以通 过增大样本量来控制 ,它可 以避免。非抽样误 差 委会的比例严重扩大 ,这必 然引起最终 收视率数据的偏差。 包括 :抽样框误差 ;无 回答误 差 计量误 差。
() 3 抽样框老化。 统计数据调查具有很强的时效性 随着时间
市 场 灞 研
商业调查 中非抽样 误差来源及控 制研 究
I I I王爱珍
[ 摘
山东泰 安高 新区 经济发 展局 时

泰 山医学 院管 理学 院
要]商业调查大部 分都是抽 样调 查,调查过程中天然存 在的抽样误 差和调查执 行 中的非抽 样误差是影响数据质 量
的 两 大误 差 类 型 。 确 定 合 理 的抽 样 方 案后 ,调 查数 据 质 量控 制 的重 点 就放 在 了减 少 非抽 样 误 差 上 。 本 文 即 针对 抽 样 调 查 两
般 来 说 .抽 样 框 误 差 有 以 下 几 种 类 型 :
() 1 不能覆盖 目标 总体单位 。 不能覆盖 目标 总体单位 , 目标 指
被抽 中的概率为零 .数据丢失 。例如 :在某城市 的抽样方案 .目
标 总体 同 上 。 由于 该 城 市 进 行 行政 区划 的改 变 .原来 的 四个 城 区
大误 差 类 型 展 开 分析 讨 论 ,重 点 分析 非 抽 样 误 差 来 源 , 并 发掘 其 有 效控 制 的 可 行 性 方 法 。 [ 词 】商 业 调 查 非 抽 样 误 差 质 量控 制 关键

引子
实际情况之 间的差异 ,决定 了我们在 控制 非抽样误差上的努力永
在商业调 查的质量管理实践 中.通过组织专家评审会的方式 不断完善 抽样方案 尽可能地减少抽样误差。其抽样方案经过 专

抽样调查答案

抽样调查答案

抽样调查答案本页仅作为文档封面,使用时可以删除This document is for reference only-rar21year.March抽样技术第1、2章试题一、单选题1.非概率抽样的优点(D)A.能计算抽样误差B.能从概率的意义上控制误差C.样本数据能对总体情况进行推断D.操作简单,不需要抽样框,经济、快速,调查数据的处理也容易2.概率抽样与非概率抽样的根本区别是(B)A、是否能保证总体中每个单位都有完全相同的概率被抽中B、是否能保证总体中每个单位都有事先已知或可以计算的非零概率被抽中C、是否能减少调查误差D、是否能计算和控制抽样误差3.以下哪种抽样不属于非概率抽样(C)A、判断抽样B、方便抽样C、不等概率抽样D、配额抽样3.抽样调查的根本功能是(C)A、获取样本资料B.、计算样本资料C、推断总体数量特征D、节约费用4.下列不属于概率抽样的是(B)A、不等概率抽样B、滚雪球抽样C、系统抽样D、整群抽样5.下列抽样框中不属于名录框的是(A)A、时间B、学生名单C、公司名录册D、电话号码簿6.用样本统计量对总体参数进行估计时产生的误差是(C)A、总体方差B、样本方差C、估计量方差D、偏倚7.以下抽样方法不属于非概率抽样的是(C)A、目的抽样B、随意抽样C、随机抽样D、判断抽样8.下列说法错误的是(C)A、对于无偏估计量,均方误差等于方差B、抽样误差是抽样方法本身所引起的误差,是由于样本不能完全代替总体而导致的误差C、抽样方差是依据样本方差计算,而方差估计量是依据总体方差计算D、抽样标准误差是抽样方差的平方根9.下列关于非概率抽样和概率抽样说法正确的是(A)A、非概率抽样的一个重要应用是充当预调查角色,作为开发概率抽样的厨师步骤。

B、概率抽样是指按照一定的概率以随机原则抽取样本,也称为等概率抽样。

C、随机与随便的本质区别就在于,是否按照给定的抽样概率,通过一定的随机化程序抽取样本单元。

D、非概率抽样的偏倚较小,有利于评价样本的代表性。

第十一章 抽样

第十一章    抽样

总体参数和样本统计量

总体参数:反映总体数量特征的指标。其数值是唯一的、确定的。 样本统计量:根据样本分布计算的指标。是随机变量。
总体
样本

参数

统计量 平均数 标准差、方差
X
、2
p
S、 S2
( x x )2 s2 n 1 ( x x )2 f s2 f 1
小故事:一次失败的二战士兵调查



二战期间,美国军方委托社会学家对军队士兵进行一项抽样调查。 在进行抽样之前,研究者对军方提供的总体名单未作认真考察, 他们在不知道该单位名册是按照十个士兵组成的一个班内的军队 军衔级别进行排序的(如上士、中士和下士)的情况下,就确定 将名单混在一起作为抽样框。 具体调查过程中,研究者按照等距抽样的规则计算出抽样间距是 10,于是在每十个士兵选择出一个作为样本,这个抽样间距正好 与班内的军衔级别重合,结果导致样本中的士兵全部是上士,中 士和下士一个都没有。 显然,这个抽样没有实现具有代表性的样本,而是一个上士士兵 调查的样本,最后的调查结果不是说明所有士兵的情况,最多只 能说明军衔是上士的那些士兵的情况。调查宣告失败。
63 32 79 72 43 93
74 50 07 45 51 25
71 37 78 93 09 23
47 71 44 09 03 93
62 32 53 15 90 78
67 75 38 62 74 47

要从94家上市公司中抽取12家作为调查样本,可 先将94空公司由1至94编号N=94,然后在乱数表上 任意上一点一行(或一列)中一个数字作为起点 数,从这个数字按上下或左右顺序读起,每出现 两个数字,即为被抽中的单位码号。假定本例是 从第四行左边第五个数字向右顺序读起,则所抽 取单位是:68 27 31 05 03 72 93 15 55 59 56 35 ,此过程中的96因大于94,舍 去不用是因为在顺序抽取的过程中,遇到比编号 大的数字,应该舍去。

抽样调查误差中非抽样误差分析

抽样调查误差中非抽样误差分析
又 难 以 控 制 。比 如 即 使 采 用 全 面 调 查 , 有 抽 样 误 差 , 非 抽 没 而
样 误 差 足 够 大 时 ,也 会 使 全 部 的 调 查 结 果 被 歪 曲 ,因 而 在 大 样 本 的 抽 样 调 查 中 , 抽 样 误 差 成 为 影 响 调 查 结 果 可 靠 程 度 非
维普资讯
工 作 研 究
【 章 编 号 】0 一5 8 (0 2 0 文 1W 9 8 2 0 )8—0 2 O 0 1一 1
山 西统 计 2 0 第 8 02年 期
抽 样 调查 中的误差 分 为抽 样误差 和 非抽样 误差 , 性质 其
有 所 不 同 。 样 误 差 是 一 种 随 机 误 差 , 有 系 统 性 的偏 差 , 抽 没 误
的主要 问题 。
引 起 非 抽 样 误 差 的 原 因 很 多 , 抽 样 设 计 ,调 查 问 卷 的 从 制 定 , 查 人 员 的 素 质 , 至 数 据 的 处 理 , 一 个 环 节 都 可 能 调 直 每
些 敏 感 性 问 题 ,如 涉 及 被 调
出现 误 差 , 围非 常广 , 范 尤其 是 当被调 查者 是人时 , 与心理 它
作 疏 忽 所 产 生 的错 误 和 漏 报 , 没 有 按 规 定 对 现 场 的 实 物 进 行 观 察 ,只听信 被调查 对 象的 口 头 回 答 等 等 。( ) 意 舞 弊 。 2故 主 要 表 现 为 调 查 员 根 本 没 有 按 规 定 进 行 调 查 ,而 是 擅 自编 造 和 篡 改 调 查 资 料 ,以 达 到 自 己 省
理 较 强 , 调 查 问 题 总 是 回答 “ ” 有 的 态 度 淡 漠 , 调 查 问 对 否 , 对 题 的 回 答 是 “ 所 谓 ” “ 可 以 ” 由个 人 态 度 引 起 误 差 。 无 、还 等 3 、实 施 调 查 主 管 工 作 失 职 造 成 的 误 差 ,它 主 要 表 现 在 :
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

无回答的影响: 回答层(N1) 总体(N) 无回答层(N0)
N N1 N 0
则总体均值为:
N0 N1 R1 , R0 N N
Y R1Y 1 R0 Y 0
回答层样本(n1 )
总体样本(n)
无回答层样本(n0 )
根据回答层单元计算出的样本均值为 y1
用 y1作为总体真值 Y 得估计量,其偏倚 为:
(m tl s, m tu s)
式中 t l 和 t u分别为根据预先确定的置信度得到 的标准正态分布的上限和下限值。落在这个区
间之外的观测值被认为是离群值。
三、离群值的处理
如果在调查进行中发现离群值,就要及 时处理,例如进行回访核实,对错误进行更 正。
如果在调查完毕后的审核中发现离群值, 通常对离群值采用插补处理,即将离群值剔 除,然后使用插补法调整。 如果在审核时没有进行处理的离群值可以 在估计的时候处理。估计时有以下三种方法 处理离群值:
第十一章 调查中的非抽样误差
Hale Waihona Puke §11.1 引言非抽样误差是指除抽样误差以外的,由于
各种原因引起的误差。 在概率抽样、非概率抽样、其他全面调
查和非全面调查已及普查中,非抽样误差都 有可能存在。
同抽样误差相比,非抽样误差有如下特点:
1、非抽样误差不是由于抽样的随机性带来的,所以在 抽样调查中,它不可能随着样本量的增大而减小;
2、在抽样调查中,由于非抽样误差的影响,往往造成 估计量的有偏;
3、有些非抽样误差难以识别和测定。如抽样框是不完 善的,而调查设计人员并没有意识到; 4、有些非抽样误差成因复杂,对其研究不够,因此, 在很多时候非抽样误差比抽样误差造成的影响更严重, 对此必须引起高度重视。
根据非抽样误差的来源、性质 可分为以下三类: (1)抽样框误差,即由不完善的抽样框引起的
2、加权调整 对存在无回答数据进行补救的另一种方法 是采用加权调整。加权调整法是通过对调查中 所获得的回答数据使用加权因子,达到对数据 的调整,减小由于无回答造成的估计偏倚。 3、相关推估法
相关推估法主要用于调查中的项目无回答,
即调查单元不是完全拒绝调查,而是拒绝其中
某些项目的调查。这时可以利用回答项目的信
如果把采集数据的过程划分为查找、接触和采 访三个阶段,三个阶段都有可能出现无回答。
1、查找阶段 调查人员无法找到被调查者, 主要原因有地址不详、被调查者搬迁、调查人 员不熟悉地址; 2、接触阶段 被调查生病、对调查不感兴趣 或别的原因拒访; 3、采访阶段 调查开始后被调查者对某些问题 不愿提供答案、调查员由于粗心遗漏某些项目等
态分布的假设下也是最理想的。但是,这些估 计量对离群值非常敏感。 稳健估计量则能克服这种局限性,例如中 位数比均值更稳定,四分位数比通常的方差估 计量更稳定。
(第十一章结束)
§11.4 计量误差
计量误差是指由于种种原因,调查中所获得的 数据与真值不一致。计量误差主要成因来自于以 下几个方面:
● 设计误差(设计方面原因造成计量误差)
●被调查者误差(被调查者提供的数据失真)
● 调查者误差(现场调查人员造成的误差)
● 其他误差(由于测量工具、编码、录入)
减少计量误差的措施
●抽样框的不完善并不是不能使用。可以进 行修补、调整。
N1
(3)抽样框误差的影响 设目标总体单元:N 抽样框中单元:N1 抽样框中丢失的单元:N0 N=N1+N0 ■ 总体总量的估计 总体总量的真值是:
N1
Y Yi Yi Y1 Y0
i 1 i 1
N1
N0
现从抽样框中的N1个单元中采用简单随机 抽样抽出容量为n的一个样本,由于n取自于N1 对总体总量的估计为:
例如,若 y1 , y 2 ,, y n 是要观测的样本数 据,m 和 s 分别是侧度数据集中趋势和离散 趋势的指标,那么, yi 离数据中心的相对距 离可以定义为
| yi m | di s
tl tu
如果 d i 越过了预先确定的偏离值,那么该 观测值就被认为是离群的。 另外,离群值也可以通过下面的置信区间 进行确认:
二、抽样框误差的类型及影响
(1) 抽样框误差的类型
● 丢失目标总体单元。
● 包含非目标总体单元。
● 抽样框中的单元与目标总体单元不一一对
应。(存在一对多或多对一的情况) ●不正确的辅助信息。(如分层抽样、不等 概抽样、比率估计和回归估计等所需的辅助 信息)
(2)对抽样框误差的基本认识
●有些误差来自构成抽样框资料本身,而不 是由于抽样设计的问题。 ●抽样框存在的问题,有些是不容易解决的。 因此抽样框的维护、抽样框使用情况的不断 总结与研讨,对于经常性的调查项目来说是 十分必要的。
无回答是因为被调查者生病或很忙,无法接
受调查)
有意无回答对数据质量的影响很大,回答
者和不回答者之间往往存在系统性差异。这
种不回答不仅减少了有效样本量,造成估计 量方差增大,而且会带来估计偏倚。 无意无回答可以看成是随机的,这种不回 答虽然会造成估计量方差增大,但通常认为 不会带来估计偏倚。
二、无回答产生的原因及影响
●改变数值
这种方法首先要将样本数据按从大到小依 次排序,然后再按下面的步骤计算: 在简单随机抽样中,总体总量 Y 的无偏估 计公式为:
N Y n

y
is
i
式中,i表示样本中第i个单元,s为所有样本 的集合.
若样本数据中第k个最大值kth被认为是离 群值,单侧k次缩尾估计量就可以通过第n-k 个最大值yn-k代替这些离群值,即
从无回答的内容来看可分为:
单元无回答
(被调查单元没有参入或拒绝受调查,他
们交的是一份白卷)
项目无回答
(被调查单元虽然接受了调查,但对其
中的一些项目没有回答)
从无回答的性质来看可分为:
有意无回答
(有意无回答常常与调查内容有关,如对调
查内容反感,或涉及个人隐私不愿意回答)
无意无回答
(无意无回答常常与调查内容无关,之所以
误差;
(2)无回答误差,即由于种种原因没有从被调
查单元获得调查结果,造成调查数据的缺失; (3)计量误差,即所获得的调查数据与其真值 之间不一致造成的误差。
§11.2 抽样框误差
一、概念
抽样调查中的总体有两个:
目标总体—调查研究对象的全体。
抽样总体—从中抽取样本的总体。 (即抽样框) 理想抽样框的标志是目标总体和抽样总 体完全重合。否则抽样框就是不完善的。
息对无回答数据进行推估。
4、插补调整 在数据整理阶段,利用调查结果,采用一 定的方式,为无回答的缺失值确定一个合理 的估计值,插补到原缺失数据的位置上。 实际使用时,用得较多的是均值插补,其 方法是:首先根据辅助信息将样本分为若干 组,是组内各单元的主要特征相似。然后分 别计算各组目标变量Y的均值,将各组均值作 为组内所有缺失项的替补值
偏倚( y1 ) E( y1 ) Y
R0
Y 1 (R1Y 1 R0 Y 0 ) R0 (Y 1 Y 0 )
Y
相对偏倚 ( y1 )
R0 (Y 1 Y 0 )
由上式可以看出:无回答偏倚主要来自两
个方面:一个是回答层与无回答层之间的数量
差异 (Y 1 Y 0 ) ;一个是无回答率 R0 。
由上式可以看出,如果丢失单元的均值与
抽样单元的均值相同,即 反之,如果
Y
r 1 ,则估计量 Y

是目标变量 Y 的无偏估计。
r 1 ,偏倚状况则随着 r
的变化而变化。
三、不完善抽样框的使用
抽样框不完善并不是不能使用,因为构造一个完 善的抽样框有时是非常困难的。使用不完善抽样框时 若能采用一些补救措施,有助于减小抽样框误差。主 要采用以下三项补救措施:
进行控制的一道重要的工序,也是减少计量 误差的有效方法。审核的目的是要保证调查 所得数据的完整性、一致性和有效性。 审核可以在调查过程中的任何阶段进行: 收据数据时进行审核 (调查员在调查进行过程中根据常识和经 验,可以判断出一些问题的答案是否属于 “可接受”范围) 数据收集完毕后的审核 (审核的重点是数据的一致性审核和离群 值的检测)
N1 n Y yi n i 1 显然此时的估计是有偏的,偏倚为:

E (Y ) Y Y1 Y Y0

这表明估计量低估了总体总量,令
N0 r ,W0 N Y1
Y的相对偏倚可以写为
Y0 W0 r Y rW0 (1 W0 )
Y0
r
由上式可知,总体总和的相对偏倚取决于
三、降低无回答的措施
主要措施是预防,预防措施有: ●问卷设计得具有吸引力; ●注意适当的长度; ●充分利用调查组织单位的权威性和影响力; ●注意调查员的挑选; ●做好调查员的培训; ●注意调查过程的监控; ●奖励措施; ●再次调查。
四、对存在无回答数据的调整
调查中无回答的情况总是难以避免,由于 无回答造成数据不全,如果不加处理,就有可 能造成估计量偏倚。下面介绍几种数据调整的 方法: 1、再抽样调整 在第一次无回答的单元中随机抽取一个子样 本,通过更细致、更充分的工作,获得该子样 本的数据,作为整个无回答层的代表值。
减少计量误差需要对调查全过程进行质 量监控: (1)调查设计方面 调查问卷设计出来后, 应组织有关人员对问卷进行讨论。如果是大 型调查活动,还要在正式调查之前进行预调 查,在实践中对问卷进行检验。
(2)现场准备方面 在收集数据之前,需要 做好准备工作:招聘调查员;培训访问员; 编写调查手册。
(3)调查结果审核方面 审核是对调查质量

YW
N nk ( yi kynk ) n i 1
●调整权重
相关文档
最新文档