抽样调查-第11章调查中的非抽样误差
抽样调查答案
抽样技术第1、2章试题一、单选题1.非概率抽样的优点(D)A.能计算抽样误差B.能从概率的意义上控制误差C.样本数据能对总体情况进行推断D.操作简单,不需要抽样框,经济、快速,调查数据的处理也容易2.概率抽样与非概率抽样的根本区别是(B)A、是否能保证总体中每个单位都有完全相同的概率被抽中B、是否能保证总体中每个单位都有事先已知或可以计算的非零概率被抽中C、是否能减少调查误差D、是否能计算和控制抽样误差3.以下哪种抽样不属于非概率抽样(C)A、判断抽样B、方便抽样C、不等概率抽样D、配额抽样3.抽样调查的根本功能是(C)A、获取样本资料B.、计算样本资料C、推断总体数量特征D、节约费用4.下列不属于概率抽样的是(B)A、不等概率抽样B、滚雪球抽样C、系统抽样D、整群抽样5.下列抽样框中不属于名录框的是(A)A、时间B、学生名单C、公司名录册D、电话号码簿6.用样本统计量对总体参数进行估计时产生的误差是(C)A、总体方差B、样本方差C、估计量方差D、偏倚7.以下抽样方法不属于非概率抽样的是(C)A、目的抽样B、随意抽样C、随机抽样D、判断抽样8.下列说法错误的是(C)A、对于无偏估计量,均方误差等于方差B、抽样误差是抽样方法本身所引起的误差,是由于样本不能完全代替总体而导致的误差C、抽样方差是依据样本方差计算,而方差估计量是依据总体方差计算D、抽样标准误差是抽样方差的平方根9.下列关于非概率抽样和概率抽样说法正确的是(A)A、非概率抽样的一个重要应用是充当预调查角色,作为开发概率抽样的厨师步骤。
B、概率抽样是指按照一定的概率以随机原则抽取样本,也称为等概率抽样。
C、随机与随便的本质区别就在于,是否按照给定的抽样概率,通过一定的随机化程序抽取样本单元。
D、非概率抽样的偏倚较小,有利于评价样本的代表性。
10.概率抽样中的基本抽样方法不包括(C)A、简单随机抽样B、分层抽样C、定额抽样D、整群抽样11. 下列属于总体参数的是(B )A 、)y y (ˆn 21+++=L y nN Y B 、)(121N Y Y Y NY +++=L C 、)(n1ˆ21n y y y P +++=L D 、∑∑===ni in i i x y R 11/ˆ 12. 抽样框的具体表现形式不包括(B )A 、区域框B 、初级框C 、自然框D 、名录框13. 估计量方差是(B )A 、指按照某一抽样方案反复进行抽样,估计值的数学期望与待估参数之间的离差。
抽样调查-调查中的非抽样误差培训课件PPT课件
根据非抽样误差的来源、性质 可分为以下三类:
(1)抽样框误差,即由不完善的抽样框引起的
误差; (2)无回答误差,即由于种种原因没有从被调 查单元获得调查结果,造成调查数据的缺失; (3)计量误差,即所获得的调查数据与其真值 之间不一致造成的误差。
§11.2 抽样框误差
一、概念
抽样调查中的总体有两个: 目标总体—调查研究对象的全体。 抽样总体—从中抽取样本的总体。 (即抽样框) 理想抽样框的标志是目标总体和抽样总 体完全重合。否则抽样框就是不完善的。
●抽样框存在的问题,有些是不容易解决的。 因此抽样框的维护、抽样框使用情况的不断 总结与研讨,对于经常性的调查项目来说是 十分必要的。
●抽样框的不完善并不是不能使用。可以进 行修补、调整。
N1
(3)抽样框误差的影响
设目标总体单元:N
抽样框中单元:N1 抽样框中丢失的单元:N0
N=N1+N0 ■ 总体总量的估计 总体总量的真值是:
W0 (Y1 Y0 ) W0 (1 r)
Y
rW0 (1 W0 )
由上式可以看出,如果丢失单元的均值与
抽样单元的均值相同,即
r
1
,则估计量
Y
是目标变量 Y 的无偏估计。
r 反之,如果 r 1 ,偏倚状况则随着
的变化而变化。
Y
三、不完善抽样框的使用
抽样框不完善并不是不能使用,因为构造一个完 善的抽样框有时是非常困难的。使用不完善抽样框时 若能采用一些补救措施,有助于减小抽样框误差。主 要采用以下三项补救措施:
ቤተ መጻሕፍቲ ባይዱ
N N1 N0
R1
N1 N
, R0
N0 N
则总体均值为: Y R1Y 1 R0Y 0
抽样技术-课件全-抽样技术-第11章全文
CPS的样本轮换具有如下主要特征
1.在任何一个月内,都有八分之一的住户单位第一次接受 调查,八分之一的住户单位第二次接受调查,如此下去
2.每个月都有新的样本组代替从样本中永久退出的老样本 组
3.每个月都有一个样本组在8个月的闲置后重新接受调查。 重新接受调查的样本组代替了刚刚退出,进入闲置期的 样本组
4.设计保证了每个样本单元在两个年份的4个相同月份中 接受调查
5.在连续的两个月内,有四分之三的样本是相同的;在连 续的两年中,有二分之一的样本是相同的。
劳动力特征
3. 抽样时以州为总体,因而设计也是以州为总体的设 计
4. 样本量由变异系数CV及可靠性要求所决定 5. 在失业率为6%的自定义下,各州对变异系数的要求 在8%—9%之间。这样就能保证进行全国估计的变异系 数控制在1.8%之内
11.2.2第一阶段的抽样
第一阶段的抽样涉及三个方面的工作。这些工 作是:初级抽样单元(PSU)的界定;将初级抽 样单元PSU分层;PSU的抽选
11.4.5 广义方差(Generalized Variance)
广义方差函数GVF用于产生人口总量x估计值的估计方差。 函数形式为
Var( Xˆ ) aX 2 bX 式中,a和b是用最小二乘法得到的估计参数。该模型的原理是假定x的方差可以表示为简 单随机样本的方差与设计效应(deff)的乘积。设计效应deff是指某一复杂抽样设计相对于
第11章 设计与方法-美国CPS案例
美国人口现状调查(Current Population Survey,简称CPS)被认为是全国性大规模居 民住户抽样调查的典范。
第10章 非抽样误差
二、无回答误差的统计影响
• 导致估计量估计偏差
若无回答者与回答者在调查项目的数量特征上存在差异,这种无回答 就会导致无回答偏差
E ( y回答 ) Y Y回答 (
N回答 N
Y回答
N 无回答 N
• 降低估计效率
N 无回答 Y无回答) (Y回答 Y无回答) N
无回答减少了实际调查的样本数量,因而扩大估计量的方差,导致估 计效率降低
s
1 ˆ i i
yi
关于加权的一些注意事项
• 要求很高:即假定每一个加权单元中,回 答者和无回答者是相似的,也就是说不管 同一加权组中各单位的回答值是否相等, 它们回答的可能性都相等。 • 加权法可能会改进估计量,但它并不能消 除所有的无回答偏差。 • 常用于处理单位无回答,而非项目无回答
5.插补法(imputation method)
2
从而估计量方差增大的量为: n1 2 2 2 1 n n1 S n S S r0 2 2 =S = S n1 = n n1 n n n
1
n1 n0 其中 r 0 = = 1- n 为样本无回答率。 n
1
估计量方差增大的程度则为:
n1 r0 -1= (1 r 0) n
在这种情况下,为了达到抽样方案所 规定的抽样估计效果,就需要增加样本 N0 容量。如果总体无回答率为 R 0 = ,那 n N n 么样本容量应该确定为 = (1 R ) 。
四、无回答的补救措施
• • • • • 替代法 汉森与赫维茨(Hansen and Hurwitz,1946)方法 复制估算法 加权调整法 插补法
1.替代法
• 访员可以在实际调查现场选择一个替代单位或使 用事先准备的指定替代单位 • 1975年密歇根州进行的物品滥用情况调查 (Michigan Survey of Substance Abuse)就是为 了估计在前一年内使用过16类物品的人数。根据 抽样设计,该调查采用分层多阶段抽样对2100个 住户进行了访问。对每一个住处都重复访问3次, 若仍没有人则尝试其右侧的住户,接下来再尝试 左侧住户。
第十章(非抽样误差)
西蒙斯随机化回答模型
沃纳模型中随机化回答的两个问题是同一敏感问题的两个方面,有些被 调查者仍可能有疑虑不肯合作,而且从精度方面考虑,当P与0.5很接近 时,方差大,而太远,增加了疑虑。所以西蒙斯(W.R.Simmons)进行了 改进,将第二个问题改为与所要调查的敏感性问题完全无关的另一个 非敏感性问题。西蒙斯随机化回答模型中两个问题一般表述为: I 你具有特征A吗? II 你具有特征B吗? 其中特征A为敏感性问题,特征B为无关问题。需要估计的是特征A的比例, 特征B的比例为在设计时要求已知。两个问题在随机化过程中出现的比例 仍假设为P: (1-P),其中P为已知。 仍以调查考试作弊为例,两问题的设置
• 例:某电影公司调查学生每月看电影的次 数,随机抽取了1000人, • 进行问卷调查,其中800人作了回答,回答 的均值为2.5;若对无回答 • 的200人中,又随机抽取了50人进行面访, 结果这50人的平均每月看 • 电影次数为1.2次,求偏倚的估计值。
此例指出了调整无回答误差的一个途径。即可通过多次访问。
2.
3.
根据非抽样误差的来源、性质和处理方法不 同常分为以下三类: (1)抽样框误差 (2)无回答误差 (3)计量误差
抽样框误差
抽样框:一份包含全部抽样单元的清单或图示 ( 抽样框是用来抽取抽样单元的依据。) 目标总体:希望从中获取信息的总体 调查总体(抽样总体):实际调查所覆盖的总体。
理想状态下,两个总体应该完全一致。调查总体与目标总体 一般不完全相同。因此就产生了抽样框误差。主要如下
若用Ny1估计总体总和,偏倚为 E ( Ny1 ) Y NR0 (Y1 Y0 ) 以上两种估计量的相对偏倚都是 R0 (Y1 Y0 ) / Y
根据以上分析,无回答的偏倚大小由两方面决定。一为回答率,二为 回答层与无回答层均值的差异。无论何种情况,降低无回答率对于减 少估计量的偏倚是重要的。
市场调查中非抽样误差的产生和控制
市场调查中非抽样误差的产生和控制摘要:非抽样误差直接与市场调查的准备阶段、抽样阶段、问卷设计阶段、实地访问阶段、统计处理阶段等各阶段的工作质量好坏存在密切的关联。
本文在具体分析这些阶段导致非抽样误差产生的工作情形后,提出了科学设计调查方案、重视对调查员的培训和管理、减少被调查者误差和做好调查资料的汇总工作等几方面控制非抽样误差的对策。
关键词:非抽样误差;调查方案;调查员;被调查者一、非抽样误差的产生非抽样误差产生的原因多种多样,尤其在实施调查过程中最为常见。
非抽样误差直接与调查的准备阶段、抽样阶段、问卷设计阶段、实地访问阶段、统计处理阶段等各阶段的工作质量好坏存在密切的关联。
1.准备阶段准备阶段是整个调查的起始阶段,准备阶段的主要任务是:确定调查任务,设计调查方案,组织调查队伍。
调查设计者首先要列出具体研究目标,从而确定所要研究的问题和识别研究的总体,最后明确调查任务并给整个调查活动一个纲领。
具体说来,设计调查方案包括调查指标的设计、调查总体方案的设计和调查方案可行性研究三方面的内容。
在本阶段可能产生误差的工作主要有:(1)调查设计者可能误解了主办者的目的意图,制定了错误方针,误导研究方向。
(2)目标总体与实际的调查总体不一致。
例如,进行电话访谈时,社区周边的居民用户电话号码可能没有列到电话号码簿中,另一些用户可能已经搬迁而导致电话为空号,因此目标总体和被调查总体出现一定的差异。
(3)调查设计者没有事先预先设定好调查的具体步骤和时间表、可能出现的问题以及未事先培训和挑选恰当的调查员,因而导致计量质量的下降。
(4)预算的限定。
任何调查都有费用,市场调查也同样。
并且由于市场调查的主办者一般都是企业,因此费用上的限制就更为明显。
如果资金短缺,只能缩小研究范围或进一步寻求资金。
上述第一点是调查设计者误解调查主办者的目的,这必然导致系统误差,使调查信度和效度下降。
第二点由于空号的原因,造成缺失值误差。
第三点由于没有预先设定调查步骤和很好的培训访问员,即没有制定标准化的市场调查结构,这样也会降低信度。
第十章 非抽样误差(抽样理论与方法,河南财政学院)
费用函数为
c 0n 0 cn c1n1 k c是进行第一次调查,每个样本单元的平均费用 c1 是对第一次调查作出回答的问卷进行数据处理的费用 c 0 是进行第二次调查并对问卷进行数据处理的费用
c 0 W0n 则平均总费用 C T cn c1 W1n k c 0 W0n (c c1 W1 )n k
10.4 敏感性问题调查 与随机化回答技术
一、 敏感性问题: 指所调查的内容涉及私人机密而不愿或不便于公开 表态或陈述的问题。
河南财经学院
二、沃纳随机化回答模型 例:某大学欲调查本科生考试作弊现象。从本科生中抽取 100个学生进行调查。在一个密闭容器中有完全相同的 三个球,其中有2个红球,1个白球。抽中红球就回答问 题1,抽中白球就回答问题2。设计的问题为:
1 ' ' Y (n 1 y 1 n 0 y 0 ) w 1 y 1 w 0 y 0 n
V( Y) V1 ( y ) E1 ( w 0
S0
2
k 1 2 1 f 2 k 1 2 s0 ) S W0 S0 n n n
为总体中无回答层的方差
n0 k m
河南财经学院
2
2
给定V,使C达到最小值,得 n opt 河南财经学院
例:第一个样本用邮寄方式取得,预计回答率为50%。希望 达到的精度月容量为1000的简单随机样本(全部回答) 所达到的精度一样。邮寄一张问卷的费用是0.1美元。派 人作一次上门调查的费用为4.10美元。应当寄出多少份 问卷?对不回答者派人上门调查 的百分比试多少?(假 定 S 2 S 0 2 ,且N很大) 解: c 0.1,c 0.4,c 4.5,S 2 S 2
河南财经学院
统计学中的抽样误差与非抽样误差
统计学中的抽样误差与非抽样误差【统计学中的抽样误差与非抽样误差】统计学作为一门重要的科学方法,广泛应用于各个领域。
在进行数据分析和研究过程中,抽样误差和非抽样误差是其中关键的概念。
本文将从定义、影响因素、测量方法以及减少误差的策略等方面,深入探讨统计学中的抽样误差与非抽样误差。
1. 抽样误差的定义和影响因素抽样误差指的是从总体中选取样本所导致的估计误差。
在真实总体很大的情况下,由于实际调查的限制,我们很难直接获得全体数据,因此需要采用抽样方法。
抽样误差的大小直接关系到样本数据的代表性和准确性,主要受以下因素影响:(1) 样本容量:样本容量越大,抽样误差越小。
(2) 抽样方法:合理的抽样方法可降低抽样误差。
(3) 抽样框的准确性:抽样框是指包含总体的框架,若抽样框不准确,则会增加抽样误差。
2. 非抽样误差的定义和影响因素非抽样误差指的是除抽样误差以外的其他误差来源,主要包括调查设计、数据采集过程中的操作和测量等误差。
非抽样误差的大小直接影响着最终统计结果的准确性,以下是一些常见的非抽样误差来源:(1) 调查设计偏差:调查设计的不完善或缺陷会引入误差。
(2) 非回应误差:调查对象拒绝参与或无法联系到的情况。
(3) 数据处理误差:包括数据录入、清洗和分析过程中的误差。
3. 抽样误差和非抽样误差的测量方法对于抽样误差,一种常用的测量方法是计算标准误差。
标准误差是样本观测值与总体参数估计值之间的差异度量,可以用来评估样本数据的准确性和稳定性。
同时,还可以利用置信区间来估计总体参数的范围和可信度。
对于非抽样误差,常用的测量方法是检查数据质量和进行误差分析。
数据质量的检查包括对数据的完整性、准确性和一致性等方面进行评估,并采取纠正措施。
误差分析可以通过对调查过程的审查和再次检测等方式,发现和纠正非抽样误差。
4. 减少抽样误差和非抽样误差的策略在实际研究和调查中,减少抽样误差和非抽样误差是提高数据分析效果和可信度的关键。
非抽样误差产生的原因及控制.
非抽样误差产生的原因及控制抽样调查是目前我国搜集统计资料的一种主要方法,但抽样调查的结果始终要受到抽样误差和非抽样误差的影响。
抽样误差是由于样本随机性引起的,根据样本数据计算的对总体目标量的估计是随样本而异的,由此产生的误差即是抽样误差。
抽样误差是不可避免的,其大小可以通过调查样本容量,改变抽样方式等加以控制。
非抽样误差是指除抽样误差以外。
由于各种原因引起的。
非抽样误差由于其产生的原因及其复杂且具有不易观测和非随机性等特点而难以控制。
两种误差构成了总方差,两者之间呈此消彼长的关系。
一般情况下同时减少两类误差是很困难的。
非抽样误差占据了很大的一部分,怎样通过降低非抽样误差,从而降低总方差,有着非常重要的现实意义。
一、非抽样误差分类自1902年K?皮尔逊首次讨论非抽样误差这个概念以来,在非抽样误差的分类上。
主要有以下几种:(一)希里1957年把非抽样误差分为3类:1、范围误差:指由于样本单位的遗漏或重复产生的误差。
2、确定误差:指在资料收集、编辑、编码和计算输入阶段所产生的样本单位特征值的测量误差和回答偏差。
3、替代误差:由于对缺失数据进行替代和(或)在最后估计阶段对缺失数据进行替代所产生的误差。
(二)科克伦把非抽样误差分为3类:1、对被抽选出的样本中的一些单位未能进行计量而产生的误差。
2、一个单位的计量误差。
3、对调查结果进行编辑、编码和汇总过程中产生的误差。
(三)戴伦纽斯1988年把非抽样误差按调查活动分为3类:1、资料搜集过程中产生的误差。
2、测量过程中产生的误差。
3、资料加工过程中产生的误差。
在我国比较常见的分类方式有两种:第一,按性质和处理方法不同分为抽样框误差、无回答误差和计量误差。
第二,按产生的环节不同分为设计误差、调查误差和汇总误差。
二、各类非抽样误差产生的原因1、调查设计过程中引起的误差设计阶段误差是由于这一阶段某些失误而导致调查结果产生的偏误,调查设计有两个主要环节,即调查设计和抽样设计。
第11章调查中的非抽样误差
是指在数据整理阶段利用调查结果,采用一定的方式 为无回答的缺失值确定一个合理的估计值,插补到 原缺失数据的位置上。
实际中一般涌均值插补。
补充:敏感性问题调查与随机化回答技术
1、敏感性问题(sensitive question)是指所调查的 内容涉及私人机密而不愿意或不便于公开表态或 陈述的问题,如:社会上的卖淫嫖娼、赌博吸毒、 偷税漏税、婚前性行为等等。
(3)相对偏倚为:
W0(Y1 Y0) W0(1 r)
Y
rW0 (1W0)
分析
1、r=1,丢失单元均值和抽样单元均值相同 时,估计量是目标变量的无偏估计;
2、 r 1 偏倚状况随着r的变化而变化。
r>1估计偏低,r<1估计偏高。
三、不完善抽样框的使用
(一)实行连接
在调查方案设计阶段制定一定的规则,使没有包 含在抽样框中的目标单元与包含在抽样框中的 单元相连接。
二、无回答产生的原因及影响
在数据收集过程中都可能产生无回答误差: 1、查找阶段由于地址不详或已经搬迁而无法找到被
调查者,调查者不熟悉地址等等; 2、接触阶段被调查者由于客观原因无法接受调查或
由于主观原因不愿意接受调查; 3、采访阶段,被调查者对于某些问题不愿意提供答
案或调查人员粗心遗漏一些项目或调查中断等等。
如:对不在抽样框中的学生与被抽中的学生实行 连接
(二)惟一连接 对于抽样框中存在的复合连接,在方案设计中规
定只有唯一的单元被抽中。
(三)使用多个抽样框
设样本来自A、B两个抽样框,两个抽样框的单元总 数分别为NA,NB,目标总体被分成三个部分:区域a、 区域b、区域ab
1、利用抽样框A的样本对区域a、区域ab进行事后分 层的总和估计为:
论抽样调查中非抽样误差及其控制1
论抽样调查中非抽样误差及其控制论抽样调查中非抽样误差及其控制2009-08-24 19:31[摘要] 在抽样调查中,非抽样误差产生的原因十分复杂,且种类繁多,其对整个抽样调查的影响是不容忽视的。
本文对各种非抽样误差产生的原因进行了全面、深入的分析,并提出了防范非抽样误差的具体措施。
[关键字] 抽样调查;非抽样误差;抽样误差;控制措施[中途分类号] F222.1 [文献标识码] A [文章编号] 1008—9306(2001)05—0056—03抽样调查是目前我国收集统计资料的一种主要方法,但抽样调查的结果始终要受到抽样误差和非抽样误差的影响。
其中抽样误差是不可避免的,它是由样本的结构与总体结构的随机差异导致产生的,其大小可以通过调整样本容量、改变抽样方式等加以控制;非抽样误差由于其产生的原因复杂而且又不易预测和非随机性等特点而难以控制,成为影响抽样调查结果准确性的重要原因。
因此,如何控制和减少抽样调查中的非抽样误差,确保抽样调查资料的质量,是我国统计界普遍关注的一个问题。
非抽样调查误差的产生及分解非抽样误差产生的原因很多,从抽样设计,调查问卷的制定,调查人员的素质,到调查数据的处理,每一个环节都可能出现误差。
根据非抽样误差产生的方式和出现的阶段不同,可以将非抽样误差分解为以下几类:非抽样误差按其产生的方式不同,可以分为登记性误差和系统性误差登记性误差是指在调查过程中,由于工作出现失误而造成的误差。
产生登记性误差的主要原因可以归纳为两类:一类是由于计量手段的局限性所带来的难以绝对符合实际而出现的误差;另一类是由于登录、计算、抄报、汇总错误及被调查者所报不实或调查者有意虚报满报等所带来的误差。
系统性误差,是指在抽取样本单位时,由于加入主观意愿,破坏了随机抽样原则使样本不足以代表总体而造成的误差。
非抽样误差按其产生的环节不同,可以分为设计误差、调查误差和汇总误差设计误差是指在抽样设计阶段产生的误差。
产生设计误差的主要原因是由于采用了有缺陷的抽样框或者是调查问卷设计不科学所造成的。
25、抽样调查测试题及答案
中级经济师基础知识第 1题:多选题(本题2分)在城乡住户收支调查中,非抽样误差的可能来源有( )。
A、抽样框遗漏掉部分城乡住户B、部分高收入住户拒绝接受调查C、调查人员有意作弊D、被调查住户提供虚假数据E、抽样的随机性【正确答案】:ABCD【答案解析】:非抽样误差是指除抽样误差以外,由其他原因引起的样本统计量和总体真值之间的差异。
本题可采用排除法,排除“随机性”即可选择。
第 2题:单选题(本题1分)下列关于简单随机抽样的表述正确的是( )。
A、总体的每个单位入样概率不相同B、是最基本的随机抽样方法C、利用了抽样框更多的辅助信息D、适用个体之间差异较大的调查【正确答案】:B【答案解析】:简单随机抽样需要重点掌握:(1)它是最基本的随机抽样方法, 每个单位的入样概率相同 (2)不放回简单随机抽样每个单位最多只能被抽中一次,比放回抽样有更低的抽样误差。
(3)适用条件: 抽样框中没有更多可以利用的辅助信息;调查对象分布的范围不广阔;个体之间的差异不是很大第 3题:多选题(本题2分)抽样统计中,估计量的性质包括( )。
A、一致性B、相关性C、无偏性D、有效性E、密集性【正确答案】:ACD第 4题:单选题(本题1分)在调查某城市小学教师亚健康状况时,从该城市的200所小学中随机抽取40所,每个被抽取小学中的所有教师都参与调查,这样抽样方法属于( )。
A、简单随机抽样B、整群抽样C、分层抽样D、等距抽样【正确答案】:B【答案解析】:抽样调查中的抽样方法。
整群抽样是先将总体划分为互不重叠的群,抽样时直接抽取群,对抽中的群调查其全部的基本单位。
第 5题:单选题(本题1分)以下各项中不属于抽样调查的特点的是( )。
A、时效性差B、经济性好C、适应面广D、准确性高【正确答案】:A【答案解析】:抽样调查可以迅速、及时的获取所需要的信息。
由于工作量小,调查的准备时间、调查时间、数据处理时间等都可以大大缩减,从而提高数据的时效性。
第11章 抽样设计
第11章抽样设计抽样设计 教学目标:1.了解抽样的基本术语2.了解采用抽样的原因3.了解抽样的基本程序4.描述概率抽样和非概率抽样技术5.描述样本容量的确定方法第 第 11 11章 v v v v v抽样设计抽样设计 了解抽样的基本术语了解采用抽样的原因了解抽样的基本程序描述概率抽样和非概率抽样技术描述样本容量的确定方法开篇案例:开篇案例:1936年美国总统大选前,《文摘 向的明信片,然后依据收回的200万份调查结果极其自信地预测共和党候 选人兰登将以领先15%的得票率战胜民主党候选人罗斯福而当选总统 而,选举结果使预测者们大失所望: 且其得票率反超过兰登《文摘》杂志也因此而关了门 是什么原因导致《文摘》预测失败呢 对抽样的总体缺乏认识和明确界定也是极为重要的原因 样所依据的并不是美国全体已登记的选民名单 志用户作为调查对象。
对象明确,才能有的放矢 面的信息资料。
只有明确调查总体, 抽样的样本符合要求。
总统大选预测失败 文摘》杂志寄出1000万张询问投票倾万份调查结果极其自信地预测共和党候 的得票率战胜民主党候选人罗斯福而当选总统。
然 :获胜者不是兰登,而是罗斯福,并 杂志也因此而关了门。
预测失败呢?除了邮寄方式上的原因外, 对抽样的总体缺乏认识和明确界定也是极为重要的原因。
因为它当时抽 样所依据的并不是美国全体已登记的选民名单,而是以订阅《文摘》杂 才能有的放矢,取得真实、可靠、全 ,才能从中进行正确的抽样,并保证抽样设计概述 v 抽样的基本术语 v v 抽样与全面调查v抽样设计概述采取抽样调查的原因开发样本计划的程序v 总体:由市场研究项目的目标明确规定的整个集合 v 样本和样本单位:™样本是总体的一个子集, ™样本单位是组成样本的基本单位v 抽样误差:™抽样误差是在调查中因使用的样本而发生的任何误差 ™由两个因素引起:①样本选择的方法 抽样的基本术语由市场研究项目的目标明确规定的整个集合。
商业调查中非抽样误差来源及控制研究
因素,不可以通 过增大样本量来控制 ,它可 以避免。非抽样误 差 委会的比例严重扩大 ,这必 然引起最终 收视率数据的偏差。 包括 :抽样框误差 ;无 回答误 差 计量误 差。
() 3 抽样框老化。 统计数据调查具有很强的时效性 随着时间
市 场 灞 研
商业调查 中非抽样 误差来源及控 制研 究
I I I王爱珍
[ 摘
山东泰 安高 新区 经济发 展局 时
涛
泰 山医学 院管 理学 院
要]商业调查大部 分都是抽 样调 查,调查过程中天然存 在的抽样误 差和调查执 行 中的非抽 样误差是影响数据质 量
的 两 大误 差 类 型 。 确 定 合 理 的抽 样 方 案后 ,调 查数 据 质 量控 制 的重 点 就放 在 了减 少 非抽 样 误 差 上 。 本 文 即 针对 抽 样 调 查 两
般 来 说 .抽 样 框 误 差 有 以 下 几 种 类 型 :
() 1 不能覆盖 目标 总体单位 。 不能覆盖 目标 总体单位 , 目标 指
被抽 中的概率为零 .数据丢失 。例如 :在某城市 的抽样方案 .目
标 总体 同 上 。 由于 该 城 市 进 行 行政 区划 的改 变 .原来 的 四个 城 区
大误 差 类 型 展 开 分析 讨 论 ,重 点 分析 非 抽 样 误 差 来 源 , 并 发掘 其 有 效控 制 的 可 行 性 方 法 。 [ 词 】商 业 调 查 非 抽 样 误 差 质 量控 制 关键
一
引子
实际情况之 间的差异 ,决定 了我们在 控制 非抽样误差上的努力永
在商业调 查的质量管理实践 中.通过组织专家评审会的方式 不断完善 抽样方案 尽可能地减少抽样误差。其抽样方案经过 专
抽样调查答案
抽样调查答案本页仅作为文档封面,使用时可以删除This document is for reference only-rar21year.March抽样技术第1、2章试题一、单选题1.非概率抽样的优点(D)A.能计算抽样误差B.能从概率的意义上控制误差C.样本数据能对总体情况进行推断D.操作简单,不需要抽样框,经济、快速,调查数据的处理也容易2.概率抽样与非概率抽样的根本区别是(B)A、是否能保证总体中每个单位都有完全相同的概率被抽中B、是否能保证总体中每个单位都有事先已知或可以计算的非零概率被抽中C、是否能减少调查误差D、是否能计算和控制抽样误差3.以下哪种抽样不属于非概率抽样(C)A、判断抽样B、方便抽样C、不等概率抽样D、配额抽样3.抽样调查的根本功能是(C)A、获取样本资料B.、计算样本资料C、推断总体数量特征D、节约费用4.下列不属于概率抽样的是(B)A、不等概率抽样B、滚雪球抽样C、系统抽样D、整群抽样5.下列抽样框中不属于名录框的是(A)A、时间B、学生名单C、公司名录册D、电话号码簿6.用样本统计量对总体参数进行估计时产生的误差是(C)A、总体方差B、样本方差C、估计量方差D、偏倚7.以下抽样方法不属于非概率抽样的是(C)A、目的抽样B、随意抽样C、随机抽样D、判断抽样8.下列说法错误的是(C)A、对于无偏估计量,均方误差等于方差B、抽样误差是抽样方法本身所引起的误差,是由于样本不能完全代替总体而导致的误差C、抽样方差是依据样本方差计算,而方差估计量是依据总体方差计算D、抽样标准误差是抽样方差的平方根9.下列关于非概率抽样和概率抽样说法正确的是(A)A、非概率抽样的一个重要应用是充当预调查角色,作为开发概率抽样的厨师步骤。
B、概率抽样是指按照一定的概率以随机原则抽取样本,也称为等概率抽样。
C、随机与随便的本质区别就在于,是否按照给定的抽样概率,通过一定的随机化程序抽取样本单元。
D、非概率抽样的偏倚较小,有利于评价样本的代表性。
第十一章 抽样
总体参数和样本统计量
总体参数:反映总体数量特征的指标。其数值是唯一的、确定的。 样本统计量:根据样本分布计算的指标。是随机变量。
总体
样本
参数
统计量 平均数 标准差、方差
X
、2
p
S、 S2
( x x )2 s2 n 1 ( x x )2 f s2 f 1
小故事:一次失败的二战士兵调查
二战期间,美国军方委托社会学家对军队士兵进行一项抽样调查。 在进行抽样之前,研究者对军方提供的总体名单未作认真考察, 他们在不知道该单位名册是按照十个士兵组成的一个班内的军队 军衔级别进行排序的(如上士、中士和下士)的情况下,就确定 将名单混在一起作为抽样框。 具体调查过程中,研究者按照等距抽样的规则计算出抽样间距是 10,于是在每十个士兵选择出一个作为样本,这个抽样间距正好 与班内的军衔级别重合,结果导致样本中的士兵全部是上士,中 士和下士一个都没有。 显然,这个抽样没有实现具有代表性的样本,而是一个上士士兵 调查的样本,最后的调查结果不是说明所有士兵的情况,最多只 能说明军衔是上士的那些士兵的情况。调查宣告失败。
63 32 79 72 43 93
74 50 07 45 51 25
71 37 78 93 09 23
47 71 44 09 03 93
62 32 53 15 90 78
67 75 38 62 74 47
要从94家上市公司中抽取12家作为调查样本,可 先将94空公司由1至94编号N=94,然后在乱数表上 任意上一点一行(或一列)中一个数字作为起点 数,从这个数字按上下或左右顺序读起,每出现 两个数字,即为被抽中的单位码号。假定本例是 从第四行左边第五个数字向右顺序读起,则所抽 取单位是:68 27 31 05 03 72 93 15 55 59 56 35 ,此过程中的96因大于94,舍 去不用是因为在顺序抽取的过程中,遇到比编号 大的数字,应该舍去。
抽样调查误差中非抽样误差分析
样 误 差 足 够 大 时 ,也 会 使 全 部 的 调 查 结 果 被 歪 曲 ,因 而 在 大 样 本 的 抽 样 调 查 中 , 抽 样 误 差 成 为 影 响 调 查 结 果 可 靠 程 度 非
维普资讯
工 作 研 究
【 章 编 号 】0 一5 8 (0 2 0 文 1W 9 8 2 0 )8—0 2 O 0 1一 1
山 西统 计 2 0 第 8 02年 期
抽 样 调查 中的误差 分 为抽 样误差 和 非抽样 误差 , 性质 其
有 所 不 同 。 样 误 差 是 一 种 随 机 误 差 , 有 系 统 性 的偏 差 , 抽 没 误
的主要 问题 。
引 起 非 抽 样 误 差 的 原 因 很 多 , 抽 样 设 计 ,调 查 问 卷 的 从 制 定 , 查 人 员 的 素 质 , 至 数 据 的 处 理 , 一 个 环 节 都 可 能 调 直 每
些 敏 感 性 问 题 ,如 涉 及 被 调
出现 误 差 , 围非 常广 , 范 尤其 是 当被调 查者 是人时 , 与心理 它
作 疏 忽 所 产 生 的错 误 和 漏 报 , 没 有 按 规 定 对 现 场 的 实 物 进 行 观 察 ,只听信 被调查 对 象的 口 头 回 答 等 等 。( ) 意 舞 弊 。 2故 主 要 表 现 为 调 查 员 根 本 没 有 按 规 定 进 行 调 查 ,而 是 擅 自编 造 和 篡 改 调 查 资 料 ,以 达 到 自 己 省
理 较 强 , 调 查 问 题 总 是 回答 “ ” 有 的 态 度 淡 漠 , 调 查 问 对 否 , 对 题 的 回 答 是 “ 所 谓 ” “ 可 以 ” 由个 人 态 度 引 起 误 差 。 无 、还 等 3 、实 施 调 查 主 管 工 作 失 职 造 成 的 误 差 ,它 主 要 表 现 在 :
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
误差; (2)无回答误差,即由于种种原因没有从被调 查单元获得调查结果,造成调查数据的缺失; (3)计量误差,即所获得的调查数据与其真值 之间不一致造成的误差。
§11.2 抽样框误差
一、概念
抽样调查中的总体有两个: 目标总体—调查研究对象的全体。 抽样总体—从中抽取样本的总体。 (即抽样框) 理想抽样框的标志是目标总体和抽样总 体完全重合。否则抽样框就是不完善的。
(第十一章结束)
•
生活中的辛苦阻挠不了我对生活的热 爱。20. 11.1720 .11.17 Tuesday , November 17, 2020
•
人生得意须尽欢,莫使金樽空对月。0 2:06:06 02:06:0 602:06 11/17/2 020 2:06:06 AM
•
做一枚螺丝钉,那里需要那里上。20. 11.1702 :06:060 2:06No v-2017 -Nov-2 0
Y
N n
is
yi
式中,i表示样本中第i个单元,s为所有样本 的集合.
若样本数据中第k个最大值kth被认为是离
群值,单侧k次缩尾估计量就可以通过第n-k
个最大值yn-k代替这些离群值,即
N nk
YW
n
( yi kynk )
i 1
●调整权重
处理离群值的另一种方法是降低离群值
的权重,从而使它们的影响变小。例如,赋
另外,离群值也可以通过下面的置信区间 进行确认:
(m tl s, m tu s)
式中 tl 和 tu分别为根据预先确定的置信度得到
的标准正态分布的上限和下限值。落在这个区 间之外的观测值被认为是离群值。
三、离群值的处理
如果在调查进行中发现离群值,就要及 时处Biblioteka ,例如进行回访核实,对错误进行更 正。
R0
相对偏倚
( y1 )
R0 (Y 1 Y Y
0)
由上式可以看出:无回答偏倚主要来自两
个方面:一个是回答层与无回答层之间的数量
差异 (Y 1 Y 0 ) ;一个是无回答率 R0 。
三、降低无回答的措施
主要措施是预防,预防措施有: ●问卷设计得具有吸引力; ●注意适当的长度; ●充分利用调查组织单位的权威性和影响力; ●注意调查员的挑选; ●做好调查员的培训; ●注意调查过程的监控; ●奖励措施; ●再次调查。
●利用核查,掌握误差情况,对不完善抽样框 进行调整;
●事先制定一些规则,对发现的抽样框问题进 行现场处理;
●使用多个抽样框进行抽样。
§11.3 无回答误差
一、概念
无回答误差是指在调查中由于各种原因, 调查人员没能够从入选样本的单元处获得所 需要的信息,由于数据缺失造成估计量的偏 差。
无回答误差是一种重要的非抽样误差,这 种现象十分普遍,对估计量的危害也比较大, 所以国际上对这方面的讨论一直比较热烈, 目前这种讨论还在继续。
从无回答的内容来看可分为:
单元无回答 (被调查单元没有参入或拒绝受调查,他 们交的是一份白卷) 项目无回答
(被调查单元虽然接受了调查,但对其 中的一些项目没有回答)
从无回答的性质来看可分为:
有意无回答 (有意无回答常常与调查内容有关,如对调 查内容反感,或涉及个人隐私不愿意回答)
无意无回答 (无意无回答常常与调查内容无关,之所以 无回答是因为被调查者生病或很忙,无法接 受调查)
,W0
N0 N
Y的相对偏倚可以写为
Y0
W0 r
Y
rW0 (1 W0 )
r
由上式可知,总体总和的相对偏倚取决于
r 和 W0
■ 总体均值的估计
在抽样框存在丢失单元情况下,均值估计量为:
r
Y
Y
1 n
n i 1
yi
此时估计量的偏倚为:E(Y ) Y W0 (Y 1 Y 0 )
Y 的相对偏倚可以写为:
W0 (Y1 Y0 ) W0 (1 r)
Y
rW0 (1 W0 )
由上式可以看出,如果丢失单元的均值与
抽样单元的均值相同,即
r
1
,则估计量
Y
是目标变量 Y 的无偏估计。
r 反之,如果 r 1 ,偏倚状况则随着
的变化而变化。
Y
三、不完善抽样框的使用
抽样框不完善并不是不能使用,因为构造一个完 善的抽样框有时是非常困难的。使用不完善抽样框时 若能采用一些补救措施,有助于减小抽样框误差。主 要采用以下三项补救措施:
二、离群值的确认
通常离群值的检测是通过测量它们与数据
中心的相对距离来辨认的。
例如,若 y1, y2 ,, yn是要观测的样本数
据,m 和 s 分别是侧度数据集中趋势和离散
趋势的指标,那么, yi 离数据中心的相对距
离可以定义为
di
|
yi
m| s
tl
tu
如果 di越过了预先确定的偏离值,那么该
观测值就被认为是离群的。
N1
N1
N0
Y Yi Yi Y1 Y0
i 1
i 1
现从抽样框中的N1个单元中采用简单随机 抽样抽出容量为n的一个样本,由于n取自于N1 对总体总量的估计为:
Y
N1 n
n i 1
yi
显然此时的估计是有偏的,偏倚为:
E(Y ) Y Y1 Y Y0
这表明估计量低估了总体总量,令
r
Y0 Y1
1、查找阶段 调查人员无法找到被调查者, 主要原因有地址不详、被调查者搬迁、调查人 员不熟悉地址; 2、接触阶段 被调查生病、对调查不感兴趣 或别的原因拒访; 3、采访阶段 调查开始后被调查者对某些问题 不愿提供答案、调查员由于粗心遗漏某些项目等
无回答的影响:
回答层(N1) 总体(N)
无回答层(N0)
第十一章 调查中的非抽样误差
§11.1 引言
非抽样误差是指除抽样误差以外的,由于 各种原因引起的误差。
在概率抽样、非概率抽样、其他全面调 查和非全面调查已及普查中,非抽样误差都 有可能存在。
同抽样误差相比,非抽样误差有如下特点:
1、非抽样误差不是由于抽样的随机性带来的,所以在 抽样调查中,它不可能随着样本量的增大而减小;
●抽样框存在的问题,有些是不容易解决的。 因此抽样框的维护、抽样框使用情况的不断 总结与研讨,对于经常性的调查项目来说是 十分必要的。
●抽样框的不完善并不是不能使用。可以进 行修补、调整。
N1
(3)抽样框误差的影响
设目标总体单元:N
抽样框中单元:N1 抽样框中丢失的单元:N0
N=N1+N0 ■ 总体总量的估计 总体总量的真值是:
● 设计误差(设计方面原因造成计量误差) ●被调查者误差(被调查者提供的数据失真) ● 调查者误差(现场调查人员造成的误差) ● 其他误差(由于测量工具、编码、录入)
减少计量误差的措施
减少计量误差需要对调查全过程进行质 量监控: (1)调查设计方面 调查问卷设计出来后, 应组织有关人员对问卷进行讨论。如果是大 型调查活动,还要在正式调查之前进行预调 查,在实践中对问卷进行检验。 (2)现场准备方面 在收集数据之前,需要 做好准备工作:招聘调查员;培训访问员; 编写调查手册。
•
科学,你是国力的灵魂;同时又是社 会发展 的标志 。上午2 时6分6 秒上午 2时6分 02:06:0 620.11. 17
•
精益求精,追求卓越,因为相信而伟 大。202 0年11 月17日 星期二 上午2时 6分6秒 02:06:0 620.11. 17
•
让自己更加强大,更加专业,这才能 让自己 更好。2 020年1 1月上 午2时6 分20.11. 1702:0 6November 17, 2020
•
这些年的努力就为了得到相应的回报 。2020 年11月1 7日星 期二2时 6分6秒 02:06:0 617 November 2020
有意无回答对数据质量的影响很大,回答 者和不回答者之间往往存在系统性差异。这 种不回答不仅减少了有效样本量,造成估计 量方差增大,而且会带来估计偏倚。
无意无回答可以看成是随机的,这种不回 答虽然会造成估计量方差增大,但通常认为 不会带来估计偏倚。
二、无回答产生的原因及影响
如果把采集数据的过程划分为查找、接触和采 访三个阶段,三个阶段都有可能出现无回答。
四、对存在无回答数据的调整
调查中无回答的情况总是难以避免,由于 无回答造成数据不全,如果不加处理,就有可 能造成估计量偏倚。下面介绍几种数据调整的 方法:
1、再抽样调整 在第一次无回答的单元中随机抽取一个子样 本,通过更细致、更充分的工作,获得该子样 本的数据,作为整个无回答层的代表值。
2、加权调整 对存在无回答数据进行补救的另一种方法
予离群值的权重为1,即离群值仅仅代表它自 己而不代表其他总体单元。
●选取稳健估计量
在经典的估计理论中,通常假定估计量服 从正态分布,样本均值和样本方差估计量在正 态分布的假设下也是最理想的。但是,这些估 计量对离群值非常敏感。
稳健估计量则能克服这种局限性,例如中 位数比均值更稳定,四分位数比通常的方差估 计量更稳定。
•
日复一日的努力只为成就美好的明天 。02:06:0602:0 6:0602:06Tues day , November 17, 2020
•
安全放在第一位,防微杜渐。20.11.17 20.11.1 702:06:0602:0 6:06No vember 17, 2020
•
加强自身建设,增强个人的休养。202 0年11 月17日 上午2时 6分20. 11.1720 .11.17
数据收集完毕后的审核
(审核的重点是数据的一致性审核和离群 值的检测)