抽样调查理论与实践

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

元
元元元
人
人人人
120.00
254.71 43.49 24.73
(五)购房与建房支出
元
人
1012.1
转移受益增加拉动城乡居民收入增长
受上调企业退休人员养老金、城乡居民基础养老金标准
和城乡低保标准等政策性作用影响，前三季度，江苏城乡居
民人均转移净收入3567元，较上年同期增加298元，增长 9.1%，对可支配收入增长的贡献率达16.1%，拉动收入增长
制造业PMI的分行业权数就是用最近三年各行业的增加值
加权计算所得。20%、30%、50%。
数据分析与报告撰写

调查数据是富矿，金、银、铜、铁、锡一应俱全，就看开采者的水平。
数据分析与报告撰写紧密相关。

在一般性汇总的基础上，首先要对数据进行深入的研究，寻找规律，发现问题，形成调查报告的大致思路：
方案及问卷设计

总原则：切忌贪大求全，问题不宜太多，研究的问题要集中，时间不宜过长。考虑要素：研究目标、调查报告的大致框架、覆盖的地理范围、将做哪些分组（涉及样本量）、所设问题之间的逻辑关系、调查对象及其配合度、调查所需时间及每份问卷的回答时间、所需人力和经费，等等。《人力资源和社会保障基本情况调查住户居民问卷》内容过多，时间太长，可以拆分：例如可拆分一个离退休人员的问卷，一个失业人员的问卷，等等《企业税负调查问卷》、《融资成本调查问卷》等
52.0
51.7 51.8
61-62 住宿和餐饮业
63-65 信息传输、计算机服务和软件业 70 房地产业
137
119 150
47.4
51.4 43.5
7.5
15.3 7.0 2.1
71-75 租赁和商务服务业
76-78 水利、环境和公共设施管理业 79-85 居民服务和其他服务业
103
35 32
43.8
推算总体与权重使用

如果是按总体的一定比例抽样的，则可以直接推算总体。例如人口抽样调查，按10%抽样，则扩大10倍即是人口总量。如果调查得出的结果是比例或平均值，则该比例或平均值即可认为是总体的水平。例如社保调查，调查结果，南京的农民工中有36%有技术职称，每个农民工平均休假时间为15天，那么可以认为南京所有的农民工中有技术职称的人占36%，所有农民工的平均休假时间为15天。但是，此次调查每市调查的农民工总数1000人是人为确定的，他们在总体中占多大比重无从得知，所以，不能推算全市的农民工总数。
抽样调查理论与实践
赵继东
2014年10月
主要内容
一、抽样方法选择二、样本量的确定
三、方案及问卷设计
四、抽样调查的组织实施
五、质量控制
六、数据汇总
七、推算总体与权重使用
八、数据分析与报告撰写
抽样方法选择
1、纯随机抽样：纯随机抽样是在总体中以完全随机的方法抽取一部分观察单位组成样本（即每个观察单位有同等的概率被抽中）。其优点是简单直观；缺点是当总体较大时，难以对每个体一一编号，且抽到的样本分散，可能也不均匀。 2、系统抽样：系统抽样又称等距抽样或机械抽样，即先将总体中的全部个体按与研究现象无关的特征排序编号；然后根据样本含量大小，规定抽样间隔(步长）k；随机选定第i （i＜k）号个体开始，每隔一个k，抽取一个个体，组成样本。
选择抽样方法的原则：
方便、快速、精确、节省
1、代表性—要紧紧围绕调查项目的特点和要求。
2、精确性—以样本信息代表母体信息，可测量其可信度 3、可行性—要全面考虑每一种统计抽样方法各自的优点和运用条件。 4、低成本
在实际工作中，常常将两种或几种抽样方法结合使用，进行多阶段抽样。有的需要重点调查和抽样调查结合。社保调查人口抽样调查住户收支调查
质量控制

调查员素质决定调查质量调查经费影响调查质量调查问卷决定调查质量：时间长短，问题设计（答案的唯一性、私密性、逻辑性等）

过程控制提升调查质量：自查、复查、录入、奖罚
资料汇总
根据研究目标汇总数据，要有缜密的汇总思路社保调查
按人口的年龄、性别分：男16-59岁，女16-54岁，按每5 岁一组分，男9组，女8组，另外有其他年龄。
系统抽样的优点是：易于理解，简便易行；容易得到一个在总体中分布均匀的样本，其抽样误差小于单纯随机抽样。缺点是：抽到的样本较分散，不易组织调查；当总体中观察单位按顺序有周期趋势或单调增加（减小）趋势时，容易产生偏倚。
PPS抽样法即属此列，实践中大多采用此法。
3、整群抽样：整群抽样是先将总体划分为K个“群”，每个群包含若干个观察单位，再随机抽取k个群（k＜K），由抽中的各群的全部观察单位组成样本。整群抽样的优点是便于组织调查，节省经费，容易控制调查质量；缺点是当样本含量一定时，抽样误差大于单纯随机抽样。
多做数据间的加减乘除；多绘制各种图表

寻找数据后面的数据：
交叉运算；对有典型意义小类拎出来汇总；小类间比较（如税负调查、融资成本调查等）

充分利用大数据，如：
统计年鉴、人口数据、工资数据、社保数据、城乡住户调查数据、基尼系数、恩格尔系数等
全省
2013 可支配收入㈠工资性收入 ⒈工资及补贴收入 ⒉其它劳动收入㈡经营净收入㈢财产性收入㈣转移性收入 ⒈养老金或离退休金 ⒉社会救济收入其中：最低生活保障收入 5.失业保险金 ⒍赡养收入 ⒎捐赠收入元元元元元元元元元元元元元人人人人人人人人人人人人人 23188.2 14344.1 13267.5 1076.5 4101.5 791.2 5245.2 4030.7 52.7 24.8 9.8 289.9 30.8 2012 2011
46.9 49.9
3.5

社保调查如果13个市都开展调查，在推算全省数据时，就可以采用加权方式计算，权数计算的基础就是人口数。权数计算方法：

一般采用最新的年度数据，如物价指数计算时采用上一年居
民消费支出数据等。我们计算权数时采用的是最近三年的
数据，但不是将三年数据简单平均，而是按时间先后给予相应的权重，然后加权计算权数。例如，上表中，我省非

百度文库
可靠度要求越高，需要的样本量越大。
实际工作中如何确定样本量
1、调查对于决策的重要性。重要的决策，需要更多更准确的信息，需要较大的样本；探索性研究，样本量可以较小。
2、收集有关许多变量的数据，样本量就要大一些，以减少抽样误差的累积效应。 3、如果需要采用多元统计方法对数据进行复杂的高级分析，样本量就应当较大。
城镇居民农村居民
8提取住房公积金
9记帐补贴 10其它转移性收入
元
元元
人
人人
39.2
173.8 67.0
全省
2013 家庭总支出 (一)消费性支出元元人人 31501.10 17924.97 2012 2011
城镇居民
农村居民
(二)财产性支出
(三)转移性支出 1.交纳所得税 2.捐赠支出
2.0个百分点。其中，农村居民增速较快，人均转移净收入
1734元，增加188元，增长12.1%；城镇居民人均4665元，增加338元，增长7.8%。
社会保险基本情况
失业保险城镇职工基本医疗保险年末参保职工人数 (万人)
367.64 507.69 608.41 715.11 821.07 935.77 1070.34 1213.90 1282.50 1405.06 1541.55
元
元元元
人
人人人
69.94
1293.81 64.50 66.33
4.赡养支出
6. 其它转移性支出 (四)社会保障支出 1.个人交纳的养老基金
元
元元元
人
人人人
105.49
59.47 959.91 636.98
2.个人交纳的住房公积金
3.个人交纳的医疗基金 4.个人交纳的失业基金 5.其它社会保障支出
按户口性质分：7组
按最高学历分：8组
按专业职称、技工技师资格分：6组+7组按专业技术岗位分：10组按行业分：20组按职业分：8大组，若干小组
按就业身份/形式分：9组
按工作单位/雇主的性质分：10组
按所在企业的注册类型分：10组按参保种类分：5组。养老保险再分8类，养老保险中再分6类失业保险中再分多类其他内容汇总此外，还可进行多种交叉分组汇总：例如：技术职称与技术岗位；学历与岗位；保险种类与职业等还要，根据调查报告写作的需要，随时增补汇总数据

经验做法：
如果是多省市或者全国性的研究，则样本量可能在1000-3000之间比较适合；大型城市、省市一级的地区性研究，样本数在500--1000之间比较适合；中小城市，样本量在200--300 之间比较适合；
如果要进行分组研究，每组样本量应该不少于50个。在经费有限的情况下，每组的样本量可降至30个左右。每组超过100个可能是资源浪费。
二、置信度
也称为可靠度，或置信水平、置信系数，即在抽样对总体参数作出估计时，由于样本的随机性，其结论总是不确定的。置信水平是指总体参数值落在样本统计值某一区内的概率；而置信区间是指在某一置信水平下，样本统计值与总体参数值间误差范围。置信区间越大，置信水平越高。

置信水平表示区间估计的把握程度，置信区间的跨度是置信水平的正函数，即要求的把握程度越大，势必得到一个较宽的置信区间，这就相应降低了估计的准确程度。
户调查需要的车辆、雨具，用餐，礼品，安全，等等
复查及质量控制（另讲）问卷录入及汇总（另讲）
调查报告撰写（另讲）
封闭式抽样：如何抽取最后一个样本
举例：样本框总量127个，每10个抽1个，应该抽13个样本最好。抓阄确定的起始号为8，则抽取的样本应该为8、18、 28……108、118。至此共抽取了12个样本，此后还有9个号没抽中，最后一个样本该怎么抽呢？社保调查的抽样方法是抓阄。我提供两个方法：①将剩下的9个号与起始号前面的 1-7号连起来，使样本框形成一个封闭的圆环：8、9、 10…118、119…126、127、1、2…6、7、8，从119号开始数到第10，即是最后一个样本（即1号）；②将圆环中119 号之后的16个号除2，抽取中间的那个号为最后一个样本，即16/2=8，即抽取第126号（118+8）为最后一个样本。这就叫封闭式抽样。
4.分层抽样：分层抽样是先将总体中全部个体按对主要研究指标影响较大的某种特征分成若干“层”，再从每一层内随机抽取一定数量的观察单位组成样本。分层抽样的优点是样本具有较好的代表性，抽样误差较
小，分层后可根据情况对不同的层采用不同的抽样方法。
四种抽样方法的抽样误差大小一般是：整群抽样≥单纯随机抽样≥系统抽样≥分层抽样。此外还有选择性抽样、指定性抽样、滚雪球式抽样等。

抽样调查的组织实施
以社保调查为例（抽样方法，样本量：南京76村，南通75村、宿迁64
村，另外各市1000农民工）
人员准备：选什么人作为调查员
调查员培训：调查要求及技巧、熟悉问卷样本抽取：样本框准备、PPS抽样、拒访处理、封闭式抽样
（见下页）
问卷及礼品准备：根据问卷时长准备礼品试调查及入户调查：试调查可了解难点所在，掌握时间；入
物价调查
采购经理调查农产量调查
小微企业调查
其他市场调查等
样本量的确定总原则：用最经济的样本量，取得尽可能准确的数据
一、离散度
1、极差
2、离均差平方和 3、方差 4、标准差：表示的是样本数据的离散程度。标准差就是样本平均数方差的开平方。标准差越小，表明数据越聚集，需要的样本量越少；标准差越大，表明数据越离散，需要的样本量越多。 5、变异系数
4、如做许多分类等，也需要大样本。针对子样本分析比只限于对总样本分析，所需样本量要大得多。
5、可操作性。容易操作，简单易行，样本量可以多些；操作难度较大，样本就少些。 6、调查经费。

科学做法：
在调查前先抽取少量的样本，得到标准差S的估计，然后代入公式，得到下一步抽样所需样本量n。如果有以前类似调查的数据，可以使用以前调查的方差作为总体方差的估计。

如果是分层抽样的，要推算总体则需要给每个层确定权重。例如PMI调查（见下表）。
2014年X月全省非制造业PMI
行码
47-50 建筑业
51-52 批发和零售业 53-60 交通运输、仓储和邮政业
行业名称
合计
样本量
170
254 133
权数
100.0 16.1 29.7 11.4 7.4
PMI
49.4