抽样调查理论与实践
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
元
元 元 元
人
人 人 人
120.00
254.71 43.49 24.73
(五)购房与建房支出
元
人
1012.1
转移受益增加拉动城乡居民收入增长
受上调企业退休人员养老金、城乡居民基础养老金标准
和城乡低保标准等政策性作用影响,前三季度,江苏城乡居
民人均转移净收入3567元,较上年同期增加298元,增长 9.1%,对可支配收入增长的贡献率达16.1%,拉动收入增长
制造业PMI的分行业权数就是用最近三年各行业的增加值
加权计算所得。20%、30%、50%。
数据分析与报告撰写
调查数据是富矿,金、银、铜、铁、锡一应俱全,就看开 采者的水平。
数据分析与报告撰写紧密相关。
在一般性汇总的基础上,首先要对数据进行深入的研究, 寻找规律,发现问题,形成调查报告的大致思路:
方案及问卷设计
总原则:切忌贪大求全,问题不宜太多,研究的问题要集 中,时间不宜过长。 考虑要素:研究目标、调查报告的大致框架、覆盖的地理 范围、将做哪些分组(涉及样本量)、所设问题之间的逻 辑关系、调查对象及其配合度、调查所需时间及每份问卷 的回答时间、所需人力和经费,等等。 《人力资源和社会保障基本情况调查住户居民问卷》内 容过多,时间太长,可以拆分:例如可拆分一个离退休人 员的问卷,一个失业人员的问卷,等等 《企业税负调查问卷》、《融资成本调查问卷》等
52.0
51.7 51.8
61-62 住宿和餐饮业
63-65 信息传输、计算机服务和软件业 70 房地产业
137
119 150
47.4
51.4 43.5
7.5
15.3 7.0 2.1
71-75 租赁和商务服务业
76-78 水利、环境和公共设施管理业 79-85 居民服务和其他服务业
103
35 32
43.8
推算总体与权重使用
如果是按总体的一定比例抽样的,则可以直接推算总体。例 如人口抽样调查,按10%抽样,则扩大10倍即是人口总量。 如果调查得出的结果是比例或平均值,则该比例或平均值即 可认为是总体的水平。例如社保调查,调查结果,南京的农 民工中有36%有技术职称,每个农民工平均休假时间为15天, 那么可以认为南京所有的农民工中有技术职称的人占36%, 所有农民工的平均休假时间为15天。 但是,此次调查每市调查的农民工总数1000人是人为确 定的,他们在总体中占多大比重无从得知,所以,不能推算 全市的农民工总数。
抽样调查理论与实践
赵继东
2014年10月
主要内容
一、抽样方法选择 二、样本量的确定
三、方案及问卷设计
四、抽样调查的组织实施
五、质量控制
六、数据汇总
七、推算总体与权重使用
八、数据分析与报告撰写
抽样方法选择
1、纯随机抽样:纯随机抽样是在总体中以完全随机的方 法抽取一部分观察单位组成样本(即每个观察单位有同等的 概率被抽中)。 其优点是简单直观;缺点是当总体较大时,难以对每个 体一一编号,且抽到的样本分散,可能也不均匀。 2、系统抽样:系统抽样又称等距抽样或机械抽样,即先 将总体中的全部个体按与研究现象无关的特征排序编号;然 后根据样本含量大小,规定抽样间隔(步长)k;随机选定第i (i<k)号个体开始,每隔一个k,抽取一个个体,组成样本。
选择抽样方法的原则:
方便、快速、精确、节省
1、代表性—要紧紧围绕调查项目的特点和要求。
2、精确性—以样本信息代表母体信息,可测量其可信度 3、可行性—要全面考虑每一种统计抽样方法各自的优点和 运用条件。 4、低成本
在实际工作中,常常将两种或几种抽样方法结合使用, 进行多阶段抽样。有的需要重点调查和抽样调查结合。 社保调查 人口抽样调查 住户收支调查
质量控制
调查员素质决定调查质量 调查经费影响调查质量 调查问卷决定调查质量:时间长短,问题设计(答案的唯 一性、私密性、逻辑性等)
过程控制提升调查质量:自查、复查、录入、奖罚
资料汇总
根据研究目标汇总数据,要有缜密的汇总思路 社保调查
按人口的年龄、性别分:男16-59岁,女16-54岁,按每5 岁一组分,男9组,女8组,另外有其他年龄。
系统抽样的优点是:易于理解,简便易行;容易得到一 个在总体中分布均匀的样本,其抽样误差小于单纯随机抽样。 缺点是:抽到的样本较分散,不易组织调查;当总体中观察 单位按顺序有周期趋势或单调增加(减小)趋势时,容易产 生偏倚。
PPS抽样法即属此列 ,实践中大多采用此法。
3、整群抽样:整群抽样是先将总体划分为K个“群”, 每个群包含若干个观察单位,再随机抽取k个群(k<K), 由抽中的各群的全部观察单位组成样本。 整群抽样的优点是便于组织调查,节省经费,容易控制 调查质量;缺点是当样本含量一定时,抽样误差大于单纯随 机抽样。
多做数据间的加减乘除;多绘制各种图表
寻找数据后面的数据:
交叉运算;对有典型意义小类拎出来汇总;小类间比较 (如税负调查、融资成本调查等)
充分利用大数据,如:
统计年鉴、人口数据、工资数据、社保数据、城乡住户 调查数据、基尼系数、恩格尔系数等
全省
2013 可支配收入 ㈠工资性收入 ⒈工资及补贴收入 ⒉其它劳动收入 ㈡经营净收入 ㈢财产性收入 ㈣转移性收入 ⒈养老金或离退休金 ⒉社会救济收入 其中:最低生活保障收入 5.失业保险金 ⒍赡养收入 ⒎捐赠收入 元 元 元 元 元 元 元 元 元 元 元 元 元 人 人 人 人 人 人 人 人 人 人 人 人 人 23188.2 14344.1 13267.5 1076.5 4101.5 791.2 5245.2 4030.7 52.7 24.8 9.8 289.9 30.8 2012 2011
46.9 49.9
3.5
社保调查如果13个市都开展调查,在推算全省数据时,就 可以采用加权方式计算,权数计算的基础就是人口数。 权数计算方法:
一般采用最新的年度数据,如物价指数计算时采用上一年居
民消费支出数据等。我们计算权数时采用的是最近三年的
数据,但不是将三年数据简单平均,而是按时间先后给予 相应的权重,然后加权计算权数。例如,上表中,我省非
百度文库
可靠度要求越高,需要的样本量越大。
实际工作中如何确定样本量
1、调查对于决策的重要性。重要的决策,需要更多更准 确的信息,需要较大的样本;探索性研究,样本量可以较小。
2、收集有关许多变量的数据,样本量就要大一些,以减 少抽样误差的累积效应。 3、如果需要采用多元统计方法对数据进行复杂的高级分 析,样本量就应当较大。
城镇居民 农村居民
8提取住房公积金
9记帐补贴 10其它转移性收入
元
元 元
人
人 人
39.2
173.8 67.0
全省
2013 家庭总支出 (一)消费性支出 元 元 人 人 31501.10 17924.97 2012 2011
城镇居民
农村居民
(二)财产性支出
(三)转移性支出 1.交纳所得税 2.捐赠支出
2.0个百分点。其中,农村居民增速较快,人均转移净收入
1734元,增加188元,增长12.1%;城镇居民人均4665元,增 加338元,增长7.8%。
社会保险基本情况
失 业 保 险 城镇职工基本医疗 保险 年末参 保职工 人数 (万人)
367.64 507.69 608.41 715.11 821.07 935.77 1070.34 1213.90 1282.50 1405.06 1541.55
元
元 元 元
人
人 人 人
69.94
1293.81 64.50 66.33
4.赡养支出
6. 其它转移性支出 (四)社会保障支出 1.个人交纳的养老基金
元
元 元 元
人
人 人 人
105.49
59.47 959.91 636.98
2.个人交纳的住房公积金
3.个人交纳的医疗基金 4.个人交纳的失业基金 5.其它社会保障支出
按户口性质分:7组
按最高学历分:8组
按专业职称、技工技师资格分:6组+7组 按专业技术岗位分:10组 按行业分:20组 按职业分:8大组,若干小组
按就业身份/形式分:9组
按工作单位/雇主的性质分:10组
按所在企业的注册类型分:10组 按参保种类分:5组。养老保险再分8类,养老保险中再分6类 失业保险中再分多类 其他内容汇总 此外,还可进行多种交叉分组汇总: 例如:技术职称与技术岗位; 学历与岗位; 保险种类与职业 等 还要,根据调查报告写作的需要,随时增补汇总数据
经验做法:
如果是多省市或者全国性的研究,则样本量可能在1000-3000之间比较适合;大型城市、省市一级的地区性研究,样本 数在500--1000之间比较适合;中小城市,样本量在200--300 之间比较适合;
如果要进行分组研究,每组样本量应该不少于50个。 在 经费有限的情况下,每组的样本量可降至30个左右。 每组超过100个可能是资源浪费。
二、置信度
也称为可靠度,或置信水平、置信系数,即在抽样对总 体参数作出估计时,由于样本的随机性,其结论总是不确定 的。 置信水平是指总体参数值落在样本统计值某一区内的概 率;而置信区间是指在某一置信水平下,样本统计值与总体 参数值间误差范围。置信区间越大,置信水平越高。
置信水平表示区间估计的把握程度,置信区间的跨度是 置信水平的正函数,即要求的把握程度越大,势必得到一个 较宽的置信区间,这就相应降低了估计的准确程度。
户调查需要的车辆、雨具,用餐,礼品,安全,等等
复查及质量控制(另讲) 问卷录入及汇总(另讲)
调查报告撰写(另讲)
封闭式抽样:如何抽取最后一个样本
举例:样本框总量127个,每10个抽1个,应该抽13个样 本最好。抓阄确定的起始号为8,则抽取的样本应该为8、18、 28……108、118。至此共抽取了12个样本,此后还有9个号 没抽中,最后一个样本该怎么抽呢?社保调查的抽样方法是 抓阄。我提供两个方法:①将剩下的9个号与起始号前面的 1-7号连起来,使样本框形成一个封闭的圆环:8、9、 10…118、119…126、127、1、2…6、7、8,从119号开始 数到第10,即是最后一个样本(即1号);②将圆环中119 号之后的16个号除2,抽取中间的那个号为最后一个样本, 即16/2=8,即抽取第126号(118+8)为最后一个样本。这 就叫封闭式抽样。
4.分层抽样:分层抽样是先将总体中全部个体按对主要 研究指标影响较大的某种特征分成若干“层”,再从每一层 内随机抽取一定数量的观察单位组成样本。 分层抽样的优点是样本具有较好的代表性,抽样误差较
小,分层后可根据情况对不同的层采用不同的抽样方法。
四种抽样方法的抽样误差大小一般是: 整群抽样≥单纯随机抽样≥系统抽样≥分层抽样。 此外还有选择性抽样、指定性抽样、滚雪球式抽样等。
抽样调查的组织实施
以社保调查为例(抽样方法,样本量:南京76村,南通75村、宿迁64
村,另外各市1000农民工)
人员准备:选什么人作为调查员
调查员培训:调查要求及技巧、熟悉问卷 样本抽取:样本框准备、PPS抽样、拒访处理、封闭式抽样
(见下页)
问卷及礼品准备:根据问卷时长准备礼品 试调查及入户调查:试调查可了解难点所在,掌握时间;入
物价调查
采购经理调查 农产量调查
小微企业调查
其他市场调查等
样本量的确定 总原则:用最经济的样本量,取得尽可能准确的数据
一、离散度
1、极差
2、离均差平方和 3、方差 4、标准差:表示的是样本数据的离散程度。标准差就 是样本平均数方差的开平方。 标准差越小,表明数据越聚集,需要的样本量越少;标 准差越大,表明数据越离散,需要的样本量越多。 5、变异系数
4、如做许多分类等,也需要大样本。针对子样本分析比 只限于对总样本分析,所需样本量要大得多。
5、可操作性。容易操作,简单易行,样本量可以多些; 操作难度较大,样本就少些。 6、调查经费。
科学做法:
在调查前先抽取少量的样本,得到标准差S的估计,然后 代入公式,得到下一步抽样所需样本量n。 如果有以前类似调查的数据,可以使用以前调查的方差作 为总体方差的估计。
如果是分层抽样的,要推算总体则需要给每个层确定权重。 例如PMI调查(见下表)。
2014年X月全省非制造业PMI
行码
47-50 建筑业
51-52 批发和零售业 53-60 交通运输、仓储和邮政业
行业名称
合计
样本量
170
254 133
权数
100.0 16.1 29.7 11.4 7.4
PMI
49.4