4第四章 抽样
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
LOGO
Company
第四章 社会调查的抽样
§1 §2 §3 §4 抽样的概念和意义 概率抽样的原理与方法 非概率抽样的方法和应用 样本规模与抽样误差
§1 抽样的概念和意义
一、概念
总体:全体研究对象被统称为总体。 样本:是从总体中按一定规则抽取出的一部分元素 的集合。 抽样:是从总体中,按一定方式选择和抽取一部分 元素的过程。 抽样单位:一次直接抽样时所使用的基本单位。 抽样框:一次直接抽样时总体中所有抽样单位的名 单。 总体值:关于总体某种特征的综合数量表现。 样本值:关于样本某种特征的综合数量表现。
企业7 …… 企业99
企业100
1000 …… 800
1200
27600 …… 198800
200000 元素20
……
6、户内抽样
一般情况下,多阶段抽样的最后一级抽样单位 常常是居民住户,但事实上,居民住户中大多是 由多名成员组成的,因此实际调查中,仍需要按 随机原则从这些成员里按一定的规则抽取一位成 年人作为调查对象,而户内抽样可以帮助我们。
一、基本原理
随机抽取(random selection) 就是保证总体中的每一个个体都有同等的机 会入选样本,而且,任何一个个体是否入选, 与其他个体毫不相干,是彼此独立的。
二、概率抽样方法 1、简单随机抽样
简单随机抽样也称作纯随机抽样,是严格 按照随机原则从含有N个元素的总体中抽取n个 元素(N>n),在抽样的过程中,总体的每一 个元素都有同等的机会入选样本,而且每个元 素的抽取都是相互独立的。 抽签法:总体及样本元素较少时使用 例:P56 随机数法:总体或样本元素较多时使用 随机数筛子法:较少使用
K=总体规模/样本规模=N/n
第三,在头K个个体中确定随机起点(A) 第四,从A开始,每隔K个个体抽取一个个体组 成样本,A,A+K,A+2K…..,A+(n-1)K
案例
在某企业20000名职工中,使用系统抽样的方法抽取出 2000人组成样本,具体步骤如下: 第一步,获得总体中全部20000名职工的名单; 第二步,将这20000名职工按顺序编号; 第三步,计算抽样间距K=20000/2000=10; 第四步,在前面10个元素中,按简单随机抽样的方法抽取 一个元素,假设抽到的是数码2,作为随机的起点; 第五步,抽取数字2、2+10=12、2+2×10=22, 2+3×10=32,……,2+(2000-1)×10=19992 找到这2000个数码所对应人的名单。
案例
某市有10所高校,20万名大学生,研究者想使用多段抽 样的方法,从中抽取2000人组成样本,有多种组合方式
具体方案 方案一 方案二 方案三 方案四 方案五 方案六 方案七 方案八 方案九 第一阶段 抽取2所高校 抽取2所高校 抽取4所高校 抽取5所高校 抽取5所高校 抽取5所高校 抽取8所高校 抽取10所高校 抽取10所高校 第二阶段 每所高校抽取5个院(系/所) 每所高校抽取10个院(系/所) 每所高校抽取5个院(系/所) 每所高校抽取2个院(系/所) 每所高校抽取4个院(系/所) 每所高校抽取10个院(系/所) 每所高校抽取5个院(系/所) 每所高校抽取2个院(系/所) 每所高校抽取10个院(系/所) 第三阶段 每个学院抽取200名学生 每个学院抽取100名学生 每个学院抽取100名学生 每个学院抽取200名学生 每个学院抽取100名学生 每个学院抽取40名学生 每个学院抽取50名学生 每个学院抽取100名学生 每个学院抽取20名学生
职称 教授 副教授 讲师 助教 教辅 合计 人数 378 603 561 230 228 2000 百分比(%) 18.9 30.1 28.1 11.5 11.4 100.0 等比例分层样本 数 38 60 56 23 23 200
4、整群抽样
整群抽样又称作聚类抽样,是将总体中各单 位归并成若干个互不交叉、互不重复的集合, 称之为群;然后以群为抽样单位用简单随机抽 样、系统抽样或分层抽样的方法抽取样本的一 种抽样方式。 eg:P61
缺点
多段抽样过程中暗含了一个假定,即每 个阶段抽样时,子群元素的规模是相同的。 而现实生活中,这种情况非常少,按照上 述方法抽取,样本个体入选的概率其实不 完全相同。 例:P64
如果研究者第一个阶段抽中了两个社区:甲和乙。甲 社区中的居民有800户,而乙社区是200户。此时,甲社 区中的居民户被抽中的概率是10/20×100/800=1/16,而 乙社区居民户被抽中的概率则是10/20×100/200=1/4。
§3 非概率抽样的方法和应用
一、偶遇抽样
偶遇抽样又称为方便抽样或就近抽样, 指的是研究者使用对自己最为方便的形 式来抽取样本。 eg:街头拦人
二、判断抽样
判断抽样又称为立意抽样或目标 式抽样,是指研究者根据对总体 的知识和认识,并结合自身对研 究目的判断或专家的判断来选择 适当调查对象的抽样方法。
1 2 3 4 5 6人或以上
1 1 1 2 2 2
1 2 3 4 5 6人或以上
1 1 2 2 3 3
Kish表
D式选择表 如果家庭户中18 岁以上人口数为 被抽中人 的序号为 E1式选择表 如果家庭户中18 岁以上人口数为 被抽中人 的序号为
1 2 3 4 5 6人或以上
1 2 2 3 4 4
1 2 3 4 5 6人或以上
1 2 3 3 3 5
Kish表
E2式选择表 如果家庭户中18 岁以上人口数为 1 2 3 4 5 6人或以上 被抽中人 的序号为 1 2 2 4 5 5 F式选择表 如果家庭户中18 岁以上人口数为 1 2 3 4 5 6人或以上 被抽中人 的序号为 1 2 3 4 5 6
3、分层抽样
分层抽样也叫类型抽样,是先将总体N个单 位,按某种特征划分为若干个层次或子类型, 然后在每个层次或子类型中分别独立的进行简 单随机抽样或系统抽样,最后,将抽取的子样 本集合成总体的样本。
注意事项: 分层标准问题 分层比例问题
案例
在某大学2000名教职工中用分层抽样方法抽取一 个200人的样本。
52
51 49 49 51 51 52 49 51 49
48
49 51 51 49 49 48 51 49 52
TIPP
Marist GWUBattleground2004 选举结果
10月30日
10月31日 10月31日 11月2日
51
50 52 20
49
50 48 48
§2 概率抽样的原理与方法
方法: Kish选择法 掷骰子法 生日法
Kish选择法
调查员要先向住户家庭征求意见, 询问其家庭成员的基本情况,包括性别、 年龄、与住户的关系。然后,按男性在 前、女性在后,年长者在前、年幼者在 后的顺序排序。最后,借助kish表确定 调查对象。
Kish表
A式选择表
如果家庭户中18 岁以上人口数为 被抽中人 的序号为
ABC Fox/OpinDynamics Gullup/CNN/USA NBC/WSJ TIPP Harris Democracy Corps CBS Fox/OpinDynamics
10月28日
10月28日 10月29日 10月29日 10月29日 10月29日 10月29日 10月29日 10月29日 10月30日
层 大群 中群 小群
fa 1 1/20 1/400
fb 1/400 1/20 1
f 1/400 1/400 1/400
(3)多阶段PPS抽样
多阶段PPS抽样即“概率与元素的 规模大小成比例的抽样”, 英文缩写 简称为PPS抽样。它的基本原理在于以 阶段性的不等概率换取最终总体的等概 率。
例:从全市100家企业、总共20万名职工中,抽取 1000名职工进行调查。采取多段抽样的方法,先从 100家企业中随机抽取20家企业,然后再从这20家 企业中分别抽取50名职工,构成了一个1000人的构 成样本。
方法1
企业 企业1 企业2 企业3 企业4 企业5 企业6 企业7 规模 600 16000 2000 6000 200 1800 1000 所占比例 3‰ 80‰ 10‰ 30‰ 1‰ 9‰ 5‰ 累计 3‰ 83‰ 93‰ 123‰ 124‰ 133‰ 138‰ 选择号码范围 0~2 3~82 83~92 93~122 123 124~132 133~137 130 元素5 098、112 元素3、4 020、076 元素1、2 所选号码 入样元素
…… 企业99
企业100
…… 800
1200
…… 4‰
6‰
…… 994‰
1000‰
990~993
994~999 997 元素20
பைடு நூலகம்
方法2
规模 企业1 企业2 企业3 企业4 企业5 企业6 频数 600 16000 2000 6000 200 1800 累计频数 600 16600 18600 24600 24800 26600 元素5 21000 元素3、4 1000、11000 元素1、2 所选号码 入样元素
(2)分层多阶段等概率抽样
先将总体中规模不等的子群按规模或重要性进行分层,然后 在不同阶段对不同的层使用不同的抽样比。以两阶段抽样为 例,假如将总体分为大群、中群、小群三个层。第一个阶段 时,大群、中群、小群三个层的抽样比fa依次递减,第二个 阶段时,大群、中群、小群三个层的抽样比fb依次递增。假 如f=1/400,可以进行以下样本设计:
二、意义
是由部分推及总体、了解复杂 多变的社会现象的桥梁 解决了如何从总体中选出一部 分对象作为总体的代表的问题
一个案例
2004美国总统大选前夕的民意调查结果
主办机构 Fox/OpinDynamics TIPP 日期 10月28日 10月28日 布什 50 53 克里 50 47
CBS/NYT
案例
某企业共350名员工,老总打算从中抽取60人进行一次对 企业管理满意度的调查,具体步骤如下: 第一步,获得总体这350名员工的名单; 第二步,把这些人名按顺序一一编号; 第三步,使用随机数表抽取足够的数码: 假如我们任意选择第四行、第二列这个数字9作为随机 的起点;按照从上到下的方法,从随机数表中选取一个三 位数;按总体规模进行衡量和取舍,选取280、106、 180……;直到选中60个不同的数码为止。 第四步,在刚才已经编好的员工名单中,找到这60个不同 数码所对应的员工,即组成60人的样本。
随机数法的具体步骤
第一步,获得总体中所有元素的名单 第二步,将总体中的所有元素按顺序一一编号 第三步,使用随机数表抽取足够的数码个数 起 点:任意起点 数码位数:根据总体规模的位数确定 数字顺序:任意顺序 数码筛选:以总体的规模为标准 数码个数:按样本规模的要求 第四步,通过上述步骤的顺序所抽取的元素的集合,就构 成了使用随机数表抽中的样本
B1式选择表
如果家庭户中18 岁以上人口数为 被抽中人 的序号为
1 2 3 4 5 6人或以上
1 1 1 1 1 1
1 2 3 4 5 6人或以上
1 1 1 1 2 2
Kish表
B2式选择表 如果家庭户中18 岁以上人口数为 被抽中人 的序号为 C式选择表 如果家庭户中18 岁以上人口数为 被抽中人 的序号为
步骤: 确定分群的标注 将总体N按一定标准划分为互不重叠的部分,每个部分
为一个子群 根据个子群的样本量,确定应该抽取的群数 根据个子群的样本量,确定应该抽取的群数
5、多阶段抽样
(1)多段抽样
多段抽样又称为多级抽样、分段抽样或多 阶段抽样,是指按总体内的层级关系,把抽 样分为几个阶段来进行,在每一个阶段都使 用简单随机抽样、系统抽样、分层抽样的方 法来进行。
2、系统抽样
系统抽样又称作机械抽样或等距抽样,它先 将N个总体元素按一定的顺序排列,然后在前 面K个个体中,先随机抽取一个起始元素,再 间隔K个距离,按照固定的抽样间隔K抽取其他 n-1个元素。
注意事项: 非整数抽样间距问题 总体元素的排序问题
系统抽样的具体步骤
第一,将总体的所有个体按顺序编号 第二,计算抽样间距K:
三、配额抽样
也称为定额抽样,是按总体某种特征,确 定不同总体类别中的样本单位数额,然后 按比例在各类别中进行方便抽样。 例P72
Company
第四章 社会调查的抽样
§1 §2 §3 §4 抽样的概念和意义 概率抽样的原理与方法 非概率抽样的方法和应用 样本规模与抽样误差
§1 抽样的概念和意义
一、概念
总体:全体研究对象被统称为总体。 样本:是从总体中按一定规则抽取出的一部分元素 的集合。 抽样:是从总体中,按一定方式选择和抽取一部分 元素的过程。 抽样单位:一次直接抽样时所使用的基本单位。 抽样框:一次直接抽样时总体中所有抽样单位的名 单。 总体值:关于总体某种特征的综合数量表现。 样本值:关于样本某种特征的综合数量表现。
企业7 …… 企业99
企业100
1000 …… 800
1200
27600 …… 198800
200000 元素20
……
6、户内抽样
一般情况下,多阶段抽样的最后一级抽样单位 常常是居民住户,但事实上,居民住户中大多是 由多名成员组成的,因此实际调查中,仍需要按 随机原则从这些成员里按一定的规则抽取一位成 年人作为调查对象,而户内抽样可以帮助我们。
一、基本原理
随机抽取(random selection) 就是保证总体中的每一个个体都有同等的机 会入选样本,而且,任何一个个体是否入选, 与其他个体毫不相干,是彼此独立的。
二、概率抽样方法 1、简单随机抽样
简单随机抽样也称作纯随机抽样,是严格 按照随机原则从含有N个元素的总体中抽取n个 元素(N>n),在抽样的过程中,总体的每一 个元素都有同等的机会入选样本,而且每个元 素的抽取都是相互独立的。 抽签法:总体及样本元素较少时使用 例:P56 随机数法:总体或样本元素较多时使用 随机数筛子法:较少使用
K=总体规模/样本规模=N/n
第三,在头K个个体中确定随机起点(A) 第四,从A开始,每隔K个个体抽取一个个体组 成样本,A,A+K,A+2K…..,A+(n-1)K
案例
在某企业20000名职工中,使用系统抽样的方法抽取出 2000人组成样本,具体步骤如下: 第一步,获得总体中全部20000名职工的名单; 第二步,将这20000名职工按顺序编号; 第三步,计算抽样间距K=20000/2000=10; 第四步,在前面10个元素中,按简单随机抽样的方法抽取 一个元素,假设抽到的是数码2,作为随机的起点; 第五步,抽取数字2、2+10=12、2+2×10=22, 2+3×10=32,……,2+(2000-1)×10=19992 找到这2000个数码所对应人的名单。
案例
某市有10所高校,20万名大学生,研究者想使用多段抽 样的方法,从中抽取2000人组成样本,有多种组合方式
具体方案 方案一 方案二 方案三 方案四 方案五 方案六 方案七 方案八 方案九 第一阶段 抽取2所高校 抽取2所高校 抽取4所高校 抽取5所高校 抽取5所高校 抽取5所高校 抽取8所高校 抽取10所高校 抽取10所高校 第二阶段 每所高校抽取5个院(系/所) 每所高校抽取10个院(系/所) 每所高校抽取5个院(系/所) 每所高校抽取2个院(系/所) 每所高校抽取4个院(系/所) 每所高校抽取10个院(系/所) 每所高校抽取5个院(系/所) 每所高校抽取2个院(系/所) 每所高校抽取10个院(系/所) 第三阶段 每个学院抽取200名学生 每个学院抽取100名学生 每个学院抽取100名学生 每个学院抽取200名学生 每个学院抽取100名学生 每个学院抽取40名学生 每个学院抽取50名学生 每个学院抽取100名学生 每个学院抽取20名学生
职称 教授 副教授 讲师 助教 教辅 合计 人数 378 603 561 230 228 2000 百分比(%) 18.9 30.1 28.1 11.5 11.4 100.0 等比例分层样本 数 38 60 56 23 23 200
4、整群抽样
整群抽样又称作聚类抽样,是将总体中各单 位归并成若干个互不交叉、互不重复的集合, 称之为群;然后以群为抽样单位用简单随机抽 样、系统抽样或分层抽样的方法抽取样本的一 种抽样方式。 eg:P61
缺点
多段抽样过程中暗含了一个假定,即每 个阶段抽样时,子群元素的规模是相同的。 而现实生活中,这种情况非常少,按照上 述方法抽取,样本个体入选的概率其实不 完全相同。 例:P64
如果研究者第一个阶段抽中了两个社区:甲和乙。甲 社区中的居民有800户,而乙社区是200户。此时,甲社 区中的居民户被抽中的概率是10/20×100/800=1/16,而 乙社区居民户被抽中的概率则是10/20×100/200=1/4。
§3 非概率抽样的方法和应用
一、偶遇抽样
偶遇抽样又称为方便抽样或就近抽样, 指的是研究者使用对自己最为方便的形 式来抽取样本。 eg:街头拦人
二、判断抽样
判断抽样又称为立意抽样或目标 式抽样,是指研究者根据对总体 的知识和认识,并结合自身对研 究目的判断或专家的判断来选择 适当调查对象的抽样方法。
1 2 3 4 5 6人或以上
1 1 1 2 2 2
1 2 3 4 5 6人或以上
1 1 2 2 3 3
Kish表
D式选择表 如果家庭户中18 岁以上人口数为 被抽中人 的序号为 E1式选择表 如果家庭户中18 岁以上人口数为 被抽中人 的序号为
1 2 3 4 5 6人或以上
1 2 2 3 4 4
1 2 3 4 5 6人或以上
1 2 3 3 3 5
Kish表
E2式选择表 如果家庭户中18 岁以上人口数为 1 2 3 4 5 6人或以上 被抽中人 的序号为 1 2 2 4 5 5 F式选择表 如果家庭户中18 岁以上人口数为 1 2 3 4 5 6人或以上 被抽中人 的序号为 1 2 3 4 5 6
3、分层抽样
分层抽样也叫类型抽样,是先将总体N个单 位,按某种特征划分为若干个层次或子类型, 然后在每个层次或子类型中分别独立的进行简 单随机抽样或系统抽样,最后,将抽取的子样 本集合成总体的样本。
注意事项: 分层标准问题 分层比例问题
案例
在某大学2000名教职工中用分层抽样方法抽取一 个200人的样本。
52
51 49 49 51 51 52 49 51 49
48
49 51 51 49 49 48 51 49 52
TIPP
Marist GWUBattleground2004 选举结果
10月30日
10月31日 10月31日 11月2日
51
50 52 20
49
50 48 48
§2 概率抽样的原理与方法
方法: Kish选择法 掷骰子法 生日法
Kish选择法
调查员要先向住户家庭征求意见, 询问其家庭成员的基本情况,包括性别、 年龄、与住户的关系。然后,按男性在 前、女性在后,年长者在前、年幼者在 后的顺序排序。最后,借助kish表确定 调查对象。
Kish表
A式选择表
如果家庭户中18 岁以上人口数为 被抽中人 的序号为
ABC Fox/OpinDynamics Gullup/CNN/USA NBC/WSJ TIPP Harris Democracy Corps CBS Fox/OpinDynamics
10月28日
10月28日 10月29日 10月29日 10月29日 10月29日 10月29日 10月29日 10月29日 10月30日
层 大群 中群 小群
fa 1 1/20 1/400
fb 1/400 1/20 1
f 1/400 1/400 1/400
(3)多阶段PPS抽样
多阶段PPS抽样即“概率与元素的 规模大小成比例的抽样”, 英文缩写 简称为PPS抽样。它的基本原理在于以 阶段性的不等概率换取最终总体的等概 率。
例:从全市100家企业、总共20万名职工中,抽取 1000名职工进行调查。采取多段抽样的方法,先从 100家企业中随机抽取20家企业,然后再从这20家 企业中分别抽取50名职工,构成了一个1000人的构 成样本。
方法1
企业 企业1 企业2 企业3 企业4 企业5 企业6 企业7 规模 600 16000 2000 6000 200 1800 1000 所占比例 3‰ 80‰ 10‰ 30‰ 1‰ 9‰ 5‰ 累计 3‰ 83‰ 93‰ 123‰ 124‰ 133‰ 138‰ 选择号码范围 0~2 3~82 83~92 93~122 123 124~132 133~137 130 元素5 098、112 元素3、4 020、076 元素1、2 所选号码 入样元素
…… 企业99
企业100
…… 800
1200
…… 4‰
6‰
…… 994‰
1000‰
990~993
994~999 997 元素20
பைடு நூலகம்
方法2
规模 企业1 企业2 企业3 企业4 企业5 企业6 频数 600 16000 2000 6000 200 1800 累计频数 600 16600 18600 24600 24800 26600 元素5 21000 元素3、4 1000、11000 元素1、2 所选号码 入样元素
(2)分层多阶段等概率抽样
先将总体中规模不等的子群按规模或重要性进行分层,然后 在不同阶段对不同的层使用不同的抽样比。以两阶段抽样为 例,假如将总体分为大群、中群、小群三个层。第一个阶段 时,大群、中群、小群三个层的抽样比fa依次递减,第二个 阶段时,大群、中群、小群三个层的抽样比fb依次递增。假 如f=1/400,可以进行以下样本设计:
二、意义
是由部分推及总体、了解复杂 多变的社会现象的桥梁 解决了如何从总体中选出一部 分对象作为总体的代表的问题
一个案例
2004美国总统大选前夕的民意调查结果
主办机构 Fox/OpinDynamics TIPP 日期 10月28日 10月28日 布什 50 53 克里 50 47
CBS/NYT
案例
某企业共350名员工,老总打算从中抽取60人进行一次对 企业管理满意度的调查,具体步骤如下: 第一步,获得总体这350名员工的名单; 第二步,把这些人名按顺序一一编号; 第三步,使用随机数表抽取足够的数码: 假如我们任意选择第四行、第二列这个数字9作为随机 的起点;按照从上到下的方法,从随机数表中选取一个三 位数;按总体规模进行衡量和取舍,选取280、106、 180……;直到选中60个不同的数码为止。 第四步,在刚才已经编好的员工名单中,找到这60个不同 数码所对应的员工,即组成60人的样本。
随机数法的具体步骤
第一步,获得总体中所有元素的名单 第二步,将总体中的所有元素按顺序一一编号 第三步,使用随机数表抽取足够的数码个数 起 点:任意起点 数码位数:根据总体规模的位数确定 数字顺序:任意顺序 数码筛选:以总体的规模为标准 数码个数:按样本规模的要求 第四步,通过上述步骤的顺序所抽取的元素的集合,就构 成了使用随机数表抽中的样本
B1式选择表
如果家庭户中18 岁以上人口数为 被抽中人 的序号为
1 2 3 4 5 6人或以上
1 1 1 1 1 1
1 2 3 4 5 6人或以上
1 1 1 1 2 2
Kish表
B2式选择表 如果家庭户中18 岁以上人口数为 被抽中人 的序号为 C式选择表 如果家庭户中18 岁以上人口数为 被抽中人 的序号为
步骤: 确定分群的标注 将总体N按一定标准划分为互不重叠的部分,每个部分
为一个子群 根据个子群的样本量,确定应该抽取的群数 根据个子群的样本量,确定应该抽取的群数
5、多阶段抽样
(1)多段抽样
多段抽样又称为多级抽样、分段抽样或多 阶段抽样,是指按总体内的层级关系,把抽 样分为几个阶段来进行,在每一个阶段都使 用简单随机抽样、系统抽样、分层抽样的方 法来进行。
2、系统抽样
系统抽样又称作机械抽样或等距抽样,它先 将N个总体元素按一定的顺序排列,然后在前 面K个个体中,先随机抽取一个起始元素,再 间隔K个距离,按照固定的抽样间隔K抽取其他 n-1个元素。
注意事项: 非整数抽样间距问题 总体元素的排序问题
系统抽样的具体步骤
第一,将总体的所有个体按顺序编号 第二,计算抽样间距K:
三、配额抽样
也称为定额抽样,是按总体某种特征,确 定不同总体类别中的样本单位数额,然后 按比例在各类别中进行方便抽样。 例P72