社会调查方法04抽样(二)
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
整群抽样评价 优点:节省人力物力; 可以在没有总体名单即抽样框的条件 下进行,扩大抽样的范围。 缺点:样本的代表性较差,与其他方法比, 在样本数量相同的情况下,抽样误差比较大。
比较分层抽样和整群抽样
分层抽样
样本 每层均要选取子样本作为 总样本的一部分
整群抽样
只选择某几个子群作 为整体的代表 群间异质性低 群内异质性高 研究变量与研究问题 相关
三. 分层抽样(Stratified Sampling)
1.分层抽样的内涵: 分层抽样是将总体N依照某一种或某几种特征分 为几个子总体(层),然后从每一层中采取简 单随机抽样或等距抽样方式抽取一个个子样本 n1,n2……将这些子样本合在一起即为总体样本n。 ★ 使用什么分层变量? 一般是选择与调查目标变量高度相关的变量。 ★ 要协调层的数量和每层样本量 ★ 分层抽样适用于总体数目较多,异质,一 个或多个变量可能影响调查结果的情况,且对 所研究的总体有详细的名单。分层后,每层同 质,层之间不同质,然后在每层按照比例抽。
三阶段抽样第一阶段第一阶段第二阶段第二阶段第三阶段第三阶段方案方案11抽1010个区抽抽44所学校所学校每所学校抽每所学校抽3030教师教师方案方案22抽抽22个区抽抽2020所学校所学校每所学校抽每所学校抽3030教师教师方案方案33抽抽1010个区抽抽2020所学校所学校每所学校抽每所学校抽66教师教师方案方案44抽抽88个区抽抽1515所学校所学校每所学校抽每所学校抽1010教师教师方案方案55抽抽55个区抽抽1212所学校所学校每所学校抽每所学校抽2020教师教师方案方案66抽抽44个区抽抽1010所学校所学校每所学校抽每所学校抽4040教师教师方案方案77抽抽1010所学校所学校每所学校抽每所学校抽4040教师教师方案方案88抽抽1010所学校所学校每所学校抽每所学校抽6060教师教师方案方案99抽抽11个区抽抽1212所学校所学校每所学校抽每所学校抽100100教师教师各个抽样阶段子总体的同质性程度各个抽样阶段子总体的同质性程度同质性程度高同质性程度高样本规模小样本规模小人力和经费方案人力和经费方案99最节约最节约样本误差样本误差一般样本覆盖面越大代表性越高一般样本覆盖面越大代表性越高增加开头阶段的样本数适当减少最增加开头阶段的样本数适当减少最后阶段的样本数减少误差后阶段的样本数减少误差withinwithinhouseholdhousehold一户内抽样一户内抽样以家庭为单位时从入选家庭中抽取以家庭为单位时从入选家庭中抽取一个成年人构成访谈对象的抽样方法
3. 总体周期性排列 ----抽样间距K=周期倍数 代表性最差 相当于从总体中抽取了一个单位 ----抽样间距K=半周期倍数 代表性不高 相当于重复抽取高低不等值 ----抽样间距K≠(半)周期倍数 代表性好 总体中大部分指标值都能入选 解决方法: 1. 掌握总体的周期排列,选择合适的抽样间距 2. 打乱总体排列的周期性或放弃系统抽样
第二章
抽 样(二)
概率抽样的各种方法 简单随机抽样 系统抽样 分层抽样 整群抽样
第五节 概率抽样
概率抽样:总体内的所有个体具有相同的被 抽入样本的机会。
一. 简单随机抽样 (Simple Random Sampling)
1.
特点
简单随机抽样对总体中的所有个体按完全符合 随机原则的特定方法抽取样本,即抽样时不进 行任何分组,排列,使总体中的任何个体都同 样有被抽取的平等机会。
直线等距抽样练习题:
某大学有12000名学生,欲了解 其生活态度,决定采用系统抽样的方法 从中抽查200名学生,用简单随机抽样 的方法抽出第一名学生序号为12,请计
算第十位,第十五位学生的序号是多少?
(二)循环等距抽样(k不为整数)
方法1. 1. 将总体N首尾相连, N K=——,取接近K的整数; 2. 随机起点r从1-N中随机抽取 n 方法2. 调整直线等距抽样 1. 将K的小数点后移,便为整数[K] 2. 确定整数的随机起点[r],从10-[K]中选 3. 确定非整数的随机起点r,即将[r]的小数点移回来 4. 从r开始,每隔K各单位抽取一个单位 5. 再将所有抽取的号码的小数点略去 特点:所有单位有相同的中选概率1/K
★ 分 ●★ ■ 类 ■▼■●● ★■ ▼▼ ★
★★★★ ●●● ▼▼▼ 随机 ■ ■ ■ ■
抽样 ▼ ●
■■ ★★
N
10000 N1 N2 N3 N4 1700 n4
总体
确定分层 特征
1800
n1
3500
n2
3000
n3
层(互不
重叠)
子样本
18
35
30
17
n
样本
100
2.分层抽样的种类:
划标准:各层子样本容量的确定方式
(一)按比例分层抽样
按比例分层抽样要求:各子样本在总样本中所占比 例=各层在总体中所占的比例——简单便利,常用
(二)非比例分层抽样(最优分层抽样) 根据其他因素(如各层平均数或标准差的大小等), 调整各层样本的单位数。各子样本在总样本中所占 比例≠各层在总体中所占的比例,不同层的单位入 样的概率不同,是不等概率抽样。——对总体中规 模太小的层作比较研究
2. 评价
优点:概率抽样的理想类型,无偏见,简单易 行,能对总体进行推断,误差小。
缺点: 1. 需要为总体每个要素编号,当总体 所含个体的数目太多时采用这种方法费时费力; 2. 总体内分类明显时,这种抽样无法 按类别特征自动分配样本数,若想保证样本的 代表性,必须增大样本量,使工作量增大
二. 系统抽样(Systematic Sampling) (等距抽样)
(一)直线等距抽样(抽样间距K为整数) 1. 将总量的所有个体按一定顺序排列。 2. 计算抽样间距。抽样间距是由总体数目与样 本数目决定的。如果总体数为N,样本数为n,则抽 样间距应是: N K=—— n 3. 在1—K范围内,随机抽取一个起点数r 4. 自r开始,每隔K个单位抽取一个单位,依次 抽取的单位号码为r,r+k,r+2k,r+(n-1)k 特点:每一列被选中的概率相同(图)
非比例抽样(最佳抽样法) 上例:各层样本标准差高收入300元,中收入200元,低收 入100元。 乘积 各层次 各层的调 各层样本
(收入)
查户数
标准差
高
公式
4000 12000 4000 20000
300 200 100
1200000 2400000 1200000 4000000
中 低
NiSi ni=n ∑NiSi
多阶段抽样
优点:不需要总体的全部名单
适用:调查范围大,单位多,情况复杂的调 查对象
缺点:在每一阶段抽样都会产生误差
多阶段抽样要注意平衡类别和个体
举例:某市2.4万教师,分布在10个区200所学 校,要抽1200教师组成样本。三阶段抽样
第一阶段 第二阶段 第三阶段 每所学校抽30教师 抽4所学校
系统抽样练习
某杂志对其订阅者进行一次邮寄访问,以 更好地了解读者市场。N=150万,n=1500。 如何抽取样本?
练习 从编号1到900的总体中用系统抽样的办法抽 取9个样本 某产品共有2563件,产品按出厂顺序编号, 号码从1到1563,检测员要从中抽取15件产 品进行检测,请给出一个系统抽样方案。 要考察某商场2006年的日销售额,从一年时 间中抽取52天的销售额作为样本,请给出 你的系统抽样方案,并说说你的抽样方案 的优点和不足
★ 划分 ●★ ■ 子群 ■▼■●● ★■ ▼▼ ★
★● ★● ▼★ ■ ■ ▼ ■ ★● ▼■
随机 抽样
★● ▼■
N
5000 R1 R2 R3 R4 48 …… R130 45 R98 R110
总体
确定分群 特征
53
R1
50
R4
58
R33
群(互不
重叠)
子群
53
48
52
50
47
n
样本
250
练习
调查城市居民的情况,拟抽取1000样本。该 城市有500个居委会,每个居委会平均有100 户居民。 利用整群抽样如何操作?
五. 多阶段抽样 (Multistage Samlping)
在整群抽样中,当子群数和子群内部个体数目 较多,而彼此间的差异性不太大时,常常采用 更加经济的方法,既不将样本子群中的所有个 体作为样本,而是再从中用随机抽样的方法抽 出最终样本。因最终样本的获取经过两次抽样, 我们称之为二阶段抽样,同样地可进行三阶段, 四阶段,即多阶段的抽样。 通常在第一阶段使用严格的随机抽样方法,第 二阶段起使用概率比例抽样,即根据每一群所 含个体的多少分配样本额。
四. 整群随机抽样(Cluster Sampling)
P31 将总体按照某种标准分为i个群(互不重叠), 每个群作为一个抽样单位,用随机的办法从中抽取若 干群,将抽出的群中所有个体合在一起作为总体的样 本。 整群抽样与分层抽样有相似之处,第一步都是 按某种标准将总体划分为一些子群。 但是分层抽样是在所有子群中均抽取一个子样本, 作为总体样本的一部分,而整群抽样是抽取若干子群, 并将抽出的子群中全部个体作为样本,总体样本只分 布在几个群中。 所以整群抽样的分群标准要求群间 异质性低,群内异质性高。适用于界定不清的总体。
多阶段抽样举例
• 某市23个区,714万人,从中抽1000人的样本 • 将区作为初级抽样单位
• 每区人数不等,把每区人数的号码范围列出,东区 是1-120000号,西区是120001-270000号……一直排 到7140000号
• 从这些号码中用随机数字表确定10个号码,这10个 号码所落入的区即为调查区。如抽中340000号,它落 在南区,则南区为调查区 •从这10个调查区中,每区再随机抽取100人就构成最 终样本
方案1 抽10个区 方案2 抽2个区 方案3 抽10个区 方案4 抽8个区 方案5 抽5个区 方案6 抽4个区 方案7 抽3个区 方案8 抽2个区
抽20所学校 每所学校抽30教师 抽20所学校 每所学校抽6教师 抽15所学校 每所学校抽10教师 抽12所学校 每所学校抽20教师 抽10所学校 每所学校抽40教师 抽10所学校 每所学校抽40教师 抽10所学校 每所学校抽60教师
不等概率抽样的后期统计一般要做特殊处理。
举例:20000户居民,按经济收入高低分类, 高收入居民4000户,占总体20%;中等收入 12000户,占总体60%;低收入户4000户,占 总体20%,从中抽取200户,进行购买力调查。
等比例分层抽样 高收入层样本数:200× 20%=40户 中收入层样本数:200× 60%=120户 低收入层样本数:200× 20%=40户
(三)因总体单位排列不同导致的不同 抽样
1. 无序抽样——总体按与调查项目无关的指标 排列,如住户调查按照门牌号码抽 评价:容易忽视总体已有信息(与简单随机抽 样一样)
2. 有序抽样——总体按与调查项目有关的指标 排列,如住户调查按照平均收入抽 评价:样本单位容易偏大或偏小
(三)因总体单位排列不同导致的不同抽样
高收入层样本数目:200 ×1200000/4000000=60户 中收入层样本数目:200 ×2400000/4000000=120户 低收入层样本数目:200 ×400000/4000000=20户
分层抽样的适用性
1.当一个总体内部分层明显时,分层抽样 能够克服简单随机样和等距抽样的缺点。
2.分层抽样可以提高总体参数估计的精确 度。 3.有些研究不仅要了解总体的情况,而且 还要了解某些类别的情况。 4.便于行政管理。同一层可看作一个总体, 因此每层可由专人进行管理。
某高一学生共500人,经调查,喜欢数学的学生占全体学 生的30%,不喜欢数学的人数占40%,介于两者之间的 学生占30%。为了考察学生的其中考试的数学成绩,如 何用分层抽样抽取一个容量为50的样本 某公司有500人,其中35岁以下的125人,35-49的280人, 50以上的95人。为了调查员工的身体健康情况,从中抽 取100人,怎样用分层抽样抽? 某大学食堂为了了解新生的饮食习惯,以分层抽样方式 从1500名新生中抽取200人进行调查,新生中南方学生500 人,北方学生800人,西部学生200人,如何抽? 某市电视台在网上征集节目现场观众,报名的总人数 12000人,来自4城区,东城区2400人,西城区4605人,南 城区3795人,北城区1200人。用分层抽样抽取60人参加, 如何抽?
要保证抽样框的充分性,如果某些个体被漏掉, 它们就丧失了进入样本的机会,就破坏了随机 原则。
2. 方法
总体较小时
抓阄,抽签法
如果要你从3000总体中抽取100个,用抽签法 如何?
总体较大时
随机数字表
随机数法的步骤: 1. 确定总体N,并编号(N的位数决定所有号码的 位数,如N=1000,编号为0001,0002……1000) 2. 随意指出随即表上其中一个同位数码——起点 (如0556) 3. 确定选择规则(上-下,左-右或其他规则),依 次选择足够样本——规则一旦确定,就不变,碰 到大于总体的随机数和重复的随机数,跳过(舍 去)
层与层的 层的划分具有较高的代表 关系 性,即层之间异质性高 层内性质 层内则尽可能同质 变量选择 研究变量的选择与研究问 题高度相关
思考和讨论
对北京市现住人口进行调查,由于流动人 口的不确定性,很难得到现住人口的住户 清单。 1. 在这种条件下应该采取那种概率抽样方 法? 2. 大概的思路应该如何?
等距抽样与简单随机抽样相比,样本分布更 为均匀,抽样误差更小
注意: 等距抽样是以总体的随机排列为前提 的,如果总体的排列出现有规律的分布时,会 使等距抽样产生极大的误差,降低样本的代表性
等距抽样最适用于同质性较高的总体,当总 体内个体类别之间的数目悬殊过大时,样本的 代表性可能较差。在这种情况下应采用另一种 分层抽样方法。