第四章 抽样
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
抽样的类型
(1)概率抽样:简单随机抽样、系统抽样、 分层抽样、整群抽样、多段抽样、PPS抽样、 户内抽样 (2)非概率抽样:偶遇抽样、判断抽样、 定额抽样、雪球抽样
二、概率抽样的原理与程序
(一)概率抽样的基本原理 1、总体的同质性与异质性 同质性:如果某个总体中的每一个成员在所有方 面都相同,那么,我们就说这个总体具有完全的 同质性。 否则,就存在不同程度的异质性。 同质性总体不需要抽样。 社会各种总体的异质性决定了严格的概率抽样的 必要性。
(二)系统抽样
3、系统抽样优缺点: <1>优点: ①易于实施,工作量少。 ②样本在总体中分布更为均匀,抽样误差 小于或至多等于简单随机抽样。
(二)系统抽样
<2>系统抽样缺点: ①系统抽样是以总体的随机排列为前提, 如果总体的排列出现有规律分布时,会使 系统抽样产生极大误差。 ②当总体内个体类别之间的数目悬殊过大 时,样本的代表性可能较差。 <3>适用范围:系统抽样最适用于同质性较 高的总体。
人们通常采用下列几组数字
有90%的样本统计值落在u〒1.65SE(样本 平均数的标准差)之间; 有95%的样本统计值落在u〒1.96SE之间; 有98%的样本统计值落在u〒2.33SE之间; 有99%的样本统计值落在u〒2.58SE之间。 其中,百分数表示置信水平,u〒1.65SE等 表示置信区间。
随机数表抽样举例
3、简单随机抽样方法
①当总体元素较少时:常用的办法类似于 抽签,即把总体中每一个单位都编号,将 这些号码写在一张张小纸条上,然后放入 一容器如纸盒、口袋中,搅拌均匀后,从 中任意抽取,直到抽够预定的样本数目。 这样,由抽中的号码所代表的元素组成就 是一个简单随机样本。
3、简单随机抽样方法
注意:应随机制定抽样框
尤其注意以下两种情况: (1)总体名单中,个体的排列具有某种秩 序上的先后、等级上的高低。 (2)总体名单中,个体的排列上有与抽样 间隔相对应的周期性分布。
(三)分层抽样(stratified sampling)
1、步骤:又称类型抽样 (1)先将总体所有单位按某种特征或标志 (如性别、年龄、职业、地域等)划分成 若干类型或层次 (2)然后再在各个类型或层次中采用简单 随机抽样或系统抽样的办法抽取一个子样 本 (3)最后将这些子样本合起来构成总体的 样本。
2、 概率抽样的原理——等概率原则
(1)每一个个体的抽取都是一个随机事件,即保 证总体中的每一个个体都有相同的机会入选样本。 或者说,每一个个体的抽取都是相互独立的,被 抽中的概率相等。 (2)各种随机事件的背后,存在着事件发生的 客观概率,正是这种概率决定着随机事件的发展 变化规律。(例:投掷硬币) (3)概率抽样之所以能够保证样本对总体的代 表性,其原理就在于它能够很好地按照总体内在 结构中所蕴涵的各种随机事件的概率来构成样本, 使样本成为总体的缩影。
(一)抽样的概念
7、统计值(statistic)——也称样本值,它是关 于样本中某一变量的综合描述,或者说是样本中 所有元素的某种特征的综合数量表现。通常用罗 马字母表示。 注意:参数值和统计值重要区别: 参数值是确定不变的、唯一的,并且通常是未知 的; 统计值则是变化的,即对于同一个总体来说,不 同样本所得的统计值是有差别的。同时,对于任 一特定的样本来说,统计值是已知的,或者说是 可以通过计算得到的。
(二)系统抽样(systematic sampling)
1、含义:又称等距抽样、机械抽样。它是把总体 的单位进行编号排序后,再计算出某种间隔,然 后按这一固定间隔抽取个体号码来组成样本的方 法。 2、步骤: (1)制定抽样框 (2)计算抽样间隔K=总体规模N/ 样本规模n (3)选择随机起点A (4)抽取个体:自A开始,每隔K个个体抽取一 个个体。A,A+K,A+2K…… (5)将n个个体合起来,构成一个样本
3、中心极限定理
在一个含有N个元素且平均数为μ标准差为σ 的总 体中,抽取所有可能含有n个元素的样本。(根据组 N! m 合计算全部可能的样本数目为m= cN ) ( N n)! n!
样本平均数的分布将是一个随n愈大而愈趋于具有平 均数μ和标准差σ的正态分布。 这一定理说明:当n足够大时(通常假定大于30), 无论总体的分布如何,其样本的平均数所构成的分 布都趋于正态分布。
(三)抽样的程序
5、评估样本质量。 基本方法:将可得到的反映某些总体重要 特征及其分布的资料与样本中的同类指标 的资料进行对比,看是否基本一致。 如性别比例、学历比例等。
三、概率抽样方法
抽样方法涉及到研究问题的性质、抽样框 的获得、经费的多少、样本的代表性要求、 调查资料的获取等等因素。 不同的方法适用不同的情形。
(一)抽样的概念
5、抽样框(sampling frame)——又称抽 样范围,指一次直接抽样时总体中所有抽 样单位的名单。 6、参数值(parameter)——也称总体值, 它是关于总体中某一变量的综合描述,或 者说是总体中所有元素的某种特征的综合 数量表现。如,工学院教师的平均收入。 通常以希腊字母表示
3、注意: (1)分层的标准如何选择:主要变量或相关变量; 突出总体内在结构的变量;已有明显层次区分的 变量。 (2)分层的比例问题。 按比例分层抽样——按各种类型单位数目同总体 单位数目之间的比例来抽取子样本。 不按比例分层抽样—— 不按比例分层抽样获得的样本资料推论总体时, 要进行加权处理。
(1)用容量为1的样本来估计总体 的平均数
(2)用容量为2的样本来估计总体的 平均数
(3)用容量为3的样本来估计总体的 平均数
(4)用容量为4的样本来估计总体的 平均数
(5)用容量为5的样本来估计总体的 平均数
样本容量增大时,样本平均数的分布变化 趋势:平均数的范围将逐步缩小,相同的 平均数会相应增多;全部平均数的分布向 总体平均数集中。
(三)抽样的程序
1、界定总体:
1936年总统选举预测情况表
1、界定总体
什么原因导致《文摘》杂志的预测失败?
1、界定总体
盖洛普博土的成功主要得益于其选取样本的方法。 首先.他分析了选民酌性别、年龄、社会阶层、 人种等。 还分析了人口数量分布特征。 再依据分析结果对样本数量进行分配。(有关这方 面助知识,将在分层抽样、配领抽样中进行介绍)。 这就保证7选取样布的质量,在调查方法上他们 也否定邮寄问卷的方式,村所选取的调查对象尽 可能地用直接面谈的方法进行调查。
(一)抽样的概念
(8)置信度:又称置信水平,它指的是总 体参数值落在样本统计值某一区间内的概 率,或者说,是总体参数值落在样本统计 值某一区间中的把握性程度。 (9)置信区间:指在一定的置信度下,样 本统计值与总体参数值之间的误差范围。
(二) 抽样的作用
——为人们提供一种实现“由部分认识整 体”这一目标的途径和手段。 抽样调查是架在研究者十分有限的人力、 财力和时间与庞杂、纷繁、多变的社会现 象之间的一座桥梁
②当总体元素很多时:采用随机数表来抽样。 具体步骤如下: a.先取得一份总体所有元素的名单(即抽样框); b.将总体中所有元素一一按顺序编号; c.根据总体的规模为标准,对随机数表中的数码逐一进行 衡量并决定取舍。 d.以总体规模为标准,对随机数表中的数码逐一进行衡量 并决定取舍; e.根据样本规模的要求选择出足够的数码个数; f.依据从随机数表中选出的数码,到抽样框中去找出它所 对应的元素。
(一)简单随机抽样(simple random sampling)
又称纯随机抽样,是概率抽样的基本形式。 1、抽签。总体的每一元素编号(抽样 框)——将号码写在一张张纸条上——搅 拌均匀——抽出纸条——找出编号所对应 的元素 2、随机表:抽样框——编号——确定从随 机表中选取几位数——逐一取舍——找出 所选中的编码的对应元素
(一)抽样的概念
2、样本(sample)——从总体中按一定方式抽 取出的一部分元素的集合。 样本数目一般用小写 字母n表示。 3、抽样(sampling)——从总体中按一定方式选 择或抽取样本的过程。 4、抽样单位(sampling unit)——一次直接的抽 样所使用的基本单位。 注意:抽样单位与构成总体的元素有时相同,有 时是不同的
(三)抽样的程序
2、决定抽样方案:根据研究目的、总体特 征、客观条件选择不同的抽样方案。并同 时根据调查的精确程度和可靠性的要求, 确定样本规模。
(三)抽样的程序
3、制定抽样框:根据抽样方案分阶段制定。 4、实际抽取样本:可以事先确定抽样框 和抽样,也可能需要到了目的地才能制定 抽样框和抽样,再调查,也可能一边抽取 样本,一边开始调查。
第四章 抽样
一、抽样的意义与作用 二、概率抽样的原理与程序 三、概率抽样方法 四、非概率抽样 五、样本规模与抽样误差
一、抽样的意义与作用
(一)抽样的概念 1、总体(population)——是构成它的所有元素 的集合,一般用大写字母N表示。 研究总体:在理论上明确界定的个体的集合体 调查总体:是研究者从中实际抽取调查样本的个 体的集合体,它往往是对研究总体的进一步界定 如妇女-“2005年年满15-49岁的中国妇女”- “2005年10月1日零时(除台湾、西藏、香港、 澳门)外28个省自治区15-49岁的妇女”,同时 还将医院、精神病院、监狱、劳教所、军队中的 妇女除外。
(三)分层抽样(stratified sampling)
2、优点: (1)在不增加样本规模的前提下降低抽样 误差,提高抽样精度。子总体内部同质性 较强、子总体之间异质性较强。 (2)便于了解总体内不同层次的情况,便 于对总体中不同类别进行单独研究或比较。
(三)分层抽样(stratified sampling)
3、独立性要求与不放回抽样
独立性要求是指:任何一个元素的抽取都 不会影响到其他元素被抽取的概率。严格 地说,它要求放回抽样。 研究者实际上进行的是不放回抽样。只要 总体相对于样本来说要大得多,我们就可 以忽略这种不放回抽样所产生的微小改变。
(二) 抽样分布
1、含义:抽样分布是根据概率的原则而成 立的理论分布,它显示:从一个总体中不 断抽取样本时,各种可能出现的样本统计 值的分布情况。 2、例:一个总体为10个个案的平均数分布。 假如:这10个人参加工作的年限分别为6、 7、8、9、10、11、12、13、14、15年,那 么这一总体的成员平均工作年限为10.5年。
(四)整群抽样(cluster sampling)
1、含义:抽样单位为群体,而非个体。它 是从总体中抽取(可采用随机抽样、系统 抽样、分层抽样方法)一些小群体,然后 由所抽出的若干小群体的所有元素构成调 查样本。
(四)整群抽样(cluster sampling)
2、比较:四种抽样方法:从全国所有城市中抽 出40个城市的样本 整群抽样的优点:可以简化抽样过程,降低收集 资料的费用,还能相对地扩大抽样的应用范围。 缺点:样本分布面不广,样本对总体的代表性相 对较差。 3、注意:适用分层抽样的情况:子总体之间差 异大,而内部差异小 适用整群抽样的情况:子群体之间差别不大,而 内部差异大
正态分布图
正态分布图
正态分布图
4、正态分布的特点
(1)单峰、对称。其平均数、众数(次数最多 的值)、中位数(其两边的样本数相同)都相同。 (2)全部样本平均数的平均值正好等于总体的 平均数;全部样本平均数的标准差则等于总体标 准差除以 n 。 (3)平均数的次数等于正态曲线下的面积,而 正态曲线下的任何部分的面积都是可以用数学方 法推算的。
(1)概率抽样:简单随机抽样、系统抽样、 分层抽样、整群抽样、多段抽样、PPS抽样、 户内抽样 (2)非概率抽样:偶遇抽样、判断抽样、 定额抽样、雪球抽样
二、概率抽样的原理与程序
(一)概率抽样的基本原理 1、总体的同质性与异质性 同质性:如果某个总体中的每一个成员在所有方 面都相同,那么,我们就说这个总体具有完全的 同质性。 否则,就存在不同程度的异质性。 同质性总体不需要抽样。 社会各种总体的异质性决定了严格的概率抽样的 必要性。
(二)系统抽样
3、系统抽样优缺点: <1>优点: ①易于实施,工作量少。 ②样本在总体中分布更为均匀,抽样误差 小于或至多等于简单随机抽样。
(二)系统抽样
<2>系统抽样缺点: ①系统抽样是以总体的随机排列为前提, 如果总体的排列出现有规律分布时,会使 系统抽样产生极大误差。 ②当总体内个体类别之间的数目悬殊过大 时,样本的代表性可能较差。 <3>适用范围:系统抽样最适用于同质性较 高的总体。
人们通常采用下列几组数字
有90%的样本统计值落在u〒1.65SE(样本 平均数的标准差)之间; 有95%的样本统计值落在u〒1.96SE之间; 有98%的样本统计值落在u〒2.33SE之间; 有99%的样本统计值落在u〒2.58SE之间。 其中,百分数表示置信水平,u〒1.65SE等 表示置信区间。
随机数表抽样举例
3、简单随机抽样方法
①当总体元素较少时:常用的办法类似于 抽签,即把总体中每一个单位都编号,将 这些号码写在一张张小纸条上,然后放入 一容器如纸盒、口袋中,搅拌均匀后,从 中任意抽取,直到抽够预定的样本数目。 这样,由抽中的号码所代表的元素组成就 是一个简单随机样本。
3、简单随机抽样方法
注意:应随机制定抽样框
尤其注意以下两种情况: (1)总体名单中,个体的排列具有某种秩 序上的先后、等级上的高低。 (2)总体名单中,个体的排列上有与抽样 间隔相对应的周期性分布。
(三)分层抽样(stratified sampling)
1、步骤:又称类型抽样 (1)先将总体所有单位按某种特征或标志 (如性别、年龄、职业、地域等)划分成 若干类型或层次 (2)然后再在各个类型或层次中采用简单 随机抽样或系统抽样的办法抽取一个子样 本 (3)最后将这些子样本合起来构成总体的 样本。
2、 概率抽样的原理——等概率原则
(1)每一个个体的抽取都是一个随机事件,即保 证总体中的每一个个体都有相同的机会入选样本。 或者说,每一个个体的抽取都是相互独立的,被 抽中的概率相等。 (2)各种随机事件的背后,存在着事件发生的 客观概率,正是这种概率决定着随机事件的发展 变化规律。(例:投掷硬币) (3)概率抽样之所以能够保证样本对总体的代 表性,其原理就在于它能够很好地按照总体内在 结构中所蕴涵的各种随机事件的概率来构成样本, 使样本成为总体的缩影。
(一)抽样的概念
7、统计值(statistic)——也称样本值,它是关 于样本中某一变量的综合描述,或者说是样本中 所有元素的某种特征的综合数量表现。通常用罗 马字母表示。 注意:参数值和统计值重要区别: 参数值是确定不变的、唯一的,并且通常是未知 的; 统计值则是变化的,即对于同一个总体来说,不 同样本所得的统计值是有差别的。同时,对于任 一特定的样本来说,统计值是已知的,或者说是 可以通过计算得到的。
(二)系统抽样(systematic sampling)
1、含义:又称等距抽样、机械抽样。它是把总体 的单位进行编号排序后,再计算出某种间隔,然 后按这一固定间隔抽取个体号码来组成样本的方 法。 2、步骤: (1)制定抽样框 (2)计算抽样间隔K=总体规模N/ 样本规模n (3)选择随机起点A (4)抽取个体:自A开始,每隔K个个体抽取一 个个体。A,A+K,A+2K…… (5)将n个个体合起来,构成一个样本
3、中心极限定理
在一个含有N个元素且平均数为μ标准差为σ 的总 体中,抽取所有可能含有n个元素的样本。(根据组 N! m 合计算全部可能的样本数目为m= cN ) ( N n)! n!
样本平均数的分布将是一个随n愈大而愈趋于具有平 均数μ和标准差σ的正态分布。 这一定理说明:当n足够大时(通常假定大于30), 无论总体的分布如何,其样本的平均数所构成的分 布都趋于正态分布。
(三)抽样的程序
5、评估样本质量。 基本方法:将可得到的反映某些总体重要 特征及其分布的资料与样本中的同类指标 的资料进行对比,看是否基本一致。 如性别比例、学历比例等。
三、概率抽样方法
抽样方法涉及到研究问题的性质、抽样框 的获得、经费的多少、样本的代表性要求、 调查资料的获取等等因素。 不同的方法适用不同的情形。
(一)抽样的概念
5、抽样框(sampling frame)——又称抽 样范围,指一次直接抽样时总体中所有抽 样单位的名单。 6、参数值(parameter)——也称总体值, 它是关于总体中某一变量的综合描述,或 者说是总体中所有元素的某种特征的综合 数量表现。如,工学院教师的平均收入。 通常以希腊字母表示
3、注意: (1)分层的标准如何选择:主要变量或相关变量; 突出总体内在结构的变量;已有明显层次区分的 变量。 (2)分层的比例问题。 按比例分层抽样——按各种类型单位数目同总体 单位数目之间的比例来抽取子样本。 不按比例分层抽样—— 不按比例分层抽样获得的样本资料推论总体时, 要进行加权处理。
(1)用容量为1的样本来估计总体 的平均数
(2)用容量为2的样本来估计总体的 平均数
(3)用容量为3的样本来估计总体的 平均数
(4)用容量为4的样本来估计总体的 平均数
(5)用容量为5的样本来估计总体的 平均数
样本容量增大时,样本平均数的分布变化 趋势:平均数的范围将逐步缩小,相同的 平均数会相应增多;全部平均数的分布向 总体平均数集中。
(三)抽样的程序
1、界定总体:
1936年总统选举预测情况表
1、界定总体
什么原因导致《文摘》杂志的预测失败?
1、界定总体
盖洛普博土的成功主要得益于其选取样本的方法。 首先.他分析了选民酌性别、年龄、社会阶层、 人种等。 还分析了人口数量分布特征。 再依据分析结果对样本数量进行分配。(有关这方 面助知识,将在分层抽样、配领抽样中进行介绍)。 这就保证7选取样布的质量,在调查方法上他们 也否定邮寄问卷的方式,村所选取的调查对象尽 可能地用直接面谈的方法进行调查。
(一)抽样的概念
(8)置信度:又称置信水平,它指的是总 体参数值落在样本统计值某一区间内的概 率,或者说,是总体参数值落在样本统计 值某一区间中的把握性程度。 (9)置信区间:指在一定的置信度下,样 本统计值与总体参数值之间的误差范围。
(二) 抽样的作用
——为人们提供一种实现“由部分认识整 体”这一目标的途径和手段。 抽样调查是架在研究者十分有限的人力、 财力和时间与庞杂、纷繁、多变的社会现 象之间的一座桥梁
②当总体元素很多时:采用随机数表来抽样。 具体步骤如下: a.先取得一份总体所有元素的名单(即抽样框); b.将总体中所有元素一一按顺序编号; c.根据总体的规模为标准,对随机数表中的数码逐一进行 衡量并决定取舍。 d.以总体规模为标准,对随机数表中的数码逐一进行衡量 并决定取舍; e.根据样本规模的要求选择出足够的数码个数; f.依据从随机数表中选出的数码,到抽样框中去找出它所 对应的元素。
(一)简单随机抽样(simple random sampling)
又称纯随机抽样,是概率抽样的基本形式。 1、抽签。总体的每一元素编号(抽样 框)——将号码写在一张张纸条上——搅 拌均匀——抽出纸条——找出编号所对应 的元素 2、随机表:抽样框——编号——确定从随 机表中选取几位数——逐一取舍——找出 所选中的编码的对应元素
(一)抽样的概念
2、样本(sample)——从总体中按一定方式抽 取出的一部分元素的集合。 样本数目一般用小写 字母n表示。 3、抽样(sampling)——从总体中按一定方式选 择或抽取样本的过程。 4、抽样单位(sampling unit)——一次直接的抽 样所使用的基本单位。 注意:抽样单位与构成总体的元素有时相同,有 时是不同的
(三)抽样的程序
2、决定抽样方案:根据研究目的、总体特 征、客观条件选择不同的抽样方案。并同 时根据调查的精确程度和可靠性的要求, 确定样本规模。
(三)抽样的程序
3、制定抽样框:根据抽样方案分阶段制定。 4、实际抽取样本:可以事先确定抽样框 和抽样,也可能需要到了目的地才能制定 抽样框和抽样,再调查,也可能一边抽取 样本,一边开始调查。
第四章 抽样
一、抽样的意义与作用 二、概率抽样的原理与程序 三、概率抽样方法 四、非概率抽样 五、样本规模与抽样误差
一、抽样的意义与作用
(一)抽样的概念 1、总体(population)——是构成它的所有元素 的集合,一般用大写字母N表示。 研究总体:在理论上明确界定的个体的集合体 调查总体:是研究者从中实际抽取调查样本的个 体的集合体,它往往是对研究总体的进一步界定 如妇女-“2005年年满15-49岁的中国妇女”- “2005年10月1日零时(除台湾、西藏、香港、 澳门)外28个省自治区15-49岁的妇女”,同时 还将医院、精神病院、监狱、劳教所、军队中的 妇女除外。
(三)分层抽样(stratified sampling)
2、优点: (1)在不增加样本规模的前提下降低抽样 误差,提高抽样精度。子总体内部同质性 较强、子总体之间异质性较强。 (2)便于了解总体内不同层次的情况,便 于对总体中不同类别进行单独研究或比较。
(三)分层抽样(stratified sampling)
3、独立性要求与不放回抽样
独立性要求是指:任何一个元素的抽取都 不会影响到其他元素被抽取的概率。严格 地说,它要求放回抽样。 研究者实际上进行的是不放回抽样。只要 总体相对于样本来说要大得多,我们就可 以忽略这种不放回抽样所产生的微小改变。
(二) 抽样分布
1、含义:抽样分布是根据概率的原则而成 立的理论分布,它显示:从一个总体中不 断抽取样本时,各种可能出现的样本统计 值的分布情况。 2、例:一个总体为10个个案的平均数分布。 假如:这10个人参加工作的年限分别为6、 7、8、9、10、11、12、13、14、15年,那 么这一总体的成员平均工作年限为10.5年。
(四)整群抽样(cluster sampling)
1、含义:抽样单位为群体,而非个体。它 是从总体中抽取(可采用随机抽样、系统 抽样、分层抽样方法)一些小群体,然后 由所抽出的若干小群体的所有元素构成调 查样本。
(四)整群抽样(cluster sampling)
2、比较:四种抽样方法:从全国所有城市中抽 出40个城市的样本 整群抽样的优点:可以简化抽样过程,降低收集 资料的费用,还能相对地扩大抽样的应用范围。 缺点:样本分布面不广,样本对总体的代表性相 对较差。 3、注意:适用分层抽样的情况:子总体之间差 异大,而内部差异小 适用整群抽样的情况:子群体之间差别不大,而 内部差异大
正态分布图
正态分布图
正态分布图
4、正态分布的特点
(1)单峰、对称。其平均数、众数(次数最多 的值)、中位数(其两边的样本数相同)都相同。 (2)全部样本平均数的平均值正好等于总体的 平均数;全部样本平均数的标准差则等于总体标 准差除以 n 。 (3)平均数的次数等于正态曲线下的面积,而 正态曲线下的任何部分的面积都是可以用数学方 法推算的。