样本量的确定
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对于P=4%±5%水平左右的调查估计值就不太合适,应规定更 小的误差界限,如小于或等于±0.01、 ±0.02等,这时候置信区间应 该是( 0.05 ± 0.01) 或( 0.05 ±0 .02)。
Table 1 样本容量和在P=0.5时运用简单随机抽样估计P值得到的误差界限
样本容量
误差界限
50
0.14
除了估计值的精度以外,调查实际操作的限制条件 也许是影响样本容量的最大因素。
客户提供的经费能支持多大容量的样本 整个调查持续的时间有多长 调查需要多少访员 能招聘到的访员有多少
1.给定精度水平下样本容量的确定
样本容量的大小与调查估计值所要求的精度紧密相关
数据是通过抽样而不是普查收集的,就会产生抽样误差。 精度是由抽样方差来测量的。 随着样本容量的增加,调查估计值的精度也会不断提高。
100
0.10
500
0.045
1000
0.032
最佳的解决办法
不应为追求最小的误差界限而选择最大可能的样本 可以接受一个较大的误差界限,同时有效地利用现有资源
在此基础上,获得具有相对较高精度的估计结果 采用一个较小的样本而不是大样本而节省下来的费用,
可以用来修正其它影响调查结果精度的因素 例如减少无回答率(如回访拒答者、实施小型的试点调查、
置信区间
由于我们将在某一给定误差界限下,阐述样本容 量确定的过程,所以有必要复习一下置信区间的概念。
对于具有正态分布的估计量来说,95%的置信区 间意味着在同样的条件下,反复抽样100次所得的100 个样本中,有95个样本的估计值所确定的区间包含总 体真值,这个区间以样本的估计值为中心,半径为 1.96倍的标准误差。
调查目标是否适宜 估计值是否需要更高(或更低)精度
如果调查结果将用于进行一项有重大意义或有较大风险的决策, 那么,估计值可能需要较高的精度; 如果我们只是简单地希望取得所研究总体某个特征的感性认识, 那么,稍低一点的精度就可以满足要求了
多大抽样方差是可以接受
是否需要对调查的子总体(或称作域)进行估计?
表2 列出了持满意和不满意态度的顾客可能占的比例的组合
1
100% 满意
2
90% 满意
而对于省级以下层次的估计值,±10%的误差界限可能就足够了。
在这种情况下,通常对每个研究域都进行分层, 并单独计算各层的样本容量
将各个研究域中所有层的样本容量相加,便得到 了调查所需的总样本容量
调查估计值有关的抽样方差有多大
❖ 为达到调查结果要求的精度,最小的调查估计值是什 么?假设我们进行比例估计。其中,一些指标的比例 可能是P=50%或更高,但是其它指标的比例则可能较 低,如P=5% 或者 P=10%
2.误差界限
误差界限是标准误差的倍数 标准误差是估计量抽样方差的平方根 乘数因子取决于在调查估计中所希望
达到的置பைடு நூலகம்水平(或称置信度)
对于估计值 t, 在给定其标准误差 t的情况下, 置信区间的公式可以表示为:(t-zt t+zt)
这信里水z平t是的误标差准界正限态,分z布是的对分应位于点某值一置 该z值可从标准正态分布表中查得,大多
抽样方差的几种计量方法
标准误差 误差界限 变异系数
抽样调查中样本容量的确定,也经常会使 用一种或多种这样的计量方法来对精度进行说 明。
非抽样误差
非抽样误差会对调查估计值的精度产生显著的影响 非抽样误差的大小与样本容量的大小却没有很大的关系 确定样本容量,就不必将这些误差作为影响因素加以考虑 为确保调查结果的准确性,应该消除非抽样误差,至少应尽可能使之 最小化
数统计学教材中都附有这样的统计表
常用的z值包括
❖ 对于 90% 的置信度,对应的z值为 1.64
❖ ❖
对于 对于
95% 99%
的置信度,对应的z值为 的置信度,对应的z值为
1.96 2.56
3.多大的抽样方差是可接受的
调查估计值能容忍多大的不确定性?。 常用的95%的置信度、±5%的误差界限对我们的
培训访员,等等),这样做可能更有效率
4.总体的变异程度
调查总体中,我们所研究的项目或指标,对于不 同的个人、住户或企业,得到的估计结果可能会有很 大的不同。虽然我们不能控制这种变异性,但它的大 小却影响到了给定精度水平下,研究项目所必需的样 本容量。
我们来看假设有一个首次开展的调查,试图估 计对某企业提供的服务持满意态度的顾客比例。对 “顾客满意”这一指标,设置两个可能的值:满意 或者不满意。
❖ 事实上,P可以是P=0 到 P=1.0之间的任一数值。在确 定调查估计值所需的精度时,应该考虑当某个既定精 度达到时所得的最小估计值。如果最小的估计值是 P=5%,那么误差界限就应该小于5%。
例如: 某公司决定,如果公司所在的地区中,至少有P=4%的人群对某
一种产品存在需求,那么该公司就决定生产这种产品。因此,该公 司的市场调研部准备对当地的居民一项调查,以便估计他们在这种 产品上的消费需求。
样本量的确定
沈浩
北京广播学院新闻传播学院 调查统计研究所 二零零一年五月
本讲主要内容
如何计算简单随机抽样的样本量确定 如何实现分层抽样中各层样本单位数的分配
样本容量的确定
样本量=费用+精度 (函数)
确定样本容量,需要处理好预定的精度与现有经 费,同时也要考虑资源和时间等限制条件,最终的样 本量确定是在上述因素之间的权衡关系。
分层抽样分配样本的标准
1. 总的样本容量事先确定 2. 估计值要求达到的精度预先给定
影响调查样本容量的因素
调查估计值所希望达到的精度 调查估计值所能允许的误差。 估计量的抽样方差较小,估计值是精确的 估计值的精度越高,所需的样本容量就越大 影响精度的因素也同样影响着样本容量的大小 所研究指标在总体中的变异程度 总体的大小 样本设计和所使用的估计量 无回答率
调查结果可能需要包括一些细分的数据 这些数据称为子总体估计值(或域估计值) 为使数据满足调查要求,应该确定合适的精度
与调查估计值有关的抽样方差有多大?
对于不同的子总体,对精度的要求可能有所不同
例如,在一次全国范围的抽样调查中,对国家层次的数据,调查 主办者可能需要±3%的误差界限;但对于省级层次的估计值,±5% 的误差界限可能就可以满足要求;
Table 1 样本容量和在P=0.5时运用简单随机抽样估计P值得到的误差界限
样本容量
误差界限
50
0.14
除了估计值的精度以外,调查实际操作的限制条件 也许是影响样本容量的最大因素。
客户提供的经费能支持多大容量的样本 整个调查持续的时间有多长 调查需要多少访员 能招聘到的访员有多少
1.给定精度水平下样本容量的确定
样本容量的大小与调查估计值所要求的精度紧密相关
数据是通过抽样而不是普查收集的,就会产生抽样误差。 精度是由抽样方差来测量的。 随着样本容量的增加,调查估计值的精度也会不断提高。
100
0.10
500
0.045
1000
0.032
最佳的解决办法
不应为追求最小的误差界限而选择最大可能的样本 可以接受一个较大的误差界限,同时有效地利用现有资源
在此基础上,获得具有相对较高精度的估计结果 采用一个较小的样本而不是大样本而节省下来的费用,
可以用来修正其它影响调查结果精度的因素 例如减少无回答率(如回访拒答者、实施小型的试点调查、
置信区间
由于我们将在某一给定误差界限下,阐述样本容 量确定的过程,所以有必要复习一下置信区间的概念。
对于具有正态分布的估计量来说,95%的置信区 间意味着在同样的条件下,反复抽样100次所得的100 个样本中,有95个样本的估计值所确定的区间包含总 体真值,这个区间以样本的估计值为中心,半径为 1.96倍的标准误差。
调查目标是否适宜 估计值是否需要更高(或更低)精度
如果调查结果将用于进行一项有重大意义或有较大风险的决策, 那么,估计值可能需要较高的精度; 如果我们只是简单地希望取得所研究总体某个特征的感性认识, 那么,稍低一点的精度就可以满足要求了
多大抽样方差是可以接受
是否需要对调查的子总体(或称作域)进行估计?
表2 列出了持满意和不满意态度的顾客可能占的比例的组合
1
100% 满意
2
90% 满意
而对于省级以下层次的估计值,±10%的误差界限可能就足够了。
在这种情况下,通常对每个研究域都进行分层, 并单独计算各层的样本容量
将各个研究域中所有层的样本容量相加,便得到 了调查所需的总样本容量
调查估计值有关的抽样方差有多大
❖ 为达到调查结果要求的精度,最小的调查估计值是什 么?假设我们进行比例估计。其中,一些指标的比例 可能是P=50%或更高,但是其它指标的比例则可能较 低,如P=5% 或者 P=10%
2.误差界限
误差界限是标准误差的倍数 标准误差是估计量抽样方差的平方根 乘数因子取决于在调查估计中所希望
达到的置பைடு நூலகம்水平(或称置信度)
对于估计值 t, 在给定其标准误差 t的情况下, 置信区间的公式可以表示为:(t-zt t+zt)
这信里水z平t是的误标差准界正限态,分z布是的对分应位于点某值一置 该z值可从标准正态分布表中查得,大多
抽样方差的几种计量方法
标准误差 误差界限 变异系数
抽样调查中样本容量的确定,也经常会使 用一种或多种这样的计量方法来对精度进行说 明。
非抽样误差
非抽样误差会对调查估计值的精度产生显著的影响 非抽样误差的大小与样本容量的大小却没有很大的关系 确定样本容量,就不必将这些误差作为影响因素加以考虑 为确保调查结果的准确性,应该消除非抽样误差,至少应尽可能使之 最小化
数统计学教材中都附有这样的统计表
常用的z值包括
❖ 对于 90% 的置信度,对应的z值为 1.64
❖ ❖
对于 对于
95% 99%
的置信度,对应的z值为 的置信度,对应的z值为
1.96 2.56
3.多大的抽样方差是可接受的
调查估计值能容忍多大的不确定性?。 常用的95%的置信度、±5%的误差界限对我们的
培训访员,等等),这样做可能更有效率
4.总体的变异程度
调查总体中,我们所研究的项目或指标,对于不 同的个人、住户或企业,得到的估计结果可能会有很 大的不同。虽然我们不能控制这种变异性,但它的大 小却影响到了给定精度水平下,研究项目所必需的样 本容量。
我们来看假设有一个首次开展的调查,试图估 计对某企业提供的服务持满意态度的顾客比例。对 “顾客满意”这一指标,设置两个可能的值:满意 或者不满意。
❖ 事实上,P可以是P=0 到 P=1.0之间的任一数值。在确 定调查估计值所需的精度时,应该考虑当某个既定精 度达到时所得的最小估计值。如果最小的估计值是 P=5%,那么误差界限就应该小于5%。
例如: 某公司决定,如果公司所在的地区中,至少有P=4%的人群对某
一种产品存在需求,那么该公司就决定生产这种产品。因此,该公 司的市场调研部准备对当地的居民一项调查,以便估计他们在这种 产品上的消费需求。
样本量的确定
沈浩
北京广播学院新闻传播学院 调查统计研究所 二零零一年五月
本讲主要内容
如何计算简单随机抽样的样本量确定 如何实现分层抽样中各层样本单位数的分配
样本容量的确定
样本量=费用+精度 (函数)
确定样本容量,需要处理好预定的精度与现有经 费,同时也要考虑资源和时间等限制条件,最终的样 本量确定是在上述因素之间的权衡关系。
分层抽样分配样本的标准
1. 总的样本容量事先确定 2. 估计值要求达到的精度预先给定
影响调查样本容量的因素
调查估计值所希望达到的精度 调查估计值所能允许的误差。 估计量的抽样方差较小,估计值是精确的 估计值的精度越高,所需的样本容量就越大 影响精度的因素也同样影响着样本容量的大小 所研究指标在总体中的变异程度 总体的大小 样本设计和所使用的估计量 无回答率
调查结果可能需要包括一些细分的数据 这些数据称为子总体估计值(或域估计值) 为使数据满足调查要求,应该确定合适的精度
与调查估计值有关的抽样方差有多大?
对于不同的子总体,对精度的要求可能有所不同
例如,在一次全国范围的抽样调查中,对国家层次的数据,调查 主办者可能需要±3%的误差界限;但对于省级层次的估计值,±5% 的误差界限可能就可以满足要求;