[数学]抽样估计与样本量确定
抽样方法与样本量估计
概率抽样与非概率抽样间作抉择
决择考虑方面
研究的性质 抽样误差与非抽样误差的相对大小 总体的变异程度 统计上的考虑 操作上的考虑
实用文档
常用的抽样方法
抽样方法
概率抽样
非概率抽样
单纯 系统 分层 整群 方便 滚雪球 配额 典型
另外:不等概率抽样方法(probability proportional to size , PPS)
实用文档
便利抽样
以研究者或访问者方便来选择被访者,通常被访者由 于碰巧在恰当的时间正处在恰当的地点而被选中
实用文档
滚雪球抽样
通常是先选出一组最初的调查对象,通常是随机选出的, 在访谈之后,要求这些被访者推荐一些属于目标总体的其他 人,根据这些推选出后面的被访者。与随机的方式相比,被 推举的人将具备与推荐人更为翔实的人口及心理特征。 优点是:主要目的是估计总体中非常稀少的某些特征。 缺点是:这种方式非常耗时。
• 使用学生以及社会组织成员;
• 医院拦截患者;
• “街上的行人”访谈。
优点:便利抽样在所有抽样技术中成本最低、耗时最少,抽样 单位易于接近;
缺点:不能代表总体。
实用文档
配额抽样
配额抽样可以被看成两阶段有约束的判断抽样 • 第一阶段,由确定总体中的个体的控制类别或者配额组成,
配额确保了样本的组成与总体的组成在特定特征方面相同; • 第二阶段,样本个体在便利或者判断的基础上被选择出来 缺点是: 缺乏对总体的代表性,无法计算抽样误差; 优点是: 低成本,为每个配额选择个体对访谈人员而言较为容易。
实用文档
对抽样误差认识与使用的误区
一些研究者甚至部分官员不愿意或不习惯接受数据的误差范 围,一谈到误差,惟恐别人说数据不准,将数据误差绝对。由 于对数据误差的认识存在着误区,在如何使用数据上也存在着 误区。抽样调查的数据拿来就用,不谈抽样误差和调查误差, 认为调查数据就是总体的真值。在进行工作政绩考核或进行地 区间的数据对比时,调查指标数据的高低变成了地区之间排队、 政绩评比的依据,忽视了对数据误差的评估。现有的调查数据 不仅没有正确地使用,反而还带来地区之间数据高低的相互攀 比,同时也影响了以后抽样调查的数据质量。
抽样样本量的确定_图文
除了估计值的精度以外,调查实际操作的限制条件 也许是影响样本容量的最大因素。
客户提供的经费能支持多大容量的样本 整个调查持续的时间有多长 调查需要多少访员 能招聘到的访员有多少
1.给定精度水平下样本容量的确定
样本容量的大小与调查估计值所要求的精度紧密相关
数据是通过抽样而不是普查收集的,就会产生抽样误差。 精度是由抽样方差来测量的。 随着样本容量的增加,调查估计值的精度也会不断提高。
表3: 显示了不同规模的总体在P=0.5时,使用简单随机 抽样,且以误差界限为0.05、置信度为95%的标准估计P 所需的样本容量
总体规模 50 100 500
1,000 5,000 10,000 100,000 1,000,000 10,000,000
所需的样本量 44 80 222 286 370 385 398 400 400
抽样方差的几种计量方法
标准误差 误差界限 变异系数
抽样调查中样本容量的确定,也经常会使 用一种或多种这样的计量方法来对精度进行说 明。
非抽样误差
非抽样误差会对调查估计值的精度产生显著的影响 非抽样误差的大小与样本容量的大小却没有很大的关系 确定样本容量,就不必将这些误差作为影响因素加以考虑 为确保调查结果的准确性,应该消除非抽样误差,至少应尽 可能使之最小化
对于小规模总体,通常必须调查较大比 例的样本,以取得所期望的精度。因此,实 际操作中,对小规模总体经常采用普查而不 是抽样调查。
6.样本设计和估计量
计算样本容量时,通常假定采用的抽样方式为简单随 机抽样(SRS)。所以,如果样本容量计算公式假定为简单随 机抽样。
分层抽样得到的估计值通常比相同规模的简单随机抽 样更精确,或者至少 一样精确。 整群抽样得到的估计值,其精度通常低于使用同一估 计量进行估计时的简单随机抽样的估计值的精度
第10章 抽样估计与样本量确定
19
10.4 参数估计
参数估计就是根据从样本中收集的信息对总体参数进行推 断的过程。根据中心极限定理等推断理论所阐明的抽样分 布与总体分布之间的关系,由样本统计量的具体值(估计 值)估计总体参数。 点估计 区间估计
20
点估计
用样本的估计量直接作为总体参数的估计量。 存在抽样误差。 在点估计的基础上,对总体参数的区间或范围 进行估计(样本统计量加减抽样误差),点估计 值落在该区间范围内的概率为置信度或置信系 数或置信水平。
26
举例P227
已知:n 36,1 95%, 2 0.025,1 2 0.975. 根据样本计算得: x 39.5, s 2 60.37.
2 查 2分布表得知: , 12 2 n 1 20.6120 . 2 n 1 53.1604
课后思考与训练题 P237-238 第4、5、7题
28
10.5 样本量的确定
样本量的确定问题,首先涉及对总体参数估计值的精度要 求,同时也涉及与各种运作限制(如可获得的预算、资源 和时间)之间的平衡问题。 抽样调查估计值的精度是对抽样误差大小的度量。因此确 定样本量是为控制抽样误差,而不是非抽样误差。
该银行信用卡年龄方差 2在95%置信度下的置信区间为 : 53.1604 20.6120 即, 39.75 2 102.51
36 -1 60.37 2 36 -1 60.37
结论是:在95%的置信度下,信用卡用 户年龄标准差为 6.3 ~ 10.1岁.
27
练习题
12
10.3 抽样分布与抽样误差
总体分布:总体各单位的观测值所形成的频数分布。 样本分布:一个样本中各个观测值形成的频数分布。 抽样分布:样本统计量的抽样分布是一种理论分布,是指 在重复抽取容量为n的样本时,由该统计量的所有可能取 值形成的相对频数分布。
MRAF-C10 抽样估计与样本量确定
• 当样本均值与总体均值不全相同时,样 本均值与实际总体均值就存在着差距,形 成抽样误差。
16
調查分析預測
MRAF
总体参数的区间估计
• 区间估计:在点估计的基础上,对总体参数的区 间或范围进行估计。
• 区间估计不仅要说明区间大小,还要说明点估计 值在区间内的概率,即置信度。置信度是一个百 分比,用来说明结果正确的长期概率。被估计的 区间则被称为置信区间。
27
調查分析預測
MRAF
设计权数的调整
• 上述等概率抽样的加权和不等概率抽样的 加权都是加权的基本形式。
• 权数估计常会遇到更真实和复杂的情况:
– 考虑无回答的情况,然后对权数做出调整;
– 考虑来自其他渠道的、更具权威性的某些辅助 信息,将它们合并到权数中。
28
調查分析預測
MRAF
对无回答的权数调整
– 另外, PPS等也可以设计为一个自加权抽样。
• 对于自加权抽样设计,如果无需对权数调整, 则在计算比例、均值等估计量时可将其忽略, 对总值估计也仅需将样本总值乘上某个倍数。 (例P215)
26
調查分析預測
MRAF
不等概率抽样的加权
• 自加权设计并不总是可行的。如,在使用分层抽样进行 一个全国调查时,可能需要采用纽曼分层。
18
調查分析預測
MRAF
训练题
• 5.一家电器连锁商店正在进行空调的季节性降价促销。被抽取的10个 样本商店销售出的空调数量如下(单位:台):82,113,2,41, 71,83,99,52,84,30。那么,根据这些数据能否说明这次促销 期间每家商店平均销售空调数量多于50台(95%)?
抽样误差与样本量
重复 抽样
NZ 2P1 P
不重复抽样
n N2x Z 2P1 P
例如,抽查检验某产品的质量,产品的合
格率90%,要求估计值与实际值之间的误
差最大不超过4%,置信度为95.45%,那 么
应抽取多少件产品进行检查?
已知t 2:p(p1=0p.9) t=2 Δ=4%
n=
2p
=225
即所抽取的产品数至少为225件。
市场调查
抽样误差与样本量
一、抽样误差 二、样本容量的确定
一、抽样误差
1.定义:抽样估计量与被估计的总体参数之间的差值。 抽样平均误差,即样本估计量的标准差。
2. 影响抽样误差的因素
总体各单位的差异程度(即标准差的大小) 样本单位数的多少 抽样方法:不重复抽样的抽样误差比重复抽样的抽样
误差小 抽样组织方式:简单随机抽样、分类抽样、机械抽样
等。
3.抽样误差的计算
❖ 抽样平均数的抽样误差
重复抽样时
x
或
n
s n
不重复抽样时
x
2 1 n 或
n N
s2 1 n n N
•抽样成数的抽样误差
重复抽样时
p
p
n
或
p1 p
n
不重复抽样时
p
2 p
1
n
或
n N
p1 p 1 n
n N
4.抽样极限误差
指在一定的概率保证程度下,抽样 指标与总体指标之间的误差范围。
样本平均数的 z
极限误差:
x
x
样本成数的极限 误差:
p z p
Z 为概率保证程度.
二、样本容量的确定
1.总体均值样本容量的确定
抽样样本量的确定
SSI
精品
第21页
4.总体的变异程度
调查总体中,我们所研究的项目或指标,对于不 同的个人、住户或企业,得到的估计结果可能会有很 大的不同。虽然我们不能控制这种变异性,但它的大 小却影响到了给定精度水平下,研究项目所必需的样 本容量。
SSI
精品
第22页
我们来看假设有一个首次开展的调查,试图估 计对某企业提供的服务持满意态度的顾客比例。对 “顾客满意”这一指标,设置两个可能的值:满意 或者不满意。
SSI
精品
第5页
除了估计值的精度以外,调查实际操作的限制条件 也许是影响样本容量的最大因素。
客户提供的经费能支持多大容量的样本 整个调查持续的时间有多长 调查需要多少访员 能招聘到的访员有多少
SSI
精品
第6页
1.给定精度水平下样本容量的确定
样本容量的大小与调查估计值所要求的精度紧密相关
数据是通过抽样而不是普查收集的,就会产生抽样误差。 精度是由抽样方差来测量的。 随着样本容量的增加,调查估计值的精度也会不断提高。
精品
第3页
分层抽样分配样本的标准
1. 总的样本容量事先确定 2. 估计值要求达到的精度预先给定
SSI
精品
第4页
影响调查样本容量的因素
调查估计值所希望达到的精度 调查估计值所能允许的误差。 估计量的抽样方差较小,估计值是精确的 估计值的精度越高,所需的样本容量就越大 影响精度的因素也同样影响着样本容量的大小 所研究指标在总体中的变异程度 总体的大小 样本设计和所使用的估计量 无回答率
SSI
精品
第23页
SSI
表2 列出了持满意和不满意态度的顾客可能占的比例的组合
样本量的确定方法及公式
样本量的确定方法及公式在统计学和实证研究中,样本量的确定对于获得可靠的结果非常重要。
一个足够大的样本量可以减少统计误差和提高研究的可信度。
样本量的确定需要考虑多个因素,包括所需的可靠性水平,总体大小和总体变异性等。
以下是一些常用的样本量确定方法和公式。
一、样本量计算方法:1. 参数估计方法(Parameter Estimation):用于计算总体均值、总体比例等参数的估计。
通常使用的方法有点估计和区间估计。
在参数估计方法中,一般需要考虑总体的平均数、标准差、置信水平和误差容忍度等因素。
2. 假设检验方法(Hypothesis Testing):用于检验两个总体之间差异是否显著。
常用的假设检验方法有t检验、方差分析等。
在假设检验方法中,需要考虑所需的显著性水平、效应大小、标准差等因素。
3. 相关分析方法(Correlation Analysis):用于研究两个或多个变量之间的关联关系。
常用的相关分析方法有皮尔逊相关系数、斯皮尔曼等级相关系数等。
在相关分析方法中,需要考虑相关系数、显著性水平等因素。
二、样本量计算公式:1.参数估计中的样本量计算公式:a.总体比例(Proportion):n = [(Z * Z) * P * (1-P)] / E^2其中,n表示样本量,Z表示所需的置信度对应的Z值,P表示总体比例的估计值,E表示误差容忍度。
b.总体均值(Mean):n = [(Z * s) / E]^2其中,n表示样本量,Z表示所需的置信度对应的Z值,s表示总体标准差的估计值,E表示误差容忍度。
2.假设检验中的样本量计算公式:a.均值差异(Mean Difference):n = [(Z * s) / E]^2其中,n表示样本量,Z表示所需的显著性水平对应的Z值,s表示总体标准差的估计值,E表示效应大小。
b.总体比例差异(Proportion Difference):n = [(Z * Z) * (P1* (1-P1) + P2 * (1-P2))] / E^2其中,n表示样本量,Z表示所需的显著性水平对应的Z值,P1和P2分别表示两个总体比例的估计值,E表示效应大小。
如何确定抽样方法与样本量
如何确定抽样方法与样本量在设计一个抽样调查时,我们通常需要做的工作是:定义总体及抽样单元、确定或构置抽样杠、选择样本量的大小、制定实施细节并实施。
在这本小册子中我们着重介绍一下定量研究的抽样和样本量这两个技术环节。
最基本的定量研究的抽样方法分为两类,一类为非概率抽样,一类为概率抽样。
一.非概率抽样非概率抽样是不能计算抽样误差的,因为它是靠调研者个人的判断来进行的抽样。
它包括偶遇抽样或者方便抽样、判断抽样、配额抽样、雪球抽样等。
偶遇抽样(方便抽样)常见的未经许可的街头随方或拦截式访问、邮寄式调查、杂志内问卷调查等都属于偶遇抽样的方式。
偶遇抽样是所有抽样技术中花费最小的(包括经费和时间)。
抽样单元是可以接近的、容易测量的、并且是合作的。
但尽管有许多优点,这种形式的抽样还是有严重的局限性。
许多可能的选择偏差都会存在,如被调查者的自我选择、抽样的主观性偏差等。
这种抽样不能代表总体的推断总体。
因此,当我们在进行街头访问或邮寄调查时,一定要谨慎对待调查结果。
判断抽样判思抽亲是基于调研者对总体的了解和经验,从总体中抽选“有代表性的”“曲型的”单位作为样本,例如从全体企业作为样本,来考察全体企业的经营状况。
如果判断准,这种方法有呆取得具有较好代表性的样本,但这种方法受主观因素影响较大。
配额抽样配额抽样是根据总体的结构特征来给调查员分派定额,以取得一个与总体结构特征大体相似的样本,例如根据人口的性别、年龄构成来给调查员规定不同性别、年龄的调查人数。
配额保证了在这些特征上样本的组成与总体的组成是一致的。
一旦配额分配好了,选择样本元素的自由度就很大了。
唯一的要求闵是所选取的元素要适合所控制的特性。
这种抽样方法的目的是使样本对总体具有更好的代表性,但仍不一定能保证样本就是有代表性的。
如果与问题相关联的某个特征是十分困难的。
另外,用这种方法进行选择严格控制调查员和调查过度程的条件下,可使配额抽样获得与某些概率抽样非常接近的结果。
抽样方法及样本量的确定
抽样方法及样本量的确定在社会科学研究中,抽样方法及样本量的确定是非常重要的环节。
抽样方法是指从总体中选择一部分样本进行研究,以代表总体特征的一种方法。
而样本量的确定则涉及到研究的可靠性和有效性。
本文将探讨抽样方法的选择以及样本量的确定。
一、抽样方法的选择1. 简单随机抽样简单随机抽样是一种基本的抽样方法,它通过随机选择样本,确保每个个体都有相等的机会被选中。
这种方法适用于总体分布均匀且规模较小的情况。
例如,当我们想要研究某个小城市的居民对某一政策的态度时,可以使用简单随机抽样方法。
2. 分层抽样分层抽样是将总体划分为若干层次,然后从每个层次中随机选择样本。
这种方法适用于总体具有明显的层次结构的情况。
例如,当我们想要研究一个城市的不同社区对某一政策的态度时,可以将城市划分为不同的社区层次,然后从每个社区中随机选择样本。
3. 整群抽样整群抽样是将总体划分为若干个群组,然后随机选择一部分群组作为样本进行研究。
这种方法适用于总体群组之间差异较大的情况。
例如,当我们想要研究某个国家的不同地区对某一政策的态度时,可以将国家划分为不同的地区群组,然后随机选择一部分地区进行研究。
二、样本量的确定确定样本量的大小是保证研究结果准确性和可靠性的关键因素。
样本量过小可能导致结果的不可靠,样本量过大则可能浪费资源。
确定样本量的大小需要考虑以下几个因素:1. 总体大小总体大小是影响样本量确定的一个重要因素。
当总体较大时,样本量可以相对较小;当总体较小时,样本量应相对较大。
2. 置信水平置信水平是指研究结果的可靠程度。
常见的置信水平有95%和99%。
置信水平越高,样本量需要越大。
3. 允许误差允许误差是指研究结果与总体特征之间的差异。
允许误差越小,样本量需要越大。
4. 方差方差是指总体内个体之间的差异程度。
方差越大,样本量需要越大。
综合考虑以上因素,可以使用统计学方法计算出合适的样本量。
常见的计算方法有公式法和抽样方差法。
抽样调查样本量的确定_侯志强
新视角108 经济理论研究抽样调查样本量的确定侯志强1,2 吴启富3(1.北方工业大学,北京100041;2.中国人民大学统计学院,北京100872;3.首都经济贸易大学统计学院,北京100026)摘要:样本量确定是抽样调查中的一个重要内容。
确定样本量需要综合考虑费用与精度。
抽样方式也是影响样本量的一个重要因素。
简单随机抽样估计总体比例确定样本量需要同时考虑两个精度要求,即估计量方差上限与估计量离散系数上限。
分层随机抽样的样本量还受各层样本量分配方式的影响。
复杂抽样的样本量需要借助抽样设计效应才能计算。
样本量经过调整后才能满足实际调查的需要。
关键词:抽样调查;样本量;费用;精度;设计效应一、引言抽样调查是按照随机原则从总体中抽取部分个体进行观察并据此对总体参数作出一定可靠程度推断的科学。
抽取个体的数量称为样本量。
在一定抽样方式下,样本容量越大,估计精度就越高,所需费用也就越大。
因此,样本量受费用与精度的双重制约。
简单随机抽样样本量的确定是其它抽样方式样本量确定的基础。
在简单随机抽样中,经常需要估计几个总体比例,有些总体比例较大,有些则较小,但许多人总是根据估计量方差上限这个唯一的精度要求确定所谓的“保守”样本量,殊不知当所要估计的总体比例很小时,这个“保守”的样本量根本谈不上“保守”。
本文试图解决这个问题,并探讨其它抽样方式下样本量的确定问题。
二、简单随机抽样样本量的确定在简单随机抽样下,若给定费用要求,则可通过费用函数确定样本量。
通常的费用函数为C T =c 0+c 1n (1)其中,C T 表示总费用,c 0表示固定费用,c 1表示调查一个样本单元的平均费用,n 表示样本量。
那么,样本量为n =C T -c 0c 1 (2)通过式(2)可以确定样本量的上限,即总费用所允许的最大样本量,记为n U 。
简单随机抽样的样本量还可通过精度确定,通常规定估计量方差的上限。
例如,已知总体方差为 2,需估计总体均值X —,其简单估计量为样本均值x —,则在重复抽样条件下,估计量方差为D (x —)= 2n (3)若要求估计量x —的方差不许超过常数V ,则有2n≤V (4)从而样本量满足n ≥ 2V (5)通过式(5)可以确定样本量的下限,即精度所允许的最小样本量,记为n L 。
抽样方法与样本量估计
实用文档
盖洛普的成功
实用文档
盖洛普方法
实用文档
抽样调查的特点
特点1:抽取的样本作为一个“代表团”来代表总体。而不是随意 挑选的个别单位代表总体。 特点2:调查样本一般按随机的原则抽取,在总体中每个单位被抽 取的机会相等。因此被抽中的单位在总体中是均匀分布的,不致出 现倾向性误差,代表性强。 特点3:所抽取的调查样本数量是根据误差的要求并经过科学的计 算确定,在调查样本的数量上有可靠保证。 特点4:抽样误差在调查前就可以根据样本量和总体中各单位之间 的差异程度进行计算,并控制在允许范围内,调查结果的准确程度 较高。
实用文档
一、定义总体
抽 样
二、确定抽样框架
设 计
三、选择抽样技术
过 程
四、确定样本容量
五、执行抽样过程
实用文档
抽样调查的主要问题
实用文档
抽样误差
抽样调查目的是用样本调查数据推断总体。但任何样本 数据推断总体,都不可能得到确切的总体真值。即存在抽样 误差。抽样调查理论基础在于用样本数据估计的总体值与总 体真值之间的误差,不会影响数据的使用和对问题的决策。
实用文档
对抽样误差认识与使用的误区
一些研究者甚至部分官员不愿意或不习惯接受数据的误差范 围,一谈到误差,惟恐别人说数据不准,将数据误差绝对。由 于对数据误差的认识存在着误区,在如何使用数据上也存在着 误区。抽样调查的数据拿来就用,不谈抽样误差和调查误差, 认为调查数据就是总体的真值。在进行工作政绩考核或进行地 区间的数据对比时,调查指标数据的高低变成了地区之间排队、 政绩评比的依据,忽视了对数据误差的评估。现有的调查数据 不仅没有正确地使用,反而还带来地区之间数据高低的相互攀 比,同时也影响了以后抽样调查的数据质量。
【转】如何确定样本量
【转】如何确定样本量调查一般分为普查和抽样调查,只有抽样调查才涉及到样本量的问题。
例如某企业有100名员工,在进行员工满意度调查时就无需抽样,只要全部调查即可。
那么,样本量是不是越大越好呢?当然不是,调查是要消耗大量人力财力和时间的,并且,从统计学上讲,当样本量达到一定程度以后,再增加样本,对于提高调查效果的作用(样本对于总体的估计效应)就不大了,反而会增加经费和时间。
那么是不是随便确定一个样本量就可以呢?当然也不行。
样本量的大小受许多因素制约,如调研的性质、总体指标的变异程度、调研精度、样本设计、回答率、项目经费和时间等。
市场潜力等涉及量比较严格的调查所需样本量较大,而产品测试,产品定价,广告效果等人们间彼此差异不是特别大或对量的要求不严格的调查所需样本量较小些;探索性研究,样本量一般较小,而描述性研究,就需要较大的样本;收集有关许多变量的数据,样本量就要大一些;如果需要采用多元统计方法对数据进行复杂的高级分析,样本量就应当更大;如果需要特别详细的分析,如做许多分类等,也需要大样本。
针对子样本分析比只限于对总样本分析,所需样本量要大得多;总体指标的差异化越大,需要的样本量就越高;调研的精度越高,样本量越大。
简单随机抽样设计,设计效应等于1;分层抽样设计,设计效应一般小于等于1;整群或多阶抽样设计,设计效应一般大于等于1。
在实际中,在确定样本量时,不考虑时间和费用这两个极为重要的因素是不可思议的。
最终确定的样本量必须与可获得的经费预算和允许的时限保持一致。
最终样本量的确定需要在精度、费用、时限和操作的可行性等相互冲突的限制条件之间进行协调。
它还可能需要重新审查初始样本量、数据需求、精度水平、调查计划的要素和现场操作因素,并作必要的调整。
通常,统计调查机构和客户寻求在最有效使用费用的基础上(例如缩短访问时间),使用户能对所需的样本量提供经费支持。
注意一个误区:"大城市多抽,小城市少抽",这种说法原则上是不对的。
抽样方法与样本容量的确定
抽样是通过抽取总体中的部分单元, 收集这些单元的信息,用来对作为整体 的总体进行统计推断的一种手段。本章 讨论了抽样的基本问题。 Sampling is a means of selecting a subset of units from a population for the purpose of collecting information for those units, usually to draw inference about the population as a whole.
非概率抽样的优点是: The advantages of non-probability sampling are that:
快速简便; 费用相对较低; 不需要抽样框; 对探索性研究和调查的设计开发很有用。 It is quick and convenient It is relatively inexpensive It requires no sampling frame It can be useful for exploratory studies and survey development
抽样的两种主要类型是概率抽样与 非概率抽样。 There are two types of sampling: nonprobability sampling and probability sampling
非 概 率 抽 样 non-probability 的用途是有限的,因为抽选单元的 倾向性不允许对调查总体进行推断。 然而非概率抽样快速简便,对探索 性研究很有用,特别是在市场调查 中应用非常广泛。
1.随意抽样Haphazard sampling
抽样样本量的确定
表2 列出了持满意和不满意态度的顾客可能占的比例的组合
1
100% 满意
2
90% 满意
3
80% 满意
4
70% 满意
5
60% 满意
6
50% 满意
抽样方差的几种计量方法
标准误差 误差界限 变异系数
抽样调查中样本容量的确定,也经常会使 用一种或多种这样的计量方法来对精度进行说 明。
非抽样误差
非抽样误差会对调查估计值的精度产生显著的影响 非抽样误差的大小与样本容量的大小却没有很大的关系 确定样本容量,就不必将这些误差作为影响因素加以考虑 为确保调查结果的准确性,应该消除非抽样误差,至少应尽可能使之 最小化
调查结果可能需要包括一些细分的数据 这些数据称为子总体估计值(或域估计值) 为使数据满足调查要求,应该确定合适的精度
与调查估计值有关的抽样方差有多大?
对于不同的子总体,对精度的要求可能有所不同
例如,在一次全国范围的抽样调查中,对国家层次的数据,调查 主办者可能需要±3%的误差界限;但对于省级层次的估计值,±5% 的误差界限可能就可以满足要求;
培训访员,等等),这样做可能更有效率
4.总体的变异程度
调查总体中,我们所研究的项目或指标,对于不 同的个人、住户或企业,得到的估计结果可能会有很 大的不同。虽然我们不能控制这种变异性,但它的大 小却影响到了给定精度水平下,研究项目所必需的样 本容量。
我们来看假设有一个首次开展的调查,试图估 计对某企业提供的服务持满意态度的顾客比例。对 “顾客满意”这一指标,设置两个可能的值:满意 或者不满意。
❖ 事实上,P可以是P=0 到 P=1.0之间的任一数值。在确 定调查估计值所需的精度时,应该考虑当某个既定精 度达到时所得的最小估计值。如果最小的估计值是 P=5%,那么误差界限就应该小于5%。
抽样样本量的确定
抽样样本量的确定
确定样本量的方法有很多种,下面将介绍其中几种常用的方法:
1.点估计方法:这种方法假设总体参数已知或已经进行过先前的研究,通过计算得到一个点估计值,并根据误差容忍度和置信水平来计算样本量。
例如,如果要估计一个总体比例的点估计值,可以通过以下公式计算样本量:n=(Z^2*p*(1-p))/E^2,其中Z为置信水平对应的标准正态分布的分
位数,p为总体比例的估计值,E为允许的误差容忍度。
2.回归分析方法:当研究中涉及到自变量和因变量之间的关系时,可
以使用回归分析方法来确定样本量。
这个方法基于回归模型的统计力学,
通过指定预期的效应大小、误差容忍度和显著性水平来计算样本量。
3.探索性研究方法:对于探索性研究,通常没有先验的参数估计值可
以使用,因此无法使用点估计方法来确定样本量。
在这种情况下,研究者
可能需要基于经验或者判断来确定样本量。
除了以上几种方法,还有一些特殊的情况需要考虑,如多层抽样、群
组随机化实验等,这些情况下样本量的确定方法可能会有所不同。
总之,确定样本量需要综合考虑多个因素,并利用相关的统计方法来
进行计算。
在实际应用中,需要根据具体情况选择合适的方法,并确保样
本量足够大以获得可靠的统计结果。
抽样调查的样本容量的确定方法
抽样调查的样本容量的确定方法摘要:确定样本容量是抽样调查中重要的环节,影响到抽样估计的精确度和调查的成本和效益。
单位标志变异程度、抽样极限误差、抽样推断的可靠度、抽样类型和方法等影响到样本容量地确定。
样本容量的确定可以根据由抽样误差、抽样极限误差和概率度推算出来的公式计算,也可以根据建立在过去抽取满足统计方法要求的样本量所累积下来的经验法则来确定。
关键词:样本容量;抽样调查;抽样误差;极限误差抽样调查是根据随机原则,从总体中抽取部分实际数据构成样本,同时运用概率估计方法,依据样本信息推断总体数量特征的一种非全面统计调查。
根据抽选样本的方法,抽样调查可以分为等概率抽样和非概率抽样两类。
等概率抽样又称为随机抽样,是按照概率论和数理统计的原理,从调查研究的总体中,根据随机原则来抽选样本,并从数量上对总体的某些特征做出估计推断,对推断出可能出现的误差可以从概率意义上加以控制。
样本是从总体中抽出的部分单位的集合,样本中所包含的单位数被称为样本容量,一般用 n 表示。
确定样本容量是制定抽样调查方案中的一个非常重要的环节。
1.确定样本容量的必要性1.1 样本容量大小影响抽样估计的精确度抽样估计的精确度是指样本的统计量与其所代表的总体值的接近程度。
调查结果相对于总体真实值的精确度与样本容量直接相关。
样本容量越大,抽样误差相对就会减少,估计精度就会提高;若样本容量太小,抽样误差就会增大,从而影响抽样估计的精确度。
1.2 样本容量大小影响抽样调查的成本和效益样本量的设计通常受到研究经费及调查时间的限制。
根据数理统计规律,样本量增加呈直线递增的情况下(样本量增加一倍,成本也增加一倍),而抽样误差只是样本量相对增长速度的平方根递减。
若样本容量过大,调查单位增多,不仅增加人力、财力和物力的耗费,增加调查费用,而且还影响到抽样调查的时效性,从而不能充分发挥抽样调查的优越性。
因此,为节省调查费用,体现出抽样调查的优越性,在确定样本容量时,应在满足抽样调查对估计数据的精确度的前提下,尽量减少调查单位数,确保必要的抽样数目。
样本量的确定方法
样本量的确定方法.样本量的计算公式为:样本量= (Zα/2 * σ / E)²,其中Zα/2为置信水平对应的标准正态分布值,σ为总体标准差,E 为允许的误差。
2)对于比例类型的变量,样本量的计算公式为:样本量= (Zα/2)² * p * (1-p) / E²,其中Zα/2为置信水平对应的标准正态分布值,p为总体比例,E为允许的误差。
2.分层抽样确定样本量,需要先将总体划分为若干层,然后根据每层的变异程度和大小,计算出每层的样本量,最后将各层样本量相加得到总样本量。
3.整群抽样确定样本量,需要先将总体分为若干群,然后根据群内变异程度和群大小,计算出每群的样本量,最后将各群样本量相加得到总样本量。
总之,样本量的确定需要综合考虑多个因素,包括调查目的、性质、精度要求、实际操作的可行性和经费承受能力等,同时需要根据不同的抽样方法和变量类型选择相应的样本量计算公式。
本文介绍了如何确定抽样调查方案的样本量。
对于已知数据为绝对数的情况,需要根据期望调查结果的精度、置信度、总体标准差估计值和总体单位数来计算样本量。
计算公式为n=σ/(e/Z+σ/N)。
如果是很大总体,则公式变为n=Zσ/e。
例如,如果希望平均收入误差在正负人民币30元之间,调查结果在95%的置信范围以内,置信度为1.96,估计总体标准差为150元,总体单位数为1000,则样本量为88.对于已知数据为百分比的情况,需要根据调查结果的精度值百分比、置信度、比例估计的精度和总体数来计算样本量。
计算公式为n=P(1-P)/(e/Z+ P(1-P)/N)。
如果不考虑总体,则公式为n=ZP(1-P)/e。
一般情况下,取样本变异程度最大值0.5作为P的取值。
例如,如果希望平均收入误差在正负0.05之间,调查结果在95%的置信范围以内,置信度为1.96,估计P为0.5,总体单位数为1000,则样本量为278.确定样本量后,需要进行样本量分配。
抽样估计与样本量确定
使用辅助信息调整权数
[例10.5] 为得到某公司职员是否有吸烟习惯的信息,进行了一项调查。从N=780人的名录中抽出了一个n=100人的简单随机样本。 在收集有关吸烟习惯信息时,收集了每个回答者的年龄和性别情况,且100人都做出了回答,由此得到样本数据的分布如表10-3所示:
*
10.3 抽样分布与抽样误差
统计量 ~t(n-1)
总体置信区间 μ= ±
*
总体均值的区间估计例题
[例10.7] 某银行收集到由36信用卡用户组成的随机样本,得到各用户年龄(周岁)数据如下 23,35,39,27,36,44;36,42,46,43,31,33,42,53,45,54,47,24,34,28,39,36,44,40,39,49,38,34,48,50,34,39,45,48,45,32。 试建立信用卡用户年龄90%的置信区间。
参数估计有两种估计方法: 点估计 区间估计
*
总体参数的点估计
点估计就是用样本的估计量直接作为总体参数的估计值。例如,用样本均值直接作为总体均值的估计,或者用两个样本均值之差直接作为总体均值之差的估计。
点估计是容易做到的,但是,点估计没有给出估计值接近总体参数程度的信息。
当样本均值与总体均值不完全相同时,样本均值与实际总体均值就存在着差距,形成抽样误差。
*
使用辅助信息调整权数
为什么要使用辅助信息来调整权数呢? 首先,使调查的估计值与已知总体总值相匹配。例如,使用最新的人口普查数据来调整估计值,以确保这些估计值(如年龄、性别分布等)的一致性。 二是为了提高估计值的精度。将辅助信息与抽样设计相结合,将有助于提高估计的精度。 要想在调查设计阶段使用辅助信息,抽样框中的所有单元都必须具备这个辅助信息。否则,就只能在数据收集上来后,在估计阶段利用辅助信息提高估计值的精度。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• [例10.3] 从一个 N=100人的总体 中抽取一个n=25 人的简单随机样本。 记回答单元的数量 为nr,结果显示只 有20个人提供了所 需的信息。那么, 此时无回答的调整 权数是多少?
w nr w d
n 4 1.25 5 nr
8
調查分析預測
MRAF
对无回答的权数调整(STR)
MRAF
设计权数的调整
• 上述等概率抽样的加权和不等概率抽样的 加权都是加权的基本形式。 • 权数估计常会遇到更真实和复杂的情况:
– 考虑无回答的情况,然后对权数做出调整; – 考虑来自其他渠道的、更具权威性的某些辅助 信息,将它们合并到权数中。
6
調查分析預測
MRAF
对无回答的权数调整
• 单元无回答是指一个样本单元几乎所有的数据都缺失。 简单的处理办法是忽略它。然而,如果发现忽略单元 无回答是不适当的,则应该对权数进行调整。即,
調查分析預測
开篇案例
“百脑汇”调研中的样本计划问题
MRAF
• “百脑汇”在中国华北几个省市经营连锁电脑超市,它希 望获得更多关于其现有客户特点方面的信息。接受调研委 托的李文博士指派班上的王洪同学为样本计划小组的负责 人。 • 通过与“百脑汇”的市场部经理乔兰的初次会谈,王洪了 解到调研的一个主要目的是分别按人口和心理因素来估计 “百脑汇”的客户构成和比例。此外,确认总体估计值不 超过实际值的±5.0%,可靠度为95%。 • 为了达到这些要求,王洪和他的小组正努力寻找计算所需 样本容量的方法。
表10-2 公交系统调查的分层数据 层 城市 农村 总体大小 N1=1000 N2=100 样本量 n1=200 n2=50 回答者数量 nr,1=150 nr,2=40
• [例10.4] 对于一项公共交通 系统调查,总体由1100人组成, 并按城乡分为两个层。分层及 样本数据如表10-2所示。那么, 回答者的权数是多少?
3
調查分析預測
MRAF
等概率抽样的加权
• 当每个单元都有相同的入样概率时,所有样 本单元的设计权数都相同,这种抽样就是自 加权设计。
– SRS抽样和SYS抽样都属于自加权设计,比例分 层抽样也是自加权设计。 – 另外, PPS等也可以设计为一个自加权抽样。
• 对于自加权抽样设计,如果无需对权数调整, 则在计算比例、均值等估计量时可将其忽略, 对总值估计也仅需将样本总值乘上某个倍数。 (例P215)
步骤1:计算设计权数。 入样概率p为:P=n/N=25/100=1/4 故,每个样本单元的设计权数为4。 步骤2:计算无回答调整因子。 由于在n=25人中只有nr=20人提供了 所需的信息,最终样本量应为20。假定回 答单元不仅能代表回答单元且能代表无回 答单元,计算无回答调整因子为: n / nr = 25/20 = 1.25 步骤3:计算无回答的调整权数。 无回答的调整权数wnr等于设计权数与 无回答调整因子的乘积:
– 设计权数×无回答调整因子=无回答的调整权数
• 无回答调整因子是原样本单元的权数和与给出回答的 单元的权数和的比值。对于自加权设计,该比值可用 原样本的单元数与给出回答的单元数的比值来表示。 • 无回答权数调整应区分两种不同情况:
– 等概率抽样 – 不等概率抽样
7
調查分析預測
MRAF
对无回答的权数调整(SRS)
城市层:
农村层:
w nr,1 w d,1
w nr,2
n1 5 1.33 6.67 n r,1 n w d,2 2 2 1.25 2.5 n r,2
9
調查分析預測
MRAF
使用辅助信息调整权数
• 为什么要使用辅助信息来调整权数呢?
– 首先,使调查的估计值与已知总体总值相匹配。例如, 使用最新的人口普查数据来调整估计值,以确保这些 估计值(如年龄、性别分布等)的一致性。 – 二是为了提高估计值的精度。将辅助信息与抽样设计 相结合,将有助于提高估计的精度。
1
調查分析預測
MRAF
10.1 引言
• 估计就是根据从样本中收集的信息对 总体未知量进行推断的过程。 • 抽样估计涉及的重要问题:
– 一个样本单元的设计权数问题。 – 抽样估计,包括总体总量、均值和比例以及抽 样误差的估计。 – 样本量的确定构成抽样设计程序的重要步骤和 内容。同时,样本量的确定与样本估计值的精 度密不可分。
收入层次 高收入层 中收入层 低收入层 各层单位数 2000 12000 6000 样本数量 33.3 133.3 33.3 设计权数 wd,1=N1/n1=2000/33.3=60.1 wd,2=N2/n2=12000/133.3=90.0 wd,3=N3/n3=6000/3查设计阶段使用辅助信息,抽样框中的所有单元都 必须具备这个辅助信息。否则,就只能在数据收集上来后, 在估计阶段利用辅助信息提高估计值的精度。
4
調查分析預測
MRAF
不等概率抽样的加权
• 自加权设计并不总是可行的。如,在使用分层抽样进行 一个全国调查时,可能需要采用纽曼分层。 • 当所采用的抽样设计不是等概率时,正确地使用设计权 数就显得尤为重要。 • [例10.2] 有关各层总体数和样本数资料见表10-1。对 于这项调查,被调查者的设计权数是多少呢?
步骤1:各层的设计权数为: 城市层 wd,1=N1/n1==5 农村层 wd,2=N2/n2==2 步骤2:调整以弥补无回答。各层的无回答调整因子计算如下: 城市层:n1 / nr,1==200/150==1.33 农村层:n2 / nr,2==50/40==1.25 步骤3:无回答的调整权数等于设计权数与无回答调整因子的乘积:
2
調查分析預測
MRAF
10.2 加权及权数调整
• 设计权数
– 设计权数是指每个样本单元所代表的调查总体的单元 数,它是由抽样设计所决定的,通常以wd表示。确定 设计权数是估计的第一步。
• 加权估计
– 设计权数其实就是样本单元的入样概率的倒数。假如 入样概率是1/10,那么每个入选样本代表总体中的10 个单元,此时设计权数即为10。 – 不同样本单元的设计权数可能不同,这取决于抽样设 计。因此,加权估计应区分等概率抽样的加权和不等 概率抽样的加权。