抽样调查样本量确定

合集下载

统计学中的样本量确定方法

统计学中的样本量确定方法

统计学中的样本量确定方法统计学中,样本量的确定对于研究的可靠性和准确性至关重要。

合理确定样本量可以保证研究结果的有效性,避免结果偏差,并且可以减少资源浪费。

本文将介绍统计学中的样本量确定方法。

一、样本量的重要性在进行统计研究时,我们通常无法对所有感兴趣的个体进行调查或实验。

相反,研究者将从整个群体中选取一部分个体,即样本进行研究。

因此,样本量的大小直接影响到研究结果的可靠性和推广性。

二、简单随机抽样方法简单随机抽样是最常用的样本抽取方法之一,它要求每个个体具有相同的被抽取概率。

在确定样本量时,我们需要考虑一些因素,如总体的大小、总体的方差、误差容忍度和置信水平等。

三、基于假设检验的样本量确定方法在某些情况下,我们需要根据假设检验的需求来确定样本量。

假设检验是统计学中用来检测两个或多个群体差异的方法。

样本量的确定可以通过根据所需的效应大小和显著性水平来选择。

四、基于置信区间的样本量确定方法当我们希望估计总体的某个参数,并且给出一个置信区间时,可以使用基于置信区间的样本量确定方法。

这种方法旨在控制估计的精确性,以便使置信区间的宽度在可接受的范围内。

五、借助统计软件进行样本量计算在实际研究中,我们可以使用各种统计软件来计算样本量。

这些软件提供了各种样本量确定方法的计算工具,使我们能够根据具体情况快速准确地确定样本量。

六、样本量确定的注意事项确定样本量时,还需要注意以下几个方面:1. 确定研究目标和问题,明确需要估计或推断的参数;2. 考虑资源和时间限制,合理平衡研究目的和可行性;3. 在确定样本量时,选择合适的统计方法和分析技术;4. 根据所选方法和技术,选取适当的效应大小、显著性水平和置信水平。

结论样本量的确定是统计学研究中的重要环节。

合理确定样本量可以保证研究结果的可靠性和准确性。

本文介绍了统计学中常用的样本量确定方法,包括简单随机抽样方法、基于假设检验的样本量确定方法、基于置信区间的样本量确定方法以及借助统计软件进行样本量计算等。

抽样样本量的确定_图文

抽样样本量的确定_图文

除了估计值的精度以外,调查实际操作的限制条件 也许是影响样本容量的最大因素。
客户提供的经费能支持多大容量的样本 整个调查持续的时间有多长 调查需要多少访员 能招聘到的访员有多少
1.给定精度水平下样本容量的确定
样本容量的大小与调查估计值所要求的精度紧密相关
数据是通过抽样而不是普查收集的,就会产生抽样误差。 精度是由抽样方差来测量的。 随着样本容量的增加,调查估计值的精度也会不断提高。
表3: 显示了不同规模的总体在P=0.5时,使用简单随机 抽样,且以误差界限为0.05、置信度为95%的标准估计P 所需的样本容量
总体规模 50 100 500
1,000 5,000 10,000 100,000 1,000,000 10,000,000
所需的样本量 44 80 222 286 370 385 398 400 400
抽样方差的几种计量方法
标准误差 误差界限 变异系数
抽样调查中样本容量的确定,也经常会使 用一种或多种这样的计量方法来对精度进行说 明。
非抽样误差
非抽样误差会对调查估计值的精度产生显著的影响 非抽样误差的大小与样本容量的大小却没有很大的关系 确定样本容量,就不必将这些误差作为影响因素加以考虑 为确保调查结果的准确性,应该消除非抽样误差,至少应尽 可能使之最小化
对于小规模总体,通常必须调查较大比 例的样本,以取得所期望的精度。因此,实 际操作中,对小规模总体经常采用普查而不 是抽样调查。
6.样本设计和估计量
计算样本容量时,通常假定采用的抽样方式为简单随 机抽样(SRS)。所以,如果样本容量计算公式假定为简单随 机抽样。
分层抽样得到的估计值通常比相同规模的简单随机抽 样更精确,或者至少 一样精确。 整群抽样得到的估计值,其精度通常低于使用同一估 计量进行估计时的简单随机抽样的估计值的精度

如何确定抽样方法与样本量

如何确定抽样方法与样本量

如何确定抽样方法与样本量在设计一个抽样调查时,我们通常需要做的工作是:定义总体及抽样单元、确定或构置抽样杠、选择样本量的大小、制定实施细节并实施。

在这本小册子中我们着重介绍一下定量研究的抽样和样本量这两个技术环节。

最基本的定量研究的抽样方法分为两类,一类为非概率抽样,一类为概率抽样。

一.非概率抽样非概率抽样是不能计算抽样误差的,因为它是靠调研者个人的判断来进行的抽样。

它包括偶遇抽样或者方便抽样、判断抽样、配额抽样、雪球抽样等。

偶遇抽样(方便抽样)常见的未经许可的街头随方或拦截式访问、邮寄式调查、杂志内问卷调查等都属于偶遇抽样的方式。

偶遇抽样是所有抽样技术中花费最小的(包括经费和时间)。

抽样单元是可以接近的、容易测量的、并且是合作的。

但尽管有许多优点,这种形式的抽样还是有严重的局限性。

许多可能的选择偏差都会存在,如被调查者的自我选择、抽样的主观性偏差等。

这种抽样不能代表总体的推断总体。

因此,当我们在进行街头访问或邮寄调查时,一定要谨慎对待调查结果。

判断抽样判思抽亲是基于调研者对总体的了解和经验,从总体中抽选“有代表性的”“曲型的”单位作为样本,例如从全体企业作为样本,来考察全体企业的经营状况。

如果判断准,这种方法有呆取得具有较好代表性的样本,但这种方法受主观因素影响较大。

配额抽样配额抽样是根据总体的结构特征来给调查员分派定额,以取得一个与总体结构特征大体相似的样本,例如根据人口的性别、年龄构成来给调查员规定不同性别、年龄的调查人数。

配额保证了在这些特征上样本的组成与总体的组成是一致的。

一旦配额分配好了,选择样本元素的自由度就很大了。

唯一的要求闵是所选取的元素要适合所控制的特性。

这种抽样方法的目的是使样本对总体具有更好的代表性,但仍不一定能保证样本就是有代表性的。

如果与问题相关联的某个特征是十分困难的。

另外,用这种方法进行选择严格控制调查员和调查过度程的条件下,可使配额抽样获得与某些概率抽样非常接近的结果。

样本量的确定方法

样本量的确定方法

样本量的确定方法 The pony was revised in January 2021样本量的确定方法(2008-10-14 09:12:34)一、样本单位数量的确定原则一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。

以及实际操作的可行性、经费承受能力等。

根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。

实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。

但是这只能原则上确定样本量大小。

具体确定样本量还需要从定量的角度考虑。

从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。

归纳起来,样本量的大小主要取决于:(1)研究对象的变化程度,即变异程度;(2)要求和允许的误差大小,即精度要求;(3)要求推断的置信度,一般情况下,置信度取为95%;(4)总体的大小;(5)抽样的方法。

也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。

对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。

实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。

二、样本量的确定方法如何确定样本量,基本方法很多,但是公式检验表明,当误差和置信区间一定时,不同的样本量计算公式计算出来的样本量是十分相近的,所以,我们完全可以使用简单随机抽样计算样本量的公式去近似估计其他抽样方法的样本量,这样可以更加快捷方便,然后将样本量根据一定方法分配到各个子域中去。

第五章抽样样本容量的确定(市场调研-北京大学,胡健颖)

第五章抽样样本容量的确定(市场调研-北京大学,胡健颖)

减少拒绝
减少不在家
事先 通知
激励 调查 对象
2021/7/25
物质 刺激
追踪
问卷 设计 和执 行
其他
回访
图 5-3 提高回答率的方法
北京大学光华管理学院 胡健颖
第五章 抽样:样本容量确实定
修正无回答误差可用的策略有哪些? 1) 抽查 2) 替代 3) 置换 4) 主观估计 5) 趋势分析 6) 加权 7) 推算
4(1.39)2 0.01
7.72 0.01
772
2021/7/25
北京大学光华管理学院 胡健颖
第五章 抽样:样本容量确实定
2) 对估计比例所需的样本容量 案例:估计最近 90 天内曾在网上购物的所有成年人的
比例。其目标是从成年人总体中抽取一个随机样 本,估计其比例是多少。 步骤:第一步,确定 E 的值。例如,假设可接受的误差
2021/7/25
北京大学光华管理学院 胡健颖
第五章 抽样:样本容量确实定
表 5-1 1000 个样本平均数的概率分析:最近 30 天内吃快餐的平均次数
次数分组 发生频数 次数分组 发生频数
2.6-3.5
8
11.6-12.5
110
3.6-4.5
15
12.6-13.5
90
4.6-5.5
29
13.6-14.5
n
2) 样本的均值 x = ( xi ) /n 或比例 p 的正态分布的均值分别等 i 1
于相应的总体参数μ或Ρ0 ,如下式:
2021/7/25
北京大学光华管理学院 胡健颖
第五章 抽样:样本容量确实定
x
1 n
n i 1
xi
样本中购买爱普生的人数

抽样调查样本量确定.

抽样调查样本量确定.

抽样调查样本量的确定在贸易统计中, 对于限额以下批零餐饮企业普遍采用抽样调查方法进行解决。

然而,由于当前市场经济情况的多样性,经济发展的不均衡性,以及地域宽广性,导致情况多种多样;实际情况的复杂,决定了方案的复杂性,增加了具体抽样的难度。

经过多年的探讨,区域二相抽样调查比较符合当前我国的实际情况,我们在这里根据试点所掌握的情况针对采用区域二相抽样调查的贸易抽样方案中如何确定样本量进行分析。

一、样本单位数量的确定原则一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。

以及实际操作的可行性、经费承受能力等。

根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。

实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。

但是这只能原则上确定样本量大小。

具体确定样本量还需要从定量的角度考虑。

从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。

归纳起来,样本量的大小主要取决于:(1研究对象的变化程度,即变异程度;(2要求和允许的误差大小,即精度要求;(3要求推断的置信度,一般情况下,置信度取为95%;(4总体的大小;(5抽样的方法。

也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。

如何确定抽样统计的最小样本量

如何确定抽样统计的最小样本量

在电视节目中经常看到关于选举的报道中经常会后有支持率的数字,例如:调查结果为■ a万支持率为45.3%;• b方支持率为30.2%; ・c方支持率为8.5%;最后都会说明一下,此次电话调查的数量2352,置信度为95%,最大容许误差为土2.5%这就是抽样调查的典型情景:一个大的集合(比如:数千万选民)做一次调查的成本较高,抽样调查可以低成本的用近似的(可接受的)数据反映实际情况;在用户调研中,也经常通过通过抽样调查的方式并对比打分的方法做评估。

抽样误差:假如相同规模的抽样调查进行多次,抽样均值在真实均值的上下波动,相对于整体均值的偏移波动就是抽样误差,而这个误差的分布是符合标准正态分布的,例如下图:横轴为整体的均值,圆点是每次抽样的均值,而红色那次抽样就是加上误差后都未覆盖到均值线的情况);抽样量需要> 30个才算足够多,可以用以下近似的误差/样本量E2n:为样本量;•一:方差,抽样个体值和整体均值之间的偏离程度,抽样数值分布越分散方差越大,需要的采样量越多;E:为抽样误差(可以根据均值的百分比设定),由于是倒数平方关系,抽样误差减小为1/2,抽样量需要增加为4倍;:为可靠性系数,即置信度,置信度为95%时,=1.96,置信度为90%时,=1.645 ,置信度越高需要的样本量越多;95%置信度比90%置信度需要的采样量多40%;为了体现相对差距:假设抽样均值为y22Q21D20019D180170160最小抽样量的计算公式:估算公式;—样車20Iff +19—样+18Iff+n IW + w —样畫14 —样木13 —样車12Iff + 9—H48*ff*7I.ft46{樺木5—样*4—禅木3N«2IW+1相对抽样误差 h = E / y 变异系数C= b / y(Z O /2)2C 2h 2以下是基于抽样得分的抽样误差估算表格: 方差越大需要的样本量越多, 需要的抽样量越少;如果是基于胜出率,支持率等:分值为0/1状态分布,公式拟合为心如營—町n 为按照经验得出的最后比例,在未知时n 可取50%待算出结果后再重新拟合,比例越悬殊需要的样本量越少;从而看出大部分的电话抽样调查:95%置信度的情况下,误差要控制在 2%以内取样量一般在2000-5000 ;为了方便计算抽样调查的误差和估算抽样量,制作了一个Excel 表格附后,调整颜色框中的抽样量数字就可以得到相应的误差或根据指定的误差范围估算出抽样量;相对抽样误差(假设:C=0.4)数据离散度越低,。

抽样样本量的确定

抽样样本量的确定
简单随机抽样下,通常使用误差界限和 估计量的标准误来确定所需的样本容量。
SSI
第36页
在无放回简单随机抽样情况下 总体均值估计量的标准误差的表达式
y
(1 n ) S Nn
其中,S 是总体的标准差
SSI
第37页
如果误差界限设为e,那么:
e z (1 n ) S Nn
这里Z是对应于某一置信水平的标准正态分布的分位点值。
下面用一个例子,说明估计比例问题时样本容量的确定过程。
在这一例子中,所需的精度是根据误差界限确定的,所研究的指标 取两个值,即P和1-P。 在这种情况下,对于大总体,且估计量服从正态分布时, P的总体方差为:
S 2 P(1 P)
n

e2
z2 P(1 P) z2P(1 P)
N
SSI
分层抽样分配样本的标准
1. 总的样本容量事先确定 2. 估计值要求调查样本容量的因素
调查估计值所希望达到的精度 调查估计值所能允许的误差。 估计量的抽样方差较小,估计值是精确的 估计值的精度越高,所需的样本容量就越大 影响精度的因素也同样影响着样本容量的大小 所研究指标在总体中的变异程度 总体的大小 样本设计和所使用的估计量 无回答率
培训访员,等等),这样做可能更有效率
SSI
第21页
4.总体的变异程度
调查总体中,我们所研究的项目或指标,对于不 同的个人、住户或企业,得到的估计结果可能会有很 大的不同。虽然我们不能控制这种变异性,但它的大 小却影响到了给定精度水平下,研究项目所必需的样 本容量。
SSI
第22页
我们来看假设有一个首次开展的调查,试图估 计对某企业提供的服务持满意态度的顾客比例。对 “顾客满意”这一指标,设置两个可能的值:满意 或者不满意。

抽样调查中样本量的科学确定

抽样调查中样本量的科学确定

( ) 际调 查 运作 的 限制 ( 力 、 力 和财 力 的 5实 人 物 可能 条件 ) 客 户 提 供 的经 费 能 支 持 多 大 的样 本 ? 。 调 查 持续 的时 间有 多长 ?需 要 多少 访员 ? 能招聘 到 的访 员有 多少 ? 在确 定 调 查 最 终 所 需 的样 本 量 时 , 还 必 须考 虑 样 本 量 计 算 公 式 没 有 涉 及 到 的 这 些 限
关键 词 : 抽样 调查; 样本 量; 科学确定
中 图 分 类 号 : 8 文 献 标 识 码 : R11 B 文章 编 号 :047 1 (O 0 0 _5 1 3 10 -15 2 1 )7o 3
美 国从 19 70年 开始 就每 十年 普查 一次 , 是 科 但 技 日新 月异 , 国性 普 查 很 有 可 能 找 到替 代 品 。丹 全 麦没 有普查 , 国也 准 备 取 消 普查 。美 国社 区调 查 法
已经 开始 , 而且 繁式 调 查 问卷在 2 0 0 0年之 后就 已经
些 ; 差小 , 少抽 一些 。 方 可 ( ) 限 误 差 的 大 小 。 极 限 误 差 大 可 以少 抽 3极 些 , 限误 差 小则应 多 抽些 。 极 ( ) 样方 法 与 组 织 方 式 。在 相 同条 件 下 , 4抽 重
回答率 都会 影 响精 度 , 而影 响样 本 量 。在计 算 样 从
本 量 的公式 中 , 体 涉及 如下 几个 因素 。 具 () 1 抽样 推 断 的可靠 程 度 。要 求 推 断 的 可靠 程 度 越 高 , 率度 的数 值越 大 , 样单 位数 也 就要 求 多 概 抽
些 ; 之 , 可少 抽一 些 。 反 则
要 求精 确估 计是 很 困难 的 , 要 较 大 的样 本 量 。 因 需

【转】如何确定样本量

【转】如何确定样本量

【转】如何确定样本量调查一般分为普查和抽样调查,只有抽样调查才涉及到样本量的问题。

例如某企业有100名员工,在进行员工满意度调查时就无需抽样,只要全部调查即可。

那么,样本量是不是越大越好呢?当然不是,调查是要消耗大量人力财力和时间的,并且,从统计学上讲,当样本量达到一定程度以后,再增加样本,对于提高调查效果的作用(样本对于总体的估计效应)就不大了,反而会增加经费和时间。

那么是不是随便确定一个样本量就可以呢?当然也不行。

样本量的大小受许多因素制约,如调研的性质、总体指标的变异程度、调研精度、样本设计、回答率、项目经费和时间等。

市场潜力等涉及量比较严格的调查所需样本量较大,而产品测试,产品定价,广告效果等人们间彼此差异不是特别大或对量的要求不严格的调查所需样本量较小些;探索性研究,样本量一般较小,而描述性研究,就需要较大的样本;收集有关许多变量的数据,样本量就要大一些;如果需要采用多元统计方法对数据进行复杂的高级分析,样本量就应当更大;如果需要特别详细的分析,如做许多分类等,也需要大样本。

针对子样本分析比只限于对总样本分析,所需样本量要大得多;总体指标的差异化越大,需要的样本量就越高;调研的精度越高,样本量越大。

简单随机抽样设计,设计效应等于1;分层抽样设计,设计效应一般小于等于1;整群或多阶抽样设计,设计效应一般大于等于1。

在实际中,在确定样本量时,不考虑时间和费用这两个极为重要的因素是不可思议的。

最终确定的样本量必须与可获得的经费预算和允许的时限保持一致。

最终样本量的确定需要在精度、费用、时限和操作的可行性等相互冲突的限制条件之间进行协调。

它还可能需要重新审查初始样本量、数据需求、精度水平、调查计划的要素和现场操作因素,并作必要的调整。

通常,统计调查机构和客户寻求在最有效使用费用的基础上(例如缩短访问时间),使用户能对所需的样本量提供经费支持。

注意一个误区:"大城市多抽,小城市少抽",这种说法原则上是不对的。

抽样样本量的确定

抽样样本量的确定

表2 列出了持满意和不满意态度的顾客可能占的比例的组合
1
100% 满意
2
90% 满意
3
80% 满意
4
70% 满意
5
60% 满意
6
50% 满意
抽样方差的几种计量方法
标准误差 误差界限 变异系数
抽样调查中样本容量的确定,也经常会使 用一种或多种这样的计量方法来对精度进行说 明。
非抽样误差
非抽样误差会对调查估计值的精度产生显著的影响 非抽样误差的大小与样本容量的大小却没有很大的关系 确定样本容量,就不必将这些误差作为影响因素加以考虑 为确保调查结果的准确性,应该消除非抽样误差,至少应尽可能使之 最小化
调查结果可能需要包括一些细分的数据 这些数据称为子总体估计值(或域估计值) 为使数据满足调查要求,应该确定合适的精度
与调查估计值有关的抽样方差有多大?
对于不同的子总体,对精度的要求可能有所不同
例如,在一次全国范围的抽样调查中,对国家层次的数据,调查 主办者可能需要±3%的误差界限;但对于省级层次的估计值,±5% 的误差界限可能就可以满足要求;
培训访员,等等),这样做可能更有效率
4.总体的变异程度
调查总体中,我们所研究的项目或指标,对于不 同的个人、住户或企业,得到的估计结果可能会有很 大的不同。虽然我们不能控制这种变异性,但它的大 小却影响到了给定精度水平下,研究项目所必需的样 本容量。
我们来看假设有一个首次开展的调查,试图估 计对某企业提供的服务持满意态度的顾客比例。对 “顾客满意”这一指标,设置两个可能的值:满意 或者不满意。
❖ 事实上,P可以是P=0 到 P=1.0之间的任一数值。在确 定调查估计值所需的精度时,应该考虑当某个既定精 度达到时所得的最小估计值。如果最小的估计值是 P=5%,那么误差界限就应该小于5%。

样本量的确定方法【最新】

样本量的确定方法【最新】

样本量的确定方法(2008-10-14 09:12:34)一、样本单位数量的确定原则一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。

以及实际操作的可行性、经费承受能力等。

根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。

实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。

但是这只能原则上确定样本量大小。

具体确定样本量还需要从定量的角度考虑。

从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。

归纳起来,样本量的大小主要取决于:(1)研究对象的变化程度,即变异程度;(2)要求和允许的误差大小,即精度要求;(3)要求推断的置信度,一般情况下,置信度取为95%;(4)总体的大小;(5)抽样的方法。

也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。

对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。

实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。

二、样本量的确定方法如何确定样本量,基本方法很多,但是公式检验表明,当误差和置信区间一定时,不同的样本量计算公式计算出来的样本量是十分相近的,所以,我们完全可以使用简单随机抽样计算样本量的公式去近似估计其他抽样方法的样本量,这样可以更加快捷方便,然后将样本量根据一定方法分配到各个子域中去。

抽样调查的样本容量的确定方法

抽样调查的样本容量的确定方法

抽样调查的样本容量的确定方法摘要:确定样本容量是抽样调查中重要的环节,影响到抽样估计的精确度和调查的成本和效益。

单位标志变异程度、抽样极限误差、抽样推断的可靠度、抽样类型和方法等影响到样本容量地确定。

样本容量的确定可以根据由抽样误差、抽样极限误差和概率度推算出来的公式计算,也可以根据建立在过去抽取满足统计方法要求的样本量所累积下来的经验法则来确定。

关键词:样本容量;抽样调查;抽样误差;极限误差抽样调查是根据随机原则,从总体中抽取部分实际数据构成样本,同时运用概率估计方法,依据样本信息推断总体数量特征的一种非全面统计调查。

根据抽选样本的方法,抽样调查可以分为等概率抽样和非概率抽样两类。

等概率抽样又称为随机抽样,是按照概率论和数理统计的原理,从调查研究的总体中,根据随机原则来抽选样本,并从数量上对总体的某些特征做出估计推断,对推断出可能出现的误差可以从概率意义上加以控制。

样本是从总体中抽出的部分单位的集合,样本中所包含的单位数被称为样本容量,一般用 n 表示。

确定样本容量是制定抽样调查方案中的一个非常重要的环节。

1.确定样本容量的必要性1.1 样本容量大小影响抽样估计的精确度抽样估计的精确度是指样本的统计量与其所代表的总体值的接近程度。

调查结果相对于总体真实值的精确度与样本容量直接相关。

样本容量越大,抽样误差相对就会减少,估计精度就会提高;若样本容量太小,抽样误差就会增大,从而影响抽样估计的精确度。

1.2 样本容量大小影响抽样调查的成本和效益样本量的设计通常受到研究经费及调查时间的限制。

根据数理统计规律,样本量增加呈直线递增的情况下(样本量增加一倍,成本也增加一倍),而抽样误差只是样本量相对增长速度的平方根递减。

若样本容量过大,调查单位增多,不仅增加人力、财力和物力的耗费,增加调查费用,而且还影响到抽样调查的时效性,从而不能充分发挥抽样调查的优越性。

因此,为节省调查费用,体现出抽样调查的优越性,在确定样本容量时,应在满足抽样调查对估计数据的精确度的前提下,尽量减少调查单位数,确保必要的抽样数目。

市场调查实务2.3.8 抽样调查样本量的确定

市场调查实务2.3.8  抽样调查样本量的确定

100 以 总体规模

100- 1000
1000- 5000
5000-1 1 万-10
10 万以上


样本占总 50%以上 50%-20% 30%-10% 15%-3%
体的比重
5%-1%
1%以下
今天就上到这里,请大家就所承担的调查项目的具体情况和选择的调查方
式,确定适当的样本量。谢谢。
3
1
如果市场调查的目的是获得较为精确的某类产品市场消费总量及潜在发展 空间方面的信息,以作为是否购买一条先进生产线、开发生产新产品的重要决策 依据。这种用于论证大项目投入的调查,调查费用投入就会比较大。
如果调查仅仅是为了跟踪一次促销活动的效果,费用也就相应较小。 ②调查的精度要求。一般而言,样本量越大,抽样误差越小,调查精度相应 越高,但精度高意味着样本量大,成本也高。 (3)调查实施方面影响样本量的因素 ①问题的回答率。调查问题的回答率表明调查对象对所有提出问题的回答情 况。首先,对于带有过滤性问题的后续问题而言,它的样本量就会减少。 ②其次,问卷设计中的一些缺陷也可能导致被调查者不能做出回答。由于这 些因素的存在,使得每个问题的回答率参差不齐,每个问题可分配到的实际样本 量相差较大,可能导致某些问题的样本量过少,从而在统计中失去意义。要根据 实际需要,通过增加样本量来弥补这类问题。 ③问卷的回收率。在实际中,要根据问卷的回收率考虑样本量。例如,邮寄 调查的回收率一般低于访问调查的问卷回收率,所以需要的样本量相应地也应高 些。 样本量可以用传统的数量统计理论来准确地予以确定,但比较复杂。所以在 一般的市场调查中,调查人员往往凭经验来决定样本的大小。 在统计学中,把容量小于或等于 30 个单位的样本叫小样本,大于或等于 50 个单位的样本叫大样本。 在实际市场调查中,由于面对的总体及总体的异质性较大,一般都要抽取大 样本,样本规模在 50-5000 个单位。 在大总体或复杂总体情况下,如果遵循了随机性原则抽样,样本量在 2000 -2500 就够了。所谓大总体或复杂总体,实际说来就是指一个国家、一个省、 一个城市、一个县或一个地区。在这样大的范围内抽样时,由于调查对象的总体 是由许多不同性质、不同类别的子总体所组成的,单位之间的异质性较大,而且 总体单位数目巨大,所以称为大总体或复杂总体。有时为了加大保险系数,样本 量也可增加到 4000-5000,但无论多大的总体,样本量都不应超过 1 万。要想 充分保证样本对总体的代表性,关键不在于拼命加大样本量,而在于按随机原则

抽样估计与样本量确定

抽样估计与样本量确定
*
使用辅助信息调整权数
[例10.5] 为得到某公司职员是否有吸烟习惯的信息,进行了一项调查。从N=780人的名录中抽出了一个n=100人的简单随机样本。 在收集有关吸烟习惯信息时,收集了每个回答者的年龄和性别情况,且100人都做出了回答,由此得到样本数据的分布如表10-3所示:
*
10.3 抽样分布与抽样误差
统计量 ~t(n-1)
总体置信区间 μ= ±
*
总体均值的区间估计例题
[例10.7] 某银行收集到由36信用卡用户组成的随机样本,得到各用户年龄(周岁)数据如下 23,35,39,27,36,44;36,42,46,43,31,33,42,53,45,54,47,24,34,28,39,36,44,40,39,49,38,34,48,50,34,39,45,48,45,32。 试建立信用卡用户年龄90%的置信区间。
参数估计有两种估计方法: 点估计 区间估计
*
总体参数的点估计
点估计就是用样本的估计量直接作为总体参数的估计值。例如,用样本均值直接作为总体均值的估计,或者用两个样本均值之差直接作为总体均值之差的估计。
点估计是容易做到的,但是,点估计没有给出估计值接近总体参数程度的信息。
当样本均值与总体均值不完全相同时,样本均值与实际总体均值就存在着差距,形成抽样误差。
*
使用辅助信息调整权数
为什么要使用辅助信息来调整权数呢? 首先,使调查的估计值与已知总体总值相匹配。例如,使用最新的人口普查数据来调整估计值,以确保这些估计值(如年龄、性别分布等)的一致性。 二是为了提高估计值的精度。将辅助信息与抽样设计相结合,将有助于提高估计的精度。 要想在调查设计阶段使用辅助信息,抽样框中的所有单元都必须具备这个辅助信息。否则,就只能在数据收集上来后,在估计阶段利用辅助信息提高估计值的精度。

如何确定抽样统计的最小样本量

如何确定抽样统计的最小样本量

∙a方支持率为45.3%;∙b方支持率为30.2%;∙c方支持率为8.5%;∙...最后都会说明一下,此次电话调查的数量2352,置信度为95%﹐最大抽样误差为±2.5%。

抽样调查的典型情景:对一个大的集合(比如:数千万选民)做一次调查的成本较高,抽样调查可以低成本的用近似的(可接受的)数据反映实际情况;在用户调研中,也经常通过通过抽样调查的方式并对比打分的方法做评估。

这里就需要了解置信度和抽样误差的概念;抽样误差:假如相同规模的抽样调查进行多次,抽样均值在真实均值的上下波动,相对于整体均值的偏移波动就是抽样误差,而这个误差的分布是符合标准正态分布的,例如下图:横轴为整体的均值,圆点是每次抽样的均值,而红色那次抽样就是加上误差后都未覆盖到均值线的情况);最小抽样量的计算公式:抽样量需要> 30个才算足够多,可以用以下近似的误差/样本量估算公式;n:为样本量;:方差,抽样个体值和整体均值之间的偏离程度,抽样数值分布越分散方差越大,需要的采样量越多;E:为抽样误差(可以根据均值的百分比设定),由于是倒数平方关系,抽样误差减小为1/2,抽样量需要增加为4倍;: 为可靠性系数,即置信度,置信度为95%时,=1.96,置信度为90%时,=1.645,置信度越高需要的样本量越多;95%置信度比90%置信度需要的采样量多40%;为了体现相对差距:假设抽样均值为y相对抽样误差h = E / y变异系数C= σ / y以下是基于抽样得分的抽样误差估算表格:方差越大需要的样本量越多,数据离散度越低,需要的抽样量越少;相对抽样误差(假设:C=0.4)π为按照经验得出的最后比例,在未知时π可取50%,待算出结果后再重新拟合,比例越悬从而看出大部分的电话抽样调查:95%置信度的情况下,误差要控制在2%以内取样量一般在2000-5000;为了方便计算抽样调查的误差和估算抽样量,制作了一个Excel表格附后,调整颜色框中的抽样量数字就可以得到相应的误差或根据指定的误差范围估算出抽样量;。

如何确定抽样统计的最小样本量

如何确定抽样统计的最小样本量

∙a方支持率为45.3%;∙b方支持率为30.2%;∙c方支持率为8.5%;∙...最后都会说明一下,此次电话调查的数量2352,置信度为95%﹐最大抽样误差为±2.5%。

抽样调查的典型情景:对一个大的集合(比如:数千万选民)做一次调查的成本较高,抽样调查可以低成本的用近似的(可接受的)数据反映实际情况;在用户调研中,也经常通过通过抽样调查的方式并对比打分的方法做评估。

这里就需要了解置信度和抽样误差的概念;抽样误差:假如相同规模的抽样调查进行多次,抽样均值在真实均值的上下波动,相对于整体均值的偏移波动就是抽样误差,而这个误差的分布是符合标准正态分布的,例如下图:横轴为整体的均值,圆点是每次抽样的均值,而红色那次抽样就是加上误差后都未覆盖到均值线的情况);最小抽样量的计算公式:抽样量需要> 30个才算足够多,可以用以下近似的误差/样本量估算公式;n:为样本量;:方差,抽样个体值和整体均值之间的偏离程度,抽样数值分布越分散方差越大,需要的采样量越多;E:为抽样误差(可以根据均值的百分比设定),由于是倒数平方关系,抽样误差减小为1/2,抽样量需要增加为4倍;: 为可靠性系数,即置信度,置信度为95%时,=1.96,置信度为90%时,=1.645,置信度越高需要的样本量越多;95%置信度比90%置信度需要的采样量多40%;为了体现相对差距:假设抽样均值为y相对抽样误差h = E / y变异系数C= σ / y以下是基于抽样得分的抽样误差估算表格:方差越大需要的样本量越多,数据离散度越低,需要的抽样量越少;相对抽样误差(假设:C=0.4)π为按照经验得出的最后比例,在未知时π可取50%,待算出结果后再重新拟合,比例越悬从而看出大部分的电话抽样调查:95%置信度的情况下,误差要控制在2%以内取样量一般在2000-5000;为了方便计算抽样调查的误差和估算抽样量,制作了一个Excel表格附后,调整颜色框中的抽样量数字就可以得到相应的误差或根据指定的误差范围估算出抽样量;。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

抽样调查样本量的确定在贸易统计中, 对于限额以下批零餐饮企业普遍采用抽样调查方法进行解决。

然而,由于当前市场经济情况的多样性,经济发展的不均衡性,以及地域宽广性,导致情况多种多样;实际情况的复杂,决定了方案的复杂性,增加了具体抽样的难度。

经过多年的探讨,区域二相抽样调查比较符合当前我国的实际情况,我们在这里根据试点所掌握的情况针对采用区域二相抽样调查的贸易抽样方案中如何确定样本量进行分析。

一、样本单位数量的确定原则一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。

以及实际操作的可行性、经费承受能力等。

根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。

实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。

但是这只能原则上确定样本量大小。

具体确定样本量还需要从定量的角度考虑。

从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。

归纳起来,样本量的大小主要取决于:(1)研究对象的变化程度,即变异程度;(2)要求和允许的误差大小,即精度要求;(3)要求推断的置信度,一般情况下,置信度取为95%;(4)总体的大小;(5)抽样的方法。

也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。

对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。

实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。

二、样本量的确定方法如何确定样本量,基本方法很多,但是公式检验表明,当误差和置信区间一定时,不同的样本量计算公式计算出来的样本量是十分相近的,所以,我们完全可以使用简单随机抽样计算样本量的公式去近似估计其他抽样方法的样本量,这样可以更加快捷方便,然后将样本量根据一定方法分配到各个子域中去。

所以,区域二相抽样不能计算样本量的说法是不科学的。

1.简单随机抽样确定样本量主要有两种类型:(1)对于平均数类型的变量对于已知数据为绝对数,我们一般根据下列步骤来计算所需要的样本量。

已知期望调查结果的精度(E), 期望调查结果的置信度(L),以及总体的标准差估计值σ的具体数据,总体单位数N。

计算公式为:n=σ2/(e2/Z2+σ2/N)特殊情况下,如果是很大总体,计算公式变为:n= Z2σ2/e2例如希望平均收入的误差在正负人民币30元之间,调查结果在95%的置信范围以内,其95%的置信度要求Z的统计量为1.96。

根据估计总体的标准差为150元,总体单位数为1000。

样本量:n=150*150/(30*30/(1.96*1.96))+150*150/1000)=88(2)于百分比类型的变量对于已知数据为百分比,一般根据下列步骤计算样本量。

已知调查结果的精度值百分比(E),以及置信度(L),比例估计(P)的精度,即样本变异程度,总体数为N。

则计算公式为:n=P(1-P)/(e2/Z2+ P(1-P)/N)同样,特殊情况下如果不考虑总体,公式为:n= Z2P(1-P)/e2一般情况下,我们不知道P的取值,取其样本变异程度最大时的值为0.5。

例如:希望平均收入的误差在正负0.05之间,调查结果在95%的置信范围以内,其95%的置信度要求Z的统计量为1.96,估计P为0.5,总体单位数为1000。

样本量为:n=0.5*0.5/(0.05*0.05/(1.96*1.96)+0.5*0.5/1000)=2782.样本量分配方法以上分析我们获得了采用简单随机抽样公式计算得到的样本量,总的样本量需要在此基础上乘以设计效应的值得到。

由于样本总量已经确定,我们采用总样本量固定方法分配样本,这种方法包括按照比例分配和不按照比例分配两类。

实际工作中首先计算取得区县总的样本量,然后逐级将其分配到各阶分层中,如果不清楚各阶分层的规模和方差等,一般采取比例分配或者比例平方根分配法。

如果有一定辅助变量可以使用,可以采用按照规模分配法分配样本量。

3.样本量和总体大小的关系:在其它条件一定的情况下,即误差、置信度、抽样比率一定,样本量随总体的大小而变化。

但是,总体越大,其变化越不明显;总体较小时,变化明显。

其变化趋势如下:二者之间的变化并非是线性关系。

所以,样本量并不是越大越好,应该综合考虑,实际工作中只要达到要求就可以了。

三、贸易抽样调查方案样本量的确定根据以上的分析,我们可以确定具体的样本量。

当前使用的贸易抽样新方案采用多阶分层区域二相抽样方法、以零售额为核心指标抽取样本。

方案规定,县区以下阶分为乡、镇、街道层,乡镇街道一般根据繁华、非繁华分层,层内采用PPS抽样完成对乡镇街道的抽取;乡镇街道以下阶分为居委会、村委会、市场内层,居委会、村委会根据繁华、非繁华分层,层内采用简单随机抽样完成对居委会村委会的抽取,市场内层抽样根据方案完成;最后一阶首先根据规模、类别分层,层内采用简单随机抽样完成对居委会具体样本的抽取。

其中,确定居委会具体样本的方法和数量比较模糊,需要基层做很多工作,给基层造成了一定的混乱,增加了很大的负担。

我们决定首先采取简单随机抽样的方法计算区县的样本量,之所以首先对区县计算样本量,主要是考虑,虽然我们方案中没有要求对区县的估计量,但是区县一级是我们做计划和决策的基础,具有承上启下的作用,如果区县级获得的估计量精度比较高,就可以保证上一级的估计量具有更高的精度,而且各个区县的样本量可以认为是相同的,这主要是因为各个区县的总体数都比较多,而且我们也不清楚;同时也不可能事先进行区县方差估计。

没有首先计算区县以下各阶分层的样本量,主要是考虑:(1)如果计算区县以下某阶分层的样本量,然后再将计算的样本量合并,将显著增加样本量,增加基层的负担。

(2)事实上,对于计算阶可以比较好的得到它的估计量,但我们现在不需要得到区县以下各阶分层的估计量,我们仅仅需要区县的估计量,没有必要计算区县以下阶样本量。

(3)我们直接对整个区县以简单随机抽样进行抽取,然后将其样本量合理分配到各阶分层中,这样可以使用较少样本量得到区县较好的估计量。

以下我们以试点地区批零业为对象进行研究。

由于没有误差限以及置信度和抽样比率的值。

我们可以采用常用参数:设定区县总体为很大,置信度是95%,抽样比率保守估计是0.5,抽样误差不能大于15%,根据公式计算得到样本量为43个。

由于采取多阶分层抽样,我们如何设定抽样设计效应呢?区县及以下是三阶分层抽样,只要在各阶进行合适的分层,其设计效应应该在2-3之间,我们在这里取保守值3,那么得到本区县样本量是129个,这个样本量就可以根据新方案得到区县要求误差内的估计值。

1.确定办事处、居委会、村委会样本量根据方案,每个居委会抽取样本5-10个,那么这个样本量是否可行呢?这里涉及如何将区县样本分配到街道和居委会中去,根据方案要求,街道抽取采取先分层,后对层内进行PPS抽样;那么分配样本是否也采取同样方法呢?主要看辅助变量与样本量之间的关联程度,方案中提供了两个辅助变量:人口数和个体数,对于辅助变量是个体数的完全可以使用规模分配方法分配样本量,个体数多的分配较多的样本量;对于辅助变量是人口数的如果采取规模分配方法,由于人口数与一个地区的个体单位数没有必然的联系,可能导致某些居委会的个体数比较多,却分配了较少的样本量,使得居委会分层变的困难,同时使居委会方差显著增大。

而获得较多样本量的居委会,分层的效果和方差提高幅度有限,故采用比例分配的方法可能更加合适一些。

对于居委会村委会的抽取,由于本阶可能存在市场内的抽样,分配复杂一些;如果本阶有市场内抽样,可以适当减少居委会村委会的样本量,但应该大于本阶样本量的80%,由于市场内抽样的特殊性,建议将本阶样本量全部分配给居委会村委会,我们所进行的试点就是将样本全部分配给居委会;至于市场内抽样的具体实施,可以根据方案操作完成。

对居委会村委会层内,由于使用简单随机抽样完成,采用比例分配平均分配就可。

在实际工作时,由于一个区县包括全部乡镇街道或其中的一个;根据方案,区县抽取办事处的数量应该介于12-4个之间,对应于抽中乡、镇、街道的全部或其中一个,那么其每一个乡镇街道采取比例分配平均分配的样本量应该是11-32个之间;所抽中的居委会、村委会数量应该介于16-48个之间,如果个别乡镇街道抽中的居委会是2个,则其居委会总数相应减少一些;最后,每个居委会、村委会的样本量应该介于3-16个之间,大部分介于5-10之间。

以上的讨论没有考虑总体的大小,如果考虑到居委会、村委会的总体有限,则每个居委会村委会的样本量可以减少一些,具体可以采用以下公式得到具体样本量的调整数: 样本量n=n1*N/(N+n1)。

N是本地区总体,n1 是给本地区分配样本量居委会样本量的调整数,应该作为本居委会样本量的底限。

确定办事处、居委会村委会的样本量,与以下几点有关:a)估计量的误差、置信度,可以决定简单随机抽样的样本量b)与采用的抽样方法有关系,它决定了设计效应的大小。

例如:分层抽样的设计效应值小于1,多阶抽样的设计效应值大于1。

可以决定整个抽样的样本量。

c)与每一阶的分层的数目有关系,所以,应该重点考虑分层的问题,分层太多,没有必要;分层太少,导致层内的方差增大,可能影响估计值的精度以及设计效应的值,所以,在每阶分层时,应该合理考虑,使得样本的变异程度在层内达到一个合理水平。

根据以上原则,我们在包头的抽样试点共抽取4个办事处,包括14个居委会;一个乡,包括4个村委会,经过清查共有批零业1042个,单位70个;餐饮业250个,单位3个。

由于我们使用人口数作为辅助变量,应该采用比例分配方法平均分配样本量,这样每个街道办事处得到26个样本, 对于抽取4个居委会的办事处,每个居委会分配得到7个样本;对于抽取2个居委会的办事处,每个居委会分配到13个样本。

然后根据居委会总体对样本量做出调整,得到居委会实际样本量。

2.确定居委会村委会内分层样本量以上我们讨论如何分配给乡镇居委会村委会样本量,现在分析给居委会村委会以下各层分配样本量,这一步,清查的工作就显得非常重要了,重点应该清查规模、类别,首先是规模,规模的大小不应该根据工商注册为单位或个体决定,应该根据实际情况,即使是个体,如果规模较大,也应该归入大规模分层中,这样就可以使得每层的样本变异程度显著降低,从而提高精确度。

相关文档
最新文档