如何确定抽样统计的最小样本量
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在电视节目中经常看到关于选举的报道中经常会后有支持率的数字,例如:调查结果为
■ a
万支持率为
45.3%;
• b
方支持率为30.2%; ・c方支持率为8.5%;
最后都会说明一下,此次电话调查的数量2352,置信度为95%,最大容许误差为土2.5%这
就是抽样调查的典型情景:一个大的集合(比如:数千万选民)做一次调查的成本较高,抽样调查可以低成本的用近似的(可接受的)数据反映实际情况;在用户调研中,也经常通过通过抽样调查的方式并对比打分的方法做评估。
抽样误差:假如相同规模的抽样调查进行多次,抽样均值在真实均值的上下波动,相对于整体均值的偏移波动就是抽样误差,而这个误差的分布是符合标准正态分布的,例如下图:横轴为整体的均值,圆点是每次抽样的均值,而红色那次抽样就是加上误差后都未覆盖到均值线的情况);
抽样量需要> 30个才算足够多,可以用以下近似的误差/样本量
E2
n:为样本量;
•一:方差,抽样个体值和整体均值之间的偏离程度,抽样数值分布越分散方差越大,需要的采样量越多;E:为抽样误差(可以根据均值的百分比设定),由于是倒数平方关系,抽样误差减小为
1/2,抽样量需要增加为4倍;
:为可靠性系数,即置信度,置信度为95%时,=1.96,置信度为90%时,=1.645 ,
置信度越高需要的样本量越多;95%置信度比90%置信度需要的采样量多40%;
为了体现相对差距:假设抽样均值为y
22Q
21D
200
19D
180
170
160
最小抽样量的计算公式:
估算公式;
—
样
車
20
Iff +
19
—
样
+
18
Iff+n IW + w —样畫14 —样木13 —样車12
Iff + 9
—
H4
8
*
ff*
7
I
.ft
4
6
{
樺
木
5
—
样
*
4
—
禅
木
3
N
«
2
IW+
1
相对抽样误差 h = E / y 变异系数C= b / y
(Z O /2)2C 2
h 2
以下是基于抽样得分的抽样误差估算表格: 方差越大需要的样本量越多, 需要的抽样量越少;
如果是基于胜出率,支持率等:
分值为0/1状态分布,公式拟合为
心如營—町
n 为按照经验得出的最后比例,在未知时
n 可取50%待算出结果后再重新拟合,比例越悬
殊需要的样本量越少;
从而看出大部分的电话抽样调查:
95%置信度的情况下,误差要控制在 2%以内取样量一般在
2000-5000 ;为了方便计算抽样调查的误差和估算抽样量,制作了一个
Excel 表格附后,调
整颜色框中的抽样量数字就可以得到相应的误差或根据指定的误差范围估算出抽样量;
相对抽样误差(假设:C=0.4)
数据离散度越低,