抽样技术及样本计算方法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例:如果你调查一个问题而几乎所有的人都持有相同的观点,比如(谋杀违法吗?)那么无论 做多少次调查,你实际上都期望能够得到一个确切的结果。所以方差(观点的类别)越小,任 何大小的样本在任何置信水平下的可靠性就越高。
4. 客户总数
a) 当客户总数很大时,样本量与客户总数几乎 没有关系。 b) 当客户总数较小时,样本量随客户总数的增 加而增加。
抽样技术及样本计算方法
什么是抽样
• 从所有客户中抽选出一部分作为样本(即 被调查对象),对样本进行调查。 • 根据对样本调查的结果推断总体(即所有 客户) 此种对样本的抽选过程即为抽样。
什么是普查
• 与抽样调查对应的是普查(对总体的所有客户展开调查)。 • 优点:
– 一般来说,在理想状态下,普查不受抽样误差影响且能够得到最为全 面的信息。
随机抽样—分层随机抽样
• 分层抽样的特点是先将总体按照某种特征 或指标分成几个排斥的又是穷尽的子总体, 或层,然后在每个层内按照随机的方法抽 取元素。其原则是子总体内元素间差异可 能小,而不同子总体间差异大。 • 这种抽样方法使得样本的代表性加强 。
随机抽样—整群抽样
• 整群抽样首先将总体划成许多相互排斥的 子总体或群,然后以群为初级抽样单元, 按某种概率抽样技术,如简单随机抽样, 从中抽取若干个群,对抽中的群内的所有 单元都进行调查。
样 本 量
客户总数
5. 抽样方法 在其他条件相同时,重复抽样比不重复抽 样要求样本容量大些。 如果将客户划分的区域越多,则总样本人 数越多才能真实代表每个区域的客户情况。
样本量的计算
样本量的计算公式
• 当客户总数很大时,简单样本量的计算公式:
n
Z 2S 2 2 d
– n代表所需要的样本量; – Z表示置信水平下的Z统计量,如95%置信水平的 Z统计量为1.96; – S代表总体的标准差; – d代表置信区间的1/2,在实际应用中就是容许误 差,或者抽样调查误差。
抽 样 误 差
抽样误差与样本量关系曲线
样本量
抽样误差随着样本量的增加而减少,但当样本 量增加到一定程度之后,样本量的增加对抽样 误差几乎没有影响了。
误 差
样本量
2. 置信水平 你可以在不同的置信水平上计算样本的精 确度。非常重要的研究,比如药物的研究 一般都会选择99%的置信水平。在一般 调查的研究中,置信水平通常取为90%95%.
单纯随机抽样法了。
随机抽样—等距抽样
• 按照某种顺序给总体中所有单元编号,然 后随机地抽取一个编号作为样本的第一个 单元,样本的其它单元则按照某种确定的 规则抽取(如等距原则),这种抽样方法 称为系统抽样。其中最常用最简单的系统 抽样叫等距抽样。
• 例如:某地有5000户,今欲抽取1/5家庭作健康调查,则 每5户抽1户,或逢“5”抽,抽到的户即作为调查单位。
抽样的可靠性
• 抽样的可靠性是用可重复性来评判的。 • 即随机选取的一组样本再做完全一样的调 查,你会得到同样的结果吗? • 抽样是否可靠主要由样本量大小决定的。 而样本量的大小除了与调查的目的相关, 主要由以下五个方面决定。
影响样本量大小的六个因素
1. 2. 3. 4. 5. 6. 抽样误差 置信水平 方差 客户总数 抽样方法 资金
例:如果我们的奥运会调查样本要求90%的置信水平下, 精确度为3%,这也就是说,如果你做100次调查,将 有90次结果的精确度小于等于3%.
3.
方差,即变异程度 在一个给定的置信水平和特定的样本大小下,你所期 望的精确度仍然会有很大的变化,这取决于被调查者所 持有的不同观点。 在顾客满意度指数的调查中,方差表示被调查者对调 查问题给出答案的分散程度。方差越大,表示答案越不 一致;方差越小,表示答案越趋于一致。所以,当总体 方差越大时,为了保证获得数据的准确性,样本量也应 该越大;反之,总体方差越小,样本量也可以相应减小。
• 例如:从100个乡中抽出10个乡中的全体居民全部调查。
随机抽样—多级抽样
• 也叫多阶段抽样。它是在第一阶段从所有 群中抽取若干群,在每个抽中的群中,再 抽取若干单元进行调查。
• 例:按地理,经济,人口分层从全国抽几个省,按大、中、
小城市分层,从抽到的省中抽几个市,从抽出的市中,抽 出有代表性的区,从抽出的区中,抽出若干有代表性的户, 调查其居民。
抽样误差与样本量的关系
抽 样 误 差
样本量
非抽样误差
• 指在所有调查活动过程中所产生的除去抽 样误差以外的所有误差,主要是由于人为 的差错造成的。 • ① 由调研人员引起的 • ② 由访问员引起的 • ③ 由被访者引起的
非抽样误差与样本量的关系
非 抽 样 误 差
样本量
误 差
样本量
抽样方法
• 随机抽样
1. 抽样误差 由于样本不同而导致的偏差被称为抽样 误差,抽样本身会导致抽样误差。为了保 证抽样调查的准确性,我们希望抽样误差 越小越好。一般调查研究时,抽样一般误 差控制在3%-7%之间。
例:你调查了100个人,询问他们是否应该早办奥运会,其中66% 的人说“是”。如果你的调查精确度为3%,这也就是说,如果 你对不同的样本展开同样的调查,最后结果中选“是”的比例 会在63%-69%之间。
– 抽样误差 – 非抽样误差
• 误差=抽样误差+非抽样误差
• 总的来说,普查不存在抽样误差,但可能 存在较大的非抽样误差;而抽样调查会产 生抽样误差和非抽样误差。 • 因此,选择合适的科学的抽样方法和样本 显得非常重要。
抽样误差
• 指通过调查部分客户,而非全部客户,来 估计总体特征所产生的误差,形成原因在 于所选择的特定样本不能完美地代表总体。 这是由于抽样的偶然性造成的、是不可避 免的误差。
多少才算是客户总数很大? 多少才算是客户总数较小?
• 在总体比较小时,总体对样本规模会产生较大影 响,就要考虑总体对样本规模的影响。这时可以 用如下公式进行转换:

n=n1/(1+n1/N)
n表示在总体较小时需要计算的样本量 n1表示在总体很大时计算所得的样本量
N表示客户总数。 在95%的置信水平,3%的抽样误差下,n1=1068:
随机抽样—简单随机抽样
• 总体中的每一个元素都有一个相等的被抽中概率。 简单随机抽样可以通过抽签法、随机数字表法和 EXCEL随机函数来实现。先确定或搜集一个抽样 框,将抽样框中的每个元素都编上号。然后把所 有抽签抽中的号码的元素或随机数字对应的号码 的元素做为样本进行调查。
• 例如:应用随机数表进行抽样。若想从500名中抽100名,则从数字 表上取出500个数字依次记在卡上,再按随机数目大小排列成序,以 其中连续100名为样本。 • 此法只能用于数目不大的情况,如想从几万人中抽样调查,就很难用
• 缺点:
– 完成一项普查需要的时间长,可能影响最终得到数据的可比性; – 可能导致高的非抽样误差; – 涉及费用高。 相对而言,通过严密的设计和实施控制,抽样调查也可用相对低廉的费 用获得比较准确的相近似的数据。
什么是误差
• 在CSI中,由于各方面因素的作用,调查结 果总会存在误差。通常,调查误差分为两 种主要类型:
1. 2. 3. 4. 5. 简单随机抽样 等距抽样(系统抽样) 分层随机抽样 整群抽样 多级抽样

非随机抽样
1、方便取样;2、判断取样;3、配额取样
两种抽样方法的比较
• 随机抽样:运用统计学方法可以对总体给 出很准确的估计。 • 非随机抽样:不能代表总体的情况,也无 法运用统计学方法为调查结果提供准确度。
95%置信度与样本量对照表
误差d
0.07 0.06 0.05 0.04 0.03 0.02 0.015 0.01
置信水平
0.9 0.9 0.95 0.95 0.95 0.95 0.95 0.95
Z统计量 1.65 1.65 1.96 1.96 1.96 1.96 1.96 1.96
样本大小n
139 190 385 601 1068 2401 4268 9604
试算
n=n1/(1+n1/N) n1=1000
客户总数N 样本量n
1
?
200
?
500
?
1000
?
10000
?
50000 100000 1000000
? ? ?
客户总数N 样本百度文库n
1 1
200 167
500 333
1000 500
10000 909
50000 980
100000 990
1000000 999
相关文档
最新文档