市场调查与预测 第四章抽样方法与设计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分层抽样的常用方法
1、分层比例抽样:
– 指按各个层的单位数量占调查总体单位数量的多少, 等比例分配各层的样本数量。
各层样本计算公式:
Ni ni n N
N:总体单位数目; Ni:第i层单位数目; n:样本总数; ni:第i层样本数目。
• 例一:某公司要估计某地家用电器的潜在用户。这种商品 的消费同居民收入水平相关,因此以家庭收入为分层基础。 假定该地居民为2000户,已经确定样本为200户,家庭收 入分高、中、低三层,其中高收入家庭200户,中收入家 庭6000户,低收入家庭12000户,采取分层抽样,各层样 本应是多少?(高:20户,中:60户,低:120户) • 分层比例抽样适用于各层的标准差大致相近的调查总体, 如果各层标准差过大,就不宜采用分层比例抽样,而应采 用分层最佳抽样。
2
• 【例5.5】某企业对一批总数为5000件的产品进行质量 检查,过去几次同类调查所得的产品合格率为93﹪、 95﹪、96﹪,为了使合格率的允许误差不超过3﹪, 在99.73﹪的概率保证程度下,应抽查多少件产品? • 【分析】因为共有三个过去的合格率的资料,为保证 推断的把握程度,应选其中方差最大者,即P=93﹪。
乱 数 表
03 97 16 12 55 16 41 61 33 57 70 56 47 74 76 56 59 22 11 26 21 60 28 62 43 24 02 85 56 77 17 63 12 17 17 37 73 67 27 99 35 94 53 78 86 34 12 35 86 62 66 26 64 39 71 59 29 44 13 18 36 42 56 96 38 49 57 16 78 09 40 98 96 81 50 96 54 54 24 95 64 47 33 83 47 14 26 68 82 43 55 55 56 27 20 50 36 57 71 27 46 54 06 67 07 96 38 87 61 20 07 31 22 82 88 19 82 54 26 75 46 42 32 05 31 17 77 98 52 49 78 83 99 53 90 03 62 37 04 10 42 17 83 11 69 32 79 72 43 93 74 50 07 45 51 25 81 37 78 93 09 23 47 71 44 09 03 93 62 32 53 15 90 78 67 75 38 62 74 47
第四章 抽样方法与设计
CONTENTS
抽样调查概述 随机抽样技术 非随机抽样技术 抽样误差与样本量确定
抽样调查概述
• 抽样调查
• 是指从调研总体中抽选出一部分要素作为样本,对样本进 行调查,并根据抽样所得的结果推断总体的一种专门性的 调查活动。 • 优点:时间短、见效快;质量好、可信度高;费用低。 • 不足:代表性误差是不可避免的。
– – – – 将研究总体的所有个体统一编号; 根据随机原则,决定某行某列的数字为起点; 按照一定规则,查出号码; 凡个体编号与随机数字表中数字相同者即为样本,直 到抽满样本数为止。
• 例如,某企业要调查消费者对某产品的需求量, 要从95户居民家庭中抽选10户居民抽选样本。
–第一步:将95户居民家庭编号,每一户家庭一个编号, 即01~95。(每户居民编号为2数) –第二步:在上面的表中,随机确定抽样的起点和抽样 的顺序。假定从第1行,第6列开始抽,抽样顺序从左 往右抽。 –第三步:依次抽出号码分别是:37、38、63、69、64、 73、66、14、69、96,98,16,共12个号码。 –由此产生10个样本单位为:37、38、63、69、64、73、 66、14、69、16。
• 例:从1500名大学生中抽选100名大学生进行调查, 采用等距抽样,如何抽取?
–将1500名大学生随机编上号码:从第1号到1500号; –计算抽样距离:抽选距离=1500/100=15人; –确定抽样起点并依次抽取:第一个样本可从1-15人中 随机产生,假如是5号,则后面依次是20号,35号,依 次往下,直到抽满100名为止。
2、分层最佳抽样:根据各层样本的标准差调整各层抽取
样本数目的方法。
• 计算公式:
N i Si ni n N i Si
• 其中: Ni:第i层单位数目; n:样本总数; ni:第i层样 本数目。 ;Si为第i层的标准差
• 例二:其他与例一相同,假设高收入家庭样本标准差为 300元,中收入家庭样本标准差为200元,低收入家庭标 准差为50元。代入公式得:
x —抽样平均误差;n —样本容量。
– 不重复抽样条件下
NZ 2 2 N 2 n 2 2 2 2 N x Z N x 2
• 【例5.4】某食品厂要检验本月生产的10000袋某产品 的重量,根据上月资料,这种产品每袋重量的标准差 为25克。要求在95.45﹪的概率保证程度下,平均每袋 重量的误差范围不超过5克,应抽查多少袋产品?
• 分层抽样
• 将总体按其属性不同划分为若干层次(或类型),然 后在各个层次(或类型)中随机抽取样本的技术。
总体
•一 •二 •三 •四
分层 抽样
N1
N2
N3
N4
n1
n2
样本
n3
n4
• 分层的原则是:各层内的个体之间的差异要小,尽可能同 质,不同层的个体差异要大,尽可能异质。 • 该方法适用于总体情况复杂,各单位之间差异较大,单位 较多的情况,比如社会购买力的调查,居民家庭收支调查, 商品销售量的调查等。
己知N 10000, 25克, x 5克, Z 2, 在不重复抽样条件下: 则在重复抽样条件下: Z 2 2 22 252 n 2 100 袋 x 52
NZ 2 2 10000 22 252 n 2 2 2 N x Z 10000 52 22 252 99.01 袋 100 袋
• 整群抽样与分层抽样的异同:
• 相同之处:
– 依据某一标准将总体分为不同的层次或群体 ;
• 不同之处: – 划分标准不同; – 抽样方式不同; – 分层原则不同。
• 系统抽样:
– 也叫等距抽样,先将调查总体各单位按一定标志排列, 然后按固定顺序和一定间隔来抽取样本单位。 • 抽样间隔=总体数/样本数(整数) • 标志的选择有两种方式: • 1、按与调查项目无关的标志 • 2、按与调查项目有关的标志
• 配额抽样
– 配额抽样也称“定额抽样”,是指调查人员将调查总 体样本按一定标志分类或分层,确定各类(层)单位 的样本数额,在配额内任意抽选样本的抽样方式。 – 与分层抽样异同: 同:都需要对总体分类; 异:分层抽样按随机原则在各类抽样,而定额抽样中 各层的子样本是非随机抽取的。
•wk.baidu.com滚雪球抽样
– 滚雪球抽样是指先随机选择一些被访者并对其实施访 问,再请他们提供另外一些属于所研究目标总体的调 查对象,根据所形成的线索选择此后的调查对象。 – 适用于比较特殊、低发生率或少见的调查对象或总体。
抽样误差和非抽样误差
• 抽样误差
• 用样本估计总体肯定会产生误差,这一类误差就叫做抽样 误差。 – 产生原因: 1、被调查总体某一特征的离散程度; 2、样本的数目; 3、样本抽选的方法; 4、样本的组织形式。
• 非抽样误差
• 非抽样误差指的是在抽样调查中由于人为的差错所造成的 误差。 – 抽样框误差; – 调查人员误差; – 受访者误差(回答误差); – 计量误差等等。
• 样本量计算
• 非随机抽样样本容量的确定,要么是把非随机样本当 作随机样本来对待,按照随机抽样的方法计算样本容 量;要么根据研究预算和抽样成本大概确定一个抽样 数目。
• 推断总体平均数所需的样本容量
– 重复抽样条件下:
Z 2 2 2 n 2 2 x x Z —概率保证度; —总体标准差; x —抽样极限误差
• 推断总体成数所需的样本容量
– 重复抽样条件下
Z —概率保证度;P 1- P —总体标准差; P —抽样极限误差
Z 2 P 1 P P 1 P n 2 2 P P
P —抽样平均误差;n —样本容量。
– 不重复抽样条件下
NZ P 1 P NP 1 P n 2 2 2 N p Z P 1 P N p P 1 P
• 高收入家庭样本数=200*600000/2400000=50(户) • 中收入家庭样本数=200*1200000/2400000=100(户) • 低收入家庭样本数=200*600000/2400000=50(户)
• 整群抽样
– 是在当总体的所在基本单位自然组合为或被划分为若 干个群后,从中随机抽取部分群并对抽中群内全部基 本单位进行调查的一种抽样组合形式。
简单随机抽样方法:
• 抽签法:
– 先将调查总体的每个个体进行编号,充分混合后以抽 签的方式来抽取调查单位作为样本。
• 随机数表法:
– 随机数表法亦称“乱数表法”,就是利用随机数表抽 取样本的方法。 • 随机数表:将0-9十个数字用完全随机顺序排列编制而得 到的表:例如
• 随机号码表法具体步骤:
非随机抽样技术
• 方便抽样
– 又称偶遇抽样、任意抽样、便利抽样,指在一定时间 内、一定环境里所能遇到的或接触到的人均选入样本 的方法。 – 优点:方便,省时,省力。 – 缺点:不能推断总体,代表性差,偶然性强。 – 适用:探测性调查。
• 判断抽样
– 判断抽样也称为目的抽样,主要凭借调查者的主观意 愿、经验和知识,从总体中选取具有代表性的个体样 本作为调查对象的抽样方法。 – 要求调查者对总体的有关特征有相当程度的了解。 – 选取样本单位一般有两种方法: 典型调查:选择最能代表普遍情况的调查对象,常以 “平均型”或“多数型”为标准,尽量避免“极端 型”; 重点调查:对那些占被调查总体内较重要的个体进行抽 取调查。
• 思考2:样本量与总体规模N有关吗?
• 例:简单随机抽样估计P,置信度95%,允许误差5%,在 P=0.5条件下 总体规模(N) 所需样本量(n) 50 44 100 80 500 222 1000 286 5000 370 10000 385 100000 398 1000000 400 10000000 400 • 总体规模越大,进行抽样调查的效率越高。
抽样单元:样本抽出过程中的单位形式。
抽样调查的类型
抽样调查 的类型
随机抽 样调查
非随机 抽样调查
简单随机 抽样调查
分层随机 抽样调查
整群随机 抽样调查
系统 抽样调查
判断抽样
方便抽样
配额抽样 滚雪球抽样
随机抽样技术
• 简单随机抽样
• 指按照随机原则,从总体中不加任何分组、划类、排序等 先行工作,直接地抽取样本单位的抽样方法,也称单纯随 机抽样。
• 简单随机抽样在实际应用中的局限性:
– 必须对总体各单位加以编号,总体庞大时,不具备操 作性; – 有些总体不能采用随机抽样; – 当总体标志变动度较大时,简单随机抽样代表性不如 分组抽样代表性高; – 采用简单随机抽样抽出的样本分布较为分散,实地调 查消耗的人力、物力、费用较大。 因此简单随机抽样仅仅适用于总体单位数不大且分布 均匀即内部差异不大的情况的总体。
• 几个基本概念
总体(Population):所要研究的事物的全体构成的总体; 样本(Sample):从全及总体中所抽取的部分单位组成的 总体,又称抽样总体; 样本容量(Sample size):样本单位数;
抽样框:在设计抽样方案时,必须有一份关于全部抽样单 元的资料称之为抽样框。(花名册、企业名录、电话号码簿等)
• 样本量确定
• 影响样本量的因素 – 被调查对象标志的差异程度; – 允许误差(极限误差)的大小; – 所要求的调查结果的把握程度(置信度); – 同类研究的样本量; – 抽样方法和抽样组织形式等。
• 思考1:估计精度越高越好吗?
• 简单随机抽样估计比例P的样本量与误差(当P=0.5时) 样本量 误差 50 0.14 100 0.10 500 0.045 1000 0.032 • 对精度要求的判断十分重要。为得到最小误差而选择最大 样本量不是好的选择。