抽样设计和样本量的确定
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
200
200 150
300-500
300-500 200-300
成本基础法
• 将成本作为确定样本容量的基础
• 对于成本基础法的区别很大; • 通常会忽视调查结果对管理决策的价值; • 确定样本容量一个好的办法是考虑成本与调研对于经历 的价值之间的关系;
统计分析法
• 一些统计分析方法对最小样本容量有要求
置信区间法
• 臵信区间的概念,是一个范围,其终点指定了对于一个 问题的某一应答百分率。
• 正态曲线的属性是,标准分布的1.96倍从理论上表示95%的分布 点,标准分布的2.58倍表明了99%的分布终点; • 95%臵信区间=[平均值-1.96标准差,平均值+1.96标准差] • 标准差越大臵信区间就越大
• 如果要讨论分类变量的影响,那么每一分类变量的样本 数应符合统计分析数的需要 • 要将每一类样本或子集看成一个总体
置信区间法
• 运用差异性臵信区间、样本分布以及平均数标准 误差或百分比标准误差等概念来创建一个由小样 本
• 差异性是指受访者对某一特定问题的答案在相异性(或 相似性)方面的总括。
• 如果多数回答都接近同一个数字,而且大多数的回答都集中 在某一小范围内,则差异性小;反之,则差异性大。 • 数据的差异性可以用标准差来度量,即差异的平均程度。
• 优点是易于理解,样本结果可以推断总体,大多 数统计推论方法都假定数据是由简单随机抽样法 法获得的 • 局限性:抽样框难以构建;数据收集时间和成本 高;比其他概率抽样精确度低,标准差较大。
系统抽样
• 在系统抽样中,通过选择一个随机的起点,然后 从抽样框架中连续地每隔i个个体选出一个个体, 从而选出样本。 • 这种方法成本较低,因为只需要做一次随机抽样 • 可以在不了解抽样框的组成的情况下进行
• 可分为单阶段整群抽样与二阶段整群抽样; • 与分层抽样的关键差别在于,在整群抽样中,只有一个 子总体的样本被选出,而在分层抽样中,为了进一步的 抽样,所有的子总体都被选出来了; • 整群抽样的目的是通过降低成本来增加抽样效率,分层 抽样的目的是增加精确度。 • 在每个群的中的各体,应尽可能的异质性,但各群本身 应尽可能的同质。
• 个体是这样一个物体,关于它的信息或者来自它的信息是我们 想要的; • 抽样单位是指在抽样过程中的某一阶段可供选择的个体,或者 包括这个个体的单位; • 范围指的是地理边界; • 时间因素是指的调研的时间周期。
统计推断过程
总体参数估计 总体
样本统计量 (X)
样本
二、确定抽样框架
确定抽样框架
• 抽样框架指的是目标总体中的个体的表示法,它 由一份或一组用于识别目标总体的指示说明组成
分层抽样
• 分层抽样是一个两阶段过程,总体被分割为子总 体,或称为“层”后,再用随机方法,从每一层 中选出个体。
• 各层间应相互独立,并且全体上没有遗漏; • 与配额抽样法法的不同是自总体的样本选取是随机的; • 分成抽样可以确保子总体在样本中都得以体现。
整群抽样
• 首先将目标总体分为相互排斥且没有遗漏的子总 体,或称群,然后根据一种概率抽样技术,选出 各群的一个随机样本
滚雪球抽样
• 通常是先选出一组最初的调查对象,通常是随机 选出的,在访谈之后,要求这些被访者推荐一些 属于目标总体的其他人,根据这些推选出后面的 被访者。
• 与随机的方式相比,被推举的人将具备与推荐人更为翔 实的人口及心理特征。 • 主要目的是估计总体中非常稀少的某些特征。 • 缺点是这种方式非常耗时。
• 便利抽样在所有抽样技术中成本最低、耗时最少, 抽样单位易于接近; • 不能代表总体。
判断抽样
• 判断抽样是便利抽样的一种形式,根据研究人员 的判断选出总体中的个体
• 进行判断的研究人员或专家选出要被包括进样本的个体 • 是主观的判断,其价值完全取决于研究人员的判断、专 业知识以及创造力
• 缺点是不支持特定总体的直接推断 • 优点是成本低、便利且快速
第12章 抽样设计和样本量的确定
主讲人:刘彦彬
本章主要内容
抽 样 设 计 过 程 一、定义总体 二、确定抽样框架 三、选择抽样技术 四、确定样本容量 五、执行抽样过程
一、定义总体
定义目标总体
• 目标总体:是指拥有研究人员所要寻找的信息的个 体或物体的集合。
• 目标总体必须被精确的定义,不精确的定义总体将会导 致研究无效,甚至误解; • 目标总体应该根据个体、抽样单位、范围和时间来定义;
• 电话本、公司名的协会目录、邮寄名单、姓名地址录或 者地图 • 可能造成抽样框架误差。 • 有三种办法处理抽样框架误差:
• 根据抽样框架重新定义总体; • 通过数据收集阶段的筛选被访者来考虑抽样框架误差; • 通过加权的方案来调整所收集的数据,弥补抽样框架误差。
三、选择一种抽样技术
抽样技术的分类
简单随机抽样
• 在简单随机抽样中,总体中每一个个体都有一个 已知且相等的抽中概率
• 首先确定一个抽样框架,其中的每一个个体被分配了一 个唯一的号码 • 然后产生出随机的数字来确定那些个体被包括进样本中
• 盲选 Blind Draw • 随机数表 the table of random number
• • • • 教条式方法 成本基本法 统计分析法 臵信区间法
教条主义方法
• 任意方法也许基于经验,如5%规则
• 具有主观性 • 优点:容易确定,简单易行 • 缺点:无效率、不经济
研究类型
问题鉴别研究 问题解决研究
最小量
500 200
典型范围
1000-2000 300-500
产品测试
试销研究 广告研究
• 用百分率确定样本容量
• 最大的差异性是50%, • e为可接受的精确度,精确度高则百分率小,如 2%。
用置信区间的方法计算样本容量
• 用平均数确定样本容量
五、执行抽样过程
抽样技术的分类
抽样技术
非概率抽样
概率抽样
便利抽样
判断抽样
配额抽样
滚雪球抽样
简单随机抽样
系统抽样
分层抽样
整群抽样
便利抽样Fra Baidu bibliotek
• 以研究者或访问者方便来选择被访者,通常被访 者由于碰巧在恰当的时间正处在恰当的地点而被 选中
• • • • 使用学生以及社会组织成员; 商场拦截购物者; 使用费用帐目清单确定的百货商店; “街上的行人”访谈。
• 抽样技术可以被宽泛地分为非概率抽样和概率抽 样
• 非概率抽样依赖于研究人员的个人判断而非随机选择样 本个体;
• 可以对总体的特征很好的估计; • 无法对样本结果的精确度作出客观的评价。
• 概率抽样随机选择样本单位,选择每个样本的概率相等
• 每个样本不一定有相同的选择概率,但可以指定选择任一给定 大小的特定样本的概率; • 可以确定样本估计值的精确度; • 可以根据个体抽样对整群抽样、相等单位概率对不等概率、非 分层抽样对分层抽样、随机选择对系统选择、单阶段技术对多 阶段技术,这5个方面所有的可能组和分成32种不同的抽样技 术。
在概率抽样与非概率抽样间作抉择
决择考虑方面 研究的性质 抽样误差与非抽样误差的相对大小 总体的变异程度 统计上的考虑 探索性 非抽样误差较大 同质(低) 不利 有利于使用的条件 非概率抽样 概率抽样 描述性 抽样误差较大 异质(高) 有利
操作上的考虑
有利
不利
四、确定样本量
确定样本容量的方法
• 样本容量的确定通常是介于理论上的完善方案与 实际的可行方案之间的一个折中方案。
配额抽样
• 配额抽样可以被看成两阶段有约束的判断抽样
• 第一阶段,由确定总体中的个体的控制类别或者配额组 成,配额确保了样本的组成与总体的组成在特定特征方 面相同; • 第二阶段,样本个体在便利或者判断的基础上被选择出 来
• 缺点是缺乏对总体的代表性,无法计算抽样误差 • 优点是低成本,并且为每个配额选择个体对访谈 人员而言较为容易
• 抽样分布
置信区间法
• 平均数标准误或百分比标准误差的概念
• 标准误差表示实际总体值与所预期的典型样本结果的差距。 • 平均数标准误差公式
• 百分比标准误差公式
• 样本容量越大,则标准差越小;反之亦然。
用置信区间的方法计算样本容量
• 在计算样本容量时,我们要考虑三个因素:
• 可确信的总体差异性大小 • 期望精确度 • 估计总体值所需要的臵信度