第七章 样本设计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

17
置信区间的概念
是一个范围,其终点指定了对于一个问题的某 一应答百分率. 正态曲线的属性是,标准差的1.96倍从理论上 表示95%的分布终点,标准差的2.58倍表明了 99%的分布终点. 95%的置信区间 的置信区间=1.96个标准差 (±)均值 的置信区间 个标准差 ± 均值 99%的置信区间 的置信区间=2.58个标准差 (±)均值 的置信区间 个标准差 ± 均值 以95% 来举例说明.
18
抽样分布的概念
总体分布
总体中全部单位的频率分布,平均数为,标准差σ
样本分布
单个样本中所有单位的频率分布,具体的分布形式依赖 于总体分布.
抽样分布
一个总体中许多独立样本均值的理论分布.在大样本的 情况下,其分布近似服从于正态分布.
19
抽样分布的概念
如果样本是随机的且容量足够大,则样本均值的分布 近似于正态分布 理论基础是中心极限定理:随着样本容量的增加,从 任一总体中抽取的大量随机样本平均数的分布接近服 从正态分布.
汽车行驶的里程数.
受访者的回答可以制成图表.
7
图7.1 年驾驶里程分布阐明了差异性
如果多数回答都接近于同一个数字,而且大多数的回答 者都集中在某一小范围内,则差异性小;反之,则差异 性就大 8
图7.2 分布的伸展反映了差异性总 和
9
传统统计方法
差异性
差异性的基本概念就是指回答的相似程度.差 异性小意味着回答相当相似,差异性大表示回 答很不相似. 如果答案曲线图显示十分集中或呈"尖峰"状 态,则差异性小.如果曲线图显示受访者在各 种可能的答案选项间平均分布,则差异性大. 测量差异性的指标——标准差
3
确定概率抽样的样本容量
约定式方法
认为某一个"约定"或某一个数量就是正确的 样本容量. 样本容量是一个恒量,不受总体容量的影响, 但也是其缺点,总体容量可能少于恒量;精度 的要求也会发生变化.
4
确定概率抽样的样本容量
成本基础法
将成本作为确定样本容量的基础. 样本容量的确定不是将调查所获得的信息的价 值作为首要考虑因素,而是把预算作为考虑因 素,通常会忽视调查结果对管理决策的价值. 如何才能在不考虑成本的情况下确定样本容量?
12
正态分布的特征(根据以上图形)
1. 2.
3.
4.
正态分布呈钟形且只有一个众数 关于均值对称,集中趋势的三个衡量标准 (平均数,众数,中位数)相等 一个正态分布的特殊性由其均值和标准差决 定 正态曲线下方的面积等于1
13
5.正态曲线下方任意两个变量值之间的面积,等 于在这一范围内随机抽取一个观察对象的概 率 6.在均值的给定比例标准差范围内的概率为固定 值.即所有的正态分布在平均数+-1个标准差 之间的面积相同,都占曲线下方面积的 68.26%,或者说占全部调查总体结果的 68.26%.这叫正态分布的比例性.
e
, ∞ < x < ∞
f (x)
f(x) = 随机变量 X 的频数 = 正态随机变量X的均值 σ 2= 正态随机变量X的方差 π = 3.1415926; e = 2.71828 x = 随机变量的取值 (-∞ < x < ∞)
x
x ~ N ( ,σ 2 )
16
正态分布
标准正态分布
任何正态分布都可以转化为标准正态分布 均值等于0 标准差等于1
26
计算样本容量——比率问题
n
=
Z2 PQ
h2
保守估计可取P值为.50 保守估计可取 给定 Z 和 E, P 将得到最大可能样本 P=0.50 将会使 将会使PQ 最大
27

n
=
Z2 σ2
h2
其中: 其中 Z = 标准误差的置信水平 σ = 总体标准差 h = 允许误差(可接受误差水平) 允许误差(可接受误差水平)
24
计算样本容量——均值问题
置信水平Z和误差E的确定需要由调研人员同客 户进行磋商后确定,要在精确度,置信度和成 本之间进行衡量. 估计总体标准误差的四种方法
Sx 其均值为 ,且标准差等于: n为样本容量, σ为总体的标准差
=
σ
n
σ2
n )
x ~ N ( ,
20
平均数或百分率标准误差的概念
实际总体值与所预期的典型样本结果的差距. 实际总体值与所预期的典型样本结果的差距.
平均数标准误差,即样本均值的标准差(抽样误差). 平均数标准误差,即样本均值的标准差(抽样误差).
利用以前的结果 2. 进行试验性调查 3. 利用二手资料 4. 通过判断,把许多管理人员的判断集中起来进 行分析
1.
25
例如:估计快餐族平均每月吃快餐的平均次数: 与公司的管理者进行磋商后,市场调研经理认为有必要估计 一下吃快餐的平均次数.考虑到管理者对精确度的要求,他 规定估计值不得超过实际值的0.10.这个值将作为h带入公式. 此外,市场调研经理还认为,考虑全局,需要把实际总体平 均值在区间以内的置信度定为95%.而若要置信度为95%, 就必须是在2倍标准误差范围内(严格为1.96).因此2作为 Z值代入公式 最后确定公式中的σ值,幸好公司做过类似的调查.调查对 象是最近30天内吃快餐的平均次数.标准差为1.39,带入样 本容量的公式.经过计算,可知样本容量为722时,可以满 足提出的要求.
5
确定概率抽样的样本容量
传统统计方法
运用以下概念来创见一个有效的样本.
总体标准差的估计值 抽样误差的允许范围 抽样结果在特定范围内的预期置信度
6
传统统计方法
差异性
指受访者对某一特定问题的答案在相异性(或相似 性)方面的总括. 对于有明确答案选项的资料.
你购买可乐是否选择"可口可乐?"
区间性资料,具有多种选项的资料
14
正态分布重要的原因
许多变量的概率分布趋于正态分布.爱吃快餐 的人平均每月吃快餐的次数,每星期看电视的 小时数,男性身高的分布等. 中心极限定理—对于任何总体,不论其分布如 中心极限定理 何,随着样本容量的增加,抽样平均数的分布 趋近于正态分布
15
正态分布
f (x) = 1 2πσ
2 1 2 ( x )2 2σ
1 Sx = = n CN n
σ
( xi X )2 ∑
i =1
n CN
由于总体标准差σ是未知的,一般由样本标准差s代替. 例如:驾驶里程调查中,样本容量n是100名驾驶者,标 准差是3000公里,则平均数标准误差=300.
21
平均数或百分率标准误差的概念
标准误差还适用于研究百分率的调查,称之为百分率标 百分率标 准误差. 准误差. n
Sx =
pq 1 = n n CN
( pi P)2 ∑
i =1
CN
Sp百分率标准误差;p为样本中的百分率;q=1-p; n 为样本容量. 例:假设抽选中的100名驾驶者中有40%的人表示其汽车上 配有辐射状轮胎.则标准误差为:=4.899
22
计算样本容量——均值问题
∵ x ~ N ( , x
σ
第七章 样本设计
——样本容量的确定
1
确定概率抽样的样本容量
样本容量不能决定代表性,但可影响结果的精度. 样本的精度
样本的统计量(如对一特定问题回答的平均数)与其所 代表的总体的值的接近程度. 大样本比小样本更精确,但是没有成倍的关系.
财务和统计问题
一般原则: 样本越大,抽样误差越小 样本大,耗费的成本也高 抽样成本随样本容量直线递增,抽样误差却只是以样本 量增长速度的平方根递减
( x i - x )2 ∑ 标准差=
i=1 n
n 1
10
如何运用标准差来测定差异性呢?
将两个样本的标准差进行比较,以判定相关的差异 性.
11
传统统计方法
比较两个图形,可以得出结论: 在1955年汽车拥有者的驾驶里程较少(平均),而且 差异性也不大(标淮差),但现在的车主们年平均驾 驶里程较多,差异性也较大.
2
确定概率抽样的样本容量
样本容量的确定通常是介于理论上的完善方案与 实际上可行方案之间的一个折中方案
教条式方法
以"经验性"为幌子,认为样本容量应该是"为 保证精度,一般至少应该是总体的5%" 例如关于鞋子的调查:1万名铁人三项运动员;耐 克对"飞人乔丹"进行调查,200万名潜在的篮 球鞋购买者 简单易行,但不是一种高效率,经济的方法,教 条式方法忽略了抽样的精确度问题.
n
2
)

σ
x n
~ N (0 ,1)
即 p{
σ
≤ Z} = 1α
n 则 的 置 信 度 为1 α 的 置 信 区 间 为 : {x Z σ n , x + Z σ n } 令 h=Z σ n
Z2 σ h为 可 接 受 的 误 差 水 平 , 则 n= h2
ຫໍສະໝຸດ Baidu23
计算样本容量——均值问题
在简单随机抽样的条件下,样本容量为
相关文档
最新文档