Ch2-抽样分布的应用介绍

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

将总体分为4层
样本
37
整群样本
总体被分为一些“群”,每一个都代表总体
从群中选择一个简单随机样本
可以选取所选群中所有的元素,或通过另一种概率抽样技术选择 出一个群并从中抽取元素
将总体分为 16个群。
为样本随机选取出群
38
优劣对比
简单随机样本和系统样本
易于应用 可能不能很好地表示出总体的基本特征
分层样本
确保表示了整个总体的元素
整群样本
成本效应更大 效果不好(为达到相同的精确水平需要更大的样本)
39
评价调查价值
调查的目的是什么? 调查是以概率样本为基础吗? 范围误差—适当的总体? 非回应误差—随访 测量误差—好的问题引出好的回应 抽样误差—总是存在
(其中,π = 总体比例)
26
总体比例的Z分位数
用如下公式将p标准化为Z分位数:
p Z σp
p (1 ) n
27
举例
如果支持A提议的投票人的真实比例为 π = 0.4, 容量为200的样本,其比例在0.40和0.45之间的 概率为多大?
也就是: 如果 π = 0.4,n = 200, 那么 P(0.40 ≤ p ≤ 0.45)为多少?
28
举例(续)
如果 π = 0.4,n = 200,那么 P(0.40 ≤ p ≤ 0.45)为多少?
σp
求 σp :
(1 )
n
0.4(1 0.4) 0.03464 200
转化为标准 P(0.40 p 0.45) P 0.40 0.40 Z 0.45 0.40 正态: 0.03464 0.03464
σ
(X μ)
i
2
N
2.236
A
B
C
D
x
均匀分布
6
抽样分布举例(续)
现在,考虑所有可能的大小n=2的样本
第1 个 观测值 18 20 22 24 第2个观测值 18 18,18 20,18 22,18 24,18 20 18,20 20,20 22,20 24,20 22 18,22 20,22 22,22 24,22 24 18,24 20,24 22,24 24,24
更小的样本容量
μ
16
x
若总体不是正态的
我们可以应用中心极限定理:
即使总体不是正态的,
…只要样本容量足够大,来自总体的样本均值就会近 似于正态。 抽样分布的性质:
μx μ

σ σx n
17
中心极限定理
当样本容 量足够大 时…
n↑
无论总体形状 如何,抽样分 布都服从正态 分布
x
18
56
求临界值Z
考虑置信度为95%的置信区间: 1 0.95
Z 1.96
(这里假设对无限总体进行放回抽样或不放回抽样)
σ σX n
注意,均值的标准误会随着样本容量的增加而降低。
12
若总体服从正态分布
如果总体服从均值为μ ,标准差为σ的正态分布, 那么,抽样分布的 也服从正态分布,且有 X
μX μ

σ σX n
13
均值抽样分布的Z分位数
X 抽样分布的Z分位数:
Z
( X μX ) σX
( X μ) σ n
其中:
μ = 总体均值
X = 样本均值
σ = 总体标准差
n = 样本容量
14
抽样分布的性质

μx μ
(也就是,
正态总体分布
μ
x
无偏倚 )
x
抽样分布也是正态的 (且均值相同)
μx
15
x
抽样分布的性质(续)
随n的增加,
更大的样本容量
σ x 递减
16个样本 均值
1st 2nd Observation Obs 18 20 22 24
18 18 19 20 21 20 19 20 21 22 22 20 21 22 23 24 21 22 23 24
16种可能的样本 (放回抽样)
7
抽样分布举例(续)
所有样本均值的抽样分布
16个样本均值
1st 2nd Observation Obs 18 20 22 24
将含有 N 个个体的总体划分为 k 个组:k=N/n
从第1组中随机选择一个元素 然后从每第 k 个元素中抽取
N = 64 n=8 k=8
36
第 1组
分层样本
根据某种常见特点,将总体分为两个或更多的子组(称为层)
从每个子组中选取一个简单随机样本,且样本容量与层容
量成比例 将从子组中抽出的样本合成一个
μX 21
_
P(X) .3 .2 .1 X
10
σ X 1.58
0
18 19 20 21 22 23
24
_
X
A
B
C
D
抽样分布的均值
抽样分布
均值的抽样 分布
总体比例的 抽样分布
11
均值的标准差
来自同一总体容量相同的不同样本将会有不同的样本均 值 均值的标准差是衡量不同样本间均值差异的指标:
0.4251
标准化
0.40
0.45
p
30
0
1.44
Z
抽样的原因
比普查花的时间更少
比管理普查的代价更小 比管理目标总体的普查更容易,更现实
31
所选样本的类型
非概率样本
其中所含元素与其出现的概率无关
概率样本
样本所选各元素以已知概率为基础
32
所选样本的类型(续)
样本
非概率样本
? ??
?
?
抽样
标准化
?
μ8
X
7.8
μX 8
23
8.2
x
-0.4
μz 0
0.4
Z
总体比例的抽样分布
抽样分布
均值的抽样 分布
总体比例的 抽样分布
24
总体比例
π = 具有某种特点的总体比例
样本比例( p ) 提供了一种对 π 的估计:
p X 具有所感兴趣的某种特点的样本中观测值的个数 n 样本容量
20
举例
假设一个总体的均值 μ = 8,标准差 σ = 3。假设 所选的随机样本容量 n = 36。
样本均值在 7.8 和 8.2 之间的概率为多少?
21
举例(续)
解:
即使总体部服从正态分布,也可以使用中心极限 定理(n > 30)
…因此, x 的样本分布近似正态 …其均值 μx = 8 …标准差 σ x σ 3 0.5
数据模型与决策
样本与抽样分布
徐东升
学习目标
本章中,你将学到:
抽样分布的概念 计算与样本均值和样本比例相关的概率 中心极限定理的重要性 区别不同的调查抽样方法 评价调查价值,计算调查误差
2
抽样分布
抽样分布
均值的抽样 分布
总体比例的 抽样分布
3
抽样分布
抽样分布是从总体中选出给定大小 的样本统计量的所有可能取值所组 成的分布
46
点估计和区间估计
一个点估计是一个数字, 一个置信区间给出了可变性的额外信息
置信下限
置信上限
点估计 置信区间的宽度
47
点估计
我们可以对一个总体参数进行 估计…
样本统计量(一个点估 计)
均值
总体比例
μ
π
X
p
48
置信区间
总体参数的点估计带有多少不确定性呢? 区间估计比点估计提供了更多关于总体特征的 信息
P(0 Z 1.44)
29
举例(续)
如果 π = 0.4,n = 200,那么 P(0.40 ≤ p ≤ 0.45)为多少?
应用累积标准正态分布表: P(0 ≤ Z ≤ 1.44) = P(Z ≤1.44) – P(Z < 0)
= 0.9251-0.5000 = 0.4251
抽样分布 标准正态分布
n 36
22
举例(续)
解(续):
7.8 - 8 X -μ 8.2 - 8 P(7.8 X 8.2) P 3 σ 3 36 n 36 P(-0.4 Z 0.4) 0.3108
总体分布 ? ??? ?? 抽样分布 标准正态分布 .1554 +.1554
样本均值分布
_
P(X) .3
.2 .1 0
8
18 18 19 20 21 20 19 20 21 22 22 20 21 22 23 24 21 22 23 24
18 19 20 21 22 23
24
_
X
(不再是均匀的)
抽样分布举例(续)
抽样分布的概括指标:
μX
X N
i
18 19 21 24 21 16
概率样本
判断
组集
简单随机 方便
分层
定额
系统
33
整群
概率抽样
样本各元素的选择以已知概率为基础
概率样本
简单随机 样本
系统样本
分层样本
整群样本
34
简单随机样本
总体中,每个个体或元素被选择的机会相等
选取可能是放回的或不放回的 通过随机数表或计算机随机数生成器得到样本
35
系统样本
决定样本容量:n
这样的区间估计被称为置信区间
49
置信区间估计
区间给出了数值间的距离:
考虑不同样本间样本统计量的差异
以1个样本的观测值为基础 给出了对未知总体参数接近程度的信息
用置信水平来表示
不可能达到100%可信
50
估计步骤
随机样本
总体
(均值μ 均值 X = 50
μ在40到60之 间的置信水平 为95%
43
置信区间估计
44
学习目标
本章中,你将学到:
建立并描述均值和比例的置信区间估计 如何决定样本容量大小,且样本容量对于构建 均值和比例的置信区间是必要的
45
置信区间
本章内容 总体均值 μ 的置信区间
当已知总体标准差 σ 时 当不知道总体标准差 σ 时
总体比例 π 的置信区间 确定所需样本容量
不包含的总体里
非回应误差
抽样误差 测量误差
42
随访非回应者
样本间的随机差异
坏的或主要问题
本章总结
介绍了抽样分布 描述了均值的抽样分布 正态总体 应用中心极限定理 描绘了总体比例的抽样分布 应用抽样分布计算了概率 描述了不同的样本类型和抽样技术 检验了调查价值和调查误差的类型Leabharlann Baidu
若总体不是正态的(续)
总体分布
抽样分布的性质:
居中趋势
μx μ
方差
μ
抽样分布(随n增加而更接近正态)
x
更大的样 本容量
σ σx n
更小的样本容量
μx
19
x
多大的样本容量是足够大呢?
对于大多数分布来说, n > 30 就会使抽样分布 接近于正态
对于基本对称的分布来说,n > 15
对于正态总体分布,均值的抽样分布总服于从 正态分布
0≤ p≤1 p 属于二项分布
(假设在有限总体中进行放回抽样或在无限总体中进行不放回抽样)
25
p的抽样分布
通过正态分布对其近似, 如果: P( p)

抽样分布
np 5

.3 .2 .1 0 0 .2 .4 .6 8 1
n(1 p) 5
其中
p
μp π

π(1 π ) σp n
4
抽样分布举例
假设一个总体…
总体大小 N=4 随机变量 X 表示
A B C D
每个人的年龄
X 取值:18, 20, 22, 24 (岁)
5
抽样分布举例(续)
总体分布的概括指标:
X μ N
i
P(x)
.3 .2 .1 0
18 19 20 21 22 23 24
18 20 22 24 21 4
σX
2 ( X μ ) i X
N (18 - 21)2 (19 - 21)2 (24 - 21)2 1.58 16
9
总体及抽样分布的对比
μ 21
P(X) .3 .2 .1 0
18 19 20 21 22 23 24
总体 N=4
样本均值分布 n=2
σ 2.236
40
调查误差的种类
范围误差或抽样偏差
如果某些组不包含在总体中,且没有被选择的机会,那么 就存在这种误差
非回应误差或偏差
没有回应的人可能与回应的人不同
抽样误差
样本间的差异总会存在
测量误差
问题设计的弱点,回应者误差以及采访者对回应者的影响
41
调查误差(续)
范围误差
特定的区间会或不会包含真实参数
一个特定的区间与概率无关
54
置信区间
置信 区间
总体均值
总体比例
σ已知
σ未知
55
μ的置信区间(σ已知)
假设 已知总体标准差 σ 总体服从正态分布 如果总体不是正态的,那么要使用大样本 置信区间估计:
σ XZ n
其中, X 为点估计 Z 为正态分布的临界值,在每个尾部 /2 处的概率 σ/ n 为标准差
未知)
样本
51
通用公式
求置信区间的通用公式为:
点估计 ± (临界值)(标准差)
52
置信水平
置信水平
区间中包含未知总体参数的可信度
百分比(小于100%)
53
置信水平(1-) (续)
假设,置信水平 = 95% 也可写为(1 - ) = 0.95 相对频率的解释:
最终,所建立置信区间将有95%的可能包含未知 的真实参数
相关文档
最新文档