第10章 抽样估计与样本量确定
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
29
10.5.1 估计精度与样本量之间的关系
总体参数 总体参数的估计值 抽样误差的范围( E)
E Z 2 S x
p Z 2 S p
2)调查回答率 100%
假定条件: 1 )放回(重复)的简单 随机抽样
但实际抽样调查中,以上假定条件可能很难都满足。如样本 可能不是重复抽样;抽样方法可能是分层抽样、系统抽样、 分群抽样,而非简单随机抽样;调查的回答率实际上很少能 达到100%
32
2、对样本量基本公式的应用考虑
1)多大抽样误差对调研目标而言是可以接受的 2)是否需要对调查总体中的子总体(域)进行估计 3)相对于调查估计值的抽样误差应该多大为宜 4)精度要求的实际含义是什么
33
精度要求与样本量
0.0693 0.0196
34
10.5.3 关于确定样本量的现实复杂考虑及计算 1、关于确定样本量的现实复杂考虑
1)总体的变异程度 2)总体大小 3)样本设计和估计量 4)调查的回答率
35
1)总体的变异程度
总体的变异程度是指总体单位特征的一致性,可用方差或标准 差来衡量。 为确定调查所需样本量,首先需要得到目标总体的研究指标变 异程度的估计值。但通常情况下变异的真值是未知的,需要从 过去相关主题的调查或试调查中得到它的估计值。 为确保达到调查要求的精度,在计算样本量时,建议对某一指 标的总体变异程度采取保守估计,例如二元变量应假设变异程 度50%-50%,p=0.5,此时方差最大。
例10-6:一个总体,含四个元素1、2、3、4,现抽取 n=2个简单随机样本。
1 2 3 4 总体均值 2 .5 N 4
i 1 i 2 x i i 1 N
x
N
总体方差 2
N
1.25
14
抽样均值及方差
15
结论
1)
E x
2
2 2) S x OR n
该银行信用卡年龄方差 2在95%置信度下的置信区间为 : 53.1604 20.6120 即, 39.75 2 102.51
36 -1 60.37 2 36 -1 60.37
结论是:在95%的置信度下,信用卡用 户年龄标准差为 6.3 ~ 10.1岁.
27
练习题
2
38
总体大小对确定样本量的影响(表10-11)
样本量随总体大小变化的趋势
样本量
500 400 300 200 100 0 50 100 500 1000 5000 10000 1E+05 1E+06 1E+07 总体大小 44 79 217 278 357 370 383
88
384
384
39
40
设某一抽样设计样本估计值的方差为 S (,同等样本 ˆ) 2 S 量的简单随机抽样设计的样本估计值的方差为 在抽 ˆ ) ( 样设计效应Deff为:
1 0
2
Deff
S (2 ˆ)
1
S
2 ˆ ) ( 0
Deff 1,简单随机抽样 效率高于简单随机抽样 Deff 1,实际采用的抽样设计 Deff 1,实际采用的抽样设计 效率低于简单随机抽样
第10章 抽样估计与样本量确定
10.1 引言 10.2 加权及权数调整 10.3 抽样分布与抽样误差 10.4 参数估计 10.5 样本量的确定
1
10.1 引言
抽样调查的目的是用样本推断总体。 确定样本权数是估计过程中一个重要组成部分。 当确定了每个样本单元的权数后,就可以将它们 应用于抽样估计,包括总体总量、均值和比例等 简单估计值的计算,抽样误差的估计。
3)样本设计和估计量
以上所讨论的抽样方法都假定的是简单随机抽样,当调查采用 了复杂的样本设计时,就应考虑实际使用抽样设计的效率,并 对计算样本量的基本公式作出调整。 通常的做法是在简单随机抽样的样本量计算公式的基础上乘以 一个设计效应因子。 设计效应(Deff)是指在给定抽样设计下估计值的抽样方差, 与相等样本量下的简单随机抽样的估计值的抽样方差之比。
30
10.5.2 假定条件下样本量的计算及其应用考虑 1、确定样本量的基本公式
1)给定总体均值估计的精度下确定样本量的公式
抽样误差范围: E Z 2 S x 重复的简单随机抽样下 样本均值的标准误差: Sx 解得样本量n : n
2 2 Z 2
n
E2
31
2)给定比例估计的精度下确定样本量的公式
3
设计权数wd
1
1 100
100
10.2.1 等概率抽样的加权(自加权设计)
入样概率
P 1
n1 20 1 N1 2000 100
入样概率 P2 N2
4
n
2
120 1 12000 100
入样概率
P3
n3 60 1 N 3 6000 100
10.2.2 不等概率抽样加权
10.2.3 权数的调整
无回答时需要对权数调整; 考虑来自其他渠道、更具权威性的某些辅助信息,合 并到权数中。 1. 对无回答的权数调整 2. 使用辅助信息调整权数 3. 事后分层 4. 比率估计
6
1. 对无回答的权数调整
无回答调整因子是原来样本单元的权数与给出回答的单元 的权数和的比值。对于自加权设计,该比值也等于原样本 单元数与给出回答的单元数的比值。
纽曼分层抽样即是一种不等概率抽样。
高收入阶层: wd ,1 N1 n1 2000 33.3 60.1
各层样本 中收入阶层: wd ,2 N2 n2 12000133.3 90.0 单元权数 低收入阶层: wd ,3 N3 n3 6000 33.3 180.2
5
课后思考与训练题 P237-238 第4、5、7题
28
10.5 样本量的确定
样本量的确定问题,首先涉及对总体参数估计值的精度要 求,同时也涉及与各种运作限制(如可获得的预算、资源 和时间)之间的平衡问题。 抽样调查估计值的精度是对抽样误差大小的度量。因此确 定样本量是为控制抽样误差,而不是非抽样误差。
2 2 1 n 非重复的简单随机抽样 下样本比例的标准误差 : S p2 1 2 2 2 Z 2
n
1
n N
抽样误差范围: E Z 2S p
n
解得样本量n :
E
Z N
n
N
n
Z 2 1 Z 2 1 E2 2 N
对于来自正态总体的简单随机样本,则(n-1)倍的样本方差与总 体方差的比值的抽样分布服从自由度为(n-1)的x2分布。
n 1s
2
2
~ 2 n 1
or
2 x x s i i 1
n
2
~ 2 n 1
总体方差在1-a置信水平下的区间估计为:
n 1s 2 2 n 1s 2 2 2 n 1 2 1- 2 n 1
Sx
n
3)若总体 X ~ N
,那么,
2
x ~ N ,
2
n
4)总体不服从正态分布,当样本量足够大时(大于 等于30),样本均值也服从正态分布。
16
10.3.2 样本比例的抽样分布及抽样误差
N0 总体比例 N n0 样本比例 n
样本容量足够大时
样本比例期望值 E p
区间估计
21
1、总体均值的区间估计
当总体标准差 未知时, 一般通过样本标准差S来 估计总体标准差
Sx S n
当总体标准差 已知 时,样本均值标准误 可以通过如下公式:
Sx n
22
例10-7
23
2、总体比例的区间估计
p Z 2 S p
S p—样本比例的标准误差
2
10.2 加权及权数调整
估计的第一步,是给每个样本单元或样本中的每个回答 赋予一个权数。 权数指每个样本单元所代表的调查总体的单元数,由抽 样设计决定,所以通常称为设计权数(即样本单元入样 概率的倒数) wd 10.2.1 等概率抽样的加权 10.2.2 不等概率抽样加权 10.2.3 权数的调整
S p 1 - n S p p1 - p n
总体比例已知时 总体比例未知时
24
例10-8
p Z 2 S p 0.65 1.96 0.651 - 0.65 400
0.65 0.047 0.603 , 0.697
25
3、总体方差的区间估计
26
举例P227
已知:n 36,1 95%, 2 0.025,1 2 0.975. 根据样本计算得: x 39.5, s 2 60.37.
2 查 2分布表得知: , 12 2 n 1 20.6120 . 2 n 1 53.16Байду номын сангаас4
19
10.4 参数估计
参数估计就是根据从样本中收集的信息对总体参数进行推 断的过程。根据中心极限定理等推断理论所阐明的抽样分 布与总体分布之间的关系,由样本统计量的具体值(估计 值)估计总体参数。 点估计 区间估计
20
点估计
用样本的估计量直接作为总体参数的估计量。 存在抽样误差。 在点估计的基础上,对总体参数的区间或范围 进行估计(样本统计量加减抽样误差),点估计 值落在该区间范围内的概率为置信度或置信系 数或置信水平。
重复抽样条件下
样本比例方差 S
2 p
1
n
17
10.3.3 正态分布及标准值Z
x 100 15 x 0 1
标 准 化
Z
x
18
P223-224例题
在一项样本量为400的抽样调查中,得知某市夏天人均冷 饮消费额50元,标准差50元,而数据直方图表明冷饮消 费量近似于正态分布。根据初步的数据分析,可以估计该 市夏天冷饮费100元以上消费者的比例。
9
例10-5
利用设计权数计算调查估计值
10
例10-5
wpst ,男性 N男性 360 6.55 nr ,男性 55 wpst ,女性 N女性 420 9.33 nr ,女性 45
11
4. 比率估计
比率估计:用一个乘数因子对各类权数进行调整,这个乘 数因子就是各类的辅助变量值与同类的样本估计值的比率。 如例10-5中,男性层的调整因子(男性数量与男性估计值 之比)即是一种乘数因子。
7
2. 使用辅助信息调整权数
原因:首先,应使调查的估计值与已知的总体总值相匹配, 非常重要;其次为了提高估计值的精度。 辅助信息还可以用来对不同子总体所对应的不同无回答率 进行修正。还可以用来调整由于抽样框涵盖误差导致的调 查总体与目标总体之间的差异所造成的影响。
8
3. 事后分层
数据收集之前,我们可能无法得到合适的分层信息(如年龄或 性别),或者抽选样本后可以得到更新、更可靠的分层信息。 在数据收集之后,可以利用收集的信息对样本进行分层,从而 对样本的权数进行调整,这就是所谓的事后分层。
抽样误差范围: E Z 2 S p 重复的简单随机抽样下 样本比例的标准误差: Sp 解得样本量n : n
2 Z 1 2
1
n
E2
如果在以往调查中可以得到总体比例的一个较好的估计, 那么直接代入公式即可。否则可以取π=0.5,因为此时总 体的方差最大。
36
2)总体大小
确定样本量的基本公式中,样本量的确定与总体没有关 系(大总体的重复抽样)。而实际抽样中总体单元数量 可能是有限的,样本抽取采取不放回的非重复抽样,此 时总体大小对样本容量的影响就不可忽视。
37
非重复抽样下的样本量计算
抽样误差范围: E Z 2 S x 非重复的简单随机抽样 下样本均值的标准误差 :S x 解得样本量n :
12
10.3 抽样分布与抽样误差
总体分布:总体各单位的观测值所形成的频数分布。 样本分布:一个样本中各个观测值形成的频数分布。 抽样分布:样本统计量的抽样分布是一种理论分布,是指 在重复抽取容量为n的样本时,由该统计量的所有可能取 值形成的相对频数分布。
13
10.3.1 样本均值的抽样分布及抽样误差