抽样调查-Ch4 分层抽样-1-029

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

. Solution (Continued) . ¯ yst 与 ¯ y 的比较 ¯ y = (15180 × 300 + 9856 × 250)/(300 + 250) = 12760, ¯ yst = 10585.39.
.
判断哪个估计更合理? 为什么?
15 / 18
4.1 分层随机抽样及实施方法 4.2 简单估计及其性质
2 / 18
4.1 分层随机抽样及实施方法 4.2 简单估计及其性质
4.1.1 定义与实施方法 4.1.2 特点
4.1 分层随机抽样及实施方法
背景 简单随机抽样是最基本的抽样手段, 在一些小型的抽样调查 (总体容量N 较小) 中被人们采纳. 当总体容量 N 较大时, 不 便采用简单随机抽样方法. 这时, 分层抽样将起到作用. 定义 将总体按一定的原则分成若干互不重叠且穷尽的子总体, 每 个子总体称为层 (stratum), 在每个层内进行抽样, 不同层的 抽样相对独立, 称为分层抽样(stratified sampling). 若每层中的抽样都是按简单随机抽样进行的, 称为分层随机 抽样.
W1 = N1 /N = 0.137, W2 = N2 /N = 0.863. . ¯ yst y2 = 0.137 × 15180 + 0.863 × 9856 = 10585.39. y1 + W 2 ¯ = W1¯
13 / 18
4.1 分层随机抽样及实施方法 4.2 简单估计及其性质
4.2.1 参数估计 4.2.2 估计的性质 4.2.3 例题
若实际调查了 18 个工人, 10 个技术人员, 2 个行政人员, 其损失的工时 数如下: 工人 8,24,0,0,16,32,6,0,16 7,4,4,9,5,8,18,2,0 技术人员 4,5,0,24,8, 12,3,2,1,8 行政管理人员 1,8
试估计总的工时损失数 , 并给出它的置信度为 95% 的置信区间. .
3 / 18
4.1 分层随机抽样及实施方法 4.2 简单估计及其性质
4.1.1 定义与实施方法 4.1.2 特点
抽样示意图
4 / 18
4.1 分层随机抽样及实施方法 4.2 简单估计及其性质
4.1.1 定义与实施方法 4.1.2 特点
实施方法
编制层的抽样框 - 按单元的某个特征或标识进行
若调查对象是人, 可按性别、年龄、职业、婚姻状况、文化 程度等因素分层; 若调查对象是企事业单位, 可按部门、行业、所有制性质、 规模大小等因素分层.
所有单元均按某个标识分成所属的层. 在社会经济统计中, 分层抽样也称为类型抽样.
5 / 18
4.1 分层随机抽样及实施方法 4.2 简单估计及其性质
4.1.1 定义与实施方法 4.1.2 特点
分层抽样的特点
由于分层抽样是在各层中进行的, 因此各层样本除汇总后可 用于总体参数估计外, 还可用来对层的参数进行估计. 例如, 调查全国的消费物价指数, 同时想知道各省市的消费 物价指数, 根据这种要求自然以全国所有省市作为层来进行 抽样. 抽样的实施灵活方便, 便于组织. 与简单随机样本相比, 分层样本在总体中的分布一般更为均 匀. ⋆ 与简单随机样本相比, 分层抽样一般能大大提高调查的精 度.(待续)
11 / 18
4.1 分层随机抽样及实施方法 4.2 简单估计及其性质
4.2.1 参数估计 4.2.2 估计的性质 4.2.3 例题
. 性质 3: 方差的无偏估计 .
L L ∑ Wh2 sh2 ∑ Wh sh2 v(¯ yst ) = − nh N h=1 h=1
是 yst ) 的无偏估计. . Var(¯ . 性质 4: 总体均值的置信区间 . √ √ α ¯ Y 的水平 95% 的置信区间为[¯ yst − u α v (¯ y ) , y + u v(¯ yst )]. st st 2 2 . . Exercise . 写出在分层随机抽样下, 总体总和与总体比例的无偏估计, 估计 的方差, 方差的无偏估计, 置信水平 95% 的置信区间. .
h=1 h=1
=
L ∑ h=1
fh 2 Wh2 1− nh Sh = Wh 2 Sh 2 nh Wh 2 Sh 2 nh L ∑ h=1 L ∑ h=1
L ∑ h=1
1 Wh2 ( n − h
2 1 Nh )Sh
=
L ∑ h=1
− −
Wh 2 Sh 2 Nh Wh Sh 2 N .
= .
L ∑ h=1
h=1 h=1 h=1.来自10 / 184.1 分层随机抽样及实施方法 4.2 简单估计及其性质
4.2.1 参数估计 4.2.2 估计的性质 4.2.3 例题
. 性质 2: 估计量的方差 . L L L L ∑ ∑ ∑ ∑ Wh 2 Sh 2 Wh 2 Sh 2 Wh 2 Sh 2 Wh Sh 2 Var(¯ yst ) = − = − nh Nh nh N . h=1 h=1 h=1 h=1 . . Proof. . L L ∑ ∑ Wh ¯ yh ) = Wh2 Var(¯ yh ) Var(¯ yst ) = Var(
4 ∑ Wh 2 ph qh nh
h=1 0.2812 ×0.083×0.917 400
+
0.3222 ×0.174×0.826 650
+
0.2132 ×0.310×0.690 600
+ s . (pst ) = √
0.1842 ×0.464×0.536 350
= 0.00007818.
v(pst ) ≈ 0.00884.
18 / 18
4.1 分层随机抽样及实施方法 4.2 简单估计及其性质
. .
抽样调查
罗季
数学与统计学院 浙江财经大学
2014-2015 (2)
1 / 18
4.1 分层随机抽样及实施方法 4.2 简单估计及其性质
第 4 章 分层随机抽样 (1)
. 1 . 2
4.1 分层随机抽样及实施方法 4.2 简单估计及其性质
4.2.1 参数估计 4.2.2 估计的性质 4.2.3 例题
总体参数估计
2
. 总体总和的估计 Y = N¯ yst =
L ∑ h=1
Nh¯ yh .
3
. 总体比例的估计 ˆ=p = P st 其中, ph =
L ∑ h=1 ♯{第h层样本中具有某特征的单元} , nh
W h ph ,
h = 1, . . . , L.
1 nh − 1
nh ∑ i=1
yhi
¯ h )2 (Yhi − Y
nh ∑
i=1
(yhi − ¯ yh )2
其中, 总体分为L 层, 以 h 表示层的编号, h = 1, . . . , L.
7 / 18
4.1 分层随机抽样及实施方法 4.2 简单估计及其性质
4.2.1 参数估计 4.2.2 估计的性质 4.2.3 例题
. Solution (Continued) .
L L ∑ Wh2 sh2 ∑ Wh sh2 v(¯ yst ) = − nh N h=1 h=1 [ ] 0.1372 × 39722 0.8632 × 25462 + = 300 250 2 0.137 × 3972 + 0.863 × 25462 − 171980 = 987.05 + 19310.72 − 45.10
6 / 18
4.1 分层随机抽样及实施方法 4.2 简单估计及其性质
4.2.1 参数估计 4.2.2 估计的性质 4.2.3 例题
4.2 简单估计及其性质
符号说明
总 体 L ∑ N= Nh (known)
h=1
容量 层权 均值 总量 方差
容量 抽样比 均值 总量 方差
样 本 L ∑ n= nh
h=1
年龄组 h 14-25 岁 26-40 岁 41-60 岁 61 岁以上 .
层权 Wh 0.281 0.322 0.213 0.184
层样本量 nh 400 650 600 350
层样本比例 ph 0.083 0.174 0.310 0.464
qh 0.917 0.826 0.690 0.536
16 / 18
4.2.1 参数估计 4.2.2 估计的性质 4.2.3 例题
. Example (例 4.2) . 为调查某个高血压发病地区青少年与成年人高血压的患病率, 对 14 岁以上人群分 4 个年龄组进行分层随机抽样, 调查结果如表 4.1. 求总体高血压患病率 P 的估计及其标准差的估计.
Table : 4.1 高血压患病率调查数据
总体参数估计
1
. 总体均值的估计 Y =
N L Nh L L ∑ 1∑ 1 ∑∑ 1∑ Yi = Yhi = N h Yh = Wh Y h . N N N i=1 L ∑ h=1 h=1 i=1 L ∑ h=1
8 / 18
h=1
h=1
Y =
Wh Y h =
Wh ¯ yh
¯ yst .
4.1 分层随机抽样及实施方法 4.2 简单估计及其性质
12 / 18
4.1 分层随机抽样及实施方法 4.2 简单估计及其性质
4.2.1 参数估计 4.2.2 估计的性质 4.2.3 例题
. Example (例 4.1) . 某市进行家庭收入调查, 分城镇居民和农村居民两部分抽样. 在 全部城镇 23560 户中抽取 300 户, 在全部农村 148420 户中抽取 250 户, 抽样均按简单随机抽样进行. 调查结果是城镇年平均户 收入为 15180 元, 标准差为 3972 元; 农村年平均收入为 9856 元, 标准差为 2546 元. 求全市年户均收入的估计及其 90% 置信区间. . . Solution . N1 = 23560, N2 = 148420, N = N1 + N2 = 171980.
= 20252.67 全市年户均收入 90% 的置信区间为 [¯ y ±u α 2 . st √ √ v(¯ yst )] = [10585.39±1.645× 20252.67] = [10351, 10819].
14 / 18
4.1 分层随机抽样及实施方法 4.2 简单估计及其性质
4.2.1 参数估计 4.2.2 估计的性质 4.2.3 例题
Wh = Nh /N (known) Nh ¯ h = 1 ∑ Yh Y i Nh
i=1
fh = nh /Nh nh ∑ 1 ¯ yh = n yhi h
i=1
˜ h = Nh Y ¯h = Y S2 h =
1 Nh −1 Nh ∑ i=1
Nh ∑ i=1
Yhi
˜ yh = nh ¯ yh = s2 h =
4.1 分层随机抽样及实施方法 4.2 简单估计及其性质
4.2.1 参数估计 4.2.2 估计的性质 4.2.3 例题
. Solution . pst =
4 ∑ h=1
W h ph
= 0.281 × 0.083 + 0.322 × 0.174 + 0.213 × 0.310 + 0.184 × 0.464 = 23.08%. 令 1 − fh ≈ 1, nh − 1 ≈ nh , 则 v(pst ) ≈ =
9 / 18
4.1 分层随机抽样及实施方法 4.2 简单估计及其性质
4.2.1 参数估计 4.2.2 估计的性质 4.2.3 例题
估计的性质
. 性质 1: 无偏性 . ¯ y yst = Y. . st 是总体均值 Y 的无偏估计, 即 E ¯ . Proof. . L L L ∑ ∑ ∑ Wh ¯ yh ] = Wh E[¯ yh ] = Wh Y h = Y E¯ yst = E[
17 / 18
4.1 分层随机抽样及实施方法 4.2 简单估计及其性质
4.2.1 参数估计 4.2.2 估计的性质 4.2.3 例题
. 作业 . 一公司希望估计某个月内由于事故引起的工时损失. 因工人、技术人员 及行政管理人员的事故率不同, 因而采用分层抽样. 已知资料如下: 工人 人数 方差 132 36 技术人员 92 25 行政管理人员 27 9
相关文档
最新文档