第四章 分层抽样.ppt

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
N
总体均值的估计量是:
y prop
L nh nh 1 nh Wh yh yh yhi h 1 h 1 n h 1 n nh i 1 L L
1 L nh 1 n yhi yi y n h 1 i 1 n i 1
第三节
样本量的分配
LOGO
y prop 的方差为:
第一节
抽样方式
LOGO
二、分层抽样的特点及作用
• 分层抽样可以提高参数估计的精度。 • 分层抽样不仅能对总体参数进行估计,而且能对各层(子 总体)参数进行估计。 • 便于依托行政管理机构进行组织和实施,同时还可以根据 各层的不同特点采用不同的抽样方式。 • 分层抽样样本在总体中分布更加均匀。
第一节
• 了解分层抽样其他有关理论问题。
第一节
抽样方式
LOGO
一、分层抽样与分层随机抽样 中国共产党第十八次代表大会
代表总人数:2 270人 单位总数:40个 分别是:1─31为省(自治区、直辖市)、32中央直 属机关、33中央国家机关、34全国台联、35解放 军、36武警部队、37中央金融系统、38中央企业 系统、39中央香港工委、40中央澳门工委.
L L


第二节
简单估计量及性质
LOGO
【例4.1】为调查某地区住户的平均家庭成员数,将该地区 分成城市和乡村2层,每层按简单随机抽样抽取10户,调查 所获得的数据如表4-1(见课本)。请估计该地区住户的平 均家庭成员数及其95%的置信区间。
解:
yst Nh yh 3.733
2 s v(yst ) Wh 2 (1 f h ) h 0.06708 h 1 nh L
p3q3 pq v p3 1 f3 0.0263, v p4 1 f 4 4 4 0.0099 n3 1 n4 1
因此,该地区居民拥有家庭电脑比例的估计为:
1 4 pst Wh ph N h ph N h 1 h 1 1 200 0.2 400 0.2 750 0.4 1500 0.1 2850 0.2
p prop 的方差为: V p prop 1 f Nn
W P Q
h 1 h h
L
h
第三节
样本量的分配
LOGO
二、最优分配
(一)最优分配 在分层随机抽样中, ① 在总费用给定的条件下,估计量的方差达到最小; ② 在给定估计量方差的条件下,使总费用最小 能满足这个条件的样本量分配就是最优分配。
三、总体比例的估计
• 分层随机抽样, pst 是 P 的无偏估计。
N h nh PhQh V ph N h 1 nh 当 N h 1 N h 时,pst 的方差为:
L
2 L N 1 h N h nh P 2 h Qh V pst Wh V ph 2 N h1 Nh 1 nh h1 2 L L PQ 1 N h N h nh Ph Qh Wh2 1 f h h h 2 nh Nh nh h 1 h 1 N
V pst 的一个无偏估计为:
1 v pst Wh2v ph 2 N h 1
L
2 1 f h s 2 L 2 Nh p h qh W 1 f h h h nh 1 n h 1 h 1 h L
第二节
简单估计量及性质
LOGO
【例 4.2】对某地区的居民拥有家庭电脑的情况进行调查, 以居民户为抽样单元,根据收入水平将居民户划分为四层, 每层按简单随机抽样抽取10户,调查获得如下数据(单位: 台),如表 4-3 (见课本)。估计该地区居民拥有家庭电脑 的比例及抽样标准误。
第一节
抽样方式
LOGO
四、符号说明
设总体分为L层,下标h表示层号(h=1,2,…,L)。关于第h 层的记号如下: 第h层总体单元数:Nh (通常已知),且
n 第h层样本单元数: ,且 h
Nh 层权: W h N
第h层抽样比:
n
h 1
l
N
h 1
l
h
N
h
n
yhi 第h层总体和样本第i个单元标志值(观察值): Y h i
ˆ 的方差为: • 分层随机抽样, Y
ˆ 的一个无偏估计为: VY
2 1 fh 2 ˆ v Y N v y h N h sh nh h 1 h 1 L 2 h L

ˆ N 2V y N 2 1 f h S 2 V Y h h h h n h1 h 1 h
抽样方式
LOGO
三、层的划分原则
• 层内单元具有相同性质,通常按调查对象的不同类型进行 划分。 • 尽可能使层内单元的标志值相近,层间单元的差异尽可能 大,从而达到提高抽样估计精度的目的。
• 既按类型又按层内单元标志值相近的原则进行多重分层, 同时达到实现估计类值以及提高估计精度的目的。
• 为了抽样组织实施的方便,通常按行政管理机构设置进行 分层。
(一)简单估计量的含义 (二)估计量的性质 • 一般的分层抽样,如果 ph 是 Ph 的无偏估计,则pst 是 P 的 pst 的方差为: 无偏估计。
V pst Wh2V ph
h 1 L
总体比例P的估计为: pst Wh ph
h 1
L
第二节
简单估计量及性质
LOGO
第二节
解:
简单估计量及性质
LOGO
各层比例分别为: p1 0.2, p2 0.2, p3 0.4, p4 0.1 估计量方差的样本估计分别为:
v p1 1 f1 p1q1 pq 0.0169, v p2 1 f 2 2 2 0.0173 n1 1 n2 1
抽样标准误为: s pst v pst 0.07
第三节
样本量的分配
LOGO
一、比例分配
比例分配指的是按各层单元数占总体单元数的比例,也就是 按各层的层权进行分配,即: nh N h n n Wh 或 f h h f n N Nh N N 这时:nh n h =n Wh
代表的选举原则:按各选举单位的党组织数、党 员人数进行分配
第一节
抽样方式
LOGO
• 在抽样之前,先将总体 N 个单元划分成 L 个互不重复的 子总体,每个子总体称为层;大小分别为 N1,N2,….NL, L 这 L 个层构成整个总体( N N h)。
h 1
在每个层中分别独立地进行抽样,这种抽样就是分层抽样 (stratification),所得到的样本称为分层样本。 如果每层都是简单随机抽样,则称为分层随机抽样,所得 到的样本称为分层随机样本。
L
n
h
N h Sh
N S
h 1 h
L
, h 1, 2, , L
h
V y st 达到最小。 这时,
Vmin y st

1 1 L Wh Sh Wh Sh 2 n h 1 N h 1
L
2
第三节
样本量的分配
LOGO
【例 4.3】对某地区的居民豆制品年消费支出进行调查,以 居民户为抽样单元,根据收入水平将居民户划分为四层,每 层按简单随机抽样抽取10户,调查获得如下数据(单位:元 ),如表 4-4 (见课本)。样本量为 n=40 ,则按比例分配和 Neyman分配时,各层的样本量应为多少?
第三节
样本量的分配
LOGO
简单线性费用函数,总费用:
C c0 ch nh
h 1
L
Wh Sh N h Sh Ch ch nh , h 1, 2,, L 最优分配是: n L W S L N h Sh h h ch ch h 1 h 1
估计量的方差为:
Vopt y st
4
第二节
简单估计量及性质
LOGO
估计量的方差为:
1 4 2 v pst 2 N h v ph N h 1 1 2 2 2 2 200 0.0169 400 0.0173 750 0.0263 1500 0.0099 2 2850 0.005

st
L h 1

h 1
h

h
L
y st 的方差为: • 分层随机抽样,y st 是 Y 的无偏估计,
V yst W V yh Wh2
2 h h 1
1 fh 2 Sh nh
2 h L h 1
V y st 的一个无偏估计为:v yst W v yh Wh2
h 1
L
1 fh 2 sh nh
第二节
简单估计量及性质
LOGO
二、总体总值的估计
(一)简单估计量的定义 总体总值 Y 的估计为:
ˆ ˆ NY ˆ Y Y st h
h 1
L
如果得到的是分层随机样本,则总体总值的简单估计为:
ˆ Ny Y st
第二节
简单估计量及性质
LOGO
(二)估计量的性质
第四章 分层抽样
本章要点
LOGO
本章主要对分层抽样理论包括抽样方式、估计量及其性 质、样本量的确定及分配、分层抽样设计效果等进行了系统 全面地介绍。具体要求: • 正确理解层、分层抽样以及分层随机抽样的涵义,分层抽 样的特点及作用; • 掌握分层抽样的估计量及其性质; • 掌握分层抽样样本量的确定方法; • 了解分层抽样的设计效果;
ˆ 是 的无偏估计,则 ˆ 是Y 的无 • 一般的分层抽样,如果Y Y Y st ˆ 的方差为: 偏估计。 Y
ˆ ˆ N V Y V Y st
2
2 L 2 h


ˆ V Y
L h 1 h
L h 1
ˆ N W V Y h
h 1

N
2 h
ˆ V Y h

• 特别的,分层随机抽样,总体均值Y 的简单估计为:
1 L yst Wh yh Nh yh N h1 h 1
L
第二节
简单估计量及性质
LOGO
(二)估计量的性质
ˆ 是 的无偏估计(h=1,2,…,L), • 一般的分层抽样,如果 Y Yh h ˆ 是 Y 的无偏估计。ˆ 的方差为: 则Y Yst st L ˆ ˆ V Y W 2V Y
nh fh Nh
第一节
抽样方式
1 Yh Nh
LOGO
第h层总体均值:
Y 第h层样本均值:
i 1 hi
Nh
1 yh nh
y
i 1
nh
hi
第h层总体总值: Yh N hYh Yhi
i 1
Nh
第h层样本总值: yh nh yh yhi
i 1
Nh 2 1 第h层总体方差: S h2 Y Y hi h N h 1 i 1

W S
h 1 h
L
h
/ Ch
n
W S
h 1 h
L
h
1 L Ch Wh Sh 2 N h 1
第三节
样本量的分配
LOGO
(二)Neyman(尼曼)分配 对于分层随机样本,作为特例,如果每层抽样的费用相同, 即 ch c 时,最优分配可简化为:
nh n Wh Sh
W S
h 1 h
2
h 1
v(yst ) 0.259
95%的置信区间为 yst t0.025 . v( yst ) ,其中 t0.025 1.96
经 计 算 可 得 : 平 均 家 庭 成 员 数 的 95% 的 置 信 区 间 为 :
(3.24,4.24)。
第二节
简单估计量及性质
LOGO
三、总体比例的估计
V y prop W V y h Wh
h 1 2 h h 1


L

L
nh 1 f h 2 Sh n nh
1 f n
2 W S h h h 1
L
总体比例P的估计量是: p prop
1 L p ah n h 1
2 Nh PhQh 1 f n h 1 N h 1 L
nh
nh 1 2 第h层样本方差: sh2 y y hi h nh 1 i 1
Βιβλιοθήκη Baidu二节
简单估计量及性质
LOGO
一、总体均值的估计
(一)简单估计量的定义 • 一般的分层抽样,对总体均值Y 的估计是通过对各层Yh 的 估计,按层权 Wh 加权平均得到的。公式为:
L 1 ˆ WY ˆ ˆ Y N Y st h h h h N h 1 h 1 L
相关文档
最新文档