第三章分层随机抽样

合集下载

第三章 分层随机抽样

第三章 分层随机抽样

第三章分层随机抽样概述简单估计及其性质各层样本量的分配样本总量的确定分层随机抽样效果分析第一节概述一、特点¾分层抽样不仅可估计总体参数,还可估计层的参数¾实施方便,便于组织¾分层样本比简单随机样本在总体中分布更均匀¾分层抽样能较大地提高调查地精度二、符号¾总体分为L 层,h 表示层的编号¾第h 层单位总数:N h ¾样本单位数:n h¾层权:抽样比:¾第h 层子总体第i 个单位标志值:Y hi¾第h 层样本中第i 个单位标志值:y hiNN W h h =hhh N n f =¾总体均值:¾样本均值:¾总体方差:¾样本方差:∑==hNihihhYNY11∑==hnihihyny11()∑=−−=hNihhihhYYNS12 211()∑=−−=hnihhihhyyns12 211第二节简单估计量及其性质一、对总体均值或总量的估计hLh h h L h h st Lh h st sth Lh h Lh h h st y N y W N Y N Y Y y y W Y W Y ∑∑∑∑∑============11111ˆˆˆˆˆstststst Y YE Y y E ==)ˆ()(∑∑∑===−==Lh hh Lh h hh h L h hst N SW n S W y V W y V 1212212)()(样本方差s 2∑∑==−=Lh hh Lh h hh st N sW n s W y v 12122)(hhh h h st st st n S n N N y V N Y V N Y V 222)()()ˆ()ˆ(−===∑hhh h h st n s n N N Y v 2)()ˆ(−=∑())(,)(st st st sty v u y y v u yαα+−例:某市进行家庭收入调查,分城镇居民及农村居民两部分抽样,在全部城镇23560户中抽取300户,在全部农村148420户中抽取250户(均按简单随机抽样进行),调查结果城镇年平均户收入为15180元,标准差为2972元;农村年平均户收入为9856元,标准差为2546元。

讲稿3-分层抽样

讲稿3-分层抽样
10 750
1 n1
y 1
i 1
n1
1i
y 1 1 6 2 4 .7 2 2
2
s 2 2 1 6 6 .6 6 7
2
400 2850
0 .1 4 0 3 5
0 .0 2 5
y2 105
W3
N3 N

0 .2 6 3 1 6
f3
0 .0 1 3 3
y3 165
h 1
L
N h N h n h Ph Q h
2
Nh 1
nh



h 1
L h 1
1 N
2 h
N
2
N h
N
h
n h Ph Q h nh
W 1
fh
Ph Q h nh
2013-6-21
22
V 性质9:对于分层随机抽样, p 的一个无偏估计为:
st
v p st

ˆ E Yh Yh


ˆ V Y st

估计量的方差
L ˆ V W hYh h 1

h 1
L
ˆ 2 W h V Yh 2

L

L
ˆ ˆ W h W k Cov Y h , Y k


h 1 k h
由于各层是独立抽取的,因此上式第二项中的协方差全 L 为0,从而有 ˆ ˆ 2 V Y st W h V Y h
24
解:由上表可得,
h
p 4 0 .1
p 3 0 .4
p 2 0 .2
p 1 0 .2

分层随机抽样的原理和应用

分层随机抽样的原理和应用

分层随机抽样的原理和应用1. 简介分层随机抽样是一种常用的抽样方法,它通过将总体划分为不同的层级,然后在每个层级中进行随机抽样,从而得到具有代表性的样本集合。

这种抽样方法可以有效减小抽样误差,提高样本的代表性,广泛应用于统计调查、市场调研、社会调查等领域。

2. 原理分层随机抽样的原理是将总体划分为若干个层级,使得同一层级内的个体相对相似,而不同层级之间的个体有一定差异。

在抽样时,首先从每个层级中随机选择一部分个体作为样本,然后合并这些样本得到最终的抽样结果。

分层随机抽样的具体步骤如下: 1. 将总体划分为若干个层级,可以按照地域、年龄、性别、收入等因素进行划分。

2. 确定每个层级的样本大小,样本大小可以根据层级的重要性和总体特征进行确定。

3. 在每个层级中进行随机抽样,可以使用随机数表、计算机程序或抽奖方式进行抽样。

4. 将每个层级的样本合并,得到最终的样本集合。

3. 应用分层随机抽样在各个领域都有广泛的应用。

以下是一些应用示例:3.1 统计调查在进行统计调查时,人们通常希望从总体中抽取一部分样本,然后通过分析样本数据来推断总体的特征。

分层随机抽样可以保证样本的代表性,使得样本数据能够准确反映总体特征。

例如,政府机关在进行人口普查时,通常会将人口按照地域、年龄等因素进行划分,然后在每个层级中进行抽样调查。

3.2 市场调研在市场调研中,分层随机抽样可以帮助企业了解目标消费群体的特征和需求,从而制定相应的市场营销策略。

例如,一家公司想要了解某个地区不同年龄段消费者对某种产品的喜好程度,可以将该地区的消费者按照年龄划分为不同层级,然后在每个层级中进行抽样调研。

3.3 社会调查在社会调查中,分层随机抽样可以用来收集广泛的意见和观点,了解不同群体的态度和看法。

例如,一项社会调查想调查不同职业人群对某个社会问题的看法,可以将人群按照职业划分为不同层级,然后在每个层级中进行抽样调查。

4. 优缺点分层随机抽样的优点在于: - 提高样本的代表性,可以准确反映总体特征; -减小抽样误差,提高样本数据的可靠性; - 适用性广泛,可以应用于各种不同的调查和研究。

统计学 第三章抽样与抽样分布

统计学 第三章抽样与抽样分布

=10
= 50 X
总体分布
n= 4
x 5
n =16
x 2.5
x 50
X
抽样分布
从非正态总体中抽样
结论:
从非正态中体中抽样,所形成 的抽样分布最终也是趋近于正态分 布的。只是样本容量需要更大些。
总结:中心极限定理
设从均值为,方差为 2的一个任意总体中抽 取容量为n的样本,当n充分大时(超过30),样本 均值的抽样分布近似服从均值为μ、方差为σ2/n的
总体
样本
参数
统计量
总体与样本的指标表示法
总体参数
样本统计量
(Parameter) (Sample Statistic)
容量 平均数 比例 方差 标准差
N
n
X
x
p
2
s2
s
小练习
某药品制造商感兴趣的是用该公司开发的某 种新药能控制高血压人群血压的比例。进行了一 项包含5000个高血压病人个体的研究。他发现用 这种药后80%的个体,他们的高血压能够被控制。 假定这5000个个体在高血压人群中具有代表性的 话,回答下列问题: 1、总体是什么? 2、样本是什么? 3、识别所关心的参数 4、识别此统计量并给出它的值 5、我们知道这个参数的值么?
正态分布
一个任意分 布的总体
x
n
当样本容量足够 大时(n 30) , 样本均值的抽样 分布逐渐趋于正 态分布
x
X
总体分布
正态分布
非正态分布
大样本 小样本 大样本 小样本
正态分布
正态分布
非正态分布
三 中心极限定理的应用
中心极限定理(Central Limit theorem) 不论总体服从何种分布,从中抽取

初级1 -第三章简单随机抽样

初级1 -第三章简单随机抽样
n
n
n 1 N 1 n N
n 1 N 1
二、实施方法 • 抽签 制作N个同质的签,充分混合。从中一次抽出n个签, 或者先抽出一个签但不放回,再抽下一个签直到抽 满n个签为止。抽出的这n个签对应的单元入选样本, 这是不放回简单随机抽样;若从充分混合的N个签 中抽取一个,记录后放回,再抽取下一个,如此进 行,直到抽满n个为止,则是放回简单随机抽样。 抽签法的实施起来比较麻烦,尤其是当总体单元数 N较大时,所以该方法的使用场合为当总体单元数 N比较小,签的制作比较方便时。
第三章 简单随机抽样

第一节
基本问题
一、什么是简单随机抽样
从 N个单元的总体中抽取 n个单元组成的样本。总体单元数为 N,
样本量为 n。 若抽样是放回的,每次都是从 个总体单元中随机抽取1个单元,独 立重复抽取n次,得到 个单元组成的样本,叫做放回简单随机抽样。 若抽样是不放回的,每次都是从剩下的总体单元中随机抽取1个单 元,相继依次抽取n次,得到n个单元组成的样本,叫做不放回简单 随机抽样。
精度margin of error
对精度的要求通常以允许最大绝对误差
差限)或允许最大相对误差 (相对误差限)来表 示。
r
d(绝对误
d 1 P
P r 1


样本量足够大时,可用正态分布近似
ˆ tS ˆ d t V
2
第三章 基本概念
N n N 1
N n N
为 修正系数
2
为 S 修正系数
n f ,称抽样比, N
2

N n 1 f 有限总体调整系数 故, N 2
S V ( y ) (1 f ) n

抽样技术课件 第三章(分层抽样)

抽样技术课件 第三章(分层抽样)

估计量方差的证明
在一般分层抽样下
L L L L ˆ V W Y ˆ W 2V Y ˆ 2 ˆ ,Y ˆ VY W W Cov Y st h h h h h k h k h 1 k h h1 h1 L ˆ ˆ V Y W 2V Y


L 2 h L L 2 h
1 2 N
2 L Nh ( N h nh ) PhQh PhQh 2 Wh (1 f h ) Nh nh nh h 1 h 1
性质二的证明:
ph qh v( pst ) W v( ph ) W (1 f h ) nh 1 h 1 h 1
ˆ 2 2 1 fh 2 V (Yst ) V ( yst ) Wh V ( yh ) Wh Sh nh h 1 h 1
L L
1 fh 2 v( yst ) W v( yh ) W sh nh h 1 h 1
L 2 h L 2 h
无偏性的证明
在一般分层抽样下
ˆ Y EY h h
30
200
25
180
10
300
30
220
25
N1 200 N 2850 W1 0.07018 N 2850 n1 10 f1 0.05 nh 10 N1 200 n1 n1 1 2 2 1 y1i y1 1624.722 y1 y1i 39.5 s1 n1 1 i 1 n i 1
L L ˆ E W Y ˆ W EY ˆ EY st h h h h h1 h1
L



1 L 1 L Y WhYh N hYh Yh Y N h1 N h1 N h 1

分层随机抽样概论(PPT 50张)

分层随机抽样概论(PPT 50张)
4
2019/2/15
例题


例如,对全国范围汽车运输的抽样调查,调查目的不 仅要推算全国货运汽车完成的运量,还要推算不同经 济成分(国有、集体、个体)汽车完成的运量。 为组织的方便,首先将货运汽车总体按省分层,由 各省运输管理部门负责省内的调查工作。 各省再将省内拥有的汽车按经济成分分层。 为提高抽样效率,再对汽车按吨位分层。 例如,某高校对学生在宿舍使用电脑的情况进行调查, 根据经验,本科生和研究生拥有电脑的状况差异较大。 因此,在抽样前对学生按本科生和研究生进行分层 是有必要的。
st
W 2 VY VY h h s t
h 1

L


只要对各层估计无偏,则总体估计也无偏。

各层可以采用不同的抽样方法,只要相应的估计量 是无偏的,则对总体的推算也是无偏的。
8
2019/2/15
证明性质1
由于对每一层有 L L ˆ ˆ ˆ E Y E W Y W E Y st hh h h 因此, h 1 1 h L L L 1 1 Y W Y N Y Y Y h h h h h N N N h 1 h 1 h 1 估计量的方差 L L L L ˆ ˆ ˆ ˆ 2ˆ V Y V W Y W V Y 2 W W Cov Y , Y st h h h h h k hk h 1 h 1 h 1 k h 由于各层是独立抽取的,因此上式第二项中的协方差全 L 为0,从而有
二、分层原则:
总体中的每一个单元一定属于并且只属于某一个层,而不可能同时属于两个 层或不属于任何一个层。




1.估计:层内单元具有相同性质,通常按调查对 象的不同类型进行划分。 2.精度:尽可能使层内单元的指标值相近,层间 单元的差异尽可能大,从而达到提高抽样估计精 度的目的。 3.估计和精度:既按类型、又按层内单元指标值 相近的原则进行多重分层,同时达到实现估计类 值以及提高估计精度的目的。 4.实施:抽样组织实施的方便,通常按行政管理 机构设置进行分层。

抽样技术第三章_分层随机抽样

抽样技术第三章_分层随机抽样

4

4
4
ˆ v Y ˆ 23208 s Y
ˆ 209650 2 23208 ˆ ts Y Y

2015/11/6
23
三、对总体比例的估计

总体比例P的估计为:pst Wh ph
h 1
L

估计量的性质
对于一般的分层抽样,如果 ph是 P h 的无偏估计 (h 1,2,, L ),则 pst 是 P的无偏估计。 p 的方差为:
W 2V Y V Y h h st
h1

L


只要对各层估计无偏,则总体估计也无偏。

各层可以采用不同的抽样方法,只要相应的估计量是无 偏的,则对总体的推算也是无偏的。
11
2015/11/6
证明性质1
由于对每一层有
ˆ Y EY h h

L L ˆ ˆ ˆ E Y E W Y W E Y st h h h h 因此, h1 h1

L
L
N Y hh
h 1
L
分层随机样本,总体均值 Y 的简单估计
1 y st Wh y h N h 1
N
h 1
L
h
yh
10
2015/11/6
估计量的性质

是 Yh 的无 性质1&2:对于一般的分层抽样,如果 Y h 偏估计( h 1,2, , L ),则 Y 是Y 的无偏估计。 st Yst 的方差为:
7
三、符号
所有总体参数的估计量都采用下标“st”以示区别:
记 号 代表的含义
h
下标
i
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一.总体均值的估计
(一)简单估计量的定义
对于分层样本,对总体均值 的估计是通过对
各层的 公式为:
的估计,按层权 Wh 加权平均得到的。
Yˆst
L WhYˆh
h1
1 N
L NhYˆh
h1
2020/11/30
12
如果得到的是分层随机样本,则总体均值 Y 的简单
估计为:
(二)估计量的性质
性质1 对于一般的分层随机抽样,如果 Yˆh 是 Yh
4 1500 50 35 15
的一个无偏估
L
v( yst ) Wh2v( yh ) h1
L
Wh 2
h1
1
f nh
h
sh
2
L Wh2sh2 L Whsh2
n h1
h
h1 N
2020/11/30
16
▪ 注:
当 Nh,nh与Nh nh 适当的大,各层样本
平均数 yh 均可适用正态近似,因此一般地 yst
也适用于正态近似其置信区间。
2020/11/30
17
二.总体总量的估计
(一)简单估计量的定义
总体总量Y的估计为:
分层随机样本: Yˆ Nyst
(二)估计量的性质
性质4 对于一般的分层抽样,如果 是Y的无偏估计。
Yˆ 的方差为:
2020/11/30
是 Y 偏估计,则Yˆ
18
2020/11/30
19
性质5 对于分层随机抽样, 的方差为:
的无偏估计(h=1,2,…L),则 Yˆst 是Y 的无偏估计。
即对各层估计是无偏的,则对总体的估计也是无
偏的。
Yˆst 的方差为:
V Yˆst L Wh2V Yˆh
h1
由于各层的抽样
2020/11/30
是相互独立的
13
证明:因各层抽样是相互独立,则Yˆh 也相互独立,
则有 cov Yˆh , Yˆ j 0
第三章 分层随机抽样
3.1 概述 3.2 简单估计量及其性质 3.3 样本量在各层的分配 3.4 回归估计量及其性质 3.5 各层样本量的分配 3.6 总样本量的确定
2020/11/30
1
▪ 简单随机抽样只适合小型的抽样调查: 1. 抽样框 2. 代表性 如:了解中国各民族的情况:(鄂伦春族)
2020/11/30
4
分层随机抽样三原则: (1)每层都抽样; (2)各层都独立地抽样; (3)各层的抽样都是简单随机抽样。
2020/11/30
5
(二)特点:
1.分层抽样的抽样效率较高,也就是说分层 抽样的估计精度较高。
注意:
分层抽样估计量的方差只和层内方差有关, 和层间方差无关。
2.分层抽样不仅能对总体指标进行推算, 而且能对各层指标进行推算。
2020/11/30
3
各层中的抽样是独立进行的,因此,在各 层中所采取的抽样手段完全可以不相同, 在一个层进行简单随机抽样,在另一层则 可采用更复杂一些的抽样,完全视各层的 情况不同而定,这种因地制宜的手段将使 样本尽可能反映总体的特性以及子总体的 特性。 分层抽样有时也称为类型抽样或分类抽样。
2020/11/30
从该层中抽取的样本的单元值为: yhi (i 1,2,..., nh )
层权:
Wh
Nh N
抽样比: fh
nh Nh
总体均值:Yh
1 Nh
Nh
Yhi
i 1
2020/11/30
样本均值:yh
1 nh
nh i1
yhi
10
▪ 层内方差: ▪ 样本方差:
2020/11/30
11
第二节 简单估计量及其性质
如:消费物价指数(全国和各省) 3.层内抽样方法可以不同,而且便于抽样
工作的组织。
2020/11/30
6
(三)作用
可以对各层的参数进行估计, 有助于提
高估计精度。
2020/11/30
7
二.使用场合
应用条件: 适合于各层差异较大,有进行分层的辅助信息。
层的划分原则: 1.层内单元具有相同性质,通常按调查对象的不同类型进
V (Yˆ)
L h1
Nh2V (Yˆh )
L h1
Nh2
1
f nh
h
S
h
2
性质6 对于分层随机抽样,
的一个无偏估计为:
v(Yˆ)
L h1
Nh2v( yh )
L h1
Nh2
1 fh nh
sh 2
2020/11/30
20
【例3.1】调查某地区的居民奶制品年 消费支出,以居民户为抽样单元,根据经 济及收入水平将居民户划分为4层,每层 按简单随机抽样抽取10户,调查获得如 下数据(单位:元),估计该地区居民奶
2
第一节 概述
一.定义与作用 (一)分层抽样和分层随机抽样
不重 不漏
先将总体N个单元划分成L个互不重复的子总体,每个子
总体称为层,它们的大小分为别
,这L个层
合起来就是整个总体(N=
)。
然后,在每个层中分别独立进行抽样,这种抽样就是分层抽样,
所得到的样本称为分层样本。如果每层都是简单随机抽样,则 称为分层随机抽样,所得到的样本称为分层随机样本。
行划分,这时,分层抽样能够对每一类的目标量进行估 计。 2.尽可能使层内单元的标志值相近,层间单元的差异尽可 能大,从而达到提高抽样估计精度的目的。 3.既按类型又按层内单元标志值相近的原则进行多重分 层,同时达到实现估计类值以及提高估计精度的目的。 4.为了抽样组织实施的方便,通常按行政管理机构设置进 行分层。
2020/11/30
8
如:对全国汽车货运量调查,目的是不仅要 了解全国货运量,而且推算不同经济成分 货运量。
首先为组织方便,按省分层;各省再按 经济成分分层;为提高抽样效率,再按吨位 分层。
2020/11/30
9
三.符号说明
层号:h(h=1,2…,L) 第h层的记号如下: 单元总数: 样本单位数: 第i个单元标志值为: Yhi (i 1,2,..., Nh )
V Yˆst
V
L WhYˆ h
h1
L h1
Wh2V
Yˆ h
L
2
L WhWjcov Yˆ h , Yˆ j
h1 jh
L 对于分层随机抽样 , 是 的无偏估计, 的方差为:
2020/11/30
15
性质3 对于分层随机抽样, 计为:
制品年消费总支出及估计的标准差。
2020/11/30
21
样本户奶制品年消费支出
层 居民户
样本户奶制品年消费支出
总数









10
1 200 10 40
0 110 15 10 40 80 90
2 400 50 130 60 80 100 55 160 85 160 3 750 180 260 110 0 140 60 200 180 300
相关文档
最新文档