分层随机抽样概论
04-第四章_分层随机抽样
L
下面讨论估计量的期望与方差。 (1)对于一般分层抽样
ˆ )也 对于一般的分层抽样,若 Y h 是 Y h 的无偏估计量,则 Y st (或 Y st
是 Y (或 Y )的无偏估计:
Ù
Ù
E (Y st ) = å Wh E (Y h ) = Y
h =1
Ù
L
Ù
ˆst ) = NE (Y st ) = N Y = Y E (Y
L
2 L Sh S2 - å Wh2 h nh h =1 Nh
=å
简便公式
2 L Wh2 Sh W S2 -å h h nh N h =1 h =1
V ( y st ) = V (å Wh y h )
h =1
L
= å Wh2V ( y h )
h =1 L
L
= å Wh2
h =1
Sh2 (1 - f h ) nh
åN
h =1
L
h
=N。
Wh =
Nh 称为层权,它也是已知的。 N
以 Yhi 表示第 h 层总体的第 i 个单元的指标值,以 yhi 表示第 h 层样本的 第 i 个单元的指标值。
Yh =
1 Nh 1 nh
åY
i =1 nh i =1
Nh
hi
表示第 h 层的总体均值,
yh =
åy
hi
表示第 h 层的样本均值(其中 nh 是第 h 层的样本量) ,
h =1 h =1 h =1 L L Ù L Ù Ù
Ù
3
(2)对于分层随机抽样
Ù
特别对于分层随机抽样,Y h 一般均取为简单估计:层样本均值 y h ,因 此 Y 的简单估计为:
抽样技术-分层随机抽样概述
19
W1
N1 N
200 2850
0.07018
f1
n1 N1
10 200
0.05
1 n1
y1 n1 i1 y1i 39.5
s12
1 n1 1
n1 i 1
y1i y1 2 1624.722
同理,求得: y2 105
s22 2166.667
y3 165
2020/3/10
17
性质3:对于分层随机抽样, 的一个无偏估计为:
V Yˆ
v Yˆ
L
N
2 h
v
yh
h1
L h1
N
2 h
1 fh nh
s
2 h
2020/3/10
18
例3.1
调查某地区的居民奶制品年消费支出,以居民户为抽样 单元,根据经济及收入水平将居民户划分为4层,每层 按简单随机抽样抽取10户,调查获得如下数据(单位: 元),要估计该地区居民奶制品年消费总支出及其 95%的置信区间。
Wh
Nh N 第 h 层的
层权
fh
nh Nh
第 h 层的
抽样比
Yh
1 Nh
Nh
Yhi
i 1
第 h 层的
总体均值
yh
1 nh
nh i1 yhi
第 h 层的
样本均值
6
记号
Yh
yh
S
2 h
s h2
公式
Nh
Yhi NhYh
i 1
代表的含 义
第 h 层的
2-1-3分层抽样4
1 L yst = ∑ Wh yh (或 = ∑ N h yh ) 或 N h =1 h =1 ~ 的无偏估计可选为: 总体总和 Y 的无偏估计可选为:
L
(4.2)
% yst = N ⋅ yst = N ⋅ ∑ Wh yh = ∑ N h yh
h =1 h =1
L
L
(4.3)
的方差为: 估计量 y st 的方差为: L Var ( yst ) = Var ( ∑ Wh yh ) 由于各个小盒子的抽样过程是相互独立的,故各个 yh相互 由于各个小盒子的抽样过程是相互独立的, 独立,由独立随机变量之和的方差计算公式, 独立,由独立随机变量之和的方差计算公式,有
含义 的层权 抽样比 总体均值 样本均值
记号 公式
Yh
yh
2 Sh
2 sh
∑Y
i =1
Nh
hi
= N hYh
∑y
i =1
nh
hi
= nh yh
(Yhi − Yh )2 ∑
i =1
Nh
( yhi − yh )2 ∑
i =1
nh
Nh −1
nh − 1
代表的 第 h 层的 第 h 层的 第 h 层的 第 h 层的 含义 总体总量 样本总量 总体方差 样本方差
h=1 i =1 L
h =1
L
(4.5)
(4.5)式两端各除以 -1),假如各层的单元数 N h都很大,当 式两端各除以(N- , 都很大, 式两端各除以 近似认为: 近似认为: N h ≈ N h − 1 ≈ N h = W (4.6) h
N −1
N −1
N
因此直接来自总体的简单随机抽样平均数的方差大约为: 因此直接来自总体的简单随机抽样平均数的方差大约为: L 1 1 L 2 2 Var ( y ) = ( − ) ∑ Wh Sh + ∑ Wh (Yh − Y ) (4.7) n N h =1 h =1 (4.7)式花括弧内第一项为各个小盒子方差的加权和,而第二 式花括弧内第一项为各个小盒子方差的加权和, 式花括弧内第一项为各个小盒子方差的加权和 项则表示了各小盒子之间的差异平方和。比较(4.4)和(4.7), 项则表示了各小盒子之间的差异平方和。比较 和 , 那么易见(4.4)式变为 若取 nh n = Wh ,那么易见 式变为 1 1 L 2 Var ( yst ) = ( − )∑ Wh S h n N h =1
【抽样调查】分层随机抽样
【抽样调查】分层随机抽样第2部分:分层随机抽样⽬录概述分层随机抽样的思路:当N ,n 都较⼤,总体单元之间的差异也较⼤时,简单随机抽样会出现⾼成本、低精度情形,解决⽅法是将总体划分为若⼲个⼦总体、减少总体单元之间的差异。
假设在各个⼦总体内已经满⾜实施简单随机抽样的条件,则可以在各个⼦总体内独⽴地进⾏简单随机抽样,再将各个⼦总体参数的估计值进⾏加权,得到总体参数的估计。
分层抽样的概念:层:如果⼀个包含N 个单位的总体可以分成不重不漏的L 个⼦总体,即每个单元必定属于且仅属于⼀个⼦总体,则这样的⼦总体称为层。
有N 1+⋯+N L =N 。
分层抽样:在每⼀层中独⽴进⾏抽样,总的样本由各层样本组成,总体参数⼜按照各层样本参数的汇总作出估计。
有n 1+⋯+n L =n 。
分层随机抽样:每层的样本,都独⽴地按照简单随机抽样进⾏,这样的分层抽样称为分层随机抽样。
符号规定:h :层。
从⽽N h 代表第h 层的单位总数,n h 代表第h 层的样本数。
i :层内单位号。
从⽽Y hi 代表第h 层第i 个总体单元,y hi 代表第h 层第i 个样本单元。
W h :层权,即W h =N h N 。
f h :层内抽样⽐,即f h =n hN h 。
¯Yh,Y h,S 2h:层内总体参数(均值、总值与⽅差)。
¯y h ,y h ,s 2h:层内样本参数(样本均值、样本总值与样本⽅差)。
简单估计量分层抽样⾸先根据各层的样本,计算出各层均值¯Y h的适当估计值ˆ¯Y h ,然后再使⽤总体层权加权平均,得到总体均值¯Y 的估计,即ˆ¯Y st =L∑h =1W h ˆ¯Y h =1N L∑h =1N h ^¯Y h .对于分层随机抽样,每⼀层的ˆ¯Y h就是h 层的样本均值¯y h ,即ˆ¯Y st =L∑h =1W h ¯y h =1N L∑h =1N h ¯y h .注意这⾥的线性形式。
抽样技术-分层随机抽样概述
抽样技术-分层随机抽样概述介绍在实际调查和研究中,我们往往无法对所研究的总体进行全面调查,而需要通过抽样的方式来获取一局部样本数据。
而抽样技术是统计学中非常重要的一个概念,它可以帮助我们从总体中选择样本,通过对样本进行分析和研究,得出对总体的结论。
分层随机抽样是抽样技术中的一种常用方法,它将总体按照一定的特征进行分组,然后从每个组中随机选择一局部样本进行调查。
这种方法可以提高样本的代表性,使得样本更能够反映总体的情况。
分层随机抽样的步骤分层随机抽样包括以下几个步骤: 1. 第一步,确定抽样的总体。
需要明确需要研究的总体是什么,例如某个地区的人群、某家企业的员工等等。
2. 第二步,将总体进行分层。
根据需要研究的特征,将总体进行分组,例如按照性别、年龄、职业等特征进行分层。
3. 第三步,确定每层的样本大小。
根据实际情况和研究的要求,确定每个分层的样本大小,使得每个分层的样本能够充分反映该层的特征。
4. 第四步,进行随机抽样。
在每个分层中,通过随机抽样的方式选择样本。
常用的随机抽样方法有简单随机抽样、系统抽样等。
5. 第五步,收集数据并进行分析。
通过对样本进行调查和数据收集,得到研究所需的数据。
然后可以进行数据分析和统计,得出对总体的结论。
分层随机抽样的优势分层随机抽样相比于其他抽样方法,具有以下优势: 1. 提高样本的代表性。
通过将总体进行分层,可以保证每个分层中都有足够数量的样本,从而使得样本更能够代表总体的特征。
2. 控制误差。
由于每个分层中的样本都是随机选择的,因此可以在一定程度上控制抽样误差,提高调查结果的准确性和可信度。
3. 适用性广泛。
分层随机抽样可以适用于各种调查和研究场景,无论是人口统计学调查、市场调研还是医学研究等,都可以采用这种抽样方法。
分层随机抽样的局限性分层随机抽样虽然具有很多优势,但也存在一些局限性: 1. 难以应对动态总体。
如果总体的分层特征随着时间的推移发生变化,那么分层随机抽样可能无法准确反映总体的情况。
分层随机抽样
抽样均按简单随机抽样进行,求全市年 平均户收入的估计及其 90%的置信区间。
解: 计算层权: W1=N1/N=0.137, W2=N2/N=0.863。 (1) y st W1 y1 W2 y 2 0.137 15180 0.863 9856 10585.39
(2)求v( y st )
6 第 h 层抽样比为:
nh fh Nh
第二节 简单估计量及其性质
一、对总体均值与总量的估计
(一)对总体均值与总量的估计 1 对一般分层抽样:
ˆ WY ˆ, Y hh st
h 1 L
ˆ Y ˆ Y st h
h 1
L
ˆ , 则: ˆ NY 如果每个Y h h h ˆ ˆ Y NY
s( y st ) v( y st ) 142.312 1 90%, 1.645 全市年户均收入Y 的90%的置信区间为 10585.39 1.645 142.312,即: [10351.29元, 10819.49元]
二、对总体比例(成数) 的估计
1 成数 P 或总数 A 的估计: 层比例 Ph=Ah/Nh , Qh=1-Ph 层样本比例 ph=ah/nh , qh=1-ph Ah 与 ah 是第 h 层总体及样本中具有 所研究特征的单元数。
st st
2 对一般的分层抽样:
ˆ 是Y 的无偏估计, 若Y h h ˆ (Y ˆ )也是Y (Y )的无偏估计: 则Y
st st
由于各层的抽样是相互独立的,因此: ˆ ) V( W Y ˆ ) W 2V (Y ˆ) V (Y h h h st
h 1 h 1 L L
ˆ ) V (Y ˆ) V (Y st h
抽样技术分层随机抽样
抽样技术:分层随机抽样引言在数据分析中,抽样是一种常见的技术,用于从总体中选择一部分样本进行研究和分析。
抽样的目的是获得对总体的准确、可靠的估计,同时降低研究成本和时间。
然而,在实际应用中,总体往往是复杂多样的,包含不同属性或特征的子群体。
这时,分层随机抽样就是一种有效的抽样技术,可以提高抽样的精确性和代表性。
本文将介绍分层随机抽样的概念、步骤和应用。
什么是分层随机抽样?分层随机抽样是一种按照总体的分层结构进行抽样的方法。
总体根据某种特征或属性被划分为若干层,然后从每一层中随机选择一部分样本,构成最终的样本集。
这种抽样方法能够充分考虑总体内部的差异,保证样本对总体的代表性和准确性。
分层随机抽样的步骤分层随机抽样一般包括以下几个步骤:步骤1:总体划分层首先,需要根据某种特征或属性将总体划分为若干层。
层与层之间应具有较大的差异,而层内部的差异应尽可能小。
步骤2:确定每层的样本量和抽样比例根据抽样的目标和总体的特点,可以确定每一层的样本量。
通常情况下,样本量应当足够大,以获得准确的统计结果。
同时,需要确定每一层的抽样比例,比例应考虑到层内部的差异和样本数量。
步骤3:随机抽样在每一层内,根据抽样比例,从层内随机选择样本。
随机抽样可以保证样本的无偏性和代表性。
步骤4:组成样本集将每一层内抽取的样本进行组合,形成最终的样本集。
样本集应能够反映总体的属性和特征。
分层随机抽样的优点相比于简单随机抽样和系统抽样,分层随机抽样具有以下优点:提高估计的精确性分层随机抽样可以将总体划分为若干个层,然后分别从每一层抽取样本。
这样做有助于充分考虑总体内部的差异,提高估计的精确性。
降低误差由于分层随机抽样将样本分布在不同层中,可以降低抽样误差和估计误差,从而提高研究结论的可靠性。
保证样本的代表性分层随机抽样能够从每一层中抽取样本,使样本更具代表性。
这样可以在不损失总体属性和特征的情况下,降低样本的偏差。
分层随机抽样的应用分层随机抽样在社会调查、市场研究、医学研究等领域有着广泛的应用。
分层随机抽样概论(PPT 50张)
2019/2/15
例题
例如,对全国范围汽车运输的抽样调查,调查目的不 仅要推算全国货运汽车完成的运量,还要推算不同经 济成分(国有、集体、个体)汽车完成的运量。 为组织的方便,首先将货运汽车总体按省分层,由 各省运输管理部门负责省内的调查工作。 各省再将省内拥有的汽车按经济成分分层。 为提高抽样效率,再对汽车按吨位分层。 例如,某高校对学生在宿舍使用电脑的情况进行调查, 根据经验,本科生和研究生拥有电脑的状况差异较大。 因此,在抽样前对学生按本科生和研究生进行分层 是有必要的。
st
W 2 VY VY h h s t
h 1
L
只要对各层估计无偏,则总体估计也无偏。
各层可以采用不同的抽样方法,只要相应的估计量 是无偏的,则对总体的推算也是无偏的。
8
2019/2/15
证明性质1
由于对每一层有 L L ˆ ˆ ˆ E Y E W Y W E Y st hh h h 因此, h 1 1 h L L L 1 1 Y W Y N Y Y Y h h h h h N N N h 1 h 1 h 1 估计量的方差 L L L L ˆ ˆ ˆ ˆ 2ˆ V Y V W Y W V Y 2 W W Cov Y , Y st h h h h h k hk h 1 h 1 h 1 k h 由于各层是独立抽取的,因此上式第二项中的协方差全 L 为0,从而有
二、分层原则:
总体中的每一个单元一定属于并且只属于某一个层,而不可能同时属于两个 层或不属于任何一个层。
1.估计:层内单元具有相同性质,通常按调查对 象的不同类型进行划分。 2.精度:尽可能使层内单元的指标值相近,层间 单元的差异尽可能大,从而达到提高抽样估计精 度的目的。 3.估计和精度:既按类型、又按层内单元指标值 相近的原则进行多重分层,同时达到实现估计类 值以及提高估计精度的目的。 4.实施:抽样组织实施的方便,通常按行政管理 机构设置进行分层。
分层随机抽样概述
总体均值 Y 和总体总量Y的分别比率估计量:
yRs
L
Wh yRh
h1
L
Wh
h1
yh xh
X
h
已知各层的 均值和总量
YˆRs
2020/11/17
NyRs
L h1
yh xh
X
h
L
YˆRh
h1
41
▪ 对分别比估计,若各层样本量都比较大,则有:
EyRS Y
L
MSEyRS V yRs V ( Wh yRh ) h1
V pst Wh2V ( ph ) h1
2020/11/17
33
性质9 对于分层随机抽样,
的一个无偏估计为:
2020/11/17
34
【例3.3】
▪ 了解某地区居民户拥有家庭电脑的情况如下,估计该 地区家庭拥有电脑的比例及估计的标准差。
样本户拥有家庭电脑情况
层 居民户
样本户拥有家庭电脑情况
S yh2 Rh2Sxh2 2Rh hS yhSxh
所以
L
L
EyRS Wh E( yRh ) WhYh Y
h1
h1
V Yˆst
V
L WhYˆ h
h1
L h1
Wh2V
Yˆ h
L
2
L WhWjcov Yˆ h , Yˆ j
h1 jh
L Wh2V Yˆh h1
2020/11/17
14
性质2 对于分层随机抽样 , 是 的无偏估计, 的方差为:
2020/11/17
15
性质3 对于分层随机抽样, 计为:
2020/11/17
8
如:对全国汽车货运量调查,目的是不仅要 了解全国货运量,而且推算不同经济成分 货运量。
ch3--分层随机抽样
sh2
1 nh 1
nh i 1
yhi yh 2
3.2分层抽样旳简朴估计量及其性质
总体均值:
L
Yst Wh Yh
h1
L
对总体均值旳估计: Yst Wh Yh h 1
^
分层随机抽样,则Y h 的简单且无偏的估计为yh
^
1.对于分层随机抽样,Y的无偏简单估计Y st 为:
^
L
^
L
1L
2 4705 50 147 62 87 84 158 170 104 56 160 3 2558 228 262 110 230 139 178 334 0 63 220 4 14997 17 34 25 34 36 0 25 7 15 31
请估计该地域养牛总头数及其估计量旳95%旳置信区间 。
留做作业,代入公式计算,并用软件验证
v( yst )
L
Wh 2
h 1
1
f nh
h
sh
2
且为V(y)的无偏估计。
Yst的置信度为1 的置信区间近似为:
yst u v( yst ), yst u v( yst )
2
2
2.总体总和Y的估计:
L
Y NYst Yh , h 1
L
^
L
^
L
L
Yˆst NYst N Wh Y h Nh Y h Nh yh Yh
h 1
h 1
L
p
的方差
st
V(p
st)
Wh 2 V(p h)
h1
v(
ph
)
1 fh nh 1
ph
qh
pst的方差V ( pst )的估计:
分层随机抽样概述
分层随机抽样概述什么是分层随机抽样?分层随机抽样是一种统计抽样方法,用于从总体中获取代表性样本。
在该方法中,总体被分成不同的层次,然后从每个层次中随机抽取样本。
这种抽样方法可以确保样本具有代表性,从而使我们能够对总体进行合理的推断。
分层随机抽样的步骤分层随机抽样包括以下步骤:1.确定分层因素:分层因素是根据总体的特征确定的。
例如,如果我们要进行人口调查,分层因素可能是年龄、性别、地域等。
2.将总体分成不同的层次:根据分层因素,将总体分为不同的层次,并确保每个层次的特征尽可能的相似。
3.确定样本大小:根据研究目的和总体特征,确定每个层次的样本大小。
一般来说,样本大小越大,抽样误差越小。
4.随机抽取样本:在每个层次中,使用随机抽样方法抽取样本。
确保每个单位有相等的机会成为样本的一部分。
5.数据收集和分析:收集抽样到的数据,并针对研究问题进行分析和推断。
分层随机抽样的好处是我们可以针对不同层次内的特征进行更深入的分析。
分层随机抽样的优点分层随机抽样具有以下优点:1.代表性:分层随机抽样可以确保样本具有代表性,因为每个层次内的个体特征相似。
2.精确性:通过设定每个层次的样本大小,可以控制抽样误差,并使结果更加精确。
3.可比性:分层随机抽样方法可以使不同层次之间的比较更加可靠和有意义。
4.分层分析:分层随机抽样使得我们可以对不同层次的数据进行更深入的分析,从而得出更准确的结论。
分层随机抽样的应用场景分层随机抽样广泛应用于各个领域的研究和调查中。
以下是一些常见的应用场景:1.人口调查:在人口调查中,可以按照年龄、性别、地域等因素对总体进行分层,并进行随机抽样。
2.市场调研:在市场调研中,可以按照消费者的特征进行分层,并抽取样本进行调查,以了解不同群体的需求和偏好。
3.教育研究:在教育研究中,可以按照学校的类型、年级等因素进行分层,并抽取样本进行调查,以评估教育政策的效果。
4.医学研究:在医学研究中,可以按照疾病的类型、严重程度等因素进行分层,并进行随机抽样,以研究治疗效果和预后情况。
04 第四章 分层随机抽样
第四章分层随机抽样第一节分层随机抽样概述分层抽样也叫做类型抽样,它是实际工作中最常用的抽样技术之一。
分层抽样是在抽样之前,先将总体按一定标志划分为若干个层(组),后在各层内分别独立地进行抽样。
由此所抽得的样本称之为分层样本。
各层所抽的样本也是互相独立的。
如果每层中的抽样都是简单随机的,则这种抽样就叫做分层随机抽样。
由此所得到的样本称做分层随机样本。
从以上概念可以看出,分层抽样的实质是在各层间作全面调查,而在各层内作抽样调查。
因此,分层抽样的误差只与各层内的差异有关,而同各层间的差异无关。
所以,为了能有效地降低抽样误差,提高抽样效果,在分层时应遵循“尽可能使层内差异小,而使层间差异大”的原则,同时要使分层的结果既无重复又无遗漏。
进行分层抽样时应注意:①层内抽样设计的选择;②分层变量的选择;③各层样本量的分配;④层数;⑤层的分界。
以前只重视③,近年来,④和⑤引起了越来越多的关注。
同简单随机抽样相比,分层抽样具有以下特点:①分层抽样能够充分地利用关于总体的各种已知信息进行分层,因此抽样的效果一般比简单随机抽样要好。
但当对总体缺乏较多的了解时,则无法分层或不能保证分层的效果。
②在分层抽样中,总体的方差一般可以分解为层间方差和层内方差两部分。
由于分层抽样的误差只与层内差异有关,而与层间差异无关,因此,分层抽样可以提高估计量的精度。
③由于分层抽样是在每层内独立地进行抽样,因此,使得分层样本能够比简单随机样本更加均匀地分布于总体之内,所以其代表性也更好些。
④分层抽样的随机性具体体现在层内各单元的抽取过程之中,也即在各层内部的每一个单元都有相同的机会被抽中,而在层与层之间则是相互独立的。
⑤分层抽样适合于调查标志在各单元的数量分布差异较大的总体。
因为对这样的总体进行合理的分层后可将其差异较多地转化为层间差异,从而使层内差异大大减弱。
⑥分层抽样中除了可以推断总体参数外,还可以推断各不同层的数量特征,并进一步作对比分析,从而满足不同方面的需要,也能帮助人们对总体作更全面、更深入的了解。
初级1 -第四章分层随机抽样
抽样调查
原理与方法
第四章
分层随机抽样
二、特点 1. 提高估计精度
分层抽样如果实施的好,将可以提高整体估计的精度,即抽 样效率较高。这是因为分层抽样估计量的方差只和层内方差 有关,和层间方差无关。因此,人们可以通过对总体分层, 尽可能地降低层内差异,使层间差异尽可能大,从而提高估 计的精度。比如,不同年龄的人血压值通常存在很大差异, 因此在研究血压的时候,按照不同的年龄分类是很有意义的 。在研究地区农作物产量的时候,按照地形的不同分类也是 很有意义的,沼泽地里的农作物和森林里的农作物就有很大
抽样调查
原理与方法
3. 便于组织
分层抽样实施起来灵活方便,也便于组织。一方面,由于抽样在各层 独立进行,因而允许我们视层内的具体情况采用不同的抽样方 法。例如,在一个商业调查中,规模较大的公司可能采取邮寄 的方式调查,而小的公司可能采用入户调查或者电话调查的方 式。再比如,对于某些调查,针对城市和农村可能要采用不同 的调查方法。另一方面,分层抽样的数据处理比较简单,各层 的数据处理可以单独进行,而层间汇总方式又非常简单,对估 计量而言仅是对均值估计的加权平均或是对总量估计的简单相 加,相应的精度估计也不复杂。
如果得到的是分层随机样本,则总体总量 的简单估计为:
Y Nyst
抽样调查
原理与方法
2.估计量的性质
性质4:对于一般的分层抽样,如果 Y st ˆ 是 Y 的无偏估 是 Y 的无偏估计,则 Y ˆ 的方差为: 计。 Y
2 ˆ ˆ ˆ V Y N V Yst V Y h
2 L 2 h
抽样调查
原理与方法
第二节 估 计 量
一、对总体均值的估计 分层样本,总体均值 Y 的估计
第三章分层随机抽样
第三章分层随机抽样
§3.1 引言
§3.2 估计量
§3.3 样本量在各层的分配§3.4 样本量的确定
附录一
附录二
§3.1 引言⏹定义与特点➢定义
➢特点
※分层抽样的抽样效率高(即分层抽样的估计精度高)。
①层抽样估计量的方差只与层内方差有关,与层间方
差无关。
通过分层,尽可能降低层内差异,使层间差异增大,从而提高估计精度。
②从直观的角度来看,分层抽样可以使样本在总体中
分布比较均匀。
※分层抽样不仅可以对总体指标进行推算,也可以对各层指标进行推算。
▪使用场合
符号说明
§3.2 估计量
⏹总体均值的估计➢简单估计量的定义
➢简单估计量的性质
⏹总体总量的估计➢简单估计量的定义
➢简单估计量的性质
⏹总体比例的估计➢简单估计量的定义
➢估计量的性质
§3.3 样本量在各层的分配 比例分配
➢比例分配下总体均值估计
➢比例分配下总体总值估计
➢比例分配下总体比例估计
最优分配
➢Neyman(内曼)分配
▪考虑估计总体比例P的情形
§3.4 样本量的确定 影响样本量的因素
➢估计总体均值的情形
➢总体参数为P的情形。
分层随机抽样概论
因此,在抽样前对学生按本科生和研究生进行分层 是有必要的。
2020/11/29
5
三、符号说明 (关于第h层的记号 )
层号
h 1,2,, L
1 Nh
Yh N h i1 yhi
S
2 h
1 Nh 1
4
例题
例如,对全国范围汽车运输的抽样调查,调查目的不 仅要推算全国货运汽车完成的运量,还要推算不同经 济成分(国有、集体、个体)汽车完成的运量。
为组织的方便,首先将货运汽车总体按省分层,由 各省运输管理部门负责省内的调查工作。
各省再将省内拥有的汽车按经济成分分层。
为提高抽样效率,再对汽车按吨位分层。
Nh i1
2
yhi Yh
2020/11/29
单元总数
Nh
样本单元数
nh
第 i个单元的值
yhi
层权 抽样比 总体均值
Wh
Nh N
fh
h
1 nh
nh
y hi
i1
样本方差
sh2
1 nh 1
nh i1
yhi yh 2
6
第二节 估 计 量
一、对总体均值的估计
分层样本,总体均值 Y 的估计
1 fh nh
sh2
2020/11/29
13
二、对总体总量的估计
总体总量 Y 的估计为:
Yˆ NYˆst L Yˆh h1
如果得到的是分层随机样本,则总体总 量的简单估计为:
Y Nyst
2020/11/29
14
2.估计量的性质
性质4:对于一般的分层抽样,如果
分层抽样
某社区有500个家庭,其中高收入家庭125户, 中等收入家庭 280 户,低收入家庭 95 户,为了 调查社会购买力的某项指标,要从中抽取 1 个 容量为100户的样本,则采用( )抽样 方法;某校大一有12名女排运动员,要从中抽 取3人调查学习负担情况,则采用( ) 抽样方法。
为了调查某产品的销售情况,销售部门从下属 的 92家销售连锁店中抽取30家了解情况。若采 用系统抽样法,则抽样间隔和随机剔除的个数 分别是( )( )。
系统抽样的效果会受个体编号的影响, 而简单随机抽样的效果不受个体编号的 影响。
二、步骤:
假设要从容量为N的总体中抽取容量为n的样本。 (1)先将总体的N个个体排序,进行连续编号; (2)确定分段间隔 k,对编号进行分段,当N/n是整数时,取 k=N/n;当N/n不是整数时,从N中剔除一些个体,使得其为整 数为止。 (3)在第1段用简单随机抽样确定第一个样本编号l(l≤k);
三、步骤
(1)确认目标总体。 (2)决定样本数。 (3)确定分层的特征,如年龄、性别等。 (4)将总体分成若干个不可重叠的部分,即分层后, 同一层内部的单位尽可能是同质的,不同层之间的单 位尽可能是异质的。 (5)根据一定的方式确定各层应抽取的样本量。 (6)分别采用简单随机抽样或者系统抽样的方式从 各层中抽取相应的样本。
分层随机抽样、分群随 机抽样、系统随机抽样
15五年制电商
§3.2.2、分层随机抽样技术 一、概念
分层随机抽样,又称为分层抽样、 类型随 机 抽 样 , 就是先将总体按一定标准划分为 若干层,然后在各层中随机抽取样本的一 种方式,通过对总体进行分层,可保证样 本的代表性。 分层抽样的抽样误差≤简单随机抽样的抽样 误差。
第三章分层随机抽样
E(Y ˆs)t Yst
V (ys)th L 1W h 2 V (yh)h L 1W n h 2 h Sh 2h L 1W N hSh 2
v(yst)hL1Wnh2hsh2
例:某市进行家庭收入调查,分城镇居 民及农村居民两部分抽样,在全部城镇 23560户中抽取300户,在全部农村 148420户中抽取250户(均按简单随机抽 样进行),调查结果城镇年平均户收入 为15180元,标准差为2972元;农村年平 均户收入为9856元,标准差为2546元。 求全市年平均户收入的估计及其90%的 置信区间。
例:调查某地区的居民奶制品年消费支出,以居 民户为抽样单元,根据经济及收入水平将居民户 划分为4层,每层按简单随机抽样抽取10户,调查 获得如下数据(单位:元),估计该地区居民奶 制品年消费总支出及估计的标准差。
居民户 层 总数 1 2
样本户奶制品年消费支出 345678
9 10
1 200 10 40 0 110 15 10 40 80 90 0
h1 L
n
L
Sh Sh
h 1
h 1
nh
n
L
Sh
Sh
h1
h
Wh
Sh
nh
0.2
20
71
2
0.3
30
107
3
0.5
34
122
三、比例分配法
概念:根据各层容量的大小不同,分配 以相应不同的样本单位数,使得各层中 的抽样数目与该层的总体单位数的比例 相等。
nh
Nh N
二、给定总费用时样本量的确定
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一节 分层随机抽样的定义、使用场合以及符号 第二节 估计量及其性质 第三节 样本量的分配原则 第四节 样本量的确定 第五节 分层抽样的若干问题
2021/1/2
1
第一节 引 言
一、定义
在抽样之前,先将总体N个单元划分成L个互不
不重 重复的子总体,每个子总体称为层,它们的大
不漏 小分别为 N1, N2 ,, N L ,这个层合起来就是
层 居民户
总数
1
2
1
200
10
40
2
400
50 130
3
750 180 260
4
1500
50
35
样本户奶制品年消费支出
3
4
5
6
7
8
9
10
0 110
15
10
40
80
90
0
60
80 100
55 160
85 160 170
110
0 140
60 200 180 300 220
15
0
20
30
25
10
30 25
2021/1/2
18
W1
N1 N
200 2850
0.07018
f1
n1 N1
1
10 0.05 n1 20N0 2850
y1 n1 i1 y1i 39.5
nh 10
s12
1 n1 1
n1 i 1
y1i y1 2 1624.722
W2
N2 N
400 2850
0.14035
f2
n2 N2
2021/1/2
h1
9
性质2:对于分层随机抽样, yst 是 Y
的无偏估计,yst 的方差为:
V
yst
L
Wh2V
h1
yh
L
Wh2
h1
1 fh nh
S
2 h
2021/1/2
10
证明性质2:
对于分层随机抽样,各层独立进行简单随机抽
样,对每一层有 Eyh Yh
因此,由性质1,有
E
y
2.精度:尽可能使层内单元的指标值相近,层间 单元的差异尽可能大,从而达到提高抽样估计精 度的目的。
3.估计和精度:既按类型、又按层内单元指标值 相近的原则进行多重分层,同时达到实现估计类 值以及提高估计精度的目的。
4.实施:抽样组织实施的方便,通常按行政管理 机构设置进行分层。
2021/1/2
确定样本量:总的样本量,各层样本量
估计量的方差不仅与各层的方差有关, 还和各层所分配的样本量有关。
实际工作中有不同的分配方法,可以按 各层单元数占总体单元数的比例分配, 也可以采用使估计量总方差达到最小、 费用最小。
2021/1/2
26
【例3.1】
调查某地区的居民奶制品年消费支出, 以居民户为抽样单元,根据经济及收入 水平将居民户划分为4层,每层按简单随 机 抽 样 抽 取 10户 , 调 查 获得如 下数据 (单位:元),要估计该地区居民奶制 品年消费总支出及估计的标准差。
3
750 1 1
0
0 0 0 1 0 10
4 1500 1 0
0
0 0 0 0 0 00
2021/1/2
24
解:由上表可得, p1 0.2 p2 0.2 p3 0.4 p4 0.1
根据前面对各层层权 Wh及抽样比 fh 的计算结果,可得各层估计量的方差:
v p1
1
f1
p1q1 n1 1
st
L
Y
V yst Wh2V yh
h1
由第二章性质2,得 V L
因此 V yst Wh2V
h1
yh yh
1 fh
L nh Wh2
h1
S
2 h
1 fh nh
S
2 h
2021/1/2
11
性质3:对于分层随机抽样, V yst 的一个
无偏估计为:
v yst
L
Wh2v yh
总数
权数
1
2000
0.2
2
3000
0.3
3
5000
0.5
估计方 差
标准 差
常数 与权数 与方
分配
成比例
差成 比例
20 100
60 49
30 100
90 110
34 100
150 141
3.86
3.09 3.11
与Whsh
正比 40 90 170 3
Wshh
2021/1/2
29
一、比例分配
按各层单元数占总体单元数的比例,也 就是按各层的层权进行分配.
0.0169
v p3
1
f
3
p3q3 n3 1
0.0263
v p2 1
v p4 1
f
f
2
4
p2q2 0.0173
np24
1
q4
0.0099
n4 1
因此,该地区居民拥有家庭电脑比例的估计为:
pst
4
Wh ph
h 1
1 N
4
Nh ph
h 1
1 2850
200 0.2 400 0.2 750 0.4 1500 0.1
2021/1/2
27
层 居民 户总 数
权数
1
200 0.07
2
400 0.14
3
750 0.26
4 1500 0.53
2021/1/2
nh nwh
方差
常 数
与权 数成
Wh
sh
40.3
分 配
10
比例
3
46.5 10
6
90.6 10
11
13.9 10
20
s 与 Wh h
正比 3
7
23
7
28
层 居民户
Ph Qh nh
L
Wh2 1 f h
h1
Ph Qh nh
2021/1/2
22
性质9:对于分层随机抽样,V pst 的一个无偏估计为:
v pst
L
Wh2v ph
h1
1
L
N
2 h
1
fh
N2 h1
nh
sh2
L
Wh2 1 f h
h1
phqh nh 1
2021/1/2
分层抽样不仅能对总体指标进行推算, 而且能对各层指标进行推算。
层内抽样方法可以不同,而且便于抽样 工作的组织。
2021/1/2
3
二、分层原则:
总体中的每一个单元一定属于并且只属于某一个层,而不可能同时属于两个 层或不属于任何一个层。
1.估计:层内单元具有相同性质,通常按调查对 象的不同类型进行划分。
Yst
L WhYh
h1
1 N
L N hYh
h1
分层随机样本,总体均值Y 的简单估计
yst
L
Wh yh
h1
1 N
L
Nh yh
h1
2021/1/2
7
估计量的性质
性质1:对于一般的分层抽样,如果 Yh是 Yh 的
无偏估计( h 1,2,, L
估计。 Yst 的方差为:
),则
Yst
是 Y 的无偏
例如,某高校对学生在宿舍使用电脑的情况进行调查, 根据经验,本科生和研究生拥有电脑的状况差异较大。
因此,在抽样前对学生按本科生和研究生进行分层 是有必要的。
2021/1/2
5
三、符号说明 (关于第h层的记号 )
层号
h 1,2,, L
1 Nh
Yh N h i1 yhi
S
2 h
1 Nh 1
2021/1/2
19
4
Yˆ N h yh h1 200 39.5 400 105 750 165 1500 24
209650
v Yˆ
4
N 2 Wh2v
h 1
yh
4 h 1
N
2 h
1 fh nh
sh2
5.93 108
s Yˆ v Yˆ 23208
Yˆ ts Yˆ 209650 2 23208
23
例3.2
在例3.1的调查中,同时调查了居民户拥有家 庭电脑的情况,获得如下数据(单位:台),
要估计该地区居民拥有家庭电脑的比例及估计 的标准差。
层 居民
样本户拥有家庭电脑情况
户总 数
1
2
3
4 5 6 7 8 9 10
1
200 0 0
0
1 0 0 0 1 00
2
400 0 1
0
0 0 0 0 0 10
2021/1/2
16
性质6:对于分层随机抽样, V Yˆ 的一个
无偏估计为:
v Yˆ
L
N
2 h
v
yh
h1
L h1
N
2 h
1 fh nh
s
2 h
2021/1/2
17
例3.1
调查某地区的居民奶制品年消费支出,以居民户为抽 样单元,根据经济及收入水平将居民户划分为4层,每 层按简单随机抽样抽取10户,调查获得如下数据(单 位:元),要估计该地区居民奶制品年消费总支出及 估计的标准差。
21
性质8:对于分层随机抽样, pst 是 P 的无偏估计,
V
ph
N h nh PhQh Nh 1 nh