抽样调查-第9章 二重抽样
其他抽样方法
其他抽样方法一、二重抽样二重抽样是指在抽样时分两步抽取样本,每一步抽取一个样本。
一般情况下,先从总体N 中抽取一个较大的样本n ',称为第一重样本,对之进行调查以获得总体的某些辅助信息,为下一步的抽样估计提供条件。
然后进行第二重抽样,第二重抽样所抽的样本n 相对较小,但是第二重抽样调查才是主调查。
一般地,第二重样本是从第一重样本中抽取的,即第一重样本的子样本,但是有时也可以从总体中独立抽取。
二重抽样与两阶段抽样在概念上很容易引起混淆。
虽然二者都可以被视为分阶段抽样方法,但是二重抽样与两阶段抽样的差异还是很显著的。
首先,两阶段抽样是先从总体N 个单元(初级单元)中抽出n 个样本单元,却并不对这n 个样本单元中的所有小单元(二级单元)都进行调查,而是在其中再抽出若干个二级单元进行调查;二重抽样则不同,要对第一重样本进行调查以获取总体的某些辅助信息,并且要利用这些辅助信息进行排序、分层、抽样或估计。
其次,两阶段抽样的第一阶段抽样单位和第二阶段抽样单位往往是不同的,比如第一阶段抽样单位是居委会,第二阶段抽样单位是住户;而二重抽样的第二重样本则往往是第一重样本的子样本,两次抽样的单位是相同的。
二、分层的二重抽样进行分层抽样有一个前提,即需要将总体N 个单元划分为L 个互不重叠的层,而且需要知道各层的权重NN W hh =。
如果事先无法知道总体的权层,则可采用二重分层抽样方法。
1、符号说明用下标h 表示层数,L h ,,2,1 =h N :总体第h 层的单元数;总体单元数∑==Lh h N N 1hn ':第一重样本第h 层的单元数;第一重样本单元数∑='='Lh h n n 1 h n :第二重样本第h 层的单元数;第二重样本单元数∑==Lh h n n 1N N W h h =:总体单元第h 层的权重;n n w h h''=':第一重样本第h 层的权重 hhhD n n f '=:第二重样本第h 层的抽样比,10≤<hD f hj y :第二重样本第h 层j 单元的观测值,L h n j h ,,2,1;,,2,1 ==∑==hn j hjhh yn y 11:第二重样本第h 层样本单元的平均数2S :总体方差;2h S :第h 层的总方差;2hs ':第一重样本第h 层方差 ∑=--=hn j h hj h hy y n s 122)(11:第二重样本第h 层方差 2、抽样方法第一步:利用简单随机抽样,从总体的N 个单位中随机抽取第一重样本,样本单位数为n ';根据已知的分层标志将第一重样本分层,令nn w hh''='L h ,,2,1 =,则hw '是总体权层h W 的无偏估计。
计量经济学第九章二重抽样
第九章二重抽样前面各章介绍的几种抽样技术中,大都需要事先了解一些关于总体的信息,例如分层抽样需要事先知道各层权重,比率估计和回归估计中需要知道总体的某些辅助信息但在一些情况下,这些资料在调查前无法预知。
这时,我们可以先从总体中抽取一个大的初始样本,从而获得总体的辅助信息,然后再从初始样本或从总体中再抽一个子样本,这种方法就是二重抽样。
本章第一节介绍二重抽样的定义、作用及其与两阶段抽样的区别,第二节介绍为分层抽样进行的二重抽样,第三节介绍为比率估计进行的二重抽样,第四节介绍为回归估计进行的二重抽样。
§9.1 引言一、定义二重抽样(double sampling),也称二相抽样或两相抽样(two-phase sampling),是指在抽样时分两步抽取样本。
一般情况下,先从总体N中抽取一个较大的样本'n,称为第一重(相)样本(the first phase sample),对之进行调查以获取总体的某些辅助信息,为下一步的抽样估计提供条件;然后进行第二重(相)抽样(the second phase sample)。
第二重抽样所抽的样本n相对较小,但是第二重抽样调查才是主调查。
一般地,第二重样本(the second phase sample)是从第一重样本中抽取的,也即第一重样本的子样本,但有时也可以从总体中独立地抽取。
由于样本是分两次抽取的,因此称做二重抽样。
例如,欲对某城市体育场馆的营业状况进行抽样调查,鉴于不同场馆功能和面积差异较大,拟采用分层抽样,但由于缺乏分层资料,故先随机抽选一个较大的样本,对该样本仅进行分层及进行层权估计,费用相对较低;然后利用第一次调查获得的分层资料,进行一次较小样本的分层抽样,对该样本进行一次正式调查。
这就是二重抽样。
显然,二重抽样方法也可以推广到多次抽取样本,然后结合起来对总体的有关标志值进行估计,这就是多重抽样或多相抽样。
本章主要讨论二重抽样。
二、二重抽样与两阶段抽样二重抽样和两阶段抽样,在名称上很容易引起混淆。
09-第九章 二阶及多阶抽样
1 M å (Yij - Y i ) 2 M - 1 j =1
则
2 S2 =
1 N
åS
i =1
N
2 2i
9.2.2 总体均值 Y 的估计量及其性质 如果二阶抽样中的每一阶抽样都是简单随机的, 且对每个初级单元, 第 二阶抽样是相互独立的,则样本按次级单元的均值
y=
1 n m 1 n yij = å y i åå nm i =1 j =1 n i =1
=W 2å =W 2å
N
1- f 2 Si m i =1 1- f m i =1
é 1 M ù (Yij - Y i )2 ú å ê ë M - 1 j =1 û N M 1- f 1 (Yij - Y i ) 2 =W 2 åå m M - 1 i =1 j =1 = 1 N2 1m N M M 1 (Yij - Y i ) 2 åå m M - 1 i =1 j =1
(9.1)
作为总体均值
Y=
1 NM
åå Yij =
i =1 j =1
N
N
1 N
åY
i =1
N
i
(9.2)
3
的估计,有如下性质:
E( y) = Y V ( y) = 1 - f1 2 1 - f 2 2 S1 + S2 n mn
(9.3) (9.4)
为证明上述性质, 注意到二阶抽样是分两步进行的, 因此对估计量求均 值与方差需按第六章给出的下述一般公式进行,即:
V ( y) =
将 n = N 代入,有
1 - f2 2 S2 mn 1 - f2 2 S2 mN
V ( y) =
其中 f 2 =
m ,则 M
第8-9章-多阶段抽样和二重抽样
ˆ ˆ E E E E
2
2
1
2
E 2 E E 2 V E ˆ ˆ E1 2 ˆ 1 2 1 2
E 2 E E 2 ˆ ˆ V1 E2 E1 2 ˆ 1 2 ˆ ˆ V1 E2 E1 V2
2 S2 V ( y ) S12 m
2 当n=1时, V1 (Yi ) S1
这时, 若以n个
yi 的均值 y 推断 Y
,其方差为
2 2 S1 S2 V ( y) n nm
再考虑fpc,则(1)式成立。
V y 的无偏估计为:
证明:
2 1
E (s ) S
2 2
1 f1 2 f1 1 f 2 2 v y s1 s2 n nm
1 1 n 1 1 E1 M iYi M n i 1 MN
M iYi Y i 1
N
估计量的方差为:
1 f1 M i 1 V y M Yi Y nNM 2 nN i 1 i 1
N N
二.按不等概抽初级单元
1.按PPS抽取初级单元 N 第i个单元被选中概率 Z i ,( Z i 1 ) i 1 以总量估计为例,利用Hansen-Hurwitz估计量 ˆ Y的估计: 1 n Y 1 n M y
ˆ YHH
z n
i 1
i
i
n
i 1
i
i
zi
ˆ 可以证明 YHH是Y的无偏估计
《统计学》第9章 抽样与抽样分布
二、抽样中的基本概念
⚫ 样本比例(成数)
p = n1 ,q = n0 = 1− p
n
n
⚫ 样本是非标志的标准差
(n = n0 + n1)
sp =
n p (1− p) =
n −1
n pq n −1
⚫ 样本是非标志的方差
s
2 p
=
n n −1
p(1 −
p)
=
n n −1
pq
第一节 抽样和抽样方法
三、抽样方法
三、抽样方法
⚫ 多阶段抽样
⚫ 在实践中总体所包括的单位数很多,分布很广,通过一次 抽样就选出有代表性的样本是很困难的。此时可将整个抽 样过程分为几个阶段,然后逐阶段进行抽样,最终得到所 需要的有代表性的样本。
第一节 抽样和抽样方法
三、抽样方法
⚫ 多阶段抽样
⚫ 阶段数不宜过多,一般采用两个、三个阶段,至多四个阶 段为宜,否则,手续繁琐,效果也不一定好。
第一节 抽样和抽样方法
二、抽样中的基本概念
⚫ 总体参数
⚫ 总体参数是根据总体各单位的标志值或特征计算的、反 映总体某一属性的综合指标。
⚫ 总体参数是唯一的、确定的常数,但一般情况下又是未 知的。
⚫ 常用的总体参数有 ⚫ 总体均值 ⚫ 总体标准差、总体方差 ⚫ 总体比例(成数)
第一节 抽样和抽样方法
⚫ 样本标准差
s =
1 n −1
n i =1
(xi
−
x )2,或s
=
1
m
m
(xi − x )2 fi
fi −1 i=1
i =1
⚫ 样本方差
( ) ( ) s2 = 1 n n −1 i=1
chap二重抽样优质获奖课件
6.1.2 二重抽样旳作用
1.从总体中筛选主调查旳对象。 2.在一项多指标旳大规模调查中,为了节省调查费用,对个
体指标差别较大或要求精度较高旳,调查一种大样本,而 对个体指标差别较小或要求精度较低旳则可仅调查一种较 小样本。 3.对于那些为提升抽样效率在抽样或构造估计量时需要总 体某些辅助信息旳情形,二重抽样能够发挥很大作用。 4. 二重抽样能够用来研究样本轮换中旳某些问题。
分层抽样旳前提:总体中全部单元已按某种分层标志明确 旳提成若干层,且层权已知。假如层不明确,分层抽样就 无法进行。二重分层抽样可用以处理此类问题。
6.2.1环节:
1.用简朴随机抽样在总体中抽取一种样本量为n'旳第一重 样本,调查辅助变量X。
2.根据已知旳分层标志将第一重样本中旳全部单元归入不同
旳层,记nh '是属于第h层旳单元数(h=1,2,…,L;L是层
1 n
1 n
se2
1 n
1 n
1
2
s
2 y
其中 se2
1 2
s
2 y
是第一重样本残差方差,它旳均值近似
等于总体残差方差 Se2 1 2 SY2 ,于是
V
ylrD
V1
y
1 n
1 n
E1
se2
1 n
1 N
SY2
1 n
1 n
1
2
SY2
SY2 n
1 n
1 n
2
2 X
2RSYX
(3)为了估计方差 V yRD ,用第二重样本旳方差与协方差
抽样调查-第9章 二重抽样
二、二重抽样与两阶段抽样的区别
1.两阶段抽样是先从总体N个单元中抽出n个样本 单元,却并不对n个样本都进行调查,而是从中再抽出 若干个二级单元进行调查。
返回
2。两阶段抽样的第二阶段抽样单元与第一阶段抽样 单元往往是不同的。而二重抽样的第二重样本往往是 第一重样本的子样本。
三、二重抽样的作用
(一)有利于筛选主调查对象 (二)节约调查费用 (三)提高抽样效率
80 60 40 20 200 2 7 15 40
2 yij j
2 j
s
400 3100 9600 45120
1.01 2.71 15.38 690.53
解
w1
根据上表可计算各层的权重:
540 0.32, w3 0.10, w4 0.04 0.54, w2 1000
第一重样本第h层方差:sh
2
nh 1 2 2 第二重样本第h层方差:sh ( y y ) hj h nh 1 j 1
二、抽样方法
第一步: 利用简单随机抽样,从总体的N个单元中随机 抽取第一重样本,样本单元数为 n ;根据已知的分层标 n 志将第一重样本分层,令 wh h , (h 1,2,, L) ,则 n 是总体层权 W 的无偏估计。 wh
L
而总体均值估计量的方差为:
1 1 2 L Wh S h2 1 V ( y stD ) ( ) S ( 1) n N n f hD h 1
返回
要在一定的费用约束下使估计方差最小化,则有
L V ( y stD ) (C c1n n c2 h f hDWh )
§9.1 引言
一、二重抽样的定义
二重抽样(double sampling),也称二相抽样,是指分 两步抽取样本。先从总体N中抽样一个较大的 样本 n ,称为第一重样本,对其进行调查以获 取总体的某些信息,为下一步的抽样估计提供 条件;然后在第一重样本中再进行第二次抽样。 这种抽样方法称为二重抽样。
抽样检验中的双重抽样方法与效果评估
抽样检验中的双重抽样方法与效果评估抽样检验是统计学中一种重要的数据分析方法,用于判断样本数据是否代表总体,并进行统计推断。
抽样检验的精确性和准确性对研究结果的可靠性起着至关重要的作用。
为了增加抽样检验的效果评估,双重抽样方法被广泛采用。
本文将探讨双重抽样方法及其在抽样检验中的效果评估。
一、双重抽样方法的概念和原理双重抽样方法指的是采用两次独立的抽样过程,通过分别对两个抽样集合进行统计分析,来对总体进行推断。
这样的双重抽样方法能够在保证数据的可靠性的同时提高推断的准确性。
在使用双重抽样方法时,第一次抽样通常是从总体中随机选择样本,这个样本称为一级样本。
然后,从一级样本中再次随机选择一部分样本,形成二级样本。
通过对一级样本和二级样本的统计分析,可以得到更加精确的估计结果。
双重抽样方法的基本原理就是通过两次独立的抽样,减小抽样误差,提高估计的准确性。
二、双重抽样方法的应用双重抽样方法被广泛应用于各个领域的统计研究中。
下面将介绍其中两个常见的应用案例。
1.医学研究中的双重抽样方法在医学研究中,为了对新药的疗效进行评估,常常采用对患者进行双重随机抽样的方法。
首先,在一级样本中随机选择一部分患者,将其分为实验组和对照组。
然后,在实验组和对照组中再次随机选择一部分患者进行观察和数据采集。
通过对数据的统计分析,可以判断新药的疗效和安全性。
2.社会调查中的双重抽样方法在社会调查中,为了保证样本的多样性和代表性,常常采用双重抽样方法。
首先,在一级样本中随机选择一部分个体,然后在这些个体中进行二级随机抽样,得到用于调查的最终样本。
通过对最终样本的数据分析,可以对总体进行推断,得出调查结果。
三、双重抽样方法的效果评估为了评估双重抽样方法的效果,需要进行有效的效果评估。
下面将介绍两种常见的双重抽样方法的效果评估方式。
1.重抽样法重抽样法是一种用于评估双重抽样效果的常用方法。
在重抽样法中,通过对已有数据进行重复随机抽样,得到同等大小的样本,然后利用这些样本进行统计分析。
二重抽样
6.1概述 概述
6.1.1二重抽样的定义 二重抽样的定义 二重抽样(也叫二相抽样),抽样过程分两 二重抽样(也叫二相抽样),抽样过程分两 ),抽样过程分 进行: 步进行:
第一步称为第一 第一步称为第一重(相)抽样,是从总体中抽取 抽样, 一个比较大的样本,称为第一重( 比较大的样本 样本。 一个比较大的样本,称为第一重(相)样本。目 的是获取有关总体的某些辅助信息 辅助信息, 的是获取有关总体的某些辅助信息,为下一步的 第二重抽样估计提供条件。 第二重抽样估计提供条件。 第二步称为第二 抽样, 第二步称为第二重(相)抽样,是从第一重样本 中抽取的相对较小的样本,称为第二重( 较小的样本 中抽取的相对较小的样本,称为第二重(相)样 它是第一重样本的一个子样本, 本。它是第一重样本的一个子样本,对它进行的 调查是主调查。 调查是主调查。
Y
′ ystD = ∑ wh yh
h =1
L
性质: 性质:
(1)
E ( ystD ) = Y
1 1 1 2 2 1 (2)V ( ystD ) = − S + ∑ Wh S h − 1 n′ N h n′ γh
V 的一个近似无偏估计: (3) ( ystD ) 的一个近似无偏估计:
1 1 22 1 1 2 ′ v ( ystD ) = ∑ − w′h sh + − ∑ wh ( yh − ystD ) ′ nh n′ N h h nh
证明: 证明:
K (1)E( y ) = E E ( y ) = E E ′ 1 2 ∑ wh yh stD 1 2 stD h=1
抽样技术(第5版)课件PPT课件第9章
i
Y ) nN 具有无偏估计:
v( y )
n
(y
i 1
i
y ) 2 n(n 1)
n
y
i 1
i
n 是 Y 的无偏估计。其方差 V ( y )
2.放回的PPS抽样
假设按放回的 PPS 抽样方式抽取一个样本量为 n 的样本,第 j 个单元每次入样的概率
为 Z j ,则总体总和 Y 的估计及其方差为:
ത
就不独立了。令መ = 由于其为线性形式,故总体均值
ത
的刀切法估计量即
መ
为其本身:
1
መ
ҧ = መ = ത
=1
መҧ
的方差估计为:
1
መҧ =
=1
=1
1
−1
መ
2
(መ − )ҧ =
[ത − ]
ത2
( − 1)
4.用于比率估计
假定要估计比值 = /,其中Y与X是总体总和。通常的估计量 =
1
ҧ 2
( − )
( − 1)
=1
随机组的划分和组数的确定
独立随机组不存在随机组的划分问题
非独立随机组情形,需要考虑如何进行随机组
的划分
随机组的划分的一个基本原则:
每个随机组本质上具有与原始样本相同的抽
样设计
在各种抽样方法下,如何进行随机组的划分?
1.
2.
3.
不放回简单随机抽样或抽样:将原始样本进行随
将1 放回总体,按相同的方式抽取样本2
重复上述过程,直至获得k个样本
令为目标参数, ( = 1, … , )表示第j个
二重抽样
表7-1
某银行客户的样本数据
2 2 2 (2 6.42) 0.32 (7 6.42) 0.1 ( 15 6.42) 1 1 L ' 1 1 0.54 2 ( ' ) h ( y h y stD ) ( ) 2 n N h 1 1000 800 0 . 04 ( 40 6 . 42 )
h
y h )] E ( y stD ) E1 [ E 2 ( y stD )] E1 [ E 2 ( wh
h 1
L
y h ) E1 ( y ) Y E1 ( wh
h 1
L
定理7.2
y stD 的方差为:
2 1 1 2 L Wh S h 1 V ( y stD ) ( )S ( 1) n N n f hD h 1 2 f hD 是第二重样本第h 式中,S2是总体方差;S h 是第h层的总体方差;
6.3 不等概率系统抽样
行政村编号 1
人数 134
累计人数 134
抽中代码 100
2 3
4
376 202
106
510 712
818
5
6 7 8 9 10
634
397 306 247 95 588
1452
1849 2155 2402 2497 3085
1128
2156
7.1 二重抽样
前面介绍的抽样技术中,大多需要事先了解关于总体的 信息,例如分层抽样需要事先知道各层权重,比率估计 和回归估计需要知道总体的某些辅助信息,但在有些情 况下,这些信息在调查前无法预知。这时,可以先从总 体中抽取一个大的初始样本,获得总体的辅助信息,然 后再从初始样本或总体中抽取一个子样本,这种方法就 是二重抽样。
第九章 二重抽样
第十章 二重抽样第一节 二重抽样综述一、二重抽样的概念二重抽样也称二相抽样。
其基本做法是:对于一个大总体,先从总体中随机抽取一个较大的样本(第一重样本),由此估计有关总体的结构或辅助指标以及其他有关信息,为第二重抽样估计提供条件;然后再从第一重样本中随机抽取一个较小的样本(第二重样本),利用这第二重样本,对总体所研究变量进行抽样推断。
在某些情况下,也可在第二重样本中再抽第三重、第四重样本,由此形成多重抽样。
其中二重抽样是最为常用的。
二、二重抽样的作用在社会经济抽样调查中,二重抽样的主要作用有下列几方面:第一,用于从总体所有基本单元中筛选确定出主调查对象。
第二,用于经常性调查。
第三,用于了解陌生总体内在结构或分布的大致情况,为抽样方法和抽样组织形式的选择提供依据。
第四,为分层抽样推断提供层权资料。
第五,为比率估计和回归估计提供辅助资料。
第六,在经常性的多项目抽样调查中,用于解决不同调查项目需要不同样本容量的问题。
第七,用于研究样本轮换中的某些问题。
第二节 二重分层抽样一、二重分层抽样概述在分层抽样中,我们要求总体各层的层权应事先已知,如果层权未知或不能事先确定,则分层抽样在精度上的得益可能会在很大程度上被抵消掉,此时,选择二重分层抽样可以较好地解决层权问题。
二重分层抽样是先在总体中随机抽取第一重样本n ′,对这个样本各单元进行分层后求各层的层权,然后从第一重样本中用分层随机抽样法抽取第二重样本n ,用于估计总体指标。
由于第一重简单随机抽样,第二重分层抽样,故其误差同二重的抽样都有关。
二、估计量及其方差总体均值估计量为∑===Lh h h stD stD y w y Y 1ˆ其中∑==hn j hjhh yn y 11为第一重样本第h 层均值的无偏估计。
可以证明stD y 是总体均值stD Y 的无偏估计量。
如果第一重样本是随机样本,第二重样本为第一重样本的随机子样本,则估计量的方差为∑∑==-+-=-+-=+=Lh h h h Lh h h h h stD v n S W N n S n n n S W N n n S y V E y V Y V 1221222211)11(')1'1()1'(')'1(')]([)'()ˆ( 其中)'(1y V 为第一重抽样之方差,)(2y V 为第二重抽样之方差。
第九章统计知识点梳理
第九章统计9.1随机抽样1.全面调查与抽样调查(1)对每一个调查对象都进行调查的方法,称为全面调查,又称普查W.(2)在一个调查中,我们把调查对象的全体称为总体,组成总体的每一个调查对象称为个体W.(3)根据一定的目的,从总体中抽取一部分个体进行调查,并以此为依据对总体的情况作出估计和推断的调查方法,称为抽样调查W.(4)把从总体中抽取的那部分个体称为样本W.(5)样本中包含的个体数称为样本量W.(6)调查样本获得的变量值称为样本的观测数据,简称样本数据.2.简单随机抽样(1)有放回简单随机抽样一般地,设一个总体含有N(N为正整数)个个体,从中逐个抽取n(1≤n<N)个个体作为样本,如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做放回简单随机抽样.(2)不放回简单随机抽样如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简单随机抽样.(3)简单随机抽样放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样.(4)简单随机样本通过简单随机抽样获得的样本称为简单随机样本.(5)简单随机抽样的常用方法实现简单随机抽样的方法很多,抽签法和随机数法是比较常用的两种方法.■名师点拨(1)从总体中,逐个不放回地随机抽取n个个体作为样本,一次性批量随机抽取n个个体作为样本,两种方法是等价的.(2)简单随机抽样中各个个体被抽到的机会都相等,从而保证了抽样的公平性.3.总体平均数与样本平均数(1)总体平均数①一般地,总体中有N 个个体,它们的变量值分别为Y 1,Y 2,…,Y N ,则称Y -=Y 1+Y 2+…+Y N N=1N ∑N i =1Y i 为总体均值,又称总体平均数. ②如果总体的N 个变量值中,不同的值共有k (k ≤N )个,不妨记为Y 1,Y 2,…,Y k ,其中Y i 出现的频数f i (i =1,2,…,k ),则总体均值还可以写成加权平均数的形式Y -=1N ∑k i =1f i Y iW. (2)样本平均数如果从总体中抽取一个容量为n 的样本,它们的变量值分别为y 1,y 2,…,y n ,则称y -=y 1+y 2+…+y n n=1n ∑n i =1y i 为样本均值,又称样本平均数.在简单随机抽样中,我们常用样本平均数y -去估计总体平均数Y -.4.分层随机抽样(1)分层随机抽样一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层W.(2)比例分配在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配.5.分层随机抽样中的总体平均数与样本平均数(1)在分层随机抽样中,如果层数分为2层,第1层和第2层包含的个体数分别为M 和N ,抽取的样本量分别为m 和n .我们用X 1,X 2,…,X M 表示第1层各个个体的变量值,用x 1,x 2,…,x m 表示第1层样本的各个个体的变量值;用Y 1,Y 2,…,Y N 表示第2层各个个体的变量值,用y 1,y 2,…,y n 表示第2层样本的各个个体的变量值,则:①第1层的总体平均数和样本平均数分别为X -=X 1+X 2+…+X M M =1M ∑M i =1X i ,x -=x 1+x 2+…+x m m=1m ∑m i =1x i . ②第2层的总体平均数和样本平均数分别为Y -=Y 1+Y 2+…+Y N N =1N ∑N i =1Y i ,y -=y 1+y 2+…+y n n=1n ∑n i =1y i . ③总体平均数和样本平均数分别为W -=∑M i =1X i +∑N i =1Y i M +N ,w -=∑m i =1x i +∑ni =1y i m +nW. (2)由于用第1层的样本平均数x -可以估计第1层的总体平均数X -,用第2层的样本平均数y -可以估计第2层的总体平均数Y -.因此我们可以用M ×x -+N ×y -M +N =M M +N x -+N M +Ny -估计总体平均数W -. (3)在比例分配的分层随机抽样中,m M =n N =m +n M +N ,可得M M +N x -+N M +Ny -=m m +n x -+n m +ny -=w -.因此,在比例分配的分层随机抽样中,我们可以直接用样本平均数w -估计总体平均数W -.6.获取数据的途径获取数据的基本途径有:(1)通过调查获取数据;(2)通过试验获取数据;(3)通过观察获取数据;(4)通过查询获取数据典型应用1总体、样本等概念辨析题为了调查参加运动会的1 000名运动员的平均年龄,从中抽取了100名运动员进行调查,下面说法正确的是()A.1 000名运动员是总体B.每个运动员是个体C.抽取的100名运动员是样本D.样本量是100【解析】根据调查的目的可知,总体是这1 000名运动员的年龄,个体是每个运动员的年龄,样本是抽取的100名运动员的年龄,样本量为100.故答案为D.【答案】D此类题目要正确理解总体与个体的概念,要弄明白概念的实质,并注意样本与样本容量的不同,其中样本量为数目,无单位.典型应用2简单随机抽样的概念下面的抽样方法是简单随机抽样吗?为什么?(1)从无数个个体中抽取50个个体作为样本;(2)仓库中有1万支奥运火炬,从中一次抽取100支火炬进行质量检查;(3)某连队从200名党员官兵中,挑选出50名最优秀的官兵赶赴灾区开展救灾工作.【解】(1)不是简单随机抽样.因为简单随机抽样要求被抽取的样本总体的个数是有限的.(2)不是简单随机抽样.虽然“一次性抽取”和“逐个抽取”不影响个体被抽到的可能性,但简单随机抽样要求的是“逐个抽取”.(3)不是简单随机抽样.因为这50名官兵是从中挑选出来的,是最优秀的,每个个体被抽到的可能性不同,不符合简单随机抽样中“等可能抽样”的要求.要判断所给的抽样方法是否为简单随机抽样,关键是看它们是否符合简单随机抽样的定义,即简单随机抽样的四个特点.典型应用3抽签法及随机数法的应用某班有50名学生,要从中随机地抽出6人参加一项活动,请分别写出利用抽签法和随机数法抽取该样本的过程.【解】(1)利用抽签法步骤如下:第一步:将这50名学生编号,编号为01,02,03, (50)第二步:将50个号码分别写在纸条上,并揉成团,制成号签.第三步:将得到的号签放在一个不透明的容器中,搅拌均匀.第四步:从容器中逐一抽取6个号签,并记录上面的号码.对应上面6个号码的学生就是参加该项活动的学生.(2)利用随机数法步骤如下:第一步:将这50名学生编号,编号为1,2,3, (50)第二步:用随机数工具产生1~50范围内的整数随机数,把产生的随机数作为抽中的编号,使与编号对应的学生进入样本.第三步:重复第二步的过程,直到抽足样本所需人数.对应上面6个号码的学生就是参加该项活动的学生.(1)利用抽签法抽取样本时应注意以下问题:①编号时,如果已有编号(如学号、标号等)可不必重新编号.(例如该题中50名同学,可以直接利用学号)②号签要求大小、形状完全相同.③号签要搅拌均匀.④抽取号签时要逐一、不放回抽取.(2)利用随机数法抽取样本时应注意的问题:如果生成的随机数有重复,即同一编号被多次抽到,应剔除重复的编号并重新产生随机数,直到产生的不同编号个数等于样本所需的人数.典型应用4分层随机抽样中的有关计算(1)某单位共有老、中、青年职工430人,其中有青年职工160人,中年职工人数是老年职工人数的2倍,为了解职工身体状况,现采用分层随机抽样方法进行调查,在抽取的样本中有青年职工32人,则该样本中的老年职工的人数为W.(2)某高中学校为了促进学生个体的全面发展,针对学生发展要求,开设了富有地方特色的“泥塑”与“剪纸”两个社团,已知报名参加这两个社团的学生共有800人,按照要求每人只能参加一个社团,各年级参加社团的人数情况如下表:其中x∶y∶z=5∶3∶2,且“泥塑”社团的人数占两个社团总人数的35,为了了解学生对两个社团活动的满意程度,从中抽取一个50人的样本进行调查,则从高二年级“剪纸”社团的学生中应抽取人.【解析】(1)设该单位老年职工人数为x,由题意得3x=430-160,解得x=90.则样本中的老年职工人数为90×32160=18.(2)法一:因为“泥塑”社团的人数占总人数的3 5,故“剪纸”社团的人数占总人数的2 5,所以“剪纸”社团的人数为800×25=320;因为“剪纸”社团中高二年级人数比例为yx+y+z=32+3+5=310,所以“剪纸”社团中高二年级人数为320×310=96.由题意知,抽样比为50800=116,所以从高二年级“剪纸”社团中抽取的人数为96×116=6.法二:因为“泥塑”社团的人数占总人数的3 5,故“剪纸”社团的人数占总人数的2 5,所以抽取的50人的样本中,“剪纸”社团中的人数为50×25=20.又“剪纸”社团中高二年级人数比例为yx+y+z=32+3+5=310,所以从高二年级“剪纸”社团中抽取的人数为20×310=6.【答案】(1)18(2)6分层随机抽样中有关计算的方法(1)抽样比=该层样本量n总样本量N=该层抽取的个体数该层的个体数.(2)总体中某两层的个体数之比=样本中这两层抽取的个体数之比.对于分层抽样中求某层个体数,或某层要抽取的样本个体数,都可以通过上面两个等量关系求解.典型应用5样本平均数的求法(1)甲在本次飞镖游戏中的成绩为8,6,7,7,8,10,9,8,7,8.求甲在本次游戏中的平均成绩.(2)在了解全校学生每年平均阅读多少本文学经典名著时,甲同学抽取了一个容量为10的样本,并算得样本的平均数为5;乙同学抽取了一个容量为8的样本,并算得样本的平均数为6.已知甲、乙两同学抽取的样本合在一起组成一个容量为18的样本,求合在一起后的样本均值.【解】(1)甲在本次游戏中的平均成绩为6+3×7+4×8+9+1010=7.8.(2)合在一起后的样本均值为10×5+8×610+8=50+4818=499.在分层随机抽样中,如果第一层的样本量为m,平均值为x;第二层的样本量为n,平均值为y,则样本的平均值为mx+ny m+n.9.2用样本估计总体1.频率分布表、频率分布直方图的制作步骤及意义2.百分位数(1)定义:一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.(2)计算步骤:计算一组n个数据的第p百分位数的步骤:第1步,按从小到大排列原始数据.第2步,计算i=n×p%.第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.典型应用1频率分布表、频率分布直方图、频率分布折线图的绘制角度一频率分布表、频率分布直方图的绘制为考查某校高二男生的体重,随机抽取44名高二男生,实测体重数据(单位:kg)如下:57,61,57,57,58,57,61,54,68,51,49,64,50,48,65,52,56,46,54,49,51,47,55,55,54,42,51,56,55,51,54,51,60,62,43,55,56,61,52,69,64,46,54,48将数据进行适当的分组,并画出相应的频率分布直方图和频率分布折线图.【解】以4为组距,列表如下:频率分布直方图和频率分布折线图如图所示.(1)在列频率分布表时,极差、组距、组数有如下关系:①若极差组距为整数,则极差组距=组数;②若极差组距不为整数,则极差组距的整数部分+1=组数.(2)组距和组数的确定没有固定的标准,将数据分组时,组数力求合适,纵使数据的分布规律能较清楚地呈现出来,组数太多或太少,都会影响我们了解数据的分布情况,若样本容量不超过100,按照数据的多少常分为5~12组,一般样本量越大,所分组数越多.角度二频率分布直方图的应用为了了解高一年级学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小长方形面积之比为2∶4∶17∶15∶9∶3,第二小组的频数为12.(1)第二小组的频率是多少?样本量是多少?(2)若次数在110以上(含110次)为达标,则该校全体高一年级学生的达标率是多少?(3)样本中不达标的学生人数是多少?(4)第三组的频数是多少?【解】(1)频率分布直方图以面积的形式反映数据落在各小组内的频率大小,因此第二小组的频率为42+4+17+15+9+3=0.08.又因为第二小组的频率=第二小组的频数样本量,所以样本容量=第二小组的频数第二小组的频率=120.08=150.(2)由直方图可估计该校高一年级学生的达标率为17+15+9+32+4+17+15+9+3×100%=88%.(3)由(1)(2)知达标率为88%,样本量为150,不达标的学生频率为1-0.88=0.12. 所以样本中不达标的学生人数为150×0.12=18(人).(4)第三小组的频率为172+4+17+15+9+3=0.34.又因为样本量为150,所以第三组的频数为150×0.34=51.频率分布直方图的应用中的计算问题(1)小长方形的面积=组距×频率组距=频率;(2)各小长方形的面积之和等于1;(3)频数样本量=频率,此关系式的变形为频数频率=样本量,样本量×频率=频数.典型应用2条形统计图为了丰富校园文化生活,某校计划在午间校园广播台播放“百家讲坛”的部分内容.为了了解学生的喜好,抽取若干名学生进行问卷调查(每人只选一项内容),整理调查结果,绘制统计图如图所示.请根据统计图提供的信息回答以下问题:(1)求抽取的学生数;(2)若该校有3 000名学生,估计喜欢收听易中天《品三国》的学生人数;(3)估计该校喜欢收听刘心武评《红楼梦》的女学生人数约占全校学生人数的百分比.【解】 (1)从统计图上可以看出,喜欢收听于丹析《庄子》的男生有20人,女生有10人;喜欢收听《故宫博物院》的男生有30人,女生有15人;喜欢收听于丹析《论语》的男生有30人,女生有38人;喜欢收听易中天《品三国》的男生有64人,女生有42人;喜欢收听刘心武评《红楼梦》的男生有6人,女生有45人.所以抽取的学生数为20+10+30+15+30+38+64+42+6+45=300(人).(2)喜欢收听易中天《品三国》的男生有64人,女生有42人,共有106人,占所抽取总人数的比例为106300,由于该校有3 000名学生,因此可以估计喜欢收听易中天《品三国》的学生有106300×3 000=1 060(人).(3)该校喜欢收听刘心武评《红楼梦》的女学生人数约占全校学生人数的比例为45300×100%=15%.(1)绘制条形统计图时,第一步确定坐标系中横轴和纵轴上坐标的意义,第二步确定横轴上各部分的间距及位置,第三步根据统计结果绘制条形图.实际问题中,我们需根据需要进行分组,横轴上的分组越细,对数据的刻画(描述)就越精确.(2)在条形统计图中,各个矩形图的宽度没有严格要求,但高度必须以数据为准,它直观反映了各部分在总体中所占比重的大小.典型应用3折线统计图小明同学因发热而住院,下图是根据护士为他测量的体温所绘制的体温折线图.根据图中的信息,回答以下问题:(1)护士每隔几小时给小明测量一次体温?(2)近三天来,小明的最高体温、最低体温分别是多少?(3)从体温看,小明的病情是在恶化还是在好转?(4)如果连续36小时体温不超过37.2摄氏度的话,可认为基本康复,那么小明最快什么出院?【解】(1)根据横轴表示的意义,可知护士每隔6小时给小明测量一次体温.(2)从折线统计图中的最高点和最低点对应的纵轴意义,可知最高体温是39.5摄氏度,最低体温是36.8摄氏度.(3)从图中可知小明的体温已经下降,并趋于稳定,因此病情在好转.(4)9月8日18时小明的体温是37摄氏度.其后的体温未超过37.2摄氏度,自9月8日18时起计算,连续36小时后对应的时间为9月10日凌晨6时.因此小明最快可以在9月10凌晨6时出院.(1)绘制折线统计图时,第一步,确定直角坐标系中横、纵坐标表示的意义;第二步,确定一个单位长度表示一定的数量,根据数量的多少描出各点;第三步,用直线段顺次连接即可.(2)在折线统计图中,从折线的上升、下降可分析统计数量的增减变化情况,从陡峭程度上,可分析数据间相对增长、下降的幅度.典型应用4扇形统计图下图是A ,B 两所学校艺术节期间收到的各类艺术作品的情况的统计图:(1)从图中能否看出哪所学校收到的水粉画作品数量多?为什么?(2)已知A 学校收到的剪纸作品比B 学校的多20件,收到的书法作品比B 学校的少100件,请问这两所学校收到艺术作品的总数分别是多少件?【解】 (1)不能.因为两所学校收到艺术作品的总数不知道.(2)设A 学校收到艺术作品的总数为x 件,B 学校收到艺术作品的总数为y 件,则⎩⎨⎧10%x -5%y =20,50%y -40%x =100,解得⎩⎨⎧x =500,y =600,即A 学校收到艺术作品的总数为500件,B 学校收到艺术作品的总数为600件.(1)绘制扇形统计图时,第一步计算各部分所占百分比以及对应圆心角的度数;第二步在圆中按照上述圆心角画出各个扇形并恰当标注.(2)扇形统计图表示总体的各部分之间的百分比关系,但不同总量下的扇形统计图,其不同的百分比不可以作为比较的依据.典型应用5百分位数的计算现有甲、乙两组数据如下表所示.序11111111112【解】因为数据个数为20,而且20×25%=5,20×75%=15.因此,甲组数的25%分位数为x5+x62=2+32=2.5;甲组数的75%分位数为x15+x162=9+102=9.5.乙组数的25%分位数为x5+x62=1+12=1,乙组的75%分位数为x15+x162=10+142=12.求百分位数时,一定要将数据按照从小到大的顺序排列.9.3统计案例公司员工的肥胖情况调查分析1.平均数和中位数的特点(1)样本平均数与每一个样本数据有关,样本中的任何一个数据的改变都会引起平均数的改变.(2)中位数只利用了样本数据中间位置的一个或两个值,并未利用其他数据,所以不是任何一个样本数据的改变都会引起中位数的改变.(3)与中位数相比较,平均数反映出样本数据中的更多信息,对样本中的极端值更加敏感.2.中位数、平均数与频率分布直方图的关系一般来说,对一个单峰的频率分布直方图来说,如果直方图的形状是对称的(图(1)),那么平均数和中位数应该大体上差不多;如果直方图在右边“拖尾”(图(2)),那么平均数大于中位数;如果直方图在左边“拖尾”(图(3)),那么平均数小于中位数.也就是说,和中位数相比,平均数总是在“长尾巴”那边.3.众数的特点众数只利用了出现次数最多的那个值的信息.众数只能告诉我们它比其他值出现的次数多,但并未告诉我们它比别的数值多的程度.因此,众数只能传递数据中的信息的很少一部分,对极端值也不敏感.■名师点拨一般地,对数值型数据(如用水量、身高、收入、产量等)集中趋势的描述,可以用平均数、中位数;而对分类型数据(如校服规格、性别、产品质量等级等)集中趋势的描述,可以用众数.4.总体方差与总体标准差如果总体中所有个体的变量值分别为Y 1,Y 2,…,Y N ,总体平均数为Y -,则称S 2=1N ∑N i =1__(Y i -Y -)2为总体方差,S 体方差也可以写成加权的形式.如果总体的N 个变量值中,不同的值共有k (k ≤N )个,不妨记为Y 1,Y 2,…,Y k ,其中Y i 出现的频数为f i (i =1,2,…,k ),则总体方差为S 2=1N ∑k i =1f i (Y i -Y -)2. 5.样本方差与样本标准差。
抽样调查09
9.3初级单元大小不等时的二阶抽样(I)
• 9.3.1记号
N
记:Yiji=1,K , N,j=1,K , Mi, M0 Mi
i 1
为总体中第i个初级单元中第j个次级单元的指标值,
记:yiji=1,K , n,j=1,K , mi 为样本中第i个初级单元中第j个次级单元的指标值
f1
n N
,f2i
Yˆ HH =
1 n
n i=1
Miyi zi
Var(Yˆ HH )=
1 n
N i=1
Zi
Yi Zi
2
Y
1 n
N
M
2 i
i=1
1 f2i Zi
S22i
v(Yˆ HH )=
1
n n-1
n i=1
Miyi zi
Yˆ HH
2
(9.22) (9.23) (9.24)
9.3初级单元大小不等时的二阶抽样(I)
nm
n i=1
m
yij
j=1
1 n
n
yi
i=1
作为总体均值的估计
Y= 1
NM
N i=1
M
Yij
j=1
1 N
N
Yi
i=1
的估计,有如下性质:
1. Ey Y
2.
Var(y)= 1-f1 n
S12
1-f2 mn
S22
(9.3) (9.4)
9.2初级单元大小相等时的二阶抽样
• 9.2.2总体均值的估计及其性质
一般意义而言,两次抽样的期望和方差公式为:
1. 期望: Eˆ=E1E2ˆ
(9.5)
2.方差:
Var(ˆ)=V1 E2
抽样调查-第9节二重抽样
s(Y ) Ns( ystD ) N v( ystD ) 2427.32 (百万元)
四、二重分层抽样样本量的最优分配
二重分层抽样中有两次抽样,这两次抽样的样本量
即n和n ,直接影响估计的精度。第一重抽样n越大,
对分层信息的了解和估计就越精确,从而可以减少估计
量的误差;同样,第二重抽样 n 越大,估计量的方差越
采用二重分层抽样,对总体均值Y 的估计量为:
Байду номын сангаас
L
ystD wh yh
h1
(二)均值估计量 ystD 的性质
性质1 估计量 y stD是 Y的无偏估计。即 E( ystD ) Y
因为
E(yh)
y
h
L
所以有 E( ystD ) E1[E2 ( ystD )] E1[E2 ( wh yh )]
h1
j 1,2, , nh;h 1,2, , L
第二重样本第h层样本单元的平均数: yh
总体方差:S 2
,第h层的总体方差:
S
2 h
1 nh
nh
yhj
j 1
返回
第一重样本第h层方差:sh 2
第二重样本第h层方差:sh2
1 nh 1
nh
( yhj
j 1
yh )2
二、抽样方法
第一步: 利用简单随机抽样,从总体的N个单元中随机
h1
(1 nh
1 nh
)wh 2sh2
(1 n
1 N
L
)
h1
wh
(
yh
y stD
)2
式中,v( ystD )为V ( ystD ) 的近似无偏估计;sh2为第二重样
第九章二阶与多阶抽样(抽样调查理论与方法-北京商学院
如果a2(12a)[mopt] ,则取 m[mopt]1
如果 a2(12a)[mopt],则取 m[mopt ]
易见,对于m o p t 的小数部分大于或等于0.5的情况,我们总取 m[mopt]1 ,这符合通常的“五入”规则,是否“四舍”
当 a 0.5时,就要看 m o p t 的最小整数部分的大小了。
在分层二阶抽样中当然也存在最优抽样比的问题,不过此
时假定费用函数一般应当与“层”有关系:
k
k
Cc0 c1hn 1h c2hn2hm h
(9.14)
h1
h1
固定费用C而使方差达到最小或方差有一定精度要求下使 费用达到最小,此时 m h 的最优选择为:
mh
S2h S12hS22h Mh
c1h c2h
S02c2m
(9.6)
达到最小,这两个加项的乘积恰好为常数 S02S22c1c2 ,因此
只要这两项相等就可使Q达到最小,此时应取
S0
S2 c1 m c2m
或者m的最优取值为:
m opt
S2 S0
c1 c2
(9.7)
一般地,m o p t 不是整数,记 [ m o p t ] 为 m o p t 的最小整数部分,那 么 mopt [mopt]a ( a 为 m o p t 的小数部分,且 a 0 )。
Y i j ——表示第 i 初级单元中第 j 个次级单元
i 1 ,2 , ,N ;j 1 ,2 , ,M i
Mi
Y i Y ij —第 i 初级单元总和 j1
Yi Yi Mi—第 i 初级单元平均值
N
N Mi
YYi Yij
i1
i1 j1
——总体总和
二重抽样习题答案
二重抽样习题答案二重抽样习题答案在统计学中,抽样是一种常用的数据收集方法,通过从总体中选择一个样本来推断总体的特征。
而二重抽样是一种更为复杂的抽样方法,它将样本分为两个层次,通过在第一层次抽取样本,再在第二层次抽取样本,从而得到最终的样本。
下面将介绍几个关于二重抽样的习题,并给出相应的答案。
习题一:某市有10个区,每个区有100个街道,每个街道有50户居民。
现在要进行一项调查,目标是了解该市居民的生活水平。
采用二重抽样方法,第一层次抽取5个区,第二层次抽取5个街道,每个街道抽取5个居民。
问:该调查中最终需要抽取多少个居民进行调查?答案:首先计算第一层次抽样的样本量,即5个区,每个区抽取一个街道,共计5个街道。
然后计算第二层次抽样的样本量,即每个街道抽取5个居民,共计25个居民。
最终的样本量为5个街道× 25个居民 = 125个居民。
习题二:某公司有1000名员工,其中男性员工占60%,女性员工占40%。
现在要进行一项调查,目标是了解员工对公司福利待遇的满意度。
采用二重抽样方法,第一层次抽取400名员工,第二层次抽取200名员工。
问:该调查中最终需要抽取多少名男性员工和多少名女性员工进行调查?答案:首先计算第一层次抽样的样本量,即抽取400名员工。
然后计算第二层次抽样的样本量,即抽取200名员工。
根据男性员工占总员工数的比例,计算出需要抽取的男性员工数量为400 × 60% = 240名,女性员工数量为400 × 40% = 160名。
最终的样本量为240名男性员工 + 160名女性员工 = 400名员工。
习题三:某市的居民总数为100000人,其中60%的人住在城市,40%的人住在农村。
现在要进行一项调查,目标是了解居民对市政府的满意度。
采用二重抽样方法,第一层次抽取5000名居民,第二层次抽取2000名居民。
问:该调查中最终需要抽取多少名城市居民和多少名农村居民进行调查?答案:首先计算第一层次抽样的样本量,即抽取5000名居民。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
抽取第一重样本,样本单元数为 n;根据已知的分层标 志w将h 是第总一体重层样权本W分h层的,无令偏估wh计。nnh , (h 1,2, , L) ,则
第二步:利用分层随机抽样,从第一重样本中抽取出
第二重样本,样本单元数为n ,第h层样本单元数为 nh
L
n nh
h1
返回
三、估计量及其性质 (一)均值估计量
s(Y ) Ns( ystD ) N v( ystD ) 2427.32 (百万元)
四、二重分层抽样样本量的最优分配
二重分层抽样中有两次抽样,这两次抽样的样本量
即n和n ,直接影响估计的精度。第一重抽样n越大,
对分层信息的了解和估计就越精确,从而可以减少估计
量的误差;同样,第二重抽样 n 越大,估计量的方差越
采用二重分层抽样,对总体均值Y 的估计量为:
L
ystD wh yh
h1
(二)均值估计量 ystD 的性质
性质1 估计量 y stD是 Y的无偏估计。即 E( ystD ) Y
因为
E(yh)
y
h
L
所以有 E( ystD ) E1[E2 ( ystD )] E1[E2 ( wh yh )]
h1
返回
该银行共有8000个客户,故全部客户资产总额为:
Y N ystD 8000 6.42 51360 (百万元)
y stD 的方差估计为:
L
v( ystD )
h1
(1 nh
1 nh
)wh 2sh2
(1 n
1 N
L
)
h1
wh
(
yh
y stD
)2
L
h1
(1 nh
1 nh
)wh 2sh2
(1 80
§9.1 引言
一、二重抽样的定义
二重抽样(double sampling),也称二相抽样,是指分 两步抽取样本。先从总体N中抽样一个较大的
样本 n ,称为第一重样本,对其进行调查以获
取总体的某些信息,为下一步的抽样估计提供 条件;然后在第一重样本中再进行第二次抽样。 这种抽样方法称为二重抽样。
二、二重抽样与两阶段抽样的区别
二重分层抽样方法。第一重样本量 n =1000,根据其自
报的资产情况可分为4层:第一层为300万元以下;第二 层为300万元~1000万元;第三层为1000万元~件2000万 元;第四层为2000万元以上。然后在第一重样本分层的 基础上,在各层分别抽取第二重样本。第二重样本量为
4
n nh 200 ,对这200个客户进行详细的调查,取
L
E1(
wh
yh
)
E1 (
y
h
)
Y
h1
返回
性质2 y stD 的方差为:
V
( y stD
)
(1 n
1 N
)S
2
L
Wh
S
2 h
h1 n
(
1 f hD
1)
式中,
S
2
为总体方差;S
2 h
为第h层的总体方差;
fhD 为第二重样本第h层的抽样比。
性质3 y stD的样本估计量为:
L
v( ystD )
1.两阶段抽样是先从总体N个单元中抽出n个样本 单元,却并不对n个样本都进行调查,而是从中再抽出 若干个二级单元进行调查。
返回
2。两阶段抽样的第二阶段抽样单元与第一阶段抽样 单元往往是不同的。而二重抽样的第二重样本往往是 第一重样本的子样本。
三、二重抽样的作用
(一)有利于筛选主调查对象 (二)节约调查费用 (三)提高抽样效率 (四)可用于研究样本轮换中的某些问题 (五)降低无回答偏倚
h1
第一重样本第h层的单元数: nh
L
第一重样本单元数: n nh
h1
返回
第二重样本第h层的单元数:nh
L
第二重样本单元数:n nh
h1
总体单元第h层的权重:
Wh
Nh N
第一重样本第h层的权重:wh
nh n
第第二二重重样样本本第第hh层层的j单抽元样的比观:测f值hD:yhnnj hh ,0 fhD 1
h1
(1 nh
1 nh
)wh 2sh2
(1 n
1 N
L
)
h1
wh
(
yh
y stD
)2
式中,v( ystD )为V ( ystD ) 的近似无偏估计;sh2为第二重样
本第h层方差。
返回
【例9.1】某银行要调查其客户的资产情况,已知该银
行的客户数为8000,针对客户规模差异较大的特点,拟 采用分层抽样。但由于缺乏现有的分层资料,决定采用
1 )(0.54)2 (1.01) 540
( 1 1 )(0.04)2 (690.53) 0.036822
20 40
(1 n
1
N
)
L h1
wh
(yh
y stD )2
0.055239
返回
因此,v( ystD ) 0.036822 0.055239 0.092061
该银行客户资产总额的抽样标准误的估计:
j 1,2, , nh;h 1,2, , L
第二重样本第h层样本单元的平均数: yh
总体方差:S 2
,第h层的总体方差:
S
2 h
1 nh
nh
yhj
j 1
返回
第一重样本第h层方差:sh 2
第二重样本第h层方差:sh2
1 nh 1
nh
( yhj
j 1
yh )2
二、抽样方法
第一步: 利用简单随机抽样,从总体的N个单元中随机
sj
2
1.01 2.71 15.38 690.53
解 根据上表可计算各层的权重:
w1
540 1000
0.54,
w2
0.32, w3
0.10, w40.04该银源自客户的平均资产额估计为:L
ystD wh yh 0.54 2 0.32 7 0.1015 0.04 40
h1
6.42 (百万元)
h1
得有关数据如下表,试估计该银行所有客户的资产总额 及其抽样标准误差。
返回
分层
300万元以下 300~1000 1000~2000 2000万元以上 合计
第一重 样本
540 320 100 40 1000
第二重 样本均值
样本
yh
80
2
60
7
40
15
20
40
200
y2 ij j
400 3100 9600 45120
小。调查的经费是有限的,因此,需要在给定费用的条
件下,选择n和n ,使得估计量的方差V ( ystD ) 最小。
返回
假设第一重抽样的单元平均调查费用为c1 ,第二重 抽样第 h 层的单元平均费用为c2h 。忽略其他费用,则
返回
§9.2 为分层的二重抽样
分层抽样是一种应用广泛的抽样方程,但进行分层抽 样有一个前提,即需要将总体N个单元划分为L个互不重 叠的层,而且需要知道各层的权重。如果事先无法知道 总体的层权,可以采用二重抽样方法。
一、符号说明
用下标h表示层数,h 1,2, , L
L
总体第h层的单元数: Nh
总体单元数:N Nh