分层随机抽样
抽样技术-分层随机抽样概述
19
W1
N1 N
200 2850
0.07018
f1
n1 N1
10 200
0.05
1 n1
y1 n1 i1 y1i 39.5
s12
1 n1 1
n1 i 1
y1i y1 2 1624.722
同理,求得: y2 105
s22 2166.667
y3 165
2020/3/10
17
性质3:对于分层随机抽样, 的一个无偏估计为:
V Yˆ
v Yˆ
L
N
2 h
v
yh
h1
L h1
N
2 h
1 fh nh
s
2 h
2020/3/10
18
例3.1
调查某地区的居民奶制品年消费支出,以居民户为抽样 单元,根据经济及收入水平将居民户划分为4层,每层 按简单随机抽样抽取10户,调查获得如下数据(单位: 元),要估计该地区居民奶制品年消费总支出及其 95%的置信区间。
Wh
Nh N 第 h 层的
层权
fh
nh Nh
第 h 层的
抽样比
Yh
1 Nh
Nh
Yhi
i 1
第 h 层的
总体均值
yh
1 nh
nh i1 yhi
第 h 层的
样本均值
6
记号
Yh
yh
S
2 h
s h2
公式
Nh
Yhi NhYh
i 1
代表的含 义
第 h 层的
【抽样调查】分层随机抽样
【抽样调查】分层随机抽样第2部分:分层随机抽样⽬录概述分层随机抽样的思路:当N ,n 都较⼤,总体单元之间的差异也较⼤时,简单随机抽样会出现⾼成本、低精度情形,解决⽅法是将总体划分为若⼲个⼦总体、减少总体单元之间的差异。
假设在各个⼦总体内已经满⾜实施简单随机抽样的条件,则可以在各个⼦总体内独⽴地进⾏简单随机抽样,再将各个⼦总体参数的估计值进⾏加权,得到总体参数的估计。
分层抽样的概念:层:如果⼀个包含N 个单位的总体可以分成不重不漏的L 个⼦总体,即每个单元必定属于且仅属于⼀个⼦总体,则这样的⼦总体称为层。
有N 1+⋯+N L =N 。
分层抽样:在每⼀层中独⽴进⾏抽样,总的样本由各层样本组成,总体参数⼜按照各层样本参数的汇总作出估计。
有n 1+⋯+n L =n 。
分层随机抽样:每层的样本,都独⽴地按照简单随机抽样进⾏,这样的分层抽样称为分层随机抽样。
符号规定:h :层。
从⽽N h 代表第h 层的单位总数,n h 代表第h 层的样本数。
i :层内单位号。
从⽽Y hi 代表第h 层第i 个总体单元,y hi 代表第h 层第i 个样本单元。
W h :层权,即W h =N h N 。
f h :层内抽样⽐,即f h =n hN h 。
¯Yh,Y h,S 2h:层内总体参数(均值、总值与⽅差)。
¯y h ,y h ,s 2h:层内样本参数(样本均值、样本总值与样本⽅差)。
简单估计量分层抽样⾸先根据各层的样本,计算出各层均值¯Y h的适当估计值ˆ¯Y h ,然后再使⽤总体层权加权平均,得到总体均值¯Y 的估计,即ˆ¯Y st =L∑h =1W h ˆ¯Y h =1N L∑h =1N h ^¯Y h .对于分层随机抽样,每⼀层的ˆ¯Y h就是h 层的样本均值¯y h ,即ˆ¯Y st =L∑h =1W h ¯y h =1N L∑h =1N h ¯y h .注意这⾥的线性形式。
分层随机抽样概论(PPT 50张)
2019/2/15
例题
例如,对全国范围汽车运输的抽样调查,调查目的不 仅要推算全国货运汽车完成的运量,还要推算不同经 济成分(国有、集体、个体)汽车完成的运量。 为组织的方便,首先将货运汽车总体按省分层,由 各省运输管理部门负责省内的调查工作。 各省再将省内拥有的汽车按经济成分分层。 为提高抽样效率,再对汽车按吨位分层。 例如,某高校对学生在宿舍使用电脑的情况进行调查, 根据经验,本科生和研究生拥有电脑的状况差异较大。 因此,在抽样前对学生按本科生和研究生进行分层 是有必要的。
st
W 2 VY VY h h s t
h 1
L
只要对各层估计无偏,则总体估计也无偏。
各层可以采用不同的抽样方法,只要相应的估计量 是无偏的,则对总体的推算也是无偏的。
8
2019/2/15
证明性质1
由于对每一层有 L L ˆ ˆ ˆ E Y E W Y W E Y st hh h h 因此, h 1 1 h L L L 1 1 Y W Y N Y Y Y h h h h h N N N h 1 h 1 h 1 估计量的方差 L L L L ˆ ˆ ˆ ˆ 2ˆ V Y V W Y W V Y 2 W W Cov Y , Y st h h h h h k hk h 1 h 1 h 1 k h 由于各层是独立抽取的,因此上式第二项中的协方差全 L 为0,从而有
二、分层原则:
总体中的每一个单元一定属于并且只属于某一个层,而不可能同时属于两个 层或不属于任何一个层。
1.估计:层内单元具有相同性质,通常按调查对 象的不同类型进行划分。 2.精度:尽可能使层内单元的指标值相近,层间 单元的差异尽可能大,从而达到提高抽样估计精 度的目的。 3.估计和精度:既按类型、又按层内单元指标值 相近的原则进行多重分层,同时达到实现估计类 值以及提高估计精度的目的。 4.实施:抽样组织实施的方便,通常按行政管理 机构设置进行分层。
分层抽样
L
ˆ) Wh 2V (Y h
h 1
性质2 对于分层随机抽样, Yst 是 Y 的无偏估计, Yst 的方差为: L L 1 fh 2 2 V yst Wh V yh Wh2 Sh
h 1 h 1
nh
2 2 2 L L W S W S 1 1 2 ( )Wh2 S h h h h h Nh nh N h 1 nh h 1 h 1 L
L
h 1
y st . ˆ Rc x st
对于分层随机抽样的联合比估计,若总样本量
n
比较大,则有 E ( y RC ) Y
MSE ( y RC ) V ( y RC ) Wh2 (1 f h ) 2 2 ( S yh R 2 S xh 2 R h S yh S xh ) nh h 1
i 1
nh
第h层总体方差
2 1 S Yhi Yh N h 1 i 1 2 h
Nh
nh 1 2 第h层样本方差: s 2 yhi yh h nh 1 i 1
简单估计量
一、总体均值的估计
在分层抽样中,对总体均值 Y 的估计是通过对各层的 Y h 的估计,按层权 W 加权平均得到的。公式为:
L
ˆ ) MSE (YRS ) V (Y RS
L
2 Nh (1 f h ) 2 2 2 ( S yh Rh S xh 2 Rh h S yh S xh ) nh h 1
2 2 S yh , S xh , h , Rh 分别为第h层指标Y和X的方差、相关系数以
及比率估计量。
证明:当 nh
比较大时,有
E ( y Rh ) Yh
分层抽样
2 3
400 750
4 1500
50
35
15
0
20
30
25
10
30
25
解: N = 200+400+750+1500=2580 nh =10( h=1,2,3,4) 各层的层权及抽样比为:
N1 200 W1 0.07018 N 2850 N 400 W2 2 0.14035 N 2850 N 750 W3 3 0.26316 N 2850 N 4 1500 W4 0.52632 N 2850
三、符号说明
关于第h层的记号如下:
第二节 估计量
一.总体均值的估计 (一)简单估计量的定义 对于分层样本,对总体均值Y 的估计是通过对各层的Yh 的估计, 按层权 Wh 加权平均得到的。 公式为:
1 ˆ ˆ Yst WhYh N h 1
L
ˆ N Y hh
h 1
L
如果得到的是分层随机样本,则总体均值 Y 的简单估 计为:
f1 n1 10 0.05 N1 200
n2 10 f2 0.025 N2 400 f3 f4 n3 10 0.013 3 N3 750 n4 10 0.006 7 N4 150 0
各层样本均值及样本方差为:
1 y1 y1i 39.5 n1 i 1 y2 105 y3 165 y4 24
y 15180 300 9856 250 / 550 1)简单估计量的定义 总体比例P的估计为:
L
pst Wh ph
h 1
(二)估计量的性质 如果定义 1, 第i个单元具有所考虑的特征 Yi , 其他 i=1,2 … N 0
数学-分层随机抽样
分层随机抽样高中数学 1.理解分层随机抽样的概念.2.掌握用分层随机抽样从总体中抽取样本.3.掌握两种抽样的区别与联系.导语抽样调查最核心的问题是样本的代表性.简单随机抽样是使总体中每一个个体都有相等的机会被抽中,但因为抽样的随机性,有可能会出现比较“极端”的样本.例如,在对树人中学高一年级学生身高的调查中,可能出现样本中50个个体大部分来自高个子或矮个子的情形.这种“极端”样本的平均数会大幅度地偏离总体平均数,从而使得估计出现较大的误差.能否利用总体中的一些额外信息对抽样方法进行改进呢?一、分层随机抽样的定义问题1 树人中学高一年级共有712名学生,男生有326名,女生有386名,若要抽取50名学生的身高作为样本,用简单随机抽样可以吗?为什么?如何去抽取比较合理?提示 不可以直接使用简单随机抽样.可以将男生和女生看作两个群体,分别进行简单随机抽样,然后汇总作为总体的一个样本,即采用分层随机抽样的方法.n 男=×50≈23,n 女=×50≈27.326712386712知识梳理 分层随机抽样:一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配.例1 某中学有老年教师20人,中年教师65人,青年教师95人,为了调查他们的健康状况,需从他们中抽取一个容量为36的样本,则合适的抽样方法是( )A .抽签法 B .随机数法C .分层随机抽样 D .其他抽样方法答案 C解析 由于老年教师、中年教师和青年教师的身体情况会有明显的差异,所以要用分层随机抽样.反思感悟 使用分层随机抽样的前提分层随机抽样的使用前提条件是总体可以分层、层与层之间有明显区别,而层内个体间差异较小.跟踪训练1 分层随机抽样,即将相似的个体归入一类(层),然后每类抽取若干个个体构成样本,所以分层随机抽样为保证每个个体被等可能抽取,必须进行( )A .每层等可能抽样B .每层可以不等可能抽样C .所有层按同一抽样比等可能抽样D .所有层抽取个体数量相同答案 C解析 保证每个个体等可能的被抽取是两种基本抽样方式的共同特征,为了保证这一点,分层随机抽样时必须在所有层都按同一抽样比等可能抽样.二、分层随机抽样的应用问题2 你能总结一下分层随机抽样的步骤吗?提示 分层随机抽样的实施步骤:第一步,按某种特征将总体分成若干部分(层);第二步,计算各层所占比例.所占比例=;各层总的个体数总体中的个体数第三步,计算各层抽取的个体数,各层抽取的个体数=样本量×各层所占比例;第四步,按简单随机抽样从各层抽取样本;第五步,综合每层抽样,组成样本.例2 某地甲、乙、丙三所学校举行校际联考,三所学校参加联考的人数分别为300,400,500,现为了调查联考数学学科的成绩,采用分层随机抽样的方法在这三所学校中抽取一个容量为120的样本,那么在乙学校中抽取的数学成绩的份数为( )A .30 B .40 C .50 D .80答案 B解析 甲、乙、丙三所学校抽样比为3∶4∶5,∴应在乙学校抽取120×=40(份).43+4+5反思感悟 在分层随机抽样的过程中,为了保证每个个体被抽到的可能性是相同的,这就要求各层所抽取的个体数与该层所包含的个体数之比等于样本容量与总体容量之比.跟踪训练2 某单位共有老年、中年、青年职工320人,其中有青年职工150人,老年职工与中年职工的人数之比为7∶10.为了了解职工的身体情况,现采用分层随机抽样方法进行调查,抽取的样本中有青年职工30人,则抽取的老年职工的人数为( )A .14 B .20 C .21 D .70答案 A解析 由题意知,老年职工与中年职工的人数之和为170,又老年职工与中年职工的人数之比为7∶10,故老年职工人数为70,中年职工人数为100,按比例分配的比为=,3015015则抽取的老年职工的人数为×70=14.15三、用分层随机抽样样本的平均数估计总体的平均数问题3 在分层随机抽样中,如果层数分为2层,第1层和第2层包含的个体数分别为M 和N ,抽取的样本量分别为m 和n ,我们用X 1,X 2,…,X M 表示第1层各个个体的变量值,用x 1,x 2,…,x m 表示第1层样本的各个个体的变量值;用Y 1,Y 2,…,Y N 表示第2层各个个体的变量值,用y 1,y 2,…,y n 表示第2层样本的各个个体的变量值,则第1层的总体平均数和样本平均数和第2层的总体平均数和样本平均数,该如何计算?X x Y y 提示 ==i ,X X 1+X 2+ (X)M1M M∑i =1X==i ,x x 1+x 2+…+xm m1m m∑i =1x==i ,Y Y 1+Y 2+…+YN N1N N∑i =1Y==i .y y 1+y 2+…+yn n1n n∑i =1y知识梳理 如果总体分为2层,两层包含的个体数分别为M ,N ,两层抽取的样本量分别为m ,n ,两层的样本平均数分别为,,两层的总体平均数分别为,,总体平均数为,样本平均数为x y X Y W ,则=+,=+.w W MM +NX NM +NY w mm +nx nm +ny 例3 某校有初中、高中两个部门,其中初中有学生850人,高中有学生650人,小军想要进行一个视力调查,对学校按部门进行分层随机抽样,得到初中生、高中生平均视力分别为1.0,0.8,其中样本量为60,则在初中部、高中部各抽多少人?整个学校平均视力是多少?解 初中部人数为60×=34,8501 500高中部人数为60×=26,6501 500学校平均视力为×1.0+×0.8≈0.91,34602660所以在初中部、高中部各抽34,26人,学校平均视力约为0.91.反思感悟 求总体平均数的方法有(1)+;M M +NX N M +NY (2)+;M M +Nx N M +Ny (3)+.mm +nx nm +ny 跟踪训练3 某校高二有重点班学生400人,普通班学生800人,为调查总体学生数学成绩的平均值,按比例分配进行分层随机抽样,从重点班抽出20人,从普通班抽出40人,通过计算重点班平均成绩为125分,普通班平均成绩为95分,则高二总体数学成绩平均值为( )A .110 B .125 C .95 D .105答案 D解析 总体数学成绩平均值为=105.20×125+40×95601.知识清单:(1)分层随机抽样的定义.(2)分层随机抽样的步骤.(3)用分层随机抽样样本的平均数估计总体的平均数.2.方法归纳:数据分析.3.常见误区:在分层随机抽样中,每个个体被抽到的可能性相等,与层数及分层无关,每一层的抽样一般采用简单随机抽样.1.某校高三年级有男生500人,女生400人,为了解该年级学生的体重状况,从男生中随机抽取25人,从女生中随机抽取20人进行调查.这种抽样方法是( )A .分层随机抽样 B .抽签法C .随机数法 D .其他随机抽样答案 A解析 从男生500人中抽取25人,从女生400人中抽取20人,抽取的比例相同,因此用的是分层随机抽样.2.某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显著差异,用分层随机抽样方法抽取了一个容量为n 的样本进行调查,其中从丙车间的产品中抽取了3件,则n 等于( )A .9 B .10 C .12 D .13答案 D解析 ∵=,∴n =13.360n120+80+603.(多选)某中学高一年级有20个班,每班50人;高二年级有30个班,每班45人,甲就读于高一,乙就读于高二.学校计划从这两个年级中共抽取235人进行视力调查,下列说法中正确的有( )A .应该采用分层随机抽样B .高一、高二年级应分别抽取100人和135人C .乙被抽到的可能性比甲大D .该问题中的总体是高一、高二年级的全体学生的视力答案 ABD解析 由于各年级的年龄段不一样,因此应采用分层随机抽样.由于比例为=,因此高一年级1 000人中应抽取100人,高二年级1 350人中应23520×50+30×45110抽取135人,甲、乙被抽到的可能性都是,因此只有C 不正确,故应选ABD.1104.某校高二年级化生史组合只有2个班,且每班50人,在一次数学测试中,从两个班各抽取了20名学生的数学成绩进行分析,统计得在该次测试中,两班中各抽取的20名学生的平均成绩分别为110分和106分,则该组合学生的平均成绩约为________分.答案 108解析 样本中40名学生的平均分为×110+×106=108(分),所以该组合学生的平均成20402040绩约为108分.课时对点练1.为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大.在下面的抽样方法中,最合理的抽样方法是( )A .简单随机抽样B .按性别分层随机抽样C .按学段分层随机抽样D .其他抽样方法答案 C解析 由于小学、初中、高中三个学段的学生视力差异比较大,因此应按照学段进行分层随机抽样,而男女生视力情况差异不大,不能按照性别进行分层随机抽样.2.要完成下列两项调查:(1)某社区有100户高收入家庭,210户中等收入家庭,90户低收入家庭,从中抽取100户调查有关消费购买力的某项指标;(2)从某中学高二年级的10名体育特长生中抽取3人调查学习情况.应采用的抽样方法分别是( )A .(1)用简单随机抽样,(2)用分层随机抽样B .(1)用分层随机抽样,(2)用其他抽样方法C .(1)用分层随机抽样,(2)用简单随机抽样D .(1)(2)都用分层随机抽样答案 C解析 (1)中收入差距较大,采用分层随机抽样较合适;(2)中总体个数较少,采用简单随机抽样较合适.3.某校有高一学生400人,高二学生380人,高三学生220人,现教育局督导组欲用分层随机抽样的方法抽取50名学生进行问卷调查,则下列判断正确的是( )A .高一学生被抽到的可能性最大B .高二学生被抽到的可能性最大C .高三学生被抽到的可能性最大D .每位学生被抽到的可能性相等答案 D解析 根据分层随机抽样的性质,每个个体被抽到的可能性是相等的.4.从一个容量为m (m ≥3,m ∈N )的总体中抽取一个容量为3的样本,当选取简单随机抽样方法抽取样本时,总体中每个个体被抽中的可能性是,则选取分层随机抽样方法抽取样本13时,总体中每个个体被抽中的可能性是( )A. B. C. D.15141213答案 D解析 因为在简单随机抽样时每个个体被抽到的可能性相等,所以选取分层随机抽样方法抽取样本时,总体中每个个体被抽中的可能性仍为.135.(多选)某公司生产三种型号的轿车,产量分别为1 200辆、6 000辆和2 000辆,为检验该公司的产品质量,公司质监部门要抽取46辆进行检验,则( )A .应采用分层随机抽样抽取B .应采用抽签法抽取C .三种型号的轿车依次抽取6辆、30辆、10辆D .这三种型号的轿车,每一辆被抽到的概率都是相等的答案 ACD解析 由于总体按型号分为三个子总体,所以应采用分层随机抽样抽取,A 正确;设三种型号的轿车依次抽取x 辆、y 辆、z 辆,则有Error!解得Error!所以三种型号的轿车依次抽取6辆、30辆、10辆,故C 正确;由分层随机抽样的定义可知D 也正确.6.某校有男教师160人,女教师140人,为了调查教师的运动量的平均值(通过微信步数),将性别按比例分配进行分层随机抽样,通过对于样本的计算,得出男教师平均微信步数为12 500步,女教师平均微信步数为8 600步,则该校教师平均微信步数为( )A .12 500 B .10 680C .8 600 D .10 550答案 B解析 因为分层随机抽样是按比例分配,所以根据公式得×12 500+×8 600=10 680.160160+140140160+1407.某企业共有职工150人,其中高级职称15人,中级职称45人,初级职称90人,现采用分层随机抽样抽取30人,则抽取的高级职称的人数为________.答案 3解析 由题意,得抽样比为=,所以抽取的高级职称的人数为15×=3.3015015158.高一和高二两个年级的同学参加了数学竞赛,高一年级有450人,高二年级有350人,通过分层随机抽样的方法抽取了160个样本,得到两年级的竞赛成绩的平均分分别为80分和90分,则(1)高一、高二抽取的样本量分别为________;(2)高一和高二数学竞赛的平均分约为________.答案 (1)90,70 (2)84.375解析 (1)由题意,可得高一年级抽取的样本量为×450=90,高二年级抽取的样本160450+350量为×350=70.160450+350(2)高一和高二数学竞赛的平均分约为=×80+×90=84.375(分).ω9090+707090+709.某城市有210家百货商店,其中大型商店20家、中型商店40家、小型商店150家,为了掌握各商店的营业情况,计划抽取一个容量为21的样本,按照分层随机抽样的方法抽取时,各种百货商店分别要抽取多少家?写出抽样过程.解 ①样本容量与总体中的个体数的比值为=;21210110②确定要抽取的各种商店的数目:大型商店为20×=2(家),中型商店为40×=4(家),110110小型商店为150×=15(家);110③采用简单随机抽样的方法在各层中分别抽取大型商店2家、中型商店4家、小型商店15家,这样便得到了所要抽取的样本.10.某武警大队共有第一、第二、第三三支中队,人数分别为30,30,40.为了检测该大队的射击水平,从整个大队用分层随机抽样共抽取了30人进行射击考核,统计得三个中队参加射击比赛的平均环数分别为8.8,8.5,8.1,试估计该武警大队队员的平均射击水平.解 该武警大队共有30+30+40=100(人),按比例分配得第一中队参加考核人数为×30=9;30100第二中队参加考核人数为×30=9;30100第三中队参加考核人数为×30=12,40100所以参加考核的30人的平均射击环数为×8.8+×8.5+×8.1=8.43,9309301230所以估计该武警大队队员的平均射击水平为8.43环.11.为调查德克士各分店的经营状况,某统计机构用分层随机抽样的方法,从A ,B ,C 三个城市中抽取若干家德克士分店组成样本进行深入研究,有关数据见下表:(单位:个)城市德克士数量抽取数量A 262B 13x C39y则样本量为( )A .4B .6C .10D .12答案 B解析 设所求的样本量为n ,由题意得=,解得n =6.n26+13+3922612.某公司员工对户外运动分别持“喜欢”“不喜欢”和“一般”三种态度,其中持“一般”态度的比持“不喜欢”态度的多12人,按分层随机抽样方法从该公司全体员工中选出部分员工座谈,如果选出的人有6人对户外运动持“喜欢”态度,有1人对户外运动持“不喜欢”态度,有3人对户外运动持“一般”态度,那么这个公司全体员工中对户外运动持“喜欢”态度的人数为( )A .36B .6C .12D .18答案 A解析 设持“喜欢”“不喜欢”“一般”态度的人数分别为6x ,x ,3x ,由题意可得3x -x =12,解得x =6,所以持“喜欢”态度的有6x =36(人).13.(多选)在分层随机抽样中,每个个体等可能地被抽取,下列说法错误的是( )A .每层的个体数必须一样多B .每层抽取的个体数相等C .每层抽取的个体数可以不一样多,但必须满足n i =n ·(i =1,2,…,k ),其中i 是层数,NiN n 是样本量,N i 是第i 层所包含的个体数,N 是总体容量D .只要抽取的样本量一定,每层抽取的个体数没有限制答案 ABD解析 每层的个体数不一定都一样多,故A 错误;由于每层的容量不一定相等,若每层抽同样多的个体,从总体来看,各层之间的个体被抽取的可能性就不一样了,故B 错误;对于第i 层的每个个体,它被抽到的可能性与层数i 无关,即对于每个个体来说,被抽入样本的可能性是相同的,故C 正确;每层抽取的个体数是有限制的,故D 错误.14.某学校高一、高二、高三三个年级共有学生3 500人,其中高三学生数是高一学生数的两倍,高二学生数比高一学生数多300人,现在按的抽样比用分层随机抽样的方法抽取1100样本,则应抽取高一学生数为________.答案 8解析 若设高一学生数为x ,则高二学生数为x +300,高三学生数为2x ,所以有x +x +300+2x =3 500,解得x =800.故高一学生数为800,因此应抽取高一学生数为800×=8.110015.(多选)分层随机抽样是将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,组成一个样本的抽样方法.在《九章算术》第三章“衰分”中有如下问题:“今有甲持钱五百六十,乙持钱三百五十,丙持钱一百八十,凡三人俱出关,关税百钱.欲以钱多少衰出之,问各几何?”其译文为:今有甲持560钱,乙持350钱,丙持180钱,甲、乙、丙三人一起出关,关税共100钱,要按照各人带钱多少的比例进行交税,问三人各应付多少税?则下列说法正确的是( )A .甲应付51钱41109B .乙应付32钱24109C .丙应付16钱56109D .三者中甲付的钱最多,丙付的钱最少答案 ACD解析 依题意由分层随机抽样可知,100÷(560+350+180)=,10109则甲应付:×560=51(钱);1010941109乙应付:×350=32(钱);1010912109丙应付:×180=16(钱).101095610916.某市两所高级中学在暑假联合组织全体教师外出旅游,活动分为两条线路:华东五市游和长白山之旅,且每位教师至多参加其中的一条线路.在参加活动的教师中,高一教师占42.5%,高二教师占47.5%,高三教师占10%.参加华东五市游的教师占参加活动总人数的,14且该组中,高一教师占50%,高二教师占40%,高三教师占10%.为了了解各条线路不同年级的教师对本次活动的满意程度,现用分层随机抽样的方法从参加活动的全体教师中抽取一个容量为200的样本.试确定:(1)参加长白山之旅的高一教师、高二教师、高三教师分别所占的比例;(2)参加长白山之旅的高一教师、高二教师、高三教师分别应抽取的人数.解 (1)设参加华东五市游的人数为x ,参加长白山之旅的高一教师、高二教师、高三教师所占的比例分别为a ,b ,c ,则有=42.5%,=47.5%,=10%,x ·50%+3xa4x x ·40%+3xb 4x x ·10%+3xc 4x 解得a =40%,b =50%,c =10%.即参加长白山之旅的高一教师、高二教师、高三教师所占的比例分别为40%,50%,10%.(2)参加长白山之旅的高一教师应抽取人数为200××40%=60;34抽取的高二教师人数为200××50%=75;34抽取的高三教师人数为200××10%=15.34。
9.1.2 分层随机抽样
探究
抽样调查最核心的问题是样本的代表性.简单 随机抽样是使总体中每一个个体都有相 等的机会被 抽中,但因为抽样的随机性,有可能会出现比较 “极端”的样本.例如.在对 树人中学高一年级学生 身高的调査中,可能出现样本中50个个体大部分来 自高个子或矮 个子的情形.这种“极端”样本的平 均数会大幅度地偏离总体平均数,从而使得估计值 出现较大的误差.
X = X1 +X2 +
M
+X M
=1 M
M i 1
X
,
i
x= x1 +x2 +
m
+xm
=
1 m
m i 1
xi,
则第2层的总体平均数和样本平均数分别为
Y = Y1 +Y2 +
N
+YN
=1 N
N
Yi,
i 1
y= y1 +y2 +
n
+yn
=
1 n
n i 1
xi,
总体平均数和样本平均数分别为
M
N
和第2层包含的个体数分别为M和 N,抽取的样本量
分别为m和n.我们用X1,X2,…,XM表示第1层各个 个体的变量值, 用x1,x2,…,xm 表示第1层样本的各 个个体的变量值;用Y1,Y2,…,YN表示第2层各个 个体的变量值,用y1,y2,…,yn表示第2层样本的各 个个体的变量值.
则第1层的总体平均数和样本平均数分别为
一般地,分层抽样的操作步骤 第一步,将总体分成互不交叉的层; 第二步,计算样本容量与总体的个体数之比. 按比例确定各层要抽取的个体数. 第三步,用简单随机抽样在各层中抽取相应数量 的个体.
第四章分层随机抽样
第四章分层随机抽样第一节分层随机抽样概述分层抽样也叫做类型抽样,它是实际工作中最常用的抽样技术之一。
分层抽样是在抽样之前,先将总体按一定标志划分为若干个层(组),后在各层内分别独立地进行抽样。
由此所抽得的样本称之为分层样本。
各层所抽的样本也是互相独立的。
如果每层中的抽样都是简单随机的,则这种抽样就叫做分层随机抽样。
由此所得到的样本称做分层随机样本。
从以上概念可以看出,分层抽样的实质是在各层间作全面调查,而在各层内作抽样调查。
因此,分层抽样的误差只与各层内的差异有关,而同各层间的差异无关。
所以,为了能有效地降低抽样误差,提高抽样效果,在分层时应遵循“尽可能使层内差异小,而使层间差异大”的原则,同时要使分层的结果既无重复又无遗漏。
进行分层抽样时应注意:①层内抽样设计的选择;②分层变量的选择;③各层样本量的分配;④层数;⑤层的分界。
以前只重视③,近年来,④和⑤引起了越来越多的关注。
同简单随机抽样相比,分层抽样具有以下特点:①分层抽样能够充分地利用关于总体的各种已知信息进行分层,因此抽样的效果一般比简单随机抽样要好。
但当对总体缺乏较多的了解时,则无法分层或不能保证分层的效果。
②在分层抽样中,总体的方差一般可以分解为层间方差和层内方差两部分。
由于分层抽样的误差只与层内差异有关,而与层间差异无关,因此,分层抽样可以提高估计量的精度。
③由于分层抽样是在每层内独立地进行抽样,因此,使得分层样本能够比简单随机样本更加均匀地分布于总体之内,所以其代表性也更好些。
④分层抽样的随机性具体体现在层内各单元的抽取过程之中,也即在各层内部的每一个单元都有相同的机会被抽中,而在层与层之间则是相互独立的。
⑤分层抽样适合于调查标志在各单元的数量分布差异较大的总体。
因为对这样的总体进行合理的分层后可将其差异较多地转化为层间差异,从而使层内差异大大减弱。
⑥分层抽样中除了可以推断总体参数外,还可以推断各不同层的数量特征,并进一步作对比分析,从而满足不同方面的需要,也能帮助人们对总体作更全面、更深入的了解。
医学研究中的随机抽样与样本分层
医学研究中的随机抽样与样本分层随机抽样和样本分层是医学研究中常用的两种抽样方法。
它们的应用可以提高研究结果的可靠性和泛化能力。
本文将重点介绍随机抽样和样本分层在医学研究中的意义、原理以及实际应用。
一、随机抽样的意义和原理随机抽样是指通过一种随机的方式,从总体中选取一部分个体作为研究样本。
这种抽样方法的主要目的是保证样本的代表性,使得样本能够准确地反映总体的特征。
随机抽样的原理是基于概率统计理论。
通过随机选择,每个个体都有相同的机会被选入样本,以避免主观性和选择性的影响,确保样本的客观性和可靠性。
因此,通过随机抽样,我们可以有效地控制误差,提高研究的可信度。
二、随机抽样的实际应用在医学研究中,随机抽样被广泛应用于临床试验、流行病学调查以及医学统计学研究中。
在临床试验中,研究者会将接受治疗的患者和接受安慰剂的患者随机分组,以消除潜在的偏倚因素。
通过这种方法,我们能够更好地评估治疗效果的差异,并得出更可靠的结论。
在流行病学调查中,随机抽样可以帮助研究者获取代表性的样本,从而更准确地推断总体的特征。
例如,在调查某种疾病的流行情况时,我们可以通过随机抽样方法从不同地区、不同年龄段的人群中选取样本,以得到更全面、准确的结果。
在医学统计学研究中,随机抽样可以帮助研究者对样本数据进行推断和推论。
通过随机选择,我们可以更好地估计总体参数,并进行统计分析。
这对于研究医学问题的原因和结果具有重要意义。
三、样本分层的意义和原理样本分层是指根据总体的某些特征,将总体划分为若干个层次,然后在每个层次中进行独立的随机抽样。
通过样本分层,我们可以更好地考虑总体的异质性,提高研究结果的准确性和稳定性。
样本分层的原理是基于总体的内部差异性。
当总体中存在明显的差异性时,简单随机抽样可能无法真实地反映总体的特征。
通过将总体分层,我们可以在每个层次中使用不同的抽样比例,使得样本更好地代表总体的各个子群。
四、样本分层的实际应用样本分层在医学研究中的应用非常广泛。
§9.1.2 分层抽样
比例分配的分层抽样的运用
确定比例分配的分层随机抽样中各层个体数的方法 (1)先计算出抽样比=总样样本本量量,获得各层抽样数的百分比; (2)按抽样比确定每层需要抽取的个体数:
抽样比×该层个体数目= 样本量 ×该层个体数目. 总样本量
[变式训练]
一个单位有职工 500 人,其中不到 35 岁的有 125 人,35 岁至 49 岁的有 280 人,50 岁及 50 岁以上的有 95 人.为 了了解这个单位职工与身体状态有关的某项指标,要从
中抽取 100 名职工作为样本,职工年龄与这项指标有关, 应该怎样抽取?
解:由题意知,该抽样为比例分配的分层随机抽样,抽取步骤如下: (1)分层.按年龄将 500 名职工分成三层:① 不到 35 岁的职工;
② 35 岁至 49 岁的职工;③ 50 岁及 50 岁以上的职工.
(2)确定每层抽取个体的个数.抽样比为150000=15,则在①、②、③层 中分别抽取 125×15=25(人);280×15=56(人);95×15=19(人).
分层抽样适用于总体由差异明显的几层组成的情形。
分层抽样的一个重要问题是对一个总体如何分层?分 多少层?要视具体情况而定。
否则 将失去分层的意义。
2.分层抽样
一般地,按一个或多个变量把总体划分成若干个子总体 ,每个个体属于且仅属于一个子总体,在每个子总体中 独立地进行简单随机抽样,再把所有子总体中抽取的样 本合在一起作为总样本,这样的抽样方法称为分层随机 抽样 (stratified random sampling) , 每一个子总体称为层. 在分层随机抽样中,如果每层样本量都与层的大小成比 例,那么称这种样本量的分配方式为比例分配。
分层随机抽样.
4
3 层的划分原则
1
• 层内单元具有相同性质,通常按调查对象的不同类型进行划 分。这时,分层抽样能够对每一类的目标量进行估计。
2
• 尽可能使层内单元的标志值相近,层间单元的差异尽可能大, 从而达到提高抽样估计精度的目的。
3
• 既按类型又按层内单元标志值相近的原则进行多重分层,同 时达到实现估计类值以及提高估计精度的目的。
18
19
4
• 为了抽样组织实施的方便,通常按现有的设置进行分层。
5
4 基本函数及表达式
6
4 基本函数及表达式
7
5 估计量的性质
8
5 估计量的性质
9
6 文献阅读——分层抽样中样本量的分配方法研究
10
6.1 本文的研究内容
本文立足于分层随机抽样的重要性以及样本容量分 配的重要意义,从分析影响样本容量的因素入手,讨论 实践中分层抽样样本量分配的方法体系并进行比较评 价,得出各种方法的适用性,期望对调查实践具有一定 的借鉴价值。
分层随机抽样
1
报告内容
1. 定义 2. 优缺点 3. 层的划分原则 4. 基本函数及表达式 5. 估计量的性质
6. 文献阅读—分层抽样中样本量的分配方法研究
2
1 定义
分层随机抽样(Stratified sampling)是随机抽样中的一种抽样方 法。 在抽样前先对母群体依某些特征分成若干层,再利用简单随机抽样,自 各层中抽取样本. 类型随机抽样,又称分层随机抽样,它是先将总体各单位按一定标准 分成各种类型(或层);然后根据各类型单位数与总体单位数的比例,确 定从各类型中抽取样本单位的数量;最后,按照随机原则从各类型中抽取 样本。
14
6.3.2 最优分配(optimum allocation)
抽样调查方法与技术:分层抽样
第一节 概述
• 四、符号说明
• 设总体分为L层,下标h表示层号(h=1,2,…
,L)。则关于第h层的记号如下:
L
•
第h层总体单元数:
N
(通常已知),且
h
L
Nh N
h 1
• 第h层样本单元数: nh,且
nh n
h 1
• 第h层总体第i个单元标志值(观察值) : Yhi
• 第h层第i个样本单元标志值(观察值): yhi
i 1
•
第h层总体方差:
S
2 h
1 Nh 1
Nh i 1
Yhi Yh
2
•
第h层样本方差:sh2
1 nh 1
nh
yhi
i 1
yh 2
第二节 简单估计量及其性质
• 一、总体均值的估计
• (一)简单估计量的定义
• 在分层抽样中,对总体均值 的Y估计是通
过对各层的 的Y估h 计,按层权 加W权h 平均得 到的。公式为:
• 值得强调的是,在分层抽样中只要对各层估
计是无偏的,则对总体的估计也是无偏的。因此
,各层可以采用不同的抽样方法,只要相应的估
计量是无偏的,则对总体的推算也是无偏的。
• 一、总体均值的估计
• (二)估计量的性质
•
性质2 对于分层随机抽样, , 的Ys方t 差为:
Y是st
的Y无偏估计
V
yst
第一节 概述
• 二、分层抽样的原则(层的划分原则) (一)层内单位具有相同性质:通常按不同类型
划分。(这样)便于对子总体估计。 (二)层内单位差异小,层间差异大。从变量值
看。便于提高估计精度。(Δ) (三)通常按行政管理机构设置分层。便于组织
第三章分层随机抽样
第三章分层随机抽样
§3.1 引言
§3.2 估计量
§3.3 样本量在各层的分配§3.4 样本量的确定
附录一
附录二
§3.1 引言⏹定义与特点➢定义
➢特点
※分层抽样的抽样效率高(即分层抽样的估计精度高)。
①层抽样估计量的方差只与层内方差有关,与层间方
差无关。
通过分层,尽可能降低层内差异,使层间差异增大,从而提高估计精度。
②从直观的角度来看,分层抽样可以使样本在总体中
分布比较均匀。
※分层抽样不仅可以对总体指标进行推算,也可以对各层指标进行推算。
▪使用场合
符号说明
§3.2 估计量
⏹总体均值的估计➢简单估计量的定义
➢简单估计量的性质
⏹总体总量的估计➢简单估计量的定义
➢简单估计量的性质
⏹总体比例的估计➢简单估计量的定义
➢估计量的性质
§3.3 样本量在各层的分配 比例分配
➢比例分配下总体均值估计
➢比例分配下总体总值估计
➢比例分配下总体比例估计
最优分配
➢Neyman(内曼)分配
▪考虑估计总体比例P的情形
§3.4 样本量的确定 影响样本量的因素
➢估计总体均值的情形
➢总体参数为P的情形。
简述分层随机取样的一般步骤
简述分层随机取样的一般步骤分层随机取样的一般步骤:一、引言分层随机取样是一种常用的抽样方法,适用于研究对象具有明显分层特征的情况。
本文将介绍分层随机取样的一般步骤,以帮助读者了解如何正确地进行分层随机取样。
二、确定研究对象和分层变量在进行分层随机取样之前,首先需要明确研究对象是什么,以及有哪些分层变量。
研究对象可以是人群、地区、企业等,而分层变量可以是年龄、性别、地域等。
确定清楚研究对象和分层变量是进行分层随机取样的基础。
三、确定分层层次和抽样比例根据研究对象和分层变量,确定分层的层次和每个层次的抽样比例。
分层层次应该是明确的,例如根据年龄可以分为青少年、中年人、老年人三个层次。
抽样比例可以根据各层次的人口比例或者研究需求来确定。
四、随机抽取每个层次的样本在确定了分层层次和抽样比例之后,就可以开始抽取样本了。
首先,对每个层次进行随机抽样,确保每个层次都有一定数量的样本。
可以使用随机数表或者计算机随机数发生器来进行随机抽样。
五、计算每个层次的抽样量在抽取样本之后,需要计算每个层次实际的抽样量。
根据抽样比例和分层层次的人口数量,可以计算出每个层次的抽样量。
确保每个层次的抽样量与抽样比例相符,从而保证样本的代表性。
六、随机抽取样本根据计算得到的每个层次的抽样量,再次进行随机抽样,从每个层次中抽取相应数量的样本。
这一步骤是为了最终确定样本,确保样本的随机性和代表性。
七、分层随机取样的优缺点分层随机取样具有明显的优势,可以增加样本的代表性,减小误差,提高调查结果的可信度。
但同时也存在一些缺点,例如需要提前确定分层层次和抽样比例,对样本的选择有一定要求。
八、总结分层随机取样是一种常用的抽样方法,适用于研究对象具有明显分层特征的情况。
通过确定研究对象和分层变量、确定分层层次和抽样比例、随机抽取每个层次的样本以及计算每个层次的抽样量,可以进行有效的分层随机取样。
该方法能够提高样本的代表性和调查结果的可信度,是研究中常用的抽样方法之一。
分层抽样和随机抽样详解
大约生产
10000 50
=件2产00 品.这时,抽样距就是200.
第二步 将一天中生产的机器零件按生产时间进行顺序编号.比如,第
一个生产出的零件就是0号,第二个生产出的零件就是1号等.
第三步 从第一个时间段中按照简单随机抽样的方法,抽取一件产品,
比如是k号零件.
第四步 挨次地抽取编号分别为下面数字的零件: k+200,k+400,k+600,…,k+9800,这样就抽取了容量为50的一个样 本.
系统抽样步骤:
1、确定分段状况和抽样距;
分段数=样本数,
抽样距=
总体容量; 样本容量
2、编号;
3、承受简洁随机抽样从第一段内抽取第一个样 本;
4、等距抽样,顺次抽取相应编号的样本.
为了了解参与学问竞赛的1000名学生的成绩,现从中抽 取一个容量为50的样本.请按系统抽样的方式设计一个抽样 过程. 解:承受系统抽样方式抽样.过程如下: 1、把全部的学生分成50组,抽样距为20. 2、对全部学生编号,编号为:1、2、…、1000; 3、用简洁随机抽样法从第一组〔编号为1、 2、…
解:我们可以承受分层抽样的方法,依据收入水平分成三层:高收入者、中等 收入者、低收入者. 从题中数据可以看出,高收入者为50名,占全部员工的比 例为 50,=为5%保证样本的代表性,在所抽取的100名员工中,高收入者所占的比 例也应1 0为0 05%,数量为100×5%=5,所以应抽取5名高层治理人员. 同理,抽取15名中层治理人员、80名一般员工,再对收入状况分别进展调查.
例4 某装订厂平均每小时大约装订图书362册,要求检验员每
小时抽取40册图书,检查其质量状况.请你设计一个调查方案.
分层抽样
某社区有500个家庭,其中高收入家庭125户, 中等收入家庭 280 户,低收入家庭 95 户,为了 调查社会购买力的某项指标,要从中抽取 1 个 容量为100户的样本,则采用( )抽样 方法;某校大一有12名女排运动员,要从中抽 取3人调查学习负担情况,则采用( ) 抽样方法。
为了调查某产品的销售情况,销售部门从下属 的 92家销售连锁店中抽取30家了解情况。若采 用系统抽样法,则抽样间隔和随机剔除的个数 分别是( )( )。
系统抽样的效果会受个体编号的影响, 而简单随机抽样的效果不受个体编号的 影响。
二、步骤:
假设要从容量为N的总体中抽取容量为n的样本。 (1)先将总体的N个个体排序,进行连续编号; (2)确定分段间隔 k,对编号进行分段,当N/n是整数时,取 k=N/n;当N/n不是整数时,从N中剔除一些个体,使得其为整 数为止。 (3)在第1段用简单随机抽样确定第一个样本编号l(l≤k);
三、步骤
(1)确认目标总体。 (2)决定样本数。 (3)确定分层的特征,如年龄、性别等。 (4)将总体分成若干个不可重叠的部分,即分层后, 同一层内部的单位尽可能是同质的,不同层之间的单 位尽可能是异质的。 (5)根据一定的方式确定各层应抽取的样本量。 (6)分别采用简单随机抽样或者系统抽样的方式从 各层中抽取相应的样本。
分层随机抽样、分群随 机抽样、系统随机抽样
15五年制电商
§3.2.2、分层随机抽样技术 一、概念
分层随机抽样,又称为分层抽样、 类型随 机 抽 样 , 就是先将总体按一定标准划分为 若干层,然后在各层中随机抽取样本的一 种方式,通过对总体进行分层,可保证样 本的代表性。 分层抽样的抽样误差≤简单随机抽样的抽样 误差。
分层随机抽样
分层随机抽样一、定义在抽样之前,先将总体N 个单元划分成L 个互不重复的子总体(不重不漏),每个子总体称为层,它们的大小分别为L N N N ,,,21 ,这个层合起来就是整个总体∑==Lh h N N 1,然后在每个层中分别独立地进行抽样,这种抽样就是分层抽样,所得到的样本称为分层样本。
如果每层都是独立按照简单随机抽样进行,则称为分层随机抽样 二、作用分层抽样的抽样效率较高,也就是说分层抽样的估计精度较高。
这是因为分层抽样估计量的方差只和层内方差有关,和层间方差无关。
分层抽样不仅能对总体指标进行推算,而且能对各层指标进行推算。
层内抽样方法可以不同,而且便于抽样工作的组织。
分层随机抽样的三个必要条件:(1)每层都抽;(2)各层都独立地抽;(3)各层的抽样都是简单随机抽样。
以分层抽样代替简单随机抽样的理由具体可以总结为以下几个方面:(1)由于每层都进行抽样,这使得样本在总体中分布更加均匀、更加具有代表性。
(2)由于抽样在每一层中独立进行,所以一则允许各层选择适合本层的不同抽样方法;二则可同时对各子总体(层)进行参数估计,而不单是对整个总体的参数进行估计。
(3)由于各层的总体方差因单元之间差异小而肯定小于整个总体的方差,而抽样精度与此成正比,所以分层抽样可以提高参数估计的精度。
三、分层原则总体中的每一个单元一定属于并且只属于某一个层,而不可能同时属于两个层或不属于任何一个层。
(1)估计:层内单元具有相同性质,通常按调查对象的不同类型进行划分。
(2)精度:尽可能使层内单元的指标值相近,层间单元的差异尽可能大,从而达到提高抽样估计精度的目的。
(3)估计和精度:既按类型、又按层内单元指标值相近的原则进行多重分层,同时达到实现估计类值以及提高估计精度的目的。
(4)实施:抽样组织实施的方便,通常按行政管理机构设置进行分层。
例如,对全国范围汽车运输的抽样调查,调查目的不仅要推算全国货运汽车完成的运量,还要推算不同经济成分(国有、集体、个体)汽车完成的运量。
分层随机抽样举例说明
分层随机抽样举例说明
分层随机抽样是一种常用的抽样方法,它是从一个总体中抽取一定数量的样本,以便进行统计分析的方法。
它的特点是抽取的样本具有一定的分层结构,即抽取的样本在某些特定的变量上具有一定的分布特征。
举例来说,假设我们要对一个城市的人口进行统计分析,我们可以采用分层随机抽样的方法。
首先,我们将城市的人口分为不同的层次,比如按照年龄、性别、职业等变量进行分层,然后在每一层中抽取一定数量的样本,以便进行统计分析。
分层随机抽样的优点是可以保证抽取的样本具有一定的分布特征,从而使统计分析的结果更加准确可靠。
另外,它还可以有效地减少抽样误差,从而提高统计分析的准确性。
总之,分层随机抽样是一种常用的抽样方法,它可以有效地保证抽取的样本具有一定的分布特征,从而使统计分析的结果更加准确可靠。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
抽样均按简单随机抽样进行,求全市年 平均户收入的估计及其 90%的置信区间。
解: 计算层权: W1=N1/N=0.137, W2=N2/N=0.863。 (1) y st W1 y1 W2 y 2 0.137 15180 0.863 9856 10585.39
(2)求v( y st )
6 第 h 层抽样比为:
nh fh Nh
第二节 简单估计量及其性质
一、对总体均值与总量的估计
(一)对总体均值与总量的估计 1 对一般分层抽样:
ˆ WY ˆ, Y hh st
h 1 L
ˆ Y ˆ Y st h
h 1
L
ˆ , 则: ˆ NY 如果每个Y h h h ˆ ˆ Y NY
s( y st ) v( y st ) 142.312 1 90%, 1.645 全市年户均收入Y 的90%的置信区间为 10585.39 1.645 142.312,即: [10351.29元, 10819.49元]
二、对总体比例(成数) 的估计
1 成数 P 或总数 A 的估计: 层比例 Ph=Ah/Nh , Qh=1-Ph 层样本比例 ph=ah/nh , qh=1-ph Ah 与 ah 是第 h 层总体及样本中具有 所研究特征的单元数。
st st
2 对一般的分层抽样:
ˆ 是Y 的无偏估计, 若Y h h ˆ (Y ˆ )也是Y (Y )的无偏估计: 则Y
st st
由于各层的抽样是相互独立的,因此: ˆ ) V( W Y ˆ ) W 2V (Y ˆ) V (Y h h h st
h 1 h 1 L L
ˆ ) V (Y ˆ) V (Y st h
第四章 分层随机抽样
第一节 概述
南非摄影师迈 克首创,拍摄100张 当地人像,合成地 域特色的女性面容。 据英国《太阳报》 10日报道,南非摄 影师迈克在世界各 地拍摄数千张图片, 然后通过软件合成 了几十张全球女性 “大众脸”。
合成的香港大学生大众脸
一、分层抽样和分层随机抽样 的概念
W
h 1
L
h
ph q( h nh 较大)
三、最优分配
1 最优分配是指在分层随机抽样中,对 于给定的费用,使估计量的方差达到最 小或对给定的估计量方差,使总费用最 小的各层样本 量的分配。
2 费用: 主要考虑线性费用函数.
CT c0 ch nh
h 1
L
CT 为总费用 c0为固定费用 ch为第h层中抽取一个单元的平均费用
第三节 各层样本量的分配
一、样本量分配对精度的影响
例,某总体分三层,其层权及层标准差见下表。 现进行分层抽样,总样本量为 300,考虑四种不同 的样本量分配,并计算出各种分配下,总体均值 估计量的方差,资料及计算见下表:
h 1 2 3 Wh 0.2 0.3 0.5 Sh 20 30 34 常数 分配 100 100 100 3.86 与 Sh2 成 正比 49 110 141 3.11 与 W h成 正比 60 90 150 3.09 与 W hS h成 正比 40 90 170 3.00
其意义为由于抽样是不 放回的, 即有限总体修正系数引 起的方差减少。
(3) 估计量方差的估计
nh 1 2 ˆ 2 s2 S ( y y ) h h hi h . nh 1 i 1 2 2 E ( sh ) Sh
V ( yst )的无偏估计为
2 2 2 Wh2 sh Wh2 sh Wh sh v( yst ) (1 f h ) nh nh N h 1 L
3 估计量方差
2 2 L Wh2 S h Wh S h V nh N h 1 h 1 L
4 最优分配为给定总费用C下极小化V或 给定V下极小化总费用C,等价于MinVC。
Wh S h ch N h S h ch nh n Wh S h ch N h S h ch 即 最优分配的nh与Wh S h或N h S h成正比, 与 ch 成反比。
2 总体成数 P 的无偏估计为
ˆ p W p P st h h
h 1 L
V ( pst ) W V ( ph )
h 1 2 h
L
N h很大,则: Wh2 PhQh V ( pst ) (1 f h ) nh h 1
L
3 估计量方差的估计 估计量方差的一个无偏估计为:
h 1
L
3 对分层随机抽样:
ˆ Yst y st Wh y h ˆ Ny N y Y st st h h
(二) 分层随机抽样估计量 的性质
1 总体均值的简单估计量:
(1)样本均值是总体均值的无偏估计
E( y st ) Y
(2) 估计量的方差
V ( y st ) Wh2V ( y h )
f n N n N
h h
h
f
h
, h 1,2 , , L
N h nh W N n nh W h
2 是一种等概率抽样。 3 简单估计量是自加权的。
4 估计值 (1)总体均值的估计:等于样本均值。
L nh 1 ˆy Y yhi y prop Wh yh n h1 i 1 h 1 L
层别 第一层 第二层 第三层 合计 Nh 200 500 380 1080 nh 50 115 100 265 ah 39 60 17 116 ph 0.78 0.5217 0.17 — Wh 0.1852 0.4630 0.3519 1.00 fh 0.25 0.23 0.2632 —
求该单位该种职业病患病率 P 的估计及其 95%的 置信区间。
(2)总体总量的估计
N 1 ˆ Y Ny prop y y n f
(3) 估计量的方差
1 f V prop ( y st ) ˆ V ( y prop ) n 令S
2 w 2 Wh S h h 1 L 2 W S h h h 1 L
1 f 2 则 : V prop ( y st ) Sw n
N h ( N h nh ) v( p st ) ph qh nh 1 h 1
L
例, 某单位为调查某种职业病的情况,将单位职 工按工龄分三层,工龄在 20 年以上为第一层,工龄 在 10 年以上,20 年以下为第二层,工龄在 10 年以 下为第三层,各层抽样均采取简单随机抽样,抽样 调查资料及计算如下
二、分层抽样的特点和 适用场合
(一)特点:
1 既可用于总体参数的估计,还可 用于对层的参数进行估计 2 实施灵活,便于组织,数据处理 简单 3 样本分布更加均匀 4 能较大的提高调查的精度
(二)适用场合:
1 总体简单随机抽样框无法编制, 或难以编制; 2 总体各部分特点不同; 3 总体分布不均匀或差异大,为降 低方差。
5 如各层抽样费用相等或相差不大, 或者不考虑费用,则最优分配为:
nh n
W
h
S
h
h
W
S
h
h
N
h
S
h
h
N
h
S
h
即, n h 与 W
S h或 N
S h 成正比
.
这种形式的最优分配常被称为 奈曼分配。最小方差为:
Wh2 p h q h v( p st ) (1 f h ) h 1 n h 1
L
1 2 N
N h ( N h nh ) ph qh nh 1 h
L
4 总体具有某种特征单元总数 A 的 估计量及方差为:
ˆ Np A N h ph st st
h 1 2 N h ( N h n h ) Ph Qh ˆ V ( Ast ) Nh 1 nh h 1 L L
2 Wh2 s h 0.1372 39722 0.8632 25462 20297.77 n 300 250 h 2 Wh s h 0.137 39722 0.863 25462 45.10 N 171980 v( y st ) 20297.77 45.10 20252.67
V ( y)
(一)常数分配 (二)样本量nh与层方差Sh2成正比 (三)样本量nh与层权W h成正比 (四)样本量nh与层方差和层标准差的 乘积W h S h成正比 是最优分配,估计量方差最小。
二、比例分配 1 分层抽样中,若每层样本量都与层的大小 呈正比例,即:
nh N
h
这种分配为比例分配,其比例常数为抽样比。
解:由表中数据计算得:
p st Wh p h 0.1852 0.78 0.463 0.5217 0.3519 0.17 44.58% Wh2 p h q h v( p st ) (1 f h ) nh 1 0.1852 2 (1 0.25) 0.78 0.22 0.463 2 (1 0.23) 0.5217 0.4783 49 114 0.3519 2 (1 0.2632) 0.17 0.83 99 0.000581 s ( p st ) v( p st ) 2.41% 1 95%, 1.96 Pst [39.86%,49.3%]
2 总体总量的简单估计量
ˆ ) Y E (Y st
2 S ˆ ) N (N n ) h V (Y st h h h nh 2 sh v(Y ) N h ( N h nh ) nh
例:某市进行家庭收入调查,分城镇和 农村居民两部分进行抽样,