应用抽样技术课件第四章
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3、既按类型又按层内单元标志值相近的原 则进行多重分层,同时达到估计类值以及提 高估计精度的目的。
例如
全国疾病监测点的选取
第1重是中国的七大地理区域(东北、华北、华东、华南、 华中、西北、西南) 第2重是城市和农村地区, 第3重是把城市和农村地区再按照一定的标准分为不同水 平。农村地区根据人口普查资料所得到的9个社会经济、 人口和死亡率指标,把农村分为4层:最富裕农村、富裕 农村、贫穷农村和最贫穷农村;城市按人口分为大、中、 小三类。
练习:大学生平均生活费的估计
2013年4月某高校学生组成研究小组对在校本科生的月生活费支 出情况进行了抽样调查。调查采用分层抽样,对全校本科男生、 女生分别随机抽样,共发放问卷300份,回收291份。其中有效 问卷270份,男生125份,女生145份。调查所得数据如下: 性别 男生 女生 人数 平均生活费 标准差 (人) (元/人) (元/人) 125 145 930 1045 327 413
第四章
分层抽样
本章要点
本章主要是对分层抽样理论包括抽样方式、估 计量及其性质、样本量的确定及分配、分层抽样设 计效果等进行系统全面地介绍。具体要求: ①正确理解层、分层抽样以及分层随机抽样的 涵义,分层抽样的特点及作用; ②掌握分层抽样的参数估计量及其性质; ③掌握分层抽样样本量的确定方法; ④了解分层抽样的设计效果;
分层抽样的总体均值估计量
对总体均值 Y 的估计是通过对各层的 Y 的估计,再按层权 Wh h 加权平均得到的。总体均值估计量为:
ˆ WY ˆ Y hh sth Nhomakorabea1L
ˆ y 如果是分层随机抽样(各层内都是简单随机抽样),则 Y h h
总体均值的简单估计量为
yst Wh yh
h 1
L
(二)估计量的性质
性质l 对于一般的分层抽样,如果层内估计量
ˆ Yh
是Yh
的无偏估计(h=1,2,…,L),则总体均值估计量
无偏估计。估计量的方差为:
是 的 ˆ Yst Y
ˆ W 2V Y ˆ VY h h st
h 1
L
在分层抽样中只要对各层估计是无偏的,则对总体的估计也是 无偏的。因此,各层可以采用不同的抽样方式。
简单随机抽样可能出现“很差”的样本
例如,从包含1000名男生和1000名女生的 总体中抽取100人的简单随机样本,有可能在 获得的样本中不包含女生或只包含很少的女生。
若男生与女生的回答有差异,则这样的样本对 总体的代表性很差,抽样估计的误差会很大。
再如,调查全国居民的人均收入水平,若采取简单随机抽 样从全国抽取10万人的样本,则需要对总体全部单位编号, 然后从中生成10万个随机数,再将这些数一一对应具体的 人。
2、分层抽样不仅能对总体参数进行估计,而且能 对各层(子总体)参数进行估计。 3、便于依托行政管理机构进行组织和实施,同时 还可以根据各层的不同特点采用不同的抽样方式。
三、层的划分原则
1、使层内单元具有相同性质,通常按调查对象的不同类型进 行划分。这时,分层抽样能够对每一类的目标量进行估计。 一项全国性调查,可按调查对象所在的地理位置、 城乡等分层
ˆ Y
1
2
N
1 1
2 2
N
ˆ W Y ˆ W1Y 1 2 2
20 980 W1 y1 W2 y 2 1400 291 .25 313 .43元 / 人 1000 1000
对比不加权的: y
1200 1600 220 360 513元 / 人 10
思考3:调查春节期间杭州市酒店的顾客入住情况,应如何 分层?
按照酒店的等级(一星、两星、三星、四星……)进行分层
四、符号说明
设总体分为L层,下标h表示层号(h=1,2,…,L)。则关于第 h层的记号如下:
N h (通常已知),且 第h层总体单位数:
第h层样本单位数: n
h
N
h 1
L
h
N
N2
NL
n2
nL
样本
n
· · ·
· · ·
例:成年人体型尺寸测量的抽样方案
多种历史资料表明,中国人人体尺寸与地域的关系极为密切。参考有 关资料,按人类学的观点将全国各省市自治区分为6个自然区域。在同一 区域中,有的由于地理、气候、遗传等因素影响,差别仍较大,因此再 进一步根据几种历史资料中各省成年人平均身高资料,划分为高、中上 、中下及矮四档。最终所有省区分为12个层,在抽样时为了工作方便, 在层内选取一个或几个省、市、自治区进行测量。 而为了今后数据分析方便,在各层中采用按人口总数比例分配的方法.
若全校本科生中男生有22000人,女生有18000人,试对全校 本科生的月生活费做出95%置信度下的区间估计。
二、总体总值的估计
(一)简单估计量的定义 总体总值Y的估计为:
Y N Y st N h Y h
h 1
L
如果是分层随机抽样,则总体总值Y的简单估计为:
Y N y st N hyh
(一)简单估计量的定义
【例4.1】 某公司有1000名员工,按以往的交通费支 出情况分成两层:第一层(高消费层),20人;第二 层(低消费层),980人。 从第一层随机抽取2人,调查上月支出,为1200和 1600; 从第二层随机抽取8人,调查上月支出,为220、230、 180、320、400、340、280、360 (单位: 元) 。 估计这1000人上月平均支出。 ˆ N Y ˆ 解: ˆ Y ˆ Y NY
130 130 260 260
200 180
4
1500
50
35
15
0
20
30
25
10
30
25
【例4.3】某市对200000户家庭进行收入调查,分城镇居民 及农村居民两部分抽样。 在全部城镇居民40000户中随机抽取200户,在全部农村 居民160000户中随机抽取800户。 调查结果是城镇户均年收入为45000元,标准差为4972 元;农村户均年收入为31000元,标准差为3546元。 求全市户均年收入的置信度为95%的置信区间。
思考1:对2016年浙江省规模以下工业企业产值情况进行 调查 (假设仅允许作一次分层,抽样框是完备的)
按企业性质 按地区 按职工人数 按去年产值
哪种更好?
思考2:某高校为了解教职员工对某项与职务职称挂钩的 分配制度改革的态度,准备在全校教职工中进行抽样调 查。为了提高抽样效率,准备进行分层抽样。请判断下 面的分层方法是否合适? (1)按性别分层;(2)按教师、行政管理人员、工勤 人员分层;(3)按职称(正高、副高、中级、初级、其 他)分层;(4)按部门(系、所、处)分层。
难以组织和实施 某些人口较少的省市或民族 其样本量可能很小甚至没有 地方政府不能获得辖区 内的相关信息 更适合做分层抽样。
分层抽样的特点
1、分层抽样可以提高参数估计的精度。
分层抽样是层间全面调查、层内抽样调查。 抽样误差只和层内方差有关,与层间方差无关。 在分层时尽可能降低层内差异,扩大层间差异,则可提高 估计的精度。
,且
n
h 1
L
h
n
总体和样本第h层第i个单元的标志值(观察值):
Yhi
yhi
层权:W N h h N
nh 第h层抽样比:f h Nh
Nh 1 第h层总体均值: Y Yhi h N h i 1
第h层样本均值
1 yh nh
y
i 1
nh
hi
Nh
第h层总体总值:
Yh N hYh Yhi
表1:中国人体型的地域划分
区域 平均 身高 矮 1 2 3 4 5 6
湖南、江西
广东、广西
四川、贵州
中下
中上
甘肃、青海
浙江、安徽
湖北
福建
云南
陕西、宁夏、 江苏,上海 山西、河南、 西藏 新疆 黑龙江、吉林、 辽宁、内蒙、河 北、北京、天津、 山东
高
二、分层抽样的特点及作用
当总体单位数N 较大或者总体各单位差异较大时,采用简 单随机抽样的样本来估计总体指标时通常会产生较大的误 差。
145个疾病监测点
4、为了抽样组织实施的方便,通常按行政管理机 构设置进行分层。
对全国范围汽车运输的抽样调查
调查目的不仅要推算全国货运汽车完成的运量,还要 推算不同经济成分(国有、集体、个体)汽车完成的运量。
为组织的方便,首先将货运汽车总体按省分层,由各 省运输管理部门负责省内的调查工作;各省再将省内拥有 的汽车按经济成分分层;为提高抽样效率,再按吨位对汽 车分层。
L 2 L 2
【例4.2】调查某地区的居民奶制品月消费支出,以居民 户为调查单位,根据经济及收入水平将2850户居民户分为 4层,每层按简单随机抽样抽取10户,调查数据如下, 估计该地区居民奶制品平均消费支出及标准误差。 2 样本户奶制品月消费支出如下: y 1 39.5 s1 1624.722
Y
2 1 fh 2 ˆ V (Y ) N V ( yst ) N h V ( yh ) N h Sh nh h 1 h 1
2
L
2
L
性质 3 以各层内的样本方差估计层总体方差,可得 V (Y ˆ) 的 一个无偏估计为:
2 1 fh 2 ˆ v(Y ) N v( yst ) N h v( yh ) N h sh nh h 1 h 1
h 1
L
(二)估计量的性质
Y 与 Y st 具有同样的性质:
性质1 则
对于一般的分层抽样,如果 Y st 是 Y 的无偏估计,
x
Y 是Y的无偏估计。Y 的方差为:
ˆ ˆ V(Y) N V (Yst )
2
N hy h Y N y st h 1
L
性质 2
对于分层随机抽样, 的方差为:
调查对象是企事业单位,可按部门、行业、地理位置等分层
2 、尽可能使层内单元的标志值相近,层间单 元的差异尽可能大,从而达到提高抽样估计 精度的目的。
对企业的调查,可按规模大小(资产、职工数、利润等) 进行分层
不同年龄人群的血压值通常存在很大差异,因此在研究 血压的时候,按照年龄进行分层是很有意义的
y 2 105 s 2 2 2166.667 各层样本均值及方差为 : y 3 165 s 2 3 8205.556 2 层 居民 样本户奶制品年消费支出 y 4 24 s4 193.333 户总 1 2 3 4 5 6 7 8 9 10 数
1 2 3 200 400 750 10 50 180 40 40 110 80 0 15 100 140 10 55 60 40 160 80 85 90 160 300 0 170 220
2
L
2
L
【例4.5】在奶制品消费支出的调查中,若要估计该地 区居民奶制品月消费总支出,试计算抽样标准误差。
y 1 39.5 y 2 105 各层样本均值及方差为 : y 3 165 y 4 24
层 居民 户总 数 1 2 3 200 400 750 1 10
2 s1 1624.722
s2 2 2166.667 s2 3 8205.556 2 s4 193.333
i 1
第h层样本总值:
第h层总体方差 第h层样本方差:
yh nh yh yhi
i 1
nh
1 S (Yhi Yh ) N h 1 i 1
2 h
Nh
2
1 2 s ( y y ) hi h nh 1 i 1
2 h
nh
第二节
简单估计量及其性质
一、总体均值的估计
第一节
抽样方式
一、分层抽样(stratified sampling)
将总体N 个单位划分成 L 个互不重复的子总体(层),每层的单 L 位数分别为 N ,N , ( N N h )。 N
1 2 L
h 1
然后在每个层中分别独立地进行抽样,这种抽样就是分层抽样, 所得到的样本称为分层样本。 如果每层都是简单随机抽样,则称为分层随机抽样,所得到的 样本称为分层随机样本。 n1 N1 总体 N
性质2 对于分层随机抽样, 估计量的方差为:
L 2
估计量 yst 是
L
Y
的无偏估计,
1 fh 2 V yst Wh V yh Wh Sh nh h 1 h 1
2
性质3 以各层样本方差来估计层总体方差,可得方差的无偏 估计量:
1 fh 2 v yst Wh v yh Wh sh nh h 1 h 1