第三章 分层随机抽样

合集下载

第三章 分层随机抽样

第三章 分层随机抽样

第三章分层随机抽样概述简单估计及其性质各层样本量的分配样本总量的确定分层随机抽样效果分析第一节概述一、特点¾分层抽样不仅可估计总体参数,还可估计层的参数¾实施方便,便于组织¾分层样本比简单随机样本在总体中分布更均匀¾分层抽样能较大地提高调查地精度二、符号¾总体分为L 层,h 表示层的编号¾第h 层单位总数:N h ¾样本单位数:n h¾层权:抽样比:¾第h 层子总体第i 个单位标志值:Y hi¾第h 层样本中第i 个单位标志值:y hiNN W h h =hhh N n f =¾总体均值:¾样本均值:¾总体方差:¾样本方差:∑==hNihihhYNY11∑==hnihihyny11()∑=−−=hNihhihhYYNS12 211()∑=−−=hnihhihhyyns12 211第二节简单估计量及其性质一、对总体均值或总量的估计hLh h h L h h st Lh h st sth Lh h Lh h h st y N y W N Y N Y Y y y W Y W Y ∑∑∑∑∑============11111ˆˆˆˆˆstststst Y YE Y y E ==)ˆ()(∑∑∑===−==Lh hh Lh h hh h L h hst N SW n S W y V W y V 1212212)()(样本方差s 2∑∑==−=Lh hh Lh h hh st N sW n s W y v 12122)(hhh h h st st st n S n N N y V N Y V N Y V 222)()()ˆ()ˆ(−===∑hhh h h st n s n N N Y v 2)()ˆ(−=∑())(,)(st st st sty v u y y v u yαα+−例:某市进行家庭收入调查,分城镇居民及农村居民两部分抽样,在全部城镇23560户中抽取300户,在全部农村148420户中抽取250户(均按简单随机抽样进行),调查结果城镇年平均户收入为15180元,标准差为2972元;农村年平均户收入为9856元,标准差为2546元。

讲稿3-分层抽样

讲稿3-分层抽样
10 750
1 n1
y 1
i 1
n1
1i
y 1 1 6 2 4 .7 2 2
2
s 2 2 1 6 6 .6 6 7
2
400 2850
0 .1 4 0 3 5
0 .0 2 5
y2 105
W3
N3 N

0 .2 6 3 1 6
f3
0 .0 1 3 3
y3 165
h 1
L
N h N h n h Ph Q h
2
Nh 1
nh



h 1
L h 1
1 N
2 h
N
2
N h
N
h
n h Ph Q h nh
W 1
fh
Ph Q h nh
2013-6-21
22
V 性质9:对于分层随机抽样, p 的一个无偏估计为:
st
v p st

ˆ E Yh Yh


ˆ V Y st

估计量的方差
L ˆ V W hYh h 1

h 1
L
ˆ 2 W h V Yh 2

L

L
ˆ ˆ W h W k Cov Y h , Y k


h 1 k h
由于各层是独立抽取的,因此上式第二项中的协方差全 L 为0,从而有 ˆ ˆ 2 V Y st W h V Y h
24
解:由上表可得,
h
p 4 0 .1
p 3 0 .4
p 2 0 .2
p 1 0 .2

分层随机抽样的原理和应用

分层随机抽样的原理和应用

分层随机抽样的原理和应用1. 简介分层随机抽样是一种常用的抽样方法,它通过将总体划分为不同的层级,然后在每个层级中进行随机抽样,从而得到具有代表性的样本集合。

这种抽样方法可以有效减小抽样误差,提高样本的代表性,广泛应用于统计调查、市场调研、社会调查等领域。

2. 原理分层随机抽样的原理是将总体划分为若干个层级,使得同一层级内的个体相对相似,而不同层级之间的个体有一定差异。

在抽样时,首先从每个层级中随机选择一部分个体作为样本,然后合并这些样本得到最终的抽样结果。

分层随机抽样的具体步骤如下: 1. 将总体划分为若干个层级,可以按照地域、年龄、性别、收入等因素进行划分。

2. 确定每个层级的样本大小,样本大小可以根据层级的重要性和总体特征进行确定。

3. 在每个层级中进行随机抽样,可以使用随机数表、计算机程序或抽奖方式进行抽样。

4. 将每个层级的样本合并,得到最终的样本集合。

3. 应用分层随机抽样在各个领域都有广泛的应用。

以下是一些应用示例:3.1 统计调查在进行统计调查时,人们通常希望从总体中抽取一部分样本,然后通过分析样本数据来推断总体的特征。

分层随机抽样可以保证样本的代表性,使得样本数据能够准确反映总体特征。

例如,政府机关在进行人口普查时,通常会将人口按照地域、年龄等因素进行划分,然后在每个层级中进行抽样调查。

3.2 市场调研在市场调研中,分层随机抽样可以帮助企业了解目标消费群体的特征和需求,从而制定相应的市场营销策略。

例如,一家公司想要了解某个地区不同年龄段消费者对某种产品的喜好程度,可以将该地区的消费者按照年龄划分为不同层级,然后在每个层级中进行抽样调研。

3.3 社会调查在社会调查中,分层随机抽样可以用来收集广泛的意见和观点,了解不同群体的态度和看法。

例如,一项社会调查想调查不同职业人群对某个社会问题的看法,可以将人群按照职业划分为不同层级,然后在每个层级中进行抽样调查。

4. 优缺点分层随机抽样的优点在于: - 提高样本的代表性,可以准确反映总体特征; -减小抽样误差,提高样本数据的可靠性; - 适用性广泛,可以应用于各种不同的调查和研究。

统计学 第三章抽样与抽样分布

统计学 第三章抽样与抽样分布

=10
= 50 X
总体分布
n= 4
x 5
n =16
x 2.5
x 50
X
抽样分布
从非正态总体中抽样
结论:
从非正态中体中抽样,所形成 的抽样分布最终也是趋近于正态分 布的。只是样本容量需要更大些。
总结:中心极限定理
设从均值为,方差为 2的一个任意总体中抽 取容量为n的样本,当n充分大时(超过30),样本 均值的抽样分布近似服从均值为μ、方差为σ2/n的
总体
样本
参数
统计量
总体与样本的指标表示法
总体参数
样本统计量
(Parameter) (Sample Statistic)
容量 平均数 比例 方差 标准差
N
n
X
x
p
2
s2
s
小练习
某药品制造商感兴趣的是用该公司开发的某 种新药能控制高血压人群血压的比例。进行了一 项包含5000个高血压病人个体的研究。他发现用 这种药后80%的个体,他们的高血压能够被控制。 假定这5000个个体在高血压人群中具有代表性的 话,回答下列问题: 1、总体是什么? 2、样本是什么? 3、识别所关心的参数 4、识别此统计量并给出它的值 5、我们知道这个参数的值么?
正态分布
一个任意分 布的总体
x
n
当样本容量足够 大时(n 30) , 样本均值的抽样 分布逐渐趋于正 态分布
x
X
总体分布
正态分布
非正态分布
大样本 小样本 大样本 小样本
正态分布
正态分布
非正态分布
三 中心极限定理的应用
中心极限定理(Central Limit theorem) 不论总体服从何种分布,从中抽取

第三章抽样调查

第三章抽样调查

分层比例抽样计算公式:ni =〔Ni /N〕 × n
ni :第i层应抽取的样本数
Ni :第i层样本总数
N
N :调查母体的样本总数
ቤተ መጻሕፍቲ ባይዱ
n :设定的样本数
分层比例抽样法适用于各层具有清楚差异,各
层外部具有较好分歧性,各层在母体中所占比例不 过火悬殊的市场母体的调查之中。
【例题1】某地域有百货商店10 000户,其中大型、 中型与小型百货商店区分为1000、2000、7000户,当 抽样数为200户时,假定用分层比例抽样法应从各层中 各抽多少个样本?
2、可以依据需求对各层的特性加以比拟;
3、从管理和实施上看,比复杂随机抽样便利得多。
二、分群随机抽样
分群随机抽样是将市场调查母体划分为假定干 个群体,然后将假定干群体作为抽样样本,采用单 纯随机抽样方法确定并对选定群体内的全体样本停 止普遍调查的一种方法。
分群随机抽样与分层随机抽样的区别在于:分 层随机抽样要求层间异质,层内同质;而分群随机 抽样正好相反,它要求群间同质,群内异质。
常用的非随机抽样法主要有:恣意抽样法、 判别抽样法、配额抽样法、系统抽样法。
一、恣意抽样法〔Convenient Sampling〕
恣意抽样法也称便利抽样法,是一种恣意选取 样本的方法。街头拦人法和方便选择法是恣意抽样 法的两种最罕见的方式。 优点:〔1〕无须精心选取样本
〔2〕能及时取得所需的信息 〔3〕省时、省力,浪费调查支出
〔3〕运用范围普遍,特别适用于研讨市场现象的数量 表现;
第二节 抽样调查的基本顺序
抽样调查,特别是随机抽样,有比拟严厉的设计 顺序,只要按一定步骤,才干保证调查的顺利完成, 取得应有的效果。抽样调查普通分为以下几个步骤: 一、确定调查总体和抽样单元 二、确定置信度和最大允许误差 三、确定样本数量 四、选择抽样方式停止抽样 五、搜集样本资料计算样本目的 六、用样本目的推断调查总体目的

抽样技术课件 第三章(分层抽样)

抽样技术课件 第三章(分层抽样)

估计量方差的证明
在一般分层抽样下
L L L L ˆ V W Y ˆ W 2V Y ˆ 2 ˆ ,Y ˆ VY W W Cov Y st h h h h h k h k h 1 k h h1 h1 L ˆ ˆ V Y W 2V Y


L 2 h L L 2 h
1 2 N
2 L Nh ( N h nh ) PhQh PhQh 2 Wh (1 f h ) Nh nh nh h 1 h 1
性质二的证明:
ph qh v( pst ) W v( ph ) W (1 f h ) nh 1 h 1 h 1
ˆ 2 2 1 fh 2 V (Yst ) V ( yst ) Wh V ( yh ) Wh Sh nh h 1 h 1
L L
1 fh 2 v( yst ) W v( yh ) W sh nh h 1 h 1
L 2 h L 2 h
无偏性的证明
在一般分层抽样下
ˆ Y EY h h
30
200
25
180
10
300
30
220
25
N1 200 N 2850 W1 0.07018 N 2850 n1 10 f1 0.05 nh 10 N1 200 n1 n1 1 2 2 1 y1i y1 1624.722 y1 y1i 39.5 s1 n1 1 i 1 n i 1
L L ˆ E W Y ˆ W EY ˆ EY st h h h h h1 h1
L



1 L 1 L Y WhYh N hYh Yh Y N h1 N h1 N h 1

分层随机抽样概论(PPT 50张)

分层随机抽样概论(PPT 50张)
4
2019/2/15
例题


例如,对全国范围汽车运输的抽样调查,调查目的不 仅要推算全国货运汽车完成的运量,还要推算不同经 济成分(国有、集体、个体)汽车完成的运量。 为组织的方便,首先将货运汽车总体按省分层,由 各省运输管理部门负责省内的调查工作。 各省再将省内拥有的汽车按经济成分分层。 为提高抽样效率,再对汽车按吨位分层。 例如,某高校对学生在宿舍使用电脑的情况进行调查, 根据经验,本科生和研究生拥有电脑的状况差异较大。 因此,在抽样前对学生按本科生和研究生进行分层 是有必要的。
st
W 2 VY VY h h s t
h 1

L


只要对各层估计无偏,则总体估计也无偏。

各层可以采用不同的抽样方法,只要相应的估计量 是无偏的,则对总体的推算也是无偏的。
8
2019/2/15
证明性质1
由于对每一层有 L L ˆ ˆ ˆ E Y E W Y W E Y st hh h h 因此, h 1 1 h L L L 1 1 Y W Y N Y Y Y h h h h h N N N h 1 h 1 h 1 估计量的方差 L L L L ˆ ˆ ˆ ˆ 2ˆ V Y V W Y W V Y 2 W W Cov Y , Y st h h h h h k hk h 1 h 1 h 1 k h 由于各层是独立抽取的,因此上式第二项中的协方差全 L 为0,从而有
二、分层原则:
总体中的每一个单元一定属于并且只属于某一个层,而不可能同时属于两个 层或不属于任何一个层。




1.估计:层内单元具有相同性质,通常按调查对 象的不同类型进行划分。 2.精度:尽可能使层内单元的指标值相近,层间 单元的差异尽可能大,从而达到提高抽样估计精 度的目的。 3.估计和精度:既按类型、又按层内单元指标值 相近的原则进行多重分层,同时达到实现估计类 值以及提高估计精度的目的。 4.实施:抽样组织实施的方便,通常按行政管理 机构设置进行分层。

抽样技术第三章_分层随机抽样

抽样技术第三章_分层随机抽样

4

4
4
ˆ v Y ˆ 23208 s Y
ˆ 209650 2 23208 ˆ ts Y Y

2015/11/6
23
三、对总体比例的估计

总体比例P的估计为:pst Wh ph
h 1
L

估计量的性质
对于一般的分层抽样,如果 ph是 P h 的无偏估计 (h 1,2,, L ),则 pst 是 P的无偏估计。 p 的方差为:
W 2V Y V Y h h st
h1

L


只要对各层估计无偏,则总体估计也无偏。

各层可以采用不同的抽样方法,只要相应的估计量是无 偏的,则对总体的推算也是无偏的。
11
2015/11/6
证明性质1
由于对每一层有
ˆ Y EY h h

L L ˆ ˆ ˆ E Y E W Y W E Y st h h h h 因此, h1 h1

L
L
N Y hh
h 1
L
分层随机样本,总体均值 Y 的简单估计
1 y st Wh y h N h 1
N
h 1
L
h
yh
10
2015/11/6
估计量的性质

是 Yh 的无 性质1&2:对于一般的分层抽样,如果 Y h 偏估计( h 1,2, , L ),则 Y 是Y 的无偏估计。 st Yst 的方差为:
7
三、符号
所有总体参数的估计量都采用下标“st”以示区别:
记 号 代表的含义
h
下标
i

分层随机抽样的定义

分层随机抽样的定义

分层随机抽样的定义
分层随机抽样是概率抽样中非常重要的抽样技术,它是将被试单位按照经定义
的层次划分为一些抽样单元,并从中按一定的规则以概率抽取样本的一种方法。

分层随机抽样的本质是准备性上进行被试的分类,以各层级单元作为抽样的基础单元,运用概率抽样,在整个被试群体层面上实现样本的平均分布等目的而进行的定量调查方法。

在抽样过程中,被试单位会被先划分到若干个具有明显层次关系的抽样单元,即层级中的被试单元,然后每个层级单元内又按一定的概率抽样。

使用分层随机抽样技术有非常多的好处:一是可以有效的避免抽样的偏差问题,从而获得的数据的准确性和可靠性较高;二是缩小样本量和可行性,不同的被试抽取比例可以做出不同的调整;三是层级参数可以添加或减少,使之更加灵活,灵活应用于各种不同的调查实际中。

然而,分层随机抽样也存在一些弊端,首先,在取样前,要对调查对象进行详
细的分析及具体的定义,比如变量的层级及样本量等;其次,当所要调查的人群是常态分布的时候,分层随机抽样的准确性和可行性相比有可能会降低;最后,分层随机抽样所确定的样本容量和抽样比例通常都不能满足实际的调查要求。

总的来说,分层随机抽样技术可以说是抽样技术中的一个重要技术,它在整体
调查中有着很大的社会价值,但在具体使用时要考虑各方面的因素,以满足调查结果准确和可行性的要求。

第三章分层随机抽样作业答案

第三章分层随机抽样作业答案

P111 3.6 样本量应该满足:
在Nh-1≈Nh的条件下,
而其中每层的吃年夜饭的样本比例的方差的估计值为: p 1 p 1 f N n h hn h h hh v p p 1 p h h h n 1 N n 1 hn h h h
则样本比例的方差的估计值为:
6 2 h 6 2 h
p 1 p h h v p W v p W 1 f s t h h n 1 h 1 h 1 h
把相应的数值代入计算可得方差的估计值为v(pst)=3.9601×10-4,
从而可以得到该估计值的标准差为:s(pst)=0.0199。
(2)样本容量的确定
n2 = 0.2028 × 2568 = 520.7904 ≈ 521
n3 = 0.1625 × 2568 = 417.3000 ≈ 417 n4 = 0.1184 × 2568 = 304.0512 ≈ 304 n5 = 0.1544 × 2568 = 396.4992 ≈ 396 n6 = 0.1529 × 2568 = 392.6472 ≈ 393
P110 3.4 ∵ n0/N=2568/1650000=0.00156<0.05 ∴ 不需要修正 按内曼分配,样本量 n = 2568
w h
W 1 ph ) hp h(
w1= 0.0540/0.2584 = 0.2090
W p (1 p )
h1 h h h
k
w2= 0.0524/0.2584 = 0.2028
P110 3.5 解:总体总共分为10个层,每个层中的样本均值已经知道, 层权也得到,从而可以计算得到该开发区居民购买冷冻 食品的平均支出的估计值为: y st

第三章 抽样设计

第三章  抽样设计

一、方便抽样
又称任意抽样。一般由调研人员从工作的 方便出发,在调研对象的范围内随意抽取 一定数量的样本进行调查。
最常用的两种方法是“街头拦截法” 最常用的两种方法是“街头拦截法”和 “空间抽样法” 空间抽样法” 特点: 节约费用和时间,但样本的信息不 适用于总体参数的推断。
注意:
方便抽样一般用于非正式的探索性调查, 只有在调查总体各单位之间的差异不大时, 抽取的样本才有较高的代表性。
抽取样本的数量
允许误差 % 1 2 3 4 5 6 7 可信程度(把握程度)% 95 99 9600 16589 2400 4147 1067 1849 600 1037 384 663 267 461 196 339
一、简单随机抽样
适用范围:调查总体中各个体之间差异程 度较小的情况下,或者调研对象不明,难 以分组、分类的情况。 常用方法: 1、抽签法 2、随机数表法
二、系统抽样
又称等距抽样,就是先将调查总体的各个 体按照一定的标志排列起来,然后按照固 定的顺序和一定间隔来抽取样本个体。
排队的标志有两种: 1、按调查项目有关的标志排队 2、按调查项目无关的标志排队
(独立控制配额)按年龄分组: 独立控制配额)按年龄分组:
按年龄分组 18-29岁 18-29岁 30-40岁 30-40岁 41-55岁 41-55岁 56岁 56岁 合计 人数 40 60 70 30 200
按性别分组
性别 人数 100 100 200


合计
相互控制配额抽样
合计 40 60 70 30 收入 性别 年龄 18-29岁 18-29岁 30-40岁 30-40岁 41-55岁 41-55岁 56岁以上 56岁以上 合计 高 男 3 6 6 3 18 女 4 5 6 3 18 中 男 7 11 13 6 37 女 8 11 13 5 37 低 男 9 13 16 7 45 女 9 14 16 6 45

分层抽样 例题文档

分层抽样 例题文档

第三章分层随机抽样书P1293.1.某高校欲了解教职员工对某项津贴与职务职称挂钩的分配制度改革的态度,准备在全校教职员工中进行抽样调查,为了提高抽样技术,准备进行分层抽样,请判断下面的几种分层方法是否合适?(1)按性别分层(2)按教师、行政管理人员、职工分层;(3)按职称)(正高、副高、中级、初级、其他)分层(4)按部门(如系、所、处)分层3.2. 某学院4个专业的新生元旦晚会,组织者为了活跃气氛,欲在800名学生中抽出8名作为“幸运星”,为了以示公平,要求每位学生被抽中的概率相同。

组织者知道利用简单随机抽样的方法可以满足要求,你能不能帮助组织者再设计几种方案?3.3.某居委会辖有三个居民新村,居委会欲对居民购买彩票情况进行调查,调查者考虑以新村分层,在每个新村中随机抽取了10个居民户最近一个月购买彩票所花费的金额(元),下表是每个新村及调查情况:(1)试估计该小区居民户购买彩票的平均支出,并给出估计标准差。

(2)当置信度为95%,要求极限误差不超过10%时,按比例和奈曼分配时样本量及各层的样本量分别为多少?3.4.随着经济发展,某市居民年生活习惯在改变,为研究该现象,某机构以市中心163万居民户作为研究对象,将居民户按6个行政分层,在每个行政区随机抽出30户居民进行调查,(各层抽样比可忽略),调查结果如下:(1)试估计该市居民在家吃年夜饭的比例,并给出估计的标准差。

(2)置信度为95%,要求极限绝对误差不超过1%时,按比例和奈曼分配时样本量及各层的样本量分别为多少?3.5.某开发区利用电话调查对区内冷冻食品情况进行调查(各层抽样比忽略)调查后各层样本户购买冷冻食品支出的中间结果如下表:试估计该开发区居民购买冷冻食品的平均支出,以及估计的95%的置信区间。

3.6.某单位欲估计职工的离职意愿,聘请了专业公司来进行调研,公司人员按高级职称、中级职称和初级职称分为3层,已知层权分别为0.2,0.3,0.5,预先猜测各层的总体比例为:0.1,0.2,,0.4,如果采用按比例的分层抽样,要求估计的方差与样本量为100的简单随机抽样相当,则样本量为多少?(不考虑有限总体校正系数)3.7.如果一个大的简单随机样本按类别分为6组,然后按照层的实际大小重新进行加权,这一过程称为事后分层,才用这种方法是由于(判断以下说法的对错)(1)它能比简单随机抽样产生更精确的结果;(2)它能比按比例分配产生更精确的结果;(3)它能比最优分配产生更精确的结果;(4)在抽样时不能得到分层变量;(5)它的估计量方差与真正按比例分层随机抽样的方差差不多。

第三章抽样和抽样分布

第三章抽样和抽样分布
第三章抽样和抽样分布
Probability Sample
• Probability Sample • A probability sample is a sample chosen
by chance. We must know what samples are possible and what chance, or probability, each possible sample has.
第三章抽样和抽样分布
统计应用
“抓阄”征兵计划
➢ 然而结果是,有73个较小的号码被分配给了前半
年的日子,同时有110个较小的号码被分配给了后 半年的日子。换句话说,如果你生于后半年的某 一天,那么,你因为被分配给一个较小号码而去 服兵役的机会要大于生于前半年的人
➢ 在这种情况下,两个数字之间只应该有随机误差,
convenience sampling chooses the individuals
easiest to reach. Here is an example
of convenience sampling.
Both voluntary response samples and
convenience samples produce samples that are almost guaranteed not to represent the entire
被分配的号码较大的人也许永远轮不上到军队服役
➢ 这种抓阄看起来对决定应该被征召入伍是一个相当不错
的方法。然而,在抓阄的第二天,当所有的日子和它们 对应的号码公布以后,统计学家们开始研究这些数据。 经过观察和计算,统计学家们发现了一些规律。例如, 我们本应期望应该有差不多一半的较小的号码(1到183) 被分配给前半年的日子,即从1月份到6月份;另外一半 较小的号码被分配给后半年的日子,从7月到12月份。 由于抓阄的随机性,前半年中可能不会分到正好一半较 小的号码,但是应当接近一半

教育研究方法第三章 自 测 题及参考答案

教育研究方法第三章 自 测 题及参考答案

附:第三章自测题和参考答案一、填空1. 一个具有信度的研究程序,不论其过程是由谁操作, 或进行多少次同样的操作,其结果总是非常(一致) 的。

2. 分层随机取样是指对由性质并非完全相同的部分组成的总体,按照性质不同分层,然后对各层次按(比例抽样)的方式选择样本。

3. 系统取样指从一个正确排列起来的总体序列中,每(隔一定)间隔选择样本的方式。

4. 研究计划一般包括:(课题表述),课题意义,定义、限制和界定,(文献查阅,假设,方法,时间表7部分。

5. 影响研究信度的因素主要有:(被试方面的因素)、主试方面的因素、研究设计方面的因素和研究实施方面的因素。

6. 一般来说,在自然环境中所进行的研究其结果的(外部效度)较高;然而,在实验室环境中所进行的研究其结果的(内部效度)较高。

7. 广义的教育科学研究设计是为(解决研究问题)所拟定的比较详细的规划及付诸实施的全部过程。

8. 狭义的教育研究设计,是指研究者为了解答所欲研究的问题而说明对研究中各种变量(如何控制)的一种简要的计划、结构、方法和策略等,即资料搜集与分析的程序。

9. 教育科学研究设计的基本目的有两项:其一是通过研究设计,确定(收集和分析)研究数据的方式方法,实现采用合理、有效和经济的研究方法;其二是通过研究设计,提出实现研究目标的操作方案和研究过程,保证(回答)研究的问题和达到研究目的。

10. 教育科学研究方法可以按照方法中使用的手段分为四种基本类型:(思辨)、实证、数学方法、(符号)表述四类基本方法。

二、名词解释1.取样:研究取样是从确定的研究对象总体中,为实现教育科学研究的目标,而随机选取的一定样本容量的样本。

2.自变量:即能够独立的变化和引起因变量变化的条件或因素。

3.因变量即随自变量的变化而变化的有关因素或特征。

4.中介变量:中介变量即位于两个或多个变量之间,起联系、传导、转化或解释变量之间关系作用的变量,由于它起中介作用,因而得名。

5.操作性定义操作定义就是用可感知、可度量的事物、事件、现象和方法对变量或指标做出具体的界定、说明。

第三章分层随机抽样

第三章分层随机抽样

第三章分层随机抽样
§3.1 引言
§3.2 估计量
§3.3 样本量在各层的分配§3.4 样本量的确定
附录一
附录二
§3.1 引言⏹定义与特点➢定义
➢特点
※分层抽样的抽样效率高(即分层抽样的估计精度高)。

①层抽样估计量的方差只与层内方差有关,与层间方
差无关。

通过分层,尽可能降低层内差异,使层间差异增大,从而提高估计精度。

②从直观的角度来看,分层抽样可以使样本在总体中
分布比较均匀。

※分层抽样不仅可以对总体指标进行推算,也可以对各层指标进行推算。

▪使用场合
符号说明
§3.2 估计量
⏹总体均值的估计➢简单估计量的定义
➢简单估计量的性质
⏹总体总量的估计➢简单估计量的定义
➢简单估计量的性质
⏹总体比例的估计➢简单估计量的定义
➢估计量的性质
§3.3 样本量在各层的分配 比例分配
➢比例分配下总体均值估计
➢比例分配下总体总值估计
➢比例分配下总体比例估计
最优分配
➢Neyman(内曼)分配
▪考虑估计总体比例P的情形
§3.4 样本量的确定 影响样本量的因素
➢估计总体均值的情形
➢总体参数为P的情形。

《抽样技术》第三章-分层随机抽样

《抽样技术》第三章-分层随机抽样
记 ran ——简单随机抽样; prop ——按比例分配的分层随机抽样; opt ——最优分配的分层随机抽样。 均值估计量的方差分别用Vran,Vprop,Vopt表示。 从Vopt的定义必定有Vprop≥Vopt。nh (h=1,2, ⋯,L)不取 整时,使用公式

V prop
L
1 f n
则它是Y 的无偏估计。可计算出 1 f 1 2 7 2 2 2 V yst S1 S2 S3 n 10 30 3
2 S12 , S2 , S32 S 2 ,故 由经验知,应有
1 f V yst n 1 f n
1 2 7 2 2 2 S S S 30 3 10 S2 V y
2 h 2 h
1 L 1 L 2 2 2 Wh Sh Wh Sh Wh Sh n h1 N h1 h 1
L 2 h L 2
L
Vopt
W S Wh S 1 1 L 2 Wh Sh Wh Sh nh N n h1 N h1 h 1 h 1 V prop Vopt
2 L L 1 2 Wh Sh Wh Sh n h1 h1 2 1 L Wh Sh S n h1
其中S Wh Sh是Sh的加权平均值。
h 1
L

这是因为
n V prop Vopt Wh S Wh Sh h 1 h1

采用分层技术的主要理由
1.需要有总体的某些分类数据,且要具有规定的精 确度; 2.为便于行政管理而要求分层; 3.总体的各个不同部分的抽样问题可能显著地不同 ,即采用各自不同的抽样方法; 4.分层可能提高整个总体指标估计值的精确度。它 可以将一个内部差异很大的总体分成一些内部比较 相似的子总体。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
N1 N2 NL N
NL ,则有:
2014-12-12
2
定义 4.2 分层抽样(stratified sampling) :又称为类型 抽样或分类抽样。即抽样在每一层中独立进行,总的样 本由各层样本组成, 总体参数则根据各层样本参数的汇 总做出估计,这种抽样就称为分层抽样,所得样本称为 分层样本。设总的样本量为 n ,从 L 个子总体中所抽取的 样本量分别为 n1 , n2 , nL ,则有: n1 n2
W 2V Y V Y h h st
h1

L


只要对各层估计无偏,则总体估计也无偏。

各层可以采用不同的抽样方法,只要相应的估计量是无 偏的,则对总体的推算也是无偏的。
11
2014-12-12
证明性质1
由于对每一层有
ˆ Y EY h h

L L ˆ ˆ ˆ E Y E W Y W E Y st h h h h 因此, h1 h1

L
如果得到的是分层随机样本,则总体总 量的简单估计为:
h 1
Ny Y st
2014-12-12 17
2.估计量的性质
性质1:对于一般的分层抽样,如果 ˆ 是 Y 的无偏估 Yst 是 Y 的无偏估计,则 Y ˆ 的方差为: 计。Y

2 ˆ ˆ ˆ V Y N V Yst V Y h
L


1 L 1 L Y WhYh N hYh Yh Y N h1 N h1 N h 1 估计量的方差 L L L L 2 ˆ ˆ ˆ ˆ ,Y ˆ V Yst V WhYh Wh V Yh 2WhWk Cov Y h k h 1 k h h1 h1 由于各层是独立抽取的,因此上式第二项中的协方差全 L ˆ W 2V Y ˆ 为0,从而有 V Y
nL n 。
2014-12-12
3
定 义 4.3 分 层 随 机 抽 样 ( stratified random
sampling ):如果每层中的抽样都是独立地按照简
单随机抽样进行的,那么这样的分层抽样称为分层
随机抽样,所得的样本称为分层随机样本
(stratified random sample)。
h
2 h
1 fh 2 v y st W v y h W sh nh h 1 h 1
L L 2 h
2014-12-12 16
V yst 的一个无偏估计为: 因此,
nh
h
二、对总体总量的估计

总体总量 Y 的估计为:
ˆ ˆ ˆ Y NYst Y h
4

4
4
ˆ v Y ˆ 23208 s Y
ˆ 209650 2 23208 ˆ ts Y Y

2014-12-12
23
三、对总体比例的估计

总体比例P的估计为:pst Wh ph
h 1
L

估计量的性质
对于一般的分层抽样,如果 ph是 P h 的无偏估计 (h 1,2,, L ),则 pst 是 P的无偏估计。 p 的方差为:
1 2 3 4
2014-12-12
21
N1 200 W1 0.07018 N 2850 n1 10 f1 0.05 N1 200
N 2850
nh 10
1
N 400 W2 2 0.14035 N 2850
1 n1 n 2 y1 y1i 39.5 s 2 1 y1i y1 1624.722 1 n1 i 1 n 1 i 1
2 L 2 h


L
2 ˆ ˆ N W V Yh N h V Y h h1 h1

hL 1


18
2014-12-12

ˆ 的方差为: 性质2:对于分层随机抽样,Y
1 f 2 h ˆ V Y N V yh N Sh nh h1 h1
6
例题


例如,对全国范围汽车运输的抽样调查,调查目的不 仅要推算全国货运汽车完成的运量,还要推算不同经 济成分(国有、集体、个体)汽车完成的运量。 为组织的方便,首先将货运汽车总体按省分层,由 各省运输管理部门负责省内的调查工作。 各省再将省内拥有的汽车按经济成分分层。 为提高抽样效率,再对汽车按吨位分层。 例如,某高校对学生在宿舍使用电脑的情况进行调查, 根据经验,本科生和研究生拥有电脑的状况差异较大。 因此,在抽样前对学生按本科生和研究生进行分层 是有必要的。
L 2 h
1 fh PhQh , 说明: 当Nh较大时,V ( pst ) W nh h 1
L 2 h
25
例3.2

在例 3.1 的调查中,同时调查了居民户拥有家 庭电脑的情况,获得如下数据(单位:台), 要估计该地区居民拥有家庭电脑的比例及估计 的标准差。
层 居民户 总数
200 400 750 1500
样本户奶制品年消费支出
1 10 50 180 50 2 40 130 260 35 3 0 60 110 15 4 110 80 0 0 5 15 100 140 20 6 10 55 60 30 7 40 160 200 25 8 80 85 180 10 9 90 160 300 30 10 0 170 220 25
2014-12-12
4
二、作用



由于每层都进行抽样,这就可使样本在总体中分布 更加均匀,从而具有更好的代表性。 由于抽样在每一层中独立进行,所以一者允许各层 选择不同的适合本层的抽样方法,二则可同时对各 子总体(层)进行参数估计,而不单是对整个总体 的参数进行估计。 由于各层的总体方差因单元之间差异小而肯定小于 整个总体的方差,而抽样精度与此成正比,所以分 层抽样可以提高参数估计的精度。


h

12

st

h 1
h

2014-12-12
性质3:对于分层随机抽样, y st 是 Y y st 的方差为: 的无偏估计,

1 fh 2 V yst W V yh W Sh nh h1 h1
L 2 h L 2 h
2014-12-12
13
第三章 分层随机抽样
第一节 第二节 第三节 第四节 第五节 第六节 第七节
2014-12-12
定义与符号 简单估计量及其性质 比率估计量及其性质 回归估计量及其性质 各层样本量的分配 总样本量的确定 分层抽样的其他方法
1
第一节一、定义Leabharlann 定义 4.1定义与符号
层:如果一个包含 N 个单位的总体可以
分成“不重不漏”的 L 个子总体,亦即每个单元必属于 且仅属于一个子总体, 则称这样的子总体为层 (stratum ) 。 设 L 个子总体所包含的单位数分别为 N1, N2 ,
L 2 h L 2 h

2014-12-12
19

性质3:对于分层随机抽样, 无偏估计为:
ˆ VY
的一个
1 f h 2 ˆ v Y N v y h N sh nh h 1 h 1
L 2 h L 2 h

2014-12-12
20
例3.1

调查某地区的居民奶制品年消费支出,以居民户为抽 样单元,根据经济及收入水平将居民户划分为4层,每 层按简单随机抽样抽取 10户,调查获得如下数据(单 位:元),要估计该地区居民奶制品年消费总支出及 其95%的置信区间。
f2
1 n2 10 0.025 N 2 400
y2 105
2 s2 2166.667
N 750 W3 3 0.26316 N 2850
f3
n3 10 0.0133 N3 750
y3 165
y4 24
2 s3 8205.556
W4
N 4 1500 0.52632 N 2850
2014-12-12

14

性质4:对于分层随机抽样, V yst 的一个 无偏估计为:
L 2 h L 2 h
1 fh 2 v y st W v y h W sh nh h 1 h 1
2014-12-12
15
证明性质4:
对于分层随机抽样,各层独立进行简单随 机抽样,由第二章性质3,得 V yh 的无偏 估计为: v y 1 f h s 2
7
三、符号
所有总体参数的估计量都采用下标“st”以示区别:
记 号 代表的含义
h
下标
i
下标
Nh
nh
Yhi
yhi
第 h 层的 第 h 层的 第 h 层第 i 个 第 h 层第 i 个
" 第 h 层" " 层内单位号" 单位总数 样本数 总体单元的取值 样本单元取值


Wh
Nh N
第 h 层的 层权
fh
证明性质3:
E y st Y L V y st Wh2V y h
h 1
对于分层随机抽样,各层独立进行简单随机抽样, 对每一层有
E y h Yh
因此,由性质1,有
1 fh 2 Sh 由第二章性质2,得 V y h nh L L 2 2 1 fh 2 Sh 因此 V yst Wh V yh Wh nh h1 h1
st
V pst Wh2V ph
相关文档
最新文档