第四章 分层抽样(抽样调查理论与方法-北京商学院 李平)

合集下载

抽样调查培训课程.pptx

抽样调查培训课程.pptx
人民大学出版社
目录
第一章 引言 第二章 简单随机抽样 第三章 不等概抽样 第四章 分层抽样 第五章 多阶抽样 第六章 整群抽样与系统抽样 第七章 二相抽样
§1.1 大规模抽样调查
§1.2 有限总体抽样的样本分布
§1.3 概率抽样的几种基本 的抽样方法
抽样调查的意义与分类 总体与样本 抽样调查的操作流程
入样概率
性质1: 记一个可能样本为s,样本出现概率为 p(s),则有
p(s) 1
s
对任一单元Yk,
即为Yk的入样概率。
入样概率
性质2: 定理1 对总体{Y1 ,Y2 ,… ,YN} 抽取一个样 本量为n的无重复样本(即同一单元不在 样本中重复出现),对任一抽样设计,记 Yk的入样概率为 ,记两个单元Yk,Yl同 时入样的 概率为 ,则有:
常见待估计总体特征
N
1、总体总值N或Y Yk , k 1
常见待估计总体特征
总体总值、均值、比例的统一关系:
总体总值、比例都可以用均值来表示
对估计量的要求
偏量 以样本统计量w估计总体的数字特征W, B(w)=E(w-W)=E (w)-W 称为偏量。
均方偏差MSE(mean square erro) MSE(w)=E(w-W)2=var(w)+B2(w)
总体与样本
抽样框与抽样单元:其单元满足“与实际总 体的每个单元之间存在确定的对应关系, 凭借这种对应关系可以找到实际总体中特定 的一个或一些单元”条件的实际总体的映射总 体称为抽样框,构成映射总体的单元称为抽 样单元。
抽样框可认为是一个目录性清单。其形式可 为:名单、手册、地图、数据库等。 抽样框必须是有序的,其包含的抽样单元务 必“不重不漏”。 抽样单元不仅是“影子”,还指“实体”, 又称样本单元或样本点,不一定是基本单元, 可划分、分级。

第六章 二重抽样(抽样调查理论与方法-北京商学院 李平)

第六章   二重抽样(抽样调查理论与方法-北京商学院 李平)

2
1 n s yx ( y2 j y )( x2 j x ) n 1 j 1
例6.2 某县共有200个村,现要估计去年全县平均每村交售肉 猪的头数。已知肉猪的交售头数与生猪年终存栏数之间有较高 的相关性,而存栏头数的资料容易取得。采用二重比估计的方 法,先抽取80个村作为第一重样本,得年终平均每村的生猪存 栏数为1080头。然后在这80个村中又选了13个村作为第二重样 本,分别统计了年终的存栏数和交售头数,资料见下表。
二重抽样的用途很多,以下对几个方面进行叙述。 当为了提高抽样效率,打算使用某些抽样或者估计方法, 但又不知道某些必要的辅助信息时,二重抽样可以发挥很大 作用。分层抽样需要事先将总体单元分成层,进行估计时需 要知道层权,在构造比估计或回归估计时要求知道辅助变量 的总体总和或均值。在缺少这种辅助信息的情况下,就可以 使用二重抽样先抽一个大样本以获取这些信息,然后再对较 小的第二重样本进行实际调查并利用第一重样本中所得信息 改善估计量的精度。这里有一个费用问题,一般情况下,第 一重抽样的费用应该是非常低廉的,由此而增加的费用可以 通过提高估计量的精度而得到益处进行补偿,否则采用二重 抽样就不值得了。 有时候,调查的总体只是一个大总体中的小总体,但我 们对这个小总体却知之甚少,甚至连小总体的单元数都不知 道。在这种情况下,就可以使用二重抽样,从总体单元中筛 选主调查的对象。
试估计该县去年全年平均每村交售肉猪的头数,并计算其标 准差。
村i
1 2 3 4 5 6 7 8 9 10 11 12 13
年终生猪存栏头数( x2 j )
550 720 1500 1020 620 980 928 1200 1350 1750 670 729 1530
(6.6)

第七章 不等概率抽样(抽样调查理论与方法-北京商学院,李平)

第七章  不等概率抽样(抽样调查理论与方法-北京商学院,李平)

2 Z i (7.19)
1 1 ij 2 Z i Z j ( ) D 1 2Zi 1 2Z j 1 1 Zi Z j ( ) D 1 2Zi 1 2Z j
(7.20)
Durbin方法中的 i , ij 与Brewer方法中的 i , ij 完全一样 这表明两种不等概率抽样方法其实是等价的。
既然是不等概率抽样,那么就应该在抽样之前给总体中 的每一个单元赋予一定的抽取概率,在放回抽样的每一次抽 取中,设第 i 个单元入样的概率为 Z i (0 Z i 1, i 1, 2, , N ) N 且 Z i 1,按此规定有放回地独立抽取 n 次,形成所谓 i 1 的多项抽样。
(7.6)
(7.7)
§2
不放回的不等概率抽样
上一节讲述了有放回不等概率抽样,无论从实施上还是 从估计计算以及精度估计都显得十分方便。但是,一个单元 被抽中两次以上总会使样本的代表性打折扣,从而引起抽样 误差的增加。因此,实际调查工作者一般倾向于使用不放回 形式。
最简单的不放回不等概率抽样方式自然会想到逐一抽样 这在第一次抽样时不会发生问题,但在抽第二个样本时面临 的情况与有放回时大不相同,余下的 ( N-1 ) 个单元以什 么样的概率参与第二次抽样就是个问题;再在抽第三个样本 时又面临新问题,如此下去,一是抽样实施的复杂,二是估 计量及其方差计算的复杂,因此,在本节仅讨论 n固定,尤 其是n=2时的情形。同时,我们只对使总体中每个单元的入 ps 样概率严格地与其“大小”成比例感兴趣,这就是所谓的 抽样。
i
1 2 3 4 5 6 7 8
Mi
30 M i
累计
代码
2/5 1/2 2/3 4/3 8/5 3/5 2/3 1

社会调查研究方法——第4章抽样PPT课件

社会调查研究方法——第4章抽样PPT课件

2021/3/25
授课:XXX
6
总体与样本
总体
2021/3/25
样 本
授课:XXX
样本统计量 例如:样本均 值、比例、方 差
7
(4)抽样单位(sampling unit) 就是我们可以单独从总体中抽取出来的基本单位 。 一个理想的抽样框的要求是,它应该尽可能地 与目标总体相一致。 一般而言,如果总体中的每个元素在清单上分 别只出现一次,且清单上又没有总体以外的其 他元素出现,则该清单就是一个完备的抽样框 。在完备的抽样框中,每个元素必须且只能同 一个号码对应。
▪ 本次调查以湖北的宜城市和荆门市的部分乡镇的 移民为总体,采用判断抽样方法选取调查对象。由
于该项调查的指导者王茂福教授对宜城一带较熟 悉且得到荆门地区移民局的热情支持,所以我们首
选了这两个地区。此次调查总样本为427人。 其中宜城市为328人,占总样本的55.7%,荆 门市为189人,占总样本的44.3%。
▪ 其他类似的偶遇抽样还有: ▪ 在街口拦住过往行人进行调查;
▪ 在图书馆阅览室对当时正在阅读的读者进行调查; 在商店门口、展览大厅、电影院等公众场所向进出 往来的顾客、观众进行的调查;
▪ 利用报刊杂志向读者进行调查;
▪ 老师以他所教的班级的学生作为调查样本的调查等 等。
2021/3/25
授课:XXX
授课:XXX
19
实例:“丹江口水库移民生活满意度的调查”,载《社 会》2002年6月,作者:陆青华。
▪ 这次我们调查的对象是1978年前因丹江口水库工 程而迁出的移民,着重是了解他们的生活状况以及 对移民生活的满意程度,希望通过对移民们生活中 这一敏感而又关键的问题的把握,为改善移民工作 提供一些有价值的参考意见。

第四章专题学习活动-抽样调查

第四章专题学习活动-抽样调查

第四章专题学习活动-抽样调查引言抽样调查是社会科学研究中的一种常用方法,通过对样本数据的分析,可以推断出总体的特征或者关系。

本文档旨在介绍第四章专题研究活动中的抽样调查方法,包括抽样原理、抽样方法和调查过程。

抽样原理抽样原理指的是从总体中选取一部分样本进行调查,通过对样本的研究结果,来了解总体的特征。

抽样原理的关键在于代表性,即样本要能准确地反映出总体的特点。

在抽样过程中,需要考虑以下几个因素:- 总体特征的确定:明确研究对象的范围和特征,以便选择合适的抽样方法和样本。

- 抽样误差的控制:通过合理的抽样方法和样本大小,尽量减小抽样误差。

- 抽样方式的随机性:抽样过程需要使用随机抽样的方法,确保每个样本有平等的机会被选中。

抽样方法抽样方法可以分为概率抽样和非概率抽样两大类。

概率抽样是指通过随机抽样的方法来选择样本,从而保证每个样本有相等的选择机会,具有统计学意义。

常见的概率抽样方法有以下几种:- 简单随机抽样:每个样本有相等的被选中机会,适用于总体规模较小的情况。

- 系统抽样:按照一定的规则选择样本,比如每隔一定间隔选择一个样本。

- 分层抽样:将总体划分为若干层,从每一层中随机抽取样本。

- 整群抽样:将总体划分为若干群,从每一群中选择全部样本进行调查。

非概率抽样则不满足随机抽样的要求,样本选择过程可能存在主观因素,不能推广到整个总体。

常见的非概率抽样方法有以下几种:- 方便抽样:选择那些容易获得的样本。

- 判断抽样:根据研究者的判断选择样本。

- 意向抽样:选择那些对研究感兴趣的样本。

- 配额抽样:根据总体的特征设定一定数量的样本。

调查过程在进行抽样调查时,需要经过以下几个步骤:1. 确定调查目标:明确调查的目标和研究问题。

2. 设计调查问卷:根据研究问题设计合适的调查问卷。

3. 样本选择:根据抽样方法选择样本,并进行抽样。

4. 数据收集:通过面对面访谈、电话调查、网络问卷等方式收集数据。

5. 数据分析:对收集到的数据进行统计学分析,并得出结论。

《现代社会调查方法》第四章抽样

《现代社会调查方法》第四章抽样

第一节 抽样的意义与作用


2、抽样的作用
抽样作为人们从部分认识整体这一过程的关键 环节,其基本作用是向人们提供一种实现“由 部分认识总体”这一目标的途径和手段。 在社会调查中,抽样主要是解决的是调查对象 的选取问题,即如何从总体中选出一部分对象 作为总体的代表的问题。

两个例子

1984年的美 国总统大选
第二节 概率抽样的原理与程序

概率抽样的两项优点:

概率样本更具代表性,可避免各种偏见和减少误差 概率理论使我们能够估计样本的精确度和代表性

概率抽样之所以能够保证样本对总体的代表性, 其原理就在于它能够很好地按总体内在结构中 所蕴涵的各种随机事件的概率来构成样本,使 样本称为总体的缩影。
第二节 概率抽样的原理与程序

随机抽样:同等、独立
第二节 概率抽样的原理与程序

在概率抽样的过程中,我们总是要求保 证总体中的每一个个体都有同等的机会 入选样本,而且,任何一个个体的入选 与否,与其他个体毫不相关,互不影响。
随机事件与概率

确定性现象:必然发生的。 必然事件:在一定条件下必然发生的。 如:在一个大气压下,水在100摄氏度时必然沸腾。
分层抽样
整群抽样
多段抽样
其他抽样技术
按比例
不按比例
图 抽样分类
第三节 概率抽样方法


一、简单随机抽样(simple random sampling)
又称纯随机抽样,是按照等概率原则直接从含 有N个元素的总体中抽取n个元素组成样本 (N>n),常用的办法是抽签。

另外方法是利用随机数表进行抽样。
第三节 概率抽样方法

第四章 分层抽样(抽样调查理论与方法-北京商学院 李平)

第四章 分层抽样(抽样调查理论与方法-北京商学院 李平)



下面给出 y st 的近似置信区间
1 1 2 2 2 S h 是未知的 )Wh S h 中的 由于 Var ( yst ) ( Nh h 1 nh
k
1 nh 2 ( yhi yh )2 用该层中的样本方差进行估计,即 sh nh 1 i 1
于是
1 1 1 2 2 v ( yst ) ( )Wh sh 2 Nh N h 1 nh
(4.9)
2 ( N N h ) Sh 呢?这种情 h 1
况的发生实质上意味着分层在精度上不如简单随机抽样。
N h (Yh Y )2 恰好表示各层之间差异平方和 其实,
h 1
k
1 N
2 2 ( N N h ) Sh (1 Wh ) Sh 在一定程度上表示各层内 h 1
nh 1 yst Wh yh ( nh h 1 h 1 n
k
k
1 k nk yhi ) n yhi y i 1 h 1 i 1
(4.15)
nk
(4.14)
N yst N yst N y y n
显然估计量具有相当简洁的形式。
根据这个原则,可以使每层的样本量 nh与该层的大小N h 成比例,即: nh N h n N 或 f h f (h 1, 2,, k ) (4.13)
采用这种分配样本量的方法称为比例分配。
我们知道,简单随机抽样中总体的每一个单元入样的概 率即为抽样比 f n N 。因而,按比例分配而在各层中进行 简单随机抽样的分层方法实际上使总体中任何一个单元入样 的概率都为 f n N ,对于这种等概率抽取的样本,此时:
而事后分层中是个随机变量从而也是随机变量为判断的效果须求平均我们不加证明给出结果pstvar449449式右边第一项恰好为按比例分配分层抽样时样本平均数的方差第二项显然是由于事后分层所引起的方差的增加量假如n相当大的话该项自然趋于很小因此当n足够大时事后分层的精度相当于按比例分配的事先分层时的精度

第三章简单随机抽样(抽样调查理论与方法-北京商学院,

第三章简单随机抽样(抽样调查理论与方法-北京商学院,

100,95,92,88,83,75,71,62,60,50
平均分为77.6。先从中任选3个为一组样本,其选法共有120种
每种选法都有概率1/120。以4组样本为例(100,95,92),(100,83,
50),(88,83,62),(62,60,50)它们的样本平均数分别为95.67,
77.67,77.67,57.33。 从抽样调查的角度来看,我们希望抽到第二或第三组样
(3.6)
N 1 n
Nn
对随机有放回抽样,由于各次抽取是相互独立的,由概率论 的知识可以求得,此时:
2
Var( y) n
1 S2 (或 (1 ) ) (3.7)
Nn
比较(3.6)式与(3.7)式,发现同样用样本平均数来估计总体平 均数,它们都是无偏估计,但随机无放回时的方差小于随机
有放回时的方差。 y 的方差表示新盒子的离散程度,也就是 表示了 y 取值范围的大小,方差小表明 y 取值远离中心Y 的 可能性较小,这样随机的一组样本得到 y 的实现值距Y 很近
相当小,此时(3.6)式告诉我们 y 的方差将随着 n 的减少而增 大,此时 1-f 在 1 附近,对Var( y)的影响不大。事实上,
抽取样本越少,抽样误差越大。
可见实际抽样调查中用 y 估计Y 所产生的随机误差,也 即 y 的方差,主要受到样本容量 n 的影响,因子1-f 的影响
几乎可以忽略。
当然,影响 y 的方差的另一个重要因素是 2或 S 2。设
通常取决于总体单元个数N,满足10m1 N 10m。记m个 骰子按约定颜色而确定的顺序读得随机数R0,若R0 N,则 此 R0即为一次合格的随机数;否则予以放弃,重新摇取,直
到取到n个合格的随机数为止。 ③利用计算机产生随机数:不少现成的统计软件都可提供此 类服务。但必须指出,这样产生的随机数一般不能保证其随 机性,称为“伪随机数”。因此,提倡前述方法产生随机数。

第十章 系统抽样(抽样调查理论与方法-北京商学院 李平)

第十章   系统抽样(抽样调查理论与方法-北京商学院 李平)

1 n ysy Y i Y ji n j 1
其方差为:
(10.1)
这是只抽一个群的整群抽样估计,因此 y sy 是Y 的无偏估计
k 1 1 k 1 k Var ( ysy ) (Y i Y )2 (Y i Y )2 k k 1 i 1 k i 1
可得
N 1 2 1 k n Var ( ysy ) S (Y ji Y i )2 nk nk i 1 j 1
N 1 2 n 1 2 S S wsy N n
(10.3)
2 其中 S wsy
k n 1 (Y ji Y i )2 表示按列所分的层在 k ( n 1) i 1 j 1
N 1 2 S ,倘若各系统内无差异,则 y sy 的 则趋于极大值 N
误差达到最大且与系统内各单元的个数 n 无关,这一点完全 符合直观。相反地,如果系统内的方差总大于总体的方差, 说明我们的系统抽样样本比简单随机样本更具有代表性(在 相同容量下),此时系统抽样的精度优于简单随机抽样的精 度。 在N nk 时,我们已经指出系统抽样实际上是在群的大 小相等情形下的只抽一个群的整群抽样,因此完全可以利用 整群抽样估计量的方差表示式,而在那里我们用到了群内( 或层内、系统内)的相关系数 ,所以可以用相关系数 来表示 Var ( ysy ) 。
1
1
2
n
2 i k
Y12 Y1i Y1k Y22 Y2 i Y2 k

行平均
Y11 Y21

Y1 Y2

Yn1
Y1
Yn 2 Yni Ynk
Y2 Y i Y k
Yn
列平均

电大最新《社会调查研究》第四章抽样

电大最新《社会调查研究》第四章抽样
7.统计值-----也称为样本值,是关于样本中某一变量
的综合描述,或者说是样本中所有元素的某种特征的综合 数量表现。
• 8.抽样误差----是用样本统计值去估计总体参数值时所
出现的误差
参数值和统计值之间的关系:
① 参数值是固定不变的,唯一的,通常是未知的 ② 统计值是变化的,既对于同一个总体来说,不同
• (六)样本评估-----样本评估就是对样
本的质量和代表性进行检验,其目的是防 止因样本的偏差过大而导致的失误。
第二节 概率抽样
• 概率抽样-----是指总体中每一个成 员都有同等的进入样本的可能性, 即每一个成员的被抽概率相等,而 且任何个体之间彼此被抽取的机会 是独立的。
一、简单随机抽样
• (一)简单随机抽样概念和方法
如果某个总体中的每一个成员在所有方要了。
• 2.抽样存在的合理性-----是由辩证唯物主义个别与一
般的理论和建立在概率论基础上的大数定律和中心极限定律决定的。
这些理论与定律证明,尽管总体所包含的每一个个体都不能完全地反映总体 的性质和特征,却都具有不同程度的总体的性质和特征的因素,所以一定数 量个体的因素的集合,就可以等同或接近总体的性质和特征。
四、抽样程序
• 1.界定总体-----就是在具体抽样前,明 确从中抽取样本的总体的范围与界限。
• 例如----某市企业劳动合同执行情况 • 明确总体是所有企业的所有职工,如果只
把总体界定为国有企业或某类职工,从中 抽取样本是无法正确说明某市企业劳动合 同执行情况的
• 2.决定抽样方法------各种不同的抽样
•2.非概率抽样-----又称为不等概率抽样、
非随机抽样或主观抽样,就是调查者根据自己的 方便或主观判断抽取样本的方法。它不是严格按 随机抽样原则来抽取样本,所以失去了大数定律 的存在基础,也就无法确定抽样误差,无法正确 地说明样本的统计值在多大程度上适合于总体。 虽然根据样本调查的结果也可在一定程度上说明 总体的性质、特征,但不能从数量上推断总体。

第十二章 非抽样误差(抽样调查理论与方法-北京商学院 李平)

第十二章  非抽样误差(抽样调查理论与方法-北京商学院 李平)
如果我们的抽样方案是分层抽样,分层抽样不太可能按照 关心的总体参数去实施,而常常根据若干辅助信息来进行,当 然这些辅助信息与调查变量应当有较强的相关程度。倘若这些 辅助变量资料不健全,不准确甚至借用这些辅助变量本身属于 判断失误,由此引起的非抽样误差可能会严重威胁到估计的准 确性。
有时候陈旧的抽样框将带来我们所不希望看到的非抽 样误差,因为陈旧的抽样框会造成总体单元的“丢失”现 象,一般地它还难以反映近期有关变量的一些变化。
得到。 在有些实例中,人们只能对偏倚作出一些猜测,这些
猜测有时候可以根据一些历史的资料作出,有一定的参考 价值;但是有时候凭主观作出的猜测无法证实其正确性, 因此利用它来“纠偏”缺乏依据也缺乏精确度,这显然归 因于无回答现象带来的恶果。
然而在用计算机处理抽样数据时,不单单是简单地用Y1 去代替Y 或者最多给出一定量的纠偏。众所周知,抽样调 查一般不止问一个问题,我们的问卷经常围绕调查的目的 而设置一系列问题,我们遇到的无回答现象经常表现为: 全部问题无回答或部分问题无回答。在部分问题无回答者 中,将会呈现回答问题的多少以及哪些问题无回答的复杂 情况,这给计算机处理及整体推断带来一定的困难。有些 学者提出对于这样的“丢失”数据能否人为地补缺,如果 对无回答对象一无所知的情况下,我们可以采取下述措施:
如果由于条件的限制,只能进行一次调查,如何较正 由于无回答而引起的误差呢? Polize—Simmons对总体平 均数提出的建议对我们有一定的参考价值。
假定所有访问者均是在除周日以外的6个晚上进行,对 于每一个实际被调查者在答完问卷以后再附带询问一个问 题:“除周日之外,您在今晚以前的5个晚上有几天在家?” 这个问题的如实回答实际上告诉了访问员关于他晚上在家
当然所利用的权????????5011tttntnt??????本身是通过抽样调查的数据估算出来的它将无可质疑地影响到估计量的方差增大对估计的精度付出代价但是我们毕竟不要再花费时间精力和费用去作多次访问并达到纠偏的作用

第四章试验抽样.ppt

第四章试验抽样.ppt
第二种情况,总体不均质,可将总体按实际不均质 的情况划分成若干个子总体,依据每一子总体的 大小进行抽样,每一子样本的大小比例与子总体 的大小相称,形成一个总的样本,对每一子样本 进行统计分析,依据子样本的大小比例得到总的 样本的统计量,用以估计总体的情况
双重抽样法
在调查或试验中,有些性状很复杂,或不易直接进 行观测,或必须经过破坏以后才能得到结果,或 所化费的财力、物力很大,可用此抽样方法
去代表性 总体不均质,因而总体可以分成若干个子总体,每
一子总体有明显的不同 上述两个原因使得随机抽样显得比较粗糙,得不到
比较好的样本 为了克服以上两个原因带来的抽样缺点,可以:
第一种情况,总体是均质的,可将总体划分成若干 个大小相等的子总体,在每一子总体内抽取大小 相等的子样本,合成一个总的样本 ,以此进行统 计分析
整群抽样和随机抽样的总的规模是一样大的 整群抽样和多级抽样适宜于: 畜禽品种资源分布的调查 疫病调查
社会经济调查 多种学科的实验室试验 饲料或作物种植试验、调查 样品分析 等等
例如:在一个疫区进行病鸡解剖检查。首先查清疫 区的范围,在中心疫区中抽取乡或镇(一级抽 样),再从乡或镇中抽取有代表性的村(二级抽 样),再从中抽取养鸡户(三级抽样),最后从 养鸡户中抽取典型的病鸡(四级抽样)进行解剖 检查
如果待测的目标性状,即 Y 性状仅仅是比较复杂, 而不是必须经过破坏后才能进行测定,就应当考 虑是否一定要用双重抽样法,这时,需考虑以下 几个问题:
X 与 Y 的变异是否一致,如果这种变异不一致,双 重抽样法不一定是最好的方法;x 与 Y 的关系是 否是曲线关系,其峰值在哪里
用双重抽样法在经济上是否合算,如果所耗用的经 费大大超出承受范围,就应当考虑不必非用双重 抽样法

4 7 第四章 第七节 抽样法 市场调查与分析 教学课件

4 7 第四章  第七节  抽样法 市场调查与分析 教学课件
第四章 第七节 抽样法
抽样调查 一、 抽样调查的理解 二、 抽样的术语与程序 三、 随机抽样与非随机抽样
一、 抽样调查的理解
抽样调查:指从调查研究中抽出一部分要素作 为样本,对样本进行调查,并根据抽样所得 的结果推断总体的一种专门性调查活动。
抽样调查实际一种专门组织的非全面调查。 抽样调查是现代调查中的重要组织形式,是
当总体容量N很大时,样本 容量n本身也必须足够的 大,这样才能保证样本对 总体的代表性。
抽样框
抽样框,也叫抽样范围,就是的名单中直接抽取 200名学生作为调查的样本,那么,这所中 学全体学生的名单就是这次抽样的抽样框 。
如果是从所有班级中抽取部分班级的学生作 为调查样本,那么抽样框就是全校班级的 名单。
置信区间:是指在一定置信水平条件下,样 本值与总体值之间的误差范围,它反映抽 样的精确程度。
从某一个机关1万名干部中抽取200人为样 本,调查其平均工资,若样本平均工资 为100元,那么总体水平工资落在95— —105元这一区间的概率可能为96%(误 差5元),落在90——110元这一区间的 概率可能为99%(误差为10元)。
4、准确性高。由于抽样调查的工作量较全面 调查的工作量小,因此,它可以减少由于工 作量大、环节多而造成的误差。当然。用样 本数据去推断总体时会不可避免地出现推断 误差,但这种误差的大小是可以计算并加以 控制的,因此推断的结果通常是可靠的。
优点成立必须依据以下假设
◆部分包含在总体之内; ◆部分与整体有同样的特征、现象和关系; ◆部分能够为研究者提供一个有关群体生活、
单个大学生既是构成某市12万大学生这个总 体的元素,又是从这一总体中直接抽取 1000个学生的样本时的抽样单位。
如果从12万总体中直接抽取40个班级组成 1000个学生作为样本,那么抽样单位是班 级而不是学生了。

第四章专题学习活动-抽样评估

第四章专题学习活动-抽样评估

第四章专题学习活动-抽样评估
在第四章的专题研究活动中,我们将讨论抽样评估的相关内容。

抽样评估是一种常用的研究方法,用于获取对总体特征进行推断的
样本数据。

以下是抽样评估的一些重要概念和步骤。

1. 抽样方法选择
抽样方法的选择是抽样评估中非常关键的一步。

我们可以使用
随机抽样、系统抽样、分层抽样等方法,根据研究目的和样本特点
来确定合适的抽样方法。

2. 样本容量确定
样本容量的确定需要考虑到研究所关注的特征的方差、置信水平、置信区间等因素。

通常,样本容量越大,样本结果的可靠性越高。

3. 数据收集
在数据收集过程中,需要明确研究所关注的指标和要收集的变量。

同时,选择合适的数据收集方法,如问卷调查、访谈、观察等。

4. 数据分析
在数据分析过程中,可以采用统计学方法对收集到的数据进行
处理和分析。

这些方法包括描述统计、推断统计等。

5. 结果解释
根据数据分析的结果,我们可以对总体特征进行推断并解释结果。

在解释结果时,需要注意结果的置信水平和置信区间。

抽样评估是一种常用的研究方法,在很多领域都有广泛的应用。

通过合理选择抽样方法、确定样本容量,收集和分析数据,我们可
以得出对总体特征进行推断的结论,并对结果进行解释。

04第四章 分层抽样

04第四章  分层抽样
ˆ N Y y N st st hy h
h L

3、总体比例P的估计量 按照总体均值估计量的公式,可推出总体比例(成数)P 的估计量为:
ˆ ˆ P W P W st h h hp h
h h L L

ˆ Y y st 是Y 的无偏估计量,是 Y 可以证明,在分层随机抽样中, ˆ 是P的无偏估计量。 的无偏估计量, P st
nh y st 按比例分配的分层抽样,各层的抽样比相 这种情况称为 同。
L 1L ˆ ˆ ˆ Y y W Y N Y st st h h h h N h 1 h 1


1L y W y N y st h h h h N h 1 h 1
L



2、总体总和Y的估计量 有了总体均值的估计量,就可推出总体总和的估计量:





⑤分层抽样适合于调查标志在各单元的数量分布差异较大 的总体。因为对这样的总体进行合理的分层后可将其差异 较多地转化为层间差异,从而使层内差异大大减弱。 ⑥分层抽样中除了可以推断总体参数外,还可以推断各不 同层的数量特征,并进一步作对比分析,从而满足不同方 面的需要,也能帮助人们对总体作更全面、更深入的了解。 但对各层的估计缺乏精度保证。 ⑦分层抽样调查实施中的组织管理及数据收集和汇总处理 可以分别在各层内独立地进行,因此较之简单随机抽样更 方便。 ⑧分层抽样中,由于各层的抽样相互独立,互不影响,且 各层间可能有显著的不同,因此,对不同层可以按照具体 情况和条件分别采用不同的抽样和估计方法进行处理,从 而提高估计的精确度。 ⑨当总体有周期现象时,用分层比例抽样法可以减少抽样 方差。
如果得到的是分层随机样本,则总体均值 Y的简单估计为: 一般情况下:
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 2
h
k
(Yhi Yh Yh Y )2 (Yhi Yh ) N h (Yh Y )2
2 h 1 i 1 k Nh
i 1 k Nh
h 1 i 1
k
2 ( N h 1) Sh N h (Yh Y )2 h 1 h 1
Var ( y ) Var ( y st ) 1 1 1 k 1 2 ( ) N h (Yh Y ) N n N N 1 h 1
1 是否会有 N h (Yh Y ) h 1
k 2 h
1 k y st Wh yh (或 N h y h ) N h 1 h 1 ~ 总体总和 Y 的无偏估计可选为:
k
(4.2)
~ Ny N W y y st h h N h yh st
h 1 h 1
k
k
(4.3)
估计量 y st 的方差为:
Var ( yst ) Var ( Wh yh )
16
2 3 4
3
6.5 21.5 57.5
1 产生这种结果的原因 3 k 3 在于对该总体的分层 2 2 N h (Yh Y ) 5(Yh 3) 10 不合理。可见合理的 h 1 h 1 k 3 1 2 分层对体现分层抽样 2 (1 Wh ) S h (1 ) Sh 57 的优点至关重要! 3 h1 h 1 N h 5 ( h 1, 2, 3) , Wh
不管那种抽样方法,如果总体总和的无偏估计可以像 (4.15)式那样写成样本总和的常数倍,那么这种样本(或估 计量)称为自加权的或等加权的。
按比例分配的分层抽样就是自加权的,它的有关总体平均数 估计以及估计量的方差计算与估计,上一节已经进行了讨论 2、最优分配 自加权的比例分配方法使得估计量呈现简单形式,并且 在直观上与实用上都使人们感觉到它的合理性与方便。但是 它没有回答是否在给定费用下能使估计量的方差达到最小或 对给定 y st 的方差大小时能使总费用达到最小。分层抽样中 的样本量在各层中分配力求使得上述问题得到解决,这样的 分配称为最优分配。
2 2
(4.12)
§2
比例分配及最优分配
简单随机抽样只需根据调查精度的要求与费用的限制来 确定抽样容量的大小。而分层抽样则提出另一个重要的问题 一旦确定 n ,又如何在各层中分配抽样容量 nh,其中有一些 问题需要考虑,比如在各层中各有精度的要求以及费用的限 制,由于各层具有各自的鲜明特点,其花费自然不同,因而 在样本容量的分配上必须带有经济观点。另一个重要因素是 由于 nh的不同而带来数据处理的困难。我们的样本量分配必 须尽可能地使估计量及其方差估计具有较简单的形式,从而 使数据汇总工作量趋小,做到省时省力。 1、比例分配 由于我们假设每层的单元数 N h 为已知,合理且自然的 想法是哪个层的单元数多则相应抽取的样本量也大。
第四章 分 层 抽 样 §1 分层抽样及估计量
简单随机抽样是最基本的抽样手段,在一些小型的抽样 调查中被人们采纳。所谓小型是指总体容量N 较小,当总体 容量N 较大时,不便采用简单随机抽样方法。这时,分层抽 样将起到作用。 根据调查的要求,将总体 N 划分为若干个子总体N 1 , N 2 , , N k(通常用总体或子总体的容量大小来表示总体或子 总体本身),实质上是将总体分为 k 层。独立地在各层中 进行抽样,称为分层抽样。如果在各层中的抽样都是简单随 机进行,则称为分层随机抽样,所得的样本称为分层随机样 本。 总体如何分层是一门学问。
k
2 sh N h ( N h nh ) n h 1 h k
(4.11) 注意到 y st是各层样本平均数的加权和,只要 N h , nh与N h nh 适当大,各层样本平均数都可正态近似,因此 y st 也可正态 近似,这样得到 Y 的 (1 ) 的近似置信区间为:
( yst u1 v ( y st ) , y st u1 v ( y st ) )


下面给出 y st 的近似置信区间
1 1 2 2 2 S h 是未知的 )Wh S h 中的 由于 Var ( yst ) ( Nh h 1 nh
k
1 nh 2 ( yhi yh )2 用该层中的样本方差进行估计,即 sh nh 1 i 1
于是
1 1 1 2 2 v ( yst ) ( )Wh sh 2 Nh N h 1 nh
1 Yi N i 1
N
1 Yhi N h 1 i 1
k
Nh
N Y
h 1
k
h h
W hYh
h 1
k
(4.1)
从盒子模型观点看,这是一个大盒子装有 k 个小盒子,第 h 个小盒子中的单元值是Yh1 , Yh 2 , , YhN h,小盒子的平均数 2 是 Yh ,方差是 S h ,该小盒子在大盒子里所占的权为Wh ,分 层随机抽样是指从每个小盒子里按一定份额 nh(h 1,2, , k n1 n2 nk n )作随机无放回抽样。 由第三章知道, y h 是 Yh 的无偏估计量,因此,由(4.1)式 可知, Y 的一个无偏估计量自然地选为:
N Nh
h 1
k
第 h 层的单元标志值记为 Yhi ( i 1,2, , N h ) ,从该层抽 取的样本记为 yhi ( i 1,2, , nh ) ,第 h 层子总体的总体平均 ~ y h ,其和 ~h y 数为 Yh ,子总体之和为 Yh ,样本平均数记为
再记 Wh N h N ,表示第 h 层在总体中的权重,一般假定它 是已知的。 f h nh N h 表示 h 层中的抽样比。
2 S h (Yhi Yh ) 2 ( N h 1) 2 sh ( yhi yh ) 2 ( nh 1) i 1 i 1 nh Nh
第 h 层层内方差 第 h 层样本方差
2、参数的估计量
假定我们想估计总体的平均数 Y ,获取的样本是分层 随机样本。将 Y 写为:
1 Y N
(4.9)
2 ( N N h ) Sh 呢?这种情 h 1
况的发生实质上意味着分层在精度上不如简单随机抽样。
N h (Yh Y )2 恰好表示各层之间差异平方和 其实,
h 1
k
1 N
2 2 ( N N h ) Sh (1 Wh ) Sh 在一定程度上表示各层内 h 1
k
k
2 Wh S h 因此第二项 表示考虑有限总体修正因子引起的 N h 1 方差减少。 k
如果不用分层抽样,而用大盒子中的简单随机抽样的平均 数来估计总体平均数,此时方差为: 1 1 2 Var ( y ) ( ) S n NN N
而 ( N 1) S (Yi Y ) (Yhi Y )2
h 1
k
k
差异的平方和。
如果分层使得各层的中心离总体中心比较近,而各层中单元 又比较分散,那么不利于分层抽样的“不幸现象”就会发生。
下面构造这样的一个例子:
例4.1 假设总体 N=15, 分层k=3,数值如下表
h
1 2 3
i
1
2
3
4
5
Yh
Y
2 Sh
0 -1
-2
-1 -2
-3
2 3
4
5 6
5
4 9
h 1
k
由于各个小盒子的抽样过程是相互独立的,故各个 yh相互 独立,由独立随机变量之和的方差计算公式,有
1 1 2 ) Wh2 Sh Var ( yst ) W Var ( yh ) ( Nh h 1 nh h 1
2 h
2 2 k Wh2 Sh Wh2 Sh nh Nh h 1 h 1 2 2 k k Wh2 Sh Wh S h (4.4) nh N h 1 h 1 2 k Wh2 S h (4.4)式的第一项 恰好为从各个小盒子里随机有放 nh h 1 回抽样时得到的 y st的方差计算公式,而现在是无放回抽样 k
1 1 k 因此 Var ( y ) Var ( yst ) ( ) Wh (Yh Y )2 0 n N h 1
(4.8)
也即至少当 nh n Wh时,分层抽样的误差比简单随机抽样 的误差小。相差的部分几乎恰恰只与各层之间的差异平方 和有关。分层抽样的优点在于通过各层的独立抽样过程而 减少了由于各层之间的差异所造成的误差。 设想一下,如果各小盒子之间没有任何差异,那么各小 盒子的平均数 Yh应当一致,此时各层之间的差异平方和为零 因而分层抽样与简单随机抽样的误差相同,也就是说,分层 与不分层并无不同之处。这个事实告诉我们,为了取得分层 的效果,必须注意层与层之间要有较显著的差异。当然并不 是讲在总体中分辨不出各有特色的层时就一定不用分层抽样 不过那时的得益在于组织管理上的方便而不表现在精度上。 上述讨论是在所有的 N h都较大的假设下,利用近似式 (4.6)进行的,如不考虑近似因素,仍设nh n Wh,则有
nh 1 yst Wh yh ( nh h 1 h 1 n
k
k
1 k nk yhi ) n yhi y i 1 h 1 i 1
(4.15)
nk
(4.14)
N yst N yst N y y n
显然估计量具有相当简洁的形式。
根据这个原则,可以使每层的样本量 nh与该层的大小N h 成比例,即: nh N h n N 或 f h f (h 1, 2,, k ) (4.13)
采用这种分配样本量的方法称为比例分配。
我们知道,简单随机抽样中总体的每一个单元入样的概 率即为抽样比 f n N 。因而,按比例分配而在各层中进行 简单随机抽样的分层方法实际上使总体中任何一个单元入样 的概率都为 f n N ,对于这种等概率抽取的样本,此时:
相关文档
最新文档