第六章 不等概率抽样

合集下载

社会研究方法 第6章

社会研究方法 第6章

整群抽样
不同子群
子群抽取
整群抽样
优点:简便易行,节省费用 扩大抽样应用范围
缺点: 样本分布不广, 代表性相对较差
适用对象: 总体的不同子群之间差别不大, 而每个子群内部差异较大
五、多段抽样
按抽样元素的隶属、层级关系把抽样过程分为 几个阶段进行:先从总体中随机抽取几个大群, 然后再从这几个大群内随机抽取几个小群,这 样一级级抽下去直到抽到最基本的元素为止。
第六章 抽样
第一节 抽样的意义与作用 第二节 概率抽样的原理与程序 第三节 概率抽样方法 第四节 户内抽样与PPS抽样 第五节 非概率抽样方法 第六节 样本规模与抽样误差
第一节 抽样意义与作用
一、抽样的概念
(1)总体(population):构成它的所有元素的 集合,用“ N ”表示。
(2)元素(element):构成总体的最基本单位。
出总体内在结构的变量作为分层变量。 c:以那些已有明显层次区分的变量作为分层变量 (2)分层的比例 a:按比例分层抽样 b:不按比例分层抽样
按比例分层抽样
分层
学生
1200
女生1000 (5/6)
男生200 (1/6)
抽 样(120人)
100人 5/6
样 本 20人 1/6 120
按各种类型或层次中单位数目同总体单位数目间 的比例来抽取子样本的方法。可以确保得到一个 与总体结构完全一样的样本。
样本规模的计算
简单随机抽样中样本规模的计算 置信水平对应的临界值

推论总体均值

n
t2
e2
பைடு நூலகம்
2
总体的标准差 允许的抽样误差
推论总体成数:
t 2 p(1 p)

概率论 第六章 样本及抽样分布

概率论 第六章 样本及抽样分布
函数Fn(x)为 Fn(x)=S(x)/n , -∞<x< +∞。
一般,设 x1,x2, …,xn 是总体F的一个容 量为n的样本值,先将x1,x2, …,xn 按自小到 大的次序排列,并重新编号,设为
x(1) ≤x(2) ≤…≤x(n) 则经验分布函数Fn(x)的观察值为
0,
若x x(1) ,
性质:
(1) limf (t)
1
e ; t2 2
n
2
(2)当n 45时 取t (n) Z .
(三)设X~2(n1), Y~ 2(n2), 且X 与Y相互独立,则随机变量
F X/ n1 Y / n2
则称F服从第一自由度为n1,第二自由 度为n2的F分布,记作
F~F(n1 ,n2)
F分布的分布密度为
2 2
E( X 2 ) D( X ) (E( X ))2
2 2
n
E(S 2 )
E[ 1 n 1
n i 1
(Xi
X
)2 ]
E[
1
n
(
n 1 i1
X
2 i
2
n X )]
1
n
E(
n 1 i1
X
2 i
nX
2
)
1 [E( n 1
n i 1
X
2 i
)
E(n X
2
)]
1[ n 1
n i 1
考察某厂生产的电容器
的使用寿命。在这个试验 中什么是总体,什么是个 体。
解 个体是每一个电容器 的使用寿命;总体X是各个 电容器的使用寿命的集合。
2. 样本
为推断总体分布及各种特征,按一定规 则从总体中抽取若干个体进行观察试验,以 获得有关总体的信息,这一抽取过程称为 “抽样”,所抽取的部分个体称为样本. 样 本中所包含的个体数称为样本容量.

抽样技术第6章 不等概率抽样

抽样技术第6章 不等概率抽样

第6章 不等概率抽样1 不等概率抽样原理等概率抽样通常容易设计和解释,但并不总是如不等概率抽样一样的可行、实用、有效。

因为等概率抽样(psu’s)可能导致方差很大(尤其是对于无偏估计量)、管理困难以及成本难以控制。

而不等概率抽样的特点是以不等概率抽取psu’s 、m i 的数目相同,因此不等概率抽样使得每一个样本被抽取的概率相等、调查成本可控、每一个初级样本单元(psu )的样本数相等、方差急剧减小。

当采用不等概率抽样时,我们可以自由的调整选择不同初级样本单元(psu’s )作为样本的概率,并在估计中补充合适的权重。

核心是选择一个给定单元的概率已知: πi =P(psu i), ψi = P(psu i on first sample), ωi =1/πi1.1 抽取一个初级样本单元假定我们只要抽取N 个初级样本单元(psu )中的一个作为样本(n=1)。

初级样本单元i 的总值用t i 表示,我们需要估计总体总值t.用抽取一个初级样本单元的简单例子来说明不等概率抽样的思想。

先来考虑一个所有总体已知的情形。

一个城镇拥有四个超市,从100平方米到1000平方米按面积大小排列。

通过抽取一个超市,来估计四个超市上个月的总营业收入。

你可能预期大超市比小超市的营业收入多而且大超市的收入波动性也明显大于小超市。

因为仅抽取一个超市,所以在第一个回合中一个超市被抽取的概率 ψi 等于这个超市包含在样本中的概率πi 。

即,πi = ψi =P(超市i 被选取),此概率与超市的面积成比例。

超市A 占四个超市总面积的1/16,则它被抽取的概率为1/16。

为了说明性目的,假定我们已知总体的所有总值t i :我们可以以以上给定的概率选择一个容量为1的概率样本,通过洗散16张卡片并从中选择1张。

如果卡片数字为1,则选择超市A;如果卡片数字为2或3,则选择超市B;…… 在估计量中,我们通过使用 ψi 补充选取的不等概率权重。

如果超市面积与超市营业收入近似成比例,那么超市A 的营业收入在总收入的1/16,则可用超市A 的营业收入的16倍来估计四个超市的总收入。

第六章抽样方法

第六章抽样方法

第六章抽样方法6.2 非概率抽样非概率抽样是用一种主观的(非随机的)方法从总体中抽选单元。

由于不需要完整的抽样框,非概率抽样是一种快速、简单且节省的获得数据的方法。

使用非概率抽样的问题是,我们不清楚能否通过样本对总体进行推断,原因是用非概率抽样从总体中抽选单元的方式可能会导致较大的偏差。

例如,在非概率抽样中访员经常主观地决定哪些单元入样。

由于访员倾向于选择总体中那些最容易接触到和最友好的单元,使总体中很大一部分单元完全没有被抽中的机会,而这些单元与被抽中的单元可能有系统差异。

非概率抽样不仅会使调查结果出现偏差,而且由于带有选择平均单元和排除极端值的倾向,将错误地减少总体中明显的变异性。

由于非概率抽样抽取样本有倾向性,我们不可能计算出各个单元的人样概率,从而无法得到可靠的估计值及其抽样误差估计值。

此时若能对总体进行推断,必须假定样本对总体有代表性。

而这通常需要假定总体指标服从某个模型,或是均匀地或是随机地分布的。

由于抽选存在偏差,做这种假定的风险很大。

非概率抽样经常被市场研究人员作为一种省钱快速的方法来代替概率抽样。

但是由于有上述问题,它并不是概率抽样的一种有效的替代方法。

那么,为什么还要费神来讨论非概率抽样呢?这是因为非概率抽样能用在下面几个方面的研究中:- 用来形成一种想法;- 作为设计开发概率抽样调查的初始步骤;- 在后续步骤中帮助理解概率抽样调查结果。

比如,非概率抽样能在调查的早期就提供非常有价值的信息。

它也可用在探索性或诊断性研究中,以了解人们的态度、信仰、动机和行为,或分析概率抽样调查的结果。

有时,非概率抽样是唯一可行的选择?例如,在医学实验中,采用志愿者抽样可能是取得数据的唯一途径。

非概率抽样常被用于抽选参加焦点座谈和深人访问的个人。

在加拿大统计局,非概率抽样被用来测试在人口普查调查表中所使用的问题,以确保所问的问题和使用的概念对被调查者是清楚的。

如果认为问题的内容会引起争议,则在最有可能有争议的地方抽选一个子总体。

《抽样技术》第六章-不等概率抽样

《抽样技术》第六章-不等概率抽样

§6.2 放回不等概率抽样
一、多项抽样与PPS抽样
二、多项抽样的实施方法 三、汉森一赫维茨估计量及其性质
一、多项抽样与PPS抽样

多项抽样 总体:Y1, Y2, ⋯, YN
入样概率:Z1, Z2, ⋯, ZN
Z
i 1
N
i
1
N
放回抽样n次,共抽到n个单元。

M0 Mi , 取Zi=Mi/M0,其中Mi是第i个单元的大小,
三、汉森—赫维茨估计量及其性质


汉森—赫维茨(Hansen-Hurwitz)提出的对总体总和Y的估计如 下: n yi 1 ˆ YHH n i 1 zi ˆ 具有如下性质:若所有的Zi>0, 汉森一赫维茨估计量 Y HH i=1,2,⋯,N,则 ˆ 1.E Y ,即它是无偏的; HH Y 2 N Yi 1 ˆ 2. V YHH Zi Y n i 1 Zi 3.若n>1,则 2 n yi ˆ 1 2 ˆ s YHH YHH n n 1 i 1 zi ˆ 的无偏估计。 是V Y HH

j i N
ij
1 3. ij n n 1 2 i 1 j i
N
最感兴趣的是πi与单元大小Mi成比例的情形。若仍 记Zi=Mi/M0,则有: πi=nZi 这种不放回的与(单元)大小成比例的概率抽样称为 πPS抽样。 严格的πPS抽样实施起来非常复杂。事实上,只有 当n=2时,才有一些简单且实用的方法。对于n>2, 严格的πPS抽样都相当复杂。对于大的n,有时根本 不可能。除了实施方面的原因外,当n大时,πij的计 算也极其困难,而这对于方差估计是不可少的。

抽样技术不等概率抽样

抽样技术不等概率抽样

抽样技术:不等概率抽样引言在统计学和数据分析中,抽样技术是一项重要的工具,用以从总体中选择一部分元素进行研究。

而抽样技术的核心就是如何从总体中选取样本,以保证样本能够准确地反映总体的特征。

其中一种常用的抽样技术是不等概率抽样。

不等概率抽样是指在抽取样本时,各个个体被选中的概率不相等。

与等概率抽样相比,不等概率抽样更能满足实际问题的需求,更能提高样本的效率和精确性。

本文将介绍不等概率抽样的原理、常用方法以及应用案例,希望能够帮助读者更好地理解和应用抽样技术。

不等概率抽样的原理不等概率抽样的原理基于概率论和统计学的基本原理。

在进行不等概率抽样时,需要根据总体的特征和研究目的,选择合适的抽样方法和样本选择概率,以使样本能够准确地反映总体。

不等概率抽样的核心在于赋予每个个体被选中的概率,也称为抽样概率。

抽样概率可以根据总体特征和研究目的进行选择,常见的选择方法包括:概率比例抽样、系统抽样、整群抽样等。

概率比例抽样是一种根据个体在总体中所占比例来确定抽样概率的方法。

具体而言,可以先计算出样本所需的个体数目,再根据各个个体在总体中的比例,分配相应的抽样概率。

这样可以保证样本能够按比例反映总体的特征。

系统抽样是一种按照一定规律选择样本的方法。

具体而言,可以在总体中确定一个起始点,然后以固定的间隔选择样本个体。

系统抽样具有简单方便、无需随机表和随机数的优点,常用于总体具有周期性分布的情况。

整群抽样是一种将总体划分为若干群体,然后随机选择部分群体进行抽样的方法。

这种方法适用于总体分布不均匀,但各群体内部相对均匀的情况。

通过整群抽样,可以减小样本误差,提高样本的代表性。

不等概率抽样的常用方法不等概率抽样有多种不同的方法和技术,根据实际问题的需求和样本特征的不同,可以选择合适的抽样方法。

以下将介绍几种常用的不等概率抽样方法。

简单随机抽样是不等概率抽样中最基本的方法之一。

简单随机抽样是指每个个体都有相等的被选中概率,且个体间的选择是相互独立的。

第六章 不等概率抽样

第六章 不等概率抽样

1 n(n 1)
n ( yi z i 1 i
yHH )2
(7.7)
§2 不放回的不等概率抽样
上一节讲述了有放回不等概率抽样,无论从实施上还是 从估计计算以及精度估计都显得十分方便。但是,一个单元 被抽中两次以上总会使样本的代表性打折扣,从而引起抽样 误差的增加。因此,实际调查工作者一般倾向于使用不放回 形式。
M0Zi成为整数)。对于具整数 Mi的第 i 个单元赋予一个与 Mi
相等的代码数,见表7—1。
表7—1
pps 抽样时各单元的代码数
单元 i 单元大小Mi
代码数
1
M1
2
M2
1, 2, , M1
M1 1, M1 2, , M1 M2
N 1
N 1
N 1
N
MN
Mi 1, Mi 2, , Mi MN M0
样概率严格地与其“大小”成比例感兴趣,这就是所谓的ps
抽样。
1、包含概率 i , ij
不放回不等概率抽样中,总体中每个单元被包含到样本
的概率,即入样概率 i p(i)是个重要的概念,而且任意
两个单元包含到样本中去的概率ij p(i, j) 也是个重要的
“大小”,并记M0
N
i
1
Mi
则可取 Zi Mi M0
此时多项抽样体现了每次抽样时单元的入样概率与单元的大 小成比例,即为pps抽样。
多项抽样是最简单的不等概率抽样,它的实施方法通常 有两种,以pps抽样为例。
(1)代码法 它适合于 N不太大的情形。假定所有的 Mi 为整数,倘若 在实际中存在 Mi不是整数的话,则可以乘以一个倍数使一切 Mi为整数(对一般的多项抽样,也总可找到整数 M0 ,使一切

不等概率抽样

不等概率抽样

不等概率抽样引例: O ’Brien et al. (1995) 对Philadelphia 地区的病人进行抽样, 目的是了解病人对于医疗服务的偏好。

目标总体是这一区域的所有注册的医院的病人。

总共有294家医院,27652个床位(抽样以前,研究人员只知道床位数,不知道病人数)。

等概率的抽取样本医院的缺点? 首先,可能医院中愿意接受CPR 治疗的病人数量会正比与医院床位的数量,采用等概率简单估计量可能会有大的方差。

其次,自加权的等概率样本可能难于管理。

可能仅仅为了调查一两个病人就需要去一家医院,并且合理分配调查人员的工作负担也是比较困难的。

第三,调查成本在调查开始的时候是未知的,一个40个医院的样本可能包括了主要的大的医院,这会导致比预计更大的成本。

其他办法? 1、调查人员还可以采用与医院病床数量成比例的方法抽取57个医院,然后从每个样本医院中抽取30个简单随机样本床位。

2、如果病人数等于床位数,并且医院实际的床位数和抽样时依据的病床数据一致,每个病人是否有相同的入样概率?3、而且成本在调查实施前是已知的,因为每个访员在每个医院访问的病人数量是相同的。

而且,总体总量的方差可能更小。

4、分层抽样:抽样选择概率小的单位会有较高的权数。

5、采用不等概率抽样来减少抽样方差而不采用清晰的分层。

采用不同的概率来选择初级样本单元,并且在估计中采用不同的权数来进行弥补。

抽样的关键是每个样本的选择概率是已知的。

i P ψ)=在第一次抽取中被抽中单元i ( i P π被选入样本)=单元i (一、不等概率抽样适用情况第一,抽样单元在总体中所占的地位不一致。

第二,调查的总体单元与抽样总体的单元不一致。

第三,改善估计量。

不等概率抽样的优点主要是大大提高了估计精度,减少抽样误差,但使用它也由条件,就是必须要有说明每个单元规模大小的辅助变量来确定每个单元入样的概率,这在抽样设计及估计时都是必须得。

二、不等概率抽样的分类 1、放回不等概率抽样每次在总体中对每个单元按入样概率进行抽样,抽取出来的样本单元放回总体,然后进行下一次抽样,这样,每次抽样过程都是从同一个总体独立进行的,这种不等概率抽样称为(有)放回不等概率抽样。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六章 不等概率抽样
§1 概述
一、不等概率抽样的定义和特点 (一)定义: 如果总体中每个单元进入样本的可能性是不 相等的,则这种随机抽样方式就称为不等概率随机抽样,简 称不等概率抽样。
(二)特点:将总体中每个单元的入样概率与其“规模” 大小联系起来,使得“大单元”被抽到的概率大,“小单元” 被抽到的概率小。
最简单的不放回不等概率抽样方式自然会想到逐一抽样 这在第一次抽样时不会发生问题,但在抽第二个样本时面临 的情况与有放回时大不相同,余下的 ( N-1 ) 个单元以什 么样的概率参与第二次抽样就是个问题;再在抽第三个样本 时又面临新问题,如此下去,一是抽样实施的复杂,二是估 计量及其方差计算的复杂,因此,在本节仅讨论 n固定,尤 其是n=2时的情形。同时,我们只对使总体中每个单元的入
i 1
i 1
i 1
每次抽样前,先在整数 1, 2,
,
M
里面随机等可能的选
0
取一个整数,设为m ,若代码 m 属于第 j个单元拥有的代码
数,则第 j个单元入样。整个过程重复 n次,得到 n个单元
入样(当然存在重复的可能性)构成 pps 样本。
例7.1 设某总体共有N=8个单元,相应 Mi及代码如表所示
体总和, Hansen-Hurwitz 给出了如下的估计量:
yHH
1 n
n i 1
yi zi
(7.4)
且 E( yHH ) Y ,即 yHH 是总体总和 Y 的无偏估计。
Var( yHH )
1 n
N i 1
Z
i
(
Yi Zi
Y )2
(7.6)
Var( yHH ) 的无偏估计为
v( yHH )
“大小”,并记M0
N
i
1
Mi
则可取 Zi Mi M0
此时多项抽样体现了每次抽样时单元的入样概率与单元的大 小成比例,即为pps抽样。
多项抽样是最简单的不等概率抽样,它的实施方法通常 有两种,以pps抽样为例。
(1)代码法 它适合于 N不太大的情形。假定所有的 Mi 为整数,倘若 在实际中存在 Mi不是整数的话,则可以乘以一个倍数使一切 Mi为整数(对一般的多项抽样,也总可找到整数 M0 ,使一切
i
Mi
30 Mi
累计
代码
1
2/5
12
12 1~12
2
1/2
15
27 13~27
3
2/3
20
47 28~47
4
4/3
40
87 48~87
5
8/5
48
135 88~135
6
3/5
18
153 136~153
7
2/3
20
173 154~173
8
1
30
203 174~203
M0 203
若取 n=3,在1~203中随机有放回地产生3个随机整数,不 妨设为45、89、101,则第 3 个单元入样一次,第 5 个单 元入样 2 次。
响,只有 Mi m时它才入样,因此第 i 个单元入样的概率与
Mi的大小成正比,此时 Zi Mi M0
2、Hansen-Hurwitz (汉森—赫维茨)估计量
若 y1 , y2 , , yn 是按 Zi为入样概率的多项抽样而得的样 本数据,它们相应的 Zi值自然记为 z1 , z2 , , zn ,则对总
二、不等概率抽样的优点和局限性
(一)优点:能够大大提高抽样精度,减少抽样误差。
(二)局限性:必须具有能够说明单元规模大小的的适用场合:总体单元之间的差异较大。
四、不等概率抽样分类:
我们最关心也是最重要的情形是抽样容量 n固定时, 单元入样的概率(不放回抽样)或每次抽样的概率(有放回 抽样)与单元的大小严格成比例。这种情况下的有放回抽样
称为pps 抽样不放回抽样称为 ps 抽样。
§2 放回的不等概率抽样
1、多项抽样、 pps抽样及其实施方法
既然是不等概率抽样,那么就应该在抽样之前给总体中
的每一个单元赋予一定的抽取概率,在放回抽样的每一次抽
取且中iN,1 Z设i 第1i,个按单此元规入定样有的放概回率地为独Z立i (抽0 取Zi
n
1 n(n 1)
n ( yi z i 1 i
yHH )2
(7.7)
§2 不放回的不等概率抽样
上一节讲述了有放回不等概率抽样,无论从实施上还是 从估计计算以及精度估计都显得十分方便。但是,一个单元 被抽中两次以上总会使样本的代表性打折扣,从而引起抽样 误差的增加。因此,实际调查工作者一般倾向于使用不放回 形式。
多项分布(7.1)具有如下性质:
E(ti ) nZi
Var
(ti
)
nZ
i
(1
Z
i
)
i 1, 2,
,N
Cov(ti , t j ) nZi Z j
i j
倘若单元有一个数值度量其大小,诸如职工人数、工厂产值
商店销售额等,或者感兴趣的调查指标在上一次普查时的数
据也可以作为其单元大小的一种度量。记 M为i 第 i 个单元的
M0Zi成为整数)。对于具整数 Mi的第 i 个单元赋予一个与 Mi
相等的代码数,见表7—1。
表7—1
pps 抽样时各单元的代码数
单元 i 单元大小Mi
代码数
1
M1
2
M2
1, 2, , M1
M1 1, M1 2, , M1 M2
N 1
N 1
N 1
N
MN
Mi 1, Mi 2, , Mi MN M0
样概率严格地与其“大小”成比例感兴趣,这就是所谓的ps
抽样。
1、包含概率 i , ij
不放回不等概率抽样中,总体中每个单元被包含到样本
的概率,即入样概率 i p(i)是个重要的概念,而且任意
两个单元包含到样本中去的概率ij p(i, j) 也是个重要的
1, i 1, 2, , N ) 次,形成所谓
的多项抽样。
假设第 i 个单元在 n次抽样中被抽中 ti 次,则(t1, t2 , , tN )
是一个随机向量,其联合分布为:
n! t1 !t2 !
tN
!
Z t1 1
Z t2 2
Z tN N
N
ti n (7.1)
i 1
这是我们熟悉的多项分布,多项抽样其名正出于此。
(2)Lahiri(拉希里) 方法
当 N 相当大时,累计的 M0将很大,给代码法的实施带
来很多不方便。Lahiri提出下列方法:令
M*
max{
1i N
M
i
}
每次抽取 1~N 中一个随机整数 i 及 1~M *内一个随机整数
m,如果Mi m,则第 i 个单元入样;若 Mi m,则按前面 步骤重抽 (i, m) ,显然,第 i 个单元的入样与否受到m 的影
相关文档
最新文档