抽样调查理论与方法 金勇进(第二版)第4章等概率整群抽样和多阶段抽样
社会调查方法04抽样(二)
整群抽样评价 优点:节省人力物力; 可以在没有总体名单即抽样框的条件 下进行,扩大抽样的范围。 缺点:样本的代表性较差,与其他方法比, 在样本数量相同的情况下,抽样误差比较大。
比较分层抽样和整群抽样
分层抽样
样本 每层均要选取子样本作为 总样本的一部分
整群抽样
只选择某几个子群作 为整体的代表 群间异质性低 群内异质性高 研究变量与研究问题 相关
三. 分层抽样(Stratified Sampling)
1.分层抽样的内涵: 分层抽样是将总体N依照某一种或某几种特征分 为几个子总体(层),然后从每一层中采取简 单随机抽样或等距抽样方式抽取一个个子样本 n1,n2……将这些子样本合在一起即为总体样本n。 ★ 使用什么分层变量? 一般是选择与调查目标变量高度相关的变量。 ★ 要协调层的数量和每层样本量 ★ 分层抽样适用于总体数目较多,异质,一 个或多个变量可能影响调查结果的情况,且对 所研究的总体有详细的名单。分层后,每层同 质,层之间不同质,然后在每层按照比例抽。
三阶段抽样第一阶段第一阶段第二阶段第二阶段第三阶段第三阶段方案方案11抽1010个区抽抽44所学校所学校每所学校抽每所学校抽3030教师教师方案方案22抽抽22个区抽抽2020所学校所学校每所学校抽每所学校抽3030教师教师方案方案33抽抽1010个区抽抽2020所学校所学校每所学校抽每所学校抽66教师教师方案方案44抽抽88个区抽抽1515所学校所学校每所学校抽每所学校抽1010教师教师方案方案55抽抽55个区抽抽1212所学校所学校每所学校抽每所学校抽2020教师教师方案方案66抽抽44个区抽抽1010所学校所学校每所学校抽每所学校抽4040教师教师方案方案77抽抽1010所学校所学校每所学校抽每所学校抽4040教师教师方案方案88抽抽1010所学校所学校每所学校抽每所学校抽6060教师教师方案方案99抽抽11个区抽抽1212所学校所学校每所学校抽每所学校抽100100教师教师各个抽样阶段子总体的同质性程度各个抽样阶段子总体的同质性程度同质性程度高同质性程度高样本规模小样本规模小人力和经费方案人力和经费方案99最节约最节约样本误差样本误差一般样本覆盖面越大代表性越高一般样本覆盖面越大代表性越高增加开头阶段的样本数适当减少最增加开头阶段的样本数适当减少最后阶段的样本数减少误差后阶段的样本数减少误差withinwithinhouseholdhousehold一户内抽样一户内抽样以家庭为单位时从入选家庭中抽取以家庭为单位时从入选家庭中抽取一个成年人构成访谈对象的抽样方法
人大金勇进抽样调查PPT课件
统计量是根据样本的n个单元的变量值计算出的 一个量,也叫估计量,用于对总体参数的估计。
估计量是随机变量,比如样本均值 估计方法:最常见的估计方法是简单线性估计,
除此之外,还可以借助于辅助变量。
1.2 基本概念
目标总体与抽样总体 抽样框与抽样单元 总体参数与统计量 估计量方差、偏差、均方误差 抽样误差与非抽样误差 精度与费用
目标总体与抽样总体
总体
目标总体也可简称为总体,是指所要研究对象 的全体,或者说是希望从中获取信息的总体, 它是由研究对象中所有性质相同的个体所组成
(2)抽样框中包含的抽样单元务必要“不重不漏”,否则将 出现抽样框误差。
抽样单元分级: 初级单元——>次级单元——>三级单元——>四级单
元……——>基本抽样单元。
总体参数和(样本)统计量
总体参数:总体是调查的客体,而总体参数 是总体某个特征或属性的数量表现。
常见的总体参数有4种:(1)总体总值; (2)总体均值;(3)总体比例;(4)总 体比率。
SUCCESS
THANK YOU
2019/8/1
几种基本的抽样方式
概率抽样调查 查
非概率抽样调
•简单随机抽样 •分层抽样 •系统抽样 •整群抽样 •多阶段抽样
• 判断抽样(包括典型调查和重点调查) • 便利抽样 • 自愿样本 • 滚雪球抽样 • 配额抽样等
简单随机抽样
简单随机抽样(simple random sampling)又 称纯随机抽样,考虑一个包含N个单位的母体, 从中抽取n个单位作为样本。如果抽样是不放 回的,即同一个单位不能在样本中重复出现, 那么总共有C(N,n) 种不同的取法,也就是说 共有C(N,n)个可能的不同样本。如果每个样 本被抽中的概率都相等,则称这种抽样方法 为简单随机抽样,所得到的样本叫做简单随 机样本(SRS)。
第4章__抽样调查
4.1.3抽样误差的确定
❖1)抽样误差的概念
❖2)影响抽样平均误差的因素
1、全及总体标志变异程度 2、样本容量 3、抽样组织方式 4、抽样方法
❖3)降低调查误差的途径
1、提高样本的代表性
2、注重样本量的控制
3、提高抽样设计的效率 4、重视抽样方案的审评
5、努力降低调查员的误差 6、努力调查被调查者的误差
❖ (4)如果这一地区街对面从第一号开始都没有住户,在第一号对面的街区转 一圈,并遵循右手法则。(即按顺时针方向在街区转一圈。)试着沿路线每 隔两户访问一户。
❖ (5)在起始门牌号对面邻近的街区绕过一圈后,如果你没有完成所需的访问, 就按顺时针方向到下一个街区访问。
❖ (6)如果第三个街区的住户数不够完成你的任务,就再做几个街区直到要求 的户数完成为止;这些区要按顺时针方向绕原有的街区来找。
❖5)简单随机抽样方式的优缺点
随机抽样方式的优点
方法简单直观,当总体名单完整时,可直接从中随机抽取样本。由于 抽取概率相同,计算抽样误差及对总体指标加以推断比较方便。
随机抽样方式的缺点
尽管简单随机抽样在理论上是最符合随机原则的,但是在实际应用中 有一定的局限性。第一,采用简单随机抽样,一般需对总体各单位加以 编码,而实际市场调查活动中所需调查总体往往是十分庞大的,单位非 常多,逐一编码几乎是不可能的;第二,对于某些事物无法使用简单随 机抽样,如对连续不断产生的大量产品进行质量检验,就不能对全部产 品进行编号抽样;第三,当总体的标志变异程度较大时,简单随机抽样 的代表性就不如经过分组后再抽样的代表性高;第四,由于抽出样本单 位较为分散,所以调查人力、物力、费用消耗较大。
2)抽样调查的特征
❖(1)抽取样本的客观性 ❖(2)抽样调查可以比较准确地推断总体
第四章 抽样
(1)概率抽样:简单随机抽样、系统抽样、 分层抽样、整群抽样、多段抽样、PPS抽样、 户内抽样 (2)非概率抽样:偶遇抽样、判断抽样、 定额抽样、雪球抽样
二、概率抽样的原理与程序
(一)概率抽样的基本原理 1、总体的同质性与异质性 同质性:如果某个总体中的每一个成员在所有方 面都相同,那么,我们就说这个总体具有完全的 同质性。 否则,就存在不同程度的异质性。 同质性总体不需要抽样。 社会各种总体的异质性决定了严格的概率抽样的 必要性。
(二)系统抽样
3、系统抽样优缺点: <1>优点: ①易于实施,工作量少。 ②样本在总体中分布更为均匀,抽样误差 小于或至多等于简单随机抽样。
(二)系统抽样
<2>系统抽样缺点: ①系统抽样是以总体的随机排列为前提, 如果总体的排列出现有规律分布时,会使 系统抽样产生极大误差。 ②当总体内个体类别之间的数目悬殊过大 时,样本的代表性可能较差。 <3>适用范围:系统抽样最适用于同质性较 高的总体。
人们通常采用下列几组数字
有90%的样本统计值落在u〒1.65SE(样本 平均数的标准差)之间; 有95%的样本统计值落在u〒1.96SE之间; 有98%的样本统计值落在u〒2.33SE之间; 有99%的样本统计值落在u〒2.58SE之间。 其中,百分数表示置信水平,u〒1.65SE等 表示置信区间。
随机数表抽样举例
3、简单随机抽样方法
①当总体元素较少时:常用的办法类似于 抽签,即把总体中每一个单位都编号,将 这些号码写在一张张小纸条上,然后放入 一容器如纸盒、口袋中,搅拌均匀后,从 中任意抽取,直到抽够预定的样本数目。 这样,由抽中的号码所代表的元素组成就 是一个简单随机样本。
金勇进:《抽样技术(第2版)》课后习题参考答案
1 但:曾有实验,欲检验人列数字果随机 10 100
(等可能选取各数字)否。结果表明,各有偏好, P p 实未给定。 (3)之U 、 S s 、 P p 皆未定。 1 . 3 [ 以下资料引译自 “STATISTICAL ESTIMATION METHODS IN VOLUNTEER PANEL WEB SURVEYS”,Sunghee Lee, Ph.D., 2004] 网络调查(Web surveys)并非互联网调查(Internet surveys)之同义语,通常所谓互联网调 查包括网络调查与电子邮件调查(e-mail surveys) ,而网络调查则仅指通过 WWW 浏览器呈 现的调查,故也称网页调查。由于存储与软件兼容性方面的局限性,电子邮件调查远不及网 页调查应用广泛,故对互联网调查的研究主要集中于网页调查。
什么是收视率调查 收视率调查最早是用于了解节目的收视情况,为媒体决策和广告主的媒体选择提供依据。后来由于收视率 调查技术的革新பைடு நூலகம்一种叫做 Audimeter 视听记录仪在调查中的运用,使广告收视率调查变得简单化。 在电视收视率调查方面比较著名的市场调研公司有美国的尼尔逊公司( Nielsen ) 、日本的电通、英国的 TNSOFRES 集团等。它们都能以每分钟为单位来记录分析电视节目的收视情况。所以收视率调查便成为一 种电视广告传播效果的测量方法。 收视率调查的步骤 收视率调查过程包括以下几个步骤: 1、随机抽出一定量的观众样本户构成相对稳定的调查网(观众小组) 。样本大小视研究精度和地区规模而 定。例如台湾益利市场研究顾问公司,在台湾地区建立的调查网样本户是 245 个。 2、在样本户家中的电视机上装上 Audimeter 这种仪器,它能自动地记录受调查对象家中收看电视节目的时 间和频道。 3、每隔一段时间(如一周)把自动记录仪内的软片或磁带取下带回公司分析,就可以算出每日全部节目每 一分钟的收视率。现在由于技术的进步,研究机构甚至可以通过电话连线随时从被调查户提取记录信息。 一般来说,收视率愈高,说明广告的传播效果愈好。
抽样技术期末复习总结资料金勇进版抽样技术考前点题整理
抽样技术期末考前点题整理【第一章绪论】一、概念类1、非概率抽样有哪些常见的类型?答:(1)判断选样(2)方便抽样(3)自愿样本(4)配额抽样2、抽样调查的作用有哪些?答:(1)节约费用(2)时效性强(3)可以承担全面调查无法胜任的项目(4)有助于提高调查数据的质量3、抽样调查与普查之间的关系是什么?答:(1)抽样调查可以作为普查的补充(2)抽样调查可以对全面统计资料进行评估和修正(3)利用抽样调查可以进行深层次的分析(4)利用抽样调查可以提前获得总体目标量的估计(5)普查可以为抽样框提供资料4、目标总体和抽样总体之间的关系是什么?答:(1)目标总体:是指所研究对象的全体,或者是研究人员希望从中获取信息的总体,它由研究对象中所有性质相同的个体所组成,组成目标总体的个体称作总体单元或单位。
(2)抽样总体:是指从中抽取样本的总体。
(3)关系:通常情况下,抽样总体应与目标总体完全一致,但实践中二者常不一致。
5、什么是抽样框?其有哪些类型?一个好的抽样框的基本标准是什么?答:(1)什么是:抽样总体的具体表现是抽样框。
通常,抽样框是一份包含所有抽样单元的名单。
给每个抽样单元编上一个号码,就可以按一定的随机化程序进行抽样。
对抽样框的基本要求是其应该具有抽样单元名称和地理位置信息,以便调查人员能够找到被选中的单元。
(2)类型[1] 名录框[2[ 区域框[3] 自然框(3)基本标准[1] 抽样框与目标总体保持一致[2] 能够提供与调查目的有关的尽可能多的准确、完整的辅助信息6、什么是抽样误差和非抽样误差?抽样误差的表现形式有哪些?答:(1)抽样误差:是指由抽取样本的随机性所造成的样本值与总体值之间的差异。
只要采用抽样调查,抽样误差就不可避免。
(2)非抽样误差:是相对于抽样误差而言的。
它的产生不是由于抽样误差的随机性,而是由于其他多种原因引起的估计值与总体参数之间的差异。
(3)抽样误差的表现形式[1] 抽样实际误差[2] 抽样标准误[3] 抽样极限误差7、抽样调查的步骤有哪些?答:(1)第一步:确定调研问题(2)第二步:设计抽样方案(3)第三步:问卷设计(4)第四步:实施调查过程(5)第五步:数据分析处理(6)第六步:撰写调研报告8、与非概率抽样相比,概率抽样有哪些优点?答:(1)样本的抽取遵循随机性原则(2)可以运用概率估计的方法对总体数量特征进行推断(3)抽样误差可以计算并加以控制9、概率抽样的特点有哪些? 答:(1)按一定的概率以随机原则抽取样本(2)每个单元被抽中的概率是已知的或者是可以计算出来的(3)当用样本量对总体目标量进行估计时,要考虑到该样本被抽样的概率【第二章 简单随机抽样】一、概念类1、简单随机抽样的抽取规则是什么? 答:(1)按随机原则取样,在取样时排除任何主观因素选择抽样单元,避免任何先入为主的倾向性,防止出现系统误差。
抽样调查整群抽样培训课件
这样的结果是显然的,因为是按简单随机
方法抽取群,所以样本群均值 y 是总体群均
值 Y 的无偏估计,因而
E(y) Y Y M
返回
定理4.2 y 的方差为:
V (y) 1 f n
1
N
(Y i Y )2
N 1 i1
1 f nM
Sb2
证明:因为 y M y, V ( y) M 2V ( y),
n=8间宿舍。全部48个学生上周每人的零花钱 yij 及
相关计算数据如下表。试估计该学校学生平均每周
的零花钱 Y ,并给出其95%置信区间。
返回
8个宿舍48名学生每周零花钱支出额
i
yij
yi
si2
1 58 83 74 82 66 87 75.0 125.6
2 91 83 79 111 101 69 89.0 233.6
4、All that you do, do with your might; things done by halves are never done right. ----R.H. Stoddard, American poet做一切事都应尽力而为,半途而废永远不行6.17.20216.17.202110:5110:5110:51:1910:51:19
Y NM y
返回
总体总值 Y NM Y 的估计量的方差为:
V (Y ) V (NM y) N 2M 2V ( y)
v(Y )
N
2M
2v( y)
N
2M
(1 n
f
)Sb2
下面我们看一个整群抽样的例题
返回
【例4.11】 在一次对某中学在校生零花钱的调查
中,以宿舍作为群进行整群抽样,每个宿舍都有M=6 名学生。用简单随机抽样在全部N=315间宿舍中抽取
金勇进(第二版)抽样调查理论与方法-绪论
统计量是根据样本的n个单元的变量值计算出的一个量, 也叫估计量,用于对总体参数的估计。 常用的估计量: (1)均值估计; (2)总值估计; (3)比例估计; (4)比率估计。 统计量是随机变量,结果取决于抽样设计和被选入样本的 总体基本单元的特定组合。
估计量方差、偏差、均方误差(1)
估计量方差:估计量分布的方差,它是从平均 意义上说明估计值与待估参数的差异状况,也 是我们对抽样方案进行评价的标准之一。
2
2
抽样误差与非抽样误差
抽样误差:抽样误差是由于抽取样本 的随机性造成的样本值与总体值之间 的差异,只要采用抽样调查,抽样误 差就不可避免。 抽样误差是一个一般的概念,它 可以用不同的量值来表示。例如: 估计量方差或估计量标准差。
抽 样 误 差
样本量
非抽样误差:是相对于抽样误差而言的,它不是由 于抽样的随机性,而是由于其它多种原因引起的估 计值与总体参数之间的差异。 •包括:抽样框误差、计量误差、无回答误差等
多阶段抽样
例如,全国性调查,省;市或县;街道、镇、 或乡,等等。 在大规模的抽样调查中,特别是当抽样单元 为各级行政单位时,通常都采用多阶段抽样。 优点:
样本单位相对集中,实施调查比较方便,可以节 省调查费用; 抽样时并不需要全部低级单位的抽样框。
系统抽样
系统抽样是将N个总体单位按一定顺序排列, 先随机抽取一个单位作为样本的第一个单元, 然后按某种确定的规则抽取样本的其它单元。 其中最简单也是最常用的规则是等间隔抽取。 所以系统抽样又称等距抽样。
依赖研究者个人的经验和判断; 无法估计和控制抽样误差,无法用样本的量化数据 来推断总体。
抽样技术(金勇进)PPT
(2)
因为 E(ylr ) = E(y) + β0E(X − x) =Y 而 ylr又 表 yi + β0 (X − xi ) 的样本均值 可 为 后者的总体均值为Y 故(2)式成立 2
为什么要使用比率估计/回归估计 为什么要使用比率估计 回归估计
• 利用总体的辅助信息提高估计的精度。
–辅助指标的选择 :辅助指标应该与调查指标有较好 的正的相关关系 。y 的抽样分布较 y 的抽样分布变 动性要小得多。 xu x –辅助指标的总体总量或总体均值已知。
• 比率估计、回归估计需要有足够的样本量才能 保证估计的有效。
分 抽 下 比 计 两 方 : 层 样 , 估 有 种 法 X 1.Separate R atio estim ator N 2 2 2 2 y1 y2 yL i y x r = ,2r2 = , i rL = ∑ 2 1 … ..L) x1 x2 … . ∑xL (h=1,2,… i=1
E ( y − RX )
β的 定 为 0 ,0 是 常 , : β 一数则 确 值 β
1 ()
yLr = y +β (X −x) 0
N 1− f 1 V ( y Lr ) = [( Y i − Y ) − β 0 ( X i − X )] 2 ∑ n N −1
1− f 2 = ( S y + β 02 S x2 − 2 β 0 S yx ) n
分 抽 下 比 计 两 方 : 层 样 , 估 有 种 法 1.Separate R atio estim ator
∑y , r = ∑y r = ∑x ∑x
1 1
2
2
,
1
2
r … .L …
∑y = ∑x
等概率整群抽样和多阶段抽样解析
估计效果,如:家庭-男女性别比
群的划分-大致可分为两类
1. 根据行政或地域形成的群体(如 学校、企业或街道 -节省费用) 2. 调查人员人为确定的(如将一大 块面积划分为若干块小面积的群)
分群的原则:群内差异尽可能大,群间 差异尽可能小 与分层抽样情况相反,总体结构
对复杂结构的总体,可以把两种方式结合使用
第四章 等概率整群 抽样和多阶段抽样
1. 2. 3. 4. 整群抽样 等概率整群抽样 等概率两阶段抽样 等概论两阶段抽样设计
概念:组成总体的基本单元 抽样单元
群:由若干个有联系的基本单 元所组成的集合称为群
整群抽样:抽样时抽取群,并 对入选群的所有单元进行调查。
两阶段抽样:由于群内单元通 常具有相似性, 尤其当群的规 模较大时, 对群内单元进行再 抽样,这就是实际调查中所用 的两阶段抽样,其中的群也称 为初级抽样单元,群内再抽样 的单元称为二级抽样单元
Ey Y
M
Y
定理2
y
的方差为
1 f V ( y) n
Y
N i 1
i
Y
2
N 1
1 f 2 Sb nM
证明: 由于
2
M V ( y) V ( y)
y My ,又 Y Y 1 f
N i 1 i
2
n
2
N 1
故
1 f i 1 V ( y) 2 nM N 1 1 f 2 Sb nM
2
• 样本方差
1 2 yij y s nM 1 i 1 j 1
2 n M
• 样本群间方差 • 样本群内方差
2 w
M 2 s ( yi y ) n 1 i
抽样调查理论与方法 金勇进(第二版)第5章-不等概抽样
ˆ Y HH
M n
0
2 0
n
yi mi
i 1
3676 10926 10926 1024 510 38 . 23 38 . 23 13 . 70 6 . 2 30
75757 087(百元)
ˆ v Y HH
M
n n 1
n
i 1
2
5.2.3 有放回不等概整群抽样
根据汉森-赫维茨(Hansen-hurwitz)估 计量,PPS整群抽样的总体总值估计量为:
1 Y n
n
yi Zi
1 n
N
M n
0
i 1
n
yi M
i
M0y
i 1
估计量的方差:
ˆ V (YHH )
Zi (
i 1
Yi Zi
n
Y )
对于放回不等概抽样,对总体总量的估计 是汉森-赫维茨(Hansen-hurwitz)估计:
ˆ Y HH 1 n
n
yi zi
M n
0
i 1
n
yi mi
i 1
总体总值的无偏估计量
PPS抽样:
1 YHH n
n
yi Zi
M n
0
i 1
n
yi M
i
i 1
ˆ V (YHH )
第5章 不等概抽样
例:欲调查某城市住院病人对于某项医疗服务的偏好。 目标总体:某一时段该城市所有医院的病人。 等概率两阶段抽样:第一阶段中拥有20个病床的医 院和拥有1000个病床的医院被抽中的概率是一样的 ;第二阶段若采用等概抽样,20个病床的医院抽取2 个,1000个病床的医院需要抽取100个。 抽样误差较大; 不同规模医院的病人样本调查难易度和单位成本 不同; 抽样前大医院样本数量未知,容易给调查的管理 造成困难;
抽样技术课后习题_参考答案_金勇进
第二章习题2.1判断下列抽样方法是否是等概的:(1)总体编号1~64,在0~99中产生随机数r ,若r=0或r>64则舍弃重抽。
(2)总体编号1~64,在0~99中产生随机数r ,r 处以64的余数作为抽中的数,若余数为0则抽中64.(3)总体20000~21000,从1~1000中产生随机数r 。
然后用r+19999作为被抽选的数。
解析:等概抽样属于概率抽样,概率抽样具有一些几个特点:第一,按照一定的概率以随机原则抽取样本。
第二,每个单元被抽中的概率是已知的,或者是可以计算的。
第三,当用样本对总体目标进行估计时,要考虑到该样本被抽中的概率。
因此(1)中只有1~64是可能被抽中的,故不是等概的。
(2)不是等概的【原因】(3)是等概的。
2.2抽样理论和数理统计中关于样本均值y 的定义和性质有哪些不同?300户进行,现得到其日用电平均值=y 9.5(千瓦时),=2s 206.试估计该市居民用电量的95%置信区间。
如果希望相对误差限不超过10%,则样本量至少应为多少?解:由已知可得,N=50000,n=300,5.9y =,2062=s 该市居民用电量的95%置信区间为[])(y [2y V z N α±=[475000±1.96*41308.19]即为(394035.95,555964.05) 由相对误差公式y)(v u 2y α≤10%可得%10*5.9206*n50000n 1*96.1≤- 即n ≥862欲使相对误差限不超过10%,则样本量至少应为8622.4某大学10000名本科生,现欲估计爱暑假期间参加了各类英语培训的学生所占的比例。
随机抽取了两百名学生进行调查,得到P=0.35,是估计该大学所有本科生中暑假参加培训班的比例的95%置信区间。
解析:由已知得:10000=N 200=n 35.0=p 02.0==Nnf 又有:35.0)()(===∧p p E p E 0012.0)1(11)(=---=∧p p n fp V该大学所有本科学生中暑假参加培训班的比例95%的置信区间为:])()([2∧∧±P V Z P E α代入数据计算得:该区间为[0.2843,0.4157]2.5研究某小区家庭用于文化方面(报刊、电视、网络、书籍等)的支出,N=200,现抽取一个容量为20的样本,调查结果列于下表:编号 文化支出 编号 文化支出 1 200 11 150 2 150 12 160 3 170 13 180 4 150 14 130 5 160 15 100 6 130 16 180 7 140 17 100 8 100 18 180 9 110 19 170 1024020120估计该小区平均的文化支出Y ,并给出置信水平95%的置信区间。
抽样调查理论与方法 金勇进(第二版)第4章等概率整群抽样和多阶段抽样
S
2
故 又可写为:
2
N
(Y
M
ij
Y )( Y ik Y )
2
( NM 1 )( M 1 ) S
用简单随机抽样方法抽取n个群,每个群内的M个 单元全部进入样本,则等群抽样均值估计量 y 的方 差可用群内相关系数近似表示
1 M
2
V (y)
V (y)
1 f nM
1567.9 39.6( 万 公 斤 )
评价:虽是无偏估计量,但方差估计与 y i 之 间的差异有关,适合于 y i 之间差异不大的整 群抽样。
(2 ) 等概抽样,比率估计
Yˆ M
t
n i 1 n i 1
yi
i
2
726
n
2 5 7 .1 209
8 9 3 .0 8
M
v ( Yˆ ) s ( Yˆ )
v( y ) 1 f nM
Yˆ NM y
2 2 V ( Yˆ ) V ( NM y ) N M V ( y )
sb
2
总体总值 的估计量 及其方差
ˆ ) N 2 M 2v( y ) v (Y
【例4.1】
在一次对某中学在校零花钱的调查中, 以宿舍作为群进行整群抽样。每个宿舍 都有M=6名学生。用简单随机抽样在全 部N=315间宿舍中抽取n=8个宿舍。全 部48个学生上周每人的零花钱 y ij 及相关 计算数据如表4-2所示。试估计该学校学 生平均每周的零花钱 Y ,并给出其95% 的置信区间。
整群抽样的效率分析
群内相关系数 表达式为:
E ( Y ij Y )( Y ik Y ) E ( Y ij Y )
抽样调查理论与方法 金勇进(第二版)第5章-不等概抽样
若 f 0 事先确定,则
f2i
mi M
i
f0 nZ i
记总体中所有的二级单元数为 M 0 ,如果抽样时 每个初级单元被抽中的概率与其拥有的二级单元 数成比例,即初级单元被抽中概率为 Z M M ,第二阶段对二级单元进行简单随机抽样, 则 m i m 时,样本是自加权的,则总体总值的 估计为: n n m
i
Mi
yi
i
Mi
yi
i
Mi
yi
1* 2
38.23 13.70
10926 1024
10 11
6.50 15.00
1900 864
19 20
1.50 8.00
10 80
3
4 5 6
0.75
2.85 2.00 5.00
13
30 1102 600
12
13 14 15
7.00
16.00 12.30 3.86
(
i i 1 ji
N
N
j
ij )( Y i / i Y j / j )
2
方差的样本估计量为:
ˆ v (Y H T )
(1
i 1
n
i
) yi / i 2
2 2
n
i 1
n
( ij i j ) i j ij
N
i
0
i
i 1
i
i
i
i
M
0
M
i 1
N
i
这种不等概抽样称作放回的与规模大小成比例的概 率抽样(Probability Proportional to Size),,简称 PPS。
第4章 等概率整群抽样及多阶抽样
(Y
i 1 j k
N
M
ij
Y )(Yik Y )
NM ( M 1) 2
第二节 群规模大小相等时的估计
上式中的分母为:
2 ( Y Y ) ij i 1 j k N M
NM
NM 1 2 S MN
故 又可写为:
2 (Yij Y )(Yik Y )
第一节 概述
二 群的划分
大致可分为两类
1.
根据行政或地域形成的群体,如街道、学 校、企业等 调查人员人为确定的,如地块等
分群的原则可用方差分析原理说明:
群内差异尽可能大,群间差异尽可能小
2.
总体方差=群间方差+群内方差
划分群时,基本出发点是群的组成 应有利于整群样本估计量精度尽可能高, 即群内单元差异大,群间差异小。这样, 被抽到的群代表性好,整群抽样的效率 就高。
第一节 概述
三 群的规模 群的规模的选择取决于精度与费用 之间的平衡,群的规模大,调查费用比 较节省但精度较低,群的规模小,精度 较高但费用较多,所以应在两者间权衡。 除此之外还要考虑抽样实施的组织管理 等因素。
现实中,有群规模相等与不相等两种情况
第二节 群规模大小相等时的估计
一 符号说明
N: 总体群数 n: 样本群数 Yij: 总体第i群的第j单位数值 yij: 样本中第i群的第j单位数值 Mi: 第i群规模(单位个数) 本节中,M1= M2 =……=MN =M,即考 虑群规模相等时的估计问题。
N i 2 N i M j i N M
Y Y
N i
2
Y ij
2
2 Yij Y 2 Yij Y Yik Y i j jk ( NM 1) S 2 ( M 1)( NM 1) S 2
等概率整群抽样和多阶段抽样
• 等概抽样,比率估计
总体均值估计为 y
n yi nMi
这里辅助变量不是Xi而是群规模Mi
总体总量估计为
Yˆ M0 y M0
n yi nMi
估计量的方差分别是
N
N
1 f
(Yi YMi )2 1 f
M
2 i
(Yi
Y
)2
V ( y) nM 2
N 1
Yi: 总体中第i群的总量 Mi
Yi Yij j 1
yi: 样本中第i群的总量 Mi
yi yij j 1
总体中第i群个体均值 样本中第i群个体均值 总体的群均值
Yi Yi Mi
yi yi M i
N
Y Yi N
样本的群均值
n
y yi n
• 总体中的个体均值
• 样本方差
s2 1
n
nM 1 i1
M j 1
yij y 2
• 样本群间方差
•
sb2
样本群内方差
M n 1
n i
( yi y)2
sw2
1 n(M 1)
n i
M j
yij yi 2
4.2 等概率整群抽样
1. 群规模相等时的估计
均值估计量
v(y) 1 f nM
sb2
1 0.0254 926.63 18.81 86
s( y) v( y) 18.81 4.34
于是 Y 的置信度为95%的置信
区间为 98.17 1.96(4.34)
也即
89.66元,106 .68元
2. 整群抽样效率分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
i 1 n
yi
33 10
( 2 2 .0 2 3 .6 ) 8 4 8 .4 3
n
y i 2 5 .7 1
i 1
v ( Yˆ )
N (1 f )
2
i 1
n
( yi y ) n 1
2
1 5 6 7 .9
n
ˆ s (Y )
•便于调查,节省费用 •避免了对小单元的过多调查造成的浪费; •不需要编制所有小单元的抽样框
多阶段抽样每一个阶段的抽样可以相同,也可以 不同,它通常与分层抽样、整群抽样、系统抽样 结合使用。
4.3.2 多阶段抽样估计量的均值和方差
定理4.4 对于两阶段抽样,有
ˆ ˆ E ( ) E 1 [ E 2 ( )]
N (1 f ) n
i 1
( yi M i y ) n 1
2
6 8 7 .8
6 8 7 .8 2 6 .2 ( 万 公 斤 )
评价:比率估计量将 M i 作为辅助变量引入估计,其估 计方差取决于群均值 Y 的差异。Y 的差异比 Y 的差异 要稳定,所以比率估计比前一种方法获得更好的估计效 果。但比率估计量是有偏的,适合n比较大的情形。
i i
i
(3)以种植面积为辅助变量的比率估计
已知:种植面积X=30525(亩) 用种植面积为辅助变量
Yˆ X
n i 1 n i 1 2
yi xi
2 5 7 .1 8940
3 0 5 2 5 8 7 7 .8 5
2 ˆ ( yi R xi )
v ( Yˆ ) s ( Yˆ )
1567.9 39.6( 万 公 斤 )
评价:虽是无偏估计量,但方差估计与 y i 之 间的差异有关,适合于 y i 之间差异不大的整 群抽样。
(2 ) 等概抽样,比率估计
Yˆ M
t
n i 1 n i 1
yi
i
2
726
n
2 5 7 .1 209
8 9 3 .0 8
M
v ( Yˆ ) s ( Yˆ )
n
M
y ij
nM
1
n
n
yi
i 1
Yˆ N M y
i 1 j 1
n
M
N y ij n
定理 4.1:y 是
Y
的无偏估计,即
E y Y
定理 4.2:
V (y) 1 f n
y
的方差为:
1
N 1
i 1
N
Yi Y
2
1 f nM
Sb
2
定理 4.3: ( y ) 的样本估计为: V
整群抽样的效率分析
群内相关系数 表达式为:
E ( Y ij Y )( Y ik Y ) E ( Y ij Y )
2
上式中的分子为:
(Y
N
M
ij
Y )( Y ik Y )
NM ( M 1 ) 2
上式中的分母为:
(Y
N
M
ij
Y )
2
NM
NM 1 MN
第4章 等概率整群抽样和多阶 段抽样
由若干有联系的基本单元所组成的集合称为群。抽样时 抽取群,并对入选群的所有基本单元进行调查,这种方 法就是整群抽样。
当群规模比较大时,由于群内单元通常具有相似性,对 群内单元进行再抽样,这就是两阶段抽样,其中的群也 称为初级抽样单元,群内再抽样的单元称为二级抽样单 元。
【例4.2】
4.2.2 群规模不等时的估计
当群规模Mi不等时,有不同的抽取方法和估计方法。
(1)等概抽样,无偏估计 思路:以群规模Mi为权数,乘以各群均值 i y 总和平均,求得群总和均值 y ,再除以 ,
得到群观察值总值yi,再将样本中n个群的群
M
i 1 N
群平均规模
M N
i
估计公式为:
y
i 1
n
M i yi nM
1 nM
i 1
n
yi
y M
yN MN
Yˆ M
0
若 M 未知,可用样本群平均规模 n 代替
M
i
m n
总体总值Y的估计为
ˆ Y M0y
总量估计的另一公式为
Yˆ N n
i 1
n
yi
估计量的方差为
ˆ V (Y ) N (1 f )
15 18 26 14 20 28 21 19 31 17 209
22.0 22.8 30.2 21.7 25.3 31.2 26.0 20.5 33.8 23.6 257.1
800 780 1000 700 880 1100 850 800 1200 830 8940
分别采用几种方法估计
n
(1)等概抽样,无偏估计
N
M
2 i
(Y i Y )
2
N 1
V ( Yˆ ) M 0 V ( y ) N M V ( y )
2 2 2
N (1 f )
2
i 1
N
(Y i Y M i ) N 1
2
n
2
N (1 f ) n
i 1
N
M
2 i
(Y i Y )
2
N 1
ˆ V ( y ) 与 V (Y )
在整群抽样中,被抽中群中的SSU全部 进入样本。但在很多情况下,群中单元 具有相似性,尤其在群比较大时,显然 没有必要调查PSU中的所有SSU,而是 在每个被抽中PSU中对SSU再抽取子样 本,这就是两阶段抽样。同样的道理,
还可以有三阶段抽样、四阶段抽样等, 我们统称为多阶段抽样。
多阶段抽样特点
2
Y
i 1 2
N
2 i
Y
N 1 S 1 M 1
1 f n
( N M 1) M S
2 2
( N 1)
1 f nM
1 M 1
(Y
i N
N
i
Y )
2
i
N
M Y ij Y j
县总产量,计算抽样误差。 调查资料如下:
样本乡 编号
村庄数 Mi
作物总产量(乡) yi(万公斤)
种植面积(乡) xi(亩)
yi yi M
1.4667 1.2667 1.1615 1.55 1.265 1.1143 1.2381 1.079 1.0903 1.3882 ——
i
1 2 3 4 5 6 7 8 9 10 合计
v( y ) 1 f nM
Yˆ NM y
2 2 V ( Yˆ ) V ( NM y ) N M V ( y )
sb
2
总体总值 的估计量 及其方差
ˆ ) N 2 M 2v( y ) v (Y
【例4.1】
在一次对某中学在校零花钱的调查中, 以宿舍作为群进行整群抽样。每个宿舍 都有M=6名学生。用简单随机抽样在全 部N=315间宿舍中抽取n=8个宿舍。全 部48个学生上周每人的零花钱 y ij 及相关 计算数据如表4-2所示。试估计该学校学 生平均每周的零花钱 Y ,并给出其95% 的置信区间。
群的规模小,估计的精度可以提高但费用增 大;
群规模不宜过大
对于规模很大的群,通常需要采用多阶段抽样。
有群规模相等与不相等两种情况
4.1.5 符号说明
表 4.1
4.2 等概率整群抽样
4.2.1 群规模相等时的估计
群规模相同,均为M,则 Y 的估计量为:
ˆ Y y
i 1 j 1
ቤተ መጻሕፍቲ ባይዱ
ˆ ˆ ˆ V ( ) V1 [ E 2 ( )] E 1 [V 2 ( )]
E V 式中, 2 ,2 表示在固定初级单元时对第二阶段抽样 V 求均值和方差;E 1 , 1 表示对第一阶段抽样求均值和 方差。
证明:
ˆ 记 E () ,
2 2 ˆ ˆ ˆ V ( ) E ( ) E 1 E 2 ( )
S
2
故 又可写为:
2
N
(Y
M
ij
Y )( Y ik Y )
2
( NM 1 )( M 1 ) S
用简单随机抽样方法抽取n个群,每个群内的M个 单元全部进入样本,则等群抽样均值估计量 y 的方 差可用群内相关系数近似表示
1 M
2
V (y)
V (y)
1 f nM
总体均值估计为
n i 1 n i 1
y
yi
i
M
这里辅助变量不是Xi而是群规模Mi 总体总量估计为
Yˆ M 0 y M
0
n i 1 n i 1
yi
i
M
估计量的方差分别是
1 f nM
2
(Y
i 1
N
i
YM i )
2
V (y)
N 1
1 f nM
2
i 1
2
(Y
i 1
N
i