抽样调查理论与方法 金勇进(第二版)第3章-分层随机抽样
人大金勇进抽样调查PPT课件

统计量是根据样本的n个单元的变量值计算出的 一个量,也叫估计量,用于对总体参数的估计。
估计量是随机变量,比如样本均值 估计方法:最常见的估计方法是简单线性估计,
除此之外,还可以借助于辅助变量。
1.2 基本概念
目标总体与抽样总体 抽样框与抽样单元 总体参数与统计量 估计量方差、偏差、均方误差 抽样误差与非抽样误差 精度与费用
目标总体与抽样总体
总体
目标总体也可简称为总体,是指所要研究对象 的全体,或者说是希望从中获取信息的总体, 它是由研究对象中所有性质相同的个体所组成
(2)抽样框中包含的抽样单元务必要“不重不漏”,否则将 出现抽样框误差。
抽样单元分级: 初级单元——>次级单元——>三级单元——>四级单
元……——>基本抽样单元。
总体参数和(样本)统计量
总体参数:总体是调查的客体,而总体参数 是总体某个特征或属性的数量表现。
常见的总体参数有4种:(1)总体总值; (2)总体均值;(3)总体比例;(4)总 体比率。
SUCCESS
THANK YOU
2019/8/1
几种基本的抽样方式
概率抽样调查 查
非概率抽样调
•简单随机抽样 •分层抽样 •系统抽样 •整群抽样 •多阶段抽样
• 判断抽样(包括典型调查和重点调查) • 便利抽样 • 自愿样本 • 滚雪球抽样 • 配额抽样等
简单随机抽样
简单随机抽样(simple random sampling)又 称纯随机抽样,考虑一个包含N个单位的母体, 从中抽取n个单位作为样本。如果抽样是不放 回的,即同一个单位不能在样本中重复出现, 那么总共有C(N,n) 种不同的取法,也就是说 共有C(N,n)个可能的不同样本。如果每个样 本被抽中的概率都相等,则称这种抽样方法 为简单随机抽样,所得到的样本叫做简单随 机样本(SRS)。
金勇进教授《抽样调查中的权数问题》

表A13
A2 A3 A4 Total
B1
B2
B3 Total
35.00 迭7代0.0第0 一步70.00 175.00
55.00 154.00 341.00 550.00
215.00 107.50 107.50 430.00
一般,目标1通过计算样本单元设计权数实现;目 标2通过对设计权数的事后分层调整体现。
二. 计算权数步骤
设计权数表现为样本入样概率的倒数,概率抽样
特征是每个样本单元入样概率是可以计算的。抽样 框信息是计算权数的重要依据,能否计算出权数也 是概率抽样和非概率抽样的根本区别。
如采用二阶段抽样,设计权数
Wd
68.51
公办 高中 4.48 17.49 0.69
22.66
完中 3.86 0.71 0.22
4.78
初中 0.00 2.65 0.68
3.33
民办 高中 0.00 0.00 0.00
0.00
完中 0.00 1.05 0.00
1.05
总计 12.82 41.30 46.22
100.33
调整前民办所占比例为1.18%, 调整后民办所占比例为4.38%, 总体民办所占比例为8.53%
330
470
1000
表2 基于辅助变量A和B的原始加权的总体联合分布
B1
B2
B3
Total
A1
80
40
55
175
A2
60
150
340
550
A3
170
60
抽样技术期末复习总结资料金勇进版抽样技术考前点题整理

抽样技术期末考前点题整理【第一章绪论】一、概念类1、非概率抽样有哪些常见的类型?答:(1)判断选样(2)方便抽样(3)自愿样本(4)配额抽样2、抽样调查的作用有哪些?答:(1)节约费用(2)时效性强(3)可以承担全面调查无法胜任的项目(4)有助于提高调查数据的质量3、抽样调查与普查之间的关系是什么?答:(1)抽样调查可以作为普查的补充(2)抽样调查可以对全面统计资料进行评估和修正(3)利用抽样调查可以进行深层次的分析(4)利用抽样调查可以提前获得总体目标量的估计(5)普查可以为抽样框提供资料4、目标总体和抽样总体之间的关系是什么?答:(1)目标总体:是指所研究对象的全体,或者是研究人员希望从中获取信息的总体,它由研究对象中所有性质相同的个体所组成,组成目标总体的个体称作总体单元或单位。
(2)抽样总体:是指从中抽取样本的总体。
(3)关系:通常情况下,抽样总体应与目标总体完全一致,但实践中二者常不一致。
5、什么是抽样框?其有哪些类型?一个好的抽样框的基本标准是什么?答:(1)什么是:抽样总体的具体表现是抽样框。
通常,抽样框是一份包含所有抽样单元的名单。
给每个抽样单元编上一个号码,就可以按一定的随机化程序进行抽样。
对抽样框的基本要求是其应该具有抽样单元名称和地理位置信息,以便调查人员能够找到被选中的单元。
(2)类型[1] 名录框[2[ 区域框[3] 自然框(3)基本标准[1] 抽样框与目标总体保持一致[2] 能够提供与调查目的有关的尽可能多的准确、完整的辅助信息6、什么是抽样误差和非抽样误差?抽样误差的表现形式有哪些?答:(1)抽样误差:是指由抽取样本的随机性所造成的样本值与总体值之间的差异。
只要采用抽样调查,抽样误差就不可避免。
(2)非抽样误差:是相对于抽样误差而言的。
它的产生不是由于抽样误差的随机性,而是由于其他多种原因引起的估计值与总体参数之间的差异。
(3)抽样误差的表现形式[1] 抽样实际误差[2] 抽样标准误[3] 抽样极限误差7、抽样调查的步骤有哪些?答:(1)第一步:确定调研问题(2)第二步:设计抽样方案(3)第三步:问卷设计(4)第四步:实施调查过程(5)第五步:数据分析处理(6)第六步:撰写调研报告8、与非概率抽样相比,概率抽样有哪些优点?答:(1)样本的抽取遵循随机性原则(2)可以运用概率估计的方法对总体数量特征进行推断(3)抽样误差可以计算并加以控制9、概率抽样的特点有哪些? 答:(1)按一定的概率以随机原则抽取样本(2)每个单元被抽中的概率是已知的或者是可以计算出来的(3)当用样本量对总体目标量进行估计时,要考虑到该样本被抽样的概率【第二章 简单随机抽样】一、概念类1、简单随机抽样的抽取规则是什么? 答:(1)按随机原则取样,在取样时排除任何主观因素选择抽样单元,避免任何先入为主的倾向性,防止出现系统误差。
抽样技术课后习题-参考答案-金勇进

抽样技术课后习题-参考答案-金勇进第二章习题2.1判断下列抽样方法是否是等概的:(1)总体编号1~64,在0~99中产生随机数r ,若r=0或r>64则舍弃重抽。
(2)总体编号1~64,在0~99中产生随机数r ,r 处以64的余数作为抽中的数,若余数为0则抽中64.(3)总体20000~21000,从1~1000中产生随机数r 。
然后用r+19999作为被抽选的数。
解析:等概抽样属于概率抽样,概率抽样具有一些几个特点:第一,按照一定的概率以随机原则抽取样本。
第二,每个单元被抽中的概率是已知的,或者是可以计算的。
第三,当用样本对总体目标进行估计时,要考虑到该样本被抽中的概率。
因此(1)中只有1~64是可能被抽中的,故不是等概的。
(2)不是等概的【原因】(3)是等概的。
2.2抽样理论和数理统计中关于样本均值y 的定义和性质有哪些不同?2.3为了合理调配电力资源,某市欲了解50000户居民的日用电量,从中简单随机抽取了300户进行,现得到其日用电平均值=y 9.5(千瓦时),=2s 206.试估计该市居民用电量的95%置信区间。
如果希望相对误差限不超过10%,则样本量至少应为多少?解:由已知可得,N=50000,n=300,5.9y =,2062=s1706366666206*300500003001500001)()ˆ(222=-=-==s nf N y N v YV 19.413081706366666(==)y v 该市居民用电量的95%置信区间为[])(y [2y V z N α±=[475000±1.96*41308.19]即为(394035.95,555964.05) 由相对误差公式y)(v u 2y α≤10%可得%10*5.9206*n50000n 1*96.1≤- 即n ≥862欲使相对误差限不超过10%,则样本量至少应为8622.4某大学10000名本科生,现欲估计爱暑假期间参加了各类英语培训的学生所占的比例。
抽样调查理论与方法 金勇进(第二版)第3章-分层随机抽样

分别比估计量要求每一层的样本量都比较大,如果达不 到这个要求,则它的偏差可能比较大,这时要使用联合 比估计量。
3.3.1 分别比估计
定义 3.4 总体均值 Y 和总体总量 Y 的分别比估计为:
y RS Wh y Rh yh Wh Xh xh
ˆ Ny yh X Y ˆ YRS RS h Rh xh
E (YRS ) Y
MSE (YRS ) V (YRS )
2 N h (1 f h ) 2 2 2 (S yh Rh S xh 2Rh S yxh ) nh h 1 L
3.3.2 联合比估计
定义 3.5 总体均值 Y 和总体总量 Y 的联合比估计为:
y RC y st ˆ X RC X x st
居民 户总 数
层
样本户拥有家庭电脑情况 1 0 0 1 1 2 0 1 1 0 3 0 0 0 0 4 1 0 0 0 5 0 0 0 0 6 0 0 0 0 7 0 0 1 0 8 1 0 0 0 9 0 1 1 0 10 0 0 0 0
1 2 3 4
200 400 750 1500
2013-8-10
L
N h Yh
h 1
L
分层随机样本,总体均值 Y 的简单估计
1 y st Wh y h N h 1
L
N
h 1
L
h
yh
7
2013-8-10
Y 定理 3.1:对于分层随机抽样,st 是 Y 的无偏估计。
定理 3.2:对于分层随机抽样,有
V Yst Wh2V Yh
1 yh nh
y
i 1
nh
抽样调查的理论与方法参考答案.doc

总体数量特征 样本数最特征随机变最抽样调查的理论与方法参考答案填空题随机原则概率估计总体数量特征非全面调查 调查对象的全部单位全及总体有限总体无限总体 单位数目30个有顺序不重复抽样无顺序不重复抽样比值比较差值比较偶然性规律性不可能事件必然事件常数统计规律性稳定性稳定值随机因索所有可能事件离散随机变量 连续随机变量非负1统计量样本平均数不重复抽样重复抽样代表性谋差反比关系正比关系反比关系概率度(平均i 吴差u 的倍数)固定 谋差范围(允许课差,谋羌置信限)总体相应指标值P J/9, }=\-a精确程度可靠程度置信系数可靠程度样本平均数区间估计所在区间抽样调查资料对比全面调查资料 总体均值总休方差^(1-—)或 S (i —巴), n N nN 竺◎或巴斗工), n n-[ N总体的方差要求的概率保证程度给定的抽样i 吴差范用 样本方差固定的顺序和间隔 选择排队标志有关标志排队法 无关标志排队法抽取样本方便易行样本单位在总体屮均匀地分布30 随机原则系统偏差31随机原则较好的代表性32各系统样本内部方差的平均值6?则 宀 各系统样本的内部方差 系统样本F(1 P)n 卩(1-P) V n-\确定内部各单位的差别33各部分K个个体各个部分的差别系统样本内部的差异34 单纯随机抽样抽样原理35总体在第i层的权数或权重每一层的总体单位数总体单位数36 比较均匀层内方差37选择分层标志调查的核心项目与调查项目关系密切的项目引起分散的主要原因38各个单位标志值的差异最小该层标志变异指标39越少调查费用40调查费用抽样谋差41层内方差层间方差42调查变量层数的选择43 单纯随机抽样全面调查44齐群内部调查变量的各个标志值齐个群内部务个标志值总体的群45被调查总体均匀总体可能取到的值46均匀分布在总体各个部分低于群内部差别大而群间差别小47各个群内部单位数相等总体单位群平均数7 随机抽样估计48 总体单位数49大样本50总体单位抽样群数抽样群数51横向纵向52有偏抽样分布53增犬相关系数°的值,X、Y的相关程度54分别比估计组合比估计55线性冋归方程样本指标总体指标56辅助变量的选择较好的线性有关资料57 性质不同密切线性关系基期指标58冋归系数b样本相关系数越高59r=0 心060等于小于61小于分别冋归估计纽合冋归估计62 居民家计调查居民家庭63三阶段系统捕样系统抽样64抽取各阶段样本实割实测推算产量65 近三年粮食平均亩产当年预计亩产相应总体各单位的累计播种面积累计播种面积样本单位数66抽样误差调查谋差实割实测67系统抽样68屮轴对称69多阶段抽样系统抽样双重抽样70整群随机抽样系统抽样二、单项选择题1 C B213AD3B4 D 5 A 6B7A8B9c10c11B1214 CB215C16C17 B 18c19c20c21B22B23c245 A 26 C 27 B 28 D 29 D 30 A 31 B 32 C 33 C三、简答题1抽样调杳是建立在随机原则基础上,从总体屮抽取部分单位进行调查,并依据概率估计原理,应用所得到的资料,对总体的数量特征进行推断的一种调查方法。
抽样技术(金勇进)PPT

分层抽样下,比估计有两种方法:
1.Separate Ratio estimator
r1
y1 x1
,
r2
y2 x2
,
……. rL
yL xL (h=1,2,…..L)
yRS
Wh yRh
Wh
yh xh
Xh
YˆRS NyRS
yh xh
Xh
YˆRh
bined Ratio estimator
Chapter 4 Ratio and Regression Estimator
• 1802年,拉普拉斯想要估计法国的人口数目。他获得 了一个遍布全国范围的30commune的样本,截至1802 年9月23日总共有2,037615居民。在包括1802年9月23 日以前的三年中,215599个新生儿在30个commune。
2671937
v YˆR
N 2 (1 n
f)
s
2 y
Rˆ 2sx2
2 Rˆ s yx
2.10617 1011
s YˆR v(YˆR ) 458930
• 用简单估计对货运量进行估计
Yˆ Ny 2860 1123.2 3212352
v Yˆ
N 2 (1 n
f
)
s
2 y
3.43303 1011
则比率估计是最优线性无偏估计(BLUE)。
• 【例4.2】某县在对船舶调查月完成的货运量进行调查
时,对运管部门登记的船舶台帐进行整理后获得注册
船舶2860艘,载重吨位154626吨,从2860艘船舶中抽
取i 了一个的简单随机样本,调查得到样本船舶调查月
完成的货运量及其载重吨位如下表(单位:吨),要
金勇进:《抽样技术(第2版)》课后习题参考答案

1 但:曾有实验,欲检验人列数字果随机 10 100
(等可能选取各数字)否。结果表明,各有偏好, P p 实未给定。 (3)之U 、 S s 、 P p 皆未定。 1 . 3 [ 以下资料引译自 “STATISTICAL ESTIMATION METHODS IN VOLUNTEER PANEL WEB SURVEYS”,Sunghee Lee, Ph.D., 2004] 网络调查(Web surveys)并非互联网调查(Internet surveys)之同义语,通常所谓互联网调 查包括网络调查与电子邮件调查(e-mail surveys) ,而网络调查则仅指通过 WWW 浏览器呈 现的调查,故也称网页调查。由于存储与软件兼容性方面的局限性,电子邮件调查远不及网 页调查应用广泛,故对互联网调查的研究主要集中于网页调查。
什么是收视率调查 收视率调查最早是用于了解节目的收视情况,为媒体决策和广告主的媒体选择提供依据。后来由于收视率 调查技术的革新பைடு நூலகம்一种叫做 Audimeter 视听记录仪在调查中的运用,使广告收视率调查变得简单化。 在电视收视率调查方面比较著名的市场调研公司有美国的尼尔逊公司( Nielsen ) 、日本的电通、英国的 TNSOFRES 集团等。它们都能以每分钟为单位来记录分析电视节目的收视情况。所以收视率调查便成为一 种电视广告传播效果的测量方法。 收视率调查的步骤 收视率调查过程包括以下几个步骤: 1、随机抽出一定量的观众样本户构成相对稳定的调查网(观众小组) 。样本大小视研究精度和地区规模而 定。例如台湾益利市场研究顾问公司,在台湾地区建立的调查网样本户是 245 个。 2、在样本户家中的电视机上装上 Audimeter 这种仪器,它能自动地记录受调查对象家中收看电视节目的时 间和频道。 3、每隔一段时间(如一周)把自动记录仪内的软片或磁带取下带回公司分析,就可以算出每日全部节目每 一分钟的收视率。现在由于技术的进步,研究机构甚至可以通过电话连线随时从被调查户提取记录信息。 一般来说,收视率愈高,说明广告的传播效果愈好。
抽样技术课后习题_参考答案_金勇进

第二章习题2.1判断下列抽样方法是否是等概的:(1)总体编号1~64,在0~99中产生随机数r ,若r=0或r>64则舍弃重抽。
(2)总体编号1~64,在0~99中产生随机数r ,r 处以64的余数作为抽中的数,若余数为0则抽中64.(3)总体20000~21000,从1~1000中产生随机数r 。
然后用r+19999作为被抽选的数。
解析:等概抽样属于概率抽样,概率抽样具有一些几个特点:第一,按照一定的概率以随机原则抽取样本。
第二,每个单元被抽中的概率是已知的,或者是可以计算的。
第三,当用样本对总体目标进行估计时,要考虑到该样本被抽中的概率。
因此(1)中只有1~64是可能被抽中的,故不是等概的。
(2)不是等概的【原因】(3)是等概的。
2.2抽样理论和数理统计中关于样本均值y 的定义和性质有哪些不同?300户进行,现得到其日用电平均值=y 9.5(千瓦时),=2s 206.试估计该市居民用电量的95%置信区间。
如果希望相对误差限不超过10%,则样本量至少应为多少?解:由已知可得,N=50000,n=300,5.9y =,2062=s 该市居民用电量的95%置信区间为[])(y [2y V z N α±=[475000±1.96*41308.19]即为(394035.95,555964.05) 由相对误差公式y)(v u 2y α≤10%可得%10*5.9206*n50000n 1*96.1≤- 即n ≥862欲使相对误差限不超过10%,则样本量至少应为8622.4某大学10000名本科生,现欲估计爱暑假期间参加了各类英语培训的学生所占的比例。
随机抽取了两百名学生进行调查,得到P=0.35,是估计该大学所有本科生中暑假参加培训班的比例的95%置信区间。
解析:由已知得:10000=N 200=n 35.0=p 02.0==Nnf 又有:35.0)()(===∧p p E p E 0012.0)1(11)(=---=∧p p n fp V该大学所有本科学生中暑假参加培训班的比例95%的置信区间为:])()([2∧∧±P V Z P E α代入数据计算得:该区间为[0.2843,0.4157]2.5研究某小区家庭用于文化方面(报刊、电视、网络、书籍等)的支出,N=200,现抽取一个容量为20的样本,调查结果列于下表:编号 文化支出 编号 文化支出 1 200 11 150 2 150 12 160 3 170 13 180 4 150 14 130 5 160 15 100 6 130 16 180 7 140 17 100 8 100 18 180 9 110 19 170 1024020120估计该小区平均的文化支出Y ,并给出置信水平95%的置信区间。
抽样技术课后习题_参考答案_金勇进

第二章习题2.1判断下列抽样方法是否是等概的:(1)总体编号1~64,在0~99中产生随机数r ,若r=0或r>64则舍弃重抽。
(2)总体编号1~64,在0~99中产生随机数r ,r 处以64的余数作为抽中的数,若余数为0则抽中64.(3)总体20000~21000,从1~1000中产生随机数r 。
然后用r+19999作为被抽选的数。
解析:等概抽样属于概率抽样,概率抽样具有一些几个特点:第一,按照一定的概率以随机原则抽取样本。
第二,每个单元被抽中的概率是已知的,或者是可以计算的。
第三,当用样本对总体目标进行估计时,要考虑到该样本被抽中的概率。
因此(1)中只有1~64是可能被抽中的,故不是等概的。
(2)不是等概的【原因】(3)是等概的。
2.2抽样理论和数理统计中关于样本均值y 的定义和性质有哪些不同?300户进行,现得到其日用电平均值=y 9.5(千瓦时),=2s 206.试估计该市居民用电量的95%置信区间。
如果希望相对误差限不超过10%,则样本量至少应为多少?解:由已知可得,N=50000,n=300,5.9y =,2062=s 该市居民用电量的95%置信区间为[])(y [2y V z N α±=[475000±1.96*41308.19]即为(394035.95,555964.05) 由相对误差公式y)(v u 2y α≤10%可得%10*5.9206*n50000n 1*96.1≤- 即n ≥862欲使相对误差限不超过10%,则样本量至少应为8622.4某大学10000名本科生,现欲估计爱暑假期间参加了各类英语培训的学生所占的比例。
随机抽取了两百名学生进行调查,得到P=0.35,是估计该大学所有本科生中暑假参加培训班的比例的95%置信区间。
解析:由已知得:10000=N 200=n 35.0=p 02.0==Nnf 又有:35.0)()(===∧p p E p E 0012.0)1(11)(=---=∧p p n fp V该大学所有本科学生中暑假参加培训班的比例95%的置信区间为:])()([2∧∧±P V Z P E α代入数据计算得:该区间为[0.2843,0.4157]2.5研究某小区家庭用于文化方面(报刊、电视、网络、书籍等)的支出,N=200,现抽取一个容量为20的样本,调查结果列于下表:编号 文化支出 编号 文化支出 1 200 11 150 2 150 12 160 3 170 13 180 4 150 14 130 5 160 15 100 6 130 16 180 7 140 17 100 8 100 18 180 9 110 19 170 1024020120估计该小区平均的文化支出Y ,并给出置信水平95%的置信区间。
金勇进(第二版)抽样调查理论与方法-绪论

统计量是根据样本的n个单元的变量值计算出的一个量, 也叫估计量,用于对总体参数的估计。 常用的估计量: (1)均值估计; (2)总值估计; (3)比例估计; (4)比率估计。 统计量是随机变量,结果取决于抽样设计和被选入样本的 总体基本单元的特定组合。
估计量方差、偏差、均方误差(1)
估计量方差:估计量分布的方差,它是从平均 意义上说明估计值与待估参数的差异状况,也 是我们对抽样方案进行评价的标准之一。
2
2
抽样误差与非抽样误差
抽样误差:抽样误差是由于抽取样本 的随机性造成的样本值与总体值之间 的差异,只要采用抽样调查,抽样误 差就不可避免。 抽样误差是一个一般的概念,它 可以用不同的量值来表示。例如: 估计量方差或估计量标准差。
抽 样 误 差
样本量
非抽样误差:是相对于抽样误差而言的,它不是由 于抽样的随机性,而是由于其它多种原因引起的估 计值与总体参数之间的差异。 •包括:抽样框误差、计量误差、无回答误差等
多阶段抽样
例如,全国性调查,省;市或县;街道、镇、 或乡,等等。 在大规模的抽样调查中,特别是当抽样单元 为各级行政单位时,通常都采用多阶段抽样。 优点:
样本单位相对集中,实施调查比较方便,可以节 省调查费用; 抽样时并不需要全部低级单位的抽样框。
系统抽样
系统抽样是将N个总体单位按一定顺序排列, 先随机抽取一个单位作为样本的第一个单元, 然后按某种确定的规则抽取样本的其它单元。 其中最简单也是最常用的规则是等间隔抽取。 所以系统抽样又称等距抽样。
依赖研究者个人的经验和判断; 无法估计和控制抽样误差,无法用样本的量化数据 来推断总体。
抽样技术(金勇进)PPT

(2)
因为 E(ylr ) = E(y) + β0E(X − x) =Y 而 ylr又 表 yi + β0 (X − xi ) 的样本均值 可 为 后者的总体均值为Y 故(2)式成立 2
为什么要使用比率估计/回归估计 为什么要使用比率估计 回归估计
• 利用总体的辅助信息提高估计的精度。
–辅助指标的选择 :辅助指标应该与调查指标有较好 的正的相关关系 。y 的抽样分布较 y 的抽样分布变 动性要小得多。 xu x –辅助指标的总体总量或总体均值已知。
• 比率估计、回归估计需要有足够的样本量才能 保证估计的有效。
分 抽 下 比 计 两 方 : 层 样 , 估 有 种 法 X 1.Separate R atio estim ator N 2 2 2 2 y1 y2 yL i y x r = ,2r2 = , i rL = ∑ 2 1 … ..L) x1 x2 … . ∑xL (h=1,2,… i=1
E ( y − RX )
β的 定 为 0 ,0 是 常 , : β 一数则 确 值 β
1 ()
yLr = y +β (X −x) 0
N 1− f 1 V ( y Lr ) = [( Y i − Y ) − β 0 ( X i − X )] 2 ∑ n N −1
1− f 2 = ( S y + β 02 S x2 − 2 β 0 S yx ) n
分 抽 下 比 计 两 方 : 层 样 , 估 有 种 法 1.Separate R atio estim ator
∑y , r = ∑y r = ∑x ∑x
1 1
2
2
,
1
2
r … .L …
∑y = ∑x
《抽样技术(第二版)金勇进等编著》习题解答

《抽样技术(第二版)金勇进等编著》习题解答第二章2.22.3 解:已知2ˆ9.5,206,50000,300500009.5475000y s N n Y Ny ====∴==⨯=, 222211300/50000ˆ()50000206500000.6825170636666730041308.19128,80964.05491f v YN s n --∴==⨯⨯=⨯===所以居民日用电量的95%的置信区间为 ˆˆ[[47500080964.05491,47500080964.05491] [394035.9451,555964.0549]YY -+=-+=相对误差为ˆd Y Y r Y-=2.4 解:ˆ0.35Pp == , 11200/1000010000()(1)0.35(10.35)0.0011512009999f N V p P P n N --=-=⨯⨯⨯-=-0.03339=∴P 的95%置信区间为:[[0.35 1.960.03339,0.35 1.960.03339][0.2846,0.4154]p p -+=-⨯+⨯=2.5 解:已知200,20N n ==,根据已知数据计算得:2144.5,826.0526,() 6.096915y s v y ==∴== ∴Y 的95%置信区间为:[[144.5 1.96 6.096915,144.5 1.96 6.096915][132.55,156.45]y y -+=-⨯+⨯=2.6 解:已知2ˆ1120,25600,350,503501120392000y S N n Y Ny ====∴==⨯=,2221150/350ˆ()350256003840000506196.773,12145.68f V YN S n --∴==⨯⨯===∴ˆY的95%置信区间为:ˆˆ[[379854.3,404145.7]Y Y -+= 2.7 解:已知21000,2,68,10.95N d S α===-=,222022221000 1.966861.3010002 1.9668Nt S n Nd t S ⨯⨯∴===+⨯+⨯0161.387.571430.7n n r === 样本量最终为88个家庭。
抽样调查及其主要方法

抽样调查及其主要方法抽样调查是社会科学研究中常用的一种方法,通过抽取一部分样本代表整体群体,从而研究群体的特点和现象。
抽样调查可以广泛应用于政治、经济、社会和心理等各个领域,以获取有关群体的信息和数据。
抽样调查的主要方法有以下几种:1.简单随机抽样:基本思想是从总体中以等概率的方式抽取样本。
在简单随机抽样中,每个样本都有被选中的机会,且选中的概率相等。
简单随机抽样适用于总体分布均匀、样本代表性要求高的情况。
2.系统抽样:基本思想是按照一定的规则选择样本。
例如,研究者可以设置一个抽样间隔,按照一些规律选取样本。
系统抽样一般比简单随机抽样更具效率,但要求总体中的个体或单位排列是随机的。
3.分层抽样:将总体划分为若干层,然后从每层中抽取样本。
这样可以保证每个层次都被充分考虑,并使样本更具代表性。
分层抽样适用于总体具有内在差异,且各层之间有一定的相似性的情况。
4.整群抽样:将总体划分为若干个群组,然后从群组中抽取全部样本。
整群抽样可以保证群组内的相关性,但要求群组间的差异较大。
5.整体抽样:直接针对总体进行抽取样本,而不是通过抽取个体或单位来构成样本。
整体抽样适用于总体规模较小,且成本相对较低的情况。
以上是常见的抽样调查方法,不同的方法适用于不同的研究目的和研究问题。
在实际应用中,研究者需要根据具体情况来选择合适的抽样方法,以确保样本的代表性和可靠性。
除了抽样方法,抽样调查还需要注意以下几个方面:1.样本容量确定:样本容量的大小与研究结果的可靠性密切相关。
一般来说,样本容量越大越能准确代表总体。
研究者需要根据具体问题和可行性来合理确定样本容量。
2.抽样误差控制:在抽样调查中,由于样本选择的随机性,样本结果与总体之间会存在一定的误差。
研究者可以通过减小样本误差的方法来提高调查结果的准确性,例如增加样本容量或优化抽样方法。
3.抽样调查的可靠性和有效性:可靠性指研究结果的稳定性和一致性,有效性指研究结果的准确性和适用性。
抽样理论与方法(统计学专业)知识讲稿

1.1.1. 非概率抽样
判断抽样 研究者根据研究目标和自己的主观分析来选择和确定他们认为可以提 供所需要信息的人作为样本。
含义:又称立意抽样法,它是指由市场调查的专家依据自己的判断来选取 样本的一种方法。 适用范围:总体的构成单位差异较大而样本数又很小的情况
优点:因为是按照调查人员的需要来选定样本,所以较好地满足了特殊 的调查需要。
放回简单随机抽样的样本量不受总体大小的限制,可以是任意的。
统计学专业硕士课
2.1.1 放回简单随机抽样
简单随机抽样的抽取原则: (1)按随机原则取样; (2)每个抽样单元被抽中的概率都是已知的或事先确定的; (3)每个抽样单元被抽中的概率都是相等的。
统计学专业硕士课
2.1.1 放回简单随机抽样
统计学专业硕士课
1.1.1. 非概率抽样
适用范围 (1)可用于经常性的市场调查; (2)可用于正式市场调查之前的试验调查; (3)任意调查适用于同质总体。
优点:方便、灵活,简便易行,及时取得所需资料,节约时间 和费用成本低 缺点:因为个体差异性,抽样误差很大,结果不够可靠,应用 价值较低
统计学专业硕士课
and control the costs of survey data collection. * 在固定费用下精度最高; * 或在一定精度条件下调查总费用最省;
统计学专业硕士课
1.3 抽样调查的发展简史
百年历史,全面调查——非全面,推论统计的发展——数理统计的 分支。
1. 个别场合适用,1802法国数学家拉普拉斯,人口调查,两阶段 (便利),比估计(出生人口)
评估样本质量:质量、代表性、偏差
将可得到的反映总体中某些重要特征及其分布的资料与样本
中的同类指标进行对比。
抽样调查理论与方法 金勇进(第二版)第4章等概率整群抽样和多阶段抽样

S
2
故 又可写为:
2
N
(Y
M
ij
Y )( Y ik Y )
2
( NM 1 )( M 1 ) S
用简单随机抽样方法抽取n个群,每个群内的M个 单元全部进入样本,则等群抽样均值估计量 y 的方 差可用群内相关系数近似表示
1 M
2
V (y)
V (y)
1 f nM
1567.9 39.6( 万 公 斤 )
评价:虽是无偏估计量,但方差估计与 y i 之 间的差异有关,适合于 y i 之间差异不大的整 群抽样。
(2 ) 等概抽样,比率估计
Yˆ M
t
n i 1 n i 1
yi
i
2
726
n
2 5 7 .1 209
8 9 3 .0 8
M
v ( Yˆ ) s ( Yˆ )
v( y ) 1 f nM
Yˆ NM y
2 2 V ( Yˆ ) V ( NM y ) N M V ( y )
sb
2
总体总值 的估计量 及其方差
ˆ ) N 2 M 2v( y ) v (Y
【例4.1】
在一次对某中学在校零花钱的调查中, 以宿舍作为群进行整群抽样。每个宿舍 都有M=6名学生。用简单随机抽样在全 部N=315间宿舍中抽取n=8个宿舍。全 部48个学生上周每人的零花钱 y ij 及相关 计算数据如表4-2所示。试估计该学校学 生平均每周的零花钱 Y ,并给出其95% 的置信区间。
整群抽样的效率分析
群内相关系数 表达式为:
E ( Y ij Y )( Y ik Y ) E ( Y ij Y )
抽样调查理论与方法

各过去观察值的权数都相等,早于(t-n+1)
期的观察值的权数等于0。而实际上往往是 最新观察值包含更多信息,应具有更大权重。
4.移动平均法有两种极端情况
在移动平均值的计算中包括的过去 观察值的实际个数n=1,这时利用最新的 观察值作为下一期的预测值;
n=N,这时利用全部N个观察值的算 术平均值作为预测值。
一次指数平滑法是直接利用一次指数平 滑值作为预测值的一种方法。线性二次指数 平滑法与其不同,它是用平滑值对序列存在 的线性趋势进行修正。
线性二次指数平滑法只利用三个数据和 一个α值就可进行计算;
同线性二次移动平均法相比,在大多数 情况下,一般更喜欢用线性二次指数平滑法 作为预测方法。
一、布朗单一参数线性指数平滑法
时期 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
销售额(万元) 97.0 95.0 95.0 92.0 95.0 95.0 98.0 97.0 99.0 95.0 95.0 96.0 97.0 98.0 94.0 95.0
0.1 — 97.00 96.80 96.62 96.16 96.04 95.94 96.14 96.23 96.51 96.36 96.22 96.20 96.28 96.45 96.21 96.09
平滑常数a的确定往往采用试算的方法,即首先 选择a的一组取值,分别进行预测,并计算各种取 值之下预测误差的大小,选择使得预测误差最小的 a作为最终的取值,做最终预测。
一次指数平滑法的初值的确定:
取第一期的实际值为初值; 取最初几期的平均值为初值。
该预测方法只适用于平稳时间序列!
例:
利用下表数据为某公司每月的营业 额,运用一次指数平滑法对某公司第17期 的 销 售 额 进 行 预 测 ( 取 α =0.1 , 0.3 , 0.9)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
L
定理 3.3:对于分层随机抽样, 的估 Y 计量 yst 具有如下性质:
E yst Y
ˆ W 2 1 fh S 2 V yst W V Yh h n h h 1 h 1 h
L L 2 h 2 2 L Wh2 S h Wh2 S h nh Nh h 1 h 1 L
2013-8-10
18
3.3 比率估计量及其性质
两种途径:
分别比估计:对每层样本分别考虑比估计量,然 后对各层的比估计量进行加权平均,即先“比” 后“加权”; 联合比估计:对比率的分子和分母分别加权计算 出总体均值或总体总量的分层估计量,然后用对 应的分层估计量来构造比估计,即先“加权”后 “比”。
2013-8-10
5
符号说明 (关于第h层的记号 )
层号
h 1,2, , L
单元总数
Nh
nh y hi
Wh
样本单元数
第 i 个单元的值
层权
抽样比
1 Yh Nh
Nh 2 h
y
i 1
Nh
hi
总体均值
样本均值
nh fh Nh
Nh N
2 1 S y hi Yh N h 1 i 1
1 yh nh
y
i 1
nh
hi
总体方差
样本方差
2013-8-10
1 nh 2 sh y hi y h 2 nh 1 i1
6
3.2 简单估计量及其性质
3.2.1 总体均值的简单估计及其性质
分层样本,总体均值 Y 的估计
WY 1 Yst h h N h 1
E (YRS ) Y
MSE (YRS ) V (YRS )
2 N h (1 f h ) 2 2 2 (S yh Rh S xh 2Rh S yxh ) nh h 1 L
3.3.2 联合比估计
定义 3.5 总体均值 Y 和总体总量 Y 的联合比估计为:
y RC y st ˆ X RC X x st
的一个无
例3.1
调查某地区的居民奶制品年消费支出,以居民户为抽 样单元,根据经济及收入水平将居民户划分为4层,每 层按简单随机抽样抽取10户,调查获得如下数据(单 位:元),要估计该地区居民奶制品年消费总支出及 其置信区间。
居民户 总数
1 1 2 3 4 200 400 750 1500 10 50 180 50 2 40 130 260 35 3 0 60 110 15
1 n1 2 s y1i y1 1624.722 n1 1 i 1
2 1
N 200 W1 1 0.07018 N 2850
N 400 W2 2 0.14035 N 2850
n 10 f1 1 0.05 N1 200
1 n1 y1 y1i 39.5 n1 i 1
2 s4 193.333
ˆ Yst N h yh
h 1
4
200 39.5 400 105 750 165 1500 24
209650
ˆ v Yst N
2
1 fh 2 W v yh N sh 5.93 108 nh h 1 h 1
p2 q2 0.0173 n2 1 p4 q4 0.0099 n4 1
v p2 1 f 2 v p4 1 f 4
因此,该地区居民拥有家庭电脑比例的估计为:
p st Wh p h
h 1 4
1 N
N
h 1
4
h
ph
1 200 0.2 400 0.2 750 0.4 1500 0.1 0.2 2850
1 2 L
定义3.2 分层抽样:又称为类型抽样或分类抽样,即在每一层中独 立进行抽样,总的样本由各层样本组成,总体参数则根据各层样本 参数的汇总做出估计,这种抽样就称为分层抽样,所得样本称为分 层样本。设总得样本量为n,从L个子总体中所抽取的样本量分别为 n1 , n2 ,, nL ,,则有, n1 n2 nL n
定义3.3 分层随机抽样:如果每层中的抽样都是独立地按照简单随 机抽样进行的,那么这样的分层抽样称为分层随机抽样,所得的样 本称为分层随机样本。
分层随机抽样的三个必要条件
(1)每层都抽; (2)各层都独立地抽; (3)各层的抽样都是简单随机抽样。
特点:
样本在总体中分布更均匀,更具代表性。 每层的抽样都是独立进行,允许各层选择不同的抽样 方法。 分层抽样不仅能对总体指标进行估计,而且能对各层 指标进行估计。 分层抽样的抽样效率较高,也就是说分层抽样的估计 精度较高。(这是因为分层抽样估计量的方差只和层 内方差有关,和层间方差无关。)
1 v( pst ) 2 (3) N
偏估计。
Nh
h1
L
Nh nh ph qh nh 1
是
V ( Pst )
的一个无
推论 3.3:对于分层随机抽样,总体中具有指 定特征的单元总数 A 的简单估计量 Ast 为:
L L Ast Npst N Wh ph N h ph h 1 h 1
L
N h Yh
h 1
L
分层随机样本,总体均值 Y 的简单估计
1 y st Wh y h N h 1
L
N
h 1
L
h
yh
7
2013-8-10
Y 定理 3.1:对于分层随机抽样,st 是 Y 的无偏估计。
定理 3.2:对于分层随机抽样,有
V Yst Wh2V Yh
第3章 分层随机抽样
3.1 定义与符号
一、定义
不重 不漏
在抽样之前,先将总体N个单元划分成L个互不 重复的子总体,每个子总体称为层,它们的大 小分别为 N1 , N 2 , , N L ,这个层合起来就是 N N ,然后,在每个层中分别 整个总体 独立地 进行抽样,这种抽样就是分层抽样,所 得到的样本称为分层样本。
4 4 2 h 2 h
ˆ ˆ Yst Z/2 v Yst 209650 1.96 23207.6
2013-8-10 16
例3.2
在例3.1的调查中,同时调查了居民户拥有家 庭电脑的情况,获得如下数据(单位:台), 要估计该地区居民拥有家庭电脑的比例及置信 水平为95%的置信区间。
是
V (Yst )
的一个无偏估
推论 3.2:对于分层随机抽样,总体比例 P L 的简单估计量 pst Wh ph 有如下性质:
h 1
(1) E ( pst ) P
1 L 2 Nh nh PhQh (2) V ( pst ) N 2 Nh N 1 n h1 h h
L
根据定理3.6, 很容易推得在各层样本量nh 都比较大 的情况下,有
E (YRC ) Y
MSE (YRC ) V (YRC )
2 N h (1 f h ) 2 2 ( S yh R 2 S xh 2 RS yxh ) nh h 1 L
3.3.3 分别比估计与联合比估计的比较
L h h 1
总体中的每一个单元一定属于并且只属于某一个层, 而不可能同时属于两个层或不属于任何一个层。
2013-8-10 2
定义3.1 层:如果一个包含N个单元的总体可以分成“不重不漏” 的L个子总体,即每个单元必属于且仅属于一个子总体,则称这样 的子总体为层。即L个子总体所包含的单位数分别为 N1 , N 2 , , N L ,则有 N N N N
居民 户总 数
层
样本户拥有家庭电脑情况 1 0 0 1 1 2 0 1 1 0 3 0 0 0 0 4 1 0 0 0 5 0 0 0 0 6 0 0 0 0 7 0 0 1 0 8 1 0 0 0 9 0 1 1 0 10 0 0 0 0
1 2 3 4
200 400 750 1500
2013-8-10
y ˆ ˆ YRC st X Ny RC RC X x st
xst Wh xh
h 1
L
yst Wh yh
h 1
L
定理 3.6 对于分层随机抽样的分别比估计,若各层的 样本量 nh 都比较大,则有
E ( yRC ) Y
MSE ( yRC ) V ( yRC ) Wh2 (1 f h ) 2 2 ( S yh R 2 S xh 2 RS yxh ) nh h 1
y2 105
2 s2 2166.667
f2
n2 10 0.025 N 2 400
N 750 W3 3 0.26316 N 2850
n 10 f3 3 0.0133 N3 750
y3 165
y4 24
2 s3 8205.556
W4
N 4 1500 0.52632 f 4 n4 10 0.0067 N 2850 N 4 1500
估计量的方差为:
v p st 1 N2
N v p
h 1 2 h h
4
1 2002 0.0169 4002 0.0173 7502 0.0263 15002 0.0099 0.005 2 2850
估计量的置信区间为: pst Z / 2 v pst