第三章-简单随机抽样
Chap03简单随机抽样
N i j
(Yi
Y
)(Yj
Y
)
1 nN
1
n 1 N 1
N i 1
(Yi
Y
)2
n 1 N 1
N i 1
(Yi
Y
2 )
1 n
N N
n
1 N 1
N i 1
(Yi
Y
)2
1 f S2
n
证明Ⅱ:仍引进随机变量 ai :
N 1 n 1
N n
n N
ˆ
f
E(ai )
n N
f
(3.5)
借助 ai ,样本均值 y 可以表示成:
y
1 n
N i 1
aiYi
(3.6)
E( y) 1
n
N
E(ai )Yi
i 1
1 n
n N
N
Yi
i 1
Y
推论: Y 的简单估计量Yˆ Ny 也是无偏的,即: E(Ny ) Y
所有可能的样本求平均: E( y)
N 1 y n
N n
个样本中,包含特定单元
Yi
的样
本数为
N 1 n 1
,也有同样多样
本含有任何其他单元,因此
y 1
n
( y1
y2
yn )
1 n
N 1 n 1
数,则编号为这些随机数的 n 个单元组成一个简单随机样本。
随机数的产生可使用随机数骰子或随机数表。
图 3.1 随机数骰子 随机数骰子:标上 0~9 数字的正 20 面体(每个数字出现在两面)
应用抽样技术课后习题答案
=(0.0907,0.4433)
N1的95%的置信区间为: (159,776) 95%的置信区间为 (159, 的置信区间为:
(3)N=1750,n=30, (3)N=1750,n=30,n1=8, t=1.96, p=0.267, q=1q=1-0.267=0.733 由此可计算得: t 2q 1.962 × 0.733 n0 = 2 = =1054.64 r p 0.01× 0.267 n = n0/[1+(n0—1)/N] = 1054.64/[1+1053.64/1750]=658.2942 = 659 计算结果说明,至少应抽取一个样本量为659的简单随机 样本,才能满足95%置信度条件下相对误差不超过10%的精度 要求。
t=1.96 (2)易知,N=1750,n=30, n = 8 1 n 8 N − n 1750 − 30 1− f p= 1 = = 0.267 = = = 0.03389 n −1 (n −1)N 29 ×1750 n 30
pq = p(1 − p) = 0.267 × 0.733 = 0.1957
5.5 证明:由(5.6)得:
V ( yR ) ≈ 1− f n (Yi − RX i )2 ∑
i =1 N
N −n 2 令 Sd = V , Nn
2 d
N −1
=
N −n 2 Sd Nn
则n(NV + S ) = NS ,
2 d
S 2 NSd 从而n = = V 2 2 NV + Sd Sd 1+ NV
第五章 比率估计与回归估计
5.2 N=2000, n=36, 1-α=0.95, t=1.96, ˆ f = n/N=0.018, v(R) = 0.000015359, ˆ se(R) =0.00392 置信区间为[40.93%,42.47%]。 置信区间为[40.93%,42.47%]。
第三章抽样的原理及类型
五、抽样设计得原则
1、目得性原则 2、可行性原则 3、高效性原则
第三节 样本规模与抽样误差
一、 样本规模及其计算
1所、含定元义素:样得本多规少模。又确称定样样本本容规量模,就指是得每就一是项样具本体中 得社会调查所必须解决得问题之一。
不能少于100个元素
2、简单随机抽样中样本规模计算公式: a,推论总体平均数
4、 实际抽取样本
实际抽取样本得工作就就是在上述几个步 骤得基础上,严格按照所选定得抽样方法,从抽样 框中抽取一个个得抽样单位,构成样本。依据抽 样方法得不同,以及依据抽样框就是否可以事先 得到等因素,实际得抽样工作既可能在研究者到 达实地之前就完成,也可能需要到达实地后才能 完成。即既可能先抽好样本,再下去直接对预先 抽好得对象进行调查或研究;也可能一边抽取样 本一边就开始调查或研究。
继续保持安静
置信区间
指在一定得置信度下,样本统计值与总体 参数值之间得误差范围。反映得就是抽样得 精确性程度。
二、抽样得作用
向人们提供一种实现“由部分认识整 体”这一目标得途径和手段。
日常生活中得抽样
第二节 抽样得类型与抽样程序
一、抽样得类型 从大得方面看,各种抽样都可以归为概率
抽样与非概率抽样两大类,这就是两种有 着本质区别得抽样类型。
抽样
从组成某个整体得所有元素得集合中,按 一定得方式选择或抽取一部分元素得过程。
比如,从1000户家庭构成得总体中,按一定 得方式抽取一个由100户家庭构成得样本得 过程。
抽样单位
抽样单位就就是一次直接得抽样所使用得 基本单位。抽样单位与构成总体得元素有时 就是相同得,有时又就是不同得。
如从32万名大学生抽取1000大学生,单个 大学生既就是元素,又就是抽样单位;但就是,抽 取40个班级(假定正好就是1000名)时,抽样单位 与构成总体得元素就不一样了。
第三章-简单随机抽样
N!
考虑顺序可能的样本为 N n !
每个样本被抽中的概率为 ( N n)! N!
s2 1358.41, v( y) (1 f )s2 / n 37.6444, se( y) 6.1355
对该校大学生某月电信消费人均支出额的估计为 53.64元,在置信度95%下,临界值1.96,可以说以 95%的把握说明该校大学生该月的人均支出在 [53.64+(-)1.96*6.1355],即41.61~65.67元。
n 1
2n
正态近似产生的误差 主要与nP有关,特别 当nP比较小时,产生 的误差甚大,在95% 置信度下,P<0.5时正 态分布需要的最小nP 值与n值如下表。
P
nP
0.5
0.4
0.3
0.2
0.1
0.05
0
n
15
30
20
50
24
80
40 200
60 600
70 1400
80 无穷
试以95%的置信度估计上例大学生月电信消费超 过80元的人数及其比例。
N n S2 N n
nN
为调查某校大学生的电信消费水平,在全 校N=15230名学生用简单随机抽样抽取 n=36名学生,调查上月电信支出数据。试 以95%的置信度估计该校大学生该月电信 消费的平均支出额。
样本序号 消费元/月 样本序号 消费
样本序号 消费
1
45
13
应用抽样技术_3版(李金昌主编)PPT模板
著名抽样专家简介
17
第十一章非抽样误差
第十一章非抽 样误差
0 1
第一节非抽样 误差构成
0 4
第四节计量误 差分析
0 2
第二节抽样框 误差分析
0 5
本章小结
0 3
第三节无回答 误差分析
0 6
思考与练习
第十一章非抽样误 差
著名抽样专家简介
18
主要参考文献
主要参考文献
19
封底
封底
感 谢 聆 听
第三版前言
07
第一章抽样技术概述
第一章抽样技 术概述
01 第一节什么是抽样 02 第二节抽样技术的
技术
产生与发展
03 第三节抽样技术的 04 本章小结
应用
05 思考与练习
06 著名抽样专家简介
08
第二章抽样技术基本概念
第二章抽样 技术基本概
念
0 1
第一节总体与 样本
0 4
第四节样本设 计
0 2
16
第十章其他抽样方法技术
第十章其他抽样方法技术
01
第一节样本轮 换
02
第二节双重抽 样
03
第三节随机化 装置
04
第四节交叉子 样本
05 本章小结
06
思考与练习
单击此处添加标题
单击此处添加文本具体内 容,简明扼要的阐述您的 观点。根据需要可酌情增 减文字,以便观者准确的 理解您传达的思想。
第十章其 他抽样方 法技术
第二节估计量 与抽样分布
0 5
本章小结
0 3
第三节抽样误 差与置信区间
0 6
思考与练习
第二章抽 样技术基 本概念
初级1 -第三章简单随机抽样
n
n 1 N 1 n N
n 1 N 1
二、实施方法 • 抽签 制作N个同质的签,充分混合。从中一次抽出n个签, 或者先抽出一个签但不放回,再抽下一个签直到抽 满n个签为止。抽出的这n个签对应的单元入选样本, 这是不放回简单随机抽样;若从充分混合的N个签 中抽取一个,记录后放回,再抽取下一个,如此进 行,直到抽满n个为止,则是放回简单随机抽样。 抽签法的实施起来比较麻烦,尤其是当总体单元数 N较大时,所以该方法的使用场合为当总体单元数 N比较小,签的制作比较方便时。
第三章 简单随机抽样
第一节
基本问题
一、什么是简单随机抽样
从 N个单元的总体中抽取 n个单元组成的样本。总体单元数为 N,
样本量为 n。 若抽样是放回的,每次都是从 个总体单元中随机抽取1个单元,独 立重复抽取n次,得到 个单元组成的样本,叫做放回简单随机抽样。 若抽样是不放回的,每次都是从剩下的总体单元中随机抽取1个单 元,相继依次抽取n次,得到n个单元组成的样本,叫做不放回简单 随机抽样。
精度margin of error
对精度的要求通常以允许最大绝对误差
差限)或允许最大相对误差 (相对误差限)来表 示。
r
d(绝对误
d 1 P
P r 1
样本量足够大时,可用正态分布近似
ˆ tS ˆ d t V
2
第三章 基本概念
N n N 1
N n N
为 修正系数
2
为 S 修正系数
n f ,称抽样比, N
2
令
N n 1 f 有限总体调整系数 故, N 2
S V ( y ) (1 f ) n
第三章 抽样设计
一、方便抽样
又称任意抽样。一般由调研人员从工作的 方便出发,在调研对象的范围内随意抽取 一定数量的样本进行调查。
最常用的两种方法是“街头拦截法” 最常用的两种方法是“街头拦截法”和 “空间抽样法” 空间抽样法” 特点: 节约费用和时间,但样本的信息不 适用于总体参数的推断。
注意:
方便抽样一般用于非正式的探索性调查, 只有在调查总体各单位之间的差异不大时, 抽取的样本才有较高的代表性。
抽取样本的数量
允许误差 % 1 2 3 4 5 6 7 可信程度(把握程度)% 95 99 9600 16589 2400 4147 1067 1849 600 1037 384 663 267 461 196 339
一、简单随机抽样
适用范围:调查总体中各个体之间差异程 度较小的情况下,或者调研对象不明,难 以分组、分类的情况。 常用方法: 1、抽签法 2、随机数表法
二、系统抽样
又称等距抽样,就是先将调查总体的各个 体按照一定的标志排列起来,然后按照固 定的顺序和一定间隔来抽取样本个体。
排队的标志有两种: 1、按调查项目有关的标志排队 2、按调查项目无关的标志排队
(独立控制配额)按年龄分组: 独立控制配额)按年龄分组:
按年龄分组 18-29岁 18-29岁 30-40岁 30-40岁 41-55岁 41-55岁 56岁 56岁 合计 人数 40 60 70 30 200
按性别分组
性别 人数 100 100 200
男
女
合计
相互控制配额抽样
合计 40 60 70 30 收入 性别 年龄 18-29岁 18-29岁 30-40岁 30-40岁 41-55岁 41-55岁 56岁以上 56岁以上 合计 高 男 3 6 6 3 18 女 4 5 6 3 18 中 男 7 11 13 6 37 女 8 11 13 5 37 低 男 9 13 16 7 45 女 9 14 16 6 45
第3章 抽样分布
样本方差s2
s2取值的概率
0.0 0.5
4/16 6/16
2
4.5
39
4/16
2/16
0.00 0.0 0.5 s的取值 2.0 4.5
(用Excel计算2分布的概率)
1. 利用Excel提供的CHIDIST统计函数,计算2分布 右单尾的概率值
2. 语法为 CHIDIST(x,df) ,其中 df 为自由度, x 是随 机变量的取值 3. 给定自由度和统计量取值的右尾概率,也可以利 用“插入函数”命令来实现 4. 计算自由度为8,统计量的取值大于10的概率
σ2 =1.25
23
x 2.5
x2 0.625
样本均值的抽样分布
当总体服从正态分布N(μ,σ2)时,来自该总体的所有 容量为n的样本的均值x也服从正态分布,x 的数 学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)
=10
n=4 x 5 n =16 x 2.5
37
2分布
(图示)
选择容量为n 的 不同容量样本的抽样分布
n=1 n=4 n=10
总体
简单随机样本
计算样本方差s2
计算卡方值
n=20
2 = (n-1)s2/σ2
计算出所有的
2
2值
38
2分布
(例题的图示)
16个样本方差的分布
s取值的概率
0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05
13
三种不同性质的分布
1 2 3
14
总体分布 样本分布 抽样分布
总体分布
(population distribution)
03第三章 简单随机抽样
首先,在理论上最符合随机原则.对此可有二 种理解:一种是总体中各个单位被抽中的机会 相等.设总体有N个单位,各单位被抽中的概 1 率均为 N.另一种是总体中各个样本被抽中的 概率相等.我们知道,一个总体N中可以抽取 许多个容量为n 的样本,通常情况下按组合形 n C N个样本,那么,在一次抽样中,某个样 式有 1 本被抽中的概率为C ,这个概率对每个可能的 样本都相等.简单随机抽样遵循这种等可能性 原则,为进行抽样估计,计算抽样误差,提供 了重要前提条件.
Y3 + Y4 2
可见,样本均值 y 是 Y 的一个无偏估计量,因为
1 Yi + Y j 1 3 4 E ( y ) = ∑∑ ( ) = ∑∑ (Yi + Y j ) 2 12 i =1 j i i =1 j i 6
3 4
而每个单元均可能在三个样本内出现,故
1 4 E ( y ) = ∑ 3Yi = Y 12 i =1
颜色 蓝 绿 红 白 黄 合计
人的编号 1 14 28 15 25 18 2 26 21 12 23 18 3 20 15 20 20 25 4 12 21 22 19 26
期望 数字 20 20 20 20 20 100
100 100 100 100
可见四个人都对颜色存在偏好,如第一个人偏爱绿色, 第二个人偏爱蓝色等.这种由于对颜色偏好所引起的偏估 类型,可称之为颜色偏误. 结论:随意抽样≠随机抽样
n N
其次,它是设计其他更复杂抽样形式的基础. 例如,设计分层抽样,将总体划分为若干层, 然后对各个层实施简单随机抽样.对一个非常 大的总体,需要分若干个阶段进行抽样.例如, 进行全国性抽样调查,第一阶段可以由全国抽 取若干个省份,第二阶段再由抽中的省份抽取 若干个县(市);第三阶段再由抽中的县(市)抽 取若干个乡(街道);第四阶段再由抽中的乡 (街道)抽取若干个村(居委会)等等.在这种多 阶段抽样中,每个阶段中抽取样本单位均可采 用简单随机抽样方法.
第三章简单随机抽样(抽样调查理论与方法-北京商学院,
100,95,92,88,83,75,71,62,60,50
平均分为77.6。先从中任选3个为一组样本,其选法共有120种
每种选法都有概率1/120。以4组样本为例(100,95,92),(100,83,
50),(88,83,62),(62,60,50)它们的样本平均数分别为95.67,
77.67,77.67,57.33。 从抽样调查的角度来看,我们希望抽到第二或第三组样
(3.6)
N 1 n
Nn
对随机有放回抽样,由于各次抽取是相互独立的,由概率论 的知识可以求得,此时:
2
Var( y) n
1 S2 (或 (1 ) ) (3.7)
Nn
比较(3.6)式与(3.7)式,发现同样用样本平均数来估计总体平 均数,它们都是无偏估计,但随机无放回时的方差小于随机
有放回时的方差。 y 的方差表示新盒子的离散程度,也就是 表示了 y 取值范围的大小,方差小表明 y 取值远离中心Y 的 可能性较小,这样随机的一组样本得到 y 的实现值距Y 很近
相当小,此时(3.6)式告诉我们 y 的方差将随着 n 的减少而增 大,此时 1-f 在 1 附近,对Var( y)的影响不大。事实上,
抽取样本越少,抽样误差越大。
可见实际抽样调查中用 y 估计Y 所产生的随机误差,也 即 y 的方差,主要受到样本容量 n 的影响,因子1-f 的影响
几乎可以忽略。
当然,影响 y 的方差的另一个重要因素是 2或 S 2。设
通常取决于总体单元个数N,满足10m1 N 10m。记m个 骰子按约定颜色而确定的顺序读得随机数R0,若R0 N,则 此 R0即为一次合格的随机数;否则予以放弃,重新摇取,直
到取到n个合格的随机数为止。 ③利用计算机产生随机数:不少现成的统计软件都可提供此 类服务。但必须指出,这样产生的随机数一般不能保证其随 机性,称为“伪随机数”。因此,提倡前述方法产生随机数。
第三章随机抽样和抽样散布
第三章随机抽样和抽样散布在前两章的讨论中,咱们明白了随机现象常常通过随机变量及其概率散布和数字特点来描述,但是,在实际问题中,要准确明白概率散布和数字特点,有时是很困难的。
例如,咱们要以药丸的崩解时刻或药片的溶解速度为指标来考察某一批药品的质量。
假设把这批药品全数进行一下实验,其散布函数及其有关的数字特点都可求出。
可是,由于测定这些指标的实验,一样是破坏性的,报废了全数药品即便求出了有关指标也无心义。
还有一些查验指标,如蜜丸的重量、体积等,对它们的查验虽不是破坏性的,但要成批逐个查验,不管从人力仍是物力上都会受到条件限制。
事实上,人们老是通过对部份产品的实验结果作分析,推断出全数产品的情形。
这确实是数理统计研究的一个要紧问题。
本章先讨论样本和统计量等大体概念,然后讨论常见的几种抽样散布,为进一步讨论统计推断方式打下必要的理论基础。
§3-1 随机抽样整体与样本整体与样本是数理统计中两个要紧概念。
整体是指研究对象的全部,组成整体的每一个单元称为个体。
整体能够包括有限个个体,也能够包括无穷多个个体。
某个整体是有限的,但在个体相当多的情形下,往往把它作为无穷整体来对待。
在数理统计中,咱们不笼统地研究所关切的对象,只考察它的某一种数值指标,例如,考察某批中成药丸的质量时,能够考察崩解时刻、溶解速度、丸重等项指标。
那个地址,若是咱们只需注意药丸的重量,固然,每一丸都有一个确信的重量如:6g,,,,…。
咱们就把所有这些丸重数值当做丸重的整体;每一个丸重值确实是一个个体。
如此,丸重X事实上是一个随机变量,它的取值的全部是一个整体,每一个可能取值确实是它的个体。
由于随机变量是用其概率散布F(x)(或密度函数f x)来刻画,因此假设X具有散布函数F(X),那么称这一整体为具有散布函数F(X)的整()体。
为了研究整体,需在整体中抽取假设干个个体,这就得出样本的概念。
概念1在一个整体X中抽取n个个体X1,X2,…,X n,这n个个体称为整体X的一个容量为n的样本。
应用抽样技术第三版课后习题答案
应用抽样技术第三版课后习题答案应用抽样技术第三版课后习题答案抽样技术是统计学中重要的一部分,它用于从总体中选择一部分样本,以便对总体进行推断。
在应用抽样技术的过程中,我们常常会遇到一些难题和疑惑。
为了帮助读者更好地理解和应用抽样技术,本文将为大家提供《应用抽样技术第三版》课后习题的详细解答。
第一章:抽样方法的基本概念1. 抽样方法的基本概念抽样方法是指从总体中选取一部分样本,以代表整个总体。
常用的抽样方法包括简单随机抽样、分层抽样、整群抽样等。
在选择抽样方法时,需要根据具体问题和研究目的来确定最适合的方法。
2. 简单随机抽样简单随机抽样是指从总体中随机选择样本,使每个样本都有相等的机会被选中。
这种抽样方法适用于总体规模较小且分布均匀的情况。
3. 分层抽样分层抽样是将总体划分为若干个层次,然后从每个层次中随机选择样本。
这种抽样方法适用于总体具有明显层次结构的情况,可以提高样本的代表性。
4. 整群抽样整群抽样是将总体划分为若干个群组,然后从每个群组中随机选择样本。
这种抽样方法适用于总体群组之间差异较大的情况,可以减少抽样误差。
第二章:简单随机抽样1. 简单随机抽样的步骤简单随机抽样的步骤包括确定总体、确定样本容量、编制总体名单、进行随机抽样和分析样本数据。
在确定样本容量时,需要考虑总体的大小、抽样误差和置信水平等因素。
2. 简单随机抽样的应用简单随机抽样广泛应用于各个领域的调查和研究中。
例如,在市场调查中,可以使用简单随机抽样来获取消费者的意见和反馈;在医学研究中,可以使用简单随机抽样来选择研究对象。
第三章:分层抽样1. 分层抽样的步骤分层抽样的步骤包括确定总体、划分层次、确定每层样本容量、进行随机抽样和分析样本数据。
在确定每层样本容量时,需要根据每个层次的重要性和变异程度来确定。
2. 分层抽样的应用分层抽样适用于总体具有明显层次结构的情况。
例如,在教育调查中,可以将学校划分为不同的层次,然后从每个层次中随机选择样本;在人口统计调查中,可以将人口按照年龄、性别等因素划分为不同的层次,然后进行抽样。
数理统计第3章 随机抽样与抽样分布
E ( X i ) = E ( X ) = µ , D( X i ) = D( X ) = σ 2 , i = 1,2,L , n
1 n 1 n 所以 E ( X ) = E ( ∑ X i ) = ∑ E ( X i ) = µ , n i =1 n i =1
1 1 . D ( X ) = D( ∑ X i ) = 2 ∑ D( X i ) = n n i =1 n i =1
11
它反映了总体 二、样本数字特征 均值的信息 它反映了总体 1 n 样本均值 X = ∑Xi 方差的信息 n i=1 1 n 1 n 2 2 2 2 样本方差 S = ∑( Xi − X) = n −1 ∑Xi − nX n −1 i=1 i =1
推导: 推导:
( Xi − X)2 = ∑( Xi2 − 2Xi X + X 2 ) ∑
因此, 应视为一组随机变量, 因此,抽样值 ( x1 , x2 ,L, xn ) 应视为一组随机变量,我们把 的一个样本 子样), 样本( ),其中 称为该样本的容量 容量。 它称为总体 X 的一个样本(或子样),其中 n 称为该样本的容量。
7
二、简单随机抽样
由于抽样的目的是为了对总体的分布进行统 计推断, 计推断,为了使抽取的样本能很好地反映总体的 信息,必须考虑抽样方法 信息,必须考虑抽样方法. 最常用的一种抽样方法叫作“ 最常用的一种抽样方法叫作“简单随机抽 它要求抽取的样本满足下面两点: 样”,它要求抽取的样本满足下面两点: 1. 代表性: X1,X2,…,Xn中每一个与所考察的总体 代表性: 有相同的分布. 有相同的分布 2. 独立性: X1,X2,…,Xn是相互独立的随机变量 独立性: 是相互独立的随机变量. 由简单随机抽样得到的样本称为简单随机样本 简单随机样本, 由简单随机抽样得到的样本称为简单随机样本, 今后如不加声明,均指简单随机样本。 今后如不加声明,均指简单随机样本。
抽样技术简单随机抽样
第一节 概述
一、简单随机抽样的概念
1. 简单随机抽样 也叫纯随机抽样,完全随机抽样。
简单随机抽样是直接从总体的N个 单位中完全随机的抽取n个单位,并使总 体中的每个单位都有同等被抽中概率的 抽样组织形式。
简单随机样本的图示
一、简单随机抽样的概念
2 有重复抽样和不重复抽样两种形 式。 3 严格意义上的简单随机抽样是指 逐个不放回的、即不放回抽样。
4.33 10.33 114.33 184.33 9.33 100.33 165.33 94.33 156 160.33 6.33 93 156.33 86.33 146.33 146.33 66.33 121.33 108.33 86.33 100.8
例:
一、简单估计及其无偏性 N Yi 1 总体均值 Y i 1 N
总体总量
Y N Y
2 简单估计: 用样本均值估计总体均值 总体均值的简单估计
1 ˆ Y y yi n i 1
n
总体总量的简单估计
N ˆ ˆ Y N Y N y yi n
3 样本均值是总体均值的无偏估计
E( y) Y
二、估计量的方差
1 总体方差:
1 (Yi Y ) 2 N 1 2 2 S ( Y Y ) i N 1
i 1 2 3 4 5 6 7 8 9 10 11 12
xi 7 4 5 2 0 4 6 6 15 0 8 6
yi 670 450 370 130 0 250 1230 900 1240 0 1450 540
i 13 14 15 16 17 18 19 20 21 22 23 24
xi 3 10 6 2 1 4 3 2 6 1 4 8
简单随机抽样
对于简单随机抽样,总体均值的估计量为:
yi ˆ Y y i 1 n
n
其中,n是样本量,yi是样本中第i个单元的值, 对应某特定样本的值即是估计值。也就是说,将样 本中所有yi的值加起来再除以样本量就得到了总体 平均数的估计值。
26
在简单随机抽样中,y 既是总体均值的一致 估计,也是总体均值 Y 的无偏估计。
29
ˆ 2 的 选 取 , 我 们通 常 使用 样 本 方 对 于估 计 量 S 2 n 差s 。 ( yi y ) 2 可以证明: 2 i
s
N i
n 1
是总体方差 S 2
2 ( y Y ) i
N 1
的无偏估计量。
30
三、其他估计量 当总体为正态分布时,用 Me(中位数)来估 计Y 。 可以证明:
第三章 简单随机抽样(SRS)
第一节 概述
第二节
第三节
估计量及其误差
样本量的确定
1
第一节
一、定义
概述
二、抽取方法
三、方法评估 四、两个试验
2
一、定义
所有概率抽样的出发点和理论基础都是简单 随机抽样。简单随机抽样是一种一步抽样法,它 保证样本量为n的每个可能的样本都有相同的被抽 中的概率p=n/N。
24
如果一个估计量对于所有可能样本计算的估 计值的平均数等于参数的真值,称这个估计量是 无偏的。 另一个所需要的估计量的性质是它的抽样分 布应与其平均数尽可能地靠拢。对这种性质的一 个度量指标是抽样方差。 我们通常希望估计量具有一些好的性质:其 中的一个性质就是估计量应是无偏的或近似无偏 的,另一个是抽样方差较小的估计量被认为是精 确的:抽样方差越小,估计的精度越高。
8社会研究方法之概率抽样方法
二、系统抽样
步骤
方法
特点
首先将总体中各 单位按一定顺序 排列,根据样本 容量要求确定抽 选间隔,然后随 机确定起点,每 隔一定的间隔抽 取一个单位的一 种抽样方式。是 纯随机抽样的变 种
先将总体从1~N 相继编号,并计算 抽样距离K=N/n。 式中N为总体单位 总数,n为样本容 量。然后在1~K中 抽一随机数k1,作 为样本的第一个单 位,接着取 k1+K,k1+2K…… ,直至抽够n个单 位为止
的情况。
9
想一想:
假设某地区有高中生2400人,初 中生10900人,小学生11000人。 此地区教育部门为了了解本地区中 小学生的近视情况及其形成原因, 要从本地区的中小学生中抽取1% 的学生进行调查。你认为应当怎样 抽取样本?能在14300人中任意取 143个吗?能将143个份额均分到 这三部分中吗?
当总体是由差异 明显的几部分 组成时,往往 选择分层抽样 的方法
7
三、分层抽样/类型抽样
想一想:如何把图示补充完整
分类
随机 抽样
总体
分层
样本
8
分层抽样的特点:
当一个总体内部分1 层明显时,能克服简单随机抽样和
等距抽样的缺点。
在不增加样本规模2的前提下降低抽样误差,提高抽样
精度。
有些研究不仅要了3解总体的情况,还要了解某些类别
(二)特点
按抽样元素的隶属关 系或层次关系,把抽 样分为几个阶段进行。
e.g.大学—院系—班级—学生
优点:不需要总体全 部名单,抽样较容易; 节约人力物力 缺点:每级抽样都会 有误差,故误差较大
15
例:假设某市共有2.4万名教师,分布在10个区200所 学校中,现抽取一个由1200名教师组成的样本,按照 三阶段抽样的方法,抽样方案有:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
y
i
1931(元), y 53.64, (1 f ) / n 0.027712,
s 2 1358.41, v( y ) (1 f ) s 2 / n 37.6444, se( y ) 6.1355
对该校大学生某月电信消费人均支出额的估计为 53.64元,在置信度95%下,临界值1.96,可以说以 95%的把握说明该校大学生该月的人均支出在 [53.64+(-)1.96*6.1355],即41.61~65.67元。
一、确定样本量主要考虑因素
• 因素二:实际调查运作的机制。调查经费 能支持多大样本?允许调查持续的时间多 久?需要多少调查人员?多种约束条件。 • 能够量化的因素只有抽样精度和调查费用。 • 方案:总费用一定的条件下精度最高;或 者在满足一定精度要求的条件下使费用最 小。
• 费用公式:
C C0 cn
• 放回抽样的特点:同一个单位有可能在同一个样本 中重复出现。
(一)放回简单随机抽样
• 设总体有5个单位(1,2,3,4,5),按 放回简单随机抽样的方式抽取2个单位,若 考虑样本单位的顺序,则所有的可能样本 为25个,若不考虑样本单位的顺序,则所 有可能样本为15个。 • 不考虑顺序的放回简单随机抽样的估计量 方差大于或等于考虑顺序时的估计量的方 差。只讨论和使用考虑顺序的情形。
t
SE ( )
tCV ( ), 相对允许误差
CV ( )
SE ( )
,变异系数
SE ( )估计量的标准差
•达到要求精度,就是控制抽样误差,估计量的标准差 或变异系数都是n的函数,只要给定对精度的要求,就 可以求出最低样本量要求。
二、估计总体均值(总值)的样本 量确定
• 正态近似产生的误差 主要与nP有关,特别 当nP比较小时,产生 的误差甚大,在95%置 信度下,P<0.5时正态 分布需要的最小nP值 与n值如下表。
P 0.5
.05 0
20
24 40 60 70 80
50
80 200 600 1400 无穷
• 试以95%的置信度估计上例大学生月电信消费超过 80元的人数及其比例。
N 15230, n 36, n1 7, t 1.96, n1 1 f p 0.1944, 0.0285, pq 0.1566 n n 1 (1 f ) pq 1 0.0668, 0.0139,95%的P置信区间: n 1 2n (1 f ) pq 1 p (t + )=0.1944 (1.96*0.0668+0.0139) n 1 2n (0.0496, 0.3392) N1 95%的置信区间(0.0496 N , 0.3392 N ) (755,5166)
• 总体总值是总体均值N倍,N是常数,对样本量的 确定不起决定作用,只须估计总体均值的情形。
n0 N n 2 V ( y) S 可以推得n n0 nN 1 N 2 2 S n0 V ( y) V ( y)
• 无限总体或放回抽样情况下,n0为所确定的样本量。 • 不放回情况下,若总体单位N很大, n0/N<0.05, 以n0为近似的样本量。 • 不放回情况下,若总体单位N不大,用n的公式确 定样本量。 • n0>n,在同样精度要求下,放回比不放回需要的样 本量大。
C为总费用,C0为与样本量无关的固定费用, 包括管理人员的工资、调查表的设计、必要的 设备以及组织、宣传等固定费用,c为平均调查 一个样本的变动费用,包括调查表的印制、调查 员的工资和差旅费、礼品费以及调查本身的费用。 C-C0 n= c
tSE ( ) t V ( ) ,绝对允许误差
二、总体比例的简单估计量及性质
(一)简单估计量的定义 • 利用简单随机抽样抽取n个单位组成样本,其中n1 个单位具有某种属性,则样本比例是总体比例的简 n 单估计量。 yi n1 i 1 p y n n
•
N1 Np 是总体中具有某种属性单位的总个数
N1的简单估计量。
(二)估计量性质
1, 总体单元具有某种属性 Yi 0,总体单元不具有某种属性 N1 1 N P Yi Y N N i 1 N N1 Q 1 P N 总体比例是总体均值的一种特殊表现形式,对 总体比例的估计就是对总体均值的估计,对总体 中具有某种属性单位的总个数N1的估计就是对 总体总值估计的一个特例。
(二)不放回简单随机抽样
• 不放回也称不重复抽样,每次从总体中随机抽取 一个样本单位,经调查观测后,不再将该单位放 回总体参加下一次抽样,然后再在剩下的总体单 位中随机抽取下一个样本单位进行调查观测,直 到抽够n个样本单位为止。
• 考虑顺序可能的样本为
N! N n !
每个样本被抽中的概率为 ( N n )! N!
简单随机抽样
本章教学目的与要求
• 简单随机抽样是抽样中最基本、最成熟、 最简单的抽样设计方式,是所有概率抽样 方法发展、比较的基础。具体要求: • 通过学习,熟练掌握简单随机抽样的抽样 方式和样本抽选方法; • 熟知总体均值、总体总值和总体比例的简 单估计; • 掌握样本量的确定; • 了解子总体的估计。
V ( y)
的无偏估计。
(五)放回简单随机抽样的简单估 计
• 样本方差 的无偏估计量。
1 n s ( yi y) n 1 i 1 2
2 是无限总体方差
• 考虑顺序的放回简单随机抽样方差 V ( y ) 的无偏 估计是 s 2
v( y )
N 1 2 • 放回/不放回 S N 1 nN Deff 1 N n 2 N n S nN
•总体总值估计量的性质由总体均值估计量的性质 决定。简单随机抽样的 是 的无偏估计量。
Y
Y
•方差 V (Y ) 无偏估计为
2 N (1 f ) 2 2 v(Y ) N v( y ) s n
第三节 总体比例的简单估计
一、总体比例 • 总体中具有某种属性的单位占总体单位的比例或 具有某种属性单位的总个数,也称成数。 • 设总体有N个单位,具有某种属性的单位N1个, 不具有该属性的单位有N-N1个。
4 5 6 7 8 9 10 11 12
13 170 89 33 75 22 56 79 5
16 17 18 19 20 21 22 23 24
39 41 93 19 59 111 64 35 76
28 29 30 31 32 33 34 35 36
25 28 90 17 57 43 146 19 47
• p是P的无偏估计量。 • p的方差 PQ( N n) V ( p) n( N 1)
N1 Np是N1的无偏估计, 且
2 N PQ( N n) 2 V ( N1 ) V ( NP) N V ( p) n( N 1)
• V(p)的无偏估计量是v(p)
N n 1 f v( p) pq pq (n 1) N n 1 N ( N n) v( N1 ) pq是V( N1 )的无偏估计 n 1
• 当N,n,N-n都比较大时,以正态分布给出P及N1的近 似置信区间(置信度1-a)为
(1 f ) pq (1 f ) pq [p t , pt ] n 1 n 1 N ( N n) pq N ( N n) pq [ Np t , Np t ] n 1 n 1 离散二项分布调整为连续正态分布 (1 f ) pq 1 (1 f ) pq 1 [ p (t ), p (t )] n 1 2n n 1 2n N ( N n) pq N N ( N n) pq N [ Np (t ), Np (t )] n 1 2n n 1 2n
n
• 为调查某校大学生的电信消费水平,在全 校N=15230名学生用简单随机抽样抽取 n=36名学生,调查上月电信支出数据。试 以95%的置信度估计该校大学生该月电信消 费的平均支出额。
样本序号 消费元/月 1 2 3 45 36 7
样本序号 消费 13 14 15 48 53 24
样本序号 消费 25 26 27 83 51 33
(二)不放回简单随机抽样
• n 1/ C 每个样本被抽中的概率为 N
n C 不考虑样本单位顺序,可能的样本为 N
个。
• 虽然样本个数不同,但有同样的概率分布。
(二)不放回简单随机抽样
• 设总体有5个单位(1,2,3,4,5),按 不放回简单随机抽样的方式抽取2个单位, 若考虑样本单位的顺序,则所有可能样本 20个。若不考虑样本单位的顺序,所有可 能样本为10个。二者概率分布相同,不考 虑顺序的工作量小,所以对于不放回抽样, 只讨论不考虑顺序的不放回抽样。
CN 2
C
n N
N ( N 1)
对称性论证法 (三)简单估计量的方差
(四)简单估计量方差的无偏性 n 1 2 简单随机样本的方差 s ( yi y) 是总体方差 2 的无偏估计。 n 1 i 1 S
1 f 2是 v( y ) s n
1 f 2 V ( y) S n
第四节 样本量的确定
• 一、确定样本量主要考虑因素 • 样本量过大,容易产生非抽样误差,样本 量过小,产生抽样误差。 • 因素一:对抽样估计量精度的要求。精度 要求高,即要求抽样误差小,则必须样本 量大。总体单位调查标志的变异程度、总 体的大小、样本设计和所使用的估计量、 回答率等都是影响估计精度的因素。
第一节 抽样方式
• 简单随机抽样(simple random sampling): 也称纯随机抽样。对于大小为N的总体,抽 取样本量为n的样本,若全部可能的样本被 抽中的概率都相等,则称这样的抽样为简 单随机抽样。 • 可以分为放回和不放回抽样。