第三章-简单随机抽样

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

C为总费用,C0为与样本量无关的固定费用, 包括管理人员的工资、调查表的设计、必要的 设备以及组织、宣传等固定费用,c为平均调查 一个样本的变动费用,包括调查表的印制、调查 员的工资和差旅费、礼品费以及调查本身的费用。 C-C0 n= c
tSE ( ) t V ( ) ,绝对允许误差
n
• 为调查某校大学生的电信消费水平,在全 校N=15230名学生用简单随机抽样抽取 n=36名学生,调查上月电信支出数据。试 以95%的置信度估计该校大学生该月电信消 费的平均支出额。
样本序号 消费元/月 1 2 3 45 36 7
样本序号 消费 13 14 15 48 53 24
样本序号 消费 25 26 27 83 51 33
4 5 6 7 8 9 10 11 12
13 170 89 33 75 22 56 79 5
16 17 18 19 20 21 22 23 24
39 41 93 19 59 111 64 35 76
28 29 30 31 32 33 34 35 36
25 28 90 17 57 43 146 19 47
• 正态近似产生的误差 主要与nP有关,特别 当nP比较小时,产生 的误差甚大,在95%置 信度下,P<0.5时正态 分布需要的最小nP值 与n值如下表。
P 0.5
nP 15
n 30
0.4
0.3 0.2 0.1 0.05 0
20
24 40 60 70 80
50
80 200 600 1400 无穷
• 试以95%的置信度估计上例大学生月电信消费超过 80元的人数及其比例。

•总体总值估计量的性质由总体均值估计量的性质 决定。简单随机抽样的 是 的无偏估计量。
Y
Y
•方差 V (Y ) 无偏估计为

2 N (1 f ) 2 2 v(Y ) N v( y ) s n
第三节 总体比例的简单估计
一、总体比例 • 总体中具有某种属性的单位占总体单位的比例或 具有某种属性单位的总个数,也称成数。 • 设总体有N个单位,具有某种属性的单位N1个, 不具有该属性的单位有N-N1个。
N 15230, n 36, n1 7, t 1.96, n1 1 f p 0.1944, 0.0285, pq 0.1566 n n 1 (1 f ) pq 1 0.0668, 0.0139,95%的P置信区间: n 1 2n (1 f ) pq 1 p (t + )=0.1944 (1.96*0.0668+0.0139) n 1 2n (0.0496, 0.3392) N1 95%的置信区间(0.0496 N , 0.3392 N ) (755,5166)
V ( y)

的无偏估计。
(五)放回简单随机抽样的简单估 计
• 样本方差 的无偏估计量。
1 n s ( yi y) n 1 i 1 2
2 是无限总体方差
• 考虑顺序的放回简单随机抽样方差 V ( y ) 的无偏 估计是 s 2
v( y )

N 1 2 • 放回/不放回 S N 1 nN Deff 1 N n 2 N n S nN
若放回抽,y 53.64.v(y) s 2 n 37.7336, se(y) 6.148, 以95%的把握估计人均消费53.64 1.96*6.1428, 既41.60~65.68
-
-
-
二、总体总值的简单估计
_ •总体总值 Y=N Y Yi
•总体总值的简单估计量
N n Y N y yi n i 1
第一节 抽样方式
• 简单随机抽样(simple random sampling): 也称纯随机抽样。对于大小为N的总体,抽 取样本量为n的样本,若全部可能的样本被 抽中的概率都相等,则称这样的抽样为简 单随机抽样。 • 可以分为放回和不放回抽样。
(一)放回简单随机抽样
• 放回抽样也称重复抽样。做法是每次从总体中随机 抽取一个样本单位,经调查观测后,将该单位重新 放回总体,然后再在总体中随机抽取下一个单位进 行调查观测,依次重复这样的步骤,直到从总体中 随机抽够n个样本单位为止。 n • 可能的样本为 N n ( 考虑顺序) 或 CN n1
• 总体总值是总体均值N倍,N是常数,对样本量的 确定不起决定作用,只须估计总体均值的情形。
n0 N n 2 V ( y) S 可以推得n n0 nN 1 N 2 2 S n0 V ( y) V ( y)

• 无限总体或放回抽样情况下,n0为所确定的样本量。 • 不放回情况下,若总体单位N很大, n0/N<0.05, 以n0为近似的样本量。 • 不放回情况下,若总体单位N不大,用n的公式确 定样本量。 • n0>n,在同样精度要求下,放回比不放回需要的样 本量大。
二、简单随机样本的抽选方法
• 抽签法:材质相同N个签,一次抽n,或者 一次抽1个直到抽够n. • 随机数表法 • 随机数色子 • 摇奖机 • 计算机产生
三、简单随机抽样的地位与局限
• 抽样技术的重要理论基础。 • 当N很大时,编制抽样框困难;有辅助信 息不加利用,统计效率低下;样本分布广 泛时,抽样费时费力;可能得到差的样本。


t
SE ( )



tCV ( ), 相对允许误差


CV ( )

SE ( )

,变异系数
SE ( )估计量的标准差
•达到要求精度,就是控制抽样误差,估计量的标准差 或变异系数都是n的函数,只要给定对精度的要求,就 可以求出最低样本量要求。
二、估计总体均值(总值)的样本 量确定
1, 总体单元具有某种属性 Yi 0,总体单元不具有某种属性 N1 1 N P Yi Y N N i 1 N N1 Q 1 P N 总体比例是总体均值的一种特殊表现形式,对 总体比例的估计就是对总体均值的估计,对总体 中具有某种属性单位的总个数N1的估计就是对 总体总值估计的一个特例。
简单随机抽样
本章教学目的与要求
• 简单随机抽样是抽样中最基本、最成熟、 最简单的抽样设计方式,是所有概率抽样 方法发展、比较的基础。具体要求: • 通过学习,熟练掌握简单随机抽样的抽样 方式和样本抽选方法; • 熟知总体均值、总体总值和总体比例的简 单估计; • 掌握样本量的确定; • 了解子总体的估计。
(三)不放回和放回简单随机抽样 的比较
• 每次抽样面对的总体结构不同。放回抽样总体结 构不变,每次抽取相互独立,不放回抽样总体结 构改变,每次抽取不相互独立,前者的数学处理 简单。 • 样本提供的信息量不同。不放回抽样信息量更大, 抽样效率高。 • 样本单位数量限制不同。 • 一般采用不考虑顺序的不放回简单随机抽样。
y
i
1931(元), y 53.64, (1 f ) / n 0.027712,


s 2 1358.41, v( y ) (1 f ) s 2 / n 37.6444, se( y ) 6.1355
对该校大学生某月电信消费人均支出额的估计为 53.64元,在置信度95%下,临界值1.96,可以说以 95%的把握说明该校大学生该月的人均支出在 [53.64+(-)1.96*6.1355],即41.61~65.67元。
第二节 总体均值与总体总值的估计
一、总体均值的简单估计 (一)简单估计量 y 样本均值是总体均值的简单估计量。 (二)无偏性 E ( y) Y
总体中每个特定的单位出现在全部可能样本中的次数 n 1 都相等是C n1 每一单位入样概率 CN n 1 N 1 n CN N 总体中任意两个单位出现在全部可能样本中的次数都 n2 n 2 每一单位入样概率 相等是 CN n(n 1) 2
• p是P的无偏估计量。 • p的方差 PQ( N n) V ( p) n( N 1)
N1 Np是N1的无偏估计, 且
2 N PQ( N n) 2 V ( N1 ) V ( NP) N V ( p) n( N 1)
• V(p)的无偏估计量是v(p)
N n 1 f v( p) pq pq (n 1) N n 1 N ( N n) v( N1 ) pq是V( N1 )的无偏估计 n 1
CN 2
C
n N
wk.baidu.com
N ( N 1)
对称性论证法 (三)简单估计量的方差

(四)简单估计量方差的无偏性 n 1 2 简单随机样本的方差 s ( yi y) 是总体方差 2 的无偏估计。 n 1 i 1 S
1 f 2是 v( y ) s n

1 f 2 V ( y) S n
二、总体比例的简单估计量及性质
(一)简单估计量的定义 • 利用简单随机抽样抽取n个单位组成样本,其中n1 个单位具有某种属性,则样本比例是总体比例的简 n 单估计量。 yi n1 i 1 p y n n

N1 Np 是总体中具有某种属性单位的总个数

N1的简单估计量。
(二)估计量性质
(二)不放回简单随机抽样
• n 1/ C 每个样本被抽中的概率为 N
n C 不考虑样本单位顺序,可能的样本为 N
个。
• 虽然样本个数不同,但有同样的概率分布。
(二)不放回简单随机抽样
• 设总体有5个单位(1,2,3,4,5),按 不放回简单随机抽样的方式抽取2个单位, 若考虑样本单位的顺序,则所有可能样本 20个。若不考虑样本单位的顺序,所有可 能样本为10个。二者概率分布相同,不考 虑顺序的工作量小,所以对于不放回抽样, 只讨论不考虑顺序的不放回抽样。
• 当N,n,N-n都比较大时,以正态分布给出P及N1的近 似置信区间(置信度1-a)为
(1 f ) pq (1 f ) pq [p t , pt ] n 1 n 1 N ( N n) pq N ( N n) pq [ Np t , Np t ] n 1 n 1 离散二项分布调整为连续正态分布 (1 f ) pq 1 (1 f ) pq 1 [ p (t ), p (t )] n 1 2n n 1 2n N ( N n) pq N N ( N n) pq N [ Np (t ), Np (t )] n 1 2n n 1 2n
• 放回抽样的特点:同一个单位有可能在同一个样本 中重复出现。
(一)放回简单随机抽样
• 设总体有5个单位(1,2,3,4,5),按 放回简单随机抽样的方式抽取2个单位,若 考虑样本单位的顺序,则所有的可能样本 为25个,若不考虑样本单位的顺序,则所 有可能样本为15个。 • 不考虑顺序的放回简单随机抽样的估计量 方差大于或等于考虑顺序时的估计量的方 差。只讨论和使用考虑顺序的情形。
(二)不放回简单随机抽样
• 不放回也称不重复抽样,每次从总体中随机抽取 一个样本单位,经调查观测后,不再将该单位放 回总体参加下一次抽样,然后再在剩下的总体单 位中随机抽取下一个样本单位进行调查观测,直 到抽够n个样本单位为止。
• 考虑顺序可能的样本为
N! N n !
每个样本被抽中的概率为 ( N n )! N!
一、确定样本量主要考虑因素
• 因素二:实际调查运作的机制。调查经费 能支持多大样本?允许调查持续的时间多 久?需要多少调查人员?多种约束条件。 • 能够量化的因素只有抽样精度和调查费用。 • 方案:总费用一定的条件下精度最高;或 者在满足一定精度要求的条件下使费用最 小。
• 费用公式:
C C0 cn
第四节 样本量的确定
• 一、确定样本量主要考虑因素 • 样本量过大,容易产生非抽样误差,样本 量过小,产生抽样误差。 • 因素一:对抽样估计量精度的要求。精度 要求高,即要求抽样误差小,则必须样本 量大。总体单位调查标志的变异程度、总 体的大小、样本设计和所使用的估计量、 回答率等都是影响估计精度的因素。
相关文档
最新文档