07第七章抽样调查
第7章-抽样调查PPT课件
是总体平均数:840/12- = 70
22
(二)抽样平均误差的计算
1. 抽样平均误差与抽样的组织方式和抽样方法 有关,这里仅介绍简单随机抽样条件下的重复抽 样和非重复抽样的抽样平均误差的计算。
2.抽样平均误差又分为平均数的抽样平均误差 和成数的抽样平均误差
3.教材311页重复抽样、313页非重复抽样的抽
样平均误差仅是“理论公式”。在实际工作中使
用……
-
23
(三)重复抽样的抽样平均误差
1.平均数的抽样平均误差的计算
2 ,为总体标准
x
n
n
2.成数的抽样平均误差的计算
p
P(1P),P为总体成数
n
-
24
(四)非重复抽样抽样平均误差的计算
1.平均数的抽样平均误差的计算
x
2 1 n ,为总体标准
6.抽样单元
7.抽样比
-
6
(一)全及总体
1.是所要研究对象的全体 2.是客观存在的,由许多性质相同的基本单位
组成的整体,就是统计总体 3.一般用N表示总体中包含的基本单位数,X表
示总体单位的某个数量标志值。 4. 称:N为总体单位总数
X为总体单位标志值 5.总体具有唯一性和确定性
- 这是唯
7
一的
(二)抽样总体
X x,P p
2.没有考虑估计的误差范围和可靠程度
3.这种方法适合于对推断准确程度和可靠程度要 求都不高的统计推断工作
-
35
点估计法
用样本指标
1. 估计总体指
标
X
x, P
p,
X N X N x 2.
用样本指标 替代总体指
标估计总体
第七章 抽样调查
例 题 四 解:
已知: N 60000 n 300 n1 6
则:样本合格率 p n n1 300 6 0.98
n
300
p
p1 p 0.98 0.02 0.Biblioteka 08(%)n300
p
p1
p 1
n
n N
0.98 0.02 1
300
0.806(%)
300 60000
=2
1+4 2
=2.5
2+4 2
=3
3+5 = 4 …….. 2
多数样本指标与总体指标都有误差,误差有大、有小,有正、有负,抽 样平均误差就是将所有的误差综合起来,再求其平均数,所以抽样平 均误差是反映抽样误差一般水平的指标。
抽样平均误差的计算理论公式
抽样平均数 的平均误差
x
xX 2
M
抽样成数 平均误差
第五节 抽样单位数目的确定
第五节 抽样单位数目的确定
样本单位数的计算方法: 教材P302-306
通过抽样极限误差公式计算必要的样本单位数。
抽样平均数 抽样成数
重复抽样:
n
t
2
2 x
2x
不重复抽样:
n
t
2
N
2 x
2x N t 2
2 x
n
t 2 p1
2p
p
n
t2 Np1 p N2p t 2 p1
产品质量 x 数量(件) f
合格品 1
N1
不合格品 0
N0
合计
N
平均数
x xf f
1 N1 0 N0 N1 P (成数)
N1 N0
统计学课件-第七章抽样调查
分层抽样特点
03
04
05
适用于总体内部差异较 大的情况,能够提高样 本的代表性。
可以根据各层的具体情 分层抽样能够降低抽样 况采用不同的抽样方法, 误差,提高估计的精度。 灵活性强。
分层标准选择与确定
选择分层标准的原则
各层之间具有明显的 区分度,避免出现重 复或遗漏。
与调查目的密切相关, 能够反映总体内部差 异的标志。
3
灵活性高,可以在不同阶段采用不同的抽样方法 和技术。
多阶段抽样优缺点分析
• 节约成本,减少调查人员和资源的需求。
多阶段抽样优缺点分析
抽样误差可能增加
01
由于多阶段抽样的复杂性,可能导致抽样误差的增加。
对抽样设计的要求较高
02
需要仔细设计和规划每个阶段的抽样方法和样本量分配,以确
保抽样的有效性和代表性。
抽样调查作用
抽样调查虽然是非全面调查,但它的目的却在于取得反映总体情况的信息资料, 因而,也可起到全面调查的作用。
抽样方法与类型
抽样方法
简单随机抽样、系统抽样、分层抽样和整群抽样。
抽样类型
概率抽样和非概率抽样。
抽样误差与置信水平
抽样误差
是指由于随机抽样的偶然因素使样本各单位的结构不足以代 表总体各单位的结构,而引起抽样指标和全局指标的绝对离 差。
成本考虑
当总体差异较大时,简单随机抽样的 精度可能受到影响。
对于大规模调查,简单随机抽样可能 需要较高的成本。
实施难度
在某些情况下,获取完整的抽样框可 能较为困难。
03 分层抽样技术及应用
分层抽样原理及特点
01
02
分层抽样原理:将总体 按照某种特征或标志分 成若干层,然后从每一 层中随机抽取一定数量 的样本,最后将这些样 本合并起来构成总体的 样本。
第七章 抽样调查
数据计算出样本均值(平均耐用时间)
x=1055小时,样本成数(合格率) p=91% 依据样本统计量可以对总体参数进行估 计(估计方法将在第三节介绍)。
六、抽样推断的基本原理
样本指标 1、理论基础: 大数定律 中心极限定理 2、抽样估计的基本要求:
无偏性、有效性、一致性
总体指标
第二节 抽样组织方式
对无限总体不能采用全面调查。
另外,有些产品的质量检查具有破坏性,不可能进行全面调
查,只能采用抽样调查。 从理论上讲,有些现象虽然可以进行全面调查,但实际上没 有必要或很难办到,也要采用抽样调查
抽样调查可以用于工业生产过程的质量控制。
三、抽样推断的内容
(一)参数估计。特点是不知道总体的数量特征,
X
x
2
K
p
P p
K
2
抽样平均数平均误差的计算公式:
采用重复抽样:
x
n
此公式说明,抽样平均误差与总体标准差成正 比,与样本容量成反比。(当总体标准差未知 时,可用样本标准差代替)
例:假定抽样单位数增加 2 倍、0.5倍时, 抽样平均误差怎样变化?
解:抽样单位数增加 2 倍,即为原来的 3 倍
1 则: x 0.577 3n 3
即:当样本单位数增加2倍时,抽样平均误差为原来的0.577倍。 抽样单位数增加 0.5倍,即为原来的 1.5倍
则:
1 x 0.8165 1.5n 1.5
即:当样本单位数增加0.5倍时,抽样平均误差为原来的0.8165 倍。
例:某施工班组5个工人的日工资分别为:34、38、
例:
某厂生产一种新型灯泡共2000只,随机抽出400只作耐 用时间试验,测试结果平均使用寿命为4800小时,样 本标准差为300小时,求抽样推断的平均误差? 已知:
07-第七章 不等概率抽样
(7.4)
(7.5)
5
3. 若 n > 1 ,则
ˆ )= v(Y HH
n æ yi ˆ 1 ç - YHH å n(n - 1) i =1 ç è zi
ö ÷ ÷ ø
2
(7.6)
ˆ ) 的无偏估计。 是 V (Y HH ˆ 的 在证明上述性质以前,我们先就 PPS 抽样这种特殊情形,说明 Y HH
*
[1,24] 中的一个随机数为 9,由于 M 4 = 6 < 9 ,因此需要重抽。设第二次抽
到的一组随机数为 (7,15) ,则仍然不满足要求,还需要抽。若再次抽到的随 机数组为 (2,8) ,则由于 M 2 = 10 > 8 ,故第 2 个单元被抽中。如此重复直 到抽到 n 个单元(允许重复)为止。 拉希里法适用于 N 很大的情况,因为它不需要列出如表 7.1 这样的表。 7.2.3 汉森——赫维茨估计量及其性质 对于 多 项 抽样,由于抽样是不等概率的,每个样本单元的 观测 值 ,因此对于总体参数的估计与等概率抽样 y1 , y 2 , , y n 就不再是“平等的” 不同。前已提到,这个估计也与样本单元 Z i 的取值 z1 , z 2 , , z n 有关。汉森 ——赫维茨(Hansen-Hurwitz)提到的对总体总和 Y 的估计如下:
Mi
8 10 17 6 24 9 5 7 4 10
累计 M i 8 18 35 41 65 74 79 86 90 100
代码 1~8 9~18 19~35 36~41 42~65 66~75 76~79 80~86 87~90 91~100
M 0 = 100
在 [1,100] 范围内产生 5 个随机数,设分别为 04,73,25,49 及 82,则 第 1,第 6,第 3,第 5 及第 8 个单元即为抽中的单元。如果我们欲再增加 一个样本单元,产生的随机数为 58,则又对应第 5 个单元,这个单元即为 抽中两次。由于单元愈大,被赋予的代码数就愈多,因此每个单元入样的概
经济统计学第7章抽样调查
参数的假设检验是根据样本,对总体参数某种假设的正确性作出判断。 可以分别提出两种假设: 前一种不能轻易拒绝的假设为原假 设,后一种为备选假设。假设检验就是根据样本,检验 是否成立, 不成立就接受备选假设 。
一、基本思想: 小概率原则:认为在一次实验中 小概率事件几乎是不可能发生的,小概率事件的概率为显著性水平 。
一个总体的检验
Z 检验 (单尾和双尾)
t 检验 (单尾和双尾)
Z 检验 (单尾和双尾)
2检验 (单尾和双尾)
均值
一个总体
比例
方差
总体方差已知时的均值检验 (双尾 Z 检验)
均值的双尾 Z 检验 (2 已知)
假定条件 总体服从正态分布 若不服从正态分布, 可用正态分布来近似(n30) 原假设为:H0: =0;备择假设为:H1: 0
单侧检验 (原假设与备择假设的确定) 例如,某灯泡制造商声称,该企业所生产的灯泡的平均使用寿命在1000小时以上
除非样本能提供证据表明使用寿命在1000小时以下,否则就应认为厂商的声称是正确的 建立的原假设与备择假设应为
H0: 1000 H1: < 1000
第二节
一个正态总体参数的假设检验
-10
100
20
25
-5
25
30
30
0
0
离差
40
35
5
25
50
40
10
100
10
25
-5
25
20
30
0
0
30
35
5
25
40
40
10
100
50
45
15
第7章 抽样调查及答案
第七章 抽样调查一、本章重点1.抽样调查也叫做抽样推断或参数估计,必须坚持随机抽样的原则。
它是一种非全面调查,其意义在于对总体的推断上,存在可控制性误差。
是一种灵活快捷的调查方式。
2.抽样调查有全及总体与样本总体之区分。
样本容量小于30时一般称为小样本。
对于抽样调查来讲全及总体的指标叫做母体参数,是唯一确定的未知的量,样本指标是根据样本总体各单位标志值计算的综合性指标,是样本的一个函数,是一个随机变量,抽样调查就是要用样本指标去估计相应的总体指标。
样本可能数目与样本容量有关也与抽样的方法有关。
抽样方法可以分为考虑顺序的抽样与不考虑顺序的抽样;重复抽样与不重复抽样。
3.大数定律、正态分布理论、中心极限定理是抽样调查的数理基础。
正态分布的密度函数有两个重要的参数(σ;x )。
它有对称性、非负性等特点。
中心极限定理证明了所有样本指标的平均数等于总体指标如X x E =)(。
推出了样本分布的标准差为:1--=N n N n x σμ。
4.抽样推断在逻辑上使用的是归纳推理的方法、在方法上使用的是概率估计的方法、存在着一定误差。
无偏性、一致性和有效性是抽样估计的优良标准。
抽样调查既有登记性误差,也有代表性误差,抽样误差是一个随机变量,而抽样的平均误差是一个确定的值。
抽样误差受总体标志值的差异程度、样本容量、抽样方法、抽样组织形式的影响。
在重复抽样下抽样的平均误差与总体标志值的差异程度成正比,与样本容量的平方根成反比即n x σμ=,不重复抽样的抽样平均误差仅与重复抽样的平均误差相差一个修正因子即N nn x -=1σμ。
在通常情况下总体的方差是未知的,一般要用样本的方差来代替。
把抽样调查中允许的误差范围称作抽样的极限误差x ∆或p ∆。
μt =∆,用抽样的平均误差来度量抽样的极限误差。
把抽样估计的把握程度称为抽样估计的置信度。
抽样的极限误差越大,抽样估计的置信度也越大。
抽样估计又可区分为点估计和区间估计。
《统计学》第七章(抽样调查)
20
(1)以99.73%的概率保证程度估计这批茶叶平均每包重量的 范围,以便确定平均重量是否达到规格要求。
第七章 抽样调查
第一节 抽样调查概述 第二节 抽样估计 第三节 抽样的组织形式
1
第一节 抽样调查概述 一、抽样调查的含义
(一)抽样推断的含义 抽样调查是按随机原则,从全部研究对象中抽取一
部分单位进行观察,并根据样本的实际数据,对总体的 数量特征做出具有一定可靠程度的估计和判断,从而达 到对全部研究对象的认识的一种统计方法。其中心问题 是如何根据已知的部分资料来推断未知的总体情况。
(3)抽样总体标准差和抽样总体方差。
说明抽样总体之间标志值变异程度的指标,叫做抽样
总体标准差。抽样总体标准差的平方称为抽样总体方
差(简称样本方差)。其计算公式为:
s
2
xx n
2
s2 x x n
20
一个总体可以抽取许多个样本,而样本不同, 抽样指标的数值也各不相同。可见,抽样指标的数 值不是惟一确定的。因为抽样指标是样本变量的函数, 是随机可变的变量。也就是说,由 样本观测值所决定的 统计量是随机变量。
x=2*60=120
8480~8720
(2) up=3.1%
p=6.2%
68.8%~81.2%
50
例4,某外贸公司出口一种茶叶,规定每包规格不低于150克。 现在用不重复抽样的方法抽取其中1%进行检验,其结果如下:
每包重量 (克)
包数
148~149
10
149~150
20
150~151
50
151~152
21
(三)重复抽样和不重复抽样 1.重复抽样(重置抽样) 采用这种方法抽取样本单位的特点是:同一单位 有多次重复被抽中的机会,并且总体单位数目始 终不变,每个单位抽中或抽不中的机会在各次都 是相同的。
统计学原理第七章抽样调查
第七章 抽样调查
1
第ห้องสมุดไป่ตู้节 抽样调查的基本概念 及理论依据
一、估计量和估计值 二、全及总体和抽样总体 三、全及指标和样本指标 四、抽样方式和样本可能数目 五、抽样理论依据
2
一、估计量和估计值
►1. 估计量:是指用于估计相关的总体参数的 统计量。样本均值、样本比例(样本成数) 和样本方差都是估计量,估计量是随机的。
►2. 抽样总体(样本):是从全及总体中随机 抽取出来一部分单位的集合体。有大样本和 小样本之分,以30个样本单位为划分依据。
►样本总体是随机的、已知的,常用“n”表示。
4
三、全及指标和样本指标
►(一) 全及指标 ►根据全体总体各个单位的标志值或标志
特征计算的、反映总体某种属性的综合 指标。全及指标也是惟一确定的,但也 是未知的。
13
(二)中心极限定律 ►1. 独立同分布中心极限定理:证明不论变量
总体服从何种分布,只要它的数学期望和方 差存在,从中抽取容量为n 的样本,则这个 样本的总和或平均数是个随机变量,当n 充 分大时,样本的总和或平均数趋于正态分布. ►2. 德莫佛-拉普拉斯中心极限定理:证明属性 总体的样本成数和样本方差,在n足够大时, 同样趋于正态分布。
xxf2114010057 f 200
样本平均数
灯 泡 P 2 合 0 10 格 7 18 率 9 3 .5 1 % 200 200
统计学课件--第七章抽样调查
不重置抽样,是指每次从总体中抽取一个单位记录
其标志表现后不再放回,从剩余的单位中抽取下一
个单位。
2021/3/2
12
第七章 抽样调查
第二节 总体和样本
(二)样本可能数目
样本可能数目是指抽样组织和抽样方法一定时,从总体N 个单位中随机抽取一个容量为n的样本,该样本不同构成 的可能数目,一般用m来表示。
2021/3/2
10
第七章 抽样调查
第二节 总体和样本
(二)样本指标
由样本总体各个单位的标志值计算的综合指标称 为样本指标,样本指标又称为样本统计量 (Statistic),简称为统计量。
样本指标主要有:样本平均数: x 样本比率 p(或 q)
样本方差: s 2 样本标准差: s
2021/3/2
11
某外国公司在大连进 行微波炉市场调查: 在商场的大门口
在微波炉柜台前
在市区街道旁边
在某个住宅小区
7
时间表抽样框
连续出产的产品总体 可以编制抽样框:均 匀的出产时间、可以 预见到的产品总量。
连续到加油站加油的
汽车总体无法编制抽
样框:时间不定、总
2021/3/2
量也无法确定。 8
第七章 抽样调查
第二节 总体和样本
四、中心极限定理及其意义
中心极限定理论证了如下几点 :
1) 如果总体服从正态分布,样本平均数也同样服从正态分布。
2) 如果总体很大,但不服从正态分布,只要样本足够大, 样本的总和或平均数就会趋近于正态分布。
。
3) 样本平均数分布的数学期望(该抽样的所有可能样本平均
数的均值) 等于总体均值。即 E(x) X 。
<x<
2
第7章抽样调查
二、抽样误差的基本要求
无偏性 一致性 有效性
评价估计量优良性的三个标准:
1、无偏性: 样本统计量的期望值等于被估计 的总体参数。
设 表示总体的待估参数,ˆ 是估计 的样本
统计量,无偏估计指的是ˆ 满足:
E
如:由于 E x X ,所以样本平均数是总体平
x
9.13
n3
2.在不重复抽样下
抽样平均误差
x
2 1 n n N
σ为总体标准差,n为样本单位数,N为总体单位数。
例:从40、50、70、80中抽取3个组成样本,在不重 复抽样下,求抽样平均误差。
求总体标准差,直接用计算器统计功能键可以求出:
X X 2 15.81
N
求抽样平均误差
x
2 N n n N 1
15.812 4 3 5.27 3 41
练习:
1、随机重复抽选某校学生100人,调查他们的体 重得到平均体重为58公斤,标准差为10公斤。问 抽样推断的平均误差是多少?
练习:
1、随机重复抽选某校学生100人,调查他们的体重得到平 均体重为58公斤,标准差为10公斤。问抽样推断的平均误 差是多少?
设它们的平均数为 X,方差为,2 即 Exi ,X u
2 xi 2(i=1,2,…)。则对任意的正数ε,有:
limBiblioteka n p1 n
n i 1
xi
u
1
中心极限定理
正态分布的再生定理:
只要在样本容量n充分大的条件下,不论全 及总体的变量分布是否属于正态分布,其抽样 平均数也趋近正态分布。
07章抽样调查基础知识
1.14%
n
150
若按不重复抽样方式:
p(1p) n 0.98(10.98) 150
p
(1 )
(1 )1.137%4
nN
150
15000
三、抽样误差的允许范围
(一)抽样极限误差 抽样极限误差也叫允许误差,是指样本指标与
总体指标之间抽样误差的可能范围。
x x X p pP 将上式等价转换为下列不等式:
抽样误差
一、抽样误差的概念 (一)代表性误差
代表性误差是指在抽样调查中,用部分样 本推断总体时,由于样本各单位的结构情况不 足以代表总体状况而产生的误差。
代表性误差有两种:系统误差和随机误差。
1、系统误差是指破坏了抽样的随机原则而产生 的误差。例如有意识的选取好的单位或较差单 位进行调查造成的误差。
4、抽样组织方式(分层抽样误差较小,整群抽 样误差较大)。
二、抽样平均误差的计算 (一)样本平均数的抽样的平均误差
的计算 重复抽样条件下:
不重复抽样条件下:
(二)样本成数的抽样平均误差的计算 重复抽样条件下: 不重复抽样条件下:
(三)总体方差未知时的解决办法 1.用样本方差、成数代替 2.用过去的资料代替 3.用估计值代替 4.用小规模试验性调查资料代替 见书例2.
例:
某灯泡厂从一天所生产的产品10,000个 中抽取100个检查其寿命,得平均寿命为 2000小时,根据以往资料:σ =20小时, 分别按重复抽样和不重复抽样求抽样平 均误差
重复抽样平均误差为:
202 202(小时 )
x 100 100
不重复抽样平均误差为: x
400(1 100 ) 1.99(小时) 100 10000
第七章 抽样调查
第七章抽样调查一、抽样原理1、定义抽样调查是按照随机原则从被研究对象的总体中(全部研究对象)抽取一部分单位进行调查观察,并运用数理统计的原理,以调查所得的指标(实际观察数值)来推断被研究总体的相应指标达到对总体的认识。
简言之,抽样调查就是从总体中抽取一定数量的样本来推断总体的情况。
2、抽样调查的特点⑴随机原则。
所谓随机原则,就是说在我们所研究的总体中,每一个个案都有被选中、抽取的机会。
也即我们在总体中抽样时,哪一个个案能被抽取,哪一个个案不能被抽取,不是人为主观决定的,而完全是偶然碰机会的。
⑵从数量上推算全体。
抽样调查是抽取部分个案进行调查,但它的主要目的不是为了了解这部分单位本身,而是为了据此从数量上推算全体。
⑶抽样调查使我们有可能用更少的人力、物力、时间、费用达到对总体的认识,而且可以起到丢普查资料进行修正补充,提高大范围调查的准确程度的作用,因而在理论上和方法上都具有重要的意义。
3、几个概念⑴总体也称为母体、一般总体等。
是指具有某种统计特征的一类事物的全部个案。
也即,研究对象的全体称为总体。
例如,某批产品、某类病人、某个生产过程等。
总体的单位数通常用符号N来表示。
⑵个体也称为个案、元素。
组成总体的每个元素称为个体。
有时也称具有某种统计特征的每一个对象为个案构成一个总体的个案,可以是人或物,也可以指个性、心理反应等。
⑶样本也称为抽样总体、样本总体等从总体中抽取一部分代表进行研究分析时,这一部分被抽取的个案称为总体中的一个样本。
也就是说,从总体中抽取的若干个案所组成的群体,称之为样本。
总体是大群体,样本是小群体。
在社会研究中,资料的收集工作往往是在样本中完成的。
样本的单位数(即样本容量)常用符号n来表示。
⑷抽样从组成某个总体的所有元素的集合中,按一定的方式选择或抽取一部分元素(即抽取总体的一个子集)的过程,或者说,抽样是从总体中按一定方式选择或抽样样本的过程。
(5)抽样单位就是一次直接的抽样所使用的基本单位。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
加倍问题
对给定的总体成员,清单上会有两个以上的选项相对应
聚类问题
对给定的清单选项,存在两个或两个以上的总体成员相对 应
20/47
解决遗漏问题
什么时候该担心遗漏问题
包含>90%的总体,并不遗漏重要的子集 可以直接使用
包含50%~90%的总体,并遗漏了子集
可以使用,但必须补充遗漏
26/47
1.总体参数估计概述
设待估计的总体参数是θ,用以估计该参数的
统计量是 ,抽样估计的极限误差是Δ,即:
极限误差是根据研究对象的变异程度和分析任务的性质来 确定的在一定概率下的允许误差范围。 参数估计的两个要求:
精度:估计误差的最大范围,通过极限误差来反映。显然,Δ越小, 估计的精度要求越高,Δ越大,估计的精度要求越低。极限误差的 确定要以实际需要为基本标准。
给没有清单的问题加上一个框架
18/47
获得清单
尽量使用现有的清单,实在不行才亲自获得.
(1)一般总体的地区级清单 从邮政局的地址目录、地区电话目录、街道办事
处 (2)组织成员清单 组织的内部 (3)行业地区级清单 黄页、商业厅
19/47
清单的问题
遗漏问题
清单中存在没有列出的总体成员
无被选项问题
不可能采用全面调查时可采用抽样调查。 不必要进行全面调查时可采用抽样调查。 由于时间经费限制或误差要求不高时可采用抽样调查。 满足紧急需要,来不及进行全面调查,可用抽样调查。 在全面调查后,对某些数据进行修正时采用抽样调查。
3/47
(二)抽样调查的原理
1. 必然现象与偶然现象 2. 大数定理 3. 中心极限定理
29/47
3.参数区间估计
参数区间估计的含义:估计总体参数的区间范围,
并给出区间估计成立的概率值。
p(1 2 ) 1
其中: 1-α(0<α<1)称为置信度;α是区间估计的显著性水平, 其取值大小由实际问题确定,经常取1%、5%和10%。
注意对上式的理解:
例如抽取了1000个样本,根据每一个样本均构造了一个置信区间,, 这样,由1000个样本构造的总体参数的1000个置信区间中,有95% 的区间包含了总体参数的真值,而5%的置信区间则没有包含。这里, 95%这个值被称为置信水平(或置信度)。
16/47
定义总体cont.
设定总体边界
应该用操作数语表示清楚
ex.
雅安地区的成年人 VS 年满18周岁,长期居住雅安地区的人
啤酒饮用者
VS 过去三个月至少喝一次啤酒的人
17/47
2.设定总体框架
总体框架就是一份清单或一个系统,在 它上面列出了总体中的每一个成员。
获得清单
清单的问题
• 解决遗漏的问题 • 处理无被选资格问题 • 处理加倍问题 • 处理聚类问题
可靠性:估计正确性的一个概率保证,通常称为估计的置信度。
27/47
2.总体参数的点估计
点估计的含义:直接以样本统计量作为相应 总体参数的估计量。
X
p
P
2 s2
2
X X n 1
总体平均数 总体成数 总体方差的估计量
28/47
Is point estimate accurate?
优良估计具有无偏、一致、有效性。 点估计完全正确的概率通常为0。因 此,我们更多的是考虑用样本统计量 去估计总体参数的范围,即区间估计。
误
样本误差
差
样本不能真实反应总体时带来的偏差。 样本误差可以通过调整样本大小来控 制。即样本越大就越能真实的反应总 体的特征。
样本偏差
样本中的成员不能代表总体成员特征 时产生的偏差。样本偏差的控制:选择 能最好代表总体的样本,并从所选择 样本中尽可能获取数据。
第七章 抽样调查P119
学习目标
1. 掌握抽样的程序 2. 了解抽样误差的影响因素 3. 熟练掌握常用的抽样组织形式
学习内容
一.抽样调查的意义、作用、原理 二.抽样的基本概念 三.抽样的程序 四.抽样样本确定 五.抽样设计
2/47
一、抽样调查的意义、作用、原理
(一)抽样法的意义及作用 意义:通过对部分单位的调查,达到对总体数量特征的认识。 作用:
则必须增加样本容量n。样本容量n究竟取多大合适?
How large is large?
=z
2
g
n
n
z 2 2 2 x2
34/47
ex.确定样本容量
对某批木材进行检验,根据以往经验,木材长度的标 准差为0.4米,而合格率为90%。现采用重复抽样方式, 要求在95.45%的概率保证程度下,木材平均长度的极 限误差不超过0.08米,抽样合格率的极限误差不超过 5%,问必要的样本单位数应该是多少?
4/47
1.必然现象与偶然现象
① 必然性是指事物联系和发展中一定要发生的、不可避免的趋 势。偶然性是指事物联系和发展中不确定的趋向。必然性和 偶然性是对立统一的关系。
② 二者是对立的,它们是事物发展的两种不同趋向,产生的原 因以及在事物发展中的地位和作用不同。
③ 二者是统一的,其表现是: 第一,必然性总是通过大量的偶然性表现出来,由此为自己 开辟道路,没有脱离偶然性和纯粹必然性;第二,偶然性是 必然性的表现形式和必要补充,偶然性背后隐藏着必然性并 受其制约,没有脱离必然性的纯粹偶然性;第三,必然性和 偶然性可以在一定条件下互相转换。
④ 必然性和偶然性辩证关系的原理,对指导科学研究和社会实 践有重大意义。 5/47
2.大数定理
lim
n
p
1 n
n i 1
Xi
1
当样本容量n 充分大时,可以用 样本平均估计总体平均。
lim
n
p
m n
p
1
当试验次数n充分大时,可以用 频率代替概率。
大数定理的意义:个别现象受偶然因素影响,但是,对 总体的大量观察后进行平均,就能使偶然因素的影响相 互抵消,从而使总体平均数稳定下来,反映出事物变化 的一般规律,这就是大数定理的意义。
1. 抽样估计效果的衡量与抽样组织形式 2. 简单随机抽样 3. 类型抽样 4. 整群抽样 5. 等距抽样 6. 阶段抽样 7. 不同抽样设计的比较
36/47
1.抽样估计效果的衡量与抽样组织形式
Sampling is destined to cause errors.
非样本误差
由和被访者无关的所有错误来源组成, 包括:度量工具自身的不足或不稳定, 编码和输入数据时产生误差
1、估计总体 2、从1到N之间选择样本,N为总体大小
例:在去商场购物的样本中,估计有10000个顾客在 采访期间进商商场购物,要从中选500人
方法1、 随机访问500人 方法2、 每隔20人(10000/500=20)访问一次
25/47
四、抽样样本确定
1. 总体参数估计概述 2. 总体参数的点估计 3. 参数区间估计 4. 样本容量的确定
3. 每个单位在多次(轮)试验中中选的机会是不等的。
14/47
三、抽样的程序
1. 定义总体 2. 设定总体框架 3. 抽样的设计 4. 抽样
15/47
1.定义总体
定义总体单元
总体是由哪些单元个体构成的(个人、家庭、 公司、工厂……) 。
设定总体边界
总体边界,是将与调研项目相关的人员和无 关人员区分开的条件。
9/47
2.样本容量与样本个数 重复抽样 :Nn
不重复抽样:CNn 样本容量
一个样本中所包含的单位数,用n表示。 样本容量大,样本误差会小,但调查费用必增加,反之,样
本容量过小,又将导致抽样误差增大,甚至失去抽样推断的 价值。因此,在抽样设计中应根据调查目的认真考虑合适的 样本容量。
样本个数
又称样本可能数目,指从一个总体中所可能抽取的样本的个 数。对于有限总体,样本个数可以计算出来。样本个数的多 少与抽样方法有关。
一般地,将构造置信区间的步骤重复很多次,置信区间包含总体参数真 值的次数所占的比例称为置信水平。
30/47
区间估计的基本要素
对总体均 值的估计
包括:样本点估计值、抽样极限误差、估计的可靠程度
p(ˆ Δ) 1 ,即p( X ) 1
进一步可以写成
p( X ) 1
X
X
1 称为置信度(或概率保证程度) 称为概率度 X
2
用Excel函数求z 的值 abs(normsinv(1 / 2)) 2
X 是样本平均数的标准差,由中心极限定理可得
n
所以=z
2
g
n
32/47
Some questions
1. 重复抽样和不重复抽样的Δ一样吗? 2. 总体方差未知时怎么办?
1. 不重复抽样时只需加一个修正系数
=z 2
n
N n N 1
重复抽样
重复抽样(或重置抽样)是指从总体中抽出一个样 本单位,记录其标志值后,又将其放回总体中继 续参加下一轮单位的抽取。
重复抽样的特点
1. n个单位的样本是由n次试验的结果构成的。
2. 每次试验是独立的,即其试验的结果与前次、后 次的结果无关。
3. 每次试验是在相同条件下进行的,每个单位在多
次试验中选中的机会(概率)是相同的。
包含50%的总体或更少
不使用这份清单
21/47
处理无被选资格问题
当遇到无被选资格的元素时就删除它,并相应 的调整规模的大小.
(1)确定调整后的规模 (2)从调整后的规模中抽取有被选资格的元素
ex.如查需要某一城市300(n)个成年人的样本, 具了解成年人占所有登记人数的60%(e)
调整后的样本规模=n/e=300/0.6=500 从500人中抽取300个成年人,把其它的删除