抽样的基本概念
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一个特殊平均数,设总体单位总数目是 N,总体中有该特征的单位数是 N1 。设 X 是 0、1 变量,即:总体单位有该特征,则 X 取 1,否则取 0,则有:
p N1 X N
(4.8)
现从总体中抽出 n 个单位,如果其中有相应特征的单位数是 n1 ,则样本成数是:
P n1 n
P 也是一个随机变量,利用样本平均数分布性质的结论,有:
第4章 抽样估计
第一节 抽样的基本概念 第二节 抽样分布与中心极限定理 第三节 总体参数估计 第四节 抽样方案的设计与实施*
统计推断的过程
总体
样
样本统计量,
本
如样本均值、
样本比例、样
本标准差等
检验一批灯泡的使用寿命 节目的收视率 水库中的鱼苗数
• 抽样估计包括抽样调查和抽样推断两个部分 。
• 抽样调查是一种非全面的调查方法,是从总 体中按照随机原则抽取样本单位进行调查
16个样本的均值
第一个
第二个观察值
观察值 1
2
3
4
1 1.0 1.5 2.0 2.5
2 1.5 2.0 2.5 3.0
3 2.0 2.5 3.0 3.5
4 2.5 3.0 3.5 4.0
.3 P ( x ) .2 .1 0
1.0 1.5 2.0 2.5 3.0 3.5 4.0 x
样本均值的抽样分布
样本均值的分布与总体分布的比较 (图示)
和方差,则对于充分大的抽样单位数n,可以 几乎趋近于1的概率,来期望抽样平均数与总 体平均数的绝对离差为任意小。 大数定律对于抽样推断的意义:
从理论上解释了样本与总体之间的内在 联系,即随着抽样单位数n的增加,抽样平均 数有接近于总体平均数的趋势。
三、中心极限定理及其重要意义
• 大数定律论证了抽样平均数趋近于总体平 均数的趋势,这为抽样推断提供了重要依 据。但是:
有均等的被抽中机会
什么是抽样推断?
例1: 一汽车轮胎制造商生产一种被认为寿命更长的新型轮胎。
120个 样本
测试
平均里程: 36,500公里
推断
新轮胎 平均寿命
例2:某党派想支持某一候选人参选美国某州议员,为了决定 是否支持该候选人,该党派领导需要估计支持该候选人的民众 占全部登记投票人总数的比例。由于时间及财力的限制:
设总体中 N 个总体单位某项标志的标志值分别
为 X1, X 2 , X N ,其中具有某种属性的有 N1个 单位,不具有某种属性的有 N0个单位,则
⒈ 总体平均数(又叫总体均值): ⒉ 总体标准差: ⒊ 总体方差:
⒋ 总体比例: ⒌ 是非标志总体的标准差:
P P1 P 当P 0.5时, P有最大值
3.小于总体标准差 4.与样本容量的关系
抽样分布
更大样本 容量的抽 样分布
某个样本 容量的抽 样分布
x
n
X
P119例4-5
某班组有5个工人,他们的单位工时工资分别是4、6、8、10 、12元,总体服从于正态分布。现用重复抽样方式从5个工 人中抽出2人,计算样本的平均工时工资的抽样平均误差。
解:总体分布的平均数与方差分别是:
• 抽样推断是利用样本信息推断总体的数量特 征。
• 抽样估计不论在统计调查还是在统计分析中 都有广泛的应用。
抽样调查的概念
• 广义:凡是抽取一部分单位进行观察, 并根据观察结果来推断全体的都是抽样 调查,其中又可分为非随机抽样和随机 抽样两种。
• 狭义:根据大数定律的要求,在抽取调 查单位时应保证总体中的各个单位都有 同等的中选可能性。
x 4 6 8 10 12 8(元)
N
5
2
x 2 (4 8)2 (6 8)2 (8 8)2 (10 8)2 (12 8)2
N
5
8元
抽样平均误差为:
X
n
8 2元
2
样本成数分布
总体成数 P 是指具有某种特征的单位在总体中的比重。在前面我们已经知道,成数是
练习:计算样本比例的抽样平均误差
1、某县人口10万人,用简单随机不重复抽样 方法抽取1/10的人口进行调查,得知男性 人口比重为51%,求男性人口比重的抽样平 均误差。
2、对某乡进行简单随机重复抽样调查,抽出 100个农户进行调查,得知年收入在1800元 以上的占95%,求农户年收入在1800元以上 比重的抽样平均误差。
不可能进行全面调查时
对于具有破坏性的产品质量检测只 能进行抽样调查
对某些现象进行全面调查,在经济 上不合算,在资料上未必能保证,也只 能采用抽样调查。
对于时效性要求较高的某些调查
对全面调查资料进行补充修正时
抽样估计的一般步骤
设 计 抽 样 方 案
抽 取 样 本 单 位
收 集 样 本 数 据
E(P) p
(4.9) (4.10)
(P)
p(1 p)
p(1 p)
n
n
(4.11)
P120例4-6
已知一批产品的合格率为90%,现采用重复抽样方式从 中取出400件,求样本合格率的抽样平均误差。
解: E(P) p 90%
(P) p(1 p) 0.9 0.1 1.5%
n
400
由于样本容量大,样本成数的平均误差就大大减小。
• 一般所讲的抽样调查,大多数是指这种 随机调查,即狭义的抽样调查。
按照随机抽样原则 抽取总体中的部分
单位进行调查,用部分单位的指标数值 作为代表,对总体的指标数值作出具有 一定可靠程度的估计与推断,从而认识 总体的一种统计方法。
指样本单位的抽取不受主 观因素及其他系统性因素 的影响,每个总体单位都
1.25
现从总体中抽取n=2的简单随机样本,在重复 抽样条件下,共有42=16个样本。所有样本的结果 如下表:
所有可能的n = 2 的样本(共16个)
第一个
第二个观察值
观察值
1
2
3
4
1
1,1
1,2
1,3
1,4
2
2,1
2,2
2,3
2,4
3
3,1
3,2
3,3
3,4
4
4,1
4,2
4,3
4,4
计算出各样本的均值,如下表。并给出样本 均值的抽样分布
全及总体中所包括的单位数一般用N 表示。
1、有限总体
2、无限总体
样本总体
按随机原则从全及总体中抽取一 部分单位组成的集合体,又叫样 本总体。
样本总体中所包括的单位数叫样本容量, 一般用n 表示 1、大样本(n≥30) 2、小样本(n<30)
全及指标
指被估计的总体指标,又被称为
总体参数。(确定的、未知的)
抽样方法 不重复抽样
又被称作不重置抽样、不放 回抽样
抽出 个体
登记 特征
继续 抽取
特点
同一总体中每个单位被抽中的机会并 不均等,在连续抽取时,每次抽取都 不是独立进行
是最为常用的抽样方法,用于无限总 体和许多有限总体样本单位的抽样。
第4章 抽样估计
第一节 抽样的基本概念 第二节 抽样分布与中心极限定理 第三节 总体参数估计 第四节 抽样方案的设计与实施*
⒍ 是非标志总体的方差:
P2 P1 P
指根据样本单位的标志值计算的用
样本指标 以估计和推断相应总体指标的综合
指标,又被称为估计量或统计量。
设样本中 n 个样本单位某项标志的标志值
分别为 x1, x2 , xn ,其中具有和不具有某
种属性的样本单位数目分别为 n1和 n0 个,则
n
⒈ 样本平均数(又叫样本均值): xi x i 1 n
⒉ 样本单位标志值的标准差:s
n
1 1
xx
2
⒊
样本单位标志值的方差:
s2
n
1 1
2
xx
当样本容量很大时,1/n,与1/(n-1)相差不大, 样本方差的公式,可以直接除以n,此时与总 体的方差计算公式一致。
sx
1 n 1
x x 2 n很大 s 1 n
2
xx
⒋ 样本成数:p n1 , q n0 1 p
样本足够大( n≥30 ),样本平均数的分布也趋
近于正态分布。 第三,样本平均数分布的平均数,等于总体的平 均数。
中心极限定理的重要意义
• 第四,样本分布的标准差为: • 这是在有限总体场合下使用的公式,其中:
N n
N 1 ,称为修正因子。 • 当N趋向于无穷大时,其值趋近于1,在允许重
复抽样的条件下,总体在任何时候都成为无限总 体,这时:
计 算 样 本 统 计 量
推 断 总 体 参 数
第六章 抽样与参数估计
第一节 第二节 第三节 第四节
抽样调查的含义 抽样调查的基本概念 抽样调查的数理基础 抽样推断的方法
第二节 抽样调查的基本概念
★• 一、全及总体和样本总体 • 二、全及指标和样本指标 • 三、抽样方法和样本可能数目
全及总体
研究对象的全体,即第一章中学 过的总体。
练习
1、对某乡进行简单重复抽样调查,抽出100个 农户,户均年收入2000元,年收入标准差 100元。
(1)求抽样平均误差。 (2)若抽取的是200户,则抽样平均误差是多
少? (3)若要使抽样平均误差降低为原来(1)的
一半,则应抽多少户。
2、对某县人口用不重复抽样方法按1/10比例抽 出1万人进行调查,得知样本平均年龄40岁 ,年龄标准差20岁,求抽样平均误差。
一、抽样分布举例:
【例】设一个总体,含有4个元素(个体),即总体单
位数N=4。4 个个体分别为X1=1、X2=2、X3=3 、X4=4
。总体的均值、方差及分布如下:
总体分布
.3
总体平均数:X μ 1 2 3 4 2.5 4
.2
.1 0
1
234
总体标准差:σx2
(X X )2 N
(1 2.5)2 (2 2.5)2 (3 2.5)2 (4 2.5)2 4
4.1
2.5 4.1
34.7 38.8
54
5
4.1
4.1
43.0
样本二:50.26 55
10
8ຫໍສະໝຸດ Baidu3
56
1
.8
8.3 .8
51.2 52.1
样本三:53.19 57
2
1.7
58
2
1.7
1.7 1.7
53.7 55.4
59
1
.8
.8
56.2
60
19
15.7
15.7
71.9
61
62
63
真 65
66
…13
12
n
n
⒌ 样本单位是非标志的标准差:sp =
p (1 - p )
⒍ 样本单位是非标志的方差:s p 2 = p (1 - p )
Valid
体重
Valid
Cumulative
Frequency
Percent
Percent
Percent
25
1
.8
.8
.8
40 从全部3学生中2.5随机抽2.5取
3.3
41
1
.8
.8
4.1
20人组成样本并计算平 43
3
2.5
2.5
45
5
4.1
4.1
6.6 10.7
46 47
均体重: 1
.8
2
1.7
.8 1.7
11.6 13.2
48
1
.8
.8
14.0
49
3
2.5
2.5
16.5
50
16
13.2
13.2
29.8
51
3
2.5
2.5
32.2
样本一:52.35 52
3
2.5
53
5
中心极限定理
(图示)
中心极限定理:设从均值为,方差为 2的一个任意总
体中抽取容量为n的样本,当n充分大时,样本均值的抽 样分布近似服从正态分布。
一个任意分 布的总体
当样本容量足够 大时(n >30) , 样本均值的抽样 分布逐渐趋于正 态分布
X
抽样平均误差
1.重复抽样条件下,记算公式为: 2.不重复抽样条件下,计算公式为:
总体分布
.3
.2
.1 0
1
23
总体平均数:μ 2.5 总体标准差:σ 1.25
.3 P ( x )
抽样分布
.2
.1
0
4
1.0 1.5 2.0 2.5 3.0 3.5 4.0 x
样本平均数的平均数:E(x) 2.5
样本平均数的标准差: 1.25
x
2
n
不重复抽样分布,自学
二、大数定律
大数定律表明: 如果随机变量总体存在着有限的平均数
10.7 9.9
2
1.7
值:51.18 4
3.3
1
.8
10.7 9.9 1.7 3.3 .8
82.6 92.6 94.2 97.5 98.3
67
2
1.7
1.7
100.0
Total
121
100.0
100.0
抽样方法
重复抽样 又被称作重置抽样、有放回抽样
抽出 个体
登记 特征
放回 总体
继续 抽取
特点 同一总体单位有可能被重复抽中, 而且每次抽取都是独立进行
400个 样本
支持人数: 160
推断
支持该候选人 的选民占全部
选民的比例
抽样调查的基本特点:
非全面调查
目的是推断总体的数量特征,抽样 推断结果具有一定的可靠程度
抽样调查中的抽样误差是不可避免 的,但在事先是可以计算并加以控制 的
节省调查费 调查速度快 调查结果准确可靠 应用范围广
抽样调查的作用,书P112-113
抽样平均数和总体平均数的离差究竟有多大? 离差不超过一定范围的概率究竟有多少? 离差的分布状况怎样?
• 大数定律和正态分布没有给出任何这方面 的信息。
中心极限定理的重要意义
中心极限定理研究的是变量和的分布和 变量平均数的分布。
它论证了以下几点:
第一,如果总体很大,而且服从正态分布,则样 本平均数的分布也服从正态分布; 第二,如果总体很大,但不服从正态分布,只要