第5章抽样

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

n
x
X
当总体服从正态分布X~N (μ, σ2)时,来自该总体 的所有容量为n的样本的均值X也服从正态分布, X 的数学期望为μ,方差为σ2/n
即X~N(μ,σ2/n)
=10
= 50 X
总体分布
n=4
x 5
n =16
x 2.5
x 50
X
抽样分布
第二节 三种不同性质的分布
抽样分布 (sampling distribution)
总 体
计算样本统计



例如:样本均
值、比例、方

均值
方差



均值
样本一



方差
样本二


均值
样本三

·

方差
·

·


均值
样本

分 布
方差 ·
·
·
均值 总体 方差
第三节 样本均值的抽样分布
容量相同的所有可能样本的样本均值的 概率分布
抽样和抽样估计的主要内容:如何科学地从总体 中抽取样本,如何估计和控制代表性误差,怎样 利用样本去估计和推断总体的特征
总体
抽样
估计
抽样
容量为n
误差
≥30 大样本
样本
< 30 小样本
抽样的方法
1、概率与非概率抽样概率抽样与非概率抽样 概率抽样(随机抽样)——按照随机原则抽取 样本
最基本的组织方式:简单随机抽样、分层抽样、 等距抽样、整群抽样
个总体均值之差 E(X1 X 2 ) 1 2
3.
方差为各自的方差之和
2 X1 X 2


2 1
n1


2 2
n2
两个样本均值之差的抽样分布
总体1
抽取简单随机样 样本容量 n1 计算X1
所有可能样本 的X1-X2
1 1
2 2
计算每一对样本 的X1-X2
总体2
抽取简单随机样 样本容量 n2 计算X2

P1(1 P1) n1
P2 (1 P2 ) n2
三、两个样本方差比的抽样分布
1. 两个总体都为正态分布,即X1~N(μ1,σ12)的一 个样本, Y1,Y2,… ,Yn2是来自正态总体 X2~N(μ2,σ22 )
2. 从两个总体中分别抽取容量为n1和n2的独立 样本
3. 两个样本方差比的抽样分布,服从分子自由
1 2
抽样分布
二、两个样本比例之差的抽样分布
1. 两个总体都服从二项分布
2. 分别从两个总体中抽取容量为n1和n2的独立样本, 当两个样本都为大样本时,两个样本比例之差
的抽样分布可用正态分布来近似
3. 分布的数学期望为
E( p1 p2 ) P1 P2
4. 方差为各自的方差之和
2 p1 p2
2. 样本均值的方差等于总体方差的1/n
结论:
重复抽样
不重复抽样
E(x) x X E(x) x X

2 x


2
n

2 x

2
n
(
N N
n) 1
注意:抽样分布与总体分布的关系
二、抽样误差
抽样误差:抽样分布的标准差,它反映 了样本统计量与相应总体参数的平均误
查程度 不重复抽样的校正系数
N
N
3. 样本比例可表示为
P n0 或 1 P n1
n
n
二、样本比例的抽样分布
1. 容量相同的所有可能样本的样本比例的概 率分布
2. 当样本容量很大时,样本比例的抽样分布 可用正态分布近似 (np≥5,n(1-p) ≥5)
3. 一种理论概率分布
4. 推断总体总体比例的理论基础
样本比例(即成数)的抽样分布
一种理论概率分布 进行推断总体总体均值的理论基础
一、 样本均值的抽样分布的形成过程
【例】设一个总体,含有4个元素(个体) ,即总体 单位数N=4。4 个个体分别为x1=1、x2=2、x3=3 、 x4=4 。总体的均值、方差及分布如下
总体分布
.3
. .2 1 0
1
234
均值和方差
N
xi
总体参数与样本统计量
总体参数——总体的数量特征,是确定的、唯 一的
如总体平均数、总体方差、总体比例等 样本统计量——X1,X2,… , Xn是来自总体的样
本,不含未知参数的样本的函数g(X1,X2,… , Xn ) 是样本的函数,样本的数量特征,是随机变量 如样本平均数、样本方差、样本比例等
3
3,1
3,2
3,3
3,4
4
4,1
4,2
4,3
4,4
计算出各样本的均值,如下表。并给出样 本均值的抽样分布
16个样本的均值(x)
第一个
第二个观察值
观察值 1
2
3
4
1 1.0 1.5 2.0 2.5
2 1.5 2.0 2.5 3.0
3 2.0 2.5 3.0 3.5
4 2.5 3.0 3.5 4.0
n i 1
i

1 n
n
Ei | } 1
i 1
Di C
2、中心极限定理
关于随机变量序列和的极限分布是正 态分布的一系列定理
林德伯格-勒维中心极限定理独立同分布
lim n
P

n i 1
i n n
x



1
x t2
伯努利大数定理是频率的稳定性;
lim P{| n p | } 1
n
n
n为A发生的次数
辛钦大数定理是大量独立重复观测结果的
平均水平的稳定性;
E lim i n
P{|
1 n
n i 1
i

| } 1
切比雪夫大数定理
lim n
P{| 1 n
1 n
Xi k
样本k阶中心矩
Bk

1 n
(Xi X )k
第一节 大数定理和中心极限定理 (看网上素材)
1、切比雪夫不等式
随机变量X,EX x

n
N n N 1
, DX
2
P{|
X


|
}
2 2
2、 大数定理
大量随机现象的平均结果的稳定性的 一系列定理的总称
常用方法有抽签法、利用随机数表取数法和电 子计算机取数法。
易处理,实施难,这种抽样方式仅限于总体规 模不大,内部差异也不很大的情况。
表6-2 总体参数与样本统计量对照表
见P100
记住!
表6-2 总体参数与样本统计量对照表
n,
二、分层抽样(类型抽样、分类抽样)
1、分层抽样
按某种原则将总体划分为若干层(也称类或 子总体),然后从各层中按随机原则分别抽取 一定数目的单位构成样本。 将总体划分成若干类型组后,各类型组内部 的差异必定小于总体的差异,从各组中抽取的 样本单位,其代表性较强;同时,各类型组都 有一定的单位入选,就可能使样本的结构更近 似于总体结构。
小样本
从均值μ、方差2未知的正态总体中抽取 n个样本,则样本统计量
t x x x s/ n
服从自由度为n-1的t分布
第四节 样本比例的抽样分布
一、比例(proportion)
1. 总体(或样本)中具有某种属性的单位与 全部单位总数之比
2. 总体比例可表示为
N0 或 1 N1
一. 两个样本均值之差的抽样分布 二. 两个样本比例之差的抽样分布 三. 两个样本方差比的抽样分布
一、两个样本均值之差的抽样分布
1. 两个总体都为正态分布,即
X1
~
N
(1
,

2 1
)
X2
~
N
(2
,
2 2
)
2. 两个样本均值之差 X1 X 2 的抽样分布服 从正态分布,其分布的数学期望为两
样本均值的抽样分布的数学期望与方差
n
X

Xi
i 1
M
1.0 1.5 4.0 16
2.5
n
(Xi x )2

2 X

i 1
M
(1.0 2.5)2 (4.0 2.5)2 0.625 2
16
n
M为样本数目
比较及结论:1. 样本均值的均值(数学期望) 等于总体均值
统计量
总体参数
样本均值 x 样本比例 p
s 样本标准差
样本方差 s 2
总体均值
总体比例 P
总体标准差
总体方差
2
常用统计量
样本均值
X

1 n
Xi
样本方差
S 2 1
n 1
(Xi

X
)2

1[ n 1
Xi2 nX]
样本标准差 S
样本k阶原点矩
Ak

度为(n1-1),分母自由度为(n2-1) F分布,即
S12
/

2 1
S22
/

2 2
~
F (n1 1, n2 1)
第八节 抽样的组织方式
常用: 简单随机抽样 分层抽样 机械抽样 整群抽样
一、简单随机抽样 简单随机样本
简单随机抽样对总体单位不进行任何划分或排 队,完全随机地直接从总体中抽取样本单位, 使每个总体单位都有完全均等的机会被抽中
P)

不重复抽样

2 p

P(1 n
P)

N n N 1

第五节 样本方差的抽样分布
对于来自正态总体的简单随机样本,则比值
(n 1)s 2
2 的抽样分布服从自由度为 (n-1)的2分布
即 (n 1)s2 ~ 2 (n 1) 2
第六节 两个总体样本统计量的抽样分布
逐渐接近总体的分布
三、抽样分布 (sampling distribution)
1. 样本统计量的概率分布
2. 是一种理论概率分布 3. 随机变量是 样本统计量
样本均值, 样本比例,样本方差等
4. 结果来自容量相同的所有可能样本
5. 提供了样本统计量长远我们稳定的信息, 是进行推断的理论基础,也是抽样推断科 学性的重要依据
非概率抽样(非随机抽样)从研究的目的出发, 根据调查者的经验或判断,从总体中有意识地抽 去若干单位构成样本。 重点调查、典型调查、配额抽样、方便抽样等
2、重复抽样与不重复抽样
重复抽样:每一次抽取都是独立的,在 相同的条件下重复进行,每个单位被抽 取的机会均等
不重复抽样:每一次抽取是不独立的, 每个单位在每次被抽取的机会均等,在不 同次被抽取的机会不均等
.3
.2
.1 0
X 1.0 1.5 2.0 2.5 3.0 3.5 4.0
样本均值的抽样分布
样本均值的分布与总体分布的比较
总体分布
.3
.2
.1 0
1
234
= 2.5
σ2 =1.25
抽样分布
.3
.2
.1
0
1.0 1.5 2.0 2.5 3.0 3.5 4.0 X
X 2.5

2 X
0.625
特点:样本代表性高、抽样误差小、抽样调 查成本较低。
例如
城市职工收入调查,可先按行业(农林牧 渔业、采掘业、制造业、电力煤气及水的 生产和供应业、建筑业、地质勘探及水利 管理业、交通运输仓储及邮电通信业、批 发和零售贸易餐饮业、金融保险业、房地 产业、社会服务业、卫生体育和社会福利 业、教育文化艺术和广播电影电视业、科 学研究和综合技术服务业、国家、政党机 关和社会团体、其他)将职工分类,再从 各行业中抽取若干职工来调查。
第五章 抽样与参数估计
统计推断
参数估计 假设检验
抽样分布理论
所谓统计推断是按随机原则从总体中抽 取部分单位作为样本,利用样本资料所 提供的信息对总体数量规律做出科学推 论的一种统计分析方法。
为何进行抽样?
总体容量太大 时间 成本
从抽取的样本中获得信息并加以分析, 从而认识总体的未知参数
i1 2.5
N
N
(xi )2
2 i1
Байду номын сангаас
1.25
N
现从总体中抽取n=2的简单随机样本,在重复抽样 条件下,共有42=16个样本。所有样本的结果为
所有可能的n = 2 的样本(共16个)
第一个
第二个观察值
观察值
1
2
3
4
1
1,1
1,2
1,3
1,4
2
2,1
2,2
2,3
2,4
总体分布 样本分布 抽样分布
一、总体分布(population distribution)
1. 总体中各元素的观察值所形成的分布 2. 分布通常是未知的 3. 可以假定它服从某种分布
总体
二、样本分布(sample distribution)
1. 一个样本中各观察值的分布 2. 也称经验分布 3. 当样本容量n逐渐增大时,样本分布
N n N 1
x

n
x

n
N n N 1
三、 样本均值的抽样的形式与n有关
总体分布
正态分布
指数分布
均匀分布
样本均值 分布(n=2)
样本均值 分 布 (n=10)
样本均值 分 布 (n=30)
抽样分布与总体分布的关系
总体分布
正态分布 正态分布
非正态分布
大样本
小样本
正态分布 非正态分布
总体
样本
X,(N)
抽样
x ,(n)
比例P=Ni/N
比例 Pˆ n / n i
所有可能的样本的比例( Pˆ , Pˆ , Pˆ )所形
12
n
成的分布,称为样本比例的抽样分布。
三、样本比例的抽样分布的特征
1. 样本比例的数学期望
E( p) P
2. 样本比例的方差

重复抽样

2 p

P(1 n
e 2 dt
2
德莫佛-拉普拉斯中心极限定理
lim P X np x 1
x t2
e 2 dt
n npq 2
X i 概率为p的两点分布
一个任意分布的总体
当样本容量足够
大时(n 30) ,
样本均值的抽样
分布逐渐趋于正
态分布
x
相关文档
最新文档