第三章抽样分布
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0,
x0
32
图 2的概率密度曲线
2分布随着自由度n增加,分布渐近于正态。
33
2.2分布的性质 (1) E( 2 ) n
D( 2 ) 2n
证:
Xi ~ N (0,1),
EX i 0, DXi 1,
EX
2 i
1
DX
2 i
EX
4 i
(
EX
2 i
)
2
31
2,
i 1,2, n
所以:
n
n
E 2 E(
对某个总体而言,总对应着一个随机变量X,总体 分布就是指随机变量的概率分布。
数理统计学中“总体”这个基本概念从本质上讲:
总体就是一个随机变量X。对总体的研究,就是
对相应的随机变量X的研究。
3
例:质量检查,0表示正品,1表示次品,出现次 品的概率为p,则总体由0,1构成,这一总体对应 一个参数为p的(0-1)分布的随机变量,即
1 n 1
n i1
(Xi
X
)2
样本均方差 ( 标准差 ) S S2
3.样本k阶矩
原点矩 中心矩
1
n
n i 1
X
k i
1
n
n i 1
(Xi
X )k
14
总体X的K阶原点矩和K阶中心矩分别为 E(Xk)(k=1,2,…)
和 E((X- E(Xk) )k) (k=2,3,…)
总体的一阶原点矩即为总体的均值,总体的二阶中心矩 即为总体的方差。
9
抽样方式
简单随机抽样和简单随机样本的性质
不放回 放回 放回 不放 回
独 立 性 和 同 一 性 不独立
当n/N≤5% 时,有限总 体不放回抽 样等同于放 回抽样
10
第二节 常用的抽样分布
样本包含了总体的各种特征信息,是进行统计推 断的依据。这些信息是“散布”在样本之中的。在 实际应用时,要从中得到所需要的统计信息,往往不 是直接使用样本本身,而是对样本进行“处理”,将 所需信息浓缩集中起来针对不同的问题,构造样本
(简称为上分位点).
黄色阴影部 分概率为α
•
x
上侧分
位数
29
(一) 2分布
1. 2分布的定义和密度函数
设X1, … ,Xn是相互独立,服从标准正态分布
N(0,1)的随机变量,则称随机变量: 2
X
2 1
L
X
2 n
所服从的分布为自由度是n的 2 分布,即
记为 2 ~ 2 (n)
n
2
X
2 i
23
一般正态分布
f (x)
1. 定义
若随机变量X的密度函数为
f (x)
1
e
(
x )2 2 2
2
其中 x
0
x
式中 为实数, >0 .则称X服从参数为 ,2的正态分 布,亦称高斯分布.记为N(, 2).可表为X~N(, 2).
图象见右上角
24
正态分布有两个特性:
(1) 单峰对称
f (x)
i1
x
16
1 22 252 1 (23 25)2 2 (28 25)21 16
25 X
样本均值的均值(数学期望)等于总体均值;
样本均值的方差等于总体方差的1/n。
19
事实上,对于来自均值和方差分别为
和 2的总体的一个简单随机样本X1,
X2,…, Xn ,其样本均值的数字期望和
第三章 抽样分布
1
第一节 随机样本
研究的标志
统计 推断 中的 总体 及总 体分 布
组成元素 具体对象
组成元素
变量的具体 取值
实物总体
数字总体
例:1000个零件的直径
1000个零件的集合
零件直径的集合
组成元素:每个零件
组成元素:直径观测值
2
对一个总体而言,个体的取值是按一定规律分布 的。任取一个零件,其直径取值是按一定概率分布的。
AD(25)
B(24) BA(23)
BB(24)
BC(25)
BD(26)
C(26) CA(24)
CB(25)
CC(26)
CD(27)
D(28) DA(25)
DB(26)
DC(27)
DD(28)
17
样本均值的抽样分布
均值
22 23 24 25 26 27 28 合计
概率
1/16 2/16 3/16 4/16 3/16 2/16 1/16
5
样本
样本:通过随机观测或试验的方法,获得的总体中一部分 个体,称为样本,每个个体称为样本单位。
抽样:就是从总体中抽取有限个个体对总体进行观测的过 程。
样本的二重性。抽样之前,由于总体中各个体有同等被
抽 中 的 可 能 , 抽 中 哪 个个体不能确定,因此样本是一组随 机变量;但当样本被抽取并测试完成后,各个样本点都 是一个确定的数值,样本成为是一组确定的数值。
15
二、几种常用的抽样分布
样本统计量的分布称为抽样分布,即由 样本统计量的全部可能取值和与之相应的概 率(频率)组成的分配数列。
例设一个总体含有4个 个体,即总体单位数N=4, 其 取 值 分 别 为 X1=22 、 X2=24、X3=26 、X4=28 。
总体的均值、方差:
X 25 2 5
7
样本的两个重要性质
第一、样本点与总体同分布(“样本与总体同分布”) 第二、样本点之间相互独立(简称“样本独立”)
两个性质常常合称为 “样本独立同分布”。满
足上述性质的样本为简单随机样本。
8
n次观察一经完成,我们就得到一组实数x1,
x2,…, xn ,它们依次是随机变量X1, X2,…,
Xn的观察值,称为样本观测值。
1
将表中样本的均值的各种可能取 值及其可能性(概率)加以整理, 绘制成分布表和分布图如下:
P(x)
0.3
0.2
0.1
0
22 23 24 25 26 27 28 x 样本均值的抽样分布图
18
所有可能样本均值的均值和方差
M
x
xi
pi
22
1 16
23
2 16
28
1 16
25
i 1
7
2
xi x fi
方差分别为 x
和
2 x
2
n
。
一般称 x
为样本均值的抽样误差。
n
20
x 的抽样分布与总体分布和样本量n有关:
总体是正态分布,样本均值总是正态分布 总体非正态分布,随着n的增大,样本均值趋于正态分布
21
中心极限定理
(central limit theorem)
中心极限定理:设从均值为,方差为 2的一个任意总
分子:标准正态分布变量 分母:卡方变量除以自由 度再开方
41
2. 对于给定的(0 1),称满足条件: P{t t (n)}
的点t (n)为t分布的上分位点。
由概率密度的对称性知 :t1 (n) t (n)
当n 45时,t (n) z .
t1 (n)
t (n)42
密度曲线关于直线x=对称
f()=maxf(x)= 1
2
0
(2) 的大小直接影响概率
f (x)
的分布
越大,曲线越平坦;
越小,曲线越陡峻.
2 0
1
2
x
N(4,3/ 5)
N (4,1)
N(4,7 / 5)
24
6x
25
标准正态分布
参数=0,2=1的正态分布称为标准正态
分布,记作Z~N(0, 1)。
(x)
概率为,比如,若记2变量的上侧分位数为 2,则
满足
p( 2 2 ) d
查表313页附表3
fn (x)
20.995(11)=2.603
20.01(13)=27.688
2 (n)
x
36
附表3中给出了自由度n≤45的2分布的上 α 分位数值.
如对于 0.1, n 25
查附表3得
2 0.1
(25)
12
总体参数 未知
总体分布 未知
总体其他信息 未知
样本统计量g=g(X1,X2,…Xn) 两个要点:1、是样本的函数
2、不含未知的参数.
样本 X1,X2,…Xn
在统计推断中,一项重要的工作就是寻找统 计量和导出统计量的分布。
13
常用统计量
1. 样本均值
X
1 n
n i 1
Xi
2. 样本方差
S2
16
现从总体中抽取n=2的简单随机样本,重复抽样条件 下,共有42=16个可能样本。所有可能样本的结果列表如 下,试分析样本均值的分布。
所有可能样本及其样本均值( n = 2)
第一个
第二个样本单位
样本单位 A(22) B(24) C(26) D(28)
来自百度文库
A(22) AA(22)
AB(23)
AC(24)
X
2 i
)
EX
2 i
n.
i 1
i 1
n
n
D 2 D(
X
2 i
)
DX
2 i
2n.
i 1
i 1
34
(2)分布可加性
12
~
2
(n1
),
2 2
~
2 (n2 ),
且
12,
2 2
独立,则:
2 1
2 2
~
2 (n1
n2 )
35
(3)上侧分位数
所谓一个分布的上侧分位数就是指这样一个数,
它使相应分布的随机变量不小于(大于等于)该数的
~ 2 (n)
i1
30
2 分布的三个要点:
独立同分布的随机变量序列 随机变量服从标准正态分布
新构造的随机变量为原随机变量平方和
新随机变量服从 自由度为n的卡
方分布
31
2(n)分布是参数为n/2,1/2的Γ分布,即2(n)的密度函数为
n 1 x
f
(x)
1 2n/2 (n / 2)
x2
e 2, x 0
6
在相同的条件下对总体X进行n次重复独立的观察。将n次观 察结果按试验的次序记为X1, X2,…, Xn 。
由于X1, X2,…, Xn 是对随机变量X观察的结果,且各次观 察是在相同的条件下独立进行的,所以有理由认为X1, X2,…, Xn是相互独立的,且都是与总体X具有相同分布的随机变量。
这样得到的X1, X2,…, Xn 称为来自总体X的一个简单随机 样本,n为这个样本的容量。
39
(1) f(t)关于t=0(纵轴)对称。
(2) f(t)的极限为N(0,1)的密度函数,即
,
limf (t) (t)
1
t2
e 2 , x
n
2
40
t分布的三个要点:
分子是标准正态随机变量
分母是自由度为n的卡方随机变量 分子分母相互独立,且满足构造公式
新随机变量服从自 由度为n的t分布
f (x)
1
x2
e2
2
(x)的值.(附表1)如,若
X~N(0,1),(0.5)=0.6915, P{1.32<X<2.43}
0x
=(2.43)-(1.32)=0.9925-0.9066
例题:课本74页 27
统计推断中三个重要分布
2—分布 t —分布 F—分布
在参数估计和假设检验等统计推断问题中这 三个分布有广泛的应用。
体中抽取容量为n的样本,当n充分大时,样本均值的
抽样分布近似服从均值为μ、方差为σ2/n的正态分布
一个任意分
x
n
布的总体
当样本容量足够
大时(n ≥ 30) ,
样本均值的抽样
分布逐渐趋于正
态分布
x
X
22
中心极限定理
(central limit theorem)
x 的分布
趋于正态 分布的过 程
其密度函数为
(x)
1
x2
e2
2
( x )
分布函数为密度函数的积分
4 2 0 2 4 x
26
分布函数为 (x) P{X x}
(1) (0)=0.5
(2) (+∞)=1;
1
2
x
e
t2 2
dt
,
x
(3) (x)=1- (-x).
一般的概率统计教科书均附有 标准正态分布表供读者查阅
f (x)
的适当函数——统计量进行统计推断。
11
一、 统计量
如果样本X1, … ,Xn的函数g=g(X1, … ,Xn)不含未
知参数,则称g(X1, … ,Xn)是一个统计量。
如果x1, … ,xn是对应于样本X1, … ,Xn的样本值,
则称: g(x1, x2 ,..., xn ) 是g(X1, … ,Xn)的观测值
t(n)称为自由度为n的t分布,记为T~t(n)。
t(n) 分布的概率密度为
f(t)
(
n
2
1)
(1
t2
)
n1 2
,
n( n ) n
2
t
38
t 分布的密度函数曲线
t分布和标准正态分布类似,他们都是对称分布。
区别:t分布尾部厚,即服从t分布的随机变量取到尾部值的概 率比标准正态分布略大。而对于接近原点的坐标点,t分布 的值比标准正态分布的值小。因而t分布曲线尾部厚于标准 正态分布,而峰低于标准正态分布。
P( X x) px (1 p)1x
x 0,1
4
总体
总体:研究对象的某项数量指标值的全体。 个体:组成总体的每一个基本元素。 例如:① 某工厂生产的灯泡的使用寿命的全体是一个总体。
每一个灯泡的使用寿命是一个个体。 ② 我校男生的身高的全体是一个总体。
每个男生的身高是一个个体。 总体所含个体的数目称为总体容量.
34.382
方便通过EXCEL查分位点,函数为CHIINV。
fx 常用函数 CHIINV
α=0.05 n=55 73.31
α=0.02 n=55 78.62
37
(二) t 分布
1. t分布的定义和密度函数
定义:若X~N(0, 1), Y~2(n), X与Y独立,则
T X ~ t(n). Y /n
28
随机变量X的分位数也叫分位点, 是表示随机变量X的位置 特征的数字.
定义 设X为一个连续型随机变量, f(x)为其密度函数, 对于
给定的正数(0 1),称满足条件
P( X x ) x f ( x)dx
P( X x )
x f ( x)dx 1
f (x)
的点 xα 为X的上 α 分位数