第四章 抽样分布
合集下载
统计学抽样分布
![统计学抽样分布](https://img.taocdn.com/s3/m/cca53ff0aef8941ea76e05a9.png)
常见的样本统计量
X
X
i 1
n
i
Xf f
P n1 n
n
n
S2
X
i 1
i X
n 1
X X f
2
f 1
S S2
假如抽取30名,得到样本平均数、标准差和成数是
x 1554420 x
n 30 s ( x x) 2 n 1 p 19 / 30 0.63
p
(1 ) N n
n ( N 1
)
与样本均值分布的方差一样,对于无限总体进行不重复 抽样时,可以按重复抽样来处理。
附注:正态分布理论与中心极限定理
1、正态分布的密度函数
f ( x)
1
式中 x 为正态分布的平均数, 是它的标 准差。这两个参数决定正态分布密度函 ( x, 2 ) 数的形状。也可简记为N
1
2
3
4
1.0 1.5 2.0 2.5 3.0 3.5 4.0
X
= 2.5
σ2 =1.25
X 2.5
2 X 0.625
显然,不同的样本对应着不同的样本统计量,而由于 样本抽取的随机性,样本统计量即为一种随机变量。 一般地,样本统计量的可能取值及其取值概率,形成 其概率分布,统计上称为抽样分布(sampling distribution)。 ▲正是抽样分布及其特征使得用样本统计量估计总 体参数的“精确程度”能够给予概率上的描述。 ▲由于样本统计量的随机性及其抽样分布的存在,同 样可计算其均值、方差、标准差等数字特征来反映该 分布的中心趋势和离散趋势。
结论:
1、样本平均数的期望值
由于不同的样本可得到不同的样本均值,因此, 考察样本均值的期望就显得非常重要。 用 x 表示样本均值的期望值,X 表示总体均值, 可证明在简单随机抽样中。
第四章抽样分布
![第四章抽样分布](https://img.taocdn.com/s3/m/fc0c36aeaa00b52acec7ca28.png)
11/13/2019
版权所有 BY 统计学课程组
23
常见的连续型随机变量的分布
11/13/2019
版权所有 BY 统计学课程组
24
常见的连续型随机变量的分布
11/13/2019
版权所有 BY 统计学课程组
25
常见的连续型随机变量的分布
11/13/2019
版权所有 BY 统计学课程组
26
11/13/2019
要的区别:一是配额抽样的被调查者不是按随
机原则抽出来的,而类型抽样必须遵守随机原
则;二是配额抽样的目的在于探索性研究,而
类型抽样的目的在于样本推断总体。
11/13/2019
版权所有 BY 统计学课程组
50
(二) 非概率抽样
(3) 判断抽样
判断抽样又称立意抽样,它是研究者从总
体中选择那些被判断为最能代表总体的单位作
第四章
概率分布与抽样
11/13/2019
版权所有 BY 统计学课程组
1
第四章 概率分布与抽样
案 例: 会计算彩票中奖概率就一定能够中大奖吗 第一节 随机变量的分布 第二节 大数定律和中心极限定理 第三节 统计量的抽样分布
11/13/2019
版权所有 BY 统计学课程组
2
学习目标
39
11/13/2019
版权所有 BY 统计学课程组
40
(二) 李雅普诺夫中心极限定理
11/13/2019
版权所有 BY 统计学课程组
41
(三) 棣莫弗-拉普拉斯中心极限定理
11/13/2019
版权所有 BY 统计学课程组
42
11/13/2019
(04)第4章+抽样与抽样分布
![(04)第4章+抽样与抽样分布](https://img.taocdn.com/s3/m/54be5205eff9aef8941e0689.png)
4-6
统计学
STATISTICS
例题分析
♦ 假定我们刚刚已取了飞机制造所用的铆钉的25个 假定我们刚刚已取了飞机制造所用的铆钉的25个
一组的样本。检测铆钉的抗剪强度,破坏每个铆 钉所需的力是响应变量。对这组样本,可以求得 各种描述性的测量(均值、方差等)。 ♦ 然而,我们的感兴趣的是总体,并不是样本自身。 被测试的铆钉在测试时已被破坏,不能再用在飞 机的制造上,所以我们肯定不能测试所有的铆钉。 我们必须从这组样本或几组这样的样本来决定总 体的某些特性。 ♦ 因此,我们必须设法推断信息,也即基于样本的 观测结果作出总体的推断
(例题分析) 例题分析)
计算出各样本的均值,如下表。 计算出各样本的均值,如下表。并给出样本均 值的抽样分布
4 - 32
样本均值的抽样分布
统计学
STATISTICS
(例题分析) 例题分析)
【例】设一个总体,含有4个元素(个体) ,即总体单位 设一个总体,含有4个元素(个体) 数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4 。总 个个体分别为x 体的均值、 体的均值、方差及分布如下 总体分布
4 - 17
统计学
STATISTICS
分层抽样
分层抽样
统计学
STATISTICS
(stratified sampling) sampling)
♦ 分层抽样:在抽样之前先将总体的单位按 分层抽样:
某种特征或某种规则划分为若干层(类), 然后从不同的层中独立、随机地抽取一定 数量的单位组成一个样本,也称分类抽样 数量的单位组成一个样本,也称分类抽样 sampling) (stratified sampling) ♦ 在分层或分类时,应使层内各单位的差异 尽可能小,而使层与层之间的差异尽可能 大
第四章 抽样分布
![第四章 抽样分布](https://img.taocdn.com/s3/m/8b32aa7fa45177232f60a235.png)
2 1 2 2
从两个正态总体中抽取的样本统计量的分布 二、标准差σ i未知但相等时两个平均数的和与差的 分布
t2 n 2
( y1 y2 ) ( 1 2 ) s s n
2 1 2 2
从两个正态总体中抽取的样本统计量的分布 三、两个样本方差比的分布——F分布
Fdf1 ,df2
t0.05(0.01)=? -t0.05(0.01)=? t0.05/2(0.01/2)=?
二、样本方差的分布
2 df
dfs 2
2
(n 1) s 2
2
2
2
2 K ( ) 2 e f df ( ) 2 0 , 0
df 1 2
,
2
0 K
y , y n
即 y 服从正态分布 N(μ,σ 2/n)。
标准差未知时平均数的分布——t分布
y t 具n-1自由度 s n 样本标准误
t分布的特征数:
t 0
(df>1) (df>2)
1:t 0
(df>3)
df t df 2
2:t
6 (df>4) df 4Biblioteka t分布曲线下总的面积等于1。
f=∞
f=5 f=1
图3-6 t分布曲线
t分布的累积分布函数为:
Ft ( df ) P(t t1 )
t1
f (t )dt
P(t ta ) P(t ta ) a
P( t t a ) a
2
- t (n)
t (n)
u
( y1 y2 ) ( 1 2 )
从两个正态总体中抽取的样本统计量的分布 二、标准差σ i未知但相等时两个平均数的和与差的 分布
t2 n 2
( y1 y2 ) ( 1 2 ) s s n
2 1 2 2
从两个正态总体中抽取的样本统计量的分布 三、两个样本方差比的分布——F分布
Fdf1 ,df2
t0.05(0.01)=? -t0.05(0.01)=? t0.05/2(0.01/2)=?
二、样本方差的分布
2 df
dfs 2
2
(n 1) s 2
2
2
2
2 K ( ) 2 e f df ( ) 2 0 , 0
df 1 2
,
2
0 K
y , y n
即 y 服从正态分布 N(μ,σ 2/n)。
标准差未知时平均数的分布——t分布
y t 具n-1自由度 s n 样本标准误
t分布的特征数:
t 0
(df>1) (df>2)
1:t 0
(df>3)
df t df 2
2:t
6 (df>4) df 4Biblioteka t分布曲线下总的面积等于1。
f=∞
f=5 f=1
图3-6 t分布曲线
t分布的累积分布函数为:
Ft ( df ) P(t t1 )
t1
f (t )dt
P(t ta ) P(t ta ) a
P( t t a ) a
2
- t (n)
t (n)
u
( y1 y2 ) ( 1 2 )
抽样及抽样分布
![抽样及抽样分布](https://img.taocdn.com/s3/m/7e2bfd5ddd88d0d232d46a8f.png)
分层抽样 概念:分层抽样又称类型抽样。首先将总体单
位按某一个标志分层;然后在各层按随机抽样的方 法分别抽出各层的样本。
特点:分层抽样在层内是抽样调查,层间是全面调
查,所以分层时应该尽量让每层内的变异程度小,
而层间的变异程度大。分层抽样的抽样误差较简单 随机抽样小,样本具有很好的代表性。
抽样平均误差的计算公式:
z
(
X 1
X
)
2
( 1
2
)
s2 1
s2 2
n1 n2
渐近服从标准正态分布。
如果: X1 和 X2 是两个非正态总体,当和样本容
量足够大,
z
(
X1
X
2
)
(1
2
)
s2 1
s2 2
n1 n2
渐近服从标准正态分布。
NEXT
二、样本成数及成数差的抽样 分布
成数的概念 样本成数的分布 两个总体样本成数差的分布
,则样本的成数为p n1
n
。
例如,某工厂生产某种电子元件,某批产品
共10000件,其中不合格品100件原则抽100件,其中
有3件不合格品,则样本的成数为p 3% 。
NEXT
样本成数的分布
用途:推断或估计总体的成数。例如某项改革 方案工人的支持率,产品的正品率等。
假设A、B、C、D、E5位同学的统计学成绩分别为: 80、 86、90、92、96。可计算得总体均值为88.8,总体方 差为29.76。现在随机从中抽容量为2的样本。
重复抽样的所有可能的样本:
样本(AA)(AB)(AC)(AD)(AE)
均值 80 83 85
86 88
样本 (BA)(BB) (BC) (BD)(BE)
4.3抽样分布
![4.3抽样分布](https://img.taocdn.com/s3/m/81939bee767f5acfa0c7cd23.png)
(3) X与S2相互独立
(4) X ~ t(n 1)
Sn
已知, 2未知
(5) n ( Xi )2 ~ 2 (n)
i1
已知
LOGO
例1 设总体X 服从正态分布N (12, 2 ), 抽取容量为
25的样本,求样本均值X大于12.5的概率.如果(1)已
知 12;(2)未知,但已知样本方差S2 3.6.
n1 n2
服
从
F(n1,
n
)
2
分
布
.
LOGO
4.3.2 正态总体的抽样分布
由于要求具体抽样分布是困难的,有时甚至是不可 能的。正态总体的抽样分布有详尽的研究,本节主要 学习正态总体的抽样分布。
掌握正态分布、 2分布、t分布、F分布的一些结论
对于正态总体抽样分布的学习非常有用. 主要学习单个正态总体的抽样分布以及多个正态总
i1
于是P
10
i1
Xi 2
4
P
1 0.52
10 i1
Xi2
16
查表求02.10(10) 16.由此可得
P
10 i1
Xi
2
4
0.10.
(2) 由题设及定理4.3.2, 9S 2
0.52
10
P i1
(Xi
X )2
1
2.85
P
0.52
10 i1
查表得02.25(9) 11.4,由此可求得
n
n
该定理的证明由正态分布的性质3.1.10可得。
注意:当样本来自非正态总体时,若总体均值为,方差 为 样 本量2(充有分限大且时不,X为近零似)服,从由N中(心, 极)2.限定理可以证明当
四章样本及抽样分布
![四章样本及抽样分布](https://img.taocdn.com/s3/m/653d9f0b3d1ec5da50e2524de518964bcf84d2c4.png)
E(X )
1 n
n i 1
E( X i )
D(X )
1 n2
n
2
D(Xi )
i 1
n
X ~ N(, 2 )
n
X ~ N (0, 1) / n
iid
2.若X1,,X n ~ N (, 2 ), 则 (1) X与S 2相互独立; (2) 2
(n 1)S 2
2
~
2 (n 1);
(3)T X ~ t(n 1).
第四 章 样本及抽样分布
引言 run 随机样本 抽样分布
4.1 随机样本 一、总体与样本
1. 总体:研究对象旳全体。 一般指研究对象旳某项数量指标。 构成总体旳元素称为个体。
从本质上讲,总体就是所研究旳随机变量或 随机变量旳分布。
2. 样本:来自总体旳部分个体X1, … ,Xn 假如满足: (1)同分布性: Xi, i=1,…,n与总体同分布. (2)独立性: X1,… ,Xn 相互独立; 则称为容量为n 旳简朴随
P{ 1
1
P{ 1 F
F (n2 , n1)}
} 1
F F1 (n1, n2 )
P{ 1
1 }
得证!
F F1 (n1, n2 )
4.3 正态总体旳抽样分布定理
iid
1.若X1 ,,Xn ~ N(, 2 ), 则U
X / n
~
N(0, 1)
证明:
X
1 n
n i 1
Xi
是n 个独立旳正态随 机变量旳线性组合,故 服从正态分布
i 1
称为自由度为n的 2 分布.
2.2—分布旳密度函数f(y)曲线
f
(y)
概率统计课件§6 4.1—2 抽样分布
![概率统计课件§6 4.1—2 抽样分布](https://img.taocdn.com/s3/m/046da8f67f1922791688e8a3.png)
未修正的样本方差
S02
1n
ni 1(Xi
X)2
3. 样本标准差
S
1n
n1i 1(Xi
X)2
上页
下页
返回
4. 样本的 k 阶原点矩
mk
1 n
n
i1
Xik
5. 样本的 k 阶中心矩
Mk n1i n1(Xi X)k
k1,2, k2,3,
M2 S02
n1S2 n
二. 2 分布
1. 定义
随机变量
~
1
f
(
x)
n 22
(
n)
n x
x2e 2
2
0
x0 x0
其中 ( r )是 函数,称 X 服从自由度为 n 的 2 分布
上页
下页
返回
上页
下页
返回
2. 分2 布的典型模式
定理4.3
X1,X2, ,Xn
相互独立
解: P (X 2) 0 .0 2 5 20 2 .0 2 5(1 1 )2 1 .9 2 0 P (X 1 ) 0 .0 2 5 P (X 1 ) 0 .9 7 5
10 2 .9 7 5(1 1 )3 .8 1 6
例2. 设X1,X2, ,X10为取自总体 X~N(0,0.09)的样
t0 .1 (1 5 ) 1 .7 5 3
(3)P (t)0.95 P (t)0.05
t0 .1 ( 1 5 ) 1 .7 5 3
上页
下页
返回
例4. X1,X2, ,X9来自总体X~N(,2)的样本,且
Y1
1 6
统计学抽样与抽样分布
![统计学抽样与抽样分布](https://img.taocdn.com/s3/m/8863eb2769eae009581becd5.png)
3
总体和参数(续)
通常所要估计的总体指标有
X
NX
一、 几个概念
(二)样本总体与样本指标
样本总体。简称样本(Sample),它是按照随机原则, 从总体中抽取的部分总体单位的集合体 。
样本容量:样本中所包含的个体的数量,一般用n表示。 在实际工作中,人们通常把n≥30的样本称为大样本, 而把n<30的样本称为小样本。
可以看成是一组随机变量。
设X1, X2,… , Xn是来自总体X 的一个样本,g(X1, X2,… , Xn) 是 X1, X2,… , Xn的一个函数。若 g 是连续函数,且 g 中不含任何未 知参数,则称 g(X1, X2,… , Xn) 是一个统计量。统计量也是一个随
机变量。
设x1, x2,… , xn 是相应于样本X1, X2,… , Xn的一个样本值, 则 称 g(x1, x2,… , xn ) 是统计量 g(X1, X2,… , Xn) 的一个观测值。
1 n 1
n i 1
(Xi
X )2
,
(4)样本比例:P =k/n,其中k为样本中某属性出现次数 s
概率抽样
(probability sampling)
u概率抽样也叫随机抽样,是指按随机原则抽取样本。
u随机原则,就是排除主观意识的干扰,使总体每一个单位都有
一定的概率被抽选为样本单位,每个单位能否入选是随机的。
u 特点
能有效地避免主观选样带来的倾向性误差(系统偏差), 使样本资料能够用于估计和推断总体的数量特征,而且 这种估计和推断得以建立在概率论和数理统计的科学理 论之上
可以计算和控制抽样误差,说明估计的可靠程度。
u作用:
在不可能或不必要进行全面调查时,利用概率抽样来推 断总体;
总体和参数(续)
通常所要估计的总体指标有
X
NX
一、 几个概念
(二)样本总体与样本指标
样本总体。简称样本(Sample),它是按照随机原则, 从总体中抽取的部分总体单位的集合体 。
样本容量:样本中所包含的个体的数量,一般用n表示。 在实际工作中,人们通常把n≥30的样本称为大样本, 而把n<30的样本称为小样本。
可以看成是一组随机变量。
设X1, X2,… , Xn是来自总体X 的一个样本,g(X1, X2,… , Xn) 是 X1, X2,… , Xn的一个函数。若 g 是连续函数,且 g 中不含任何未 知参数,则称 g(X1, X2,… , Xn) 是一个统计量。统计量也是一个随
机变量。
设x1, x2,… , xn 是相应于样本X1, X2,… , Xn的一个样本值, 则 称 g(x1, x2,… , xn ) 是统计量 g(X1, X2,… , Xn) 的一个观测值。
1 n 1
n i 1
(Xi
X )2
,
(4)样本比例:P =k/n,其中k为样本中某属性出现次数 s
概率抽样
(probability sampling)
u概率抽样也叫随机抽样,是指按随机原则抽取样本。
u随机原则,就是排除主观意识的干扰,使总体每一个单位都有
一定的概率被抽选为样本单位,每个单位能否入选是随机的。
u 特点
能有效地避免主观选样带来的倾向性误差(系统偏差), 使样本资料能够用于估计和推断总体的数量特征,而且 这种估计和推断得以建立在概率论和数理统计的科学理 论之上
可以计算和控制抽样误差,说明估计的可靠程度。
u作用:
在不可能或不必要进行全面调查时,利用概率抽样来推 断总体;
田间试验与统计方法第四章理论分布和抽样分布
![田间试验与统计方法第四章理论分布和抽样分布](https://img.taocdn.com/s3/m/4be487b4e43a580216fc700abb68a98270feac7e.png)
•
•事件间的关系
•A
•积事 件AB
•B
•和事件A+B
•A+B, “或A发生,或B发生”。 •AB, “A和B同时发生或相继发生”
•A
•B
•互斥事件
•A·B=V,事件A和B互斥或互不相容
•A
•B
•对立事件
•A+B=U,A·B=V,事件B为事件A的对立事件,并记B为
•
二、概 率
研究随机试验,仅知道可能发生哪些随机事件是不够的,还需了解各种随机事 件发生的可能性大小,以揭示这些事件的内在的统计规律性,从而指导实践。
• 如果每次抽5个单株,抽n=400次,则理论上我们能够得 到y=2的次数应为: • 理论次数=400×P(2)=400×0.3364=134.56(次)分布表(p=0.35,q=0.65)
•
•
受害株数(y)
•图4.1 棉株受危害的概率分布图 •(p=0.35,n=5)
这就要求有一个能够刻划事件发生可能性大小的数量指标, 这指标应该是事件本身所固有的,且不随人的主观意志而改变 ,人们称之为概率(probability)。
事件A的概率记为P(A)。
•
•二、概率 (一)概率的统计定义
思考:投掷一枚硬币,出现正面的概
率是多大?(0表示反面,1表示正 面)反复做它,那么所有出现正面 的结果平均值是多少?
• 随机变量是指随机变数所取的某一个实数值。表示随机现象 结果的变量,也就是在随机试验中被测定的量,所取得的值称 为观察值。
• 例1:抛硬币试验,两种结果:
•
用数“1”表示“币值面向上”, “0”表示“国徽面向上”
•
把 0,1作为变量y的取值
•
•事件间的关系
•A
•积事 件AB
•B
•和事件A+B
•A+B, “或A发生,或B发生”。 •AB, “A和B同时发生或相继发生”
•A
•B
•互斥事件
•A·B=V,事件A和B互斥或互不相容
•A
•B
•对立事件
•A+B=U,A·B=V,事件B为事件A的对立事件,并记B为
•
二、概 率
研究随机试验,仅知道可能发生哪些随机事件是不够的,还需了解各种随机事 件发生的可能性大小,以揭示这些事件的内在的统计规律性,从而指导实践。
• 如果每次抽5个单株,抽n=400次,则理论上我们能够得 到y=2的次数应为: • 理论次数=400×P(2)=400×0.3364=134.56(次)分布表(p=0.35,q=0.65)
•
•
受害株数(y)
•图4.1 棉株受危害的概率分布图 •(p=0.35,n=5)
这就要求有一个能够刻划事件发生可能性大小的数量指标, 这指标应该是事件本身所固有的,且不随人的主观意志而改变 ,人们称之为概率(probability)。
事件A的概率记为P(A)。
•
•二、概率 (一)概率的统计定义
思考:投掷一枚硬币,出现正面的概
率是多大?(0表示反面,1表示正 面)反复做它,那么所有出现正面 的结果平均值是多少?
• 随机变量是指随机变数所取的某一个实数值。表示随机现象 结果的变量,也就是在随机试验中被测定的量,所取得的值称 为观察值。
• 例1:抛硬币试验,两种结果:
•
用数“1”表示“币值面向上”, “0”表示“国徽面向上”
•
把 0,1作为变量y的取值
•
抽样分布
![抽样分布](https://img.taocdn.com/s3/m/2913f910a76e58fafab003fc.png)
x
/ n
x s/ n
N (0,1)
t=
N ( , )
2
t分布
总体方差未知或样本容量n小于30时,标准离差的分布呈t分布。
四、 t 分布
对于不同的自由度,t分布有不同的曲线。
四、 t 分布
( 1 ) t分布曲线左右对称,围绕平均数μt =0 向两侧递降。 (2)t分布受自由度df=n-1制约,每个df都有一条t分布曲线。 (3)df小,t值离散程度大。 (4)和正态分布相比,t分布的顶端偏低,尾部偏高,自由度
2 s1 F 2 s2
此F值具有s12的自由度df1=n1-1和s22的自由度 df2=n2-1。
六、 F 分布
df1 df1 df2 1 ( ) df1 df 2 2 F 2 2 2 f (F ) df1 df2 df1 df 2 df1 df2 ( ) ( ) (df1 F df2 ) 2 2 2
F分布是随自由度df1和df2进行变化的一组曲线。
F分布的概率累积函数
f (F )
F
0
f ( F )dF
六、F 分布
1
F分布的平均数μF=1 ,F的取值区间为[0,+∝ )
F分布曲线的形状仅决定于df1和df2。在df1=1或2时, 2 F分布曲线呈严重倾斜的反向J型,当df1≧ 3时,转
为左偏曲线。
第四章:统计数的分布——抽样分布
从总体中抽取的样本提供的信息仅是总体的一部分,它不能 提供完全准确的信息,必然存在着一定的误差。 对于样本容量相同的多次随机抽样样本,其统计量是变异的, 且其取值有一定的概率,即样本统计量也是一个随机变量,此 分布规律称为抽样分布(sampling distribution)。
第四章 抽样和抽样分布
![第四章 抽样和抽样分布](https://img.taocdn.com/s3/m/f0288e32eff9aef8941e0656.png)
从上面的计算得出两个结论:
n N 1
第一,不重置抽样的样本平均数的平均数(数
学期望)仍等于总体平均数 Ex X
第二,抽样平均数的标准差也是反映样本平均
数与总体平均数的平均误差程度。也称之为抽
样平均误差,或抽样标准误差,以 表示。且
等于重置抽样平均误差乘以修正因子即可。
(二)样本成数的分布
第二,抽样平均数的标准差反映样本平均数与 总体平均数的平均误差程度,称之为抽样平均
误差,或抽样标准误差,以 表示。
Ex Ex2
2
E xX
x X n
重置抽样的抽样平均误差等于总体标准 差除以样本单位数的平方根的
以上结论具有普遍意义(重置抽样):
设总体变量X:X1, X 2,, X N , 其平均数为 X 标准差为 X 。样本容量为n的变量:
x : x1, x2 ,, xn
x x1 x2 xn n
则有:1) Ex X
2)
2 x 2 X n
x X n
§3 抽样分布
一、重置抽样分布
★ 二、不重置抽样分布
三、抽样分布定理
二、不重置抽样分布
(一)样本平均数的分布
沿用上面的例子加以说明:
样本日工资平均数
样本变量 34 38
42
34
—
38
—
42
—
46
50
单位:元 46 50
— —
样本日工资的抽样分布
样本日平均工资(元) 36 38 40 42 44 46 48 合计
总体
样本分布
(sample distribution)
1. 一个样本中各观察值的分布 2. 也称经验分布 3. 当样本容量n逐渐增大时,样本分布逐渐
《管理统计学》焦建玲 第04章 抽样和抽样分布
![《管理统计学》焦建玲 第04章 抽样和抽样分布](https://img.taocdn.com/s3/m/e75d901b172ded630a1cb68f.png)
所对应的值为 20.483.下分位 数 也就是
第四节 抽样分布
• 2.2 t分布
• 设随机变量X ~ N (0,1).Y ~ 2 (n)相互独立,则随
机变量 t
X Y /n
的分布称为t分布,记着 t ~ t(n) ,其
中参数n称为自由度。随着自由度n趋于无穷,t分
布以标准正态分布为极限。当 n 50 时,一般无法在
0.3 0.25
df=2 df=10
尾巴越来越细
0.2
df=30 df=50
0.15
特点3:当n超过30时,其密度 0.1
0.05
曲线近乎与标准正态曲线重合 0
--22..25 --11..69 -1.3 --00..-471 -0.1 0.2 0.5 0.8 1.1 1.4 1.7
2 2.3
不同自由度的t分布密度曲线对比
第三节 点估计
• 1.无偏性 量 f (ˆ)
若 E(ˆ) ,则称ˆ 为 的无偏估计
无偏
f1U(nˆ1b) iased A
有偏
Biasef 2d(ˆ2 ) C
ˆ
E(ˆ1) , E(ˆ2 ) ,ˆ1是的无偏估计量,ˆ2不是的无偏估计量1
第三节 点估计
• 2.有效性,若 E(ˆ1) , E(ˆ2 ) ,但 var(ˆ1) var(ˆ2 ) 则称 ˆ1 比 ˆ2 更有效,
值 x 的抽样分布服从以总体均值为均值,以
第四节 抽样分布
• 如何查F分布上分位数表。比如要查上分位数,第 一自由度是8,第二自由度位5的分位数
f(x)
0.12
0.1
0.08
P(X>x)=α,x=Fα (m,n)
0.06
0.04
第四节 抽样分布
• 2.2 t分布
• 设随机变量X ~ N (0,1).Y ~ 2 (n)相互独立,则随
机变量 t
X Y /n
的分布称为t分布,记着 t ~ t(n) ,其
中参数n称为自由度。随着自由度n趋于无穷,t分
布以标准正态分布为极限。当 n 50 时,一般无法在
0.3 0.25
df=2 df=10
尾巴越来越细
0.2
df=30 df=50
0.15
特点3:当n超过30时,其密度 0.1
0.05
曲线近乎与标准正态曲线重合 0
--22..25 --11..69 -1.3 --00..-471 -0.1 0.2 0.5 0.8 1.1 1.4 1.7
2 2.3
不同自由度的t分布密度曲线对比
第三节 点估计
• 1.无偏性 量 f (ˆ)
若 E(ˆ) ,则称ˆ 为 的无偏估计
无偏
f1U(nˆ1b) iased A
有偏
Biasef 2d(ˆ2 ) C
ˆ
E(ˆ1) , E(ˆ2 ) ,ˆ1是的无偏估计量,ˆ2不是的无偏估计量1
第三节 点估计
• 2.有效性,若 E(ˆ1) , E(ˆ2 ) ,但 var(ˆ1) var(ˆ2 ) 则称 ˆ1 比 ˆ2 更有效,
值 x 的抽样分布服从以总体均值为均值,以
第四节 抽样分布
• 如何查F分布上分位数表。比如要查上分位数,第 一自由度是8,第二自由度位5的分位数
f(x)
0.12
0.1
0.08
P(X>x)=α,x=Fα (m,n)
0.06
0.04
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
卡方分布的密度函数曲线为: f (y ) K (y )
2 2 df / 2 1
e
y2 / 2
, y 2 0。
卡方分布的密度函数曲线的特点:
(1) 2分布受自由度的约束, 每一个自由度对应一条密度曲线;
(2)不对称。但随着自由度的增大, 曲线由偏斜渐趋于对称;
(3)df 30时,卡方分布密度曲线的形状 非常接近于正态分布曲线。
t分布的单侧、双侧临界值
求法与标准正态分布类似,只是多了个参数df:
附表4a给出了t分布的上侧临界值 t :
下侧临界值: t 双侧临界值:t (双侧)=t / 2
t
例二,求df=15时,α =0.05的上侧临界值,下侧临界值和双 侧临界值。
解:查表4a得到,上侧临界值t0.05 1.753; 下侧临界值 t0.05 1.753; 双侧临界值t0.05 (双侧) t0.05 / 2 t0.025 2.131
y1 y 2 ( 1 2 )
2 2 1 2 2
y1 y 2 ( 1 2 ) 1 1 n1 n2
2
12
n1
2 2
n2
定理:
2 2 以s1 和s2的加权平均 替代未知的 2
y1 y 2 ( 1 2 )
2 假定有两个正态总体,分别是N ( 1 , 12 )和N ( 2 , 2 )。从第一个
总体随机抽取容量为n1的样本,并独立地从第二个总体中抽取
2 容量为n2的样本。y1 , y 2 分别代表两个样本的平均数,s12 和s 2 分别
代表两个样本的标准差。
定理:y1 y 2是一个随机变量,它的分布是一个正态分布,即
3、以n为除数的样本方差 s 偏估计值。
2 不是σ2的无 0
4、s不是σ的无偏估计值。 再以样本容量n=4,n=8从上述总体中抽样,
并将抽出的全部样本列表
同样,可算得n=4时:
_
y
f y 324 4 f 81
_
2
_
y
8 f (y _ ) 2 54 2 3 y 81 3 4 n f
2
_
当n=8时:
_
y
f y f
_ 2
_
26244 4 6561
2
_
y
8 f (y _ ) 2187 1 3 2 y 6561 3 8 n f
抽样误差的概念: 抽样误差的度量:
y
2 y
2
n
n
y 称为标准误(standarderror, )。 SE
体,那么可以得到
无限多个随机样本。
随机样本1 2 3
……
无穷个样本
图4.1 总体和样本的关系示意图
如果从容量为N的有限总体抽样,若每次抽取容量
为n的样本,那么一共可以得到Nn 个样本(所有可
能的样本个数)。
抽样所得到的每一个样本可以计算一个平均数, 全部可能的样本都被抽取后可以得到许多平均数, 如
第四章 抽样分布
第一节 从一个正态总体中抽取的样本统计量的分布
第二节 从两个正态总体中抽取的样本统计量的分布
一、样本平均数的分布
1 总体标准差σ已知时的平均数的分布 2 总体标准差σ未知时的平均数的分布
二、样本方差的分布
1、总体标准差σ已知时的平均数分布
总体
如图4.1从一个 总体进行随机抽样 可以得到许多样本, 如果总体是无限总
(b)记81名男子的平均体重为y, 根据y的概率分布得
y 172 ,
y
n
29 81
3 .2
y ~ N (172 , 3.2 2 )
P (100 y 165 ) P( 100 y
y
y y
y
165 y
y
)
100 172 165 172 P( U ) 3 .2 3 .2 P ( 22 .5 U 2.19 ) 0.0143 0.00001 0.0143
y
(2) 该抽样分布的方差与母总体方差间存在如下关系:
2 y 2 n 相应地, y n
其中n为样本容量。抽样分布的标准差又称为
标准误,它可以度量抽样分布的变异。
假定用一个很小的总体 N=3,其观察值为2、
/2
例三,求卡方分布在df 15, 0.05时的上侧临界值、 下侧临界值和双侧临界值。
查表
解:上侧临界值
2 0.05
24.996;
下侧临界值:
2 10.05
2 0.95
查表
7.261;
双侧临界值:
2 0.05 / 2
2 0.025
查表
27.488,
2 1 0.05 / 2
y1、y2、 、ym 等。
如果将抽样所得到的所有可能的样本平均数 集合起来便构成一个新的总体,平均数就成 为这个新总体的变量。
由于每次随机抽样所得的平均数可能会存在
差异,所以由平均数构成的新总体也应该有
其分布,由平均数构成的新总体的分布,称
为平均数的抽样分布。
新总体与母总体在特征参数上存在函数关系。以平均 数抽样分布为例,这种关系可表示为以下两个方面。 (1) 该抽样分布的平均数 y 与母总体平均数相等。
_
y
2
s s
22 00
2 s0s2
s 0.0000
0
0
2
2 4 4 4 6 6
4
6 2 4 6 2 4
2
2 4 4 4 6 6
4
6 2 4 6 2 4
6
8 6 8 10 8 10
3
4 3 4 5 4 5
1
4 1 0 1 4 1
2
8 2 0 2 8 2
1.4142
2.8284 1.4142 0.0000 1.4142 2.8284 1.4142
2 (n1 1 s12 (n2 1) s 2 ) (n1 1) (n2 1)
1 1 n n 2 1
~ t n1 n2 2
~ t 2n2
当n1 n2 n时,简化为
y 1 y 2 ( 1 2 ) s s n
2 1 2 2
注意:总体标准差 σi未知且不相等时,两 但自由度的计算较为复杂。具体请参考
有关统计学书籍。
个样本平均数的和与差的分布仍为t分布,
3. 两个样本方差比的分布-F分布
2 从N ( 1 , 12 )和N ( 2 , 2 )两个正态总体中,抽出含量为n1和n2的样本, 2 分别求它们的方差s12和s2。
Nn
12 4 2 9 3
样本标准差s的平均数:
s 11.3136 1.257 s n 9 N
在统计上,如果所有可能样本的某一统计数等于
总体的相应参数,则称该统计数为总体相应参数
的无偏估计值(unbiased estimate)
_
1、y 是μ的无偏估计值。
2、s2是σ2的无偏估计值。
6
6
总 和
6
6
12
72
6
36
0
12
0
24
0.0000
11.3136
从表中我们可以算出样本平均数 y 的平均数:
_
y
Nn
_
y
36 4 9
以自由度为除数的样本方差的平均数:
s
2
s2 Nn
24 8 2 9 3
以样本容量为除数的样本方差的平均数:
s
2 0
2 s0
1
df 1 2
, 其中( p )
0
y p 1e y dy,
t的取值范围是( , );df n 1为自由度。
自由度(degree of freedom)
独立观测值的个数或者计算某一统计量时,取值不
受限制的变量的个数。
任何统计量的自由度都是n减去限制条件的个数。
查表
二、样本方差的分布
从方差为 2的正态总体中,随机抽取含量为n的样本,样本方差 s 2是一个随机变量,其数值随样本的不同而不同。
样本方差的分布:
2 先标准化样本方差得到一个无单位的纯数,记为 n 1,即
=
2 n 1
(n 1) s 2
2
,
它服从自由度为n 1的 2 分布(读作:卡方分布)。
t分布的密度函数曲线的特点:
(1) t分布受自由度df的制约,每一个自 由度对应一条密度函数曲线;
(2)关于t 0对称;
(3)形状同标准正态曲线类似。与标准正态曲线相比, t分布曲线的顶部略低,两尾部稍高而平。df越小,这种 趋势越明显。n 时,t分布与标准正态分布完全一致。
(4) t分布的平均数和标准差为t 0, t df /(df 2)
2
n
)
因此,在已知的情况下,y的概率分布是N ( ,
2
n
)。
y 换句话说,标准化后, U 服从标准正态分布。 / n
例一,假设男子的体重服从正态分布,其平均值=172 磅,标准差
=29磅。
(a)如果随机选择一名男子,求该男子体重在 磅到165磅之间的概率; 100 (b)如果81名男子被随机抽取组成样本,求样本平均值在 磅到165磅 100 之间的概率。
2 2 df / 2 1
e
y2 / 2
, y 2 0。
卡方分布的密度函数曲线的特点:
(1) 2分布受自由度的约束, 每一个自由度对应一条密度曲线;
(2)不对称。但随着自由度的增大, 曲线由偏斜渐趋于对称;
(3)df 30时,卡方分布密度曲线的形状 非常接近于正态分布曲线。
t分布的单侧、双侧临界值
求法与标准正态分布类似,只是多了个参数df:
附表4a给出了t分布的上侧临界值 t :
下侧临界值: t 双侧临界值:t (双侧)=t / 2
t
例二,求df=15时,α =0.05的上侧临界值,下侧临界值和双 侧临界值。
解:查表4a得到,上侧临界值t0.05 1.753; 下侧临界值 t0.05 1.753; 双侧临界值t0.05 (双侧) t0.05 / 2 t0.025 2.131
y1 y 2 ( 1 2 )
2 2 1 2 2
y1 y 2 ( 1 2 ) 1 1 n1 n2
2
12
n1
2 2
n2
定理:
2 2 以s1 和s2的加权平均 替代未知的 2
y1 y 2 ( 1 2 )
2 假定有两个正态总体,分别是N ( 1 , 12 )和N ( 2 , 2 )。从第一个
总体随机抽取容量为n1的样本,并独立地从第二个总体中抽取
2 容量为n2的样本。y1 , y 2 分别代表两个样本的平均数,s12 和s 2 分别
代表两个样本的标准差。
定理:y1 y 2是一个随机变量,它的分布是一个正态分布,即
3、以n为除数的样本方差 s 偏估计值。
2 不是σ2的无 0
4、s不是σ的无偏估计值。 再以样本容量n=4,n=8从上述总体中抽样,
并将抽出的全部样本列表
同样,可算得n=4时:
_
y
f y 324 4 f 81
_
2
_
y
8 f (y _ ) 2 54 2 3 y 81 3 4 n f
2
_
当n=8时:
_
y
f y f
_ 2
_
26244 4 6561
2
_
y
8 f (y _ ) 2187 1 3 2 y 6561 3 8 n f
抽样误差的概念: 抽样误差的度量:
y
2 y
2
n
n
y 称为标准误(standarderror, )。 SE
体,那么可以得到
无限多个随机样本。
随机样本1 2 3
……
无穷个样本
图4.1 总体和样本的关系示意图
如果从容量为N的有限总体抽样,若每次抽取容量
为n的样本,那么一共可以得到Nn 个样本(所有可
能的样本个数)。
抽样所得到的每一个样本可以计算一个平均数, 全部可能的样本都被抽取后可以得到许多平均数, 如
第四章 抽样分布
第一节 从一个正态总体中抽取的样本统计量的分布
第二节 从两个正态总体中抽取的样本统计量的分布
一、样本平均数的分布
1 总体标准差σ已知时的平均数的分布 2 总体标准差σ未知时的平均数的分布
二、样本方差的分布
1、总体标准差σ已知时的平均数分布
总体
如图4.1从一个 总体进行随机抽样 可以得到许多样本, 如果总体是无限总
(b)记81名男子的平均体重为y, 根据y的概率分布得
y 172 ,
y
n
29 81
3 .2
y ~ N (172 , 3.2 2 )
P (100 y 165 ) P( 100 y
y
y y
y
165 y
y
)
100 172 165 172 P( U ) 3 .2 3 .2 P ( 22 .5 U 2.19 ) 0.0143 0.00001 0.0143
y
(2) 该抽样分布的方差与母总体方差间存在如下关系:
2 y 2 n 相应地, y n
其中n为样本容量。抽样分布的标准差又称为
标准误,它可以度量抽样分布的变异。
假定用一个很小的总体 N=3,其观察值为2、
/2
例三,求卡方分布在df 15, 0.05时的上侧临界值、 下侧临界值和双侧临界值。
查表
解:上侧临界值
2 0.05
24.996;
下侧临界值:
2 10.05
2 0.95
查表
7.261;
双侧临界值:
2 0.05 / 2
2 0.025
查表
27.488,
2 1 0.05 / 2
y1、y2、 、ym 等。
如果将抽样所得到的所有可能的样本平均数 集合起来便构成一个新的总体,平均数就成 为这个新总体的变量。
由于每次随机抽样所得的平均数可能会存在
差异,所以由平均数构成的新总体也应该有
其分布,由平均数构成的新总体的分布,称
为平均数的抽样分布。
新总体与母总体在特征参数上存在函数关系。以平均 数抽样分布为例,这种关系可表示为以下两个方面。 (1) 该抽样分布的平均数 y 与母总体平均数相等。
_
y
2
s s
22 00
2 s0s2
s 0.0000
0
0
2
2 4 4 4 6 6
4
6 2 4 6 2 4
2
2 4 4 4 6 6
4
6 2 4 6 2 4
6
8 6 8 10 8 10
3
4 3 4 5 4 5
1
4 1 0 1 4 1
2
8 2 0 2 8 2
1.4142
2.8284 1.4142 0.0000 1.4142 2.8284 1.4142
2 (n1 1 s12 (n2 1) s 2 ) (n1 1) (n2 1)
1 1 n n 2 1
~ t n1 n2 2
~ t 2n2
当n1 n2 n时,简化为
y 1 y 2 ( 1 2 ) s s n
2 1 2 2
注意:总体标准差 σi未知且不相等时,两 但自由度的计算较为复杂。具体请参考
有关统计学书籍。
个样本平均数的和与差的分布仍为t分布,
3. 两个样本方差比的分布-F分布
2 从N ( 1 , 12 )和N ( 2 , 2 )两个正态总体中,抽出含量为n1和n2的样本, 2 分别求它们的方差s12和s2。
Nn
12 4 2 9 3
样本标准差s的平均数:
s 11.3136 1.257 s n 9 N
在统计上,如果所有可能样本的某一统计数等于
总体的相应参数,则称该统计数为总体相应参数
的无偏估计值(unbiased estimate)
_
1、y 是μ的无偏估计值。
2、s2是σ2的无偏估计值。
6
6
总 和
6
6
12
72
6
36
0
12
0
24
0.0000
11.3136
从表中我们可以算出样本平均数 y 的平均数:
_
y
Nn
_
y
36 4 9
以自由度为除数的样本方差的平均数:
s
2
s2 Nn
24 8 2 9 3
以样本容量为除数的样本方差的平均数:
s
2 0
2 s0
1
df 1 2
, 其中( p )
0
y p 1e y dy,
t的取值范围是( , );df n 1为自由度。
自由度(degree of freedom)
独立观测值的个数或者计算某一统计量时,取值不
受限制的变量的个数。
任何统计量的自由度都是n减去限制条件的个数。
查表
二、样本方差的分布
从方差为 2的正态总体中,随机抽取含量为n的样本,样本方差 s 2是一个随机变量,其数值随样本的不同而不同。
样本方差的分布:
2 先标准化样本方差得到一个无单位的纯数,记为 n 1,即
=
2 n 1
(n 1) s 2
2
,
它服从自由度为n 1的 2 分布(读作:卡方分布)。
t分布的密度函数曲线的特点:
(1) t分布受自由度df的制约,每一个自 由度对应一条密度函数曲线;
(2)关于t 0对称;
(3)形状同标准正态曲线类似。与标准正态曲线相比, t分布曲线的顶部略低,两尾部稍高而平。df越小,这种 趋势越明显。n 时,t分布与标准正态分布完全一致。
(4) t分布的平均数和标准差为t 0, t df /(df 2)
2
n
)
因此,在已知的情况下,y的概率分布是N ( ,
2
n
)。
y 换句话说,标准化后, U 服从标准正态分布。 / n
例一,假设男子的体重服从正态分布,其平均值=172 磅,标准差
=29磅。
(a)如果随机选择一名男子,求该男子体重在 磅到165磅之间的概率; 100 (b)如果81名男子被随机抽取组成样本,求样本平均值在 磅到165磅 100 之间的概率。