第六章统计量及其抽样分布(统计学贾俊平)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1908年在一篇以“Student”为笔名的论文中首次 提出的。
2 分布, X ~ N ( 0 , 1 ) , Y ~ ( n ) 2. 定义6.4 设随机变量 X 其分布称为t分布, 且 X与Y 独立,则 t Y /n
记为t(n),其中n为自由度。
6.3.2
3. t分布的概率密度函数曲线
2. 定义6.5
设随机变量 Y与Z 相互独立,且 Y与Z 2 分别服从自由度为m和n的 分布,随机变量X
Y/ m nY 有如下表达式: X Z/ n mZ
则称X服从第一自由度为m,第二自由度为n的
~ F ( m , n ) F分布,记为F(m,n),简记为 X
6.3.3
3. F分布的概率密度函数曲线
平方和
n
i 1
X i2 服从自由度为n的 2 分布。
3. 自由度是统计学中常用的一个概念,可以解释 为独立变量的个数。
6.3.1
2
2
分布
X 4. 设 X~ N ( , ) ,则 Z ~N ( 0 , 1 )
1 ) 令 Y Z2,则 Y ~ 2( 2 ( n ) 分布的概率密度函数曲线为 5.
n X 10 9 . 9 10 P ( Z 1 ) P ( ) P ( Z 1 ) P (X 9 .9 ) 0 . 1 0 . 1 1 ( 1 ) 1 0 . 8413 0 . 1587 1 P ( Z 1 )
统计量概念的例题
, X , , X 【例6.1】设 X 是从某总体X中抽取的 1 2 n
一个样本,判断下列各量是否为统计量。
1 n (1 ) X Xi n i1
2 ( 3 ) [X E ( X )] i i 1 n
1n 2 ( 2 ) S (X X ) i ni 1
例题讲解
【例6.4】设从一个均值 10 、标准差 0 . 6 的总
中随机选取容量 n 36 的样本。假定该 是很
要求: ( 1 ) 计算样本均值 X 小于 9 . 9 的近似概率。 2 2 解: 根据中心极限定理, X ~ N(, ) 故 X ~ N ( 10 , 0 . 1 )
说明用样本均值 X 去估计总体均值 时,平均来说 没有偏差;当n越来越大时, X 的离散程度越来越小, 即用 X 估计 越来越准确。
n
6.4.1
样本均值的分布
4. 实际应用中,总体的分布并不总是正态分布或近似 正态分布,此时 X 的分布将取决于总体分布的情况。 但由中心极限定理知道,不管总体的分布是什么, 此时样本均值 X 的分布总是近似正态分布,只要 总体的 2有限。 5. 无论对什么总体分布,设总体均值为 ,总体方差
1 1 为 ,总有 E ( X ) E( Xi ) E(Xi ) n n 2 1 1 D ( X )D D (Xi ) ( Xi ) 2 n n n X 2 ~ N(0 , 1 ) X ~ N( , ) 即 所以n较大时, / n n
2
6.4.1
6. 由图形来观察:
p( x)
F分布
F(1,10) F(5,10)
F(10,10)
O
x
图6-3
F分布的概率密度函数曲线
6.3.3
5. F分布的性质和特点:
F分布
n), (1) 设随机变量X服从 F(m,
n ( X ) , n 2 则数学期望:E n 2 2 2 n ( m n 2 ) ( X ) , n 4 方差: D m ( n 2 )( n 4 )
2
Xi E(X) (4) D(X)
解: (1)(2)是统计量,(3)(4)不是统计量, 因为(3)(4)依赖总体分布的未知参数。
6.1.2
常用的统计量:
常用统计量
1 n (1 ) X Xi是样本的均值,反映总体期望的信息 n i1
n 1 2 2 是样本方差,反映总体方 ( 2 ) S ( X X ) i n 1 i 1
3) (2)抽检的100个元件中前3个不合格(记 为 Xi=
i1 3 i1
解: T1 X i
i 1
100
T X X X 2 1 2 3 T1为充分统计量。
§6.2 关于分布的几个概念
6.2.1 抽样分布 6.2.2 渐近分布(略) 6.2.3 随机模拟获得的近似分布(略)
X(1)和 X(n)分别为最小和最大次序统计量。
R X X ( n ) ( n ) ( 1 ) 称为样本极差。
6.1.4
充分统计量
充分统计量是指统计量的加工过程中一点信息都不损 失的统计量。 【例 6.2】某电子元件厂欲了解其产品的不合格率 p , 质检员抽检了100个电子元件,检查结果是,除前3个 1 , X = 1 , X = 1 是不合格品(记为 X )外,其他都是 1 2 3 0 , i 4 ~ 100 合格品(记为X )。当企业领导问及抽检 i 结果时,质检员给出如下两种回答: 100 3) (1)抽检的100个元件中有3个不合格(记 为 Xi=
6.1.3
定义6.2
次序统计量
, X , , X 设X 是从总体X中抽取的 1 2 n
(i)
X 容量为n的一个样本,
称为第i个次序统计量,
它是样本 ( 满足如下条件的函数: X , X , , X ) 1 2 n
, x , , x 每当样本得到一组观测值 x 时, 1 2 n
x x 其由小到大的顺序 x 中, ( 1 ) ( 2 ) ( n ) 第k个值 x ( k ) 就作为次序统计量X ( k ) 的观测值, , X , , X 而X ( 1 ) ( 2 ) ( n ) 称为次序统计量。
(2) F分布与t分布的关系
2 若 X ~t(n ~F ( 1 , n ) ) 分布,则 X
§6.4样本均值的分布与中心极限定理
6.4.1 样本均值的分布 6.4.2 中心极限定理
6.4.1
样本均值的分布
, X , , X 是从某一总体中抽出的随机样本, 1. 设 X 1 2 n , X , , X 则X 为互相独立且与总体有相同分布 1 2 n 的随机变量。 2. 要想知道 X 的分布,必须知道总体分布。 由于正态分布是最常见的分布之一,所以主要介绍即 在总体分布为正态分布 N ( , 2)时样本均值 X 的分布。 ( , 2)时,有 3. 在总体分布为正态分布 N 2 , ) X 的抽样分布仍为正态分布,即 X ~ N(
第 6 章 统计量及其抽样分布
第 6 章 统计量及其抽样分布
§6.1 §6.2 §6.3 §6.4 §6.5 §6.6 §6.7 统计量 关于分布的几个概念 由正态分布导出的几个重要分布 样本均值的分布与中心极限定理 样本比例的抽样分布 两个样本平均值之差的分布 关于样本方差的分布
学习目标
1. 理解统计量与分布的几个概念 2. 掌握t、卡方、F三大分布 3. 掌握单总体参数(均值/比例/方差)推断 时样本统计量的分布 4. 掌握双总体参数(均值差)推断时样本统 计量的分布
差的信息。样本标准差S也是常用的统计量。
6.1.2
常用统计量
s 是样本变异系数,反映总体变异系数C (3)V X D( X ) 的信息。其中总体变异系数定义为 C E(X )
它反映了随机变量在以它的均值为单位时,取 值的离散程度。此统计量取消了均值不同对不 同总体的离散程度的影响,常用来刻画均值不 同时,不同总体的离散程度。在投资项目的风. 险分析中、不同群体或行业的收入差距描述中 有广泛的应用。
6.2.1
抽样分布
1. 统计量的分布叫抽样分布。
2.某个样本统计量的抽样分布: 从理论上说就是在重复选取容量为n的样本时,由 每一个样本算出的该统计量数值的概率分布。
2 3. 正态条件下,主要有 分布、t分布、F分布。
§6.3由正态分布导出的几个重要分布
6.3.1 6.3.2 t分布 6.3.3 F分布
p( x)
n=1
n=10
n=4
n=20
2 ( n )分布的概率密度函数曲线 图6-1
x
6.3.1
2 6. 分布的性质和特点:
2
分布
(1) 分布的变量值始终为正的;
(2) 分布的形状取决于自由度n的大小,通常为 不对称分布,但随着自由度的增大逐渐趋于对称, 2 当n 时, 分布的极限分布是正态分布;
f (x)
x
f (x)
x
f (x)
x
n30 时 x 的抽样分布
f (x)
x
f (x)
x
f (x)
x
x
x
x
:设从均值为 ,方差为 2 的一个任意 总体中抽取样本量为n的样本,当n充分大时,样 本均值X 的抽样分布近似服从均值为 、方差为 2 / n 正态分布 注: 1.中心极限定理要求n充分大,那么多大叫充分大呢?
2 分布
6.3.1
2
分布
2 1. 分布由阿贝(Abbe)1863年首先提出,后来由
海尔墨特(Hermert)和卡· 皮尔逊(K.Pearson)分别 于1875年和1900年推导出来的。 , X , , X 2. 定义6.3 设随机变量 X 相互独立, 1 2 n 1) ,则它们的 且 X i 服从标准正态分布 N(0,
§6.1 统计量
6.1.1 6.1.2 6.1.3 6.1.4 统计量的概念 常用统计量 次序统计量 充分统计量
6.1.1
1. 统计量的定义:
统计量的概念
, X , , X (1)定义6.1 设 X 是从总体X中抽取的 1 2 n
容量为n的一个样本,如果由此样本构造一个 ( X , X , , X ) 函数 T ,不依赖于任何未知 1 2 n ( X , X , , X ) 参数,则称函数 T 为一个 1 2 n 统计量(或样本统计量)。 后, , x , , x (2)当获得样本的一组具体观测值 x 1 2 n 代入T计算的数值称为一个具体的统计量值。
这与总体的分布形状有关。总体偏离正态越远,则 要求n越大。 2.实际应用中,由于总体的分布未知,我们常要求n≥30。 3.大样本与小样本问题。在样本量固定的条件下进行的 统计推断、问题分析,都称为小样本问题;而在样本 量n→∞的条件下进行的统计推断、问题分析则称为大 样本问题。一般统计学中的n≥30为大样本,n<30为 小样本只是一种经验说法。
样本均值的分布
X ~ N( , ) n
2
10
n4 x 5
n 16 x 2.5
50 总体分布
X
x 50 抽样分布
X
6.4.2
中心极限定理
中心极限定理:设从均值为 ,方差为 2 的一个任意 总体中抽取样本量为n的样本,当n充分大时,样 本均值X 的抽样分布近似服从均值为 、方差为 2 / n 正态分布
p( x)
t分布
N(0,1) t(13) t(4)
0
x
图6-2
t分布的概率密度函数曲线
6.3.2
4. t分布的性质和特点:
t分布
(1)以0为中心,左右对称的单峰分布;
( t ) 0 , n 2 (2) t分布的数学期望为 E : n 方差为: D ( t) , n 3 ,显然比N(0,1)大; n 2
2 2 ( ) n , D ( ) 2 n (3) 数学期望和方差分别为 E
2 2 U ~ ( n ) , V ~ ( n ) 若 ,且独立, 1 2 (4) 可加性:
2 U V ~ ( n n ) 则 1 2
6.3.2
t分布
1. t分布也称学生氏分布,是高塞特(W.S.Gosset)于
一个任 意分布 的总体
X
n
当样本容量足 够大时(n 30) ,样本均值的 抽样分布逐渐 趋于正态分布
总体期望 ,方差 2 X
X
6.4.2
f ( x)
中心极限定理
f ( x) f ( x)
抽样分布趋于正态分布的过程
总体分布形状
f (x)
x
f (x)
x
f (x)
x
n2 时 x 的抽样分布 n4 时 x 的抽样分布
(3)t分布是一簇曲线,其形态变化与n(确切地说 与自由度)大小有关。自由度越小,t分布曲线越 低平;自由度越大,t分布曲线越接近标准正态分 布(u分布)曲线 ,在自由度大于30的情况下,t 分布的曲线就很接近正态分布了。
6.3.3 F分布
1. F分布是统计学家费希尔首先提出的。F分布 有着广泛的应用,如在方差分析、回归方程的 显著性检验中都有着重要的地位。
2 分布, X ~ N ( 0 , 1 ) , Y ~ ( n ) 2. 定义6.4 设随机变量 X 其分布称为t分布, 且 X与Y 独立,则 t Y /n
记为t(n),其中n为自由度。
6.3.2
3. t分布的概率密度函数曲线
2. 定义6.5
设随机变量 Y与Z 相互独立,且 Y与Z 2 分别服从自由度为m和n的 分布,随机变量X
Y/ m nY 有如下表达式: X Z/ n mZ
则称X服从第一自由度为m,第二自由度为n的
~ F ( m , n ) F分布,记为F(m,n),简记为 X
6.3.3
3. F分布的概率密度函数曲线
平方和
n
i 1
X i2 服从自由度为n的 2 分布。
3. 自由度是统计学中常用的一个概念,可以解释 为独立变量的个数。
6.3.1
2
2
分布
X 4. 设 X~ N ( , ) ,则 Z ~N ( 0 , 1 )
1 ) 令 Y Z2,则 Y ~ 2( 2 ( n ) 分布的概率密度函数曲线为 5.
n X 10 9 . 9 10 P ( Z 1 ) P ( ) P ( Z 1 ) P (X 9 .9 ) 0 . 1 0 . 1 1 ( 1 ) 1 0 . 8413 0 . 1587 1 P ( Z 1 )
统计量概念的例题
, X , , X 【例6.1】设 X 是从某总体X中抽取的 1 2 n
一个样本,判断下列各量是否为统计量。
1 n (1 ) X Xi n i1
2 ( 3 ) [X E ( X )] i i 1 n
1n 2 ( 2 ) S (X X ) i ni 1
例题讲解
【例6.4】设从一个均值 10 、标准差 0 . 6 的总
中随机选取容量 n 36 的样本。假定该 是很
要求: ( 1 ) 计算样本均值 X 小于 9 . 9 的近似概率。 2 2 解: 根据中心极限定理, X ~ N(, ) 故 X ~ N ( 10 , 0 . 1 )
说明用样本均值 X 去估计总体均值 时,平均来说 没有偏差;当n越来越大时, X 的离散程度越来越小, 即用 X 估计 越来越准确。
n
6.4.1
样本均值的分布
4. 实际应用中,总体的分布并不总是正态分布或近似 正态分布,此时 X 的分布将取决于总体分布的情况。 但由中心极限定理知道,不管总体的分布是什么, 此时样本均值 X 的分布总是近似正态分布,只要 总体的 2有限。 5. 无论对什么总体分布,设总体均值为 ,总体方差
1 1 为 ,总有 E ( X ) E( Xi ) E(Xi ) n n 2 1 1 D ( X )D D (Xi ) ( Xi ) 2 n n n X 2 ~ N(0 , 1 ) X ~ N( , ) 即 所以n较大时, / n n
2
6.4.1
6. 由图形来观察:
p( x)
F分布
F(1,10) F(5,10)
F(10,10)
O
x
图6-3
F分布的概率密度函数曲线
6.3.3
5. F分布的性质和特点:
F分布
n), (1) 设随机变量X服从 F(m,
n ( X ) , n 2 则数学期望:E n 2 2 2 n ( m n 2 ) ( X ) , n 4 方差: D m ( n 2 )( n 4 )
2
Xi E(X) (4) D(X)
解: (1)(2)是统计量,(3)(4)不是统计量, 因为(3)(4)依赖总体分布的未知参数。
6.1.2
常用的统计量:
常用统计量
1 n (1 ) X Xi是样本的均值,反映总体期望的信息 n i1
n 1 2 2 是样本方差,反映总体方 ( 2 ) S ( X X ) i n 1 i 1
3) (2)抽检的100个元件中前3个不合格(记 为 Xi=
i1 3 i1
解: T1 X i
i 1
100
T X X X 2 1 2 3 T1为充分统计量。
§6.2 关于分布的几个概念
6.2.1 抽样分布 6.2.2 渐近分布(略) 6.2.3 随机模拟获得的近似分布(略)
X(1)和 X(n)分别为最小和最大次序统计量。
R X X ( n ) ( n ) ( 1 ) 称为样本极差。
6.1.4
充分统计量
充分统计量是指统计量的加工过程中一点信息都不损 失的统计量。 【例 6.2】某电子元件厂欲了解其产品的不合格率 p , 质检员抽检了100个电子元件,检查结果是,除前3个 1 , X = 1 , X = 1 是不合格品(记为 X )外,其他都是 1 2 3 0 , i 4 ~ 100 合格品(记为X )。当企业领导问及抽检 i 结果时,质检员给出如下两种回答: 100 3) (1)抽检的100个元件中有3个不合格(记 为 Xi=
6.1.3
定义6.2
次序统计量
, X , , X 设X 是从总体X中抽取的 1 2 n
(i)
X 容量为n的一个样本,
称为第i个次序统计量,
它是样本 ( 满足如下条件的函数: X , X , , X ) 1 2 n
, x , , x 每当样本得到一组观测值 x 时, 1 2 n
x x 其由小到大的顺序 x 中, ( 1 ) ( 2 ) ( n ) 第k个值 x ( k ) 就作为次序统计量X ( k ) 的观测值, , X , , X 而X ( 1 ) ( 2 ) ( n ) 称为次序统计量。
(2) F分布与t分布的关系
2 若 X ~t(n ~F ( 1 , n ) ) 分布,则 X
§6.4样本均值的分布与中心极限定理
6.4.1 样本均值的分布 6.4.2 中心极限定理
6.4.1
样本均值的分布
, X , , X 是从某一总体中抽出的随机样本, 1. 设 X 1 2 n , X , , X 则X 为互相独立且与总体有相同分布 1 2 n 的随机变量。 2. 要想知道 X 的分布,必须知道总体分布。 由于正态分布是最常见的分布之一,所以主要介绍即 在总体分布为正态分布 N ( , 2)时样本均值 X 的分布。 ( , 2)时,有 3. 在总体分布为正态分布 N 2 , ) X 的抽样分布仍为正态分布,即 X ~ N(
第 6 章 统计量及其抽样分布
第 6 章 统计量及其抽样分布
§6.1 §6.2 §6.3 §6.4 §6.5 §6.6 §6.7 统计量 关于分布的几个概念 由正态分布导出的几个重要分布 样本均值的分布与中心极限定理 样本比例的抽样分布 两个样本平均值之差的分布 关于样本方差的分布
学习目标
1. 理解统计量与分布的几个概念 2. 掌握t、卡方、F三大分布 3. 掌握单总体参数(均值/比例/方差)推断 时样本统计量的分布 4. 掌握双总体参数(均值差)推断时样本统 计量的分布
差的信息。样本标准差S也是常用的统计量。
6.1.2
常用统计量
s 是样本变异系数,反映总体变异系数C (3)V X D( X ) 的信息。其中总体变异系数定义为 C E(X )
它反映了随机变量在以它的均值为单位时,取 值的离散程度。此统计量取消了均值不同对不 同总体的离散程度的影响,常用来刻画均值不 同时,不同总体的离散程度。在投资项目的风. 险分析中、不同群体或行业的收入差距描述中 有广泛的应用。
6.2.1
抽样分布
1. 统计量的分布叫抽样分布。
2.某个样本统计量的抽样分布: 从理论上说就是在重复选取容量为n的样本时,由 每一个样本算出的该统计量数值的概率分布。
2 3. 正态条件下,主要有 分布、t分布、F分布。
§6.3由正态分布导出的几个重要分布
6.3.1 6.3.2 t分布 6.3.3 F分布
p( x)
n=1
n=10
n=4
n=20
2 ( n )分布的概率密度函数曲线 图6-1
x
6.3.1
2 6. 分布的性质和特点:
2
分布
(1) 分布的变量值始终为正的;
(2) 分布的形状取决于自由度n的大小,通常为 不对称分布,但随着自由度的增大逐渐趋于对称, 2 当n 时, 分布的极限分布是正态分布;
f (x)
x
f (x)
x
f (x)
x
n30 时 x 的抽样分布
f (x)
x
f (x)
x
f (x)
x
x
x
x
:设从均值为 ,方差为 2 的一个任意 总体中抽取样本量为n的样本,当n充分大时,样 本均值X 的抽样分布近似服从均值为 、方差为 2 / n 正态分布 注: 1.中心极限定理要求n充分大,那么多大叫充分大呢?
2 分布
6.3.1
2
分布
2 1. 分布由阿贝(Abbe)1863年首先提出,后来由
海尔墨特(Hermert)和卡· 皮尔逊(K.Pearson)分别 于1875年和1900年推导出来的。 , X , , X 2. 定义6.3 设随机变量 X 相互独立, 1 2 n 1) ,则它们的 且 X i 服从标准正态分布 N(0,
§6.1 统计量
6.1.1 6.1.2 6.1.3 6.1.4 统计量的概念 常用统计量 次序统计量 充分统计量
6.1.1
1. 统计量的定义:
统计量的概念
, X , , X (1)定义6.1 设 X 是从总体X中抽取的 1 2 n
容量为n的一个样本,如果由此样本构造一个 ( X , X , , X ) 函数 T ,不依赖于任何未知 1 2 n ( X , X , , X ) 参数,则称函数 T 为一个 1 2 n 统计量(或样本统计量)。 后, , x , , x (2)当获得样本的一组具体观测值 x 1 2 n 代入T计算的数值称为一个具体的统计量值。
这与总体的分布形状有关。总体偏离正态越远,则 要求n越大。 2.实际应用中,由于总体的分布未知,我们常要求n≥30。 3.大样本与小样本问题。在样本量固定的条件下进行的 统计推断、问题分析,都称为小样本问题;而在样本 量n→∞的条件下进行的统计推断、问题分析则称为大 样本问题。一般统计学中的n≥30为大样本,n<30为 小样本只是一种经验说法。
样本均值的分布
X ~ N( , ) n
2
10
n4 x 5
n 16 x 2.5
50 总体分布
X
x 50 抽样分布
X
6.4.2
中心极限定理
中心极限定理:设从均值为 ,方差为 2 的一个任意 总体中抽取样本量为n的样本,当n充分大时,样 本均值X 的抽样分布近似服从均值为 、方差为 2 / n 正态分布
p( x)
t分布
N(0,1) t(13) t(4)
0
x
图6-2
t分布的概率密度函数曲线
6.3.2
4. t分布的性质和特点:
t分布
(1)以0为中心,左右对称的单峰分布;
( t ) 0 , n 2 (2) t分布的数学期望为 E : n 方差为: D ( t) , n 3 ,显然比N(0,1)大; n 2
2 2 ( ) n , D ( ) 2 n (3) 数学期望和方差分别为 E
2 2 U ~ ( n ) , V ~ ( n ) 若 ,且独立, 1 2 (4) 可加性:
2 U V ~ ( n n ) 则 1 2
6.3.2
t分布
1. t分布也称学生氏分布,是高塞特(W.S.Gosset)于
一个任 意分布 的总体
X
n
当样本容量足 够大时(n 30) ,样本均值的 抽样分布逐渐 趋于正态分布
总体期望 ,方差 2 X
X
6.4.2
f ( x)
中心极限定理
f ( x) f ( x)
抽样分布趋于正态分布的过程
总体分布形状
f (x)
x
f (x)
x
f (x)
x
n2 时 x 的抽样分布 n4 时 x 的抽样分布
(3)t分布是一簇曲线,其形态变化与n(确切地说 与自由度)大小有关。自由度越小,t分布曲线越 低平;自由度越大,t分布曲线越接近标准正态分 布(u分布)曲线 ,在自由度大于30的情况下,t 分布的曲线就很接近正态分布了。
6.3.3 F分布
1. F分布是统计学家费希尔首先提出的。F分布 有着广泛的应用,如在方差分析、回归方程的 显著性检验中都有着重要的地位。