概率论与数理统计第四章统计量及其分布(李念伟)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
概率论与数理统计第四章统计量及其分布(李念伟)
第4章统计量及其分布
幻灯片2
本章转入课程的第二部分
数理统计
从历史的典籍中,人们不难发现许多关于钱粮、户口、地震、水灾等等的记载,说明人
们很早就开始了统计的工作.
但是当时的统计,只是对有关事实的简单记录和整理,而没有在一定理论的指导下,作
出超越这些数据范围之外的推断.
到了十九世纪末二十世纪初,随着近代数学和概率论的发展,才真正诞生了数理统计学
这门学科.
数理统计学是通过收集数据、分析数据并以此对所研究的问题推断出所需结论的科学. 数理统计对数据的分析处理要借助于概率论方法和计算机的计算. 计算机的发展为数据处理提供了强有力的技术支持,这就大大促进了数理统计学的发展.
数理统计不同于一般的资料统计,它更侧重于应用随机现象本身的规律性进行资料的收集、整理和分析.
然而数理统计所考察的数据都带有随机性(偶然性) 的误差. 这就使得根据这种数据所作出的结论具有不确定性.
幻灯片 4
由于大量随机现象必然呈现出它的规律性,因而从理论上讲,只要对随机现象进行足够多次观察,被研究的随机现象的规律性一定能清楚地呈现出来.4.1 总体与样本
一个统计问题总有它明确的研究对象. 我们把所研究对象的全体称为总体.
4.1.1 总体与个体
总体中包含的每个元素称为个体.
如将“一批灯泡的寿命”作为研究对象总体,用X 表示.则灯泡的个数就是总体容量.
然而每一个个体在呈现总体共性的同时会呈现出其独有的个性. 随机抽取一支灯泡,其寿命显然不能代表“一批灯泡的寿命”,它只是总体X 的一个取值,因而总体X 是一个随机变量.
总体的特征属性必然反映到每一个个体上, 我们通过对个体特征的观测,汇集总体的特征属性.
每支灯泡的寿命是由总体寿命X 的分布规律所决定的. 所以对总体的研究就相当于对随机变量X 的研究.X 的分布称为总体分布.
幻灯片 6
为推断总体的特征,需按一定规则从总体中抽取若干个体进行观测试验,以获得有关总体的信息,这一抽取过程称为“抽样”,所抽取的部分个体称为样本. 样本中所包含的个体数目称为样本容量.
4.1.2 样本
样本容量为5.
抽取5个灯泡测试寿命
由于样本是从总体表示中随机抽取的,抽取前不能预知抽取的结果,即样本也是随机变量,通常表示为12,,,()
n X X X n 为样本容量
2.独立性:X 1,X 2,…,X n 相互独立.
由于抽样的目的是为了对总体进行统计推断,为使抽取的样本能很好地反映总体的信息,所以抽样时要使总体中每个个体抽到的机会均等,并且每次抽样的结果不互相影响.
这样抽取的样本X 1,X 2,…,X n 满足:1.代表性:样本中每一个X i 都与总体X 的分
布相同.
这样的样本称为简单随机样本.
一旦取得一个样本,就得到的是n 个具体的数据x 1, x 2,…, x n ,称之为样本观测值,简称样本值, 记作(x 1,x 2,…,x n ) .
幻灯片 8
随机抽样分类
1.简单随机抽样:在总体中直接抽取样本.
2.分层随机抽样:将总体分类,在不同类中分别
抽取样本.
3.整群随机抽样:将总体分“块”,将每一块作为
一个个体;整块抽样.
4.多阶随机抽样:先作整群随机抽样,在抽取得
“群体”中再随机抽样.
5.系统随机抽样(等距抽样):将总体随机排序编号,
按一定的步长抽样.
121
(,,,)()
n
n i i F x x x F x ==∏ 设为取自总体X 的样本,则
12,,,n X X X 称为的样本分布函数.
12,,,n X X X 对于离散总体X , 其分布列为()()
i i i P X x p x ==121
(,,,)()
n
n i i p x x x p x ==∏ 称为的样本分布列.12,,,n X X X 称为的样本密度函数.
12,,,n X X X 121
(,,,)()
n
n i i f x x x f x ==∏ 对于连续总体X , 其密度函数为()
f x
幻灯片 10
数理统计具有“部分推断整体”的特征.需要强调说明一点:
因此由样本推断总体是“不完全归纳推理”. 它不同于经典数学中
的“演绎推理”.即由“条件”并非必然导致“结论”,而我们要做的是使由“条件”导致“结论”的可能性(概率)尽可能大.
但客观上我们抽取的样本是有限的,也就是说, 我们获得的只是局部观测资料,它不可能包括研究对象的全部信息. 因而由此作出的推断必然具有一定的片面性.
要使由样本推断总体得出的结论可靠性大,就需要对样本进行“加工处理”,即构造一些样本函数,把样本中所含的“有用信息”集中起来.4.2 统计量及其分布
4.2.1 统计量与枢轴量
定义设是取自总体X 的一个样本,若样本函数g ( )中不包含任何未知参数,则称g ( )为统计量.
12,,n X X X 12,,n X X X 12,,n X X X 12(,,)n g x x x 12(,,)n x x x 若是一组样本观测值,则称为统计值.
幻灯片 12
定义设X 1,X 2,…,X n 是取自总体X 的一个样本, h (X 1,X 2,…,X n ;θ)是含有未知参数θ的样本函数,若h (X 1,X 2,…,X n ;θ)的概率分布已知,则称h (X 1,X 2,…,X n ;θ)为枢轴量.
2
0~(,)X N μσ20σ12,,,n X X X 例1 设总体,其中μ未知,已知,是取自总体的一个样本.11n
i i X n =∑22
1
1n
i
i X
σ=∑2
1
1()1n i
i X n μ=--∑10
X n
σ-判断统计量和枢轴量.
解前两个为统计量,第三个为枢轴量.
4.2.2 样本均值与样本方差样本均值
样本方差
1
1n
i
i X X n ==∑2
2
11()1n i
i S X X n ==--∑它反映了总体均值的信息
它反映了总体方差的信息
2
2
1
1()
n i i S X X n ==-∑未修正的样本方差
幻灯片 14
由随机变量X 矩的概念,对于总体X ,若X k 的期望存在(k 为非负整数),则称E (X k ) 为总体k 阶原点矩. 记作若[X -E (X )]k 的期望存在,则称E [X -E (X )]k
为总体k 阶中心矩.
记作()
k k E X μ=[()]k k E X E X υ=-4.2.3总体矩与样本矩
样本k 阶原点矩
样本k 阶中心矩
1
1n
k
i
U X
n
=
=∑
1
1
()
n
k
k i
i
V X X
n
=
=-
∑k=1,2,…
它反映了总体K阶矩
的信息
它反映了总体K阶
中心矩的信息
k=1,2,…
4.2.3 样本矩
幻灯片16
4.3 抽样分布
统计量为样本的函数,由样本是随机变量,故统计量也是随机变量,因而具有概率分布,统
计量的分布称为“抽样分布”.
抽样分布就是通常的随机变量函数的分布.
这一分布取决于统计量的形式. 研究统计量的性
质和评价一个统计推断的优良性,完全取决于其
抽样分布的性质.
4.3.2分布
2
χ注“自由度”是指能够自由取值的变量的个数.1°X 1, X 2,…,X k 独立, X i ~
(n i ),(i=1,2,…,k ),则2
χ2
121~(...)k
i k i X n n n χ=+++∑(2)性质:
2°若X~
(n ),则有E (X )=n , D (X )=2n 2
χ2
2
1
n
i i X χ==∑(1)定义:设独立且同为标准正态分布,则称
12,,,n X X X 2
χ22
~()
n χχ服从n 个自由度的分布,记作
幻灯片 18
(3)
的密度函数曲线2()n χ随着n 的增大,曲线逐渐趋于平缓,对称.
(n =1)
(n =10)
x
f (x )
解(1)2()
n χ(2) 由题意得例1(1)设是来自总体的样本,
则服从( )分布.12,,,n X X X 2(,)N μσ21
()n
i i X μσ
=-∑
(2)设是取自总体N (0,4) 的样本,
服从( )分布.1234,,,X X X X 2212340.05(2)0.01(34)X X X X -+-12342~(0,20)
34~(0,100)
X X N X X N -??
-?12340.05(2)~(0,1)0.01(34)~(0,1)
X X N X X N ?-??-??2
(2)
χ即故服从
幻灯片 20
4.3.3 t 分布
X T Y n
=
(1)定义设, 且X ,Y 互相独立,则称
2~()Y n χ~(0,1)X N (2) 性质:
()0, ()2
n
E T D T n ==
-1°当T ~ t (n )时,2°当n 充分大时,t 分布近似于标准正态分布.
~().T t n 服从n 个自由度的t 分布,记作
(3)t 分布的密度函数曲线:
f (x )
x
(6)
n =(2)
幻灯片 22
解:9
1
~(0,81),
i i X N =∑~(0,1),(1,2,,18),3i
X N i = 且1818222
10101()~(9)39i i i i X Y X χ====∑∑所以19192210
18
()9
~(9)
99
X X X X U t Y X X
++++=
=
++ 19
221018
X X U X X ++=
++ 例2 设随机变量X 服从正态分布,是自总体X 的样本, 则下列统计量服从( )分布.
1218
,,X X X (0,9)N 与独立,
9
1
i i X Y =∑由 9
Y ?
证明:Z~t (3)
11627893
2
21231
(),()63
6()
1(),2i i i Y X X Y X X X Y Y Y X X Z Y +==
++=++-=-=
∑ 证:2
2
12~(,),~(,
)
6
3
Y N Y N σσμμ2
12~(0,
)2
Y Y N σ
-122()
~(0,1)
Y Y N σ
-则
即
例3 设是来总体的样本,
19,,X X 2
~(,)X N μσ
幻灯片 24
又23
2
32
1
()~(3)2i i i X X χσ+=-∑2
3
3~(0,2),
~(0,1)
2i i i i X X X X N N σσ
++--即则
12122
3
32
1
2()
6()
~(3)
()23
i i i Y Y Y Y t Y
X X σ
σ+=--=-∑
定义设0<α<1, 对随机变量X ,称满足α
α=>)(x X P 的点为X 的概率分布的上侧分位数. x α故有()1P X x αα=-≤标准正态分布的分位数
例如:0.05 1.64
u =0.025 1.96
u =设X ~ N (0, 1),为上侧分位数,即对0<α<1,有
u α()()1u P X u αααΦ==-则≤u α
1α
-()P X u αα
>=f (x )
x
幻灯片 26
2
()1P X u αα
<=-则有 2
u α
2
u α
-2
α
2
α
设为标准正态分布的上侧分位数,即2u α2
()2P X u αα
>=1α
-f (x )
x
例如:
2
0.025(3)9.348
χ=20.975(3)0.216
χ=2
{()}P X n αχα
>=即设为分布的上侧分位数
2
()n αχ2
()n χf (x )
O
x
2
()
n αχα
分布的分位数
幻灯片 28
对于分布,若取上侧分位数2
χ22122
(), ()
n n ααχχ-此时称为“概率对称”的分位数.
22
12
2
(), ()n n ααχχ-2
2
{()},
2P X n ααχ>=212
{()}1,2P X n ααχ->=-使得 x
f (x )212()n αχ-2
2
()
n αχ2
α
2
α
{()}P X t n αα
>=即设为t (n )分布上侧分位数,()t n α0.05(6) 1.9432 t =例如 0.025(8) 2.306
t =()
t n α1α
-设为t (n )分布的上侧分位数,
2()t n α2{()}2
P X t n αα
>=即
{()}1P X t n αα
<=-则有 x
f (x )
t 分布的分位数
幻灯片 30
定理1(样本均值的分布)
4.3.5 正态总体的抽样分布设X 1,X 2,…,X n 是取自正态总体2(,)N μσ的样本,则有
2
~(,)
X N n
σμ~(0,1)
X N n
μ
σ-
定理2(样本方差的分布)
2
22
(1)(1)~(1)
n S n χσ--设X 1,X 2,…,X n 是取自正态总体2(,)N μσ的样本,2X S 和分别为样本均值和样本方差,则有
2(2)
.
X S 和相互独立2
22
2
1
1
(1)1
()()0.
n
i
i n
i
i n S X
X X
X σσ==-=
--=∑∑注:在
中,由于受到
的限制,故自由度减少一个幻灯片 32
22221~();
~(1);
n
i i Z n nZ χχ=∑由 1
~(0,1);~(0,)
i i X X Z N Z N n μ
μ
σ
σ--==
证明:令则2221
~(1)
n
i i Z nZ n χ=--∑则 2
2
2
2
2
1
(1)1
()()n
n
i i i i X n S X X X μ
μ
σσ
σ
σ
==---=-=-
∑
∑2.
X S 和的独立性利用正交矩阵可证(略)2
22
1
1
()n n
i i i i Z Z Z nZ ===-=-∑∑
定理3设X 1,X 2,…,X n 是取自正态总体),(2
σμN 的样本,2S X 和分别为样本均值和样本方差, 则有
~(1)
X t n S
n
μ--2
2212(1)~(0,1)~(1)
X n S N n n
μ
χσσ---证明:由定理和定理,
有
2
2
~(1)
(1
)1
X X n t n S
n
n S n μμσσ--=-- -故。