第6章 样本及抽样分布121126

合集下载

第六章 样本和抽样分布

第六章 样本和抽样分布
− z 2 n −1 2 z
∫x n
0
z
m −1 2
(z − x )
n −1 2
dx
m 2 Γ Γ 0 2 2 x dx 作积分变换 t = ,dt = z z
=
e z
m+n 2
∫x n
m −1 2
x 1 − z
n −1 2
dx
当 x = 0 时 , t = 0 ; 当 x = z 时, t = 1 .
( X 1 , L , X n )的联合概率密度 .
解: 总体 X 的概率密度为
f ( x) = 1 2π σ e
− ( x − µ )2 2σ 2
,−∞ < x < ∞ .
所以( X 1 , L , X n)的联合概率密度为 所以(
f ( x1 ,L , x n ) = ∏ f ( x i )
=∏
i =1
n
第六章 样本及抽样分布
§1 随机样本
若设X的概率密度为 若设 的概率密度为 f (x) ,则 ( X 1 , L , X n ) 的联合概 率密度为: 率密度为:
f ( x1 ,L , x n ) = ∏ f ( x i )
*
i =1
n
若设X的分布率为 P { X 若设 的分布率为 的联合分布率为: 的联合分布率为:
简称为样本,其观察值 x 1 , L x n 称为样本值。 简称为样本, 称为样本值。 由定义知: 的一个样本, 由定义知:若 X 1 , L , X n 为X的一个样本,则 ( X 1 ,L , X n ) 的一个样本 的联合分布函数为: 的联合分布函数为:
F * ( x1 ,L , x n ) = ∏ F ( x i )

第六章 样本及抽样分布

第六章 样本及抽样分布

PPT文档演模板
第六章 样本及抽样分布
•定理1的证明
PPT文档演模板
第六章 样本及抽样分布
•定理1的证明及密度函数图
PPT文档演模板
第六章 样本及抽样分布
•X2—分布
PPT文档演模板
第六章 样本及抽样分布
PPT文档演模板
第六章 样本及抽样分布
PPT文档演模板
第六章 样本及抽样分布
PPT文档演模板
PPT文档演模板
第六章 样本及抽样分布
•F—分布
PPT文档演模板
第六章 样本及抽样分布
PPT文档演模板
第六章 样本及抽样分布
PPT文档演模板
第六章 样本及抽样分布
PPT文档演模板
第六章 样本及抽样分布
•正态总体的样本均值与样本方差的分布
PPT文档演模板
第六章 样本及抽样分布
•定理1的证明
PPT文档演模板
第六章 样本及抽样分布
•总体、个体、样本、样本容量、样本值
•取的值是不同的。在试验中,抽取了若干个个体 就观察到了x的这样或那样的数值,因而这个数量 指标X是一个随机变量,而X的分布就完全描写了 总体中我们所关心的那个数量指标的分布状况。 由于我们关心的正是这个数量指标,因此我们以 后就把总体和数量指标X可能取值的全体组成的 集合等同起来,所谓总体的分布也就是指数量指 标x的分布。
第六章 样本及抽样分布
PPT文档演模板
2020/11/27
第六章 样本及抽样分布
•本章小结 概率论的基本概念
•习题
数理统计的基本概念 抽样分布
PPT文档演模板
•退出 第六章 样本及抽样分布 •返回
数理统计的基本概念
z 总体和样本 z 统计量 z 顺序统计量和经验分布函数

第6章 样本及抽样分布PPT

第6章 样本及抽样分布PPT

特别,当 p 0.5时,0.5分位数 x0.5也记为Q2或 M称为样本中位数,即有
x0.5


x
([
n
]1)
,
2
1 2
[
x
(
n 2
)

x
(
n
1)
],
2
当np不是整数, 当np是整数.
0.25分位数 x0.25 称为第一四分位数,又记为Q1; 0.75分位数 x0.75 称为第三四分位数,又记为Q3 .
作出箱线图如图所示.
男子
女子
图 6-4
疑似异常值
在数据集中, 某一个观察值不寻常地大于或 小于该数据集中的其他数据,称为疑似异常值.
第一四分位数Q1与第三四分数Q3之间的距离: Q3 Q1 IQR
称为四分位数间距. 若数据小于Q1 1.5IQR 或大于Q3 1.5IQR,
则认为它是疑似异常值.
些是统计量, 哪些不是?
T1 X1,
T2 X1 X2e X3 ,
T3

1 3
(
X
1

X2

X 3 ),

T4 max( X1, X 2 , X 3 ), T5 X1 X2 2,
ቤተ መጻሕፍቲ ባይዱ
T6

1 2
(
X
2 1

X
2 2

X 32 ).
不是
2. 几个常用统计量的定义
设 X1, X2, , Xn 是来自总体的一个样本 ,
Q1 1.5IQR 4 12 8.
观察值55 24, 故55 是疑似异常值,且仅此一个疑 疑似异常值.

六 样本及抽样分布

六 样本及抽样分布

第六章 样本及抽样分布前五章是概率论的基本内容,主要研究随机变量的性质、特点和规律性,而且研究的必要前提是假设随机变量的分布是已知的.但在实际中,大量存在另外一种随机变量,其分布是未知的或不完全清楚的.人们认识这种随机变量是通过对它们进行独立重复的观察,得到许多观察数据,然后对数据进行分析,并依分析结果对随机变量的分布做出推断.这就是数理统计所要研究的.概率论是数理统计研究的理论基础.一、随机样本总体和个体 在数理统计中,把所研究对象的全体称为总体.总体中的每个元素称为个体.总体中所包含个体的个数称为总体的容量.对象的全体一般是指对象的一个数量指标,它往往是一个随机变量,称之为总体变量,用X 表示,也说总体X .总体的分布就是指总体变量的分布.例如,研究学生们的身高.对象是学生,总体是学生们的身高.研究一批钢材的含炭量、含锰量等.对象是钢材,总体是这批钢材的含炭量、含锰量等.这里研究对象是通过随机试验进行的.随机试验产生总体,研究对象其实是指研究总体变量.在实际中,总体的分布一般是未知的,或知道它具有某种形式但其中含有未知参数.在数理统计中,人们是通过从所研究对象的总体中抽取一部分,称为总体的一个样本(或一组样本值),并根据这部分数据来对总体的分布做出推断.从总体中抽取一个个体是指对总体X 进行一次观察的结果.在相同的条件下,假设对总体X 进行n 次重复、独立的观察,n 次观察的结果按试验的次序依次记为12,,,n X X X .由于它们是对随机变量X 观察的结果,且各次观察是在相同的条件下重复、独立地进行的,所以12,,,n X X X 是相互独立的随机变量,且都与X 有相同的分布形式.我们称这样得到的12,,,n X X X 为来自总体X 的一个简单随机样本,简称样本,称n 为这个样本的容量.当n 次观察一完成,便得到一组实数12,,,n x x x ,依次是随机变量12,,,n X X X 的观察值,称为样本值.例如,研究学生们的身高,身高X 有分布,只是分布未知.假设随机地抽取20人,并以1220,,,X X X 记20人的身高.按样本构成可知,1220,,,X X X 都可以取学生每个人的身高,所以它是相互独立同分布于X 的随机变量.现在,我们具体做20次观察,得到的一组实数1220,,, 1.65,1.82,,1.65x x x 即为随机变量1220,,,X X X 的一组观察值.简单随机样本和样本值 设X 是总体变量.若相互独立的随机变量12,,,n X X X 与X 有相同的分布,则称随机变量12,,,n X X X 为来自总体X 的容量为n 的简单随机样本,简称样本.样本的一组取值(所谓的观察值)12,,,n x x x 称为样本值.二、抽样分布 1. 基本概念统计量 设12,,,n X X X 为总体X 的一个样本,()12,,,n g X X X 为样本的连续函数,如果g 中不含未知参数,则称()12,,,n g X X X 是一个统计量.若12,,,n x x x 是12,,,n X X X 的样本值,则称()12,,,n g x x x 是统计量()12,,,n g X X X 的一个观察值.抽样分布 统计量的分布称为抽样分布.分位点 设随机变量X 的概率密度为()f x ,对于给定的数()01αα<<,称满足条件{}()x P X x f x dx ααα+∞>==⎰的点x α为X 分布的上α分位点.称满足条件{}()11x P X x f x dx ααα---∞<==⎰的点1x α-为X 分布的下α分位点.下α分位点1x α-其实就是上1α-分位点1x α-.X 分布的上2α分位点2x α和下2α分位点12x α-称为X 分布的双侧α分位点.即{}{}()()12221x x P X x P X x f x dx f x dx ααααα-+∞--∞<+>=+=⎰⎰2. 常用统计量(1) 基本统计量 设12,,,n X X X 是来自总体X 的样本,则有样本均值 称11ni i X X n ==∑为样本均值,它反映总体均值的信息.样本方差 称()22111nii S X X n ==--∑为样本方差,它反映总体方差的信息. 样本标准差 称S =反映总体标准差的信息. 样本k 阶矩 称11n kk i i A X n ==∑为样本k 阶矩,它反映总体k 阶矩的信息.我们指出, 若总体X 的k 阶矩()kk E X μ∆=存在, 则当n →∞时, ,1,2,pk k A k μ−−→= . 这是因为12,,,n X X X 独立且与X 同分布, 所以12,,,k k k nX X X 独立且与kX 同分布. 故有12()()()k k kn k E X E X E X μ==== .由第五章中的辛钦定理知11,1,2,n P k k i k i A X k n μ==−−→=∑ .并由依概率收敛的序列的性质知道1212(,,,)(,,,),Pk k g A A A g μμμ−−→其中g 为连续函数. 这将成为下一章所要介绍的矩估计法的理论根据.样本k 阶中心矩 称()11nk k i i B X X n ==-∑为样本k 阶中心矩,它反映总体k 阶中心矩的信息.设总体X 的均值μ与方差2σ存在, 12,,,n X X X 是来自X 的样本, 样本均值11ni i X X n ==∑, 样本方差()22111nii S X X n ==--∑, 则总有 222()(),()E X D X E S nσμσ===,.(2) 来自正态总体的几个常用统计量及其分布(抽样分布) 0) 标准正态分布 标准正态分布的概率密度为()22,x x x ϕ-=-∞<<+∞标准正态分布的上α位点z α满足 ()1z ααΦ=-; 标准正态分布的双侧α分位点2z α满足 ()12z ααΦ=-; 标准正态分布有如下性质:1z z αα-=-.1) 2χ分布 设12,,,n X X X 是来自正态总体()0,1N 的样本,则称统计量222212nX X X χ=+++ 服从自由度为n 的2χ分布,记作()22n χχ.()2n χ分布的概率密度为()()12221, 0220, 0n y ny e y nf y y --Γ⎧>⎪=⎨⎪≤⎩; ()2n χ分布的上α分位点()2n αχ满足(){}()()222n P n f y dy ααχχχα+∞>==⎰;()2n χ分布有如下性质:①若()()22221122,n n χχχχ ,且2212,χχ相互独立,则()2221212n n χχχ++ ; ②若()22n χχ ,则()()22,2E n D n χχ==.2) t 分布 设()()20,1,X N Y n χ,且X 与Y 相互独立,则称随机变量T =服从自由度为n 的()t student 分布,记作()T t n .()t n 分布的概率密度为()()1221,n t f t t n -+⎫=+-∞<<+∞⎪⎭()t n 分布的上α分位点()a t n 满足(){}()()t n P t t n f t dt ααα+∞>==⎰;()t n 分布有如下性质:①密度曲线关于0t =对称; ②()()1t n t n αα-=-;③当45n >时,()t n z αα≈,z α是()0,1N 的上α分位点; ④()()()()()()0, 122n E D t t n n n n n ==>>-.3) F 分布 设()()2212,U n V n χχ,并且,U V 相互独立,则称随机变量12//U n F V n =服从自由度为12,n n 的F 分布,记作()12,F F n n .()12,F n n 分布的概率密度为()()()1122212111222211, 0220, 0n n nn n n n y y f y n n n y n y +-⎧Γ+⎛⎫⎛⎫⎪⎪+> ⎪ ⎪=⎨ΓΓ⎝⎭⎝⎭⎪≤⎪⎩;()12,F n n 分布的上α分位点满足()(){}()()121212,2,,F n n P F n n F n n f y dy ααα+∞>==⎰;()12,F n n 分布有如下性质:①()()112211,,F n n F n n αα-=;②()()()21222,1,1=>-n E F n n n n ()()()()()()2212122212222,424+-=>--n n n D F n n n n n n .例1 设X 与Y 均服从()0,1N ,则正确的是(A) X Y +服从正态分布; (B) 222X Y χ+ ;(C) 22,X Y 都服从2χ分布; (D) 22XY 服从F 分布.例2 设1215,,,X X X 是来自正态总体()20,2N 的样本,则统计量()22212102221112152X X X Y X X X +++=+++ 服从 分布,参数为 .例3 设129,,,X X X 和129,,,Y Y Y 都是来自正态总体()20,3N 的样本,且这两个样本相互独立,则统计量U =服从 分布,参数为 .4)设12,,,n X X X 是来自正态总体()2, X N μσ容量为n 的样本,其样本均值为11ni i X X n ==∑,样本方差为()22111nii S X X n ==--∑,则有 ①21,X N n μσ⎛⎫⎪⎝⎭.这说明n 越大,X 越接近总体均值;()0,1XN.②X与2S相互独立.③()()22211n Snχσ--.()1Xt n-.5) 设112,,,nX X X与212,,,nY Y Y是分别来自正态总体211(,)X Nμσ和222(,)Y Nμσ的样本, 且这两个样本相互独立.设12111,n ni ii iX X Y Yn====∑∑分别是这两个样本的均值, ()()122222121111,1n ni ii iS X X S Y Yn===-=--∑∑分别是这两个样本的样本方差, 则有①2211122222(1,1)--SF n nSσσ.②当22212σσσ==时,12(2),X Yt n n+-其中222112212(1)(1),2-+-==+-w wn S n SS Sn n统计量是进行统计推断的工具. 样本均值与样本方差是两个最重要的统计量.三、经验分布函数经验分布函数是根据样本所做出的与总体分布函数()F x相对应的统计量.经验分布函数的作法如下: 设12,,,nX X X是总体F的一个样本, 用(),S x x-∞<<∞表示12,,,nX X X中不大于x的随机变量的个数. 定义经验分布函数()nF x为1()(),.nF x S x xn=-∞<<∞给一组样本值, 很容易得到经验分布函数()nF x的观察值(()nF x的观察值仍以()nF x表示). 例如:(1) 设总体F 具有一组样本值1,2,3, 则经验分布函数3()F x 的观察值为30,,12,(),23,1, 3.<⎧⎪⎪≤<⎪=⎨⎪≤<⎪⎪≥⎩若1,1若32若3若x x F x x x (2) 设总体F 具有一组样本值1,1,2, 则经验分布函数3()F x 的观察值为30,(),12,1, 2.<⎧⎪⎪=≤<⎨⎪⎪≥⎩若1,2若3若x F x x x(3) 一般地, 设12,,,n x x x 是总体F 的容量为n 的一组样本值, 先将12,,,n x x x 按自小到大的次序排列并重新编号, 设为(1)(2)()n x x x ≤≤≤ , 则经验分布函数()n F x 的观察值为(1)()(1)()0,(),,1,.+<⎧⎪⎪=≤<⎨⎪⎪≥⎩若,若若n k k n x x kF x x x x nx x格里汶科(Glivenko )在1933年证明了经验分布函数()n F x 的一个结果: 对于任一实数x , 当n →∞时,()n F x 以概率1一致收敛于总体分布函数()F x , 即{}lim sup ()()0 1.n n x P F x F x →∞-∞<<∞-==定理表明, 对于任一实数x , 当n 充分大时, 经验分布函数的观察值()n F x 与总体分布函数()F x 只有微小的差别, 从而在实际中可将观察值()n F x 当作()F x 来使用. 习题 P174 2. 4.-8.。

第6章样本及抽样分布

第6章样本及抽样分布

第六章样本及抽样分布【基本要求】1、理解总体、个体和样本的概念;2、了解经验分布函数和直方图的作法,知道格林汶科定理;3、理解样本均值、样本方差和样本矩的概念并会计算;4、理解统计量的概念,掌握几种常用统计量的分布及其结论;5、理解分位数的概念,会计算几种重要分布的分位数。

分布,t分布,【本章重点】样本均值、样本方差和样本矩的计算;抽样分布——2F分布;分位数的理解和计算。

【本章难点】对样本、统计量及分位数概念的理解;样本矩的计算。

§6.0 前言前面五章我们研究了概率论的基本内容,从中得知:概率论是研究随机现象统计规律性的一门数学分支。

它是从一个数学模型出发(比如随机变量的分布)去研究它的性质和统计规律性;而我们下面将要研究的数理统计,也是研究大量随机现象的统计规律性,并且是应用十分广泛的一门数学分支。

所不同的是数理统计是以概率论为理论基础,利用观测随机现象所得到的数据来选择、构造数学模型(即研究随机现象)。

其研究方法是归纳法(部分到整体)。

对研究对象的客观规律性做出种种合理性的估计、判断和预测,为决策者和决策行动提供理论依据和建议。

数理统计的内容很丰富,这里我们主要介绍数理统计的基本概念,重点研究参数估计和假设检验。

§6.1 随机样本一、总体与样本1. 总体、个体在数理统计学中,我们把所研究的全部元素组成的集合称为总体;而把组成总体的每个元素称为个体。

例如:在研究某批灯泡的平均寿命时,该批灯泡的全体就组成了总体,而其中每个灯泡就是个体;在研究我校男大学生的身高和体重的分布情况时,该校的全体男大学生组成了总体,而每个男大学生就是个体。

但对于具体问题,由于我们关心的不是每个个体的种种具体特性,而仅仅是它的某一项或几项数量指标X(可以是向量)和该数量指标X在总体的分布情况。

在上述例子中X是表示灯泡的寿命或男大学生的身高和体重。

在试验中,抽取了若干个个体就观察到了X的这样或那样的数值,因而这个数量指标X 是一个随机变量(或向量),而X 的分布就完全描写了总体中我们所关心的那个数量指标的分布状况。

第六章+样本及抽样分布

第六章+样本及抽样分布

n
f
(
xi
)

ne
n

i 1
xi
,
i 1
0,
xi 0, 其他.
例6-7 考虑电话交换台1小时内的呼唤次数X,求来自 这一总体的简单随机样本x1, x2,…,xn的样本分布。
解 由概率论知识,X服从泊松分布P(),其概率函数为
p( x) P{ X x} x e
例6-10
x

x1
x2 ... n
xn

1 n
n i 1
xi
在分组样本场合,样本均值的近似公式为
x x1 f1 x2 f2 ... xk fk n
k
(n fn)
i 1
其中k为组数,xi为第i组的组中值, fi为第i组的频数。
样本均值的性质
(1)若称样本中的数据与样本均值的差为偏差, 则样本所有偏差之和为0,即
证明: (xi c)2 (xi x+ x- c)2 ( xi x)2+ n(x- c)2+ 2 (xi x)(x- c) ( xi x)2+ n(x- c)2+ 2(x- c) (xi x) ( xi x)2+ n( x- c)2
n ( xi
i 1

x )2

n i 1
xi 2
nx 2

n i 1
xi 2

1n (
n i1
xi )2
n
n
( xi x)2 ( xi2 2 xi x x 2 )
i 1
i 1
n
n

概率统计第六章 样本及抽样分布

概率统计第六章 样本及抽样分布

第六章数理统计的基本概念数理统计与概率论是两个有密切联系的姊妹学科(基础 应用).概率论研究的是在知道随机变量分布的情况下求事件的概率.但对具体问题,如何判断某随机变量服从某种分布呢?诚然,我们可以根据经验判断出随机变量的分布,但参数又是什么呢?这些问题概率论回答不了,由数理统计来回答.数理统计是通过数据来回答这些问题的.这些数据带有随机性(不同于会计中的数据),根据数据得出的结论难免会出错,我们希望所犯错误越少越好,而这就需要使用概率论的语言来表述.数据不是从天上掉下来的,要获得数据,首先要进行观察或实验,收集整理数据,然后进行推断,这就是数理统计要研究的内容.即数理统计学是收集、分析数据,并根据数据进行推断的科学和艺术(强调它的艺术性是为着重说明统计方法需要灵活使用,很依赖于人的判断乃至灵感.强调这一点很有好处,它提醒人们不要以教条式的态度来看待数理统计方法,以为只要记住一些公式和方法,碰到什么问题套上去就行).数理统计课程着重于统计推断。

所谓统计推断,就是由样本来推断总体,或者由部分推断总体.统计估计和假设检验是统计推断的基础,以此为基础发展了许多实用的统计方法:回归分析、方差分析、时间序列分析及其他多元统计分析方法等.第一节样本与统计量一总体与个体1.总体(Population)和个体(Individual)1)【定义】把研究“对象”的全体称为总体.用X、Y、Z等表示总体.组成总体的每个元素称为个体.例如:全国英语四级考试刚刚结束,阅卷评分尚需一段时间,有关部门急于了解这次考试成绩的分布状况(应试的400万考生);另外,想了解全国大学生的身体状况;想了解用新工艺生产的一批灯泡寿命等等。

这里的“应试的考生”,“全国的大学生”“这批灯泡”等,就构成了各自的总体。

2)总体X的分布函数称为总体分布函数。

当X为离散型随机变量时,称X的概率函数为总体概率函数。

当X为连续型随机变量时,称X的密度函数为总体密度函数。

第六章样本及抽样分布

第六章样本及抽样分布

n
(
Xi
)2
,
i 1
max{ X i }
1i n
为什么要求统计量不含任何未知参数
试验前 g(X1, X2 ,是, 随Xn机) 变量 试验后 g(X1, X2 ,是, 具Xn体) 的数值
与均值和方差 有什么不同?
X
1
n
n
i 1
Xi
为什么不是
1 n
(下章说明)
S2
1
n1
n
(Xi
i 1
X
)2
S
S2
6, 故Q0.75
Q3
1 2
(123
132)
127.5
Min 102, Max 150,作出箱线图如图所示
102 113.5 120
120 150
分布的形状与箱线图
QL 中位数 QU
QL 中位数 QU
QL 中位数 QU
左偏分布
对称分布
不同分布的箱线图
右偏分布
箱线图适合比较两个或两个以上数据集的性质
一 直方图
为了研究总体分布的性质,人们通过实验得到许 多观测值,一般来说这些数据实杂乱无章的,为了利 用它们进行统计分析,将这些数据加以整理,还借助 于表格或图形对它们加以描述。
例1:下面列出了84个伊特拉斯坎(Etruscan)人男子的 头颅的最大宽度(mm),现在来画这些数据的“频率直 方图”
1 2 3 4 5 6 7 8 9 10 11
76 90 97 71 70 93 86 83 78 85 81 65 95 51 74 78 63 91 82 75 71 55 93 81 76 88 66 79 83 92 78 86 78 74 87 85 69 90 80 77 84 91 74 70 68 75 70 84 73 60 76 81 88 68 75 70 73 92 65 78 87 90 70 66 79 68 55 91 68 73 84 81 70 69 94 62 71 85 78 81 95 70 67 82 72 80 81 77

概率第6章 样本及抽样分布PPT课件

概率第6章 样本及抽样分布PPT课件

Xi
i 1, 2,
,n
显然Y1,Y2, ,Yn相互独立,且Yi N 0,1 i 1, 2,
于是
2
n i 1
(
X
i
)2
n
Yi 2
i 1
2
n
(2)
X1
X2
~
N
(0,
2
2
),
(
X1 X
2 2
2
)2
~
2 (1)
2X3
X4
X5
~
N(0, 6
2 ), (2X3
X4
6 2
X 5 )2
~
[说明]:后面提到的样本均指简单随机样本,由概率论知,若总体X 具有概率密度f(x),
则样本(X1,X2,…,Xn)具有联合密度函数:
n
fn x1, x2, xn f xi
i1
3
统计量:样本的不含任何未知参数的函数。
常用统计量:设(X1,X2,…,Xn)为取自总体X的样本
1.
样本均值
定理6.4:t n分布的概率密度为:f t, n
n1 2
n
n 2
1
t2 n
n1 2
,
t
对给定的 ,
0
1, 称满足条件
t n
f
t, n dt
的点t
n
为t n分布的上分位数。t分布的上分位数可查t分布表
f (x)
n 10
f x
t1 (n) t (n)
n4
n 1
3 2 1 0 1 2 3
Y1 g1 X1, , X n1 ,Y2 g2 X n11, , X n2 , ,Yk gk X , n1 nk11 , X n

(完整版)样本及抽样分布

(完整版)样本及抽样分布

第六章样本及抽样分布【基本要求】1、理解总体、个体和样本的概念;2、理解样本均值、样本方差和样本矩的概念并会计算;3、理解统计量的概念,掌握几种常用统计量的分布及其结论;4、理解分位数的概念,会计算几种重要分布的分位数。

【本章重点】样本均值、样本方差和样本矩的计算;抽样分布——2 分布,t分布,F分布;分位数的理解和计算。

【本章难点】对样本、统计量及分位数概念的理解;样本矩的计算。

【学时分配】4学时【授课内容】§6.0 前言前面五章我们研究了概率论的基本内容,从中得知:概率论是研究随机现象统计规律性的一门数学分支。

它是从一个数学模型出发(比如随机变量的分布)去研究它的性质和统计规律性;而我们下面将要研究的数理统计,也是研究大量随机现象的统计规律性,并且是应用十分广泛的一门数学分支。

所不同的是数理统计是以概率论为理论基础,利用观测随机现象所得到的数据来选择、构造数学模型(即研究随机现象)。

其研究方法是归纳法(部分到整体)。

对研究对象的客观规律性做出种种合理性的估计、判断和预测,为决策者和决策行动提供理论依据和建议。

数理统计的内容很丰富,这里我们主要介绍数理统计的基本概念,重点研究参数估计和假设检验。

§6.1 随机样本一、总体与样本1.总体、个体在数理统计学中,我们把所研究的全部元素组成的集合称为总体;而把组成总体的每个元素称为个体。

例如:在研究某批灯泡的平均寿命时,该批灯泡的全体就组成了总体,而其中每个灯泡就是个体;在研究我校男大学生的身高和体重的分布情况时,该校的全体男大学生组成了总体,而每个男大学生就是个体。

但对于具体问题,由于我们关心的不是每个个体的种种具体特性,而仅仅是它的某一项或几项数量指标X(可以是向量)和该数量指标X在总体的分布情况。

在上述例子中X是表示灯泡的寿命或男大学生的身高和体重。

在试验中,抽取了若干个个体就观察到了X的这样或那样的数值,因而这个数量指标X是一个随机变量(或向量),而X的分布就完全描写了总体中我们所关心的那个数量指标的分布状况。

第6章-样本及抽样分布

第6章-样本及抽样分布

X
k i
样本 k 阶中心矩
Bk
1 n
n i 1
(Xi
X )k,
§2 抽样分布
统计量旳分布称为抽样分布。数理统计中 常用到如下三个分布:
2分布、 t 分布和F分布。
一、 2分布
iid
n
1. 构造 设 X1,, X n ~ N (0,1), 则 2
X
2 i
~
2 (n).
i 1
称为自由度为n的 2 分布.
h(
y)
(
n1
2
n
2
)(n1
/
(
n1 2
)(
n2 2
)(1
0,
n2
n1 n2
) y n1 / 2
n1 1 2
,
y)(n1 n2 ) / 2
y0
y0
2. F分布旳分位点
对于:0<<1,
若存在F(n1, n2)>0 ,满足
P{FF(n1, n2)}=,
则称F(n1, n2)为
F(n1, n2)旳上侧分
位点;
P447附表5
F (n1, n2 )
注:
F1
(n1, n2 )
F
1 (n2 , n1)
证明:
设F~F(n1,n2), 则
1 F
~
F (n2 , n1)
P{F F1 (n1, n2 )} 1
P{ 1 1 } 1
F F1 (n1, n2 )
P{ 1 1 }
F F1 (n1, n2 )
4.性质:
(1)分布可加性 若X ~ 2(n1),Y~ 2(n2 ),X,Y 独立,则X + Y ~ 2(n1+n2 ) (2)期望与方差 若X~ 2(n),则

概率论第六章样本及其抽样分布

概率论第六章样本及其抽样分布
定义 若样本函数 gX1, X 2, , X n 中不含有任何未知 量,则称这类样本函数为统计量。
24
例 设 X1, X 2 , , X n 是来自总体 N ( , 2 )
的随机样本,其中 已知, 未知,
则( )不是统计量
n
[1]
1 n
Xi
i1
n
n
[2]
1 n
(Xi )2
[3]
1 n
(Xi X)2
为了讨论正态总体下的抽样分布,先引入由正态 分布导出的统计中的三个重要分布,即
2分布,t 分布,F分布。
掌握三大分布的4点:
1、构成形式; 2、密度函数的大致图像;
本节大家要理解的基本概念主要有:
1. 总体
4.简单随机样本
2. 总体分布 3. 样本
5. 样本的二重性 6. 样本的分布
9
1. 总体与个体
(population and individual)
在统计学中,将研究问题所涉及的对象全 体称为总体,而把总体中的每个成员称为个体.
例如: 我们想要研究一家工厂某种产品的次品率.
i1
i1
n
[4]
1 n
(
X
i μ σ
)
2
[5] X12 X22 σ2
i1
[6] 2X1X2...Xn
25
数理统计中最常用的统计量及其观测值有:
1 样本均值 观测值记为 2 样本方差
X
1 n
n i 1
Xi
(1)
x
1 n
n i 1
xi
(2)
S 2 1 n n 1 i1
Xi X
2
1 n 1
Xi X

第六章 样本及抽样分布1

第六章  样本及抽样分布1
所以是来自正态总体的一个简单随机样本分别为样本均值和样本则有是来自总体的一个简单样本相互独立且与总体服从相同分由正态分布的性质知也服从正态分布10是来自正态总体的简单随机样本分布并求出k是来自总体的样本则统计量相互独立
第六章 样本及抽样分布
内容提要 一.总体与样本 二. 样本分布函数 三.统计量 四.抽样分布 基本要求 1.理解总体,个体,简单随机样本和统计量的概念。 2.掌握样本均值,样本方差的计算。
样本X1, X2 , … X n的联合概率密度。
测试题A答案:
一.填空题。 1. ⅰ) X1, X2 , … X n 相互独立 ⅱ) X1, X2 , … X n 与总体 X 同分布。
n
e n i1 , x 4, s 2 4 2. x1 ! x2 ! xn !
1 3. f y1 , y2 , y3 e 2
p* x1, x2 ,, xn p x1 p x2 p xn
(2) 当总体X是连续型随机变量时,且概率密度为 f x ,则 (X1, X2 , … X n)概率密度为:
f * x1, x2 ,, xn f x1 f x2 f xn
1.抽样: 从总体中抽取若干个体的过程。
2.样本: 从总体中抽取若干个体, 观察得随机变量的一组试验 数据(观测值), 样本中所含个体的数量称为样本容量。
从总体中抽取样本, 一般假设满足下述条件: (1) 随机性: 使总体中的每一个个体有同等机会被抽取到; (2) 独立性: 每次抽样的结果既不影响其他各次抽样的结果, 也不受其他各次结果的影响; 3. 简单随机样本:由随机的, 独立的抽样方法得到的样本, 这 种随机的, 独立的抽样方法称为简单随机抽样。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第6章 样本与抽样分布第6章的教学要求:1.理解总体、个体、简单随机样本及其分布的概念.2.了解直方图和条形图、经验分布函数.会求经验分布函数.3.了解样本均值、样本方差与样本标准差、样本原点矩、众数和中位数等数字特征,并会根据数据计算这些数字特征的方法.4.了解2χ分布、t 分布、F 分布.会查表计算上α分位数.5.理解统计量的概念,掌握来自正态总体的抽样分布.在概率论中,一切的分析和运算都是基于分布已知这个假设进行的.但在实际问题中,情况往往并非如此,常常是我们对所要研究的随机变量知道不多或知之甚少.这时需要经试验或观测,获得反映随机变量信息的数据,并以概率论为理论基础,对数据进行整理、分析,从而对研究对象的性质和统计规律做出合理、科学的估计和推断.这就是数理统计基本的和主要的任务.数理统计研究统计的一般原理与方法.本章主要介绍数理统计中的基本概念、基本分布和正态抽样分布及性质.§6.1 总体与样本6.1.1 总体和个体在数理统计中,概括性地说,把研究对象的全体称为总体,把总体中的每个元素称为个体. 例如,研究……学生,……总体,……个体.但在实际中,我们说研究……学生,一般是带有“目的性”的.如:我们想研究学生的……,根据这种“目的性”,我们研究对象的全体就具体为“……”、个体则为“……”.因此,也说——总体是研究对象的某数量指标.记数量指标为X ,则X 是随机变量.例如,若X 是表示学生的……数量指标,则每个个体的指标值即为X 的取值.注意到,在进行研究时,个体的指标值事先是不知道的,我们一般是通过“随机抽样”的方式来获得个体的指标值及有关情况——即总体X 的取值及其分布的.因此,数量指标X 是一个随机变量.总体中所包含的个体的数量称为总体容量.根据总体容量的有限或无限,分为有限总体和无限总体.6.1.2 样本和简单随机样本通常人们以随机抽样的方式了解总体分布.把从总体中抽取出的一部分个体称为总体的一个样本,样本中的个体称为样品,样本中所包含的个体的数目称为样本容量.由于是通过样本来了解总体,所以样本应该具有代表性. 如何获得具有代表性的样本?获得具有代表性的样本最常采用的方法是:在相同条件下对总体X 进行n 次重复且独立的随机观测,把n 次观测的结果按试验的次序记为12,,,n X X X .采用这种有放回抽取得到的样本12,,,n X X X 是相互独立的随机变量,且均与总体X 有相同的分布,因此它具有代表性,这个样本称为简单随机样本.样本的一次观测值记为12,,,n x x x ,称为样本的一个样本值,这里n 即是样本容量.如果没有特别说明,在今后的讨论中所提到的样本都指简单随机样本,并简称为样本.怎样才能获得简单随机样本呢?对有限总体来说,采用有放回抽取方式就可以得到简单随机样本.但是有放回抽取在实际中有时使用起来不太方便.采用不放回抽取方式取得的样本则不是简单随机样本,但是当总体容量比样本容量大很多时,可以把它当作简单随机样本.对无限总体来说,抽走少量样本后不影响总体的构成或影响很小,因此常采用不放回抽取.6.1.3 样本的联合分布设12,,,n X X X 是来自总体X 的样本.如果总体X 的分布函数为()X F x ,那么样本12,,,n X X X 的联合分布函数为121(,,,)()nn X i i F x x x F x ==∏. (6.1)当X 为连续型随机变量且概率密度函数为()X f x 时,样本12,,,n X X X 的联合概率密度函数为121(,,,)()n n X i i f x x x f x ==∏. (6.2)当X 为离散型随机变量且概率分布为(){}X f x P X x ==(x 取遍X 的所有可能的取值)时,样本12,,,n X X X 的联合概率分布为1211221(,,,){,,,}()nn n n X i i f x x x P X x X x X x f x ======∏. (6.3)例6.1 设总体X 服从参数为p 的0-1分布,则X 的概率分布为1(){}(1),0,1x x X f x P X x p p x -===-=.于是样本12,,,n X X X 的联合概率分布为121(,,,)()(1)n n ns n s n X k k f x x x f x p p -==∏=-,其中(1,2,,)=k x k n 取1或0,而1==∑nn k k s x .例6.2 设总体2~(,)X N μσ,则样本12,,,n X X X 的联合概率密度函数为22211211()()22 (,,,)()e ni i i nn X i i nx x ni f x x x f x μμσσ==----==∏∑==.6.1.4 直方图与条形图1.直方图在实际统计工作中,首先接触到的是一系列数据,样本数据的整理是统计研究的基础.整理数据最常用的方法之一是给出数据的频数分布表或频率分布表.在研究连续性随机变量总体的分布时,通常用由一组矩形组成的图形直观地表示频数、频率分布表,这个图形就称为样本的频率直方图,简称直方图.绘制直方图的一般步骤见书P 135或新书P 165. 例6.3(P 136(新书P 166)) 2.条形图如果样本数据很少,以及在研究离散型随机变量总体的分布时,一般用条形图来直观地反映频数、频率分布表.条形图的制作方法:(1)统计出样本观测值12,,,n x x x 的频数与频率表;(2)在x 轴上的每个i x 处画出以样本数据中出现i x 的频数或频率为高度的一条线段.例6.4(P 167) 6.1.5 经验分布函数根据总体X 的样本值12,,,n x x x ,按如下方法可以得到一个函数.将总体X 的样本观测值12,,,n x x x 由小到大重新排序为12(1)(1)(2)(2)()(),,,,,,,,,,mm m n n n x x x x x x其中(1)(2)()m x x x <<<,12+++=m n n n n .定义函数(1)()(1)1()0,,1(),(1,2,,1),1,.k n i k k i m x x F x n x x x k m n x x +=⎧<⎪⎪=≤<=-⎨⎪⎪≥⎩∑ (6.4)()n F x 称为总体X (关于样本观测值12,,,n x x x )的经验分布函数或样本分布函数.对于给定的样本值12,,,n x x x ,经验分布函数()n F x 与总体分布函数()F x 有类似的性质.例6.5(P 168)定理6.1(格利文科(Glivenko )定理) 对于任意实数x ,经验分布函数()n F x 以概率1一致收敛于总体分布函数()F x ,即{lim sup ()()0}1n n x P F x F x →∞-∞<<+∞-==. (6.5)格利文科定理表明,当样本容量充分大,经验分布函数是对总体分布函数的很好近似.这一结论是数理统计依据样本来推断总体特征的理论基础. 作业(P 169):1. 2.-3.§6.2 样本的数字特征6.2.1 样本的基本数字特征假设12,,,n X X X 是来自总体X 的一个样本,12,,,n x x x 为它的观测值.样本均值 11==∑ni i X X n观测值 11==∑ni i x x n .样本方差 2211()1==--∑n i i S X X n 观测值 2211()1==--∑n i i s x x n .样本标准差 =S观测值 =s 样本k 阶原点矩 11,1,2,n kk i i A X k n ===∑; 观测值 11,1,2,===∑nk k i i a x k n .样本k 阶中心矩 11(),2,3,==-=∑nk k i i B X X k n ;观测值 11(),1,2,==-=∑nk k i i b x x k n .显然,()10=-=∑ni i X X ,样本一阶原点矩是样本均值.容易证明:()22211==-=-∑∑n ni i i i X X X nX .显然,样本的二阶中心矩与样本方差之间有如下关系:221n B S n-=.6.2.2 样本的简易数字特征1.众数众数是指一组数据中出现频数最高的数值,常用0M 表示. 例6.6(P 141(新书P 171))众数可以不唯一.比如出现频数最高的位置特征有两个,那么众数就有两个.如数据2,1,2,3,1,3,1,4,3,5,2,6的众数有1,2,3三个.如果数据的分布没有明显的集中趋势或不存在频数最高峰值,众数也可能不存在.例如,测得10名运动员的体重(单位:公斤)分别为76,77,82,84,83,83.5,81,82.5,90,95,其值各不相同,故认为不存在众数.由于这些数都集中在83左右,故可以说:83公斤左右的人比较集中.2.中位数中位数是指一组数据按大小排序后处于“中间”位置上的数值,常用e M 表示.考虑到观测数有偶数或奇数两种情况,中位数用如下方法确定.设12,,,n x x x 为来自总体X 的样本观测值,将样本观测值由小到大进行排序,记为(1)(2)(),,,n x x x ,则中位数定义为12221(),2+⎧⎪⎪=⎨+⎪⎪⎩n e n n x n M x x n (),()(+1)当为奇数,当为偶数. (6.6) 例6.7(P 172)作业(P 172):1.(2),(4)-(7) 3.(1)-(3) 4. 6. 5.§6.3 三个常用的抽样分布2χ分布、t 分布和F 分布都是由正态分布导出的分布,是试验统计中常用的分布,在数理统计中占有十分重要的地位.1.2χ分布(卡方分布)定义6.1 若12,,,n X X X 相互独立且都服从(0,1)N ,则随机变量22212=+++n X X X X所服从的分布称为自由度为n 的2χ分布,记作2()~X n χ. 2()n χ分布的概率密度函数为12221, 0,()220, 0.--⎧>⎪⎪⎛⎫=Γ⎨ ⎪⎝⎭⎪⎪≤⎩n xnx e x n f x x (6.7) 其中10()(0)+∞--Γ=>⎰x x e dx ααα是Γ函数.从图6.3可以看出,当自由度3n ≥,2()n χ分布密度函数的曲线均为单峰曲线,且随着自由度n 的增大,2()n χ分布的密度函数图形逐渐变得对称,接近于正态分布的密度函数曲线.图6.3 2()n χ分布的概率密度函数图像2χ分布有如下两条重要性质.性质1 若22(),()~~X n Y m χχ,且X 与Y 相互独立,则~+X Y 2()+n m χ.性质2 若2()~X n χ,则,2EX n D X n ==()(). 定义6.2 设2()~X n χ,对于任意给定的(01)αα<<,使2{()}P X n αχα>= (6.8)成立的2()n αχ称为自由度为n 的2χ分布的上α分位数.图6.4 2χ分布的上α分位数示意图2χ分布的上α分位数的值可通过2χ分布表(见附录)查得.当45n >时,也可用下面的(6.9)式得到上α分位数的近似值.其中z α是标准正态分布的上α分位数.2.t 分布定义6.3 若X 与Y 相互独立,且2~(0,1),~()X N Yn χ,则随机变量T =所服从的分布称为自由度为n 的t 分布,记作()~T t n . ()t n 分布的概率密度函数为12212()1,2+-+⎛⎫Γ ⎪⎛⎫⎝⎭=+-∞<<+∞ ⎪⎛⎫⎝⎭ ⎪⎝⎭n n x f x x n n . (6.10) 从图6.5可以看出,()t n 分布的密度函数的图形关于y 轴是对称的,且当n 很大时,图形几乎与标准正态分布的密度函数曲线重叠.图6.5 ()n t 分布的概率密度函数图像t 分布有这样的性质:若()~T t n ,则0(1),(2)2=>=>-nE T n D T n n ()(). 定义6.4 设()~T t n ,对于任意给定的(01)αα<<,使{()}P T t n αα>= (6.11)成立的()t n α称为自由度为n 的()t n 分布的上α分位数.图6.6 t 分布的上α分位数示意图()t n 分布的上α分位数的值可通过t 分布表(见附录)查得(表中列出了45n ≤常用α的上α分位数的数值).当45n >时,t 分布接近标准正态分布,这时()≈t n z αα. 注意,由()t n 分布的对称性易知,1()()t n t n αα-=-. (6.12)3.F 分布定义6.5 若X 与Y 相互独立,且2212(),()~~X n Y n χχ,则随机变量12X n F Y n =所服从的分布称为第一自由度为1n 、第二自由度为2n 的F 分布,记作12(,)~F F n n .12(,)F n n 分布的概率密度函数为112112221112122221,0,()220, 0.+--⎧+⎛⎫Γ ⎪⎪⎛⎫⎛⎫⎝⎭⎪+>⎪ ⎪ ⎪=⎛⎫⎛⎫⎨⎝⎭⎝⎭ΓΓ ⎪ ⎪⎪⎝⎭⎝⎭⎪≤⎪⎩n n n n n n n n x x x n n f x n n x (6.13)12(,)F n n 分布的概率密度函数的图形如图6.7所示.图6.7 12(,)F n n 分布的概率密度函数图像F 分布具有这样的性质:若12(,)~F F n n ,则211(,)~F n n F. 定义6.6 设12(,)~F F n n ,对于任意给定的(01)αα<<,使12{(,)}P F F n n αα>= (6.14)成立的12(,)F n n α称为第一自由度为1n 、第二自由度为2n 的F 分布的上α分位数.图6.8 F 分布的上α分位数示意图F 分布的上α分位数的值可通过F 分布表(见附录)查得(表中列出了一些常用α值的上α分位数).上1-α分位数则可由下式得到.112211(,)(,)-=F n n F n n αα. (6.15)例如,由附表E 可以查得0.05(10,11) 2.85=F ,然后利用(6.15)式得0.950.0511(11,10)0.3509(10,11) 2.85===F F .作业(P 177):1.-6.§6.4 常用统计量及其分布6.4.1 统计量的概念样本是总体的代表,包含有总体的许多信息,但这些信息比较分散,一般不能直接用于对总体进行统计推断,必须进行整理、加工,将有用的信息集中起来.以样本作为自变量的样本函数就是样本信息集中的一种表现,人们就是利用它来对总体进行统计推断的.定义6.7 设12,,,n X X X 是来自总体X 的样本,12,,,n x x x 是样本的观测值,而12(,,,)n g t t t 为一个已知的n 元函数.若样本函数12(,,,)n g X X X 中不含有未知参数,则称12(,,,)n g X X X 为样本的统计量,称12(,,,)n g x x x 为统计量的观测值.在§6.2中介绍的样本的基本数字特征都是统计量.但1=∑ni i i c X (其中(1,2,,)=i c i n 是未知参数)不是统计量.6.4.2 来自正态总体的常用统计量及其分布正态分布是应用最为广泛的一种分布,而由正态总体的样本均值与样本方差所构成的统计量的分布则是统计推断中最常采用的抽样分布.定理6.2 设12,,,n X X X 是来自正态总体2(,)N μσ的样本,X 为样本均值,则有(1)2~(,)X N n μσ;~(0,1)X N ;(3)221~()=-⎛⎫⎪⎝⎭∑nii X n μχσ.12(,)F n n 定理 6.3 若12,,,n X X X 是来自正态总体2(,)N μσ的样本,其样本均值和样本方差分别为11==∑n i i X X n 和2211()1n i i S X X n ==--∑,则 (1)222(1)~(1)--n S n χσ; (2)X 与2S 相互独立;~(1)-X t n . 定理6.4 若112,,,n X X X 与212,,,n Y Y Y 是来自正态总体211(,)N μσ和222(,)N μσ相互独立的两个样本,,X Y 和2212,S S 分别是两个样本的样本均值和样本方差,则有(1)22121212~,⎛⎫--+ ⎪⎝⎭X Y N n n σσμμ;(2)2212122212~(1,1)--S S F n n σσ;(3)当22212σσσ==时,12)~(2)+-X Y t n n其中222112212(1)(1),2-+-==+-n S n S S S n n ωω 例 6.8(P 179)例 6.9(P 179) 作业(P 180):1.-4.。

相关文档
最新文档