样本及抽样分布
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 1 P{ } 1 F F1 ( n1 ,n2 ) y 1 1 P{ } F F1 ( n1 ,n2 )
Student
2 定义: 设X~N(0,1) , Y~ (n) , 且X与Y相互
独立,则称变量
T
X Y n
所服从的分布为自由度为 n的 t 分布。
记为: T ~ t (n).
休息 结束
T 的密度函数为:
1 [( n 1 ) 2 ] x 2 n f ( x;n ) (1 ) 2 n ( n 2 ) n
n1 1 2
1 x
n1 n2
n1 n2 2
x0
x0
X的数学期望为:
n2 E( X ) n2 2
若n2>2
即它的数学期望并不依赖于第一自由度n1.
F分布演示
休息 结束
分位数演示
休息
结束
例如:
z0 .05 1.645
z0 .01 2.326
z0.99 z0.01 -2.326
休息 结束
2. 样本方差与样本标准差
S
2
n 1 2 S2 ( X X ) i n 1 i 1
1 ( X i X )2 n i 1
n
它反映了总体方差 的信息
S S , S S
2
2
休息
结束
1 ( xi x )2 xi 2 X i n i 1 i 1 i 1
从某品牌轿车中抽5 辆进行耗油量试验
样本容量为5
休息 结束
容量为 n 的样本(也称为子样)可以 看作 n 维随机变量: ( X , X , … , X )
1 2 n
但是,一旦取定一组样本,得到的是 n个具体的数 ( x1 , x2 , … , xn ),称为样本 的一次观察值,简称样本观察值 。
休息
独立,则 X 1 X 2 ~ 2 (n1 n2 )
这个性质叫 分布的可加性.
2
休息 结束
若 X ~ (n),
2
则可以求得, EX = n, DX= 2n
应用中心极限定理可得,若
X ~ 2 ( n ) ,则当n充分大时,
X n 2n
的分布近似正态分布N(0,1).
休息
结束
2、t 分布
休息 结束
由此也可以说:
概率论是数理统计的基础,而数理
统计是概率论的重要应用。但它们是并
列的两个学科,并无从属关系。
休息
结束
需要强调说明一点: 统计方法具有“部分推断整体”的 特征 。 因为我们是从一小部分样本观察值 去推断该全体对象(总体)情况,即由 部分推断全体。 这里使用的推理方法是 “归纳推理”。
后者又是随机变量,故统计量也是随
机变量,因而就有一定的分布,这个
分布叫做统计量的“抽样分布” .
抽样分布
精确抽样分布
渐近分布
(小样本问题中使用) (大样本问题中使用)
休息 结束
三大抽样分布
2 分布 1、
Person
定义: 设 X 1, X 2 ,, X n 相互独立, 都服从正态
分布N(0,1), 则称随机变量:
t0.025 ( 6 ) 2.4469 t0.975 ( 6 ) t0.025 ( 6 ) -2.4469
20.025 ( 6 ) 14.449
20.975 ( 6 ) 1.237
计算 休息 结束
F0.025 ( 6,4 ) 9.20 F0.975 ( 6,4 ) ?
1 F1 ( n1 ,n2 ) F ( n2 ,n1 )
y
F1 ( n1 ,n2 )
F( n1 ,n2 )
1
一般地,
x
证:P{ F F1 ( n1 ,n2 )} 1
1 1 P{ } 1 F F1 ( n1 ,n2 )
休息 结束
P{ F F1 ( n1 ,n2 )} 1
具有自由度为n的t分布的随机变量T的数 学期望和方差为: E ( T ) = 0 ; D ( T ) = n / (n-2) , 对 n >2
休息 结束
t分布的密度函数关于x=0对称,且
Lim f ( x; n) 0
x
当n充分大时,其图形类似于标准正 态分布密度函数的图形。
请看演示 t 分布
结束
由于抽样的目的是为了对总体进行 统计推断,为了使抽取的样本能很好地 反映总体的信息,必须考虑抽样方法。 最常用的一种抽样方法叫作“简单
随机抽样”,它要求抽取的样本满足下
面两点:
休息
结束
1. 代表性: X1 , X2 , … , Xn 中每一个
与所考察的总体有相同的分布。 2. 独立性: X1 , X2 , … , Xn 是相互独 立的随机变量。
)个性 (特殊性) 和总体共性(普遍性)之间
的一种内在的、对立统一的辩证关系。
但此时还应记住毕竟是由“局部”推 断“整体”,因而仍可能犯错误,结论往 往又是在某个“可靠性水平”之下得出的
。
休息 结束
§1.1 随机样本 1.总体与个体
一个统计问题总有它明确的研究对象。
研究对象的全体称为总体(母体),
总体中每个成员称为个体。
休息
结束
然而在统计研究中,人们关心总体仅仅是关心
其每个个体的一项(或几项)数量指标和该数量指标
在总体中的分布情况。这时,每个个体具有的数量
指标的全体就是总体。
某 批 灯 泡 的 寿 命 某品牌轿车百公里 耗油量
该批灯泡寿命的 全体就是总体
某品牌轿车百公里耗 油量的全体就是总体
EX
DX
2
n
Es 2 2
休息
结束
它反映了总体k 阶矩 的信息
3. 样本k阶原点矩
1 n k Ak X i n i 1 (X n
i 1 n
4. 样本k阶中心矩 B 1 k
它反映了总体k 阶 中心矩的信息
i
X)
k
k=1,2,…
休息 结束
统计量既然是依赖于样本的,而
休息 结束
在数理统计中,不是对所研究的对象全 体(称为总体)进行观察,而是抽取其中的部 分(称为样本)进行观察获得数据(抽样), 并通过这些数据对总体进行推断。 由于推断是基于抽样数据,抽样数据又 不能包括研究对象的全部信息。因而由此获 得的结论必然包含不肯定性。所以,在数理 统计中必然要用到概率论的理论和方法。
休息 结束
数理统计学是一门应用性很强的学科。 它是研究怎样以有效的方式收集、 整理 和分析受随机影响的数据,并对所考察的 问题作出推断和预测,直至为采取决策和 行动提供依据和建议。
休息
结束
数理统计不同于一般的资料统计,
它更侧重于应用随机现象本身的规律性
进行资料的收集、整理和分析。
数理统计的任务就是研究怎样有效地 收集、整理、分析所获得的有限的、局部 的资料,对所研究问题 的整体, 尽可能地作出 精确而可靠的结论。
而概率分布正是刻划这种集体性质的适 当工具。因此在理论上可以把总体与概率分 布等同起来。
休息 结束
在数理统计中,总体这个概念
的要旨是:
———总体就是一个概率分布。
25 20
15
10
5
0 -500
0
500
1000
1500
2000
休息
结束
2. 样本
为推断总体分布及各种特征,按一定 规则从总体中抽取若干个体进行观察试验, 以获得有关总体的信息,这一抽取过程称 为 “抽样”,所抽取的部分个体称为样本。 样本中所包含的个体数目称为样本容量。
总体(理论分布)
样本
样本值
总体分布决定了样本取值的概率规律, 也就是样本取到样本值的规律,因而可以 由样本值去推断总体。
休息 结束
§2.2 抽样分布 1. 统计量及其抽样分布
由样本值去推断总体情况,需要对样本值进行 “加工”,这就要构造一些样本的函数,它把样 本中所含的(某一方面)的信息集中起来。 这种不含任何未知参数的样本的函数称为统 计量。它是完全由样本决定的量。统计量的分布 称为抽样分布。
所服从的分布为自由度为 n 的 分布. 记为: ~ (n)
2 2
休息 结束
X 1 X 2 X n
2
2
2
2
2
2分布的密度函数为:
n x 1 1 n2 x2 e 2 f ( x; n ) 2 ( n 2 ) 0
x0 x0
其中伽玛函数 ( x )通过积分 来定义.
n n n
2
xi nx
2 i 1
n
2
1 n 2 2 S xi x n 1 i 1 n-1
2
n
S
2
1 xi 2 x 2 n i 1
休息 结束
n
定理 设总体X具有二阶矩,EX=μ, DX=σ2 <+∞,设X1, X2, …, Xn 是从该总体 得到的样本,则:
休息 结束
由于每个个体的出现是随机的,所以 相应的数量指标的出现也带有随机性。从 而可以把这种数量指标看作一个随机变量 ,因此随机变量的分布就是该数量指标在 总体中的分布。 这样,总体就可以用一个随机变量 及其分布来描述。
休息
结束
统计的任务,是根据从总体中抽取的 样本,去推断总体的性质。
由于我们关心的是总体中的个体的某项指 标(如人的身高、体重,灯泡的寿命,汽车的 耗油量…) ,所谓总体的性质,无非就是这 些指标值的集体的性质。
休息 结束
由定义可见,
1 Y n2 ~ F ( n2, n1) F X n1
休息
结束
若X~F(n1,n2), X的概率密度为
( ) n1 n1 ( n2 )( n2 x ) n1 n 2 f ( x; n1 , n2 ) ( 2 ) ( 2 ) 0
n1 n2 2
休息 结束
不难看到,当n充分大时,t 分布近 似N (0,1)分布。 但对于较小的n,t分布 与N (0,1)分布相差很大。
休息
结束
3、F分布
Fisher
2 2 X ~ ( n ), Y ~ (n2 ), X与Y相互 定义: 设 1 独立,则称统计量 X n1
F
Y n2
服从自由度为n1及 n2 的F分布,n1称为第 一自由度,n2称为第二自由度,记作 : F ~F ( n1 , n2 ) .
休息 结束
这种归纳推理不同于数学中的“演绎
推理”。 它在作出结论时,是根据所观察到的 大量个别情况,“归纳”起来所得,而不 是从一些假设、命题、已知的事实等出发, 按一定的逻辑推理去得出来的。
休息 结束
如果这一切都建立在可靠的科学基础上
,则对总体下结论是可能的也是可靠的。
因为这里存在着样品(随机抽取的一个个体
休息 结束
2. 样本均值及其抽样分布
1 n 1. 样本均值 X X i n i 1
反映了总体均值的信息 分组样本场合:
1 kΒιβλιοθήκη BaiduX f i xi n i 1
其中 k 为组数;xi 为第 i 组的组中值; fi 为第 i 组的频率。
休息 结束
定理: 设 X 1, X 2 ,, X n 是来自某总体的样本, 为 X 样本均值。 1. 若总体分布为 N( μ,σ2), 则 的精确分 X 布为 N(μ, σ2/n ) ; 2. 若总体分布未知或不是正态分布, 则 X 的渐近分布为 N(μ, σ2/n ) ;
第一章
样本及抽样分布
休息
结束
本章转入课程的第二部分
———数理统计
数理统计的特点是应用面广,分支较多。 社会的发展不断向统计提出新的问题。
休息
结束
从历史的典籍中,人们不难发现许多关 于钱粮、户口、地震、水灾等等的记载,说 明人们很早就开始了统计的工作。但是当时 的统计,只是对有关事实的简单记录和整理, 而没有在一定理论的指导下,作出超越这些 数据范围之外的推断。 到了十九世纪末二十世纪初,随着近代 数学和概率论的发展,才真正诞生了数理统 计学这门学科。
( x) e t
0
t x 1
dt , x 0
2 分布演示
休息 结束
由 分布的定义,不难得到:
2
1. 设 X 1, X 2 ,, X n 相互独立, 都服从正态分布 N ( , 2 ), 则
2
1
2
( Xi )
i 1
n
2
~ (n)
2
2. 设 X 1 ~ 2 (n1 ), X 2 ~ 2 (n2 ), 且X1,X2相互
休息
结束
由简单随机抽样得到的样本(子样)称
为简单随机样本(子样)。
用( X1 , X2 , … , Xn )表示。 简单随机样本是应用中最常见的情形,
今后,当说到( X1 , X2 , … , Xn )是取自
某总体的样本时,若不特别说明,就指简
单随机样本。
休息 结束
3. 总体、样本、样本值的关系
Student
2 定义: 设X~N(0,1) , Y~ (n) , 且X与Y相互
独立,则称变量
T
X Y n
所服从的分布为自由度为 n的 t 分布。
记为: T ~ t (n).
休息 结束
T 的密度函数为:
1 [( n 1 ) 2 ] x 2 n f ( x;n ) (1 ) 2 n ( n 2 ) n
n1 1 2
1 x
n1 n2
n1 n2 2
x0
x0
X的数学期望为:
n2 E( X ) n2 2
若n2>2
即它的数学期望并不依赖于第一自由度n1.
F分布演示
休息 结束
分位数演示
休息
结束
例如:
z0 .05 1.645
z0 .01 2.326
z0.99 z0.01 -2.326
休息 结束
2. 样本方差与样本标准差
S
2
n 1 2 S2 ( X X ) i n 1 i 1
1 ( X i X )2 n i 1
n
它反映了总体方差 的信息
S S , S S
2
2
休息
结束
1 ( xi x )2 xi 2 X i n i 1 i 1 i 1
从某品牌轿车中抽5 辆进行耗油量试验
样本容量为5
休息 结束
容量为 n 的样本(也称为子样)可以 看作 n 维随机变量: ( X , X , … , X )
1 2 n
但是,一旦取定一组样本,得到的是 n个具体的数 ( x1 , x2 , … , xn ),称为样本 的一次观察值,简称样本观察值 。
休息
独立,则 X 1 X 2 ~ 2 (n1 n2 )
这个性质叫 分布的可加性.
2
休息 结束
若 X ~ (n),
2
则可以求得, EX = n, DX= 2n
应用中心极限定理可得,若
X ~ 2 ( n ) ,则当n充分大时,
X n 2n
的分布近似正态分布N(0,1).
休息
结束
2、t 分布
休息 结束
由此也可以说:
概率论是数理统计的基础,而数理
统计是概率论的重要应用。但它们是并
列的两个学科,并无从属关系。
休息
结束
需要强调说明一点: 统计方法具有“部分推断整体”的 特征 。 因为我们是从一小部分样本观察值 去推断该全体对象(总体)情况,即由 部分推断全体。 这里使用的推理方法是 “归纳推理”。
后者又是随机变量,故统计量也是随
机变量,因而就有一定的分布,这个
分布叫做统计量的“抽样分布” .
抽样分布
精确抽样分布
渐近分布
(小样本问题中使用) (大样本问题中使用)
休息 结束
三大抽样分布
2 分布 1、
Person
定义: 设 X 1, X 2 ,, X n 相互独立, 都服从正态
分布N(0,1), 则称随机变量:
t0.025 ( 6 ) 2.4469 t0.975 ( 6 ) t0.025 ( 6 ) -2.4469
20.025 ( 6 ) 14.449
20.975 ( 6 ) 1.237
计算 休息 结束
F0.025 ( 6,4 ) 9.20 F0.975 ( 6,4 ) ?
1 F1 ( n1 ,n2 ) F ( n2 ,n1 )
y
F1 ( n1 ,n2 )
F( n1 ,n2 )
1
一般地,
x
证:P{ F F1 ( n1 ,n2 )} 1
1 1 P{ } 1 F F1 ( n1 ,n2 )
休息 结束
P{ F F1 ( n1 ,n2 )} 1
具有自由度为n的t分布的随机变量T的数 学期望和方差为: E ( T ) = 0 ; D ( T ) = n / (n-2) , 对 n >2
休息 结束
t分布的密度函数关于x=0对称,且
Lim f ( x; n) 0
x
当n充分大时,其图形类似于标准正 态分布密度函数的图形。
请看演示 t 分布
结束
由于抽样的目的是为了对总体进行 统计推断,为了使抽取的样本能很好地 反映总体的信息,必须考虑抽样方法。 最常用的一种抽样方法叫作“简单
随机抽样”,它要求抽取的样本满足下
面两点:
休息
结束
1. 代表性: X1 , X2 , … , Xn 中每一个
与所考察的总体有相同的分布。 2. 独立性: X1 , X2 , … , Xn 是相互独 立的随机变量。
)个性 (特殊性) 和总体共性(普遍性)之间
的一种内在的、对立统一的辩证关系。
但此时还应记住毕竟是由“局部”推 断“整体”,因而仍可能犯错误,结论往 往又是在某个“可靠性水平”之下得出的
。
休息 结束
§1.1 随机样本 1.总体与个体
一个统计问题总有它明确的研究对象。
研究对象的全体称为总体(母体),
总体中每个成员称为个体。
休息
结束
然而在统计研究中,人们关心总体仅仅是关心
其每个个体的一项(或几项)数量指标和该数量指标
在总体中的分布情况。这时,每个个体具有的数量
指标的全体就是总体。
某 批 灯 泡 的 寿 命 某品牌轿车百公里 耗油量
该批灯泡寿命的 全体就是总体
某品牌轿车百公里耗 油量的全体就是总体
EX
DX
2
n
Es 2 2
休息
结束
它反映了总体k 阶矩 的信息
3. 样本k阶原点矩
1 n k Ak X i n i 1 (X n
i 1 n
4. 样本k阶中心矩 B 1 k
它反映了总体k 阶 中心矩的信息
i
X)
k
k=1,2,…
休息 结束
统计量既然是依赖于样本的,而
休息 结束
在数理统计中,不是对所研究的对象全 体(称为总体)进行观察,而是抽取其中的部 分(称为样本)进行观察获得数据(抽样), 并通过这些数据对总体进行推断。 由于推断是基于抽样数据,抽样数据又 不能包括研究对象的全部信息。因而由此获 得的结论必然包含不肯定性。所以,在数理 统计中必然要用到概率论的理论和方法。
休息 结束
数理统计学是一门应用性很强的学科。 它是研究怎样以有效的方式收集、 整理 和分析受随机影响的数据,并对所考察的 问题作出推断和预测,直至为采取决策和 行动提供依据和建议。
休息
结束
数理统计不同于一般的资料统计,
它更侧重于应用随机现象本身的规律性
进行资料的收集、整理和分析。
数理统计的任务就是研究怎样有效地 收集、整理、分析所获得的有限的、局部 的资料,对所研究问题 的整体, 尽可能地作出 精确而可靠的结论。
而概率分布正是刻划这种集体性质的适 当工具。因此在理论上可以把总体与概率分 布等同起来。
休息 结束
在数理统计中,总体这个概念
的要旨是:
———总体就是一个概率分布。
25 20
15
10
5
0 -500
0
500
1000
1500
2000
休息
结束
2. 样本
为推断总体分布及各种特征,按一定 规则从总体中抽取若干个体进行观察试验, 以获得有关总体的信息,这一抽取过程称 为 “抽样”,所抽取的部分个体称为样本。 样本中所包含的个体数目称为样本容量。
总体(理论分布)
样本
样本值
总体分布决定了样本取值的概率规律, 也就是样本取到样本值的规律,因而可以 由样本值去推断总体。
休息 结束
§2.2 抽样分布 1. 统计量及其抽样分布
由样本值去推断总体情况,需要对样本值进行 “加工”,这就要构造一些样本的函数,它把样 本中所含的(某一方面)的信息集中起来。 这种不含任何未知参数的样本的函数称为统 计量。它是完全由样本决定的量。统计量的分布 称为抽样分布。
所服从的分布为自由度为 n 的 分布. 记为: ~ (n)
2 2
休息 结束
X 1 X 2 X n
2
2
2
2
2
2分布的密度函数为:
n x 1 1 n2 x2 e 2 f ( x; n ) 2 ( n 2 ) 0
x0 x0
其中伽玛函数 ( x )通过积分 来定义.
n n n
2
xi nx
2 i 1
n
2
1 n 2 2 S xi x n 1 i 1 n-1
2
n
S
2
1 xi 2 x 2 n i 1
休息 结束
n
定理 设总体X具有二阶矩,EX=μ, DX=σ2 <+∞,设X1, X2, …, Xn 是从该总体 得到的样本,则:
休息 结束
由于每个个体的出现是随机的,所以 相应的数量指标的出现也带有随机性。从 而可以把这种数量指标看作一个随机变量 ,因此随机变量的分布就是该数量指标在 总体中的分布。 这样,总体就可以用一个随机变量 及其分布来描述。
休息
结束
统计的任务,是根据从总体中抽取的 样本,去推断总体的性质。
由于我们关心的是总体中的个体的某项指 标(如人的身高、体重,灯泡的寿命,汽车的 耗油量…) ,所谓总体的性质,无非就是这 些指标值的集体的性质。
休息 结束
由定义可见,
1 Y n2 ~ F ( n2, n1) F X n1
休息
结束
若X~F(n1,n2), X的概率密度为
( ) n1 n1 ( n2 )( n2 x ) n1 n 2 f ( x; n1 , n2 ) ( 2 ) ( 2 ) 0
n1 n2 2
休息 结束
不难看到,当n充分大时,t 分布近 似N (0,1)分布。 但对于较小的n,t分布 与N (0,1)分布相差很大。
休息
结束
3、F分布
Fisher
2 2 X ~ ( n ), Y ~ (n2 ), X与Y相互 定义: 设 1 独立,则称统计量 X n1
F
Y n2
服从自由度为n1及 n2 的F分布,n1称为第 一自由度,n2称为第二自由度,记作 : F ~F ( n1 , n2 ) .
休息 结束
这种归纳推理不同于数学中的“演绎
推理”。 它在作出结论时,是根据所观察到的 大量个别情况,“归纳”起来所得,而不 是从一些假设、命题、已知的事实等出发, 按一定的逻辑推理去得出来的。
休息 结束
如果这一切都建立在可靠的科学基础上
,则对总体下结论是可能的也是可靠的。
因为这里存在着样品(随机抽取的一个个体
休息 结束
2. 样本均值及其抽样分布
1 n 1. 样本均值 X X i n i 1
反映了总体均值的信息 分组样本场合:
1 kΒιβλιοθήκη BaiduX f i xi n i 1
其中 k 为组数;xi 为第 i 组的组中值; fi 为第 i 组的频率。
休息 结束
定理: 设 X 1, X 2 ,, X n 是来自某总体的样本, 为 X 样本均值。 1. 若总体分布为 N( μ,σ2), 则 的精确分 X 布为 N(μ, σ2/n ) ; 2. 若总体分布未知或不是正态分布, 则 X 的渐近分布为 N(μ, σ2/n ) ;
第一章
样本及抽样分布
休息
结束
本章转入课程的第二部分
———数理统计
数理统计的特点是应用面广,分支较多。 社会的发展不断向统计提出新的问题。
休息
结束
从历史的典籍中,人们不难发现许多关 于钱粮、户口、地震、水灾等等的记载,说 明人们很早就开始了统计的工作。但是当时 的统计,只是对有关事实的简单记录和整理, 而没有在一定理论的指导下,作出超越这些 数据范围之外的推断。 到了十九世纪末二十世纪初,随着近代 数学和概率论的发展,才真正诞生了数理统 计学这门学科。
( x) e t
0
t x 1
dt , x 0
2 分布演示
休息 结束
由 分布的定义,不难得到:
2
1. 设 X 1, X 2 ,, X n 相互独立, 都服从正态分布 N ( , 2 ), 则
2
1
2
( Xi )
i 1
n
2
~ (n)
2
2. 设 X 1 ~ 2 (n1 ), X 2 ~ 2 (n2 ), 且X1,X2相互
休息
结束
由简单随机抽样得到的样本(子样)称
为简单随机样本(子样)。
用( X1 , X2 , … , Xn )表示。 简单随机样本是应用中最常见的情形,
今后,当说到( X1 , X2 , … , Xn )是取自
某总体的样本时,若不特别说明,就指简
单随机样本。
休息 结束
3. 总体、样本、样本值的关系