武汉大学数理统计ppt 2数理统计基本概念
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2XiX
X
2
i 1
n
n
X
2 i
2X
X i nX 2
i1
i1
n
X
wk.baidu.com2 i
2n X
X
nX
2
i1
n
X
2 i
nX
2
i1
样本k 阶原点矩
它反映了总体k阶矩 的信息
Ak
1 n
n i 1
X
k i
样本k 阶中心矩
Bk
1 n
n i 1
(Xi
X )k
它反映了总体k 阶 中心矩的信息
k 1,2,
顺序统计量与极差
i 1
离散总体 X ~ P ( x (i) ) P ( X x (i) ) 则样本的分布列
N
Pn *(x1, x2 , , xn) Pxk k 1
例1 对下列总体分别求出样本的联合分布
(1) X ~ b(1, p); (2) X ~ N ( , 2 )
(2)总体X的概率密度为
f (x)
1
从总体中抽取个体检查后放回, 总体成分不变(分布不变)
X 1 , X 2 , , X n 相互独立的随机变量. 分量Xk与所考察的总体有相同的分布.
k 1,2, , n.
(2) 非重复(无返回)抽样 X 1, X 2 , , X n 对有限总体,取出样本后改变了总体的成分,所以 X 1 , X 2 , , X n 不相互独立,
2. 样本 在实际问题中,要考察整个总体往往是不可能的,
因为它需要耗费太多的资源和太多的时间. 有些 破坏性的试验更是不允许对整个总体进行考察.
考察某工厂生产的灯泡寿命
考察某型号手机的质量
考察吸烟和患肺癌的关系
为了推断总体分布及各种特征,一个可行的办法 是从该总体中按一定的规则抽取若干个个体进行观察 和试验,以获得有关总体的信息. 这一抽取过程称为 “抽样”,所抽取的部分个体称为样本.
e ,
(
x )2 2 2
2
x
样本的联合概率密度为
n
f * ( x1 , , xn ) f ( xi )
i1
1
2
n
e
1 2
2
n
xi 2
i1
3. 总体、样本、样本值的关系 事实上我们抽样后得到的资料都是具体的、确定的值. 如我们从某班学生中抽取10人测量身高,得到10个数, 它们是样本取到的值而不是样本. 我们只能观察到随机变量取的值,而见不到随机变量. 总体分布决定了样本取值的概率规律,也就是样本 取到样本值的规律,因而可以由样本值去推断总体.
注:g ( X 1 , X 2 , , X n ) 是随机变量的函数仍为随机变量。 g ( x1 , x2 , , xn ) 便是一个数。
注:统计量是随机变量。
例1
为来自总体的样本
未知, 已知,判断下列函数哪些是统计量。
2. 几个常见的统计量
X 1 , , X n是来自总体X的一个样本,
样本均值
E
X
2 i
1,
DX
2 i
E
X
4 i
(
E
X
2 i
)
2
3
1
2,
i 1,2, n
n
n
所以 E 2 E (
X
2 i
)
EX
2 i
n.
i 1
i 1
n
n
D 2 D(
X
2 i
)
DX
2 i
2n.
i 1
i 1
(4) 应用中心极限定理可得,若 X ~ 2 (n )
则当n充分大时,
X n 2n (标准化)
对无限总体而言做无返回抽取,并不改变总体的成分 X 1, X 2 , , X n 独立且同分布于总体
最常用的一种抽样方法叫作 “简单随机抽样”。 它要求抽取的样本满足下面两点: (1) 代表性(随机性):从总体中抽取样本的每一个 分量Xk 是随机的, 每一个个体被抽到的可能性相同。 (2) 独立同分布性
第二章 数理统计的基本概念
数理统计
数理统计可以分为两大类: 一类是如何科学地安排试验,以获取有效的随机数据。
-------描述统计学如:试验设计、抽样方法。 另一类是研究如何分析所获得的随机数据, 对所研究 的问题进行科学的、合理的估计和推断,尽可能地为 采取一定的决策提供依据,作出精确而可靠的结论.
设 ( x1, x2 , , xn ) 为样本 ( X 1 , X 2 , , X n ) 的一个
实现,且 x1 x2 xn.
当 ( X 1 , X 2 , , X n ) 取值为 ( x1, x2 , , xn ) 时,
定义随机变量 X(k) xk, k 1,2,, n.则称统计量
( X (1) , X (2) , , X (n) ) 为顺序统计量.
独立的随机变量 X 1 , X 2 , , X n 表示.
若总体X的分布函数为F x , 则其简单随机样本的
联合分布函数为
n
F
*
(
n
x1
,
x2
,
,
x
)
n
=
F
x1
F
x2
F
xn
F xk
k 1
若总体X的分布密度函数为f x, 则其简单随机样本的
n
联合密度函数为 f * (x1,, xn ) f (xi )
统计是从手中已有的资料--样本值,
去推断总体的情况--总体分布F(x)的性质.
样本是联系二者的桥梁
4. 样本的分布
1)样本的频数分布
将n个样本值
按从小到大排列,把相同
的数合并,并指出其频数(样本中各数出现的次数)
x
频数
频率
1)样本的经验分布函数
样本值 样本值小于或等于x的个数, ---样本的经验分布函数
6、若这批合金 由几种原料用不同的比例合成,那么 如何表达这批合金的强度与原料比例之间的关系?
(回归分析问题) 7.若这批材料是由k个厂家、k种不同工艺和k种固定 的原料比例生产的,各个厂家、各种工艺和各种原料 比例生产的合金强度有什么不同,怎么找出最好的厂 家、工艺和原料比例组合最好?(试验设计问题)
正态分布, 2分布, t 分布, F 分布
(1) 标准正态分布 X ~ N 0, 1
X的上α (0< α<1)分位点 z
P X z P X z 1 z 1
(2) 2 分 布
设
X
1,
X
2 ,
,
X
相互独立,都服从正态
n
分布N (0,1), 则称随机变量:
2 X 12 X 22 X n2
E( T ) = 0; D( T ) = n / ( n - 2 ) , 对 n > 2 (2)t 分布的密度函数关于 x = 0 对称,且
lim f ( x; n) 0
x
当n充分大时,其图形类似于标准正态分布密度 函数的图形. 不难看到,当n充分大时,t 分布近似
N (0,1)分布. 但对于较小的n, t分布与N (0,1)分布相差
n
D( X )
1 D(
n
n i1
Xi)
1 n2
n
D(
i1
Xi)
1 n2 nD(X )
D(X ) n
(3) E(S 2) D(X )
E
S2
E
1
n
1
n i 1
X
2 i
nX
2
1 n 1
n E
X
2
nE
X
2
n n 1
D X E 2 X D X E 2 X
-------推断统计学,如:参数估计、假设检验等。
例如 某厂生产一型号的合金材料,用随机的方法选取
100个样品进行强度测试,于是面临下列几个问题:
1、估计这批合金材料的强度均值是多少? (参数的点估计问题) 2、强度均值在什么范围内? (参数的区间估计问题) 3、若规定强度均值不小于某个定值为合格,那么这 批材料是否合格? (参数的假设检验问题) 4、这批合金的强度是否服从正态分布? (分布检验问题) 5、若这批材料是由两种不同工艺生产的,那么不同 的工艺对合金强度有否影响?若有影响,那一种工艺 生产的强度较好? (方差分析问题)
很大.
3 、 t 分布的分位点 对于给定的正数
所服从的分布为自由度为n的 2分布.
记为 2 ~ 2 ( n )
2分布的密度函数为
f ( x;n)
1
2n 2(n
2)
n 1 x
x2 e 2
0
x0 x0
其中伽玛函数 ( )
( ) e t t 1dt , 0 0
( 1) ( )
(1) 1
性质
(1) 设 X 1 , X 2 , , X n相互独立, 都服从正态分布
X 1 , X 2 , , X n 是相互独立的随机变量.
其中每一个分量Xk与所考察的总体有相同的分布. k 1,2, , n.
简单随机样本是应用中最常见的情形,今后当说到 “X1,X2,…,Xn是取自某总体的样本”时, 若不特别说明,就指简单随机样本.
简单随机样本可以用与总体独立同分布的n个相互
我们依次讨论参数的点估计、区间估计、假设检验、 方差分析、回归分析、试验设计
下面引入一些数理统计中的术语。
抽样和抽样分布
一、总体与样本 二、统计量 三、几个常用的分布 四、正态总体统计量的分布
一 总体和样本
1.总体
研究对象的某项数量指标值全体称为总体
总体
总体 …
研究某批灯泡的质量 考察国产 轿车的质量 个体——总体中每个成员(元素)
X
1 n
n i 1
Xi
它反映了总体 均值的信息
样本方差
S 2
1 n1
n
(Xi
i1
X )2
样本标准差
它反映了总体 方差的信息
S
S2
1 n
1
n i1
(Xi
X
)2
n
n
重要公式
(X i X )2
X
2 i
nX
2
i1
i1
S 2
1 n 1
n i 1
X
2 i
nX
2
n
证 左边=
X
2 i
其中
X (1)
min{X
1k n
k
},
X (n)
max{X
1k n
k
}
称
Dn X (n) X (1) 为极差.
样本的经验分布函数
常见统计量的性质
(1) E ( X ) E ( X )
E ( X )
E(1 n
n i1
Xi)
1n E(
n i1
Xi)
E(X ) E(X )
D(X )
(2) D(X )
的分布近似正态分布 N (0,1).
2分布的分位点
对于给定的正数
称满足条件
的点
为
分布的上 分位点.
上 当
分位点。 时
双侧 分位点。
双侧 分位点 一般的 分布表只列到n=45, n>45时,由
2、t 分布
定义: 设X~N(0,1) , Y~ 2 (n) , 且X与Y相互
独立,则称变量
t X Yn
给出了在n次独立重复试验中,事件 出现的频率,具有分布函数的一切性质。如: 非降,右连续;
由频数分布知
---n次独立重复试验中,事件 发生的频率。
由伯努利大数定律,
格列汶科进一步证明了:当n→∞时,Fˆn(x)以
概率1关于x一致收敛于F(x),即
P{lim n
sup
x
|
Fˆn
(
x
)
F
(
x
)
|
0}
1
这就是著名的格列汶科定理.
定理告诉我们,当样本容量n足够大时,对所有
的生x的, 概F(ˆ率xn )与为F1(.x)之差的绝对值都很小,这件事发
这就是我们可以由样本推断总体的基本理论依据.
二 统计量
1. 统计量 定义1 设 X 1 , X 2 , , X n 是来自总体X的一个样本,
g ( X 1 , X 2 , , X n ) 为一实值连续函数,其不包含任何 未知参数,则称 g ( X 1 , X 2 , , X n ) 为一个统计量。 g ( x1 , x2 , , xn ) 为 g ( X 1 , X 2 , , X n ) 的观测值。
所服从的分布为自由度为 n的 t 分布.
记为 t ~ t(n). t分 布 又 称 为 学 生 氏 分 布 .t(n)分 布 的
概率密度函数为:
f (x)
[(n 1)
2] (1
x
2
)
n 1 2
(n 2) n
n
x
2. 性质 (1)具有自由度为 n 的 t 分布的随机变量 T 的
数学期望和方差为:
N ( , 2 ), 则
2
1
2
n
(Xi
i1
)2
~
2(n)
(2) 设 X 1 ~ 2 ( n1 ), X 2 ~ 2 ( n 2 ), 且 X1,X2 相
互独立,则
X 1 X 2 ~ 2 (n1 n2 )
这个性质叫 2分布的可加性.
(3) E 2 n, D 2 2n
证 : E X i 0 , D X i 1, X i ~ N ( 0,1)
n
n 1
D
X
D
X
n
DX
例2 设
体 的 阶矩 (1) (2) 证
是来自总体
的一样本,总 存在,证明
独立且与 独立且与
同分布 同分布
由辛钦大数定律,知
体 的 阶矩
是来自总体 的一样本,总
对k元连续函数
三. 抽样分布
统计量既然是依赖于样本的,而后者又是随机 变量,故统计量也是随机变量,因而就有一定 的分布,这个分布叫做统计量的“抽样分布” . 常用的有
样本中所包含的个体数目称为样本容量.
从国产轿车中抽5辆进行耗油量试验。 样本容量为5。
由于抽样的目的是为了对总体进行统计推断,
为了使抽取的样本能很好地反映总体,必须考虑抽样 方法.
统计中,采用的抽样方法是随机抽样法, 即子样中每个个体是从总体中随意地取出来的。
(1) 重复(返回)抽样 X 1 , X 2 , , X n