统计量及其分布
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实例1 设 X 1 , X 2 , X 3是来自总体N ( , 2 )的一个
样本, 其中 为已知, 2 为未知, 判断下列各式哪 些是统计量, 哪些不是?
T1 X 1 ,
T2 X 1 X 2e ,
X3
1 T3 ( X 1 X 2 X 3 ), 3 T4 max( X 1 , X 2 , X 3 ),
3
4
3,1
4,1
3,2
4,2
3,3
4,3
3,4
4,4
样本均值的抽样分布
各样本的均值如下表,并给出样本均值的抽样分布
16个样本的均值(x) 第一个 观察值
.3 P(x)
第二个观察值
1 2 3 4
.2 .1 0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 x
1
2 3 4
1.0
1.5 2.0 2.5
.3 .2 .1 0
N
1.25
1
2
3
4
样本均值的抽样分布
现从总体中抽取n=2的简单随机样本,在重复 抽样条件下,共有42=16个样本。所有样本的结果 如下表.
所有可能的n = 2 的样本(共16个)
第一个 观察值
1 2
第二个观察值 1 1,1 2,1 2 1,2 2,2 3 1,3 2,3 4 1,4 2,4
2 最小,其中c为任意给定常数。 ( x x ) i
样本均值的抽样分布 (例题分析)
【例】设一个总体含有4 个个体,分别为X1=1、X2=2、 X3=3 、X4=4 。总体的均值、方差及分布如下。
总体均值和方差
总体的频数分布
X
i 1
N
i
N
N
2.5
2
2 ( X ຫໍສະໝຸດ Baidu) i i 1
例
设总体X 的概率密度函数为
x f ( x) 0 x 1 x 1
( X1 , X 2 ,, X 50 ) 为总体的样本,求 (1)X 的数学期望与方差 (2) E ( S 2 ) (3) P( X 0.02)
解(1) E ( X ) E ( X ) x x dx 0
例 设总体X的分布为仅取 0, 1, 2 的离散均匀分布,
其分布列为
x p 0
1 3
1
1 3
2
1 3
现从中抽取容量为 3 的样本,其一切可能取值有 3 3 27 种,现将它们以及由它们所构成的次序统 计量
X(1) P
X (1) , X (2) , X (3) 的一切可能值列在表中(P272),
数据中含有较多远离均值的极端数值,则峰度为正,
称为细尾。分布密度曲线较陡
数据中如果均值两侧的极端数值较少,则峰度为负,
称为粗尾。分布密度曲线较平缓
Ⅱ(β >0)
Ⅰ(β =0)
Ⅲ (β <0)
3. 次序统计量及其分布
定义 5-3-7: 设 X1 , X 2 ,, X n 为取自总体X的样本, 将其按大小顺序排序 X (1) X (2) X ( n )
1.5
2.0 2.5 3.0
2.0
2.5 3.0 3.5
2.5
3.0 3.5 4.0
样本均值的抽样分布
所有样本均值的均值和方差
1.0 1.5 4.0 x 2.5 M 16 n 2 ( xi x ) M为样本数目 2 i 1 x M (1.0 2.5) 2 (4.0 2.5) 2 2 0.625 16 n
则称 X(k) 为第 k 个次序统计量( No.k Order Statistic) 特别地,称
X (1) min X i
1i n
为最小顺序统计量(Minimum order Statistic) 称
X ( n ) max X i
1i n
为最大顺序统计量(Maximum order Statistic) 。
E( X ) E( X )
D( X ) 2 D( X ) n n
E( S 2 ) D( X ) 2
1 n 1 n 1 n E X k E ( X k ) , n k 1 n k 1 n k 1
1 n 独立 1 D X k 2 n n k 1 1 D ( X ) k 2 n k 1
(5)样本 k 阶中心矩 1 n Bk ( X i X )k , k 2, 3, ; n i 1
1 n 其观察值 bk ( x i x ) k , k 2, 3, . n i 1
三、表示数据分布形状的统计量 偏度和峰度是描述数据分布形状的指标。 1. 偏度(skewness) 偏度是刻画数据对称性的指标。偏度的计算公式
1 1 D( X ) D( X ) E( X 2 ) 50 50 1 1 2 1 2 x x dx 50 0 100
1 1
(2)
E (S ) D( X ) E ( X ) 1 / 2.
2 2
(3) X ~ N (0,0.01)
近似
由中心极限定理
P( X 0.02) 1 P( X 0.02)
x 2.5 2 x 0.625
样本均值的抽样分布:
定理5.3.3 设x1, x2, …, xn 是来自某个总体的样本, x 为样本均值。
(1) 若总体分布为N(, 2),则 x 的精确分布 为N(, 2 /n),
(2) 若总体分布未知或不是正态分布, 但 E(x)=, Var(x)=2,则n 较大时 x的渐近分布 为N(, 2/n) ,常记为 xAN(, 2/n) 这里渐近分布是指n 较大时的近似分布.
k-1 x
1 x+x
n-k
图 x (k) 的取值示意图
n! (k 1)!1!(n k )!
第 k 个次序统计量 X (k ) 落入小区间 x, x x
内这一事件等价于容量为 n 的样本有 k 1 个分量落入 , x 区间内,
思考:在分组样本场合,样本均值如何计算? 二者结果相同吗?
x1 f1 x n f n 其中 x n
n fi
i 1
n
样本均值的基本性质:
定理5.3.1 若把样本中的数据与样本均值之差 称为偏差,则样本所有偏差之和为0,即
(x
i 1
n
i
x ) 0.
定理5.3.2 数据观测值与均值的偏差平方和 最小,即在形如 (xic)2 的函数中,
1 n 3 ( X X ) i n SK i 1 1 n 2 (Xi X ) n i 1
3 2
关于均值对称的数据其偏度为0; 均值左侧更为分散的数据,其偏度为负,称为左偏; 均值右侧更为分散的数据,其偏度为正,称为右偏。
Ⅰ(α =0)
II(α>0)
Ⅲ(α< 0)
其观察值
n n 1 1 2 2 2 2 s ( xi x ) x i nx . n 1 i 1 n 1 i 1
(3)样本标准差
n 1 2 S S2 X X ; i n 1 i 1
其观察值
s
1 n 2 ( x x ) . i n 1 i 1
§5.3 统计量及其分布
5.3.1 统计量与抽样分布
当人们需要从样本获得对总体各种参数的认识 时,最好的方法是构造样本的函数,不同的函 数反映总体的不同特征。 定义5.3.1 设 x1, x2, …, xn 为取自某总体的样 本,若样本函数T = T(x1, x2, …, xn)中不含有任 何未知参数,则称T为统计量。统计量的分布称 为抽样分布。
0 1 2 1/27 0 1/27 1 X(2) P 2 0 7/27 1 13/27 2 7/27
由此可给出 X (1) , X (2) , X (3) 的分布列如下:
19/27 7/27 X(3) P
7/27 19/27
可见这三个次序统计量的分布是不相同的。 两个次序统计量的联合分布,如 x(1) 和 x(2) 的联合 分布列为
思考:分组样本如何计算样本方差?
n n 2 1 1 2 2 2 s f i ( xi x ) [ f i xi n x ] n 1 i 1 n 1 i 1
其中 x i , f i 分别为第
i
区间的组中值和频数,
x 为样本均值。
定理 设总体X的期望E(X) = ,方差D(X) = 2, X1,X2,…,Xn为总体X的样本, X ,S2分别为 样本均值和样本方差,则
n n 1 2 1 2 2 E( S ) E X i nX (Xi X ) E n 1 i 1 n 1 i 1
2
1 n 2 2 E ( X i ) nE ( X ) n 1 i 1 2 1 n 2 2 2 ( ) n 2 n 1 i 1 n
i 1 i
x
n
1. 样本均值的均值(数学期望)等于总体均值
2. 样本均值的方差等于总体方差的1/n
样本均值的抽样分布与总体分布的比 较
总体分布
.3 .2 .1 0
.3 .2 .1 P(x)
抽样分布
1
2
3
4
0
= 2.5
σ2 =1.25
1.0 1.5 2.0 2.5 3.0 3.5 4.0
样本均值的抽样分布
n
k 1
n
2
2
n
,
定理 设总体X的期望E(X) = ,方差D(X) = 2,X1, X2,…,Xn为总体X的样本, X,S2分别为样本均值 和样本方差,则
E( X ) E( X )
D( X ) 2 D( X ) n n
E( S 2 ) D( X ) 2
是
T5 X 1 X 2 2 ,
不是
1 2 2 2 T6 2 ( X 1 X 2 X 3 ).
5.3.2 样本均值及其抽样分布
定义5.3.2 设 x1, x2, …, xn为取自某总体 的样本,其算术平均值称为样本均值,一 般用 x 表示,即
x= (x1+…+xn)/n
2. 峰度(kurtosis)
峰度反映总体分布尾端散布的趋势和陡峭程度。 峰度的计算公式为:
1 n 4 ( X X ) i n K i 1 3
1 2 (Xi X ) n i 1
n
2
利用峰度研究数据分布的形状是以正态分布为标准
近似于标准正态分布,则峰度接近于零;
x(2) x(1) 0 1 2 0 7/27 0 0 1 9/27 4/27 0 2 3/27 3/27 1/27
19 7 易于看出 P( x(1) 0) P( x(2) 0) X(1) X(2) 0 1 2 0 27 1 27 P 19/27 7/27 1/27 P 7/27 7 13/27 P( x(1) 0, x(2) 0) 不等于 27
即 x(1) 和 x(2) 是不独立的。
2 7/27
二、单个次序统计量的分布
定理5.3.5 设总体X的密度函数为p(x),分布 函数为F(x), x1, x2,…, xn为样本,则第k 个次序统计量x(k)的密度函数为
n! p k ( x) ( F ( x)) k 1 (1 F ( x)) nk p( x) (k 1)!(n k )!
0.02 0 2 1 0.1
21 Φ0.2
0.8414
(4) 样本 k 阶(原点)矩
1 n k Ak X i , k 1, 2, ; n i 1
1 n k 其观察值 k x i , k 1, 2, . n i 1
2. 几个常用统计量的定义
设 X 1 , X 2 ,, X n 是来自总体的一个样本 , x1 , x2 ,, xn 是这一样本的观察值 .
(2)样本方差
n 1 2 S2 ( X X ) i n 1 i 1
1 n 2 2 X i nX . n 1 i 1