(概率论与数理统计茆诗松) 第5章统计量及其分布

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

例5.3.6 设总体X 的分布为仅取0，1，2的离散
均匀分布，分布列为
x0 1 2
p 1/3 1/3 1/3
现从中抽取容量为3的样本，其一切可能取值有 33=27种， (表5.3.6)
x0 1 2
p 1/3 1/3 1/3
P(x(1)=0) = ?
ቤተ መጻሕፍቲ ባይዱ
可给出的 x(1) , x(2), x(3) 分布列如下：
n
(x x ) 0. i i1
定理5.3.2 数据观测值与均值的偏差平方和最小，即在形如 (xic)2 的函数中，
(xi x)2最小，其中c为任意给定常数。
样本均值的抽样分布：
定理5.3.3 设x1, x2, …, xn 是来自某个总体的样本，
x 为样本均值。
(1) 若总体分布为N(, 2)，则
是将样本观测值由小到大排列后得到的第 i 个观测值。
其中， x(1)=minx1, x2,…, xn称为该样本的最小次序统计量，称 x(n)=maxx1,x2,…,xn为该样本的最大次序统计量。
在一个样本中，x1, x2,…,xn 是独立同分布的，而次序统计量 x(1), x(2),…, x(n) 则既不独立，分布也不相同，看下例。
则
p R ( r ) 0 1 r n ( n 1 ) [ ( y r ) y ] n 2 d y n ( n 1 ) r n 2 ( 1 r )
这正是参数为(n1, 2)的贝塔分布。
5.3.6 样本分位数与样本中位数
样本中位数也是一个很常见的统计量，它也是次序统计量的函数，通常如下定义：
在n
不大时，常用
s2
1 n n1i1
(xi
x)2
作为样本方差,
其算术平方根也称为样本标准差。
在这个定义中， ( xi x )2 称为偏差平方和， n1称为偏差平方和的自由度。其含义是：
在 x 确定后, n 个偏差 x1x, x2x, …, xnx 中
只有n1个数据可以自由变动，而第n个则不能自由取值，因为 (xi x ) = 0 .
x , n1
2
n为奇数
m 0.5
12x
n 2
x n
，n为偶数
1
2
更一般地，样本p分位数mp可如下定义：
mp x1 2([(nxp (1 n]p)),x(np1))，若若 n np p不是是整整数数
四分位数计算
例：某数学补习小组11人年龄（岁）为： 17，19，22，24，25，28，34，35，36，37，38
x(1)x(2)
0
1
2
0 7/27 9/27 3/27
1
0
4/27 3/27
2
0
0
1/27
因为 P(x(1) = 0, x(2) = 0) =7/27 ，而 P( x(1) = 0)*P( x(2) = 0) = (19/27)*(7/27)，
二者不等，由此可看出x(1) 和 x(2)是不独立的。
bk = (xi称为x)k样/n 本k阶中心矩。特别，样本二阶中心矩就是样本方差。
当总体关于分布中心对称时，我们用 x 和 s
刻画样本特征很有代表性，而当其不对称时，
只用 x 和 s 就显得很不够。为此，需要一些刻画
分布形状的统计量，如样本偏度和样本峰度，它们都是样本中心矩的函数。
定义： 1 = b3/b23/2 称为样本偏度， 2 = b4/b22 称为样本峰度。
某电脑公司销售量数据的 Median/Quart./Rang箱线图
多批数据箱线图 (例题分析)
【例】从某大
学经济管理专业二年级学生中随机抽取 11 人，对8门主要课程的考试成绩进行调查，所得结果如表。试绘制各科考试成绩的批比较箱线图，并分析各科考试成绩的分布特征
课程名称
统计量的分布称为抽样分布。
按照这一定义：若
n
n
x1,
x2,
…,
xn
为样本，
则 xi , xi2 以及经验分布函数Fn(x)都是统计量
i1
i1
。
而当, 2 未知时，x1, x1/ 等均不是统计量。
统计量是样本的一个函数
统计量是统计推断的基础
尽管统计量不依赖于未知参数，但是它的分布一般是依赖于未知参数的。
样本偏度1反映了总体分布密度曲线的对称性信息。样本峰度2反映了总体分布密度曲线在其峰值附
近的陡峭程度。
偏态与峰态分布的形状
偏态
峰态
左偏分布右偏分布
扁平分布
与标准正态分布比较！
尖峰分布
偏度
峰度
数据分布偏斜程度的测度数据分布扁平程度的测度
偏态系数=0为对称分布偏态系数> 0为右偏分布偏态系数< 0为左偏分布
§5.3 统计量及其分布
样本均值样本方差样本标准差样本偏度
样本峰度次序统计量样本分位数样本中位数
5.3.1 统计量与抽样分布
当人们需要从样本获得对总体各种参数的认识时，最好的方法是构造样本的函数，不同的函数反映总体的不同特征。定义5.3.1 设 x1, x2, …, xn 为取自某总体的样本，若样本函数T = T(x1, x2, …, xn)中不含有任何未知参数。则称T为统计量。
设 x1, x2,…, xn 是来自该总体的样本，当样本量n 较大时，样本中位数m0.5 的渐近分布为
m0.5 AN(, 2/4n) .
Q30
通常，样本均值在概括数据方面具有一定的优势。
但当数据中含有极端值时，使用中位数比使用均值更好，中位数的这种抗干扰性在统计中称为具有稳健性。
5.3.7 五数概括与箱线图
三、多个次序统计量的联合分布
对任意多个次序统计量可给出其联合分布，以两个为例说明：
定理5.3.6 在定理5.3.5的记号下，次序统计量 (x(i), x(j)), (i j) 的联合分布密度函数为
p i( jy ,z)(i 1 )(! j in !1 )(n !j)[F !(y )i ] 1 [F (z) F (y )j ]i 1 [1 F (z)n ]jp (y )p (z), y z
峰态系数=0扁平峰度适中峰态系数<0为扁平分布
峰态系数>0为尖峰分布
偏态系数大于1或小于-1，被称为高度偏态分布；
偏态系数在0.5～1或
-1～-0.5之间，被认为是中等偏态分布；偏态系数越接近0，偏斜程度就越低
5.3.5 次序统计量及其分布
一、定义5.3.7 设 x1, x2, …, xn 是取自总体X的样本, x(i) 称为该样本的第i 个次序统计量，它的取值
5.3.2 样本均值及其抽样
分布
定义5.3.2
设 x1, x2, …, xn为取自某总体的
样本，其算术平均值称为样本均值，一般用
表示，x即
x= (x1+…+xn)/n
思考：在分组样本场合，样本均值如何计算？二者结果相同吗？
样本均值的基本性质：
定理5.3.1 若把样本中的数据与样本均值之差称为偏差，则样本所有偏差之和为0，即
英语经济数学西方经济学市场营销学财务管理基础会计学统计学计算机应用基础
11名学生各科的考试成绩数据学生编号
1 2 3 4 5 6 7 8 9 10 11
76 90 97 71 70 93 86 83 78 85 81 65 95 51 74 78 63 91 82 75 71 55 93 81 76 88 66 79 83 92 78 86 78 74 87 85 69 90 80 77 84 91 74 70 68 75 70 84 73 60 76 81 88 68 75 70 73 92 65 78 87 90 70 66 79 68 55 91 68 73 84 81 70 69 94 62 71 85 78 81 95 70 67 82 72 80 81 77
x1, x2, …, xn 为从该总体得到的样本，
x 和s2 分别是样本均值和样本方差，则
E( x )=, Var( x )=2 /n,
E(s2) =2
习题5.3
Q8
Q3
Q7
5.3 统计量及其分布（续）
样本矩次序统计量样本分位数箱线图
5.3.4 样本矩及其函数
样本均值和样本方差的更一般的推广是样本矩，这是一类常见的统计量。定义5.3.4 ak = (xik)/n 称为样本 k 阶原点矩，特别，样本一阶原点矩就是样本均值。
x (1) 0 1 2
x (2) 0 1 2
p
19 7 1 27 2 7 27
p
7 13 7
27 27 27
x (3) 0 1 2
p
1 7 19
27 27 27
可以清楚地看到这三个次序统计量的分布是不相同的。
进一步，我们可以给出两个次序统计量的联合分布，如，x(1) 和x(2) 的联合分布列为
例5.3.7 设总体密度函数为 p(x)=3x2, 0x1. 从该总体抽得一个容量为5的样本，试计算 P(x(2)1/2)。
p k(x ) (k 1 )n ( ! n ! k )(F !(x )k ) 1 ( 1 F (x )n ) kp (x )
例5.3.8 设总体分布为U(0,1)， x1, x2,…, xn为样本，试求第 k 个次序统计量的分布。
单批数据箱线图
(箱线图的构成)
X最小值 QL 中位数 QU X最大值
4 6 8 10 12
Median/Quart./Range箱线图
单批数据箱线图
(例题分析)
最小值 141
下四分位数中位数上四分位数
170.25 182
197
最大值 237
140 150 160 170 180 190 200 210 220 230 240
1. 在重复选取容量为n的样本时，由样本均值的所有可能取值形成的相对频数分布
2. 一种理论概率分布
3. 推断总体均值的理论基础
5.3.3 样本方差与样本标准差
xi与样本均值的平均偏差平方和
定义5.3.3
s*2
1 n
n i1
(xi
x)2
称为样本方差，
其算术平方根 s*= s*2 称为样本标准差。
样本偏差平方和有三个不同的表达式： ( xix )2 = xi2 – (xi)2/n = xi2 – nx
它们都可用来计算样本方差。
思考：分组样本如何计算样本方差？
样本均值的数学期望和方差，以及样本方差的数学期望都不依赖于总体的分布形式。
定理5.3.4 设总体 X 具有二阶矩，即
E(x)= , Var(x)=2 ,
次序统计量的应用之一是五数概括与箱线图。在得到有序样本后，容易计算如下五个值：最小观测值 xmin= x(1) , 最大观测值 xmax=x(n) , 中位数 m0.5 , 第一4分位数 Q1 = m0.25, 第三4分位数 Q3 = m0.75. 所谓五数概括就是指用这五个数：
xmin , Q1 , m0.5 , Q3 , xmax 来大致描述一批数据的轮廓。
当n 时样本 p 分位数 mp 的渐近分布为
p(1 p)
mp ~ Nxp,
n p2xp
特别，对样本中位数，当n时近似地有
m0.5
~Nx0.5,
4n
1 p2x0.5
例5.3.10 设总体为柯西分布，密度函数为
p(x,)= 1/[(1+(x)2)] , x + 不难看出是该总体的中位数，即x0.5= 。
x 的精确分布为N(, 2/n) ;
(2) 若总体分布未知或不是正态分布，
但 E(x)=, Var(x)=2,则n 较大时 x的渐近分
布为N(, 2/n) 。
这里渐近分布是指n 较大时的近似分布.
中心极限定理 (central limit theorem)
x 的分布趋于正态分布的过程
样本均值的抽样分布
二、单个次序统计量的分布
定理5.3.5 设总体X的密度函数为p(x)，分布函数为F(x)， x1, x2,…, xn为样本，则第k个次序统计量x(k)的密度函数为
p k(x ) (k 1 )n ( ! n ! k )(F !(x )k ) 1 ( 1 F (x )n ) kp (x )
p k(x ) (k 1 )n ( ! n ! k )(F !(x )k ) 1 ( 1 F (x )n ) kp (x )
次序统计量的函数在实际中经常用到。如样本极差 Rn = x(n) x(1)
例5.3.9 设总体分布为U(0,1)， x1, x2,…, xn 为样本，则(x(n), x(1))的联合密度函数为
p1,n(y,z)=n(n1)(zy)n-2, 0 y z 1
令 R = x(n) x(1) ，由 R 0, 可以推出 0 x(1) = x(n)R 1 R ，
(另一种方法)三个四分位数的位置分别为： Q1所在的位置=（11+1）/4=3，
Q2所在的位置=2（11+1）/4=6， Q3所在的位置=3（11+1）/4=9。
下四分位数、中位数和上四分位数，即： Q1=22（岁）、Q2=28（岁）、Q3=36（岁）
定理5.3.7 设总体密度函数为p(x)，xp为其p分位数， p(x)在xp处连续且 p(xp) 0，则

(概率论与数理统计 茆诗松) 第5章 统计量及其分布

(概率论与数理统计茆诗松) 第5章统计量及其分布