(概率论与数理统计 茆诗松) 第5章 统计量及其分布
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例5.3.6 设总体X 的分布为仅取0,1,2的 离散
均匀分布,分布列为
x0 1 2
p 1/3 1/3 1/3
现从中抽取容量为3的样本,其一切可能取值有 33=27种, (表5.3.6)
x0 1 2
p 1/3 1/3 1/3
P(x(1)=0) = ?
ቤተ መጻሕፍቲ ባይዱ
可给出的 x(1) , x(2), x(3) 分布列如下 :
n
(x x ) 0. i i1
定理5.3.2 数据观测值与均值的偏差平方和 最小,即在形如 (xic)2 的函数中,
(xi x)2最小,其中c为任意给定常数。
样本均值的抽样分布:
定理5.3.3 设x1, x2, …, xn 是来自某个总体的样本,
x 为样本均值。
(1) 若总体分布为N(, 2),则
是将样本观测值由小到大排列后得到的第 i 个 观测值。
其中, x(1)=minx1, x2,…, xn称为该样本的最小次序统计量, 称 x(n)=maxx1,x2,…,xn为该样本的最大次序统计量。
在一个样本中,x1, x2,…,xn 是独立同分布的,而 次序统计量 x(1), x(2),…, x(n) 则既不独立,分布也 不相同,看下例。
则
p R ( r ) 0 1 r n ( n 1 ) [ ( y r ) y ] n 2 d y n ( n 1 ) r n 2 ( 1 r )
这正是参数为(n1, 2)的贝塔分布。
5.3.6 样本分位数与样本中位数
样本中位数也是一个很常见的统计量,它也是 次序统计量的函数,通常如下定义:
在n
不大时,常用
s2
1 n n1i1
(xi
x)2
作为样本方差,
其算术平方根也称为样本标准差。
在这个定义中, ( xi x )2 称为偏差平方和, n1称为偏差平方和的自由度。其含义是:
在 x 确定后, n 个偏差 x1x, x2x, …, xnx 中
只有n1个数据可以自由变动,而第n个则不 能自由取值,因为 (xi x ) = 0 .
x , n1
2
n为奇数
m 0.5
12x
n 2
x n
,n为偶数
1
2
更一般地,样本p分位数mp可如下定义:
mp x1 2([(nxp (1 n]p)),x(np1)),若 若 n np p不 是 是 整 整 数 数
四分位数计算
例:某数学补习小组11人年龄(岁)为: 17,19,22,24,25,28,34,35,36,37,38
x(1)x(2)
0
1
2
0 7/27 9/27 3/27
1
0
4/27 3/27
2
0
0
1/27
因为 P(x(1) = 0, x(2) = 0) =7/27 , 而 P( x(1) = 0)*P( x(2) = 0) = (19/27)*(7/27),
二者不等, 由此可看出x(1) 和 x(2)是不独立的。
bk = (xi称 为x)k样/n 本k阶中心矩。 特别,样本二阶中心矩就是样本方差。
当总体关于分布中心对称时,我们用 x 和 s
刻画样本特征很有代表性,而当其不对称时,
只用 x 和 s 就显得很不够。为此,需要一些刻画
分布形状的统计量,如样本偏度和样本峰度,它 们都是样本中心矩的函数。
定义: 1 = b3/b23/2 称为样本偏度, 2 = b4/b22 称为样本峰度。
某电脑公司销售量数据的 Median/Quart./Rang箱线图
多批数据箱线图 (例题分析)
【例】 从某大
学经济管理专 业二年级学生 中 随 机 抽 取 11 人,对8门主 要课程的考试 成绩进行调查 ,所得结果如 表。试绘制各 科考试成绩的 批比较箱线图 ,并分析各科 考试成绩的分 布特征
课程名称
统计量的分布称为抽样分布。
按照这一定义:若
n
n
x1,
x2,
…,
xn
为样本,
则 xi , xi2 以及经验分布函数Fn(x)都是统计量
i1
i1
。
而当, 2 未知时,x1, x1/ 等均不是统计量。
统计量是样本的一个函数
统计量是统计推断的基础
尽管统计量不依赖于未知参数,但是它的 分布一般是依赖于未知参数的。
样本偏度1反映了总体分布密度曲线的对称性信息 。样本峰度2反映了总体分布密度曲线在其峰值附
近的陡峭程度。
偏态与峰态分布的形状
偏态
峰态
左偏分布 右偏分布
扁平分布
与标准正态 分布比较!
尖峰分布
偏度
峰度
数据分布偏斜程度的测度 数据分布扁平程度的测度
偏态系数=0为对称分布 偏态系数> 0为右偏分布 偏态系数< 0为左偏分布
§5.3 统计量及其分布
样本均值 样本方差 样本标准差 样本偏度
样本峰度 次序统计量 样本分位数 样本中位数
5.3.1 统计量与抽样分 布
当人们需要从样本获得对总体各种参数的认识 时,最好的方法是构造样本的函数,不同的函 数反映总体的不同特征。 定义5.3.1 设 x1, x2, …, xn 为取自某总体的样 本,若样本函数T = T(x1, x2, …, xn)中不含有 任何未知参数。则称T为统计量。
设 x1, x2,…, xn 是来自该总体的样本,当样本量n 较大时,样本中位数m0.5 的渐近分布为
m0.5 AN(, 2/4n) .
Q30
通常,样本均值在概括数据方面具有一定的优 势。
但当数据中含有极端值时,使用中位数比使用 均值更好,中位数的这种抗干扰性在统计中称为 具有稳健性。
5.3.7 五数概括与箱线图
三、多个次序统计量的联合分布
对任意多个次序统计量可给出其联合分布, 以两个为例说明:
定理5.3.6 在定理5.3.5的记号下,次序统计 量 (x(i), x(j)), (i j) 的联合分布密度函数为
p i( jy ,z)(i 1 )(! j in !1 )(n !j)[F !(y )i ] 1 [F (z) F (y )j ]i 1 [1 F (z)n ]jp (y )p (z), y z
峰态系数=0扁平峰度适中 峰态系数<0为扁平分布
峰态系数>0为尖峰分布
偏态系数大于1或小于-1, 被称为高度偏态分布;
偏态系数在0.5~1或
-1~-0.5之间,被认为是中 等偏态分布;偏态系数越接 近0,偏斜程度就越低
5.3.5 次序统计量及其分 布
一、定义5.3.7 设 x1, x2, …, xn 是取自总体X的样本, x(i) 称为该样本的第i 个次序统计量,它的取值
5.3.2 样本均值及其抽样
分布
定义5.3.2
设 x1, x2, …, xn为取自某总体的
样本,其算术平均值称为样本均值,一般用
表示,x即
x= (x1+…+xn)/n
思考:在分组样本场合,样本均值如何计算? 二者结果相同吗?
样本均值的基本性质:
定理5.3.1 若把样本中的数据与样本均值之差 称为偏差,则样本所有偏差之和为0,即
英语 经济数学 西方经济学 市场营销学 财务管理 基础会计学 统计学 计算机应用基础
11名学生各科的考试成绩数据 学生编号
1 2 3 4 5 6 7 8 9 10 11
76 90 97 71 70 93 86 83 78 85 81 65 95 51 74 78 63 91 82 75 71 55 93 81 76 88 66 79 83 92 78 86 78 74 87 85 69 90 80 77 84 91 74 70 68 75 70 84 73 60 76 81 88 68 75 70 73 92 65 78 87 90 70 66 79 68 55 91 68 73 84 81 70 69 94 62 71 85 78 81 95 70 67 82 72 80 81 77
x1, x2, …, xn 为从该总体得到的样本,
x 和s2 分别是样本均值和样本方差,则
E( x )=, Var( x )=2 /n,
E(s2) =2
习题5.3
Q8
Q3
Q7
5.3 统计量及其分布(续)
样本矩 次序统计量 样本分位数 箱线图
5.3.4 样本矩及其函数
样本均值和样本方差的更一般的推广是样本 矩,这是一类常见的统计量。 定义5.3.4 ak = (xik)/n 称为样本 k 阶原点矩, 特别,样本一阶原点矩就是样本均值。
x (1) 0 1 2
x (2) 0 1 2
p
19 7 1 27 2 7 27
p
7 13 7
27 27 27
x (3) 0 1 2
p
1 7 19
27 27 27
可以清楚地看到这三个次序统计量的分布是不相同的 。
进一步,我们可以给出两个次序统计量的联合 分布,如,x(1) 和x(2) 的联合分布列为
例5.3.7 设总体密度函数为 p(x)=3x2, 0x1. 从该总体抽得一个容量为5的样本, 试计算 P(x(2)1/2)。
p k(x ) (k 1 )n ( ! n ! k )(F !(x )k ) 1 ( 1 F (x )n ) kp (x )
例5.3.8 设总体分布为U(0,1), x1, x2,…, xn为样 本,试求第 k 个次序统计量的分布。
单批数据箱线图
(箱线图的构成)
X最小值 QL 中位数 QU X最大值
4 6 8 10 12
Median/Quart./Range箱线图
单批数据箱线图
(例题分析)
最小值 141
下四分位数 中位数 上四分位数
170.25 182
197
最大值 237
140 150 160 170 180 190 200 210 220 230 240
1. 在重复选取容量为n的样本时,由样本均值 的所有可能取值形成的相对频数分布
2. 一种理论概率分布
3. 推断总体均值的理论基础
5.3.3 样本方差与样本标准差
xi与样本均值的平均偏差平方和
定义5.3.3
s*2
1 n
n i1
(xi
x)2
称为样本方差,
其算术平方根 s*= s*2 称为样本标准差。
样本偏差平方和有三个不同的表达式: ( xix )2 = xi2 – (xi)2/n = xi2 – nx
它们都可用来计算样本方差。
思考:分组样本如何计算样本方差?
样本均值的数学期望和方差,以及样本方差 的数学期望都不依赖于总体的分布形式。
定理5.3.4 设总体 X 具有二阶矩,即
E(x)= , Var(x)=2 ,
次序统计量的应用之一是五数概括与箱线图。在 得到有序样本后,容易计算如下五个值: 最小观测值 xmin= x(1) , 最大观测值 xmax=x(n) , 中位数 m0.5 , 第一4分位数 Q1 = m0.25, 第三4分位数 Q3 = m0.75. 所谓五数概括就是指用这五个数:
xmin , Q1 , m0.5 , Q3 , xmax 来大致描述一批数据的轮廓。
当n 时样本 p 分位数 mp 的渐近分布为
p(1 p)
mp ~ Nxp,
n p2xp
特别,对样本中位数,当n时近似地有
m0.5
~Nx0.5,
4n
1 p2x0.5
例5.3.10 设总体为柯西分布,密度函数为
p(x,)= 1/[(1+(x)2)] , x + 不难看出是该总体的中位数,即x0.5= 。
x 的精确分布为N(, 2/n) ;
(2) 若总体分布未知或不是正态分布,
但 E(x)=, Var(x)=2,则n 较大时 x的渐近分
布为N(, 2/n) 。
这里渐近分布是指n 较大时的近似分布.
中心极限定理 (central limit theorem)
x 的分布趋于 正态分布的过 程
样本均值的抽样分布
二、单个次序统计量的分布
定理5.3.5 设总体X的密度函数为p(x),分布 函数为F(x), x1, x2,…, xn为样本,则第k个 次序统计量x(k)的密度函数为
p k(x ) (k 1 )n ( ! n ! k )(F !(x )k ) 1 ( 1 F (x )n ) kp (x )
p k(x ) (k 1 )n ( ! n ! k )(F !(x )k ) 1 ( 1 F (x )n ) kp (x )
次序统计量的函数在实际中经常用到。 如 样本极差 Rn = x(n) x(1)
例5.3.9 设总体分布为U(0,1), x1, x2,…, xn 为 样本,则(x(n), x(1))的联合密度函数为
p1,n(y,z)=n(n1)(zy)n-2, 0 y z 1
令 R = x(n) x(1) ,由 R 0, 可以推出 0 x(1) = x(n)R 1 R ,
(另一种方法)三个四分位数的位置分别为: Q1所在的位置=(11+1)/4=3,
Q2所在的位置=2(11+1)/4=6, Q3所在的位置=3(11+1)/4=9。
下四分位数、中位数和上四分位数,即: Q1=22(岁)、Q2=28(岁)、Q3=36(岁)
定理5.3.7 设总体密度函数为p(x),xp为其p分 位数, p(x)在xp处连续且 p(xp) 0,则
均匀分布,分布列为
x0 1 2
p 1/3 1/3 1/3
现从中抽取容量为3的样本,其一切可能取值有 33=27种, (表5.3.6)
x0 1 2
p 1/3 1/3 1/3
P(x(1)=0) = ?
ቤተ መጻሕፍቲ ባይዱ
可给出的 x(1) , x(2), x(3) 分布列如下 :
n
(x x ) 0. i i1
定理5.3.2 数据观测值与均值的偏差平方和 最小,即在形如 (xic)2 的函数中,
(xi x)2最小,其中c为任意给定常数。
样本均值的抽样分布:
定理5.3.3 设x1, x2, …, xn 是来自某个总体的样本,
x 为样本均值。
(1) 若总体分布为N(, 2),则
是将样本观测值由小到大排列后得到的第 i 个 观测值。
其中, x(1)=minx1, x2,…, xn称为该样本的最小次序统计量, 称 x(n)=maxx1,x2,…,xn为该样本的最大次序统计量。
在一个样本中,x1, x2,…,xn 是独立同分布的,而 次序统计量 x(1), x(2),…, x(n) 则既不独立,分布也 不相同,看下例。
则
p R ( r ) 0 1 r n ( n 1 ) [ ( y r ) y ] n 2 d y n ( n 1 ) r n 2 ( 1 r )
这正是参数为(n1, 2)的贝塔分布。
5.3.6 样本分位数与样本中位数
样本中位数也是一个很常见的统计量,它也是 次序统计量的函数,通常如下定义:
在n
不大时,常用
s2
1 n n1i1
(xi
x)2
作为样本方差,
其算术平方根也称为样本标准差。
在这个定义中, ( xi x )2 称为偏差平方和, n1称为偏差平方和的自由度。其含义是:
在 x 确定后, n 个偏差 x1x, x2x, …, xnx 中
只有n1个数据可以自由变动,而第n个则不 能自由取值,因为 (xi x ) = 0 .
x , n1
2
n为奇数
m 0.5
12x
n 2
x n
,n为偶数
1
2
更一般地,样本p分位数mp可如下定义:
mp x1 2([(nxp (1 n]p)),x(np1)),若 若 n np p不 是 是 整 整 数 数
四分位数计算
例:某数学补习小组11人年龄(岁)为: 17,19,22,24,25,28,34,35,36,37,38
x(1)x(2)
0
1
2
0 7/27 9/27 3/27
1
0
4/27 3/27
2
0
0
1/27
因为 P(x(1) = 0, x(2) = 0) =7/27 , 而 P( x(1) = 0)*P( x(2) = 0) = (19/27)*(7/27),
二者不等, 由此可看出x(1) 和 x(2)是不独立的。
bk = (xi称 为x)k样/n 本k阶中心矩。 特别,样本二阶中心矩就是样本方差。
当总体关于分布中心对称时,我们用 x 和 s
刻画样本特征很有代表性,而当其不对称时,
只用 x 和 s 就显得很不够。为此,需要一些刻画
分布形状的统计量,如样本偏度和样本峰度,它 们都是样本中心矩的函数。
定义: 1 = b3/b23/2 称为样本偏度, 2 = b4/b22 称为样本峰度。
某电脑公司销售量数据的 Median/Quart./Rang箱线图
多批数据箱线图 (例题分析)
【例】 从某大
学经济管理专 业二年级学生 中 随 机 抽 取 11 人,对8门主 要课程的考试 成绩进行调查 ,所得结果如 表。试绘制各 科考试成绩的 批比较箱线图 ,并分析各科 考试成绩的分 布特征
课程名称
统计量的分布称为抽样分布。
按照这一定义:若
n
n
x1,
x2,
…,
xn
为样本,
则 xi , xi2 以及经验分布函数Fn(x)都是统计量
i1
i1
。
而当, 2 未知时,x1, x1/ 等均不是统计量。
统计量是样本的一个函数
统计量是统计推断的基础
尽管统计量不依赖于未知参数,但是它的 分布一般是依赖于未知参数的。
样本偏度1反映了总体分布密度曲线的对称性信息 。样本峰度2反映了总体分布密度曲线在其峰值附
近的陡峭程度。
偏态与峰态分布的形状
偏态
峰态
左偏分布 右偏分布
扁平分布
与标准正态 分布比较!
尖峰分布
偏度
峰度
数据分布偏斜程度的测度 数据分布扁平程度的测度
偏态系数=0为对称分布 偏态系数> 0为右偏分布 偏态系数< 0为左偏分布
§5.3 统计量及其分布
样本均值 样本方差 样本标准差 样本偏度
样本峰度 次序统计量 样本分位数 样本中位数
5.3.1 统计量与抽样分 布
当人们需要从样本获得对总体各种参数的认识 时,最好的方法是构造样本的函数,不同的函 数反映总体的不同特征。 定义5.3.1 设 x1, x2, …, xn 为取自某总体的样 本,若样本函数T = T(x1, x2, …, xn)中不含有 任何未知参数。则称T为统计量。
设 x1, x2,…, xn 是来自该总体的样本,当样本量n 较大时,样本中位数m0.5 的渐近分布为
m0.5 AN(, 2/4n) .
Q30
通常,样本均值在概括数据方面具有一定的优 势。
但当数据中含有极端值时,使用中位数比使用 均值更好,中位数的这种抗干扰性在统计中称为 具有稳健性。
5.3.7 五数概括与箱线图
三、多个次序统计量的联合分布
对任意多个次序统计量可给出其联合分布, 以两个为例说明:
定理5.3.6 在定理5.3.5的记号下,次序统计 量 (x(i), x(j)), (i j) 的联合分布密度函数为
p i( jy ,z)(i 1 )(! j in !1 )(n !j)[F !(y )i ] 1 [F (z) F (y )j ]i 1 [1 F (z)n ]jp (y )p (z), y z
峰态系数=0扁平峰度适中 峰态系数<0为扁平分布
峰态系数>0为尖峰分布
偏态系数大于1或小于-1, 被称为高度偏态分布;
偏态系数在0.5~1或
-1~-0.5之间,被认为是中 等偏态分布;偏态系数越接 近0,偏斜程度就越低
5.3.5 次序统计量及其分 布
一、定义5.3.7 设 x1, x2, …, xn 是取自总体X的样本, x(i) 称为该样本的第i 个次序统计量,它的取值
5.3.2 样本均值及其抽样
分布
定义5.3.2
设 x1, x2, …, xn为取自某总体的
样本,其算术平均值称为样本均值,一般用
表示,x即
x= (x1+…+xn)/n
思考:在分组样本场合,样本均值如何计算? 二者结果相同吗?
样本均值的基本性质:
定理5.3.1 若把样本中的数据与样本均值之差 称为偏差,则样本所有偏差之和为0,即
英语 经济数学 西方经济学 市场营销学 财务管理 基础会计学 统计学 计算机应用基础
11名学生各科的考试成绩数据 学生编号
1 2 3 4 5 6 7 8 9 10 11
76 90 97 71 70 93 86 83 78 85 81 65 95 51 74 78 63 91 82 75 71 55 93 81 76 88 66 79 83 92 78 86 78 74 87 85 69 90 80 77 84 91 74 70 68 75 70 84 73 60 76 81 88 68 75 70 73 92 65 78 87 90 70 66 79 68 55 91 68 73 84 81 70 69 94 62 71 85 78 81 95 70 67 82 72 80 81 77
x1, x2, …, xn 为从该总体得到的样本,
x 和s2 分别是样本均值和样本方差,则
E( x )=, Var( x )=2 /n,
E(s2) =2
习题5.3
Q8
Q3
Q7
5.3 统计量及其分布(续)
样本矩 次序统计量 样本分位数 箱线图
5.3.4 样本矩及其函数
样本均值和样本方差的更一般的推广是样本 矩,这是一类常见的统计量。 定义5.3.4 ak = (xik)/n 称为样本 k 阶原点矩, 特别,样本一阶原点矩就是样本均值。
x (1) 0 1 2
x (2) 0 1 2
p
19 7 1 27 2 7 27
p
7 13 7
27 27 27
x (3) 0 1 2
p
1 7 19
27 27 27
可以清楚地看到这三个次序统计量的分布是不相同的 。
进一步,我们可以给出两个次序统计量的联合 分布,如,x(1) 和x(2) 的联合分布列为
例5.3.7 设总体密度函数为 p(x)=3x2, 0x1. 从该总体抽得一个容量为5的样本, 试计算 P(x(2)1/2)。
p k(x ) (k 1 )n ( ! n ! k )(F !(x )k ) 1 ( 1 F (x )n ) kp (x )
例5.3.8 设总体分布为U(0,1), x1, x2,…, xn为样 本,试求第 k 个次序统计量的分布。
单批数据箱线图
(箱线图的构成)
X最小值 QL 中位数 QU X最大值
4 6 8 10 12
Median/Quart./Range箱线图
单批数据箱线图
(例题分析)
最小值 141
下四分位数 中位数 上四分位数
170.25 182
197
最大值 237
140 150 160 170 180 190 200 210 220 230 240
1. 在重复选取容量为n的样本时,由样本均值 的所有可能取值形成的相对频数分布
2. 一种理论概率分布
3. 推断总体均值的理论基础
5.3.3 样本方差与样本标准差
xi与样本均值的平均偏差平方和
定义5.3.3
s*2
1 n
n i1
(xi
x)2
称为样本方差,
其算术平方根 s*= s*2 称为样本标准差。
样本偏差平方和有三个不同的表达式: ( xix )2 = xi2 – (xi)2/n = xi2 – nx
它们都可用来计算样本方差。
思考:分组样本如何计算样本方差?
样本均值的数学期望和方差,以及样本方差 的数学期望都不依赖于总体的分布形式。
定理5.3.4 设总体 X 具有二阶矩,即
E(x)= , Var(x)=2 ,
次序统计量的应用之一是五数概括与箱线图。在 得到有序样本后,容易计算如下五个值: 最小观测值 xmin= x(1) , 最大观测值 xmax=x(n) , 中位数 m0.5 , 第一4分位数 Q1 = m0.25, 第三4分位数 Q3 = m0.75. 所谓五数概括就是指用这五个数:
xmin , Q1 , m0.5 , Q3 , xmax 来大致描述一批数据的轮廓。
当n 时样本 p 分位数 mp 的渐近分布为
p(1 p)
mp ~ Nxp,
n p2xp
特别,对样本中位数,当n时近似地有
m0.5
~Nx0.5,
4n
1 p2x0.5
例5.3.10 设总体为柯西分布,密度函数为
p(x,)= 1/[(1+(x)2)] , x + 不难看出是该总体的中位数,即x0.5= 。
x 的精确分布为N(, 2/n) ;
(2) 若总体分布未知或不是正态分布,
但 E(x)=, Var(x)=2,则n 较大时 x的渐近分
布为N(, 2/n) 。
这里渐近分布是指n 较大时的近似分布.
中心极限定理 (central limit theorem)
x 的分布趋于 正态分布的过 程
样本均值的抽样分布
二、单个次序统计量的分布
定理5.3.5 设总体X的密度函数为p(x),分布 函数为F(x), x1, x2,…, xn为样本,则第k个 次序统计量x(k)的密度函数为
p k(x ) (k 1 )n ( ! n ! k )(F !(x )k ) 1 ( 1 F (x )n ) kp (x )
p k(x ) (k 1 )n ( ! n ! k )(F !(x )k ) 1 ( 1 F (x )n ) kp (x )
次序统计量的函数在实际中经常用到。 如 样本极差 Rn = x(n) x(1)
例5.3.9 设总体分布为U(0,1), x1, x2,…, xn 为 样本,则(x(n), x(1))的联合密度函数为
p1,n(y,z)=n(n1)(zy)n-2, 0 y z 1
令 R = x(n) x(1) ,由 R 0, 可以推出 0 x(1) = x(n)R 1 R ,
(另一种方法)三个四分位数的位置分别为: Q1所在的位置=(11+1)/4=3,
Q2所在的位置=2(11+1)/4=6, Q3所在的位置=3(11+1)/4=9。
下四分位数、中位数和上四分位数,即: Q1=22(岁)、Q2=28(岁)、Q3=36(岁)
定理5.3.7 设总体密度函数为p(x),xp为其p分 位数, p(x)在xp处连续且 p(xp) 0,则