第五章统计量及其分布
统计量及其分布
样本均值的抽样分布 (例题分析)
【例】设一个总体含有4 个个体,分别为X1=1、X2=2、 X3=3 、X4=4 。总体的均值、方差及分布如下。
总体均值和方差
总体的频数分布
X
i 1
N
i
N
N
2.5
2
2 ( X ) i i 1
0.02 0 2 1 0.1
21 Φ0.2
0.8414
(4) 样本 k 阶(原点)矩
1 n k Ak X i , k 1, 2, ; n i 1
1 n k 其观察值 k x i , k 1, 2, . n i 1
n n 1 2 1 2 2 E( S ) E X i nX (Xi X ) E n 1 i 1 n 1 i 1
2
1 n 2 2 E ( X i ) nE ( X ) n 1 i 1 2 1 n 2 2 2 ( ) n 2 n 1 i 1 n
n
k 1
n
2
2
n
,
定理 设总体X的期望E(X) = ,方差D(X) = 2,X1, X2,…,Xn为总体X的样本, X,S2分别为样本均值 和样本方差,则
E( X ) E( X )
D( X ) 2 D( X ) n n
E( S 2 ) D( X ) 2
思考:在分组样本场合,样本均值如何计算? 二者结果相同吗?
x1 f1 x n f n 其中 x n
(概率论与数理统计 茆诗松) 第5章 统计量及其分布
均匀分布,分布列为
x0 1 2
p 1/3 1/3 1/3
现从中抽取容量为3的样本,其一切可能取值有 33=27种, (表5.3.6)
x0 1 2
p 1/3 1/3 1/3
P(x(1)=0) = ?
ቤተ መጻሕፍቲ ባይዱ
可给出的 x(1) , x(2), x(3) 分布列如下 :
n
(x x ) 0. i i1
定理5.3.2 数据观测值与均值的偏差平方和 最小,即在形如 (xic)2 的函数中,
(xi x)2最小,其中c为任意给定常数。
样本均值的抽样分布:
定理5.3.3 设x1, x2, …, xn 是来自某个总体的样本,
x 为样本均值。
(1) 若总体分布为N(, 2),则
是将样本观测值由小到大排列后得到的第 i 个 观测值。
其中, x(1)=minx1, x2,…, xn称为该样本的最小次序统计量, 称 x(n)=maxx1,x2,…,xn为该样本的最大次序统计量。
在一个样本中,x1, x2,…,xn 是独立同分布的,而 次序统计量 x(1), x(2),…, x(n) 则既不独立,分布也 不相同,看下例。
则
p R ( r ) 0 1 r n ( n 1 ) [ ( y r ) y ] n 2 d y n ( n 1 ) r n 2 ( 1 r )
这正是参数为(n1, 2)的贝塔分布。
5.3.6 样本分位数与样本中位数
样本中位数也是一个很常见的统计量,它也是 次序统计量的函数,通常如下定义:
在n
不大时,常用
s2
1 n n1i1
(xi
x)2
统计量及其分布
思考题
设 X1, X2 , … , Xn 是取自正态总体 N (, 2 ),
的一个样本,求 E( XS 2 ) ?
定理 2 设 X1, X2 , … , Xn 是取自正态总体 N (, 2 )
的样本,X 和S 分别为样本均值和样本均方差,则有
1) X ~ N(0, 1); / n
2) X ~ t(n 1).
nx 2 ];
③ s
1 n 1
n i 1
( xi
x )2
;
④
ak
1 n
n i 1
xik ,
k 1, 2
;
⑤ bk
1 n
n
(xi x )k ,
i 1
k
1, 2
.
例1 设总体X 的期望为 E(X ) , 方差为 D(X ) 2 其样本为 X1, X2, , Xn , 求E(X ), D(X ), E(S 2) .
为t分布的上 分位点。
t1 (n) t (n)
若 0.5,直接查表;若 0.5, t (n) t1 (n).
当 n 45 , t (n) z .
(3) F-分布
设随机变量X与Y相互独立,且 X ~ 2 (n1), Y ~ 2 (n2 ),
则随机变量
F
X Y
/ n1 / n2
所服从的分布是自由度为 (n1, n2 )
~
F (2,
2)
作 业 17
P137: 4 P147: 4
1.6664.
解:因为
(n 1)
2
S
2
~ 2(n 1)
15S 2
2
~ 2(15)
P
S
2 2
1.6664
概率论与数理统计(茆诗松)第二版课后第五章习题参考答案
(2)上班所需时间在半小时以内有 25 + 60 + 85 = 170 人. 5. 40 种刊物的月发行量(单位:百册)如下: 5954 5022 14667 6582 6870 1840 2662 4508 1208 3852 618 3008 1268 1978 7963 2048 3077 993 353 14263 1714 11127 6926 2047 714 5923 6006 14267 1697 13876 4001 2280 1223 12579 13588 7315 4538 13304 1615 8612 (1)建立该批数据的频数分布表,取组距为 1700(百册) ; (2)画出直方图. 解: (1)最大观测值为 353,最小观测值为 14667,则组距为 d = 1700, 区间端点可取为 0,1700,3400,5100,6800,8500,10200,11900,13600,15300, 频率分布表为 组序 1 2 3 4 5 6 7 8 9 合计 (2)作图略.
1091 1572 775 1044 738
3. 假若某地区 30 名 2000 年某专业毕业生实习期满后的月薪数据如下: 909 1086 1120 999 1320 1071 1081 1130 1336 967 825 914 992 1232 950 1203 1025 1096 808 1224 871 1164 971 950 866 (1)构造该批数据的频率分布表(分 6 组) ; (2)画出直方图. 解: (1)最大观测值为 1572,最小观测值为 738,则组距为 d =
样本的分布为 p ( x1 , x2 , L , xn ) = λ eλ x1 ⋅ λ eλ x2 L λ eλ xn = λ n e
数理统计知识小结
数理统计知识小结------缪晓丹 20114041056第五章 统计量及其分布§5.1总体与样本一、 总体与样本在一个统计问题中,把研究对象的全体称为总体,构成总体的每个成员称为个体。
对于实际问题,总体中的个体是一些实在的人或物。
这样,抛开实际背景,总体就是一堆数,这堆数中有大有小,有的出现机会多,有的出现机会小,因此用一个概率分布去描述和归纳总体是合适的,从这个意义上说:总体就是一个分布,而其数量指标就是服从这个分布的随机变量。
例5.1.1考察某厂的产品质量,将其产品分为合格品和不合格品,并以0记合格品,以1记不格品,若以p 表示不合格品率,则各总体可用一个二点分布表示:不同的p 反映了总体间的差异。
在有些问题中,我们对每一研究对象可能要观测两个或更多个指标,此时可用多维随机向量及其联合分布来描述总体。
这种总体称为多维总体。
若总体中的个体数是有限的,此总体称为有限总体;否则称为无限总体。
实际中总体中的个体数大多是有限的,当个体数充分大时,将有限总体看作无限总体是一种合理抽象。
二、样本与简单随机样本 1、样本为了了解总体的分布,从总体中随机地抽取n 个个体,记其指标值为 n x x x ,,,21 , 则n x x x ,,,21 称为总体的一个样本,n 称为样本容量或简称为样本量,样本中的个体称为样品。
当30 n 时,称n x x x ,,,21 为大样本,否则为小样本。
首先指出,样本具有所谓的二重性:一方面,由于样本是从总体中随机抽取的,抽取前无法预知它们的数值,因此样本是随机变量,用大写字母 n X X X ,,,21 表示;另一方面,样本在抽取以后经观测就有确定的观测值,因此样本又是一组数值,此时用小写字母n x x x ,,,21 表示。
简单起见,无论是样本还是其观测值,本书中均用n x x x ,,,21 表示,从上下文我们能加以区别。
每个样本观测值都能测到一个具体的数值,则称该样本为完全样本,若样本观测值没有具体的数值,只有一个范围,则称这样的样本为分组样本。
概率论与数理统计(茆诗松)课后第五章习题参考答案
第五章 统计量及其分布习题5.11. 某地电视台想了解某电视栏目(如:每日九点至九点半的体育节目)在该地区的收视率情况,于是委托一家市场咨询公司进行一次电话访查. (1)该项研究的总体是什么? (2)该项研究的样本是什么? 解:(1)总体是该地区的全体用户;(2)样本是被访查的电话用户.2. 某市要调查成年男子的吸烟率,特聘请50名统计专业本科生作街头随机调查,要求每位学生调查100名成年男子,问该项调查的总体和样本分别是什么,总体用什么分布描述为宜?解:总体是任意100名成年男子中的吸烟人数;样本是这50名学生中每一个人调查所得到的吸烟人数;总体用二项分布描述比较合适.3. 设某厂大量生产某种产品,其不合格品率p 未知,每m 件产品包装为一盒.为了检查产品的质量,任意抽取n 盒,查其中的不合格品数,试说明什么是总体,什么是样本,并指出样本的分布. 解:总体是全体盒装产品中每一盒的不合格品数;样本是被抽取的n 盒产品中每一盒的不合格品数;总体的分布为X ~ b (m , p ),x m x qp x m x X P −⎟⎟⎠⎞⎜⎜⎝⎛==}{,x = 0, 1, …, n , 样本的分布为nn x m x n x m x x m x n n q p x m q p x m q p x m x X x X x X P −−−⎟⎟⎠⎞⎜⎜⎝⎛⎟⎟⎠⎞⎜⎜⎝⎛⋅⎟⎟⎠⎞⎜⎜⎝⎛====L L 2211212211},,,{ ∑∑⋅⎟⎟⎠⎞⎜⎜⎝⎛===−=∏ni tni tx mn x ni i q px m 111.4. 为估计鱼塘里有多少鱼,一位统计学家设计了一个方案如下:从鱼塘中打捞出一网鱼,计有n 条,涂上不会被水冲刷掉的红漆后放回,一天后再从鱼塘里打捞一网,发现共有m 条鱼,而涂有红漆的鱼则有k 条,你能估计出鱼塘里大概有多少鱼吗?该问题的总体和样本又分别是什么呢? 解:设鱼塘里有N 条鱼,有涂有红漆的鱼所占比例为Nn , 而一天后打捞出的一网鱼中涂有红漆的鱼所占比例为m k,估计mk N n ≈,故估计出鱼塘里大概有kmnN ≈条鱼;总体是鱼塘里的所有鱼;样本是一天后再从鱼塘里打捞出的一网鱼. 5. 某厂生产的电容器的使用寿命服从指数分布,为了了解其平均寿命,从中抽出n 件产品测其使用寿命,试说明什么是总体,什么是样本,并指出样本的分布. 解:总体是该厂生产的全体电容器的寿命;样本是被抽取的n 件电容器的寿命;总体的分布为X ~ e (λ ),p (x ) = λ e λ x ,x > 0,样本的分布为11212(,,,)e e e enin i x x x x n n p x x x λλλλλλλλ=∑=⋅=L L ,x i > 0.6. 美国某高校根据毕业生返校情况纪录,宣布该校毕业生的年平均工资为5万美元,你对此有何评论? 解:返校的毕业生只是毕业生中一部分特殊群体,样本的抽取不具有随机性,不能反应全体毕业生的情况.习题5.21. 以下是某工厂通过抽样调查得到的10名工人一周内生产的产品数149 156 160 138 149 153 153 169 156 156 试由这批数据构造经验分布函数并作图. 解:经验分布函数0,138,0.1,138149,0.3,149153,()0.5,153156,0.8,156160,0.9,160169,1,169.n x x x F x x x x x <⎧⎪≤<⎪⎪≤<⎪=≤<⎨⎪≤<⎪≤<⎪⎪≥⎩ 作图略.2. 下表是经过整理后得到的分组样本组序 1 2 3 4 5分组区间 (38,48] (48,58] (58,68] (68,78] (78,88] 频数 3 4 8 3 2试写出此分布样本的经验分布函数.解:经验分布函数0,37.5,0.15,37.547.5,0.35,47.557.5,()0.75,57.567.5,0.9,67.577.5,1,77.5.n x x x F x x x x <⎧⎪≤<⎪⎪≤<⎪=⎨≤<⎪⎪≤<⎪≥⎪⎩3. 假若某地区30名2000年某专业毕业生实习期满后的月薪数据如下:909 1086 1120 999 1320 1091 1071 1081 1130 1336 967 1572 825 914 992 1232 950 775 1203 1025 1096 808 1224 1044 871 1164 971 950 866 738(1)构造该批数据的频率分布表(分6组); (2)画出直方图. 解:(1)最大观测值为1572,最小观测值为738,则组距为15727381406d −=≈, 区间端点可取为735,875,1015,1155,1295,1435,1575, 频率分布表为 组序 分组区间 组中值 频数 频率 累计频率 1 (735, 875] 805 6 0.2 0.2 2 (875, 1015] 945 8 0.2667 0.4667 3 (1015, 1155] 1085 9 0.3 0.7667 4 (1155, 1295] 1225 4 0.1333 0.95 (1295,0.96672 0.066671435]13651 0.03333150516 (1435,1575]合计30 1(2)作图略.4.某公司对其250名职工上班所需时间(单位:分钟)进行了调查,下面是其不完整的频率分布表:所需时间频率0~10 0.1010~20 0.2420~3030~40 0.1840~50 0.14 (1)试将频率分布表补充完整.(2)该公司上班所需时间在半小时以内有多少人?解:(1)频率分布表为组序分组区间组中值频数频率累计频率10] 5 25 0.1 0.11 (0,20] 15 60 0.24 0.342 (10,30] 25 85 0.34 0.683 (20,40] 35 45 0.18 0.864 (30,50] 45 35 0.14 15 (40,合计250 1(2)上班所需时间在半小时以内有25 + 60 + 85 = 170人.5.40种刊物的月发行量(单位:百册)如下:5954 5022 14667 6582 6870 1840 2662 45081208 3852 618 3008 1268 1978 7963 20483077 993 353 14263 1714 11127 6926 2047714 5923 6006 14267 1697 13876 4001 22801223 12579 13588 7315 4538 13304 1615 8612 (1)建立该批数据的频数分布表,取组距为1700(百册);(2)画出直方图.解:(1)最大观测值为353,最小观测值为14667,则组距为d = 1700,区间端点可取为0,1700,3400,5100,6800,8500,10200,11900,13600,15300,频率分布表为组序分组区间组中值频数频率累计频率1700] 850 9 0.225 0.2251 (0,25509 0.225 0.453400]2 (1700,42505 0.125 0.5755100]3 (3400,59504 0.1 0.6756800]4 (5100,76504 0.1 0.7758500]5 (6800,1 0.025 0.893506 (8500,10200]1 0.025 0.825110507 (10200,11900]3 0.075 0.9127508 (11900,13600]4 0.1 11445015300]9 (13600,合计30 1(2)作图略.6.对下列数据构造茎叶图472 425 447 377 341 369 412 399400 382 366 425 399 398 423 384418 392 372 418 374 385 439 408429 428 430 413 405 381 403 479381 443 441 433 399 379 386 387 解:茎叶图为34 135369, 6377, 2, 4, 9382, 4, 5, 1, 1, 6, 7399, 8, 2400, 5, 3412, 9, 8, 8, 3, 9425, 5, 3, 8, 9, 8439, 0, 3447, 3, 14546472, 97.根据调查,某集团公司的中层管理人员的年薪(单位:千元)数据如下:40.6 39.6 37.8 36.2 38.838.6 39.6 40.0 34.7 41.738.9 37.9 37.0 35.1 36.737.1 37.7 39.2 36.9 38.3试画出茎叶图.解:茎叶图为34.735. 136.2, 7, 937.0, 1, 738. 639.6, 6, 240.6, 8, 041.742.43.844.9, 545. 4习题5.31.在一本书上我们随机的检查了10页,发现每页上的错误数为:4 5 6 0 3 1 4 2 1 4试计算其样本均值、样本方差和样本标准差.解:样本均值3)41654(101=+++++=L x ; 样本方差7778.3])34()31()36()35()34[(91222222≈−+−++−+−+−=L s ;样本标准差9437.17778.3≈=s .2. 证明:对任意常数c , d ,有11()()()()()()n niiiii i x c y d x x y y n x c y d ==−−=−−+−−∑∑.证:∑∑==−+−−+−=−−ni i i n i i i d y y y c x x x d y c x 11)]())][(()[())((∑=−−+−−+−−+−−=ni i i i i d y c x d y x x y y c x y y x x 1)])(())(())(())([())(()()()()())((111d y c x n x x d y y y c x y y x x ni i ni i ni i i −−+−−+−−+−−=∑∑∑===))(())(())((00))((11d y c x n y y x x d y c x n y y x x ni i i ni i i −−+−−=−−+++−−=∑∑==.3. 设x 1 , …, x n 和y 1 , …, y n 是两组样本观测值,且有如下关系:y i = 3 x i − 4,i = 1, …, n ,试求样本均值x和y 间的关系以及样本方差2x s 和2y s 间的关系.解:4343431)43(111111−=−=⎟⎟⎠⎞⎜⎜⎝⎛−=−==∑∑∑∑====x x n n x n x n y n y ni i n i i n i i n i i ; 212121229(19)]43()43[(11)(11x n i i n i i n i i ys x x n x x n y y n s =−−=−−−−=−−=∑∑∑===. 4. 记∑==n i i n x n x 11,∑=−−=n i i n x x n s 122)(11,n = 1, 2, …,证明 )(1111n n n n x x n x x −++=++,21221)(111n n nn x x n s n n s −++−=++. 证:)(111111111111111111n n n n n n n i i n i i n x x n x x n x n n x n x n n n x n x −++=+++=++⋅+=+=+++=+=+∑∑; ⎥⎦⎤⎢⎣⎡−+−−=−=++=+=++∑∑21112112121))(1()(1)(1n n n i n i n i n i n x x n x x n x x n s ⎥⎦⎤⎢⎣⎡−+⋅+−−+−=++=∑2122112)()1(1)1()()(1n n n n n i n i x x n n x x x x n 2122112)(111)(1)(11)1(1n n n n n n i n i x x n s n n x x n n x x n n n −++−=⎥⎦⎤⎢⎣⎡−++−−−=++=∑.5. 从同一总体中抽取两个容量分别为n , m 的样本,样本均值分别为1x , 2x ,样本方差分别为21s , 22s ,将两组样本合并,其均值、方差分别为x , s 2,证明:12nx mx x n m+=+,)1)(()(1)1()1(22122212−++−+−+−+−=m n m n x x nm m n s m s n s . 证:m n x m x n x x m n x x m n x m j j n i i m j j n i i ++=⎟⎟⎠⎞⎜⎜⎝⎛++=⎟⎟⎠⎞⎜⎜⎝⎛++=∑∑∑∑====211211121111; ⎥⎦⎤⎢⎣⎡−+−−+=∑∑==m j jn i i x x x x m n s 1221212()(11 ⎥⎦⎤⎢⎣⎡−+−+−+−−+=∑∑==221222211211)()()()(11x x m x x x x n x x m n m j j n i i ⎥⎥⎦⎤⎢⎢⎣⎡⎟⎠⎞⎜⎝⎛++−+−+⎟⎠⎞⎜⎝⎛++−+−−+=221222221121)1()1(11m n x m x n x m s m m n x m x n x n s n m n 2212222122221)()()(111)1()1(m n x x mn x x nm m n m n s m s n +−+−⋅−++−+−+−=)1)(()(1)1()1(2212221−++−+−+−+−=m n m n x x nm m n s m s n . 6. 设有容量为n 的样本A ,它的样本均值为A x ,样本标准差为s A ,样本极差为R A ,样本中位数为m A .现对样本中每一个观测值施行如下变换:y = ax + b ,如此得到样本B ,试写出样本B 的均值、标准差、极差和中位数.解:b x a b x n a nb x a n b ax n y n y A ni i n i i n i i n i i B +=+⋅=+=+==∑∑∑∑====11111)(1)(11;A n i A i n i A i n iB i B s a x x n a b x a b ax n y y n s ||)(11||)(11)(11121212=−−⋅=−−+−=−−=∑∑∑===; R B = y (n ) − y (1) = a x (n ) + b − a x (1) − b = a [x (n ) − x (1)] = a R A ; 当n 为奇数时,b am b ax y m A n n B +=+==⎟⎠⎞⎜⎝⎛+⎟⎠⎞⎜⎝⎛+5.021215.0,当n 为偶数时,b am b x x ab ax b ax y y m A n n n n n n B +=++=+++=+=⎟⎠⎞⎜⎝⎛+⎟⎠⎞⎜⎝⎛⎟⎠⎞⎜⎝⎛+⎟⎠⎞⎜⎝⎛⎟⎠⎞⎜⎝⎛+⎟⎠⎞⎜⎝⎛5.01221221225.0][2][21][21,故m B 0.5 = a m A 0.5 + b .7. 证明:容量为2的样本x 1 , x 2的方差为2212)(21x x s −=. 证:221212221221222112)(214)(4)(])2()2[(121x x x x x x x x x x x x s −=−+−=+−++−−=. 8. 设x 1 , …, x n 是来自U (−1, 1) 的样本,试求)(X E 和Var(X .解:因X i ~ U (−1, 1),有0211)(=+−=i X E ,3112)11()(Var 2=+=i X ,故0)(1)1()(11===∑∑==ni i n i i X E n X n E X E ,n n nXnX n X ni in i i 31311)(Var 11Var )(Var 2121=⋅⋅==⎟⎟⎠⎞⎜⎜⎝⎛=∑∑==. 9. 设总体二阶矩存在,X 1 , …, X n 是样本,证明X X i −与)(j i X X j ≠−的相关系数为 − (n − 1) − 1.证:因X 1 , X 2 , …, X n 相互独立,有Cov (X l , X k ) = 0,(l ≠ k ), 则),(Cov ),(Cov ),(Cov ),(Cov ),(Cov X X X X X X X X X X X X j i j i j i +−−=−−)(Var ),1(Cov )1,(Cov 0X X X nX n X j j i i +−−= 22221111)(Var )(Var 1)(Var 1σσσσnn n n X X n X n j i −=+−−=+−−=,且)1,(Cov 21),(Cov 2)(Var )(Var )(Var 22i i i i i X nX n X X X X X X −+=−+=−σσ)(Var 1212222X X nn n n j −=−=−+=σσσσ,故11111)(Var )(Var ),(Cov ),(Corr 222−−=−⋅−−=−⋅−−−=−−n nn n n n X X X X X X X X X X X X j i j i j i σσσ. 10.设x 1 , x 2 ,…, x n 为一个样本,∑=−−=ni i x x n s 122)(11是样本方差,试证: 22)()1(1s x x n n ji j i =−−∑<. 证:因⎟⎟⎠⎞⎜⎜⎝⎛−−=−−=∑∑==21212211)(11x n x n x x n s n i i n i i , 则⎟⎟⎠⎞⎜⎜⎝⎛−+=−+=−=−∑∑∑∑∑∑∑∑∑∑∑==========<n i n j j i n i n j j n i n j i n i n j j i j i n i n j j i j i j i x x x x x x x x x x x x 1111211211221122221)2(21)(21)( 221212111212)1(2221221s n n x n x n x n x n x n x x x n x n n i i n i i n i n j j i n j j n i i −=⎟⎟⎠⎞⎜⎜⎝⎛−=⎟⎟⎠⎞⎜⎜⎝⎛⋅−=⎟⎟⎠⎞⎜⎜⎝⎛−+=∑∑∑∑∑∑======, 故22)()1(1s x x n n ji j i =−−∑<. 11.设总体4阶中心矩ν4 = E [X − E (X )]4存在,试对样本方差∑=−−=ni i X X n S 122(11,有 2442442442)1(3)1()2(2)1()()Var(−−+−−−−−=n n n n n S σνσνσν,其中σ 2为总体X 的方差.证:因⎥⎦⎤⎢⎣⎡−−−−=−−−−=∑∑==212122)()(11)]()[(11µµµµX n X n X X n S n i i n i i ,其中µ = E (X ), 则⎥⎦⎤⎢⎣⎡−−−−=∑=21222)()(Var )1(1)Var(µµX n X n S n i i⎭⎬⎫⎩⎨⎧−+⎟⎟⎠⎞⎜⎜⎝⎛−−−⎥⎦⎤⎢⎣⎡−−=∑∑==])(Var[)(,)(Cov 2)(Var )1(12212122µµµµX n X n X X n n i i n i i ⎭⎬⎫⎩⎨⎧−+−−−−−=∑∑==22122122)Var())(,)Cov((2)Var()1(1µµµµX n X X n X n n i i n i i , 因E (X i − µ)2 = σ 2,E (X i − µ)4 = ν4,则)(})({}])([)({)Var(441224122412σνσνµµµ−=−=−−−=−∑∑∑===n X E X E X ni ni i i ni i ,因E (X i − µ) = 0,221)Var()(σµnX X E ==−,且当i ≠ j 时,X i − µ 与X j − µ 相互独立, 则∑∑==−−−−−=−−ni i i ni i X E X E X X E X X 12222122})()(])()[({))(,)Cov((µµµµµµ∑∑==⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧⋅−⎥⎥⎦⎤⎢⎢⎣⎡⎟⎟⎠⎞⎜⎜⎝⎛−⋅−=ni nk k i n X n X E 1222121)(1)(σσµµ∑∑=≠⎭⎬⎫⎩⎨⎧−⎥⎦⎤⎢⎣⎡−⋅−+−=n i i k k i i n X E X E X E n1422421)()()(1σµµµ)(11])1([144142242σνσσσν−=⎭⎬⎫⎩⎨⎧−−⋅+=∑=n n n nni ,且224122421)(1])([)()Var(⎥⎦⎤⎢⎣⎡−⎥⎦⎤⎢⎣⎡−=−−−=−∑=σµµµµn X n E X E X E X n i i42221441)()(24)(1σµµµn X X X E n j i j i n i i −⎥⎦⎤⎢⎣⎡−−⎟⎟⎠⎞⎜⎜⎝⎛+−=∑∑<= 42221441)()(6)(1σµµµn X E X E X E n j i j i ni i −⎥⎦⎤⎢⎣⎡−−+−=∑∑<= 42443424444222442)3(11])1(3[11261σσνσσνσσσνn n n n n n n n n n n +−=−−+=−⎥⎦⎤⎢⎣⎡⋅⎟⎟⎠⎞⎜⎜⎝⎛⋅+=, 故⎭⎬⎫⎩⎨⎧⎥⎦⎤⎢⎣⎡+−+−⋅−−−=4244324444222)3(1)(12)()1(1)Var(σσνσνσνn n n n n n n S⎭⎬⎫⎩⎨⎧+−+−−−−=444444422)3(1)(2)()1(1σσνσνσνn n n 2442442444444442)1(3)1()2(2)1()()3(1)2(2)()1(1−−+−−−−−=⎭⎬⎫⎩⎨⎧−+−−−−=n n n n n n n n σνσνσνσνσνσν. 12.设总体X 的3阶矩存在,设X 1 , X 2 ,…, X n 是取自该总体的简单随机样本,X 为样本均值,S 2为样本方差,试证:nS X 32),Cov(ν=,其中ν3 = E [X − E (X )]3.证:因⎥⎦⎤⎢⎣⎡−−−−=−−−−=∑∑==212122)()(11)]()[(11µµµµX n X n X X n S n i i n i i ,其中µ = E (X ), 则⎟⎟⎠⎞⎜⎜⎝⎛⎥⎦⎤⎢⎣⎡−−−−−=−=∑=21222)()(11,Cov ),Cov(),Cov(µµµµX n X n X S X S X n i i ⎥⎦⎤⎢⎣⎡−−−−−−=∑=))(,Cov())(,Cov(11212µµµµX X n X X n n i i , 因0)()(=−=−µµi X E X E ,E (X i − µ)2 = σ 2,E (X i − µ)3 = ν3,且当i ≠ j 时,X i − µ 与X j − µ 相互独立,则∑∑∑∑====−−=⎟⎟⎠⎞⎜⎜⎝⎛−−=−−n i i i ni i n k k ni i X X n X X n X X 1212112))(,Cov(1)(,)(1Cov ))(,Cov(µµµµµµ331231])()()([1ννµµµ=⋅=−−−−=∑=n nX E X E X E n n i i i i , 且31232)(1)()()())(,Cov(⎥⎦⎤⎢⎣⎡−=−−−−=−−∑=n i i X n E X E X E X E X X µµµµµµ323313313311)(1)(1ννµµn n n X E n X E n n i i n i i =⋅=−=⎥⎦⎤⎢⎣⎡−=∑∑==,故n nn n n n n S X 333232111111),Cov(νννν=−⋅−=⎟⎠⎞⎜⎝⎛⋅−−=. 13.设1X 与2X 是从同一正态总体N (µ, σ 2)独立抽取的容量相同的两个样本均值.试确定样本容量n ,使得两样本均值的距离超过σ 的概率不超过0.01. 解:因µ==)()(21X E X E ,nX X 221)Var()Var(σ==,1X 与2X 相互独立,且总体分布为N (µ, σ 2),则0)(21=−=−µµX X E ,n n n X X 222212)Var(σσσ=+=−,即⎟⎟⎠⎞⎜⎜⎝⎛−n N X X 2212,0~σ, 因01.0222212}|{|21≤⎟⎟⎠⎞⎜⎜⎝⎛Φ−=⎥⎥⎦⎤⎢⎢⎣⎡⎟⎟⎠⎞⎜⎜⎝⎛Φ−=>−n n X X P σσσ,有995.02≥⎟⎟⎠⎞⎜⎜⎝⎛Φn ,5758.22≥n ,故n ≥ 13.2698,即n 至少14个.14.利用切比雪夫不等式求抛均匀硬币多少次才能使正面朝上的频率落在 (0.4, 0.6) 间的概率至少为0.9.如何才能更精确的计算这个次数?是多少?解:设⎩⎨⎧=,,0,,1次反面朝上第次正面朝上第i i X i 有X i ~ B (1, 0.5),且正面朝上的频率为∑==ni i X n X 11,则E (X i ) = 0.5,Var (X i ) = 0.25,且5.0(=X E ,n X 25.0)(Var =, 由切比雪夫不等式得n nX P X P 2511.025.01}1.0|5.0{|}6.04.0{2−=−≥<−=<<,故当9.0251≥−n时,即n ≥ 250时,9.0}6.04.0{≥<<X P ;利用中心极限定理更精确地计算,当n 很大时∑==ni i X n X 11的渐近分布为正态分布25.0,5.0(n N , 则)2.0()2.0()25.05.04.0(25.05.06.0()4.0()6.0(}6.04.0{n n nnF F X P −Φ−Φ=−Φ−−Φ=−=<<9.01)2.0(2≥−Φ=n ,即95.0)2.0(≥Φn ,64.12.0≥n ,故当n ≥ 67.24时,即n ≥ 68时,9.0}6.04.0{≥<<X P .15.从指数总体Exp (1/θ ) 抽取了40个样品,试求X 的渐近分布.解:因θ==)((X E X E ,2401)(Var )(Var θ==n X X ,故X 的渐近分布为)401,(2θθN .16.设X 1 , …, X 25是从均匀分布U (0, 5) 抽取的样本,试求样本均值X 的渐近分布.解:因25)()(==X E X E ,1211225)05()(Var )(Var 2=×−==n X X ,故X 的渐近分布为)121,25(N . 17.设X 1 , …, X 20是从二点分布b (1, p ) 抽取的样本,试求样本均值X 的渐近分布.解:因p X E X E ==)((,20)1()(Var )(Var p p n X X −==,故X 的渐近分布为20)1(,(p p p N −.18.设X 1 , …, X 8是从正态分布N (10, 9) 中抽取的样本,试求样本均值X 的标准差.解:因89)(Var )(Var ==n X X ,故X 的标准差为423)(Var =X . 19.切尾均值也是一个常用的反映样本数据的特征量,其想法是将数据的两端的值舍去,而用剩下的当中的值为计算样本均值,其计算公式是][2])[()2]([)1]([αααααn n X X X X n n n n −+++=−++L ,其中0 < α < 1/2是切尾系数,X (1) ≤ X (2) ≤ … ≤ X (n ) 是有序样本.现我们在高校采访了16名大学生,了解他们平时的学习情况,以下数据是大学生每周用于看电视的时间:15 14 12 9 20 4 17 26 15 18 6 10 16 15 5 8 取α = 1/16,试计算其切尾均值.解:因n α = 1,且有序样本为4, 5, 6, 8, 9, 10, 12, 14, 15, 15, 15, 16, 17, 18, 20, 26,故切尾均值8571.12)20865(216116/1=++++−=L x . 20.有一个分组样本如下:区间 组中值 频数 (145,155) 150 4 (155,165) 160 8 (165,175) 170 6 (175,185) 180 2试求该分组样本的样本均值、样本标准差、样本偏度和样本峰度.解:163)2180617081604150(201=×+×+×+×=x ;2338.9]2)163180(6)163170(8)163160(4)163150[(1912222=×−+×−+×−+×−=s ; 因81]2)163180(6)163170(8)163160(4)163150[(20122222=×−+×−+×−+×−=b , 144]2)163180(6)163170(8)163160(4)163150[(20133333=×−+×−+×−+×−=b ,14817]2)163180(6)163170(8)163160(4)163150[(20144444=×−+×−+×−+×−=b ,故样本偏度1975.02/3231==b b γ,样本峰度7417.032242−=−=b b γ.21.检查四批产品,其批次与不合格品率如下:批号批量不合格品率1 100 0.052 300 0.063 250 0.04 4 150 0.03试求这四批产品的总不合格品率.解:046875.0)03.015004.025006.030005.0100(8001=×+×+×+×=p . 22.设总体以等概率取1, 2, 3, 4, 5,现从中抽取一个容量为4的样本,试分别求X (1) 和X (4) 的分布. 解:因总体分布函数为⎪⎪⎪⎪⎪⎩⎪⎪⎪⎪⎪⎨⎧≥<≤<≤<≤<≤<=,5,1,54,54,43,53,32,52,21,51,1,0)(x x x x x x x F则F (1) (x ) = P {X (1) ≤ x } = 1 − P {X (1) > x } = 1 − P {X 1 > x , X 2 > x , X 3 > x , X 4 > x } = 1 − [1 − F (x )]4⎪⎪⎪⎪⎪⎩⎪⎪⎪⎪⎪⎨⎧≥<≤<≤<≤<≤<=,5,1,54,625624,43,625609,32,625544,21,625369,1,0x x x x x x且F (4) (x ) = P {X (4) ≤ x } = P {X 1 ≤ x , X 2 ≤ x , X 3 ≤ x , X 4 ≤ x } = [F (x )]4⎪⎪⎪⎪⎪⎩⎪⎪⎪⎪⎪⎨⎧≥<≤<≤<≤<≤<=,5,1,54,625256,43,62581,32,62516,21,6251,1,0x x x x x x故X (1) 和X (4) 的分布为6251625156256562517562536954321)1(P X ; 6253696251756256562515625154321)4(PX . 23.设总体X 服从几何分布,即P {X = k } = pq k − 1,k = 1, 2, …,其中0 < p < 1,q = 1 − p ,X 1, X 2, …, X n 为该总体的样本.求X (n ) , X (1)的概率分布.解:因k k kj j q qq p pqk X P −=−−==≤∑=−11)1(}{11,k = 1, 2, …,故n k n k ni i ni i n n n q q k X P k X P k X P k X P k X P )1()1(}1{}{}1{}{}{111)()()(−==−−−=−≤−≤=−≤−≤==∏∏;且nk k n ni i ni i q q k X P k X P k X P k X P k X P −=>−−>=>−−>==−==∏∏)1(11)1()1()1(}{}1{}{}1{}{.24.设X 1 , …, X 16是来自N (8, 4) 的样本,试求下列概率(1)P {X (16) > 10}; (2)P {X (1) > 5}.解:(1)1616161)16()16()]2810([1)]10([1}10{1}10{1}10{−Φ−=−=≤−=≤−=>∏=F X P X P X P i i = 1 − [Φ(1)]16 = 1 − 0.841316 = 0.9370;(2)3308.09332.0)]5.1([285(1[)]5(1[}5{}5{16161616161)1(==Φ=−Φ−=−=>=>∏=F X P X P i i . 25.设总体为韦布尔分布,其密度函数为⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧⎟⎟⎠⎞⎜⎜⎝⎛−=−mmm x mx m x p ηηηexp ),;(1,x > 0, m > 0, η > 0. 现从中得到样本X 1 , …, X n ,证明X (1) 仍服从韦布尔分布,并指出其参数. 解:总体分布函数mm mmx xt xmt xt mm xt t mtt t p x F ⎟⎟⎠⎞⎜⎜⎝⎛−⎟⎟⎠⎞⎜⎜⎝⎛−⎟⎟⎠⎞⎜⎜⎝⎛−⎟⎟⎠⎞⎜⎜⎝⎛−−−=−=⎟⎟⎠⎞⎜⎜⎝⎛===∫∫∫ηηηηηηe1e d ed ed )()(00010,x > 0,则X (1) 的密度函数为111(1)11()[1()]()eeemmmmx x x m m m n n n mmmxmnxp x n F x p x n ηηηηη⎛⎞⎛⎞⎛⎞⎛⎞−−−−−−−−⎜⎟⎜⎟⎜⎟−⎝⎠⎝⎠⎝⎠=−=⋅==,故X (1) 服从参数为⎟⎟⎠⎞⎜⎜⎝⎛m n m η,的韦布尔分布. 26.设总体密度函数为p (x ) = 6 x (1 − x ), 0 < x < 1,X 1 , …, X 9是来自该总体的样本,试求样本中位数的分布. 解:总体分布函数3203223)23(d )1(6d )()(x x t t t t t t t p x F xxx−=−=−==∫∫,0 < x < 1,因样本容量n = 9,有样本中位数)5(215.0x x m n ==⎟⎠⎞⎜⎝⎛+,其密度函数为)1(6)231()23(!4!4!9)()](1[)]([!4!4!9)(432432445x x x x x x x p x F x F x p −⋅+−−⋅=−⋅=. 27.证明公式∫∑−−=−−−−=−⎟⎟⎠⎞⎜⎜⎝⎛110)1()!1(!!)1(p r n r rk k n k dx x x r n r n p p k n ,其中0 ≤ p ≤ 1. 证:设总体X 服从区间(0, 1)上的均匀分布,X 1, X 2, …, X n 为样本,X (1), X (2), …, X (n )是顺序统计量,则样本观测值中不超过p 的样品个数服从二项分布b (n , p ),即最多有r 个样品不超过p 的概率为∑=−+−⎟⎟⎠⎞⎜⎜⎝⎛=>rk kn k r p p k n p X P 0)1()1(}{,因总体X 的密度函数与分布函数分别为⎩⎨⎧<<=.,0;10,1)(其他x x p ⎪⎩⎪⎨⎧≥<≤<=.1,1;10,;0,0)(x x x x x F则X (r + 1)的密度函数为⎪⎩⎪⎨⎧<<−−−=−−−=−−−−+.,0,10,)1()!1(!!)()](1[)]([)!1(!!)(111其他x x x r n r n x p x F x F r n r n x p r n r r n r r 故∫∑−−+=−−−−=>=−⎟⎟⎠⎞⎜⎜⎝⎛11)1(0)1()!1(!!}{)1(p r n r r rk kn k dx x x r n r n p X P p p k n . 28.设总体X 的分布函数F (x )是连续的,X (1), …, X (n )为取自此总体的次序统计量,设ηi = F (X (i )),试证: (1)η1 ≤ η2 ≤ … ≤ ηn ,且ηi 是来自均匀分布U (0, 1)总体的次序统计量;(2)1)(+=n iE i η,)2()1()1()Var(2++−+=n n i n i i η,1 ≤ i ≤ n ; (3)ηi 和ηj 的协方差矩阵为⎟⎟⎟⎟⎠⎞⎜⎜⎜⎜⎝⎛+−+−+−+−2)1(2)1(2)1(2)1(22212111n a a n a a n a a n a a 其中11+=n i a ,12+=n j a . 注:第(3)问应要求i < j . 解:(1)首先证明Y = F (X )的分布是均匀分布U (0, 1),因分布函数F (x )连续,对于任意的y ∈ (0, 1),存在x ,使得F (x ) = y , 则F Y ( y ) = P {Y = F (X ) ≤ y } = P {F (X ) ≤ F (x )} = P {X ≤ x } = F (x ) = y , 即Y = F (X )的分布函数是⎪⎩⎪⎨⎧≥<≤<=.1,1;10,;0,0)(y y y y y F Y可得Y = F (X )的分布是均匀分布U (0, 1),即F (X 1), F (X 2), …, F (X n )是均匀分布总体U (0, 1)的样本, 因分布函数F (x )单调不减,ηi = F (X (i )),且X (1) ≤ X (2) ≤ … ≤ X (n )是总体X 的次序统计量, 故η1 ≤ η2 ≤ … ≤ ηn ,且ηi 是来自均匀分布U (0, 1)总体的次序统计量; (2)因均匀分布U (0, 1) 的密度函数与分布函数分别为⎩⎨⎧<<=.,0;10,1)(其他y y p Y ⎪⎩⎪⎨⎧≥<≤<=.1,1;10,;0,0)(y y y y y F Y则ηi = F (X (i ))的密度函数为⎪⎩⎪⎨⎧<<−−−=−−−=−−−−.,0,10,)1()!()!1(!)()](1[)]([)!()!1(!)(11其他y y y i n i n y p y F y F i n i n y p i n i Y in Y i Y i即ηi 服从贝塔分布Be (i , n − i + 1),即Be (a , b ),其中a = i ,b = n − i + 1,故1)(+=+=n i b a a E i η,)2()1()1()1()()Var(22++−+=+++=n n i n i b a b a ab i η,1 ≤ i ≤ n ; (3)当i < j 时,(ηi , ηj )的联合密度函数为z y Y Y j n Y i j Y Y i Y ij z p y p z F y F z F y F j n i j i n z y p <−−−−−−−−−−=I )()()](1[)]()([)]([)!()!1()!1(!),(111011I )1()()!()!1()!1(!<<<−−−−−−−−−−=z y j n i j i z y z y j n i j i n , 则∫∫∫∫−−−+∞∞−+∞∞−−⋅−−−−−=⋅=1001)1()()!()!1()!1(!),()(z j n i j i ij j i dy z z y z y dz j n i j i n dydz z y p yz E ηη, 令y = zu ,有dy = zdu ,且当y = 0时,u = 0;当y = z 时,u = 1,则∫∫⋅−−=−⋅−−−−−−−1101)()()1()1()(zdu zu z zu z z dy z z y z y i j i j n zj n i j ij n j j n j i j i j j n z z j i j i i j i B z z du u u z z z −+−+−−−−−−=−+⋅−=−⋅−=∫)1(!)!1(!),1()1()1()1(1111,即∫−+−−−−−−−=101)1(!)!1(!)!()!1()!1(!)(dz z z j i j i j n i j i n E jn j j i ηη )1,2(!)!1(!)!()!1()!1(!+−+−−⋅−−−−=j n j B j i j i j n i j i n)2)(1()1()!2()!()!1(!)!1(!)!()!1()!1(!+++=+−+⋅−−⋅−−−−=n n j i n j n j j i j i j n i j i n , 可得)2()1()1(11)2)(1()1()()()(),Cov(2++−+=+⋅+−+++=−=n n j n i n j n i n n j i E E E j i j i j i ηηηηηη, 因11+=n i a ,12+=n j a , 则2)1()2()1()1(),Cov(212+−=++−+=n a a n n j n i j i ηη, 且2)1()2()1()1()Var(112+−=++−+=n a a n n i n i i η,2)1()2()1()1()Var(222+−=++−+=n a a n n j n j jη, 故ηi 和ηj 的协方差矩阵为⎟⎟⎟⎟⎠⎞⎜⎜⎜⎜⎝⎛+−+−+−+−=⎟⎟⎠⎞⎜⎜⎝⎛2)1(2)1(2)1(2)1()Var(),Cov(),Cov()Var(22212111n a a n a a n a a n a a j j i j i i ηηηηηη. 29.设总体X 服从N (0, 1),从此总体获得一组样本观测值x 1 = 0, x 2 = 0.2, x 3 = 0.25, x 4 = −0.3, x 5 = −0.1, x 6 = 2, x 7 = 0.15, x 8 = 1, x 9 = −0.7, x 10 = −1.(1)计算x = 0.15(即x (6))处的E [F (X (6))],Var[F (X (6))]; (2)计算F (X (6))在x = 0.15的分布函数值.解:(1)根据第28题的结论知1)]([)(+=n iX F E i ,)2()1()1()](Var[2)(++−+=n n i n i X F i ,且n = 10, 故116)]([)6(=X F E ,2425121156)](Var[2)6(=××=X F ; (2)因F (X (i ))服从贝塔分布Be (i , n − i + 1),即这里的F (X (6))服从贝塔分布Be (6, 5),则F (X (6))在x = 0.15的分布函数值为∫−⋅=15.00456)1(!4!5!10)15.0(dx x x F , 故根据第27题的结论知0014.085.015.0101)1(!4!5!10)15.0(501015.00456=××⎟⎟⎠⎞⎜⎜⎝⎛−=−⋅=∑∫=−k k k k dx x x F . 30.在下列密度函数下分别寻求容量为n 的样本中位数m 0.5的渐近分布.(1)p (x ) = 6x (1 − x ),0 < x < 1;(2)⎭⎬⎫⎩⎨⎧−−=222)(exp π21)(σµσx x p ; (3)⎩⎨⎧<<=.,0;10,2)(其他x x x p (4)||e 2)(x x p λλ−=.解:样本中位数m 0.5的渐近分布为⎟⎟⎠⎞⎜⎜⎝⎛⋅)(41,5.025.0x p n x N ,其中p (x )是总体密度函数,x 0.5是总体中位数, (1)因p (x ) = 6x (1 − x ),0 < x < 1,有35.025.003205.023)23()1(6)(5.05.05.0x x x x dx x x x F x x −=−=−==∫,则x 0.5 = 0.5,有nn p n 91)5.05.06(41)5.0(4122=×××=⋅, 故样本中位数m 0.5的渐近分布为⎟⎠⎞⎜⎝⎛n N 91,5.0;(2)因⎭⎫⎩⎨⎧−−=222)(exp π21)(σµσx x p ,有0.5 = F (x 0.5) = F (µ), 则x 0.5 = µ ,有n n p n 2ππ2141)(41222σσµ=⎟⎟⎠⎞⎜⎜⎝⎛×=⋅, 故样本中位数m 0.5的渐近分布为⎟⎟⎠⎞⎜⎜⎝⎛n N 2π,2σµ;(3)因⎩⎨⎧<<=.,0;10,2)(其他x x x p 有25.00205.05.05.02)(5.0x x xdx x F x x ====∫, 则215.0=x ,有n n p n 8121241214122=⎟⎠⎞⎜⎝⎛××=⎟⎠⎞⎜⎝⎛⋅, 故样本中位数m 0.5的渐近分布为⎟⎠⎞⎜⎝⎛n N 81,21; (4)因||e 2)(x x p λλ−=,有0.5 = F (x 0.5) = F (0),则x 0.5 = 0,有2221241)0(41λλn n p n =⎟⎠⎞⎜⎝⎛×=⋅, 故样本中位数m 0.5的渐近分布为⎟⎠⎞⎜⎝⎛21,0λn N .31.设总体X 服从双参数指数分布,其分布函数为⎪⎩⎪⎨⎧≤>⎭⎬⎫⎩⎨⎧−−−=.,0;,exp 1)(µµσµx x x x F其中,−∞ < µ < +∞,σ > 0,X (1) ≤ … ≤ X (n )为样本的次序统计量.试证明)(2)1()1()(−−−−i i X X i n σ服从自由度为2的χ 2分布(i = 2, …, n ). 注:此题有误,讨论的随机变量应为)(2)1()1()(−−+−i i X X i n σ.证:因(X (i − 1), X (i ))的联合密度函数为z y i n i i i z p y p z F y F i n i n z y p <−−−−−−=I )()()](1[)]([)!()!2(!),(2)1( z y in i z y z y i n i n <<−−⎭⎬⎫⎩⎨⎧−−⋅⎭⎬⎫⎩⎨⎧−−⋅⎥⎦⎤⎢⎣⎡⎭⎬⎫⎩⎨⎧−−⎥⎦⎤⎢⎣⎡⎭⎬⎫⎩⎨⎧−−−−−=µσµσσµσσµσµI exp 1exp 1exp exp 1)!()!2(!2z y i n i z y y i n i n <<+−−⎥⎦⎤⎢⎣⎡⎭⎬⎫⎩⎨⎧−−⎥⎦⎤⎢⎣⎡⎭⎬⎫⎩⎨⎧−−−⎭⎬⎫⎩⎨⎧−−−−=µσµσµσµσI exp exp 1exp )!()!2(!122,则T = X (i ) − X (i − 1)的密度函数为∫+∞∞−−⋅⋅+=dy t y y p t p i i T 1),()()1(∫∞++−−⎥⎦⎤⎢⎣⎡⎭⎬⎫⎩⎨⎧−+−⎥⎦⎤⎢⎣⎡⎭⎬⎫⎩⎨⎧−−−⎭⎬⎫⎩⎨⎧−−−−=µσµσµσµσdy t y y y i n i n i n i 122exp exp 1exp )!()!2(!∫∞+−+−+−⎥⎦⎤⎢⎣⎡⎭⎫⎩⎨⎧−−−⎥⎦⎤⎢⎣⎡⎭⎬⎫⎩⎨⎧−−−⎥⎦⎤⎢⎣⎡⎭⎬⎫⎩⎨⎧−−⎥⎦⎤⎢⎣⎡⎭⎬⎫⎩⎨⎧−−−=µσµσσµσµσσy d y y t i n i n i i n i n exp )(exp 1exp exp )!()!2(!2112∫−−⎥⎦⎤⎢⎣⎡⎭⎬⎫⎩⎨⎧−−−=−+−+−012112)()1(exp )!()!2(!du u ut i n i n i i n i n σσσ∫−+−−⎭⎬⎫⎩⎨⎧+−−−−=1021)1()1(exp )!()!2(!du u ut i n i n i n i i n σσ )1,2()1(exp )!()!2(!−+−⎭⎬⎫⎩⎨⎧+−−−−=i i n B t i n i n i n σσ⎭⎬⎫⎩⎨⎧+−−+−=−+−⋅⎭⎬⎫⎩⎨⎧+−−−−=σσσσt i n i n n i i n t i n i n i n )1(exp 1!)!2()!1()1(exp )!()!2(!,t > 0,可得T i n X X i n S i i σσ2)1()(2)1()1()(+−=−+−=−的密度函数为⎭⎬⎫⎩⎨⎧−=+−⋅⎭⎬⎫⎩⎨⎧−+−=+−⋅⎟⎟⎠⎞⎜⎜⎝⎛+−=2exp 21)1(22exp 1)1(2)1(2)(s i n s i n i n s i n p s p T S σσσσ,s > 0, 故)(2)1()1()(−−+−=i i X X i n S σ服从参数为21的指数分布,也就是服从自由度为2的χ 2分布. 32.设总体X 的密度函数为⎩⎨⎧<<=.,0;10,3)(2其他x x x p X (1) ≤ X (2) ≤ … ≤ X (5)为容量为5的取自此总体的次序统计量,试证)4()2(X X 与X (4)相互独立.z −证:因总体X 的密度函数和分布函数分别为⎩⎨⎧<<=.,0;10,3)(2其他x x x p ⎪⎩⎪⎨⎧≥<≤<=.1,1;10,;0,0)(3x x x x x F 则(X (2), X (4))的联合密度函数为)4()2(I )()()](1[)]()([)]([!1!1!1!5),()4()2(1)4(1)2()4(1)2()4()2(24x x x p x p x F x F x F x F x x p <−−⋅⋅=103)4(3)2(3)4(2)4(5)2(102)4(2)2(3)4(3)2(3)4(3)2()4()2()4()2(I )1)((1080I 33)1)((120<<<<<<−−=⋅⋅−−=x x x x x x x x x x x x x x x ,设)4()2(1X X Y =,Y 2 = X (4),有X (2) = Y 1Y 2,X (4) = Y 2,则(X (2), X (4))关于( Y 1 , Y 2 )的雅可比行列式为21221)4()2(1),(),(y y y y y x x J ==∂∂=,且0 < X (2) ≤ X (4) < 1对应于0 < Y 1 < 1, 0 < Y 2 < 1,可得(Y 1 , Y 2 )的联合密度函数为210,10323213222521221242121I )1]()([)(1080||),(),(y y y y y y y y J y y y p y y p y y ⋅−−=⋅=<<<<103211210315121I )1(I )1(1080<<<<−⋅−=y y y y y y ,由于(Y 1 , Y 2 , …, Y n )的联合密度函数p ( y 1 , y 2)可分离变量, 故)4()2(1X X Y =与Y 2 = X (4)相互独立.33.(1)设X (1)和X (n )分别为容量n 的最小和最大次序统计量,证明极差R n = X (n ) − X (1)的分布函数∫+∞∞−−−+=dy y p y F x y F n x F n R n )()]()([)(1其中F ( y )与p ( y )分别为总体的分布函数与密度函数;(2)利用(1)的结论,求总体为指数分布Exp (λ)时,样本极差R n 的分布. 注:第(1)问应添上x > 0的要求. 解:(1)方法一:增补变量法因(X (1), X (n ))的联合密度函数为z y n z y n n z p y p y F z F n n z p y p y F z F n n z y p <−<−−−=−−=I )()()]()()[1(I )()()]()([)!2(!),(221, 对于其函数R n = X (n ) − X (1),增补变量W = X (1),⎩⎨⎧−==.;y z r y w 反函数为⎩⎨⎧+==.;r w z w y 其雅可比行列式为11101==J ,则R n 的密度函数为∫+∞∞−>−+−+−=dw r w p w p w F r w F n n r p r n R n 02I )()()]()()[1()(,故R n = X (n ) − X (1)的分布函数为∫∫∫∞−+∞∞−>−∞−+−+−==x r n x R R dw r w p w p w F r w F n n dr dr r p x F n n 02I )()()]()()[1()()(∫∫+∞∞−∞−>−+−+−=xr n dr r w p w p w F r w F n n dw 02I )()()]()()[1(∫∫+∞∞−−+−+−=xn dr r w p w F r w F dw w p n n 02)()]()([)()1(∫∫+∞∞−−+−+−=xn r w dF w F r w F dw w p n n 02)()]()([)()1(∫+∞∞−−−+−⋅−=x n w F r w F n dw w p n n 01)]()([11)()1(∫+∞∞−−−+=dw w p w F x w F n n )()]()([1 ∫+∞∞−−−+=dy y p y F x y F n n )()]()([1,x > 0;方法二:分布函数法因(X (1), X (n ))的联合密度函数为z y n z y n n z p y p y F z F n n z p y p y F z F n n z y p <−<−−−=−−=I )()()]()()[1(I )()()]()([)!2(!),(221, 故R n = X (n ) − X (1)的分布函数为∫∫+∞∞−+∞−=≤−==xy n n n R dz z y p dy x X X R P x F n ),(}{)(1)1()(∫∫+∞∞−+−−−=xy yn dz z p y p y F z F dy n n )()()]()([)1(2∫∫+∞∞−+−−⋅−=xy yn z F d y F z F y p dy n n )]([)]()([)()1(2∫∫+∞∞−−+∞∞−+−−+=−−⋅⋅−=dy y p y F x y F n y F z F n y p dy n n n x y y n )()]()([)]()([11)()1(11,x > 0;(2)因指数分布Exp (λ)的密度函数与分布函数分别为⎩⎨⎧≤>=−.0,0;0,e )(x x x p x λλ ⎩⎨⎧≤>−=−.0,0;0,e 1)(x x x F x λ故R n = X (n ) − X (1)的分布函数为∫∫+∞−−−+−+∞∞−−⋅−−−=−+=01)(1e )]e 1()e 1[()()]()([)(dy n dy y p y F x y F n x F y n y x y n R n λλλλ101011)e 1()(e 1)e 1(e )1()e 1()(e −−+∞−−−+∞−−−−−−=⎟⎠⎞⎜⎝⎛−⋅−=−⋅−=∫n x n y n x y n x n y n n d n λλλλλλ,x > 0.34.设X 1 , …, X n 是来自U (0, θ ) 的样本,X (1) ≤ … ≤ X (n ) 为次序统计量,令)1()(+=i i i X X Y ,i = 1, …, n − 1,Y n = X (n ) ,证明Y 1 , …, Y n 相互独立.。
期末数理统计
θ
ˆ Var(θ ) =
n 2 n n θ − θ = θ 2 → 0, 2 n+2 n + 1 (n + 1) (n + 2)
2
故X(n)是θ 的相合估计。
15 May 2012
习题课
第30页 30页
例9 对均匀总体U(0, θ ),由θ 的极大似然估计得到的
无偏估计是 θˆ = (n + 1) x( n ),它的均方误差 /n
λ
k
e−λ , k = 0,1 2,L ,
λ
xi
xi !
e
−λ
=e
−nλ
15 May 2012
∏x !
i =1 i
n
λ
xi
习题课
第22页 22页
泊松分布( 泊松分布(续)
ln L = −nλ + ∑ xi ln λ − ∑ln( xi !) i =1 i=1 n d ln L 1 令 = −n + ∑xi = 0 dλ λ i=1
M SE (θˆ ) = Var(θˆ ) =
θ2
n ( n + 2)
现我们考虑θ的形如 θˆα = α ⋅ x( n ) 的估计,其均方差为
n n ⋅α MSE (θˆα ) = α 2 θ2 + − 1 θ 2 ( n + 1) 2 ( n + 2) n +1
2
用求导的方法不难求出当α 0 = (n + 2) /(n + 1)时上述均方 误差达到最小,且其均方误差
15 May 2012
习题课
第13页 13页
练习: 设x1, x2, …,xn 是来自泊松分布 P(λ)的一
概率论与数理统计(茆诗松)第二版课后第五章习题参考答案
i =1
i =1
n
= ∑[(xi − x)( yi − y) + (x − c)( yi − y) + (xi − x)( y − d ) + (x − c)( y − d )] i =1
n
n
n
= ∑ (xi − x)( yi − y) + (x − c)∑ ( yi − y) + ( y − d )∑ (xi − x) + n(x − c)( y − d )
⎜⎜⎝⎛
m x2
⎟⎟⎠⎞ p x2 qm−x2
L⎜⎜⎝⎛
m xn
⎟⎟⎠⎞ p xn qm−xn
n
n
∏ =
n i =1
⎜⎜⎝⎛
m xi
⎟⎟⎠⎞
⋅
∑ xt mn−∑ xt
p q i=1
i =1
.
4. 为估计鱼塘里有多少鱼,一位统计学家设计了一个方案如下:从鱼塘中打捞出一网鱼,计有 n 条,涂 上不会被水冲刷掉的红漆后放回,一天后再从鱼塘里打捞一网,发现共有 m 条鱼,而涂有红漆的鱼则 有 k 条,你能估计出鱼塘里大概有多少鱼吗?该问题的总体和样本又分别是什么呢?
4. 某公司对其 250 名职工上班所需时间(单位:分钟)进行了调查,下面是其不完整的频率分布表:
所需时间
频率
0~10
0.10
10~20
0.24
20~30
30~40
40~50
(1)试将频率分布表补充完整. (2)该公司上班所需时间在半小时以内有多少人? 解:(1)频率分布表为
组序
分组有 N 条鱼,有涂有红漆的鱼所占比例为 n , N
而一天后打捞出的一网鱼中涂有红漆的鱼所占比例为 k ,估计 n ≈ k ,
数理统计主要内容和复习重点
两类错误:H0 正确但拒绝 H0 为第一类错误,H0 错误但接受 H0 为第二类错误; 检验的 p 值:作出拒绝 H0 决策的最小显著水平。 二. 参数检验:单正态总体参数、双正态总体参数、其他分布参数、似然比检验 单正态总体参数检验:已知方差检验均值、未知方差检验均值、检验方差; 双正态总体参数检验:已知方差检验均值差、未知方差检验均值差、检验方差比; 其他分布参数检验:指数分布参数检验、比例 p 的检验、泊松分布参数检验,以
及对应的大样本情形。 似然比检验:分别求出一般情况与在 H0 成立条件下,似然函数的上确界之比。 三. 非参数检验:分类χ 2 拟合优度检验、列联表独立性检验、正态检验、其他非参数检验 分类χ 2 拟合优度检验:总体分布分成有限类的χ 2 检验法;
列联表独立性检验:χ 2 检验法; 正态性检验:正态概率纸,W 检验法,EP 检验; 其他非参数检验:游程检验、符号检验、秩和检验。 重点: 单与双正态总体参数检验的六种类型、其他分布参数检验、似然比检验、分类χ 2 拟合优度检 验与列联表独立性检验
估计方法:矩估计、最大似然估计; 评价标准:相合性、无偏性、有效性,以及均方误差; 最小方差无偏估计 UMVUE:充分性原则,UMVUE 判定定理,Fisher 信息量,
C-R 下界与有效估计; 贝叶斯估计:先验分布、后验分布,共轭先验分布。 二. 区间估计:枢轴量、单正态总体、双正态总体、比例 p、其他分布参数 枢轴量:概念以及与统计量的区别; 单正态总体置信区间:已知方差估计均值、未知方差估计均值、估计方差; 双正态总体置信区间:已知方差估计均值差、未知方差估计均值差、估计方差比; 比例 p 的置信区间:近似法、方程法、修正法; 其他分布参数的置信区间:指数分布、泊松分布等。 重点: 矩估计与最大似然估计、无偏性与有效性、Fisher 信息量与有效估计、单与双正态总体置信 区间的六种类型、比例 p 的置信区间(任一方法)。
2021统计学原理-《统计学》第五章统计量及其抽样分布试题(精选试题)
统计学原理-《统计学》第五章统计量及其抽样分布试题1、智商的得分服从均值为100,标准差为16的正态分布。
从总体中抽取一个容量为n的样本,样本均值的标准差为2,样本容量为____________。
2、样本均值与总体均值之间的差被称作____________。
3、从均值为50,标准差为5的无限总体中抽取容量为30的样本,则抽样分布的超过51的概率为____________。
4、某校大学生中,外国留学生占10%。
随机从该校学生中抽取100名学生,则样本中外国留学生比例的标准差为____________。
5、假设总体服从均匀分布,从此总体中抽取容量为36的样本,则样本均值的抽样分布( )。
A.服从非正态分布B.近似正态分布C.服从均匀分布D.服从x²分布6、从服从正态分布的无限总体中分别抽取容量为4,16,36的样本,当样本容量增大时,样本均值的标准差( )。
A.保持不变B.增加C.减小D.无法确定7、总体均值为50,标准差为8,从此总体中随机抽取容量为64的样本,则样本均值的抽样分布的均值和标准误差分别为( )。
A.50,8B.50,1C.50,4D.8,88、某厂家生产的灯泡寿命的均值为60小时,标准差为4小时。
如果从中随机抽取30只灯泡进行检测,则样本均值( )。
A.抽样分布的标准差为4小时B.抽样分布近似等同于总体分布C.抽样分布的中位数为60小时D.抽样分布近似等同于正态分布,均值为60小时9、假设某学校学生的年龄分布是右偏的,均值为23岁,标准差为3岁。
如果随机抽取100名学生,下列关于样本均值抽样分布描述不正确的是( )。
A.抽样分布的标准差等于3B.抽样分布近似服从正态分布C.抽样分布的均值近似为23D.抽样分布为非正态分布10、从均值为200,标准差为50的总体中抽取容量为100的简单随机样本,样本均值的数学期望是( )。
A.150B.200C.100D.25011、从均值为200,标准差为50的总体中抽取容量为100的简单随机样本,样本均值的标准差是( )。
(概率论与数理统计 茆诗松) 第5章 统计量及其分布(5.4)
当随机变量 2 2(n) 时,对给定 (01), 称满足 P(2 12(n)) 的 12(n) 是自由度为 n1的卡方分布的 1 分位数. 分位数 12(n) 可以从附表3 中查到。
P{ X
2 1
(n)} ,
该密度函 数的图像 是一只取 非负值的 偏态分布
特别,若12 =22 ,则
F=sx2/sy2 F(m1,n1)
推论5.4.2 设 x1, x2,…, xn 是来自N(, 2) 的 样本,则有
n(x ) t ~ t (n 1) s
习题5.4:Q5
推论5.4.3
在推论5.4.1的记号下,设 12 =22 = 2 ,
前缀“p”
正态分布:pnorm(x,mean,sd)
t 分布: pt(x,df) 卡方分布:pchisq(x,df) F分布: pf(x,df1,df2)
Q13
Q5
R软件: 转换概率为分位数, 即:找到x值,使得P(X≤x)=p 前缀“q” 正态分布:qnorm(p,mean,sd)
5.4.4 一些重要结论
正态总体的抽样分布定理 设 x1, x2,…, xn 是来自N(, 2) 的样本
定理5.4.1 设 x1, x2,…, xn 是来自N(, 2) 的 样本,其样本均值和样本方差分别为 x = xi/n 和 s2= (xix)2/(n1) 则有 (1) x 与 s2 相互独立; (2) x N(, 2/n) ;
(3) (n1) s2/2 2(n1)。
习题5.4:Q1~Q3
推论5.4.1 设 x1, x2,…, xn 是来自N(1, 12) 的 样本,y1, y2,…, yn 是来自N(2, 22) 的样本, 且此两样本相互独立,则有
极品资料Chap5
Chap 5 统计量及其分布概率论是从数量的侧面研究随机现象的规律性。
数理统计研究问题的步骤是:先安排试验获得数据,然后再分析数据做出推断,推断的形式有估计和检验两大类。
调查逻辑上有两种形式:普查和抽查。
普查局限性:个体数很大时工作量太大无法进行或进行时耗费巨大人力、物力和财力;对个体的调查具有破坏性时,根本不能采用。
§5.1总体与随机样本一、总体和个体总体:研究对象的全体。
可以表示为一个随机变量X 。
个体:组成总体的每个基本单位称为个体。
总体按包含个体的个数分为有限总体和无限总体两类。
二、随机样本与样本值抽样:从总体中抽取若干个体来观察某种数量指标的过程。
也称为取样或采样。
其基本思想和目的是从研究对象的全体中抽取一小部分进行观察和研究,从而对整体进行推断。
样本:总体中抽出若干个体而成的集体,称为样本,表示为。
),,(1n X X 样本容量:样本中所包含个体的个数。
样本值:每次具体抽样观察所得的数据是一个样本值,表示为:。
),...,,(21n x x x 简单随机样本:进行n 次独立重复(有放回)抽样所取得的随机样本,称为简单随机样本。
特征:样本中的个体相互独立;样本与总体具有相同的分布。
简称“独立同分布”。
总体个体数目很大时,不放回抽样得到的样本也看作简单随机样本。
将来提到的样本都是简单随机样本。
理解:(1)总体是一个随机变量,一般表示为X 。
(2)样本就是个相互独立且与总体有相同分布的随机变量()。
(为样本容量)n n X X ,...,1n §5.2统计量与抽样分布一、统计量定义:(P172)设(X 1,X 2,…,X n )是来自总体X 的一个样本,g (X 1,X 2,…,X n )是(X 1,X 2,…,X n )的连续函数且g 中不含任何未知参数,则称g (X 1,X 2,…,X n )为统计量,若x 1,x 2,…,x n 是X 1,X 2,…,X n 的样本观察值,则称g (x 1,x 2,…,x n ) g (X 1,X 2,…,X n ) 的观察值(统计值)。
数理统计(茆诗松版)第五章课件
• 自由度为1的 t 分布就是标准柯西分布, 它的均值不存在; • n>1时, t 分布的数学期望存在且为0; • n>2时,t 分布的方差存在,且为n/(n−2); • 当自由度较大 (如n≥30) 时, t 分布可以用 正态分布 N(0,1)近似。
21 February 2012
第五章 统计量及其分布
21 February 2012
5.5.2 因子分解定理
其中g(t,θ )是通过统计量 T 的取值而依赖于样本 的。
例1 :设 X ~ B ( n , p ); ( X 1 ,
, X m )是来自 X 的样本,
参数 p ( 0 < p < 1 )未知
X的分布律为: P{X = x} = Cnx p x (1 − p ) n − x , x = 0,1,
P ( x1 ,…, xn ) = ∏θ xi
i =1
n
θ −1
=θ
n
∏x
i =1
n
θ −1
i
,
0 < xi < 1; i = 1,…, n
112
例4 :
设总体 X 服从 [ θ 1, θ 2 ] 上的均匀分布, 其中 θ 1 , θ 2 未知,X 1 , X 2 , ..., X n )是 从该总体 (
故样本的联合概率函数为 m
,n
P( x1,…, xm ) = ∏C p (1 − p)
i =1 xi n xi
m m
n− xi
nm−∑xi ∑xi xi = (∏Cn ) p i=1 (1− p) i=1 , m i =1
xi = 0,1, , n; i = 1, , m
110
充分统计量
第五章 统计量及其分布
第15页
什么样的充分统计量才是最有价值的呢? 显然,充分统计量的维数越小就越有价值,因为我们 用尽可能少的量概括了样本中提供的信息。
在大多数情形下,我们都能看到: 维数与未知参数 维数相等的充分统计量是存在的,即我们经常都能 对T = (x1, x2, …, xn) 作降维处理。但在某些场合,降 维的充分统计量并不存在。如著名的威布尔分布
其中 h(x)=1, 由因子分解定理,T=(xi , xi2) 是充分统计量。
2019年1月15日星期二
第五章 统计量及其分布
第12页
进一步,我们指出这个统计量与 (x, s2 ) 是一一对应的,这说明在正态总体场合 常用的 ( x , s2 ) 是充分统计量。
2019年1月15日星期二
第五章 统计量及其分布
2019年1月15日星期二
第五章 统计量及其分布
第5页
定义5.5.1 设 x1, x2, …, xn 是来自某个总体 的样本,总体分布函数为F ( x ; ),统计 量 T = T(x1, x2, …, xn) 称为 的充分统计 量,如果在给定T 的取值后,x1, x2,…, xn 的条件分布与 无关. 说明:参数θ和充分统计量 T = T(x1, x2, …, xn)并不 一定是一维的。
第7页
5.5.2 因子分解定理
充分性原则: 在统计学中有一个 基本原则-在充分统计量存在的场合,任何统计推断都 可以基于充分统计量进行,这可以简化统计 推断的程序。
充分性原则和另外一个完备性原则在我们寻求对 总体中的未知参数作统计推断时扮演者重要角色。
2019年1月15日星期二
第五章 统计量及其分布
统计量及其分布..
服从的分布可能是完全不知道的,或者知道其分布概
型,但是其中的某些参数是未知的。
例 5.0.1
某公司要采购一批产品,每件产品不
是合格品就是不合格品,但该批产品总有一 个不合格品率 p 。由此,若从该批产品中随 机抽取一件,用 X 表示这一件产品的不合格 数,不难看出 X 服从一个二点分布 b ( 1 , p ) , 但分布中的参数 p 是不知道的。一些问题:
表5.2.1 例5.2.2 的频数频率分布表 组序 分组区间 组中值 频数 频率 (%) 1 (147,157] 152 4 0.20 2 (157,167] 162 8 0.40 3 (167,177] 172 5 0.25 4 (177,187] 182 2 0.10 5 (187,197] 192 1 0.05 合计 20 1 累计频率 20 60 85 95 100
样;其中样本中所包含的个体数量称为样本容量。样本
中的个体称为样品。
5.1.2 样本
样本具有两重性:
• 一方面,由于样本是从总体中随机抽取的,抽 取前无法预知它们的数值,因此,样本是随机 变量,用大写字母 X1, X2, …, Xn 表示;
• 另一方面,样本在抽取以后经观测就有确定的 观测值,因此,样本又是一组数值。此时用小 写字母 x1, x2, …, xn 表示是恰当的。 在本书中,无论是样本还是其观测值,样本一般均用 x1, x2,… xn 表示,大家要注意从上下文中加以识别。
§5.1
总体与个体
在数理统计中,把研究对象的全体称为总体 (population)或母体,而把组成总体的每个单元
称为个体。
总体的三层含义:
• 研究对象的全体; • 数据; • 分布
(概率论与数理统计茆诗松)第5章统计量及其分布
统计量用于评估和 预测经济趋势例如 GDP、CPI等。
统计量用于研究经济 现象之间的相关性例 如通过回归分析探究 收入与消费的关系。
统计量用于风险评估 和决策制定例如在投 资组合优化中应用统 计量来降低风险。
统计量用于市场调研和 消费者行为分析例如通 过调查数据了解消费者 的购买意愿和偏好。
统计量用于描述大量粒子系统的宏观性质如温度、压强等。 在高能物理实验中统计量用于分析粒子碰撞数据以发现新粒子或研究基本粒子的相互作用。 在天体物理中统计量用于研究星系分布、宇宙射线等以揭示宇宙的演化历史和结构。 在凝聚态物理中统计量用于描述量子多体系统的性质如超导、量子相变等。
单击此处添加标题
性质:二项分布具有可加性即如果有两个独立的二项分布的随机变量X和Y那么 X+Y仍然服从二项分布。
单击此处添加标题
应用:二项分布在统计学、生物学、医学等领域有广泛的应用例如在遗传学中 研究基因的遗传规律在可靠性工程中研究设备的寿命等。
定义:泊松分布是一种离散概率分布描述了在单位时间内(或单位面积内)随机事件发生的次数。
适用范围:非参数检验适用于总体分布未知或已知分布不满足参数检验条件的情况能够更加灵活地处理 各种数据类型和分布。
添加标题
常见方法:常见的非参数检验方法包括符号检验、秩次检验、中位数检验等这些方法都是基于样本数据 本身的特性进行统计推断不需要对总体参数进行假设检验。
添加标题
优点与局限性:非参数检验具有适用范围广、灵活性高等优点但也存在一定的局限性如对于小样本数据 可能不太稳定等。因此在选择统计检验方法时需要根据具体情况进行综合考虑。
性
构造方法:利 用样本数据和 适当的数学方 法来构造有效
估计
应用:在统计 学、经济学、 社会学等领域
5.3统计量及其分布
例题1
现从离散均匀分布的总体中抽取容量为3的样本。 求有序统计量 x ( 1 ) , x ( 2 ) , x ( 3 ) 的分布列。 有序统计量既不相互 独立,又不同分布 X p 2 1/27 0 1/3 1 1/3 2 1/3
x(1)
p
0 19/27
1 7/27
2.单个次序统计量的分布
• • • • 定理: 设总体X的密度函数为p(x),分布函数为F(x) x1 , x 2 , L x n 为样本,则第k个次序统计量 x (k ) 的密度函数为
1.样本偏度
b3 γ1 = 2 3 b2
• 样本偏度反映了总体分布密度函数的对称性, • 当r1=0时,样本对称 • 当r1<0时,样本左尾长;当r1>0时,样本右尾长
2.样本峰度
b4 γ2 = 2 −3 b2
•样本峰度反映了总体分布密度曲线在其峰值 附近的陡峭程度。 •当r2<0时,曲线为平顶型; •当r2>0时,曲线为尖顶型 作业:268页16
2 i 2 i 2 i 2 i 2 2 i
2
2.性质
• 定理 设总体X具有二阶矩, x1 , x 2 , L x n 为总体 • 得到的样本,其中 E ( x) = µ Var ( x) = σ 2 < +∞
则E ( x) = µ
分析
2
Var ( x) =
σ
2
n
2
E (s ) = σ
2
2
1 E ( s ) = E[ ( xi − x) 2 ] ∑ n -1
四、次序统计量及其分布
• 1、定义 x • 设 x1 , x 2 ,L xn 是取自总体X的样本,(i ) 称为该样 本的第i个次序统计量。 • 最小次序统计量 最大次序统计量 从小到大排列后的有序样本
第5章_统计量及其抽样分布
2.
分布的变量值始终为正
分布的形状取决于其自由度n的大小,通常为不 对称的正偏分布,但随着自由度的增大逐渐趋 于对称 期望为: E( 2)=n ,方差为:D (2)=2n(n 为自由 度)
3.
可加性:若U和V为两个独立的2分布随机变量, U~2(n1),V~2(n2),则U+V这一随机变量服从自 由度为n1+n2的2分布
统计量是样本的一个函数 统计量是统计推断的基础
5.1.2 常用统计量
样本均值 样本方差 样本变异系数 1 n k x i 样本k 阶矩 mk n i 1 1 n k x x i 样本k 阶中心矩 k n i 1 样本偏度 样本峰度
掌握
n→∞时, 2分布的极限分布是正态分布。
2分布 (图示)
n=1 n=4 n=10
n=20
不同容量样本的抽样分布
2
2-分布 (用Excel计算2分布的概率)
1. 利用Excel提供的【CHIDIST】统计函数,计算2分布右 单尾的概率值
语法:CHIDIST(x,degrees_freedom) ,其中df为自 由度,x,是随机变量的取值 2. 利用【CHIINV】函数则可以计算给定右尾概率和自由度 时相应的反函数值
2.
U n1 F V n2
F ~ F (n1 , n2 )
5.3.3 F分布 (F distribution)
F分布的概率密度函数为:
n1 n1 n 2 1 n1 2n2 2 ) ( n n 1 1 n 2 1 ( ) ( x ) (1 x ) f ( x ) n1 n 2 n 2 n2 n2 ( 2 ) ( 2 ) 0
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章统计量及其分布一、教材说明本章内容包括:总体与样本,样本数据的整理与显示,统计量及其分布,三大抽样分布.本章的基本概念和重要结论是学习数理统计的基础.1、教学目的与教学要求1)掌握数理统计的总体、样本、样本经验分布函数、统计量及常用统计量等基本概念.2)掌握三大分布的定义,并能熟练应用来求随机变量的分布.3)牢记Fisher定理的内容及其三大推论.4)使学生了解数理统计研究问题的方法与概率论研究问题方法的不同.5)了解如何对样本数据进行整理与现实.2、本章重点与难点本章重点是数理统计的基本概念、三大分布的定义、Fisher定理及其推论.难点是Fisher 定理结合三大分布来求随机变量的分布.二、教学内容本章共分总体与样本、样本数据的整理与显示、统计量及其分布、三大抽样分布等4节来讲述本章的基本内容.§5.1总体与样本教学目的:要求学生理解数理统计的两个基本概念:总体和样本,以及与这两个基本概念相关的统计基本思想和样本分布.教学重点:掌握数理统计的基本概念和基本思想.教学难点:掌握数理统计的基本概念和基本思想.5.1.1总体与样本在一个统计问题中,把研究对象的全体称为总体,构成总体的每个成员称为个体.对于实际问题,总体中的个体是一些实在的人或物.比如,我们要研究某大学的学生身高情况,则该大学的全体学生构成问题的总体,而每一个学生即是一个个体.事实上,每一个学生有许多特征:性别、年龄、身高、体重等等,而在该问题中,我们关心的只是该校学生的身高如何,对其他的特征暂不考虑.这样,每个学生(个体)所具有的数量指标——身高就是个体,而所有身高全体看成总体.这样,抛开实际背景,总体就是一堆数,这堆数中有大有小,有的出现机会多,有的出现机会小,因此用一个概率分布去描述和归纳总体是合适的,从这个意义上说:总体就是一个分布,而其数量指标就是服从这个分布的随机变量.例5.1.1 考察某厂的产品质量,将其产品分为合格品和不合格品,并以0记合格品,以1记不格品,若以p表示不合格品率,则各总体可用一个二点分布表示:不同的p反映了总体间的差异.在有些问题中,我们对每一研究对象可能要观测两个或更多个指标,此时可用多维随机向量及其联合分布来描述总体.这种总体称为多维总体.若总体中的个体数是有限的,此总体称为有限总体;否则称为无限总体.实际中总体中的个体数大多是有限的,当个体数充分大时,将有限总体看作无限总体是一种合理抽象.5.1.2 样本与简单随机样本样本为了了解总体的分布,从总体中随机地抽取n 个体,记其指标值为 n x x x ,,,21 , 则n x x x ,,,21 称为总体的一个样本,n 称为样本容量或简称为样本量,样本中的个体称为样品.首先指出,样本具有所谓的二重性:一方面,由于样本是从总体中随机抽取的,抽取前无法预知它们的数值,因此样本是随机变量,用大写字母 n X X X ,,,21 表示;另一方面,样本在抽取以后经观测就有确定的观测值,因此样本又是一组数值,此时用小写字母n x x x ,,,21 表示.简单起见,无论是样本还是其观测值,均用n x x x ,,,21 表示.每个样本观测值都能测到一个具体的数值,则称该样本为完全样本,若样本观测值没有具体的数值,只有一个范围,则称这样的样本为分组样本.从而知道分组样本与完全样本相比在信息上总有损失,但在实际中,若样本量特别大,用分组样本既简明扼要,又能帮助人们更好地认识总体.例5.1.4 略. 简单随机样本从总体中抽取样本可有不同的抽法,为了能由样本对总体作出较可靠的推断就希望样本能很好地代表总体.这就需要对抽样方法提出一些要求,最常用的有如下两个要求:1)样本具有随机性:要求每一个个体都有同等机会被选入样本,这便意味着每一样品i x 与总体X 有相同的分布.2)样本要求有独立性:要求每一样品的取值不影响其它样品的取值,这便意味着n x x x ,,,21 相互独立.若样本n x x x ,,,21 是n 个相互独立的具有同一分布的随机变量,则称该样本为简单随机样本,简称为样本.注(1)若总体X 的分布函数为)(x F ,则其样本的联合分布函数为)(1i ni x F =∏(2)若总体X 的密度函数为p (x ),则其样本的联合密度为)(1i ni x p =∏(3)若总体X 的分布列为 )(i x p ,则其样本的联合分布列为)(1i ni x p =∏(4)对有限总体不放回抽样,若总体中有几个个体,抽取样本容量为n ,当N n << (1.0≤Nn)时,不放回抽样得到的样本可认为是简单随机样本. 例5.1.5 设有一批产品共N 个,需进行抽样检验以了解其不合格品率p ,现从中抽出n个逐一检查它们是否是不合格品,记合格品为0,不合格品为 1.则总体为一个二点分布:p X P p X P -1)0(,1(====).设 1,...,n x x 为该总体的一个样本,采用不放回抽样得到.这时,第二次抽到不合格品的概率依赖于第一次抽到的是否是不合格品:11)11(12--===N Np x x P 1)01(12-===N Npx x P但当N 很大时,上述两个概率近似都等于p ,所以当N 很大,而n 不大时,不放回抽样得到的样本可近似看成简单随机样本.§5.2样本数据的整理与显示教学目的:要求学生熟练掌握样本数据整理与显示的常用方法.教学重点:熟练掌握求经验分布函数的方法,会用直方图和茎叶图的方法求频率分布. 教学难点: 样本数据整理与显示的常用方法的灵活应用.教学内容:本节内容包括经验分布函数,频数频率分布表,直方图和茎叶图. 5.2.1 经验分布函数定义 设n x x x ,,,21 是取自总体分布函数为)(x F 的样本,若将样本观测值从小到大进行排列为)()2()1(,,,n x x x ,则)()2()1(n x x x ≤≤为有序样本,如下函数(1)()(1)()0,(),,1,2,,11,n k k n x x kF x x x x k n n x x +<⎧⎪⎪=≤<=-⎨⎪⎪>⎩当当当称为经验分布函数.显然,)(x F n 是单调非降右连续的跳跃函数(阶梯函数),在点*k x x =处有间断,在每个间断点的跃度为),,3,2,1,1n k n=(,且1)(0≤≤x F n ,0)(lim =-∞→x F n x ,1)(lim =+∞→x F n x ,它满足分布函数的三个性质,所以必是一个分布函数.例5.2.1某食品厂生产听装饮料,现从生产线上随机抽取5听饮料,称得其净重为:351 347 355 344 351,求此样本的经验分布函数.略.例 某厂从一批荧光灯中抽出10个,测其寿命的数据(单位千时)如下:95.5, 18.1, 13.1, 26.5, 31.7, 33.8, 8.7, 15.0, 48.8, 48.3求该批荧光灯寿命的经验分布函数)(x F n (观察值).解:将数据由小到大排列得:8.7,13.1,15.0,18.1,26.5,31.7,33.8,48.8,49.3,95.5, 则经验分布函数为:⎪⎪⎪⎪⎪⎪⎪⎩⎪⎪⎪⎪⎪⎪⎪⎨⎧=19.08.07.06.05.04.03.02.01.00)(x F n 5.955.953.493.498.488.488.338.337.317.315.265.261.181.180.150.151.131.137.87.8≥<≤<≤<≤<≤<≤<≤<≤<≤<≤<x x x x x x x x x x x 经验分布函数的性质01 对每一个固定的x ,)(x F n 是事件“X x ≤”发生的频率,当n 固定时,)(x F n 是样本的函数,是一个随机变量,且)()(x F x F Pn −→−.02定理5.2.1(格里纹科定理):设n x x x ,,,21 是取自总体分布函数为)(x F 的样本,)(x F n 是经验分布函数,有1)0)()(sup lim (==-+∞<<∞-∞→x F x F P n x n .注 此定理表明,当n 相当大时,经验分布函数是总体分布函数的一个良好的近似.5.2.2 频数频率分布表样本数据的整理是统计研究的基础,整理数据的最常用方法之一是给出其频数分布表或频率分布表,其基本步骤是:1、对样本进行分组:首先确定组数k ,作为一般性原则,组数通常在5-20个.对容量较小的样本,通常将其分为5组或6组,容量为100左右的样本可分7到10组,容量在200左右的样本可分9~13组,容量为300左右级以上的样本可分12到20组.2、确定每组组距:每组组距可以相同也可以不同.但实际中常选用长度相同的区间,以d 表示组距.3、确定每组组限.4、统计样本数据落入每个区间的个数——频数,并列出其频数频率分布表. 具体例子略.5.2.3 样本数据的图形显示:常用的样本数据的图形显示主要有直方图和茎叶图,具体例子略.设),,,(21n X X X 为来自总体X 的一个样本,其样本观察值为),,,(21n x x x ,将该组数值n x x x ,,,21 分成l 组,可作分点:l a a a a ,,,,210 (各组距可以不相等),则各组为:(0a ,1a ],(1a ,2a ],……,(1-l a ,l a ],若样本观察值中每个数值落在各组中的频数分别为1m ,2m ,3m ,…,l m ,则频率分别为:n m 1,nm2……n m l ;以各组为底边,以相应组的频率除以组距为高,建立l 个小矩形,即得总体X 的直方图.由上分析可知:直方图中每一矩形的面积等于相应组的频率设总体X 的密度函数为)(x f ,则:总体X (真实值)落在第k 组(1-k a ,k a ]的概率为:⎰-kk a a dx x f 1)(.由伯努利大数定理可知:当n 很大时,样本观察值(单个)落在该区间的频率趋近于此概率;即:(1-k a ,k a ]上矩形的面积接近于)(x f 在此区间上曲边梯形的面积,当n 无限增大时,分组组距越来越小,直方图就越接近总体X 的密度函数)(x f 的图象.(这与定积分的意义具有同样的道理).§5.3统计量及其分布教学目的:理解数理统计的基本概念:统计量,熟练掌握样本均值、样本方差、样本原点矩、样本中心矩等常用统计量的计算公式,掌握次序统计量及其抽样分布.教学重点:样本均值、样本方差、样本原点矩、样本中心矩等常用统计量的求法;次序统计量的抽样分布.教学难点:次序统计量的抽样分布.教学内容:本节内容包括统计量与抽样分布,样本均值及其抽样分布,样本方差与标准差,样本矩及其函数,次序统计量及其分布,样本分位数与中位数5.3.1 统计量与抽样分布样本来自总体,含有总体各方面的信息,但这些信息较为分散,有时不能直接利用.为将这些分散的信息集中起来以反映总体的各种特征,需要对样本进行加工,最常用的加工方法是构造样本的函数,为此:定义5.3.1 设n x x x ,,,21 为取自某总体的样本,若样本函数),,(1n x x T T =中不含有任何未知参数,则称T 为统计量,统计量的分布为抽样分布.按上述定义:设n x x x ,,,21 为样本,则211,i ni i n i x x ==∑∑都是统计量,当2,σμ未知时,σμ11,x x -等都不是统计量.注 统计量不依赖于未知参数,但其分布一般是依赖于未知参数的.5.3.2 样本均值及其抽样分布样本均值、样本方差、样本k 阶矩及k 阶中心矩 定义5.3.2 设n x x x ,,,21 是来自某总体的样本.称∑==ni i x n x 11 为样本均值∑=-=ni i x x n S12*)(12为样本方差 2**SS = 为样本标准差∑=--=ni i x x n S 122)(11 为样本(无偏)方差 2S S = 为样本(无偏)标准差∑==n i ki k x n a 11 为样本k 阶(原点)矩∑=-=ni k i k x x n b 1)(1为样本k 阶中心矩注(1)∑=--=n i i x x n S 122)(11=][11122∑=--ni ix n x n (2)在分组样本场合下:若i x 为第i 组的组中值,i f 为该i 组的个数,k 为组数,则∑==++=ki i k k f n n f x f x x 111,其中 .∑=--=k i i i x x f n S 122)(11=][11122∑=--k i ii x n x f n . 例 从某班级的英语期末考试成绩中,随机抽取10名同学的成绩分别为:100,85,70,65,90,95,63,50,77,86(1)试写出总体,样本,样本值,样本容量;(2)求样本均值,样本方差及二阶原点矩.解:(1)总体:该班级所有同学的英语期末考试成绩X ;样本:(1X ,2X ,3X ,…,10X )样本值:)x ,,x ,x (n 21=(100,85,70,65,90,95,63,50,77,86) 样本容量:n =10(2)101111010ii x x ===∑(100+85+……+86)=78.1 22222111()[21.9 6.97.9]252.519n ii s x x n ==-=+++=-∑10222222211111(100857086)6326.91010n i i i i a x x n =====++++=∑∑次序统计量定义 5.3.7设n x x x ,,,21 是取自总体X 的样本,将其从小到大排序得到(1)(2)()n x x x ≤≤≤.定义)(i X :不论n x x x ,,,21 取怎样的一组观测值,)(i X 总取()i x 为其观测值,称)(i X 为第i 个次序统计量,从而有)()2()1(n X X X ≤≤.{}i ni X X ≤≤=11min ,{}i ni n X X ≤≤=1)(max 分别称为样本的最小、最大次序统计量.注 样本n x x x ,,,21 独立同总体分布,但)()2()1(,,,n X X X 既不独立又不同分布. 三、统计量X 与2S 的性质 定理5.3.1 0)(1=-∑=ni ix x.证明 略.定理 5.3.2数据观察值与均值的偏差平方和最小,即在形如∑=-ni ic x12)(的函数中,∑=-ni ix x12)(最小,其中c 为任意给定常数.证明 略.定理5.3.3 设n x x x ,,,21 是来自某个总体X 的样本,x 为样本均值.1) 若总体分布为),(2σμN ,则x 的精确分布为)1,(2σμnN .2) 若总体分布未知或不是正态分布,但2)(,)(σμ==X Var X E ,则n 较大时的渐近分布为)1,(2σμn N ,记为x .~)1,(2σμnN .证明 略.例5.3.3 略.定理 5.3.4 设总体X 具有二阶矩,即2)(,)(σμ==X Var X E <∞+, n x x x ,,,21 为从该总体中得到的样本,x 和2s 分别是样本均值与样本方差,则22211()(),()(),(s )()E x E X Var x Var X E Var X n nμσσ======.证明 略.5.3.5 次序统计量及其分布定义 5.3.7 设n x x x ,,,21 是来自总体为X 的一个样本,将其由小到大排序为(1)(2)()n x x x ≤≤≤,(若i x =j x 则其先、后次序可任意排),称i x 为该样本的第i 个次序统计量.特别地,称(1)=1min()i i nx x ≤≤ 为最小次序统计量,(n)=1max()i i nx x ≤≤为最大次序统计量.单个次序统计量的分布定理5.3.5 设总体X 的密度函数为()p x ,分布函数为()F x ,n x x x ,,,21 为样本,则第k 个次序统计量()k x 的密度函数为-1-!()=(())(1-())()(k-1)!(n-k)!k n k k n p x F x F x p x .例5.3.7 利用定理5.3.5 ,先求出(2)x 的密度函数为(2)()p x ,再求概率(2)1(<)2P x 多个次序统计量的联合分布定理5.3.6 设总体X 的密度函数为()p x ,分布函数为()F x ,n x x x ,,,21 为样本,次序统计量(i),)(<)x x i j (的联合密度函数为i-1j -i-1-!(y,z )=((y ))((z )-F(i -1)!(j-i -1)!(n -j)!n j ij n p F F F z p ≤. 例5.3.9 略§5.4三大抽样分布教学目的:掌握2χ分布,-F 分布,-t 分布的定义,分位数的定义及性质,会查分位数表 教学重点:三大分布的定义,性质 及应用 教学难点:三大分布的性质教学内容:本节内容包括2χ分布,-F 分布,-t 分布及一些重要结论.5.4.1 2χ分布(卡方分布)定义5.4.1设n X X X ,,,21 独立同标准正态分布)1,0(N ,则∑==ni iX122χ的分布称为自由度为n 的2χ分布,记为)(~22n χχ.)(2n χ的密度函数为:112221()2()2n x n p x xen --=Γ,x >0.性质1 可加性 若)(~),(~22m Y n X χχ且X 与Y 独立,则.)(~2n m Y X ++χ.类似的,若k X X X ,,,21 相互独立,分别服从,,,2,1),(2k i n i =χ 可以证明:)(~121∑∑==ki i ki in x X2 若)(~2n X χ, 则 n X E =)(,()2Var X n =证明:设n X X X ,,,21 为独立同分布于)1,0(N 的随机变量,则X 与∑=nj jX12同分布,且∑∑∑=======ni ni i ini in X D X E X E X E 11212)()()()(又由i X 独立并注意到)1,0(N 的四阶矩为3,可得∑∑∑====-=-==ni n i n i iiin X E X E X Var X Var 11122422)13(]))(()([)()(32χ分布的分位数定义 若)(~22n χχ,对给定的α,10<<α,称满足αχχα-=≤-1))((212n P的)(21n αχ-是自由度为n 的2χ分布的α-1分位数.2χ分布的上α分位数已制成表格.如10,01.0==n α,则查表可得209.23)(201.0=n χ,又如6,005.0==n α,则548.18)6(2005.0=χα图6-2 分布的上 分位点-2χα注1 要会查2χ分位数.2 -t 分布、-F 分布仍有相应的分位数定义.5.4.2 -F 分布定义5.4.2 设2212~(),~()X m X n χχ,且X 与Y 独立,则称12//X mF X n=的分布为自由度为(,)m n 的F 分布,记为~(,)F F m n ,,m n 分别为分子、分母的自由度.(,)F m n 的密度函数可由商的分布来推导,此处略. F 分布的上α分位点,我们称满足{}ααα==>⎰+∞),()(),(m n Fdy y f m n F F P的点),(m n F α为),(m n F 分布的上α分位点.性质 (1)若),(~1),,(~m n F Fn m F F 则. (2)),(1),(1m n F n m F αα=-.事实上,设~(,)F F m n ,则 ),,(~1m n F F且{},),(111),(111),(11),(⎭⎬⎫⎩⎨⎧≥-=⎭⎬⎫⎩⎨⎧≥-=⎭⎬⎫⎩⎨⎧≤=≥=m n F F P m n F F P m n F F P m n F F P ααααα于是αα-=⎭⎬⎫⎩⎨⎧≥1),(11m n F F P , 由α分位点的定义,显然α图6-7 F 分布的上 分布点α),(1),(1m n F n m F αα=- 成立. 例5.4.1 利用公式),(1),(1m n F n m F αα=-查表即可. 5.4.3 t —分布定义5.4.3 设212~(0,1),~()X N X n χ,且1X 与2X 相互独立,则称随机变量T =服从自由度为n 的t 分布,记为)(~n t T .t 分布的密度可由商的分布公式来推导,此处略,但必须注意:注 (1)、);(n x t 关于0=x 对称;(2)、);(n x t 在0=x 达最大值;(3)、);(n x t 以x 轴为水平渐近线;(4)、2221),(lim x x e n x t -∞→=π;即∞→n 时,t 分布)1,0(N →,一般地,当n >30时,t 分布与)1,0(N 非常接近.(5)若)(~n t T ,则1>n 时,()0;2,()2n E T n Var T n =>=-时 性质(1) 若),1(~),(~2n F t n t t 则;(2)1()().t n t n αα-=-补例 求下列上分位数:(1) 分位数的为其中。