1-4 次序统计量

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

16

乙同学毕业后求职于一家公司。总经理说, 公司平均月薪是 3000 元。一个月后乙同学得到 工资1000元,据了解,公司共有21人,和自己 职位相同的业务员共有 10 人,每人的月薪都是 1000 元。应该如何理解乙同学的遭遇 ? 总经理 15,000 ;两个副总经理每人 8,000 ; 3 个部门经理每人 4000;5 个财务等行政人员 每人 2000;10 个业务员每人 1000 。 一共 21 人,每月支出工资 63,000。 平均值 3000,中位数 2000,众数 1000,极差 14,000
n n! f ( yi ), y1 y2 yn f ( y1 , y2 ,, yn ) i 1 0, 其他
6
定理 1.21
设总体 X 的分布密度为 f(x)(分布函数为
F(x)), X 1 , X 2 ,, X n 为其样本, 则次序统计量的分布 密度为 ( X (1) , X ( n ) ) 的联合分布密度为
一些极端的情况,所以有时候样本均值不一定合理 。
思考1. 甲同学听说,有个身高 1.75 米的成年人在
平均水深为 1 米的小河中淹死了,他觉得不可思议。
这件事情是否是一个玩笑?
8
思考2. 一位统计学家把一只脚放进 100℃ 的开水里, 另一只脚放进冰水中。然后宣布:现在,在平均值的 意义上,我感觉很舒服。
2
定义
样本 X 1 , X 2 ,, X n 按由小到大的顺序重排为
X (1) X (2) X ( n )
则称 ( X (1) , X (2) ,, X ( n ) ) 为样本( X 1 , X 2 ,, X n )的次序统计 量, X ( k ) 称为样本的第 k 个次序统计量。
18
n(n 1)[ F ( y) F ( x)]n2 f ( x) f ( y ), x y, f( X (1) , X ( 2) ) ( x, y) 0, x y,
7
1. 表示“平均”的统计量: 样本均值、中位数、众数 例 关于平均值的理解 样本均值是人们采用最多的一种描述数据的方法, 它反映了一组数据整体上的一些信息,然而容易掩盖
特别,最小次序统计量X (1) 和最大次序统计量X ( n ) 的分布 密度为
f X (1) ( x) n[1 F ( x)]n1 f ( x), f X ( n ) ( x) n[ F ( x)]n1 f ( x).
5
定理 1.20
设总体 X 的分布密度为 f(x)(分布函数为
F(x)), X 1 , X 2 ,, X n 为其样本, 则次序统计量的分布 密度为 ( X (1) , X (2) ,, X ( n) ) 的联合分布密度为
由 于 次 序 统 计 量 的 每 一 个 分 量X ( k ) 都 是 样 本
X , X
1
X , X , , X , , X 的函数,所以 (1) (2) ( n ) 也都是随机 2 n
变量。样本 X 1 , X 2 , , X n 是相互独立的,但其次序统 计量 ( X (1) , X (2) ,, X ( n ) ) 一般不是独立的。
§ 1.4
一 次序统计量
次序统计量及其分布
设 X 1 , X 2 , , X n 是从总体 X 中抽取的一个样本, 记 x1 , x2 ,, xn 为样本的一个观测值,将观测值的各 个分量按由小到大的递增序列重新排列为
x(1) x(2) x( n) .
当 X 1 , X 2 , , X n 取值为 x1 , x2 ,, xn 时 , 定义 X ( k ) 取 值为 x( k ) (k 1, 2, , n), 由此得到的 ( X (1) , X (2) ,, X ( n ) ) 称为 样本 X 1 , X 2 , , X n 的次序统计量。
1
显然有
X (1) X (2) X ( n)
x X i 称为最小次序统计量, (1) 是样本 其中 X (1) min 它的值 1i n
X i 称为最大次序统计量, 值中最小的一个;而 X ( n ) max 1i n
它的值 x( n ) 是样本值中最大的一个。
由小到大排列为 28, 29, 30, 32, 35, 65; 则样本中位数为:
1 x [ x(3) x(4) ] 31; 2
而样本均值为:
1 6 x xi 36.5; 6 i 1
15
样本均值x 大于样本值 6 个数中的 5 个数,这 是因为样本值 65 比其它值大许多,可见样本均值 对异常值或极端值较敏感,而样本中位数则不受异 常值影响,所以有时候估计总体均值用样本中位数 比用样本均值效果更好。
17

关于正确解释统计数据
下面是某高速公路上发生的交通事故有关数据: 速度 km / h 数量 小于 70 12 70 ~ 180 32 大于 180 3
丙同学由此得出结论说:统计数据显示,
在高速公路上,汽车速度越高,也就越安全。
实际上绝大多数的汽车行驶速度都在 70 ~ 180 , 因此发生事故的次数也就多。
4
定理 1.19
设总体 X 的分布密度为 f(x)(分布函数为
F(x)), X 1 , X 2 ,, X n 为样本,则第 k 个次序统计量 X ( k ) 的分布密度为
n! f X ( k ) ( x) [ F ( x)]k 1[1 F ( x)]nk f ( x), k 1,2,, n. (k 1)!(n k )!
它的值为
x n 1 ,n奇 ( ) 2 x 1 ,n偶 [ x n x n 1 ] ( ) ( ) 2 2 2
10
样本中位数与样本均值一样是刻划样本位置特征的 量,而且样本中位数的计算方便并不受样本异常值 的影响,所以有时比样本均值更有代表性。
众数定义 样本数据中出现次数最多的样本,例如:
9
中位数定义
设 ( X 1 , X 2 , , X n ) 是总体 X 中的样本 , ( X (1) , X (2) , , X ( n ) ) 为其次序统计量,则样本中位数定义为
X n 1 ,n奇 ( ) 2 X 1 [ X n X n 1 ],n偶 ( ) ( ) 2 2 2
{ 1 ,1 ,3 ,3 ,4 ,2 ,3 , 8 }
3
11
Remark (1). 中位数比样本均值更为稳健,当二者相差不大时 常采用样本均值表示数据平均,否则应该用中位数。
(2). 样本的众数适用于离散的总体
12
2.
表示“变差”的统计量:
样本方差(或标准差)、极差
样本极差定义为
R X ( n ) X (1) max X i min X i ,
等于极差的四分之一。
(3). 大多数情况下,数据基本上落在“均值±2个 标准差”的区间内,否则这个数据就被认为是
异常的大或异常的小。
在绝大多数情况下,一组正常的数据基本上 落在“均值±3个标准差”的区间内。
14

从总体中抽取容量为6的样本,测得样本值为 32, 65, 28, 35, 30, 29,
定理
证明
次序统计量是充分统计量。
当给定 X (1) x(1) ,, X ( n ) x( n ) 时,由于X 1 , X 2 ,, X n
1 P( X i1 x(1) ,, X in x( n) ) n!
独立同分布,所以
此条件分布与总体分布无关,故次序统计量是充分统计量。
3
1i n 1i n
它的Baidu Nhomakorabea为
r x( n ) x(1) max xi min xi ,
1i n 1i n
样本极差与样本方差一样是反映样本值变化幅 度或离散程度的数字特征,而且计算方便,所 以在实际中有广泛的应用。
13
Remark
(1). 极差计算简单,但是不如样本标准差稳健。 (2). 对于大多数单峰对称分布,标准差大约
相关文档
最新文档