1-4 次序统计量
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
当 ( X 1 , X 2 ,L , X n ) 取值为 ( x1 , x 2 ,L , x n ) 时 , 定义 X ( k ) 取 值为 x( k ) (k = 1,2,L, n), 由此得到的 ( X (1) , X (2) ,L, X ( n ) ) 称为 次序统计量。 样本 ( X 1 , X 2 ,L , X n )的次序统计量。
6
定理 设总体 X 的分布密度为 f(x)(分布函数为 F(x)), ( ),
X 1 , X 2 ,L , X n 为其样本,则次序统计量的分布密度为 为其样本,
( X (1) , X ( n ) ) 的联合分布密度为
n(n − 1)[ F ( y ) − F ( x)]n−2 f ( x) f ( y ), x < y, f ( X (1) , X ( 2 ) ) ( x, y ) = 0, x ≥ y,
而样本均值为: 而样本均值为:
1 6 x = ∑ xi = 36.5; 6 i =1
15
个数, 样本均值 x 大于样本值 6 个数中的 5 个数,这 比其它值大许多, 是因为样本值 65 比其它值大许多,可见样本均值 对异常值或极端值较敏感, 对异常值或极端值较敏感,而样本中位数则不受异 常值影响,所以有时候估计总体均值用样本中位数 常值影响, 比用样本均值效果更好。 比用样本均值效果更好。
§ 1.4
一 次序统计量
次序统计量及其分布
中抽取的一个样本, 设 ( X 1 , X 2 ,L , X n )是从总体 X 中抽取的一个样本, 为样本的一个观测值, 记 ( x1 , x2 ,L , xn )为样本的一个观测值,将观测值的各 个分量按由小到大的递增序列重新排列为
x(1) ≤ x(2) ≤ L ≤ x( n ) .
由于次序统计量的每一个分量 X(k ) 都是样本
( X , X ,L, X )的函数,所以 X(1) , X(2) ,L, X(n) 也都是随机 的函数, 变量。 是相互独立的, 变量。样本( X , X ,L, X )是相互独立的,但其次序统
1 2 n 1 2 n
一般不是独立的。 计量( X(1) , X(2) ,L, X(n) ) 一般不是独立的。
1
显然有
X (1) ≤ X (2) ≤ L ≤ X ( n )
称为最小次序统计量 它的值 x(1) 是样本 最小次序统计量, 其中 X (1) = min X i 称为最小次序统计量, 1≤i≤n 值中最小的一个; 称为最大次序统计量 最大次序统计量, 值中最小的一个;而 X (n) = max X i 称为最大次序统计量, 1≤i≤n 是样本值中最大的一个。 它的值 x(n) 是样本值中最大的一个。
X 1 , X 2 ,L , X n 为其样本,则次序统计量的分布密度为 为其样本,
( X (1) , X (2) ,L, X ( n ) ) 的联合分布密度为
n n!∏ f ( yi ), y1 < y2 < L < yn f ( y1 , y2 ,L, yn ) = i =1 0, 其他
它的值为
x n +1 , n 奇 ( ) 2 % x = 1 [ x n + x n + 1 ], n 偶 ( ) ( ) 2 2 2
10
样本中位数与样本均值一样是刻划样本位置特征的 量,而且样本中位数的计算方便并不受样本异常值 的影响,所以有时比样本均值更有代表性。 的影响,所以有时比样本均值更有代表性。
(2). 样本的众数适用于离散的总体
12
表示“变差”的统计量: 2. 表示“变差”的统计量: 样本方差(或标准差) 样本方差(或标准差)、极差 样本极差定义为 样本极差定义为
R = X ( n ) − X (1) = max X i − min X i ,
1≤i ≤ n 1≤i ≤ n
它的值为
r = x( n ) − x(1) = max xi − min xi ,
16
乙同学毕业后求职于一家公司。总经理说, 例 乙同学毕业后求职于一家公司。总经理说, 公司平均月薪是 3000 元。一个月后乙同学得到 工资1000元,据了解,公司共有21人,和自己 元 据了解,公司共有 人 工资 职位相同的业务员共有 10 人,每人的月薪都是 1000 元。应该如何理解乙同学的遭遇 ? 总经理 15,000 ;两个副总经理每人 8,000 ; , , 3 个部门经理每人 4000;5 个财务等行政人员 ; 每人 2000;10 个业务员每人 1000 。 ; 一共 21 人,每月支出工资 63,000。 , 。 平均值 3000,中位数 2000,众数 1000,极差 14,000 , , , ,
定理
证明
次序统计量是充分统计量。 次序统计量是充分统计量。
当给定 X (1) = x(1) ,L , X ( n ) = x( n ) 时 , 由于 X 1 , X 2 ,L , X n
1 n!
独立同分布, 独立同分布 ,所以
P( X i1 = x(1) ,L, X in = x( n ) ) =
此条件分布与总体分布无关,故次序统计量是充分统计量。 此条件分布与总体分布无关,故次序统计量是充分统计量。
众数定义 样本数据中出现次数最多的样本,例如: 样本数据中出现次数最多的样本,例如: 1, { 1 ,1 ,3 ,3 ,4 ,2 ,3 ,8 } 3
11
Remark (1). 中位数比样本均值更为稳健,当二者相差不大时 中位数比样本均值更为稳健, 常采用样本均值表示数据平均,否则应该用中位数。 常采用样本均值表示数据平均,否则应该用中位数。
14
从总体中抽取容量为6的样本 的样本, 例 从总体中抽取容量为 的样本,测得样本值为 32, 65, 28, 35, 30, 29, 由小到大排列为 28, 29, 30, 32, 35, 65; ; 则样本中位数为: 则样本中位数为:
% = 1 [ x + x ] = 31; x (3) (4) 2
特别,最小次序统计量 X (1) 和最大次序统计量 X ( n ) 的分布 和最大次序统计量 特别, 密度为
f X (1) ( x) = n[1 − F ( x)]n−1 f ( x), f X ( n ) ( x) = n[ F ( x)]n−1 f ( x).
5
定理 设总来自百度文库 X 的分布密度为 f(x)(分布函数为 F(x)), ( ),
9
中位数定义
设 X 1 , X 2 ,L , X n ) ( 是总体 X 中的样本 , ( X (1) , X (2) ,L, X ( n ) ) 为其次序统计量, 为其次序统计量,则样本中位数定义为
X n +1 , n 奇 ( ) 2 X = 1 [ X n + X n + 1 ], n 偶 ( ) ( ) 2 2 2
17
例 关于正确解释统计数据 下面是某高速公路上发生的交通事故有关数据: 下面是某高速公路上发生的交通事故有关数据: 速度 km / h 数量 小于 70 12 70 ~ 180 32 大于 180 3
丙同学由此得出结论说:统计数据显示, 丙同学由此得出结论说:统计数据显示, 在高速公路上,汽车速度越高,也就越安全。 在高速公路上,汽车速度越高,也就越安全。 实际上绝大多数的汽车行驶速度都在 70 ~ 180 , 因此发生事故的次数也就多。 因此发生事故的次数也就多。
18
3
4
定理 设总体 X 的分布密度为 f(x)(分布函数为 F(x)), ( ),
X 1 , X 2 ,L , X n 为样本,则第 k 个次序统计量 X ( k ) 的分布 为样本,
密度为
n! f X ( k ) ( x) = [ F ( x)]k −1[1 − F ( x)]n−k f ( x), k = 1,2,L, n. (k − 1)!(n − k )!
米的小河中淹死了,他觉得不可思议。 平均水深为 1 米的小河中淹死了,他觉得不可思议。 这件事情是否是一个玩笑? 这件事情是否是一个玩笑?
8
思考2. 一位统计学家把一只脚放进 100℃ 的开水里, 思考 ℃ 的开水里, 另一只脚放进冰水中。然后宣布:现在, 另一只脚放进冰水中。然后宣布:现在,在平均值的 意义上,我感觉很舒服。 意义上,我感觉很舒服。
2
定义
样本 X 1 , X 2 ,L , X n 按由小到大的顺序重排为
X (1) ≤ X (2) ≤ L ≤ X ( n )
为样本( 则称 ( X (1) , X (2) ,L, X ( n ) ) 为样本( X 1 , X 2 ,L , X n )的次序统计 个次序统计量。 量, X ( k ) 称为样本的第 k 个次序统计量。
7
1. 表示“平均”的统计量: 表示“平均”的统计量: 样本均值、中位数、 样本均值、中位数、众数 关于平均值 平均值的理解 例 关于平均值的理解 样本均值是人们采用最多的一种描述数据的方法, 样本均值是人们采用最多的一种描述数据的方法, 它反映了一组数据整体上的一些信息, 它反映了一组数据整体上的一些信息,然而容易掩盖 一些极端的情况, 一些极端的情况,所以有时候样本均值不一定合理 。 思考1. 思考 甲同学听说, 甲同学听说,有个身高 1.75 米的成年人在
1≤i ≤ n 1≤i ≤ n
样本极差与样本方差一样是反映样本值变化幅 度或离散程度的数字特征, 而且计算方便, 度或离散程度的数字特征 , 而且计算方便 , 所 以在实际中有广泛的应用。 以在实际中有广泛的应用。
13
Remark (1). 极差计算简单,但是不如样本标准差稳健。 极差计算简单,但是不如样本标准差稳健。 (2). 对于大多数单峰对称分布,标准差大约 对于大多数单峰对称分布, 等于极差的四分之一。 等于极差的四分之一。 (3). 大多数情况下,数据基本上落在“均值±2个 大多数情况下,数据基本上落在“均值± 个 标准差”的区间内,否则这个数据就被认为是 标准差”的区间内, 异常的大或异常的小。 异常的大或异常的小。 在绝大多数情况下, 在绝大多数情况下,一组正常的数据基本上 落在“均值± 个标准差 的区间内。 个标准差” 落在“均值±3个标准差”的区间内。
6
定理 设总体 X 的分布密度为 f(x)(分布函数为 F(x)), ( ),
X 1 , X 2 ,L , X n 为其样本,则次序统计量的分布密度为 为其样本,
( X (1) , X ( n ) ) 的联合分布密度为
n(n − 1)[ F ( y ) − F ( x)]n−2 f ( x) f ( y ), x < y, f ( X (1) , X ( 2 ) ) ( x, y ) = 0, x ≥ y,
而样本均值为: 而样本均值为:
1 6 x = ∑ xi = 36.5; 6 i =1
15
个数, 样本均值 x 大于样本值 6 个数中的 5 个数,这 比其它值大许多, 是因为样本值 65 比其它值大许多,可见样本均值 对异常值或极端值较敏感, 对异常值或极端值较敏感,而样本中位数则不受异 常值影响,所以有时候估计总体均值用样本中位数 常值影响, 比用样本均值效果更好。 比用样本均值效果更好。
§ 1.4
一 次序统计量
次序统计量及其分布
中抽取的一个样本, 设 ( X 1 , X 2 ,L , X n )是从总体 X 中抽取的一个样本, 为样本的一个观测值, 记 ( x1 , x2 ,L , xn )为样本的一个观测值,将观测值的各 个分量按由小到大的递增序列重新排列为
x(1) ≤ x(2) ≤ L ≤ x( n ) .
由于次序统计量的每一个分量 X(k ) 都是样本
( X , X ,L, X )的函数,所以 X(1) , X(2) ,L, X(n) 也都是随机 的函数, 变量。 是相互独立的, 变量。样本( X , X ,L, X )是相互独立的,但其次序统
1 2 n 1 2 n
一般不是独立的。 计量( X(1) , X(2) ,L, X(n) ) 一般不是独立的。
1
显然有
X (1) ≤ X (2) ≤ L ≤ X ( n )
称为最小次序统计量 它的值 x(1) 是样本 最小次序统计量, 其中 X (1) = min X i 称为最小次序统计量, 1≤i≤n 值中最小的一个; 称为最大次序统计量 最大次序统计量, 值中最小的一个;而 X (n) = max X i 称为最大次序统计量, 1≤i≤n 是样本值中最大的一个。 它的值 x(n) 是样本值中最大的一个。
X 1 , X 2 ,L , X n 为其样本,则次序统计量的分布密度为 为其样本,
( X (1) , X (2) ,L, X ( n ) ) 的联合分布密度为
n n!∏ f ( yi ), y1 < y2 < L < yn f ( y1 , y2 ,L, yn ) = i =1 0, 其他
它的值为
x n +1 , n 奇 ( ) 2 % x = 1 [ x n + x n + 1 ], n 偶 ( ) ( ) 2 2 2
10
样本中位数与样本均值一样是刻划样本位置特征的 量,而且样本中位数的计算方便并不受样本异常值 的影响,所以有时比样本均值更有代表性。 的影响,所以有时比样本均值更有代表性。
(2). 样本的众数适用于离散的总体
12
表示“变差”的统计量: 2. 表示“变差”的统计量: 样本方差(或标准差) 样本方差(或标准差)、极差 样本极差定义为 样本极差定义为
R = X ( n ) − X (1) = max X i − min X i ,
1≤i ≤ n 1≤i ≤ n
它的值为
r = x( n ) − x(1) = max xi − min xi ,
16
乙同学毕业后求职于一家公司。总经理说, 例 乙同学毕业后求职于一家公司。总经理说, 公司平均月薪是 3000 元。一个月后乙同学得到 工资1000元,据了解,公司共有21人,和自己 元 据了解,公司共有 人 工资 职位相同的业务员共有 10 人,每人的月薪都是 1000 元。应该如何理解乙同学的遭遇 ? 总经理 15,000 ;两个副总经理每人 8,000 ; , , 3 个部门经理每人 4000;5 个财务等行政人员 ; 每人 2000;10 个业务员每人 1000 。 ; 一共 21 人,每月支出工资 63,000。 , 。 平均值 3000,中位数 2000,众数 1000,极差 14,000 , , , ,
定理
证明
次序统计量是充分统计量。 次序统计量是充分统计量。
当给定 X (1) = x(1) ,L , X ( n ) = x( n ) 时 , 由于 X 1 , X 2 ,L , X n
1 n!
独立同分布, 独立同分布 ,所以
P( X i1 = x(1) ,L, X in = x( n ) ) =
此条件分布与总体分布无关,故次序统计量是充分统计量。 此条件分布与总体分布无关,故次序统计量是充分统计量。
众数定义 样本数据中出现次数最多的样本,例如: 样本数据中出现次数最多的样本,例如: 1, { 1 ,1 ,3 ,3 ,4 ,2 ,3 ,8 } 3
11
Remark (1). 中位数比样本均值更为稳健,当二者相差不大时 中位数比样本均值更为稳健, 常采用样本均值表示数据平均,否则应该用中位数。 常采用样本均值表示数据平均,否则应该用中位数。
14
从总体中抽取容量为6的样本 的样本, 例 从总体中抽取容量为 的样本,测得样本值为 32, 65, 28, 35, 30, 29, 由小到大排列为 28, 29, 30, 32, 35, 65; ; 则样本中位数为: 则样本中位数为:
% = 1 [ x + x ] = 31; x (3) (4) 2
特别,最小次序统计量 X (1) 和最大次序统计量 X ( n ) 的分布 和最大次序统计量 特别, 密度为
f X (1) ( x) = n[1 − F ( x)]n−1 f ( x), f X ( n ) ( x) = n[ F ( x)]n−1 f ( x).
5
定理 设总来自百度文库 X 的分布密度为 f(x)(分布函数为 F(x)), ( ),
9
中位数定义
设 X 1 , X 2 ,L , X n ) ( 是总体 X 中的样本 , ( X (1) , X (2) ,L, X ( n ) ) 为其次序统计量, 为其次序统计量,则样本中位数定义为
X n +1 , n 奇 ( ) 2 X = 1 [ X n + X n + 1 ], n 偶 ( ) ( ) 2 2 2
17
例 关于正确解释统计数据 下面是某高速公路上发生的交通事故有关数据: 下面是某高速公路上发生的交通事故有关数据: 速度 km / h 数量 小于 70 12 70 ~ 180 32 大于 180 3
丙同学由此得出结论说:统计数据显示, 丙同学由此得出结论说:统计数据显示, 在高速公路上,汽车速度越高,也就越安全。 在高速公路上,汽车速度越高,也就越安全。 实际上绝大多数的汽车行驶速度都在 70 ~ 180 , 因此发生事故的次数也就多。 因此发生事故的次数也就多。
18
3
4
定理 设总体 X 的分布密度为 f(x)(分布函数为 F(x)), ( ),
X 1 , X 2 ,L , X n 为样本,则第 k 个次序统计量 X ( k ) 的分布 为样本,
密度为
n! f X ( k ) ( x) = [ F ( x)]k −1[1 − F ( x)]n−k f ( x), k = 1,2,L, n. (k − 1)!(n − k )!
米的小河中淹死了,他觉得不可思议。 平均水深为 1 米的小河中淹死了,他觉得不可思议。 这件事情是否是一个玩笑? 这件事情是否是一个玩笑?
8
思考2. 一位统计学家把一只脚放进 100℃ 的开水里, 思考 ℃ 的开水里, 另一只脚放进冰水中。然后宣布:现在, 另一只脚放进冰水中。然后宣布:现在,在平均值的 意义上,我感觉很舒服。 意义上,我感觉很舒服。
2
定义
样本 X 1 , X 2 ,L , X n 按由小到大的顺序重排为
X (1) ≤ X (2) ≤ L ≤ X ( n )
为样本( 则称 ( X (1) , X (2) ,L, X ( n ) ) 为样本( X 1 , X 2 ,L , X n )的次序统计 个次序统计量。 量, X ( k ) 称为样本的第 k 个次序统计量。
7
1. 表示“平均”的统计量: 表示“平均”的统计量: 样本均值、中位数、 样本均值、中位数、众数 关于平均值 平均值的理解 例 关于平均值的理解 样本均值是人们采用最多的一种描述数据的方法, 样本均值是人们采用最多的一种描述数据的方法, 它反映了一组数据整体上的一些信息, 它反映了一组数据整体上的一些信息,然而容易掩盖 一些极端的情况, 一些极端的情况,所以有时候样本均值不一定合理 。 思考1. 思考 甲同学听说, 甲同学听说,有个身高 1.75 米的成年人在
1≤i ≤ n 1≤i ≤ n
样本极差与样本方差一样是反映样本值变化幅 度或离散程度的数字特征, 而且计算方便, 度或离散程度的数字特征 , 而且计算方便 , 所 以在实际中有广泛的应用。 以在实际中有广泛的应用。
13
Remark (1). 极差计算简单,但是不如样本标准差稳健。 极差计算简单,但是不如样本标准差稳健。 (2). 对于大多数单峰对称分布,标准差大约 对于大多数单峰对称分布, 等于极差的四分之一。 等于极差的四分之一。 (3). 大多数情况下,数据基本上落在“均值±2个 大多数情况下,数据基本上落在“均值± 个 标准差”的区间内,否则这个数据就被认为是 标准差”的区间内, 异常的大或异常的小。 异常的大或异常的小。 在绝大多数情况下, 在绝大多数情况下,一组正常的数据基本上 落在“均值± 个标准差 的区间内。 个标准差” 落在“均值±3个标准差”的区间内。