第3章数据分布特征的描述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章 数据分布特征的描述
统计数据
排序 分组 整理 表述
寻找 反映数据分布特征的代表值:
集中趋势;离散趋势
对统计数据进行排序、分组、整理,是对数据的 分布特征进行描述的一个基本方面,为进一步掌握数 据分布特征及其变化规律,以进行深入的分析,还需 找出反映数据分布特征的各个代表值。
统计学中刻划数据分布特征的最主要的代表有二: 数据分布的集中趋势与数据分布的离散程度。
例3:某水泥生产企业1995年产水泥100万吨, 1996、1997、1998年的水泥产量分别上一年增长9%、 16%与20%,则1996~1998年的年均增长率为:
GM 3 109 % 116 % 120 % 114 .91%
二、中位数(Median)
中位数是一组数据按大小排序后,处于中间位置 上的变量值。
如:有一组关于病人进入“救助”活动的时间长 度的数据:
67个样本:时间长度从1天到185天。
除了对该组数据进行频数方面的描述和分析外, 下面的统计方法在描述数据分布特征及分析方面也很 重要:
均值(mean):35.7天; 中位数(median):17天; 众数(Mode):1天
Interpretation: (1) the average time a patient stays in the Program
1、 对于未分组数据:
(1)如果数据个数为奇数,则中位数恰为处于中 间位置的数:
M e X N 1 2
(2)如果数据个数为偶数,则为中间位置两个数 的平均数
Me
1 2
X
N 2
X
N 2
1
班级规模例中:按升序排出的5个统计数为: 32、42、46、46、54
则中位数为:46
大学毕业生起薪例中:按升序排出的12个统计数 为:
例:美国一家具有福利院性质的医院(Barnes Hospital)。
为了改善
救
频临死亡的病人 助
及其家庭的
活
生活质量
动
“服务队”: 医生
家庭健康保健员 社会工作者 受训志愿者
给予 病人及 家庭一些 指导 帮助
减轻由于 疾病、 分离等而 引起的 精神紧张
该项活动中,每月都有数据统计及分析以用来进 行该项活动的调整与实施。
均值容易受到统计数据中个别极端数据的影响, 从而使均值代表某组统计数据的“平均水平”时失 去意义,这时往往用“剔除极端值”的方法加以修 正。
如例2中,如果将月薪2825的最高值用10000代替, 则均值为3038
2、几何平均数
(1)几何平均数是N个变量值乘积的N次方根:
N
GM N X1 X 2 X N N X i i 1
第一节 分布集中趋势的测度
集中趋势是指一组数据向某一中心值靠拢的倾向, 测度集中趋势就是寻找数据一般水平的代表值或中心 值。
一、均值(Mean)
均值就是一组数据的平均值(average value),用来测 度中心位置(central location)。
1、简单算术平均
n
对样本:
x x1 x2
1
2350
5
2255
9
2440
2
2450
6
2210
10
2852
3
2550
7
2390
11
2428
ቤተ መጻሕፍቲ ባይዱ
4
2380
8
2630
12
2380
未分组时的算术平均值为:2440
算术均值具有如下性质:
(1)各变量值与其均值的离差和为零:
N
X
i
X
0
i 1
(2)各变量值与其均值的离差平方和最小:
N
X
i
2
X
min
▲注意: i1
Table 1, Monthly Starting Salaries for a Sample of 12 College Graduates
Graduates Monthly Graduates Monthly Graduates Monthly
Salary($)
Salary($)
Salary($)
is 35.7 days, or slightly over a month; (2)half of the patients are in the Program 17 days
or less and half are in the Program 17 days or more; (3) many patients have a short day in the Program.
例1:一组大学班级人数规模的数据(5个班)如下:46、 54、42、46、32
在未分组的情况下,其均值为:44。
如果分成如下组别:I:32,II:42,III:46、46,IV:54
则其均值为: x 321 421 46 2 541 44
11 21
例2:(美国)一个关于大学生毕业后工作起薪的 问卷调查:
xn
xi
i 1
n
n
其中n为样本数
n
对总体:
X
X1 X 2
Xn
Xi
i 1
N
N
其中N为总体单位数
2、加权算术平均
n
X
X 1 F1 X 2 F2
X n Fn
X i Fi
i 1
F1 F2 Fn
n
Fi
i 1
其中Fi为权数
加权算术平均往往适用于对分组后的数据求均值,这时Xi 为各组变量代表值(往往取组中值),Fi 为各组变量值出现 的频数。
2210 2255 2350 2380 2380 2390 2420 2440 2450 2550 2630 2825 则中位数为:
M e 2390 2420 2 2405
▲注意:
由于均值容易受到统计数据中个别极端数据 的影响,从而使均值代表某组统计数据的“平 均水平”时失去意义,这时用中位数代替均值 则更有意义。
如,在大学生毕业工作起薪的例中,如果原 统计数中最高薪金由2825换为10000,则得到 平均薪金为3038的结论,显然与其他11位均在 2000多的薪水水平不符,但这时若用中位数 2405,显然更具代表意义。
2、对于分组后的数据:
首先需确定中位数所在的组,然后可根据下列公式计算中位数:
上述班级人数规模例中,几何平均数为:43.37 可看出:几何平均数 < 算术平均数。
(2)加权几何平均数:
G X X X F1F2 FN
F1 F2
FN
M
12
N
其中Fi为Xi的权数。
几何平均数的对数是各变量值对数的算术平均:
1 N
log GM
N
( log X i )
i 1
•几何平均主要用于计算比率或速度的平均。
统计数据
排序 分组 整理 表述
寻找 反映数据分布特征的代表值:
集中趋势;离散趋势
对统计数据进行排序、分组、整理,是对数据的 分布特征进行描述的一个基本方面,为进一步掌握数 据分布特征及其变化规律,以进行深入的分析,还需 找出反映数据分布特征的各个代表值。
统计学中刻划数据分布特征的最主要的代表有二: 数据分布的集中趋势与数据分布的离散程度。
例3:某水泥生产企业1995年产水泥100万吨, 1996、1997、1998年的水泥产量分别上一年增长9%、 16%与20%,则1996~1998年的年均增长率为:
GM 3 109 % 116 % 120 % 114 .91%
二、中位数(Median)
中位数是一组数据按大小排序后,处于中间位置 上的变量值。
如:有一组关于病人进入“救助”活动的时间长 度的数据:
67个样本:时间长度从1天到185天。
除了对该组数据进行频数方面的描述和分析外, 下面的统计方法在描述数据分布特征及分析方面也很 重要:
均值(mean):35.7天; 中位数(median):17天; 众数(Mode):1天
Interpretation: (1) the average time a patient stays in the Program
1、 对于未分组数据:
(1)如果数据个数为奇数,则中位数恰为处于中 间位置的数:
M e X N 1 2
(2)如果数据个数为偶数,则为中间位置两个数 的平均数
Me
1 2
X
N 2
X
N 2
1
班级规模例中:按升序排出的5个统计数为: 32、42、46、46、54
则中位数为:46
大学毕业生起薪例中:按升序排出的12个统计数 为:
例:美国一家具有福利院性质的医院(Barnes Hospital)。
为了改善
救
频临死亡的病人 助
及其家庭的
活
生活质量
动
“服务队”: 医生
家庭健康保健员 社会工作者 受训志愿者
给予 病人及 家庭一些 指导 帮助
减轻由于 疾病、 分离等而 引起的 精神紧张
该项活动中,每月都有数据统计及分析以用来进 行该项活动的调整与实施。
均值容易受到统计数据中个别极端数据的影响, 从而使均值代表某组统计数据的“平均水平”时失 去意义,这时往往用“剔除极端值”的方法加以修 正。
如例2中,如果将月薪2825的最高值用10000代替, 则均值为3038
2、几何平均数
(1)几何平均数是N个变量值乘积的N次方根:
N
GM N X1 X 2 X N N X i i 1
第一节 分布集中趋势的测度
集中趋势是指一组数据向某一中心值靠拢的倾向, 测度集中趋势就是寻找数据一般水平的代表值或中心 值。
一、均值(Mean)
均值就是一组数据的平均值(average value),用来测 度中心位置(central location)。
1、简单算术平均
n
对样本:
x x1 x2
1
2350
5
2255
9
2440
2
2450
6
2210
10
2852
3
2550
7
2390
11
2428
ቤተ መጻሕፍቲ ባይዱ
4
2380
8
2630
12
2380
未分组时的算术平均值为:2440
算术均值具有如下性质:
(1)各变量值与其均值的离差和为零:
N
X
i
X
0
i 1
(2)各变量值与其均值的离差平方和最小:
N
X
i
2
X
min
▲注意: i1
Table 1, Monthly Starting Salaries for a Sample of 12 College Graduates
Graduates Monthly Graduates Monthly Graduates Monthly
Salary($)
Salary($)
Salary($)
is 35.7 days, or slightly over a month; (2)half of the patients are in the Program 17 days
or less and half are in the Program 17 days or more; (3) many patients have a short day in the Program.
例1:一组大学班级人数规模的数据(5个班)如下:46、 54、42、46、32
在未分组的情况下,其均值为:44。
如果分成如下组别:I:32,II:42,III:46、46,IV:54
则其均值为: x 321 421 46 2 541 44
11 21
例2:(美国)一个关于大学生毕业后工作起薪的 问卷调查:
xn
xi
i 1
n
n
其中n为样本数
n
对总体:
X
X1 X 2
Xn
Xi
i 1
N
N
其中N为总体单位数
2、加权算术平均
n
X
X 1 F1 X 2 F2
X n Fn
X i Fi
i 1
F1 F2 Fn
n
Fi
i 1
其中Fi为权数
加权算术平均往往适用于对分组后的数据求均值,这时Xi 为各组变量代表值(往往取组中值),Fi 为各组变量值出现 的频数。
2210 2255 2350 2380 2380 2390 2420 2440 2450 2550 2630 2825 则中位数为:
M e 2390 2420 2 2405
▲注意:
由于均值容易受到统计数据中个别极端数据 的影响,从而使均值代表某组统计数据的“平 均水平”时失去意义,这时用中位数代替均值 则更有意义。
如,在大学生毕业工作起薪的例中,如果原 统计数中最高薪金由2825换为10000,则得到 平均薪金为3038的结论,显然与其他11位均在 2000多的薪水水平不符,但这时若用中位数 2405,显然更具代表意义。
2、对于分组后的数据:
首先需确定中位数所在的组,然后可根据下列公式计算中位数:
上述班级人数规模例中,几何平均数为:43.37 可看出:几何平均数 < 算术平均数。
(2)加权几何平均数:
G X X X F1F2 FN
F1 F2
FN
M
12
N
其中Fi为Xi的权数。
几何平均数的对数是各变量值对数的算术平均:
1 N
log GM
N
( log X i )
i 1
•几何平均主要用于计算比率或速度的平均。