数据的概括性度量数据特征的描述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
据,但不能用于分类数据。
2020/4/28
19
2、四分位数位置的确定
Q
L
位置
Q
U
位置
n 4
3n 4
注:见 P90
2020/4/28
20
2020/4/28
3)例题分析
顺序数据的四分位数
解:QL位置= (300)/4 =75 QU位置 =(3×300)/4 =225
从累计频数看, QL在“ 不满意”这一组别中; QU 在“一般”这一组别中。因 此
1、教学重点:集中趋势各测度值的的特点及计算 方法;离散程度各测度值的的特点及计算方法。
2、教学难点:各测度值的的特点及计算。
2020/4/28
2
三、教学过程与内容
利用图表显示数据,可以对数据分布特征 和规律有一个大概的了解,但要全面把握 数据的特征和规律,还需要找出反映数据 分布特征的代表值。
一般来说,数据分布的特征可以从三个方 面进行测度和描述。
集中趋势:一组数据向其中心值靠拢的倾 向和程度.测度趋势就是寻找数据水平的 代表值或中心值。
注意:不同类型的数据用不同的集中趋势测 度值;低层次数据的测度值适用于高层次 的测量数据,但高层次数据的测度值并不 适用于低层次的测量数据。
2020/4/28
8
一、众数
众数:出现次数最多的变量值。它不受极端
Mo=不满意
12
二、中位数和分位数
(一)中位数(median)
1、中位数定义
中位数:排序后处于中间位置上的值。一般用
Me表示。
50%
50%
Me
注意:它不受极端值的影响.主要用于顺序 数据,也可用数值型数据,但不能用于分类数
据。各变量值与中位数的离差绝对值之和最小, 即
n
xi Me min
i1
15
2020/4/28
例4.4求下述问题的中位数 (顺序数据的 例题分析)
解:中位数的位 置为:
中位数位n置 13001 22
15.50
从累计频数看, 中位数在“一般 ”这一组别中。
因此:
Me=一般
16
例4.5求下列数值型数据的中位数
(9个数据的算例)
1)9个家庭的人均月收入数据
原始数据: 1500 750 780 1080 850 960 2000 1250 1630
1080 排 序: 750 780 850 960
1250 1500 1630 2000
位 置: 1 2 3 4 5 6 7 8 9
位置 n1915 Me 1080
22
2020/4/28
17
2)10个家庭的人均月收入数据
排 序: 660 750 780 850 960 1080
1250 1500 1630 2000
9 Q L 位 9 4 置 2 .25 Q U 位 3 置 4 9 6 .75
2020/4/28
22
即QL在第2个数值(780)和第3个数值 (850)之间0.25的位置上,所以:
Q L 7 8 ( 80 5 7) 0 8 0 .2 0 7 5.5 9 ( 元 7 )
因为QU在第6个数值(1250)和第7个数 值(1500)之间0.75的位置上,所以:
位 置: 1 2 3 4 5
6
7 8 9 10
位 置 n110 15.5 22
Me 960210801020
2020/4/28
18
(二)四分位数(quartile)
1、四分位数定义
四分位数:排序后处于25%和75%位置上的值。它不 受极端值的影响。
25% 25% 25% 25%
QL
QM
QU
注意:主要用于顺序数据,也可用于数值型数
第 4 章数据的概括性度量
第1 节 集中趋势的测度 第2节 离散程度的测度 第3 节 偏态与峰态的测度
2020/4/28
1
一、教学目的与要求
掌握集中趋势各测度值的计算方法;
掌握集中趋势各测度值的特点及应用场合; 掌握离散程度各测度值的计算方法;
掌握离散程度各测度值的特点及应用场合; 了解偏态与峰态的测度方法 会用Excel计算描述统计量并进行分析 二、教学重点与难点
众数 中位数 均值
2020/4/28
离散程度
分布的形状
异众比率 四分位差 方差和标准差 离散系数
偏态 峰态
6
第1 节 集中趋势的度量
一. 分类数据:众数 二. 顺序数据:中位数和分位数 三. 数值型数据:均值 四. 众数、中位数和均值的比较
2020/4/28
7
集中趋势(Central tendency)
10
例4.2
2020/4/28
解:这里的变量为“饮料 品牌”,这是个分类变量 ,不同类型的饮料就是变 量值。
在所调查的50人中, 购买可口可乐的人数最多 ,为15人,占总被调查 人数的30%,因此众数为 “可口可乐”这一品牌, 即
Mo=可口可乐
11
例4.3
2020/4/28
解:这里变量为“回答类 别”,该数据为顺序数据 。甲城市中对住房表示不 满意的户数最多,为108 户,因此众数为“不满意 ”这一类别,即
2020/4/28
13
2、中位数位置的确定
设一组数据为: x1,x2,,xn, 按从小到大排列为: x(1),x(2),,x(n),
中位数位 n置 1 2
其中n为数据个数
2020/4/28
14
3、中位数数值计算公式
数值的确定 Me
x
n1 2
12x
n 2
x
n1 2
n为奇数 n为偶数
2020/4/28
2020/4/28
3
数据分布的特征
集中趋势 (位置)
集中趋势:反映各数据向其中心靠拢和聚 集的程度
离散程度 (离中趋势)
离散程度:反映各数据远离中心的趋势
2020/4/28
4
分布形状 (偏态和峰态)
分布形状:反映数据分布的偏态和 峰态
2020/4/28
5Leabharlann Baidu
数据分布特征的测度
数据特征的测度
集中趋势
值的影响。一般用M0 表示
注意:一组数据可能没有众数或有几个众数; 主要用于分类数据,也可用于顺序数据和 数值型数据。
2020/4/28
9
例4.1
原始数据: 10 5 9 12 6 8 无众数
原始数据: 6 5 9 8 5 5
一个众数 原始数据: 25 28 28 36 42 42
多于一个众数
2020/4/28
QL = 不满意 QU = 一般
21
数值型数据的四分位数
9个家庭的人均月收入数据
原始数据: 1500 750 780 1080 850 960 2000 1250 1630
排 序: 2000
位 置:
750 780 850 960 1080 1250 1500 1630
1 2 3 4 5 6 7 8