第4章数据的概括性度量.ppt
(04)数据概括度量
调和平均数的应用
【例】某企业某日工人的日产量资料如下:
日产量(件) 各组工人日总产量(件)
X
10 11 12 13 14
m
700 1100 4560 1950 1400 9710
合计
计算该企业该日全部工人的平均日产量。
调和平均数的应用
解:
XH m 1 Xm 9710 700 1400 10 14
求解比值的平均数的方法
mi 比值 X i fi
X
m f
Xf f
m 1 X m
己知 m、f, 己知 X、f , 采用基本平 采用加权算术 均数公式 平均数公式
己知 X、m , 采用加权调和 平均数公式
求解比值的平均数的方法
【例A】某季度某工业公司18个工业企业 产值计划完成情况如下:
STAT
第四章 数据的概括性度量
统计学家与数学家
一名统计学家遇到一位数学家,统计学家 调侃数学家说道:“你们不是说若X=Y且Y =Z,则X=Z吗!那么想必你若是喜欢一个 女孩,那么那个女孩喜欢的男孩你也会喜欢 喽!?” 数学家想也没事吧!因为它们平均的温度 不过是五十度而已!”
计划完成程度 组中值 (﹪) (﹪) 85 90以下 95 90~100 105 100~110 115 110以上 — 合计 企业数 计划产值 (个) (万元) 2 800 3 2500 10 17200 3 4400 18 24900
计算该公司该季度的平均计划完成程度。
计划完成 实际产值m 求解比值的平均数的方法 X 分析:
1 1 1 1 4 ⒉再求算术平均数: 2 4 6 8
⒊再求倒数:
1 1 1 1 4 2 4 6 8
第四章--数据的概括性度量
计算公式
G
n
x 1
x2
xn
适用于特殊数据,变量值x一般为比率
9.97%
某企业最近4年产品销售收入的年增长 率分别为8%、7%、12%、13%,求该 企业这4年销售收入的年平均增长率?
众数、中位数和均值的关系
均值 中位数 众数 均值 = 中位数 = 众数
各变量值与中位数的离差绝对值之和最小。
中位数的位置
未分组数据 中位数的位置=(1+n)/2
分组数据 中位数的近似位置=n/2
数值型数据的中位数
(9个数据的实例)
【例1】 9个家庭的人均月生活费支出数据
原始数据: 1500 750 780 1080 850 960 2000 1250 1630
四口之家的年收入在23624美元以下即为贫困户。
2016年,美国家庭收入中位数增长3.2%,从2015 年的57230美元增至59039美元,创有记录以来新 高,超过1999年的前纪录58655美元。所有数字都 是经过通胀调整后的。
2017年底港府统计处发表《2016年中期人口统计》, 称本港人均居住面积中位数为161呎(约合15平方 米)
离散系数
(coefficient of variation)
① 标准差与其相应的均值之比 ② 对数据相对离散程度的测度 ③ 消除了数据水平高低和计量单位的影响 ④ 用于对不同组别数据离散程度的比较 ⑤ 计算公式为
Vs
s x
p97 利用前5对数据做分析
解:成年人的平均身高和身高标准差分别为
i1
fi
实例分析
按零件加工数分组
应用统计课件:第 4 章 数据的概括性度量
第 4 章数据的概括性度量集中趋势(central tendency)分类数据:众数众数(mode)1.一组数据中出现次数最多的变量值2.适合于数据量较多时使用3.不受极端值的影响4.一组数据可能没有众数或有几个众数5.主要用于分类数据,也可用于顺序数据和数值型数据众数(不惟一性)无众数原始数据: 10 5 9 12 6 8分类数据的众数(例题分析)顺序数据的众数(例题分析)顺序数据:中位数和分位数中位数(median)1.排序后处于中间位置上的值中位数(位置和数值的确定)顺序数据的中位数(例题分析)数值型数据的中位数(9个数据的算例)【例】9个家庭的人均月收入数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排序: 750 780 850 960 1080 1250 1500 1630 2000位置: 1 2 3 4 5 6 7 8 9数值型数据的中位数(10个数据的算例)【例】:10个家庭的人均月收入数据排序: 660750 780 850 960 10801250 1500 1630 2000位置: 1 2 3 4 5 67 8 9 10 四分位数(quartile)1.排序后处于25%和75%位置上的值顺序数据的四分位数(例题分析)数值型数据的四分位数(9个数据的算例)【例】:9个家庭的人均月收入数据(4种方法计算)原始数据: 1500 750 780 1080 850 960 2000 1250 1630排序: 750 780 850960 1080 1250 1500 1630 2000位置: 1 2 3 4 5 67 8 9数值型数据:平均数平均数(mean)1.也称为均值2.集中趋势的最常用测度值3.一组数据的均衡点所在3.体现了数据的必然性特征4.易受极端值的影响5.有简单平均数和加权平均数之分6.根据总体数据计算的,称为平均数,记为μ;根据样本数据计算的,称为样本平均数,记为⎺x简单平均数(Simple mean)加权平均数(Weighted mean)几何平均数(geometric mean)1.n 个变量值乘积的n 次方根2.适用于对比率数据的平均3.主要用于计算平均增长率4.计算公式为几何平均数(例题分析)【例】一位投资者购持有一种股票,在2000、2001、2002和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。
第四章 数据的概括性度量
第四章 数据的概括性度量
4.2.3 数值型数据:方差和标准差 1、极差 一组数据的最大值与最小值之差称为极差,也称全距,用R表示。 R=Max-Min 极差是描述数据离散程度的最简单的测度值,计算简单,易于理解,但容易受极 端值的影响。由于极差只是利用了一组数据两端的信息,不能反映出中间数据的 分散情况,因而不能准确表述出数据的分散程度。 2、平均差 也称平均绝对离差,是各变量值与其平均数离差绝对值的平均数,用Md表示。 Md=(∑ ∣Xi-X ∣)/n
第四章 数据的概括性度量
MEDIAN函数用于计算给定数值的中值,即一组数值中居于中间的数值,其语法是 MEDIAN(number1,number2,…)。其中,参数number1,number2…为数组或对单元格 的引用,参数的个数介于1—255之间。 2、四分位数 四分位数、十分位数和百分位数分别是用3个点、9个点和99个点将数据4等分、10 等分和100等分后各分位点上的值。 四分位数也称为四分位点,是一组数据排序后处于25%和75%位置上的值。四分位 数通过3个点将全部数据等分为4部分,其中每部分包含25%的数据。中间的四分位 数就是中位数。
变异指标:一组数值之间的差异程度称为标志变动度。测定标志变动度大小的指 标叫做标致变异指标。
第四章 数据的概括性度量
变异指标的作用:
① 反映总体各单位变量值分布的均衡性。一般来说,标致变异指标数值越大,总 体各单位变量值分布的离散趋势越高,均衡性越低;反之,变量值分布的离散 趋势越低,均衡性就越高。
数据的概括性度量
第四章 数据的概括性度量
利用图表展示数据,可以对数据分布的形状和特征有一个大致的了解。但要全面 把握数据分布的特征,还需要找到反映数据分布特征的各个代表值。 数据分布特征可以从三个方面进行测度和描述: •分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度。 •分布的离散程度,反映各数据远离其中心值的趋势。 •分布的形状,反映数据分布的偏态和峰态。
统计学第4章数据的概括性度量
https://
REPORTING
• 引言 • 集中趋势的度量 • 离散程度的度量 • 偏态与峰态的度量 • 数据分布形态的图形表示 • Excel在概括性度量中的应用
目录
PART 01
引言
REPORTING
WENKU DESIGN
概括性度量的定义
方差和标准差能够全面反映数据的离散程度,且计算相对简单。其中标
准差具有与原始数据相同的量纲,更便于比较不同数据集之间的离散程
度。
PART 04
偏态与峰态的度量
REPORTING
WENKU DESIGN
偏态及其度量
偏态定义
偏态是指数据分布的不对称性。 在统计学中,偏态通常通过计算 偏态系数来衡量。
特点
算术平均数对极端值敏感,当数 据集中存在极端异常值时,算术
平均数可能会受到较大影响。
中位数
定义
计算公式
中位数是一组数据按照大小顺序排列后, 位于中间位置的数值,用于反映数据集中 趋势的一个统计指标。
中位数 = 第(n+1)/2项数据(n为数据个数 )适用Fra bibliotek围特点
适用于数值型数据,且数据分布呈偏态或 存在极端异常值的情况。
偏态与峰态度量
包括偏态系数和峰态系数 等,用于描述数据分布的 形态特点。
PART 02
集中趋势的度量
REPORTING
WENKU DESIGN
算术平均数
定义
算术平均数是一组数据的总和 除以数据的个数,用于反映数 据集中趋势的一个统计指标。
计算公式
算术平均数 = 数据总和 / 数据 个数
适用范围
适用于数值型数据,且数据之 间没有极端异常值的情况。
第4章 数据的概括性度量
5
利用图表展示数据,只是对数据分布的形状和特征给出一个粗略的了解,如要全 面把握数据分布的特征,还需要找到反映数据分布特征的各个代表值。 数据分布特征的测度和描述可以分解为三个方面:分布的集中趋势,反映各数据 向中心值靠拢或聚集的程度;离散程度,反映各数据远离其中心值的程度;分布 的形状,反映数据分布的偏态与峰态。
解:这里的数据为顺序数据。变 量为“回答类别” 甲城市中对住房表示不满 意的户数最多,为 108 户,因此 众数为“不满意”这一类别,即
户数 (户)
24 108 93 45 30 300
百分比 (%)
8 36 31 15 10 100.0
Mo=不满意
12
70
顺序数据:中位数和分位数
在一组数据中,可以找出处在某个位置上的数据,称为分位数。 常用的分位数主要有中位数和四分位数。
中位数(median)
13
i 1
n
xi M e min
70
中位数(位置和数值的确定)
位置确定 中位数位置 n 1
2
n为数据个数
设一组数据按从小到大的顺序排序成x(1),x(2),…,x(n), 则中位数
x n 1 2 数值确定 M e 1 x n x n 1 2 2 2
果汁 矿泉水 绿茶 其他 碳酸饮料 合计
6 10 11 8 15 50
0.12 0.20 0.22 0.16 0.30 1
12 20 22 16 30 100
Mo=碳酸饮料
11
70
顺序数据的众数(例题分析)
甲城市家庭对住房状况评价的频数分布 回答类别 非常不满意 不满意 一般 满意 非常满意 合计 甲城市
04 数据的概括性度量PPT课件
3. 低层次数据的集中趋势测度值适用于高层次的测量 数据,反过来,高层次数据的集中趋势测度值并不 适用于低层次的测量数据
4. 选用哪一个测度值来反映数据的集中趋势,要根据 所掌握的数据的类型来确定
1-16
经管类 核心课程
统计学
4.1.1 分类数据--众数
1.众数是指一组数据中出现次数最多的变量值,用 M 0 表示,它是集中趋势的测度值之一
统计学
统计表的比较与选用
1-11
经管类 核心课程
统计学
统计表的比较与选用
1-12
经管类 核心课程
统计学
第四章 数据分布特征的测度
1-13
经管类 核心课程
统计学
第四章 数据分布特征的测度
§4.1 集中趋势的测度 §4.2 离散程度的测度 §4.3 偏态与峰态的测度
1-14
经管类 核心课程
统计学
#可支配收入 平均每人消费性支出
户
45317
48028
人
3.04
3.01
人
1.58
1.58
%
51.97
52.49
人
1.92
1.91
元
8177.40 9061.22
元
7702.80 8472.20
元
6029.88 6510.94
表头
列 标 题
数 字 资 料
资料来源:《中国统计年鉴2004》,359页,北京,中国统计出版社,2004。附
点击此处输入相 关文本内容
标题添加
点击此处输入相 关文本内容
1-2
总体概述
点击此处输入 相关文本内容
统计学第四章统计数据的概括性度量
经济、管理类 基础课程
众数
(众数的不唯一性P87)
10 5 9 12 6 8
统计学
无众数 原始数据:
一个众数 原始数据:
4 6
5
9
8
5
5
多于一个众数 原始数据: 25 28 28 36 42 42
4 - 17
经济、管理类 基础课程
分类数据的众数
(算例)
统计学
【例 4.1】根据第三章表 3-1 中的 数据,计算众数
4-3
经济、管理类 基础课程
统计学
一、统计数据的概括性度量方法—统计指标
1、概念:统计指标是反映现象总体综合数量特征的基本概念及其具体 数值的总称 2、特点:同质事物的可量性和量的综合性 3、作用: (1)是记录社会经济现象发展变化情况的工具,也是反映社会经济现 象数量规律的手段 (2)是进行社会经济管理和科学研究的基本依据 4、种类: (1)按作用和表现形式的不同分为:总量指标、相对指标、平均指标、 离散指标和形状指标 (2)按其所反映的内容和数量性质不同分为:数量指标和质量指标 (3)按其反映现象的时间状况不同分为:静态指标和动态指标 (4)按其计算范围不同分为:总体指标和样本指标 (5)按其计量单位不同可分为:实物指标、价值指标和劳动量指标
统计学
1. 一组数据向其中心值靠拢的倾向和程度 2. 测度集中趋势就是寻找数据一般水平的代表值或中心值 3. 不同类型的数据用不同的集中趋势测度值
4. 低层次数据的集中趋势测度值适用于高层次的测量数据, 反过来,高层次数据的集中趋势测度值并不适用于低层次 的测量数据 5. 选用哪一个测度值来反映数据的集中趋势,要根据所掌握 的数据的类型来确定
统计学
6第四章、数据的概括性度量(一)
调侃统计学家
如果你的腳已經踩在爐子上, 而頭卻在冰箱裡,統計學家會告訴 你,平均而言,你相當舒服。
数据特征测度分类
数据的特征和测度
集中趋势
众数 中位数 均值
离散程度
分布的形状
异众比率 四分位差 方差和标准差 离散系数
偏态 峰度
集中趋势
指总体中各单位的次数分布从两边向 中间集中的趋势,用平均指标来反映。
广告类型
人数(人) 比例 频率(%)
商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告
合计
112
0.560
56.0
51
0.255
25.5
9
0.045
4.5
16
0.080
8.0
10
0.050
5.0
2
0.010
1.0
200
1
100
解:这里的变量为“广告类 型”,这是个分类变量,不 同类型的广告就是分类数据 我们看到,在所调查的200 人当中,关注商品广告的人 数 最 多 , 为 112 人 , 占 总 被 调查人数的56%,因此众数 为“商品广告”这一类别, 即
第四章 数据的概括性度量
第一节 集中趋势的测度 第二节 离散程度的测度 第三节 偏态与峰度的测度
统计学家与数学家
一名统计学家遇到一位数学家,统计学家 调侃数学家说道:“你们不是说若X=Y且Y =Z,则X=Z吗!那么想必你若是喜欢一个 女孩,那么那个女孩喜欢的男孩你也会喜欢 喽!?”
数学家想也没事吧!因为它们平均的温度不 过是五十度而已!”
50%
50%
Me 3. 不受极端值的影响
4. 主要用于顺序数据,也可用数值型数据,但不能用于分 类数据
第4章 数据的概括性度量
位置 n 1 9 1 5 22
中位数 1080
数值型数据的中位数
(10个数据的算例)
【例】:10个家庭的人均月收入数据
排 序: 660 750 780 850 960 1080 1250 1500 1630 2000
位 置:
10
12 3 4 5 6
顺序数据的众数
(例题分析)
甲城市家庭对住房状况评价的频数分布 解:这里的数据为顺
回答类别
非常不满意 不满意 一般
甲城市
序数据。变量为“回
答类别”
户数 (户) 百分比 (%)
甲城市中对住房
24
8
表示不满意的户数最
108
36
多 , 为 108户 , 因 此
93
31
众数为“不满意”这
满意
45
15
一类别,即
5. 计算公式为
R = max(xi) - min(xi)
平均差
(mean deviation)
1. 各变量值与其平均数离差绝对值的平均数 2. 能全面反映一组数据的离散程度 3. 数学性质较差,实际中应用较少
4. 计算公式为
未分组数据
n
xi x
M d i1 n
组距分组数据
k
Mi x fi
vr
fi fm 1 fm
fi
fi
4. 用于衡量众数的代表性
异众比率
(例题分析)
不同品牌饮料的频数分布
饮料品牌
频数
比例
百分比 (%)
可口可乐 旭日升冰 茶 百事可乐 汇源果汁 露露
15 0.30 30 11 0.22 22 9 0.18 18 6 0.12 12 9 0.18 18
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
集中趋势的度量
2
离散程度的度量
3
偏态与峰态的度量
引例:
某高校只有两个系,财经系和工程系。 该校报考及录取的总体情况如下:
录取 未录取 报考人数
男生 350 450 800
女生 200 400 600
工程系
财经系
男生 女生 男生 女生
录取
300 100 50 100
未录取 300 100 150 300
246.49 114.49 32.49
0.49 18.49 86.49 204.49
(Xi- X )2Fi
739.47 572.45 259.92
6.86 184.90 518.94 817.96
合计
—
50
—
3100.5
K
( X i X )2 Fi
i 1 K
Fi
i 1
3100.5 7.8( 7 个) 50
17
案例分析 加权均值
【例】根据表中的数据,计算50 名 工人日加工零件数的均值
表2-5 某车间50名工人日加工零件均值计算表
按零件数分组 组中值(Xi) 频数(Fi)
105~110
107.5
3
110~115
112.5
5
115~120
117.5
8
120~125
122.5
14
125~130
127.5
4.各变量值与中位数的离差绝对值之和最小,即
n
xi M e min
i1
7
中位数 (位置的确定)
中位数位置 n 1 2
8
案例分析 (9个数据的算例)
【例】 9个家庭的人均月收入数据
原始数据: 1400 750 760 1050 870 950 2100 1450 1540 排 序: 750 760 870 950 1050 1400 1450 1540 2100 位 置: 1 2 3 4 5 6 7 8 9
某车间50名工人日加工零件标准差计算表
按零件数分组
105~110 110~115 115~120 120~125 125~130 130~135 135~140
组中值(Xi)
107.5 112.5 117.5 122.5 127.5 132.5 137.5
频数(Fi)
3 5 8 14 10 6 4
(Xi- X )2
样本均值
x1 ,x2 ,… ,xn
f1 ,f2 ,… ,fk
K
x1 f1 x2 f2 xK f1 f2 fK
fK
xi fi
i1 K
fi
i1
k
x
x1 f1 x2 f2 xk fk f1 f2 fk
xi fi
i1 n
fi
i1
值型数据
5
众数 (不惟一性)
无众数 原始数据: 11 3 7 12 9 8 一个众数 原始数据: 7 4 6 13 4 4 多于一个众数 原始数据: 17 25 25 33 24 24
6
中位数 (median)
1.排序后处于中间位置上的值
50%
50%
Me
2.不受极端值的影响
3.主要用于顺序数据,也可用数值型数据,但不 能用于分类数据
去掉一个最高分和一个最低分,取1/11
x x x 1/11
111/111
111/112
x 11111/11
11 2 111 / 11
x( 2) x(3)
x(10)
11 2
9.2 9.22 9
9.3 9.26
方差的计算公式
未分组数据:
N
(xi )2
2 i1
N
组距分组数:
K
(Mi )2 fi
2 i1 N
标准差的计算公式 未分组数据:
N
(xi )2
i1
N
组距分组数:
K
(Mi )2 fi
i1
N
32
案例分析 总体标准差的计算
【例】根据表中的数据,计算工人日加工零件数的标准差
27
第2节 分布离散程度的测度
一、极差 二、内距 三、方差和标准差 四、离散系数
极差 (range)
1. 一组数据的最大值与最小值之差 2. 离散程度的最简单测度值 3. 易受极端值影响 4. 未考虑数据的分布 7 8 9 10
7 8 9 10
5. 计算公式为:
R = max(xi) - min(xi)
25
数据类型
适 用 的 测 度 值
数据类型和所适用的集中趋势测度值
定类数据
定序数据
定距数据
定比数据
众数
中位数
均值
均值
—
四分位数
众数
调和平均数
—
众数
中位数
几何平均数
—
—
四分位数
中位数
—
—
—
四分位数
—
—
—
众数
本节提问
Q1 一组数据的分布特征可以从哪几个方面进行测度? Q2 怎样理解均值在统计学中的地位? Q3 对于比率数据的平均,为什么采用几何平均? Q4 简述众数、中位数和均值的特点和应用场合。
1)
8.25
QL 650 0.75 (760 650) 732.5
QU 1680 0.25 (1790 1680) 1707.5
统计函数—QUARTILE
14
均值 (mean)
1. 集中趋势的最常用测度值 2. 一组数据的均衡点所在 3. 体现了数据的必然性特征 4. 易受极端值的影响 5. 用于数值型数据,不能用于分类数据和顺序
10
130~135
132.5
6
135~140
137.5
4
XiFi
322.5 562.5 940.0 1715.0 1275.0 795.0 550.0
K
X
X i Fi
i 1 K
Fi
6160 50
i 1
123.( 2 个)
合计
—
50
6160.0
18
均值 (数学性质)
1. 各变量值与均值的离差之和等于零
不能自由取值
3.例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以 自由取值,另一个则不能自由取值,比如x1=6,x2=7, 那么x3则必然取2,而不能取其他值
QU 位置
3(n 1) 4
12
案例分析 (四分位数7个数据的算例)
原始数据: 23 21 30 32 28 25 26
排 序: 21 23 25 26 28 30 32
位 置: 1 2 3 4 5 6 7
QL位置
N+1 =4
=
7+1 4
=2
3(N+1) 3(7+1)
QU位置 = 4 = 4 = 6
29
内距 (Inter-Quartile Range,IQR)
1. 也称四分位差 2. 上四分位数与下四分位数之差
内 距 = Q3 – Q1
3. 反映了中间50%数据的离散程度 4. 不受极端值的影响 5. 可用于衡量中位数的代表性
30
方差和标准差 (Variance and Standard deviation)
GM N X1 X 2 X N 4 104.5% 102.0% 103.5% 105.4% 103.84%
平均收益率=103.84%-1=3.84%
21
切尾均值 (trimmed Mean)
1. 去掉大小两端的若干数值后计算中间数据的均值 2. 在电视大奖赛、体育比赛及需要人们进行综合评
33
样本方差和标准差 (simple variance and standard deviation)
方差的计算公式
未分组数据:
n
(xi x )2
s2 i1 n 1
注意:样本 方差用自由 度n-1去除!
组距分组数据:
k
(Mi x)2 fi
s2 i1 n 1
标准差的计算公式
n
(xi x) 0
i1
2. 各变量值与均值的离差平方和最小
n
(xi x)2 min
i1
3. 统计分布的均衡点
19
几何均值 (geometric mean)
1. n 个变量值乘积的 n 次方根
2. 适用于对比率数据的平均
3. 主要用于计算平均增长率
4. 计算公式为:
n
Gm n x1 x2 xn n xi
QL= 23
QU = 30
13
案例分析(四分位数10个数据的算例)
【例】 10个家庭的人均月收入数据
排 序: 500 650 760 780 940 1060 1350 1680 1790 1900
位 置: 1 2 3 4 5 6
7
8
9
10
QL位置
10 4
1
2.75
QU位置
3
(10 4
位置 n 1 9 1 5 22
中位数 = 1050
9
案例分析 (10个数据的算例)
【例】 10个家庭的人均月收入数据