统计学基础课件第四章——数据分布特征的测度
10第4章 数据分布的特征的测度
第4 章数据分布特征的测度(进行一些描述性的计算)4.1集中趋势的度量4.2 离散程度的度量4.3数据分布的性质4.4 偏态与峰度的度量441数据分布的特征集中趋势(位置)离中趋势(分散程度)偏态和峰态(形状)2414.1 集中趋势的度量4.1.1 分类数据:众数4.1.2 顺序数据:中位数和分位数4.1.3 数值型数据:平均数4.1.4 众数、中位数和平均数的比较414众数中位数和平均数的比较3集中趋势(central tendency)1.测度集中趋势就是寻找数据水平的代表值或中心值值22.不同类型的数据用不同的集中趋势测度值低层次数据的测度值用于高层次的测数据3.低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据44.1.1 分类数据的集中趋势的测度•众数(mode):一组数据中出现次数最多的变量值•组数据中出现次数最多的变量值•注:顺序数据和数值型数据显然也有众数5例:分类数据的众数籍贯的频数分布百分比•解:这里的变量为解:这里的变量为““籍贯频数比例(%)上海1503030籍贯籍贯””,这是个分类变量变量,,不同类型的籍浙江江苏110.300.2201822贯就是变量值•众数为众数为““上海上海””这一山东辽宁960.180.120181812品牌品牌,,即•Mo =上海广东90.1818海合计501100顺序数据的众数甲城市家庭对住房状况评价的频数分布甲城市Mo =不满意回答类别户数(户)百分比(%)非常不满意不满意24108836一般满意93453115非常满意30101000合计300100.0数值型数据的众数(mode)•无众数个众数原始数据: 10 5 9 12 6 8一个众数原始数据: 6 5 9 8 5 5多于一个众数:252828364242原始数据: 25 28 28 36 42 428(d)众数(mode)•适合于数据量较多且有明显的集中趋势时使用•不受极端值的影响•一组数据可能没有众数或有几个众数(multimodal: 多众数的)•主要用于分类数据,也可用于顺序数据和数值型数据94124.1.2 顺序数据•中位数(Median):•排序后处于中间•分位数:四分位数十分位置上的值•四分位数,十分位数,百分位数。
第4章 数据分布特征的度量(1).ppt
2020年11月12日/下午11时15分
《统计学教程》
第4章 数据分布特征的度量
4.1 集中趋势的度量
例4.2 利用第三章中例3.1中某学期某班35名学生统计学考试成绩的 原始数据。
要求 试计算计算该班35名学生统计学考试成绩的众数。 解 将该原始数据排序之后,得到有序数据如下 52,56,62,64,65,69,70,74,75,75,76,78,78,79,79, 81,82,82,83,84,84,84,84,86,87,87,88,89,89,90, 91,91,92,96,98
2020年11月12日/下午11时15分
《统计学教程》
第4章 数据分布特征的度量
4.1 集中趋势的度量
2020年11月12日/下午11时15分
《统计学教程》
第4章 数据分布特征的度量
4.1 集中趋势的度量
MO
2020年11月12日/下午11时15分
《统计学教程》
第4章 数据分布特征的度量
4.1 集中趋势的度量
4.1 集中趋势的度量
原始数据经过分组整理所形成的频数分布,直观和概略地反映出数据 分布的基本特征。频数分布属于对数据分布特征的初步描述,缺乏对数 据分布特征的综合度量,若需要深入地表述数据分布特征的具体特征和 内在联系,还应对数据分布特征进行综合性的度量。
数据分布特征的度量包括三个方面的内容,一是数据分布的集中趋势, 反映总体中各个单位的数值水平向其聚集,或者集中的中心数值;二是 数据分布的离散趋势,反映总体中各个单位的数值水平偏离中心数值的 综合程度;三是数据分布的偏态和峰度,反映各个总体单位的数值水平 的分布形态是对称或偏倚,平坦或尖耸的具体数值。
4.1.1众数 众数(Mode)是一组数据中频数最大的变量值,直观地反映了数据的
第四章 数据分布特征的测度
第四章数据分布特征的测度教学目的与要求:统计平均指标是表明总体数量特征的一个重要指标,它是将总体各单位标志值的差异抽象化,反映总体各单位标志值的一般水平,揭示总体分布的集中趋势。
变异指标是反映总体各单位标志值的差异程度,揭示总体分布离中趋势的又一重要数量特征指标。
通过本章的学习,要求理解统计平均指标的意义和作用;掌握各种统计平均指标的特点、应用条件、应用范围和计算方法;理解变异指标的意义和作用;掌握各种变异指标的性质和计算方法;能运用变异指标衡量平均数代表性的大小。
教学重点与难点:重点为各种平均指标和变异指标的概念、特点、应用条件、应用范围和计算方法。
难点是不同条件下平均指标和变异指标的计算。
统计数据经过整理和显示后,对数据分布的形状和特征就可以有一个大致的了解。
为进一步掌握数据分布的特征和规律,进行更深入的分析,还需要找到反映数据分布特征的各个代表值。
对一组数据分布的特征,可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢和聚集的程度;二是分布的离散程度,反映各数据远离中心值的趋势;三是分布偏态和峰态,反映数据分布的形状。
这三个方面分别反映了数据分布特征的不同侧面。
第一节集中趋势的测度集中趋势是指一组数据向某一中心值靠拢的倾向,它反映了一组数据中心点的位置所在。
测度集中趋势也就是寻找数据一般水平的代表值或中心值。
低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据。
因此,选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型和特点来确定。
一、分类数据:众数(M o)众数是指一组数据中出现次数最多的变量值。
•出现次数最多的变量值•不受极端值的影响•一组数据可能没有众数或有几个众数•主要用于分类数据,也可用于顺序数据和数值型数据从分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数。
第4章数据分布特征的测度精品PPT课件
位 置: 1 2 3 4 5 6 7 8
9
位置 n 1 9 1 5 22
中位数Me 1080
统计函数—MEDIAN
数值型数据的中位数(偶数个数据)
例4-2:10个家庭的人均月收入数据
排 序: 660 750 780 850 960 1080 1250 1500 1630 2000
位 置: 1 2 3 4 5 6
集中趋势
离散程度
分布的形状
位置 平均数
众数 中位数
数值 平均数
算术平均数 几何平均数
全距 方差 标准差 变异系数
偏态 系数
峰度 系数
数据分布特征的测度
4.1 集中趋势的测度 4.2 离中趋势的测度 4.3 偏度和峰度的测度
学习目标
了解集中趋势指标的概念、特点和作用,掌握各 种平均数的计算方法、应用条件以及几种平均数之间 的关系。 了解离中趋势指标的概念、种类和作用及与平均 指标的区别。其中重点是标准差与离散系数的计算。 了解数据的分布形态测定方法。 了解各项指标的应用原则,能结合实际调查资料 计算有关指标和进行初步的分析。
Mo=不满意
统计函数—MODE
4.1.2 中位数(median)
1. 按数值大小排序后处于中间位置上的值;
50%
Me
2. 不受极端值的影响;
50%
3. 主要用于定序数据,也可用定量数据,但不能用 于定类数据;
数值型数据的中位数(奇数个数据)
例4-1: 9个家庭的人均月收入数据
原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000
第四章 数据分布特征的测度讲解
第四章数据分布特征的测度学习目的和要求:通过本章的学习,掌握数据分布特征的各种描述方法;掌握不同测度方法的特点、应用条件及应用场合;能利用所学的方法对统计数据作各种统计描述。
难点释疑:(一)算术平均数通常用来反映总体分布的集中趋势,调和平均数往往只作为算术平均数的变形来使用,即在已知标志总量而未知总体单位总量的情况下计算调和平均数;而几何平均数较适用于计算平均比率和平均速度。
(二)调和平均数虽然是根据标志值的倒数计算的,但其结果不等于算术平均数的倒数。
在计算和应用平均指标时,除了考虑数理方面的要求外,更重要的是要考虑其现实的经济意义。
(三)平均数的性质是简捷计算法的基础,也是计算标志变异指标的基础。
掌握中位数和众数与算术平均数的关系的目的是能够根据其中的两个平均数大体计算出第三个平均数,并判断总体的分布状态。
(四)全距、四分位差、平均差、标准差在反映标志变异程度方面各有优缺点。
全距是描述数据离散程度的最简单测度值,它计算简单,易于理解,但不能全面反映总体各单位标志值的差异程度。
标准差与平均差的意义基本相同,但在数学性质上比平均差要优越,所以,在反映标志变动度大小时,一般都采用标准差。
标准差是实际中应用最广泛的离散程度测度值。
(五)标准差系数的应用。
为了对比和分析不同平均水平总体的标志差异程度,就需要使用标准差系数。
它是标志变异的相对指标。
它既消除了变量数列变量值差异程度的影响,也消除了变量数列水平高低的影响。
练习题:(一)单项选择题(在下列备选答案中,只有一个是正确的,请将其顺序号填入括号内)1.平均指标反映了()。
①总体变量值分布的集中趋势②总体分布的离散特征③总体单位的集中趋势④总体变动趋势2.加权算术平均数的大小( )。
①受各组标志值的影响最大 ②受各组次数的影响最大③受各组权数系数的影响最大 ④受各组标志值和各组次数的共同影响3.在变量数列中,如果变量值较小的一组权数较大,则计算出来的算术平均数( )。
统计学统计数据分布特征的测度.精选PPT
导入案例
融康保健品公司销售部经理将公司60名员工 年2月份的销售业绩情况 进行了统计后制定 年3月份的员工销售计划。数据如表3-1:
根据表中数据,该经理计算出60名业务员销售额的平均数,以此作为计划的 目标值,因为这个平均数反映了60个数据的集中趋势。同时,为了使计划目 标值更加科学合理,还要考虑业务员个体之间的差异性,即要了解这60名业 务员中最高销售额与最低销售额相差多少,每个业务员的销售额与平均数相 差多少。销售额之间的差异越大,那么由此计算出的平均数的代表性就越差 ;反之,销售额之间的差异越小,那么由此计算出的平均数的代表性就越好 。数据之间的这种差异也是制定计划目标的重要依据。
式中:G为几何平均数;xi为变量值;n为
变量值个数;为连乘符号。
2.加权几何平均数
G x x x x x fi 1 f1 2f2 3f3 nfn fi
fi i
式中:G为几何平均数;xi为每组变量值;
fi为每组频数;代表连乘符号
3.1集中趋势的测度
中位数 1.未分组数据的中位数 2.已分组数据的中位数 ❖ 由单项数列确定中位数 ❖ 由组距数列确定中位数 众数 1.由单项数列确定众数 2.由组距数列确定众数
式中:fi为各组变量值出现的频数。
3.1集中趋势的测度
调和平均数
1.简单调和平均数
H
k x1
nk
k x2
xkn
n
x1i
式中:H为调和平均数。
2.加权调和平均数
H
m1 m1 x1
m2 xm22
mn xmnn
mi
mi xi
3.1集中趋势的测度
几何平均数
1.简单几何平均数
Gnx1x2x3 xnn xi
统计学第4章_统计数据分布特征的度量
类型
结构相对数 比例相对数 比较相对数 动态相对数 强度相对数
相对指标比较
计算 方法
同一 总体
总体部分指标数值 总体全部数值
是
总体部分指标数值
总体其他部分数值
是
某条件下某类指标数值
另一条件下同类指标数 值 否
报告期指标数值
基期指标数值
是
某一总量指标数值
否
另一总量指标数值
实际完成数
计划任务数
是
同类 指标
X G 5 0.95 0.92 0.90 0.85 0.80 5 0.5349 88.24﹪
【例】某金融机构以复利计息。近12年来的年 利率有4年为3﹪,2年为5﹪,2年为8﹪,3年 为10﹪,1年为15﹪。求平均年利率。
解:
X G 42 1 1 0.034 1 0.052 1 0.15
n n1
(2)加权调和平均数(分组)
x i1 i
n
xH
m1 m2 ... mn
m1 m2 ... mn
x1
x2
xn
mi
i1
n mi
x i1 i
3.几何平均数 是变量值的连乘积开变量值的项数次方。 (1)简单几何平均数---末分组
n
xG n x1.x2 ...xn n xi i 1
12 2.2154 106.85﹪ 平均年利率 X G 1 106.85﹪1 6.85﹪
案例分析 某公司的生产情况如下: (单位:万元)
计划
第四季度工业增加值
实
际
绝对值
比重%
完成计划 %
第三季度 实际工 业增加 值
报告期 比基 期%
甲
1
2
数据分布特征的测度
xf f
2008.1 课间休息
x1、x2 xn为各组标志值 f1、f2 fn为各组单位数
安徽财经大学统计与应用数学学院
返回
统计学——第4章 数据分布特征的测度
加权算术平均数
STAT
加权算术平均数的适用条件: 在分配数列(单项数列或组距数列)中,各组变量值的
次数不等。
安徽财经大学统计与应用数学学院
6
110—120
5
3
120—130
2
30
80 90 100 110 120 130
身高x
2008.1 课间休息
安徽财经大学统计与应用数学学院
统计学——第4章 数据分布特征的测度
STAT
统计资料经过加工整理形成分布数列后,我们对数据 分布的类型和特征有了一个直观的了解。然而,要作进一 步的统计分析仅靠这些直观了解是远远不够的,我们还需 要使用代表性的数量特征值来准确地描述统计数据的分布 , 以便对不同的研究对象进行分析研究。
返回
统计学——第4章 数据分布特征的测度
算术平均数
STAT
2、计算方法 根据总体资料是否分组,算术平均数具体计算方法可分
为简单算术平均数和加权算术平均数两种。
安徽财经大学统计与应用数学学院
2008.1 课间休息
返回
统计学——第4章 数据分布特征的测度
算术平均数
STAT
(1)简单算术平均数
如果掌握的资料是总体各单位的标志值,而且没有经过分 组,则可先将各单位的标志值相加得出标志总量,然后再除以 总体单位数,通过此种方法计算得到的平均数称为简单算术平 均数。
开机,2ndF,ON,在0的上方出现STAT
15,M+,17,M+,19,M+,20,M+,22,M+,22 M+ ,23 M+ ,23 M+ ,25 M+ ,26 M+ ,30 M+ ,x→M
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
23
描述数据离散程度的测度值
极差和四分位差 平均差 方差和标准差 离散系数
24
作用1:衡量平均值的代表性
离中趋势越大,均值的代表性就越小 例:过去三年,某公司的平均销售额为1200万元, 这可能有三种情况:
25
作用2:反映社会经济活动的均衡性
离散程度可以表明生产过程的节奏性和其他经济活 动的均衡性,因此可以作为企业产品质量控制和评 价经济管理工作的依据。 例:某公司下属两个企业销售额计划完成情况
2
描述集中趋势的统计量
平均数 中位数和分位数 众数
3
一、平均数
平均数:
集中趋势的测度值之一
最常用的测度值
一组数据的均衡点所在 易受极端值的影响
用于数值型数据,不能用于品质型数据
4
一、平均数
5
平均数的计算公式
6
二、中位数和分位数
(一)中位数 集中趋势的测度值之一 排序后处于中间位置上的值 不受极端值的影响
第四章 数据分布特征的测度
主要内容和学习目标:
集中趋势的测度
离散程度的测度 偏度与峰度的测度
1
4.1集中趋势的测度
一组数据向其中心值靠拢的倾向和程度 测度集中趋势就是寻找数据一般水平的代表值或中心值 不同类型的数据用不同的集中趋势测度值 低层次数据的集中趋势测度值适用于高层次的测量数据, 反过来,高层次数据的集中趋势测度值并不适用于低层次 的测量数据 选用哪一个测度值来反映数据的集中趋势,要根据数据的 来型来确定
对某一个值在一组数据中相对位置的度量 可用于判断一组数据是否有离群点 用于对变量的标准化处理
40
标准分数的性质
41
例:
42
43
思考:
在衡量任何现象尤其是不同类型现象的离 散情况,是否有标准差这种类型的测度值 就够了?
44
45
46
47
四、离散系数:比较几组数据的离散程度
48
49
4.3偏态与峰态的度量
7
中位数位置的确定
8
例:9个家庭的人均月收入数据
9
例:10个家庭的人均月收入数据
10
(二)四分位数
集中趋势的测度值之一 排序后处于25%(下四分位)和75%(上四分位) 位置上的值 不受极端值的影响
11
四分位数位置的确定
12
13
三、众数
一组数据中出现次数最多的变量值 适合于数据量较多时使用 不受极端值的影响 可能没有众数或有几个众数 主要用于分类数据,也可用于顺序数据和 数值型数据
30
(二)四分位差
31
二、平均差
离散程度的测度值之一 各变量值与其均值离差绝对值的平均数 能全面反映一组数据的离散程度 数学性质较差,实际应用少 计算公式为:
32
三、方差和标准差
33
34
35
36
37
38
39
相对位置的测量:标准分数
也称标准化值,计算公式为:
26
一、极差和四分位差
27
一、极差和四分位差
(一)极差(全距Range)
离散程度的最简单测度值 易受极端值的影响 未考虑数据的分布
28
例:
29
(二)四分位差
也称为内距或四分位数间距 上四分位数与下四分位数之差
反映了中间50%数据的离散程度 不受极端值的影响 用于衡量中位数的代表性
50
51
一、偏态及其测度
52
二、峰态及其测度
53
例:
54
55
56
57
用Excel计算描述统计量
58
用Excel计算描述统计量 72页习题2
59
60
61
62
63
作业1:
64
65
作业2:
66
答案:
67
68
14
15
例:某城市居民关注广告类型的频数分布
16
例:甲城市家庭对住房状况评价的分布频数
17
四、各度量值的比较
18
四、各度量值的比较
19
四、各度量值的比较
20
各度量值适用的数据类型
21
4.2离散程度的度量
22
4.2离散程度的度量
离散程度 数据分布的另一个重要特征 离中趋势的各测度值是对数据离散程度所作的描述 反映各变量值远离其中心值的程度,因此也称为离 中趋势 从另一个侧面说明了集中趋势测度值的代表程度 不同类型的数据有不同的离散程度测度值