第4章 数据分布特征的测度

合集下载

统计学习题答案 4~9章

统计学习题答案 4~9章
经管类 核心课程
统计学
第4章 数据分布特征的测度
4.1 一家汽车零售店的10名销售人员5月份销售的汽 车数量(单位:台)排序后如下: 2 4 7 10 10 10 12 12 14 15 要求: (1)计算汽车销售量的众数、中位数和平均数; M 0 10,M e 10,x 9.6, (2)根据定义公式计算四分位数;QL 5.5,QU 12, (3)计算销售量的标准差;
n ( xi x )3 1.08
(4)计算偏态系数和峰态系数;
(n 1)(n 2) s 4 2 2 n(n 1) ( xi x ) 3[ ( xi x ) ] (n 1)
3
(n 1)(n 2)(n 3)s
4
0.77
(5)对网民年龄的分布特征进行综合分析。 样本数据的均值为24岁,但标准差较大,说明网民 年龄之间差异较大.
0
30
60
经管类 核心课程
统计学
第3章 数据的整理与显示
3.1 为评价家电行业售后服务的质量,随机抽取了由 100家庭构成的一个样本。服务质量的等级分别 表示为:A.好;B.较好;C.一般;D.较差;E.差。 调查结果如下表:
B E C C A D C B A E
D
A B C D B
A
D A B A E
SK 0.203,K 0.688
600以上
合计
11
120
(2) 计算分布的偏态系数和峰态系数。
经管类 核心课程
统计学
第4章 数据分布特征的测度
4.7 为研究少年儿童的成长发育状况,某研究所的 一位调查人员在某城市抽取100名7~17岁的少 年儿童作为样本,另一位调查人员则抽取了 1000名7~17岁的少年儿童作为样本。请回答下 面的问题,并解释其原因。 (1)哪一位调查研究人员在其所抽取的样本中得到的 少年儿童的平均身高较大?或者这两组样本的 平均身高相同? (2)哪一位调查研究人员在其所抽取的样本中得到的 少年儿童身高的标准差较大?或者这两组样本 的标准差相同?

第四章 数据分布特征度量

第四章 数据分布特征度量

220-230 230-240 合计
4 5 120
115 120 -
9 5 -
二、定序数据:中位数/四分位数
2. 四分位数(Quartile) 一组数据排序后处于25%、75%位臵上的变量值
25% 25% 25% 25%
QL
QM
QU

四分位数的计算 数据排序 确定四分位数位臵(n/4、 3n/4 ) 确定该位臵上的数值(QL、QU)
1. 极差(全距) 一组数据的最大值与最小值之差 特点 离散程度的最简单测度值 易受极端值影响 未考虑数据的分布
7 8 9 10
计算公式: R = max(xi) - min(xi)
7 8 9 10
2. 平均差(平均绝对离差 ) 各变量值与其平均数离差绝对值的平均数 计算公式 n xi x 简单平均差
可看作是均值的一种变形
X
i 1
n i 1
n
i
1 lg G (lg x1 lg x2 lg xn ) n
lg x
n
i
几何平均法的含义 从最初水平 a0 出发,每期按平均发展速度发展, 经过 n 期后将达到最末期水平 an 只与序列的最初观察值 a0 和最末观察值 an 有关
§4.2

离散趋势的度量
离散趋势 不同类型的数据有不同的 离散程度测度指标 常用测度指标: 异众比率 四分位差 方差和标准差 离散系数
§4.2 离散趋势的度量
一、定类数据:异众比率
非众数组的频数占总频数的比例 特点 用来衡量众数对一组数据的代表程度 主要用于定类数据 计算公式 k fi f m f Vr i 1 k 1 k m fi fi

统计学-数据分布特征

统计学-数据分布特征

2
描述集中趋势的统计
一、平均数
平均数:
集中趋势的测度值之一
最常用的测度值
一组数据的均衡点所在 易受极端值的影响
用于数值型数据,不能用于品质型数据
4
一、平均数
5
平均数的计算公式
6
二、中位数和分位数
(一)中位数 集中趋势的测度值之一 排序后处于中间位置上的值 不受极端值的影响

14
15
例:某城市居民关注广告类型的频数分布
16
例:甲城市家庭对住房状况评价的分布频数
17
四、各度量值的比较
18
四、各度量值的比较
19
四、各度量值的比较
20
各度量值适用的数据类型
21
4.2离散程度的度量
22
4.2离散程度的度量
离散程度 数据分布的另一个重要特征 离中趋势的各测度值是对数据离散程度所作的描述 反映各变量值远离其中心值的程度,因此也称为离 中趋势 从另一个侧面说明了集中趋势测度值的代表程度 不同类型的数据有不同的离散程度测度值
50
51
一、偏态及其测度
52
二、峰态及其测度
53
例:
54
55
56
57
用Excel计算描述统计量
58
用Excel计算描述统计量 72页习题2
59
60
61
62
63
作业1:
64
65
作业2:
66
答案:
67
68

对某一个值在一组数据中相对位置的度量 可用于判断一组数据是否有离群点 用于对变量的标准化处理
40
标准分数的性质
41
例:

第四章 数据分布特征的测度

第四章     数据分布特征的测度

第四章数据分布特征的测度教学目的与要求:统计平均指标是表明总体数量特征的一个重要指标,它是将总体各单位标志值的差异抽象化,反映总体各单位标志值的一般水平,揭示总体分布的集中趋势。

变异指标是反映总体各单位标志值的差异程度,揭示总体分布离中趋势的又一重要数量特征指标。

通过本章的学习,要求理解统计平均指标的意义和作用;掌握各种统计平均指标的特点、应用条件、应用范围和计算方法;理解变异指标的意义和作用;掌握各种变异指标的性质和计算方法;能运用变异指标衡量平均数代表性的大小。

教学重点与难点:重点为各种平均指标和变异指标的概念、特点、应用条件、应用范围和计算方法。

难点是不同条件下平均指标和变异指标的计算。

统计数据经过整理和显示后,对数据分布的形状和特征就可以有一个大致的了解。

为进一步掌握数据分布的特征和规律,进行更深入的分析,还需要找到反映数据分布特征的各个代表值。

对一组数据分布的特征,可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢和聚集的程度;二是分布的离散程度,反映各数据远离中心值的趋势;三是分布偏态和峰态,反映数据分布的形状。

这三个方面分别反映了数据分布特征的不同侧面。

第一节集中趋势的测度集中趋势是指一组数据向某一中心值靠拢的倾向,它反映了一组数据中心点的位置所在。

测度集中趋势也就是寻找数据一般水平的代表值或中心值。

低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据。

因此,选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型和特点来确定。

一、分类数据:众数(M o)众数是指一组数据中出现次数最多的变量值。

•出现次数最多的变量值•不受极端值的影响•一组数据可能没有众数或有几个众数•主要用于分类数据,也可用于顺序数据和数值型数据从分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数。

第四章 数据分布特征的度量_1_

第四章 数据分布特征的度量_1_

第四章思考与习题一、思考题1.什么是集中趋势?测度集中趋势常用指标有哪些?2.算术均值.众数和中位数有何关系?3.什么是几何平均数?其适用场合是什么?4.什么叫离散趋势?测度离散趋势常用指标有哪些?5.为什么要计算离散系数?二、练习题(一)填空题1.统计数据分布的特征,可以从三个方面进行测度和描述:一是分布的__________,反映所有数据向其中心值靠拢或聚集的程度;二是分布的__________,反映各数据远离其中心值的趋势;三是分布的__________,反映数据分布的形状。

2.在某城市随机抽取13个家庭,调查得到每个家庭的人均月收入数据如下:1080.750.1080.850.960.2000.1050.1080.760.1080.950.1080.660,则其众数为,中位数为。

3.算术均值有两个重要数学性质:各变量值与其算术均值的__________等于零;各变量值与其算术均值的__________等于最小值。

4.简单算术均值是__________的特例。

4.几何均值主要用于计算__________的平均。

5.在一组数据分布中,当算术均值大于中位数大于众数时属于________分布;当算术均值小于中位数小于众数时属于________分布。

6.__________是各变量值与其均值离差平方的平均数,是测度数值型数据__________最主要的方法。

7.为了比较人数不等的两个班级学生的学习成绩的优劣,需要计算__________;而为了说明哪个班级学生的学习成绩比较整齐,则需要计算________。

8.偏态是对数据分布__________或__________的测度;而峰度是对数据分布_________的测度。

(二)判断题1.众数的大小只取决于众数组与相邻组次数的多少。

()2.当总体单位数n为奇数时,中位数=(n+1)/2。

()3.根据组距分组数据计算的均值是一个近似值。

()4.若已知甲企业工资的标准差小于乙企业,则可断言:甲企业平均工资的代表性好于乙企业。

数据分布特征的测度.

数据分布特征的测度.

n
0 8 20 1 100 1 12(分) 10
均值的数学性质
1. 各变量值与均值的离差之和等于零
(x x) 0
i 1 n i
n
2. 各变量值与均值的离差平方和最小
(x x)
i 1 i
2
min
二、调和平均数 (倒数平均数 Harmonic mean)
甲 乙 丙

15 20 30
试指出那个厂的总平均成本高,其原因何在?
练习3: 计算某地区工业企业产值平均计划完成程度
计划完成%
90以下 90——100 100——110 110——120 120以上 合计
企业数(个)
7 22 57 26 3 115
计划产值(万元)
140 310 1650 710 40 2850
均值(mean)
1.
2. 3. 4. 5.
集中趋势的最常用测度值 一组数据的均衡点所在 体现了数据的必然性特征 易受极端值的影响 用于数值型数据,不能用于分类数据和顺 序数据
一、算术平均数(Arithmetic mean)
(一)简单算术平均数
X X N

i
例:有5名工人生产的零件数分别为:15、16、17、18、 19,平均零件数为多少?
xf xA Ax x x f A nA n
例:计算某车间工人平均工资(单项式)
某班组工人平均工资的计算(单项式数列)
工资(x) 500 530
740 860 1020 合计

工人数(f) 2 4
8 5 1 20
工资总额(xf) 1000 2120
5920 4300 1020 14360

第四章数据分布特征的测度

第四章数据分布特征的测度

第四章数据分布特征的测度一、选择题1.一组数据中出现频数最多的变量值称为()。

A.众数B.中位数C.四分位数D.均值2.下列关于众数的叙述,不正确的是()。

A.一组数据可能存在多个众数B.众数主要适用于分类数据C.一组数据的众数是唯一的D.众数不受极端值的影响3.一组数据排序后处于中间位置上的变量值称为()。

A.众数B.中位数C.四分位数D.均值4.一组数据排序后处于25%和75%位置上的值称为()。

A.众数 B.中位数C.四分位数D.均值5.非众数组的频数占总额数的比率称为()。

A.异众比率B.离散系数C.平均差D.标准差6.如果一个数据的标准分数是-2,表明该数据()。

A.比平均数高出2个标准差B.比平均数低2个标准差C.等于2倍的平均数D.等于2倍的标准差7.比较两组数据的离散程度最适合的统计量是()。

A.极差B.平均差C.标准差D.离散系数8.偏度系数测度了数据分布的非对称性程度。

如果一组数据的分布是对称的,则偏度系数()。

A.等于0 B.等于1 C.大于0 D.大于1 9.某专家小组成员的年龄分别为29,45,35,43,45,58,他们的年龄中位数为()。

A.45 B.40 C.44 D.3910.某居民小区准备建一个娱乐活动场所,为此,随机抽取了80户居民进行调查,其中表示赞成的有59户,表示中立的有12户,表示反对的有9户。

该组数据的中位数是()。

A.赞成B.59 C.中立D.1211.对于右偏分布,均值、中位数和众数之间的关系是()。

A .均值>中位数>众数B .中位数>均值>众数C .众数>中位数>均值D .众数>均值>中位数12.某班学生的大学英语平均成绩是70分,标准差是10分。

如果已知该班学生的考试分数为对称分布,可以判断成绩在60分~80分之间的学生大约占( )。

A .95%B .89%C .68%D .99%13.当一组数据中有一项为零时,不能计算( )。

第四章 数据分布特征的测度讲解

第四章  数据分布特征的测度讲解

第四章数据分布特征的测度学习目的和要求:通过本章的学习,掌握数据分布特征的各种描述方法;掌握不同测度方法的特点、应用条件及应用场合;能利用所学的方法对统计数据作各种统计描述。

难点释疑:(一)算术平均数通常用来反映总体分布的集中趋势,调和平均数往往只作为算术平均数的变形来使用,即在已知标志总量而未知总体单位总量的情况下计算调和平均数;而几何平均数较适用于计算平均比率和平均速度。

(二)调和平均数虽然是根据标志值的倒数计算的,但其结果不等于算术平均数的倒数。

在计算和应用平均指标时,除了考虑数理方面的要求外,更重要的是要考虑其现实的经济意义。

(三)平均数的性质是简捷计算法的基础,也是计算标志变异指标的基础。

掌握中位数和众数与算术平均数的关系的目的是能够根据其中的两个平均数大体计算出第三个平均数,并判断总体的分布状态。

(四)全距、四分位差、平均差、标准差在反映标志变异程度方面各有优缺点。

全距是描述数据离散程度的最简单测度值,它计算简单,易于理解,但不能全面反映总体各单位标志值的差异程度。

标准差与平均差的意义基本相同,但在数学性质上比平均差要优越,所以,在反映标志变动度大小时,一般都采用标准差。

标准差是实际中应用最广泛的离散程度测度值。

(五)标准差系数的应用。

为了对比和分析不同平均水平总体的标志差异程度,就需要使用标准差系数。

它是标志变异的相对指标。

它既消除了变量数列变量值差异程度的影响,也消除了变量数列水平高低的影响。

练习题:(一)单项选择题(在下列备选答案中,只有一个是正确的,请将其顺序号填入括号内)1.平均指标反映了()。

①总体变量值分布的集中趋势②总体分布的离散特征③总体单位的集中趋势④总体变动趋势2.加权算术平均数的大小( )。

①受各组标志值的影响最大 ②受各组次数的影响最大③受各组权数系数的影响最大 ④受各组标志值和各组次数的共同影响3.在变量数列中,如果变量值较小的一组权数较大,则计算出来的算术平均数( )。

统计学第4章_统计数据分布特征的度量

统计学第4章_统计数据分布特征的度量

类型
结构相对数 比例相对数 比较相对数 动态相对数 强度相对数
相对指标比较
计算 方法
同一 总体
总体部分指标数值 总体全部数值

总体部分指标数值
总体其他部分数值

某条件下某类指标数值
另一条件下同类指标数 值 否
报告期指标数值
基期指标数值

某一总量指标数值

另一总量指标数值
实际完成数
计划任务数

同类 指标
X G 5 0.95 0.92 0.90 0.85 0.80 5 0.5349 88.24﹪
【例】某金融机构以复利计息。近12年来的年 利率有4年为3﹪,2年为5﹪,2年为8﹪,3年 为10﹪,1年为15﹪。求平均年利率。
解:
X G 42 1 1 0.034 1 0.052 1 0.15
n n1
(2)加权调和平均数(分组)
x i1 i
n
xH
m1 m2 ... mn
m1 m2 ... mn
x1
x2
xn
mi
i1
n mi
x i1 i
3.几何平均数 是变量值的连乘积开变量值的项数次方。 (1)简单几何平均数---末分组
n
xG n x1.x2 ...xn n xi i 1
12 2.2154 106.85﹪ 平均年利率 X G 1 106.85﹪1 6.85﹪
案例分析 某公司的生产情况如下: (单位:万元)
计划
第四季度工业增加值


绝对值
比重%
完成计划 %
第三季度 实际工 业增加 值
报告期 比基 期%

1
2

第4章 数据的分布特征的测定

第4章 数据的分布特征的测定

4 N+ 下四分位数(QL)位置 = 1 4 3(N+1) 上四分位数(QU)位置 = 4
4 - 23
经济、管理类 基础课程
顺序数据的四分位数
(算例)
统计学
【例4.4】根据第三章表3-2中的数据,计算甲城市家庭对住房 满意状况评价的四分位数
表3-2 甲城市家庭对住房状况评价的频数分布 解:下四分位数(QL)的位置为: QL位置=(300)/4=75 上四分位数(QL)的位置为: QU位置=(3×300)/4=225 从累计频数看, QL在“不满意 ”这一组别中; QU在“一般” 这一组别中。因此 QL =不满意 QU =一般
偏 态
均 值
4-3
异众比率 四分位差 方差和标准差 离散系数
峰 度
经济、管理类 基础课程
统计学
第一节 集中趋势的测度
一、集中趋势的含义 二、众数 三、中位数 四、均值 五、众数、中位数和均值的比较
4-4
经济、管理类 基础课程
一、集中趋势
(Central tendency)
统计学
1. 一组数据向其中心值靠拢的倾向和程度 2. 测度集中趋势就是寻找数据一般水平的代表值或中心值 3. 不同类型的数据用不同的集中趋势测度值
中位数
(位置的确定)
统计学
N 顺序数据与分组 中位数位置 2 数据: N 1 未分组数据: 中位数位置 2
4 - 15
经济、管理类 基础课程
顺序数据的中位数
(算例)
统计学
【例4.2】根据第三章表3-2中的数 据,计算甲城市家庭对住房满意状 况评价的中位数
表3-2 甲城市家庭对住房状况评价的频数分布
X 1 F1 X 2 F2 X N FN X F1 F2 FN

stata第4章 数据分布特征

stata第4章 数据分布特征

广告类型
商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告
合计
人数(人)
112 51 9 16 10 2
200
频率(%)
56.0 25.5 4.5 8.0 5.0 1.0
100
12
f max
Mo=商品广告
4.1 分布集中趋势的测度
二、位置平均数
4.1.1 分类数据:众数
2、定序数据的众数
19 1
12 13
Position of Q1 4 2.5 Q1 2 12.5
25
4.1 分布集中趋势的测度
4.1.3 数值型数据:平均数
均值(mean)
集中趋势的最常用测度值 一组数据的均衡点所在,如同翘翘板的支点 用于定量数据,不能用于定性数据资料 易受到极端值或离群值得影响
26
30
4.1 分布集中趋势的测度
4.1.3 数值型数据:平均数
例解
组下限 组上限
fi
组中值x i
3
4
34
3.5
4
5
13
4.5
5
6
24
5.5
6
7
32
6.5
103
x
xi fi n
517.5 103
x i×f i 119 58.5 132 208 517.5
31
4.1 分布集中趋势的测度
4.1.3 数值型数据:平均数
22
4.1 分布集中趋势的测度
分位数
分位数
中位数又称为二分位数,即将数字数据由 小至大排序后,切成二部分。大于及小于 中位数者刚好各占所有数字数据的一半
除了将数据作半切割外,我们也可以将数 据切成四等分、十等分、或一百等分

第四章 数据分布特征的测度

第四章 数据分布特征的测度

第四章数据分布特征的测度【教学要求】了解绝对数和相对数的概念及作用,掌握绝对数的种类、相对数的种类及应用;掌握集中趋势的测度方法,掌握算术平均数、调和平均数、几何平均数、众数、中位数的计算方法及应用;掌握离散程度的测度方法,理解全距、四分位差、异众比率、平均差的概念及计算方法,掌握标准差、离散系数的计算方法及应用;了解偏态与峰度的测度方法。

【知识点】绝对数、相对数、术平均数、调和平均数、几何平均数、众数、中位数、全距、四分位差、异众比率、平均差、标准差、离散系数【本章重点】相对数的种类及应用;算术平均数、调和平均数、几何平均数、众数、中位数的计算方法及应用;理解全距、四分位差、异众比率、平均差的概念及计算方法,掌握标准差、离散系数的计算方法及应用。

【本章难点】算术平均数、调和平均数、几何平均数、众数、中位数的计算方法及应用;理解全距、四分位差、异众比率、平均差的概念及计算方法,掌握标准差、离散系数的计算方法及应用。

【教学内容】第一节绝对数和相对数统计指标就其具体内容来讲非常多,可谓成千上万,但从其基本形式看,则不外乎总量指标、相对指标和平均指标三种类型,统称统计综合指标。

一、绝对数(一)绝对数的概念和种类1、绝对数的作用主要表现在:(1)绝对数可以反映一个国家、地区、部门或单位的基本情况(2)绝对数是制定政策、编制计划以及进行科学管理的重要依据(3)绝对数是计算相对数和平均数的基础相对数和平均数是由两个有联系的总量指标对比计算出来的统计综合指标,无论是相对指标还是平均指标,都是总量指标的派生指标,没有总量指标就不会有相对指标和平均指标。

例如,职工劳动生产率、职工平均工资、宏观经济增长速度、国民经济发展的重要比例关系、农作物单位面积产量等都是在总量指标的基础上计算出来的。

(二)绝对数的种类1、按反映总体内容不同分为总体单位总量和总体标志总量。

例、某业企业职工人数1,000人,工资总额1980,000元。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

.
调和平均数
调和平均数的概念: 也叫倒数平均数, 一般认为是算术平均数的变形。
m1 m2 ... mn xH mn m1 m2 ... x1 x2 xn
.
m m x
.
几何平均数
几何平均数(G)的概念: 它是分布数列中n个 单位标志值连乘积的n次方根。 适用于计算时间上相互衔接的比率的平均数 ; 主要用于计算平均发展速度; 计算公式为:
百分比 (%) 8 36 31 15 10 100.0
解:这里的数据为定 序数据。变量为“回 答类别”
该城市中对住房 表示不满意的户数最 多 , 为 108 户 , 因 此 众数为“不满意”这 一类别,即
Mo=不满意
统计函数—MODE
4.1.2
中位数(median)
1. 按数值大小排序后处于中间位置上的值;
.
表4-4 某电脑公司销售量数据分组表
按销售量分组
140~150 150~160 160~170 170~180 180~190 190~200 200~210 210~220 220~230 230~240 合计
组中值(Mi)
145 155 165 175 185 195 205 215 225 235 —
第4章 数据分布特征的测度
数据分布特征的描述
Std. Dev = 1.09 Mean = -.04 N = 100.00
数据的“中间位置”
离散程度的度量
这两个数据“胖瘦”一样吗?
数据分布的特征
集中趋势 (位置) 离中趋势 (分散程度) 偏态和峰态 (形状)
数据分布特征的描述
数据的分布特征和测度
R = max(xi) - min(xi)
平均差
1. 各变量值与其平均数离差绝对值的平均数; 2. 能全面反映一组数据的离散程度; 3. 数学性质较差,实际中应用较少。 4. 计算公式为:
?试计算 工人平均 工资。
工资额(元)
工人数(人)
xf
2300 7800 10800 7000 1700 29600
460 权算术平均数, 520 可用组中值代 600 700 表各组变量值。 850 合 计
单 位标志总量 算术平均数 单位数
工资总额 各组工资总额xf 29600 50 工人总数 各组工人数f 592 .
频数
15 11 9 6 9 50
比例
0.30 0.22 0.18 0.12 0.18 1
百分比 (%) 30 22 18 12 18 100
Mo=可口可乐
定序数据的众数(例题分析)
表4-1 某城市家庭对住房状况评价的频数分布
回答类别 非常不满意 不满意 一般 满意 非常满意 合计
户数 (户) 24 108 93 45 30 300
X1f1 X 2f2 X NfN X f1 f2 fN
X f
i1 K
K
ii
f
i1
i
.
例4-3:某厂工人各级别工资额和相应工人数资料如下表4-5:
表4-3 各组标志值
× 各组单位数
f
5 15 18 10 2 50
=
各组标志总量 工资总额(元)
注意:由组 x 距数列计算加
箱线图的构成
箱线图的构成:
X 最小值 QL 中位数 QU X 最大值
4
6
8
10
12
Median/Quart./Range箱线图
单批数据箱线图
最小值 141
下四分位数 中位数 170Байду номын сангаас8 182
上四分位数 197
最大值 237
140
150
160
170
180
190
200
210
220
230 240
某电脑公司销售量数据的 Median/Quart./Range箱线图
n i 1 2 ( X X ) min i i 1
1.
数据类型和所适用的集中趋势测度值
表4-5 数据类型和所适用的集中趋势测度值 数据 类型 适 用 的 测 度 值 定类数据 众数 — — — — — — — 定序数据 中位数 众数 定距数据 定比数据
算术平均数 算术平均数 众数 中位数 调和平均数 几何平均数 中位数 众数
数值型数据
众数 中位数
定类数据
(位置平均数)
定序数据
低层次数据的集中趋势测度值适用于高层次 的测量数据,反过来,高层次数据的集中趋 势测度值并不适用于低层次的测量数据
4.1.1 众数(mode)
1. 一组数据中出现次数最多的变量值; 2. 适合于数据量较多时使用; 3. 不受极端值的影响; 4. 一组数据可能没有众数或有几个众数; 5. 主要用于分类数据,也可用于顺序数据和数值 型数据。
80 90 259
平均数为80 平均数为80 平均数为80
异众比率(variation ratio)
1. 对分类数据离散程度的测度; 2. 非众数组的频数占总频数的比例; 3. 计算公式为:
vr
f f f
i i
m
fm 1 fi
4. 用于衡量众数的代表性。
异众比率 (例题分析)
4.1
集中趋势的测度
集中趋势指标
集中趋势指标(也叫平均指标)反映同类现 象的一般水平或平均水平,是总体内各单位参差 不齐的标志值的代表值,也是对变量分布集中趋 势的测定。 数据集中位置
x
变量x
它是一个抽象值; 它是一个代表值; 它反映了总体(各单位标志值)分布的集中趋势。
算术平均数 按计算方 法不同 调和平均数 几何平均数 数 值 平均数
n为奇数 n为偶数
未分组数据—箱线图(box plot)
1. 2.
3.
用于显示未分组的原始数据的分布; 由一组数据的 5 个特征值绘制而成,它由一个箱子 和两条线段组成; 绘制方法:
首先找出一组数据的 5 个特征值,即最大值、最小值、 中位数Me和两个四分位数 (下四分位数QL和上四分位数 Q U ); 连接两个四分位数画出箱子,再将两个极值点与箱子相 连接; 该箱线图也称为Median/Quart./Range箱线图 。
50%
Me
50%
2. 不受极端值的影响; 3. 主要用于定序数据,也可用定量数据,但不能用 于定类数据;
数值型数据的中位数(奇数个数据)
例4-1: 9个家庭的人均月收入数据
1080 850 960 2000 1250 1630 960 1080 1250 1500 1630 2000 原始数据: 1500 750 780 排 序: 750 780 850 位 置:
.
几何平均数(例题分析)
例4-5:一位投资者持有一支股票,在2000、2001、 2002、2003年的收益率分别为4.5%、2.1%、25.5%和 1.9%。计算该股票在这四年中的平均收益率。
.
G n x1.x2 .x3 ...xn 4 104.5% 102.1% 125.5% 101.9% 1 8.0787%
分布的形状与箱线图
QL 中位数 QU QL 中位数 QU Q L 中位数 QU
左偏分布
对称分布
不同分布的箱线图
右偏分布
未分组数据—箱线图(box plot)
箱式图包含的信息比直方图和茎叶图都少,所以 它的最佳用途是用来同时比较多个分布。 例如 , 为了解不同教育程度的人的收入差别,根 据某年 71512 个人的收入的抽样调查结果,得到的不 同受教育程度的人的收入分布如下图:
4.1.3
算术平均数
N
设一组数据为:X1 ,X2 ,… ,XN 简单算术平均数的计算公式为(未分组数据)
X1 X 2 X N i1 X N N
X
i
各单位标 设分组后的数据为:X1 ,X2 ,… ,XK 志值的和 相应的频数为: f1 , f2,… ,fK 总单 加权算术平均数的计算公式为(分组数据) 位数
7
8
9
10
n 1 10 1 位置 5.5 2 2

960 1080 中位数 1020 2
箱式图
中位数(位置和数值的确定)
n 1 位置确定 中位数位置 2 x n1 2 数值确定 M e 1 x n x n 1 2 2 2
众数
一个众数 原始数据:
无众数 原始数据:
6 10
5 5
9 9 12
8 6
5 8
5
多于一个众数 原始数据: 25 28 28 36 42 42
定类数据的众数 (例题分析)
不同品牌饮料的频数分布 饮料品牌
可口可乐 旭日升冰茶 百事可乐 汇源果汁 露露 合计 解:这里的变量为“饮 料品牌”,这是个定类 变量,不同类型的饮料 就是变量值 所调查的 50 人中, 购买可口可乐的人数最 多,为15人,占被调查 总人数的 30% ,因此众 数为“可口可乐”这一 品牌,即
不同品牌饮料的频数分布 饮料品牌 可口可乐 旭日升冰茶 百事可乐 汇源果汁 露露 频数 15 11 9 6 9 比例 0.30 0.22 0.18 0.12 0.18 百分比 (%) 30 22 18 12 18
解:
vr
50 15 50 15 1 50 0.7 70%
合计
50
1
100
在所调查的50人当中,购 买其他品牌饮料的人数占 70% ,异众比率比较大。因 此,用“可口可乐”代表消 费者购买饮料品牌的状况, 其代表性不是很好。
极差(range)
相关文档
最新文档