统计学之统计数据的描述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 集中趋势的测度值之一 • 出现次数最多的变量值 • 不受极端值的影响 • 可能没有众数或有几个众数
众数
(不唯一性)
无众数 原始数据: 10 5 9 12 6 8
一个众数 原始数据: 6 5 9 8 5 5
多于一个众数 原始数据: 25 28 28 36 42 42
1、由单项数列求众数
某车间工人 日产 情
(要点)
1. 将一个变量值作为一组
2.适合于变量值较少的
☺
离散变量
☺
☺
☺
组距分组
(要点)
• 将变量值的一个区间作为一组 • 适合于连续变量和变量值较多
的离散变量。 • 需要遵循“不重不漏”的原则 • 有等距分组和不等距分组
☺~ ☺ ☺~ ☺ ☺~ ☺ ☺~ ☺ ☺~ ☺
组距分组
(几个概念)
右偏分布
左偏分布
正J型分布
反J型分布
几种常见的频数分布
U型分布
2.1.4 洛伦茨曲线与基尼 系数
洛伦茨曲线
• 20世纪初美国经济学家、统计学家洛伦茨(M.E. Lorentz)根据意大利经济学家巴雷特(V. Pareto)提出的收入分配公式绘制而成
• 描述收入和财富分配性质的曲线
• 分析该国家或地区分配的平均程度
4615.91 4998.00
资料来源:《中国统计年鉴2001》,中国统计出版社,2001,第305页。 注:本表为城市和县城的城镇居民家庭抽样调查材料。
附 加
统计表的设计
(比较与选用)
2.5.2 统计图
数值型数据的图示
未分组数据—茎叶图和箱线图
STATISTICA
未分组数据—茎叶图
(stem-and-leaf display)
2.2 集中趋势的测度
一. 众数
二. 中位数和分位数 三. 均值
四.众数、中位数和均值的比较
集中趋势
(central tendency)
1. 一组数据向其中心值靠拢的倾向和程度 2. 测度集中趋势就是寻找数据水平的代表
值或中心值 3. 不同类型的数据用不同的集中趋势测度
值
2.2.1 众数
(mode)
结论: 计算结果表明,v1<v2,说明产品销
售额的离散程度小于销售利润的离散程度
2.5 统计表与统计图
2.5.1 统计表
•把统计数据按一定的顺序排列在表格上 ,就形成了统计表。
统计表的结构
1999~2000年城镇居民家庭抽样调查资料
表头
项目
单位 1999年 2000年
列
调查户数 平均每户家庭人口
合计
工人数(人) 累计次数(向上)
10
10
12
22
25
47
30
77
18
95
15
110
10
120
120
—
2.由组距数列求中位数,
下限公式:
L为中位数所在组下限 为中位数所在组以前各组的累计次数 为中位数所在组的次数
从某单位抽查800户,取得人均收入资料如 下表, 计算该单位人均收入的中位数。
人均收入(元 户数(户) 累计次数 )
设有六个工人的日产量(件)依次排列为10、11、 12,13、14、15、则:
中位数位次=(n+1)/2
=6+1/2=3.5
2、由分组资料计算中位数: (1)由单项数列求中位数
例10:某生产车间120名工人生产某种零件的日 产
量如下表所示,计算该车间工人日产量的中位数 。
按日产量分组(件 ) 20 22 24 26 30 32 33
2.2.3
四分位数
(quartile)
1.排序后处于25%和75%位置上的值
25% 25% 25% 25%
QL
QM
QU
四分位数
未分组数据:
2.2.4 均值
(mean)
1. 集中趋势的最常用的测度值
简单算术平均数(simple mean)
加权算术平均数
(weighted mean)
设一组数据为: 相应的频数为:
• 如果B=0,则基尼系数=1,表示收入绝对不 平均
• 基尼系数在0 和1之间取值
• 一般认为,基尼系数若小于0.2,表明分配 平均;基尼系数在0.2至0.4之间是比较适当 的,即一个社会既有效率又没有造成极大的 分配不公;基尼系数在0.4被认为是收入分 配不公平的警戒线,超过了0.4应该采取措 施缩小这一差距。
1. 下限(low limit) : 2. 上限(upper limit) : 3. 组距(class width) : 4. 组中值(class midpoint) :
开口组的组距:以相邻组的组距代 替。 常以组中值来代表各组平均水平。
• 确定组数:
组距分组
(步骤)
斯特杰斯经验公式: 组数=1+3.3 Lg N
频 30 数 25
(天 20
)
15
10
5
直方图下的面 积之和等于1
140 150 160 170 180 190 200 210 220 230 240
某电脑公司销售量分布的直方图
折线图:折线图可以在直方图的基础 上,用折线将各组次数高度的坐标连 接而成,也可以用组中值与次数求坐 标点连接而成
2,而不能取其他
离散系数
离散系数
(coefficient of variation)
1. 标准差与其相应的均值之比 2.对数据相对离散程度的测度 3.消除了数据水平高低和计量单位的影
响 4. 用于对不同组别数据离散程度的比较
【 例 】某管理局抽查了所属的8家企业 ,其产品销售数据如表。试比较产品销售 额与销售利润的离散程度
不受极端值影响 数据分布偏斜程度较大时应用
• 平均数
易受极端值影响 数学性质优良 数据对称分布或接近对称分布时应用
2.3 分布离散程度的测度
一、极差 二、内距 三、方差和标准差 四、离散系数
极差
(range)
• 一组数据的最大值与最小值之差 • 离散程度的最简单测度值 • 易受极端值影响 • 未考虑数据的分布
日产量(件) 11 12 13 14 15 合计
人数(人) 50 60 90 25 15 240
2.由组距数列计算
• 首先确定次数最多的组,即众数组,然 后,用公式计算。 下限公式:
上限公式:
2.2.2
中位数
(median)
• 排序后处于中间位置上的值
50%
50%
Me
2.不受极端值的影响
1、由未分组资料计算中位数
▪
分组标志是划分数据的标准或依据
分组的性质来:兼有分和合双重含义。
2、统计分组的原则 穷尽原则 互斥原则
3、统计分组方法
品质标志分组 数量标志分组
品质分组
➢ 品质标志:性别、职业、所有制等。
分组标志一经确定,组名和组数也随之 确定 品质分组所形成的数列称为品质数列
饮料品 牌
分组数据的图示
(折线图的绘制)
频 30 数 25 (天) 20
15
10
5
折线图与直方图 下的面积相等!
140 150 160 170 180 190 200 210 220 230 240
某电脑公司销售量分布的折线图
曲线图:用平滑曲线连接各组次数坐标点 即得分布曲线。
频数分布的类型
对称分布
2. 各变量值与均值的离差平方和最小
几何平均数
(geometric mean)
1. n 个变量值乘积的 n 次方根
2. 适用于对比率数据的平均 3. 主要用于计算平均增长率
【例】一位投资者持有一种股票,1996年、 1997年、1998年和1999年收益率分别为 4.5%、2.0%、3.5%、5.4%。计算该投资者 在这四年内的平均收益率。
某管理局所属8家企业的产品销售数据
企业编号 1
产品销售额(万元)
x1 170
销售利润(万元)
x2 8.1
2
220
12.5
3
390
18.0
4
430
22.0
5
480
26.5
6
650
40.0
7
950
64.0
8
1000
69.0
v1=
309.19 536.25
=0.577
v2=
23.09 32.5215
=0.710
2. 确定组距: (Class Width) 组距=( 最大值 - 最小值)÷ 组数
3. 统计出各组的频数并整理成频数分布表
2.1.2 次数分配 P17
在分组的基础上,将所有单位归类并列出每 一组的次数,称为次数分布或频数分布。
次数分布数列的两个要素 1)按某标志所分的组。 2)各组所出现的单位数,即频数,亦称 次数。
未分组数据:
组距分组数据:
样本方差P34
自由度(degree of freedom)
• 一组数据中可以自由取值的数据的个数
• 当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中
必有一个数据则不能自由取值
• 例,则如,样x 本= 有5。3个当数值x ,= 即5x确1=2定,后x2,=4x,1,x3x=29和 x自3有由两取个值数,据比可如以x1自=6由,取x2=值7,,那另么一x个3则则必不然能取
累积的收入百分比
绝对公平线
A B
累积的人口百分比
基尼系数
• 20世纪初意大利经济学家基尼(G. Gini)根据洛 伦茨曲线给出了衡收入分配平均程度的指标
• A表示实际收入曲线与绝对平均线之间的面积 • B表示实际收入曲线与绝对不平均线之间的面积
A B
• 如果A=0,则基尼系数=0,表示收入绝对平 均
户
40044 4222.0
标
人
3.14
3.13
题
行
平均每户就业人口
标
平均每户就业面
题
平均一就业者负担人数 平均每人全部年收入
#可支配收入
人
1.77
1.68
数
% 元 元 元
56.43 1.77 5888.77 5854.02
53.67
字
1.86 6316.81 6279.98
资 料
平均每人消费性支出
元
一般用x表示变量;用f表示频数
(次数)。
2.1.3 次数分配图 分组数据—直方图和折线图
Excel
用直方形的宽度和高度来表示次数分 布的图形。
绘制直方图时,横轴表示各组组限, 纵轴表示次数(一般标在左方)和比 率(或频率,一般标在右方)。
分组数据的图示
我一眼就看 出来了,销 售量在170~ 180之间的天 数最多!
400-500
5
5
500-600
45
50
600-700
100
150
700-800
430
580
800-900
168
748
900-1000
42
790
1000以上
10
合计
800
800
—
—
中位数位次=∑f/2=800/2=400,中位 数组 在700-800这一组中。由下限公式
中位数的性质: 数据值与中位数之差的绝对值最小.
平均收益率=103.84%-1=3.84%
众数、中位数和均值的比较
众数、中位数和均值的 关系
均值 中位数 众数 均值 = 中位数 = 众数 众数 中位数 均值
左偏分布
对称分布
右偏分布
众数、中位数和均值的特点和 应用
• 众数
不受极端值影响 具有不唯一性 数据分布偏斜程度较大时应用
• 中位数
可口 可乐
旭日 升冰 茶
百事 可乐
汇源 果汁
露露
合计
人如数不同百品分(牌%比)饮料市场占有率
15
30
11
22
9
18
6
12
9
18
50
100
数量标志分组
➢ 数量标志:年龄、产量、利润等。
首先,各组数量界限的确定必须能反映事物质的 差别。
其次,应根据总体的数量特征,采用适当的分组 形式。
单变量值分组
R = max(xi) - min(xi) 7 8 9 10 7 8 9 10
内距
(Inter-Quartile Range,IQR)
• 也称四分位差
• 上四分位数与下四分位数之差
内 距= Q3 – Q1
• 反映了中间50%数据的离散程度
• 不受极端值的影响
• 可用于衡量中位数的代表性
方差和标准差
统计学之统计数据的描 述
第 2 章 统计数据的描述
2.1 数据的整理
是统计调查的继续,统计分析的前提和基础
将统计调查得到的数据进行加 工整理,使其系统化、条理化, 符合分析的需要。
统计整理的步骤
统计数据的预处 理 统计分组
制作统计表或统计 图
2.1.1 统计数据的分组
1、统计分组含义
按某个标志把总体划分为若干组,称为 统计分组。
x1 ,x2 ,… ,xn f1 , f2 ,… ,fk
(例题分析)
(权数对均值的影响)P34
甲组: 考试成绩(x ): 0
人数分布(f ):1
乙组: 考试成绩(x): 0
人数分布(f ):8
20 100
1
8
20 100
1
1
算术Βιβλιοθήκη Baidu均数
(数学性质) 1.各变量值与均值的离差之和等于零
方差和标准差
(Variance and Standard deviation)
离散程度最常用的测度值
• 反映了各变量值与均值的平均差 异
总体方差和标准差
(Population variance and Standard deviation) 未分组数据:
组距分组数据:
样本方差和标准差
(simple variance and standard deviation)
众数
(不唯一性)
无众数 原始数据: 10 5 9 12 6 8
一个众数 原始数据: 6 5 9 8 5 5
多于一个众数 原始数据: 25 28 28 36 42 42
1、由单项数列求众数
某车间工人 日产 情
(要点)
1. 将一个变量值作为一组
2.适合于变量值较少的
☺
离散变量
☺
☺
☺
组距分组
(要点)
• 将变量值的一个区间作为一组 • 适合于连续变量和变量值较多
的离散变量。 • 需要遵循“不重不漏”的原则 • 有等距分组和不等距分组
☺~ ☺ ☺~ ☺ ☺~ ☺ ☺~ ☺ ☺~ ☺
组距分组
(几个概念)
右偏分布
左偏分布
正J型分布
反J型分布
几种常见的频数分布
U型分布
2.1.4 洛伦茨曲线与基尼 系数
洛伦茨曲线
• 20世纪初美国经济学家、统计学家洛伦茨(M.E. Lorentz)根据意大利经济学家巴雷特(V. Pareto)提出的收入分配公式绘制而成
• 描述收入和财富分配性质的曲线
• 分析该国家或地区分配的平均程度
4615.91 4998.00
资料来源:《中国统计年鉴2001》,中国统计出版社,2001,第305页。 注:本表为城市和县城的城镇居民家庭抽样调查材料。
附 加
统计表的设计
(比较与选用)
2.5.2 统计图
数值型数据的图示
未分组数据—茎叶图和箱线图
STATISTICA
未分组数据—茎叶图
(stem-and-leaf display)
2.2 集中趋势的测度
一. 众数
二. 中位数和分位数 三. 均值
四.众数、中位数和均值的比较
集中趋势
(central tendency)
1. 一组数据向其中心值靠拢的倾向和程度 2. 测度集中趋势就是寻找数据水平的代表
值或中心值 3. 不同类型的数据用不同的集中趋势测度
值
2.2.1 众数
(mode)
结论: 计算结果表明,v1<v2,说明产品销
售额的离散程度小于销售利润的离散程度
2.5 统计表与统计图
2.5.1 统计表
•把统计数据按一定的顺序排列在表格上 ,就形成了统计表。
统计表的结构
1999~2000年城镇居民家庭抽样调查资料
表头
项目
单位 1999年 2000年
列
调查户数 平均每户家庭人口
合计
工人数(人) 累计次数(向上)
10
10
12
22
25
47
30
77
18
95
15
110
10
120
120
—
2.由组距数列求中位数,
下限公式:
L为中位数所在组下限 为中位数所在组以前各组的累计次数 为中位数所在组的次数
从某单位抽查800户,取得人均收入资料如 下表, 计算该单位人均收入的中位数。
人均收入(元 户数(户) 累计次数 )
设有六个工人的日产量(件)依次排列为10、11、 12,13、14、15、则:
中位数位次=(n+1)/2
=6+1/2=3.5
2、由分组资料计算中位数: (1)由单项数列求中位数
例10:某生产车间120名工人生产某种零件的日 产
量如下表所示,计算该车间工人日产量的中位数 。
按日产量分组(件 ) 20 22 24 26 30 32 33
2.2.3
四分位数
(quartile)
1.排序后处于25%和75%位置上的值
25% 25% 25% 25%
QL
QM
QU
四分位数
未分组数据:
2.2.4 均值
(mean)
1. 集中趋势的最常用的测度值
简单算术平均数(simple mean)
加权算术平均数
(weighted mean)
设一组数据为: 相应的频数为:
• 如果B=0,则基尼系数=1,表示收入绝对不 平均
• 基尼系数在0 和1之间取值
• 一般认为,基尼系数若小于0.2,表明分配 平均;基尼系数在0.2至0.4之间是比较适当 的,即一个社会既有效率又没有造成极大的 分配不公;基尼系数在0.4被认为是收入分 配不公平的警戒线,超过了0.4应该采取措 施缩小这一差距。
1. 下限(low limit) : 2. 上限(upper limit) : 3. 组距(class width) : 4. 组中值(class midpoint) :
开口组的组距:以相邻组的组距代 替。 常以组中值来代表各组平均水平。
• 确定组数:
组距分组
(步骤)
斯特杰斯经验公式: 组数=1+3.3 Lg N
频 30 数 25
(天 20
)
15
10
5
直方图下的面 积之和等于1
140 150 160 170 180 190 200 210 220 230 240
某电脑公司销售量分布的直方图
折线图:折线图可以在直方图的基础 上,用折线将各组次数高度的坐标连 接而成,也可以用组中值与次数求坐 标点连接而成
2,而不能取其他
离散系数
离散系数
(coefficient of variation)
1. 标准差与其相应的均值之比 2.对数据相对离散程度的测度 3.消除了数据水平高低和计量单位的影
响 4. 用于对不同组别数据离散程度的比较
【 例 】某管理局抽查了所属的8家企业 ,其产品销售数据如表。试比较产品销售 额与销售利润的离散程度
不受极端值影响 数据分布偏斜程度较大时应用
• 平均数
易受极端值影响 数学性质优良 数据对称分布或接近对称分布时应用
2.3 分布离散程度的测度
一、极差 二、内距 三、方差和标准差 四、离散系数
极差
(range)
• 一组数据的最大值与最小值之差 • 离散程度的最简单测度值 • 易受极端值影响 • 未考虑数据的分布
日产量(件) 11 12 13 14 15 合计
人数(人) 50 60 90 25 15 240
2.由组距数列计算
• 首先确定次数最多的组,即众数组,然 后,用公式计算。 下限公式:
上限公式:
2.2.2
中位数
(median)
• 排序后处于中间位置上的值
50%
50%
Me
2.不受极端值的影响
1、由未分组资料计算中位数
▪
分组标志是划分数据的标准或依据
分组的性质来:兼有分和合双重含义。
2、统计分组的原则 穷尽原则 互斥原则
3、统计分组方法
品质标志分组 数量标志分组
品质分组
➢ 品质标志:性别、职业、所有制等。
分组标志一经确定,组名和组数也随之 确定 品质分组所形成的数列称为品质数列
饮料品 牌
分组数据的图示
(折线图的绘制)
频 30 数 25 (天) 20
15
10
5
折线图与直方图 下的面积相等!
140 150 160 170 180 190 200 210 220 230 240
某电脑公司销售量分布的折线图
曲线图:用平滑曲线连接各组次数坐标点 即得分布曲线。
频数分布的类型
对称分布
2. 各变量值与均值的离差平方和最小
几何平均数
(geometric mean)
1. n 个变量值乘积的 n 次方根
2. 适用于对比率数据的平均 3. 主要用于计算平均增长率
【例】一位投资者持有一种股票,1996年、 1997年、1998年和1999年收益率分别为 4.5%、2.0%、3.5%、5.4%。计算该投资者 在这四年内的平均收益率。
某管理局所属8家企业的产品销售数据
企业编号 1
产品销售额(万元)
x1 170
销售利润(万元)
x2 8.1
2
220
12.5
3
390
18.0
4
430
22.0
5
480
26.5
6
650
40.0
7
950
64.0
8
1000
69.0
v1=
309.19 536.25
=0.577
v2=
23.09 32.5215
=0.710
2. 确定组距: (Class Width) 组距=( 最大值 - 最小值)÷ 组数
3. 统计出各组的频数并整理成频数分布表
2.1.2 次数分配 P17
在分组的基础上,将所有单位归类并列出每 一组的次数,称为次数分布或频数分布。
次数分布数列的两个要素 1)按某标志所分的组。 2)各组所出现的单位数,即频数,亦称 次数。
未分组数据:
组距分组数据:
样本方差P34
自由度(degree of freedom)
• 一组数据中可以自由取值的数据的个数
• 当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中
必有一个数据则不能自由取值
• 例,则如,样x 本= 有5。3个当数值x ,= 即5x确1=2定,后x2,=4x,1,x3x=29和 x自3有由两取个值数,据比可如以x1自=6由,取x2=值7,,那另么一x个3则则必不然能取
累积的收入百分比
绝对公平线
A B
累积的人口百分比
基尼系数
• 20世纪初意大利经济学家基尼(G. Gini)根据洛 伦茨曲线给出了衡收入分配平均程度的指标
• A表示实际收入曲线与绝对平均线之间的面积 • B表示实际收入曲线与绝对不平均线之间的面积
A B
• 如果A=0,则基尼系数=0,表示收入绝对平 均
户
40044 4222.0
标
人
3.14
3.13
题
行
平均每户就业人口
标
平均每户就业面
题
平均一就业者负担人数 平均每人全部年收入
#可支配收入
人
1.77
1.68
数
% 元 元 元
56.43 1.77 5888.77 5854.02
53.67
字
1.86 6316.81 6279.98
资 料
平均每人消费性支出
元
一般用x表示变量;用f表示频数
(次数)。
2.1.3 次数分配图 分组数据—直方图和折线图
Excel
用直方形的宽度和高度来表示次数分 布的图形。
绘制直方图时,横轴表示各组组限, 纵轴表示次数(一般标在左方)和比 率(或频率,一般标在右方)。
分组数据的图示
我一眼就看 出来了,销 售量在170~ 180之间的天 数最多!
400-500
5
5
500-600
45
50
600-700
100
150
700-800
430
580
800-900
168
748
900-1000
42
790
1000以上
10
合计
800
800
—
—
中位数位次=∑f/2=800/2=400,中位 数组 在700-800这一组中。由下限公式
中位数的性质: 数据值与中位数之差的绝对值最小.
平均收益率=103.84%-1=3.84%
众数、中位数和均值的比较
众数、中位数和均值的 关系
均值 中位数 众数 均值 = 中位数 = 众数 众数 中位数 均值
左偏分布
对称分布
右偏分布
众数、中位数和均值的特点和 应用
• 众数
不受极端值影响 具有不唯一性 数据分布偏斜程度较大时应用
• 中位数
可口 可乐
旭日 升冰 茶
百事 可乐
汇源 果汁
露露
合计
人如数不同百品分(牌%比)饮料市场占有率
15
30
11
22
9
18
6
12
9
18
50
100
数量标志分组
➢ 数量标志:年龄、产量、利润等。
首先,各组数量界限的确定必须能反映事物质的 差别。
其次,应根据总体的数量特征,采用适当的分组 形式。
单变量值分组
R = max(xi) - min(xi) 7 8 9 10 7 8 9 10
内距
(Inter-Quartile Range,IQR)
• 也称四分位差
• 上四分位数与下四分位数之差
内 距= Q3 – Q1
• 反映了中间50%数据的离散程度
• 不受极端值的影响
• 可用于衡量中位数的代表性
方差和标准差
统计学之统计数据的描 述
第 2 章 统计数据的描述
2.1 数据的整理
是统计调查的继续,统计分析的前提和基础
将统计调查得到的数据进行加 工整理,使其系统化、条理化, 符合分析的需要。
统计整理的步骤
统计数据的预处 理 统计分组
制作统计表或统计 图
2.1.1 统计数据的分组
1、统计分组含义
按某个标志把总体划分为若干组,称为 统计分组。
x1 ,x2 ,… ,xn f1 , f2 ,… ,fk
(例题分析)
(权数对均值的影响)P34
甲组: 考试成绩(x ): 0
人数分布(f ):1
乙组: 考试成绩(x): 0
人数分布(f ):8
20 100
1
8
20 100
1
1
算术Βιβλιοθήκη Baidu均数
(数学性质) 1.各变量值与均值的离差之和等于零
方差和标准差
(Variance and Standard deviation)
离散程度最常用的测度值
• 反映了各变量值与均值的平均差 异
总体方差和标准差
(Population variance and Standard deviation) 未分组数据:
组距分组数据:
样本方差和标准差
(simple variance and standard deviation)