统计学贾俊平第3章数据的图表展示
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
上限(upper limit) :一个组的最大值
组距(class width) :上限与下限之差
组中值(class midpoint) :下限与上限之间 的中点值
组中值 = 下限值+上限值 2
45
All rights reserved
【例】某电 脑公司连续 个月各天的 销售量数据( 单位:台)。 试对数据进 行分组
一般
93 31 225 75.0 168 56
满意
45 15 270 90.0 75 25
非常满意 30 10 300 100.0 30 10
合计
300 100.0 —
—
—
—
37
All rights reserved
顺序数据的频数分布表
回答类别
乙城市家庭对住房状况评价的频数分布
乙城市
户数 百分比 (户) (%)
绿色
健康饮品
用Excel制作频数分布表
27
All rights reserved
分类数据的图示—Bar图
用宽度相同的条形的高度或长短来表示各 类别数据的图形
有单式条形图、复式条形图等形式 主要用于反映分类数据的频数分布 绘制时,各类别可以放在纵轴,称为条形
图,也可以放在横轴,称为柱形图
28
数数据据的的预预处处理理
数据审核
检查数据中的错误
数据筛选
找出符合条件的数据
数据排序
升序和降序 寻找数据的基本特征
数据透视
按需要汇总
15
All rights reserved
数据审核—原始数据
完整性审核
应调查的单位或个体是否有遗漏 所有的调查项目或变量是否填写齐全
准确性审核
数据是否真实反映实际情况,内容是否符 合实际
21
All rights reserved
数据透视表
数据透视表(pivot table )
▪ 以从复杂的数据中提取有用的信息 ▪ 可以对数据表的重要信息按使用者的习
惯或分析要求进行汇总和作图
▪ 形成一个符合需要的交叉表(列联表) ▪ 在利用数据透视表时,数据源表中的首
行必须有列标题 表3.2
22
All rights reserved
24
All rights reserved
分类数据的整理
列出各类别 计算各列的频数 制作频数分布表 用图形显示数据
25
All rights reserved
分类数据的整理
频数(frequency) :落在各类别中的数据个数 比率(proportion) :某一类别数据个数占全
部数据个数的比值 百分比(percentage) :将对比的基数作为100
42
All rights reserved 42
数据分组
将变量值的一个区间作为一组 适合于连续变量 适合于变量值较多的情况 需要遵循“不重不漏”的原则 可采用等距分组,也可采用不等距分组
43
All rights reserved
组距分组
确定组数:组数的确定应以能够显示数据的 分布特征和规律为目的。在实际分组时,组 数一般为5K 15
3.2 品质数据的整理与展示
23
All rights reserved 23
数据的整理与显示
明确面对的数据类型。不同类型的数据,采 取不同的处理方式和方法
对分类数据和顺序数据主要是作分类整理 对数值型数据则主要是作分组整理 适合于低层次数据的整理和显示方法也适合
于高层次的数据;但适合于高层次数据的整 理和显示方法并不适合于低层次的数据
7
All rights reserved
图表的力量
法国科学家 Marey称:该图所展现出的雄辩对历史 学家的笔是一种极大的挑战
8
All rights reserved
图表的力量
进出口时间序列
Playfair (1786)绘制的线图。这幅图主要展示了1700年至 1780年间英格兰的进出口时序数据
第3章 数据的图表展示
➢ 3.1 数据的预处理 ➢ 3.2 品质数据的整理与展示 ➢ 3.3 数值型数据的整理与展示 ➢ 3.4 合理使用图表
1
All rights reserved 1
参考书
2
All rights reserved 2
参考书
3
All rights reserved 3
参考书
4
确定组距:组距(Class Width)是一个组的上限 与下限之差,可根据全部数据的最大值和最 小值及所分的组数来确定,即 组距=( 最大值 - 最小值)÷ 组数
统计出各组的频数并整理成频数分布表
44
All rights reserved
组距分组
确定组距:组距(下限(lower limit) :一个组 的最小值
38
12.7
合计
300 100.0 —
—
—
—
38
All rights reserved
顺序数据的图示—累计频数分布图
400 累 积 300 户 数 200
(户1)00
400 累
225 270 300
积 300 户 300
276
数 200
168
132
(户) 100
75
0 24
0
30
非常 不满意 一般 满意 非常
一图胜千言
John Tukey:“图形的最大价值就是使我 们注意到我们从来没有料到过的信息”
6
All rights reserved
图表的力量
历史上著名的统计图表
拿破仑的大军团进军俄国
Minard绘制的地图,展现了1812年拿破仑的 大军团进军俄国的路,线(上半部分)和撤 退时的气温变化(下半部分)。这一历史事 件中,法军数量的急剧减少以及恶劣的气候 条件一览无遗
顺序数据的整理
(可计算的统计量)
对分类数据和顺序数据主累积频数 (cumulative frequencies):各类别频数的 逐级累加
累积频率(cumulative percentages):各类 别频率(百分比)的逐级累加
36
All rights reserved
顺序数据的频数分布表
【例】在一项城 市住房问题的研 究中,研究人员 在甲乙两个城市 各抽样调查300户 ,其中的一个问 题是:“您对您 家庭目前的住房 状况是否满意? ”
All rights reserved 4
参考书
5
All rights reserved 5
图表的力量
统计图表的意义
“给我10页纸的报告,必须有9页是数据 和图表分析,还有1页是封面”
“文不如表,表不如图”
Graphs are the most effective way to communicate using data
11
All rights reserved
图表的力量(续)
统计地图
1854年英国Broad大街大规模爆发霍乱,当时 了解微生物理论的人很少,人们不清楚霍乱 传播途径,而“瘴气传播理论”是当时的主 导理论; John Snow对这种理论表示了怀疑,于1849年 发表了关于霍乱传播理论的论文,本图即其 主要依据
8名学生的考试成绩数据
19
All rights reserved
数据排序
数据排序(Sort)
▪ 按一定顺序将数据排列,以发现一些明显
的特征或趋势,找到解决问题的线索
▪ 排序有助于对数据检查纠错,以及为重新
归类或分组等提供依据
▪ 在某些场合,排序本身就是分析的目的之
一排序可借助于计算机完成
20
All rights reserved
主要用于表示样本或总体中各组成部分所占 的比例,用于研究结构性问题
绘制圆形图时,样本或总体中各部分所占的 百分比用圆内的各个扇形角度表示,这些扇 形的中心角度,按各部分数据百分比乘以 3600确定
34
All rights reserved
顺序数据的整理与图示
35
All rights reserved
All rights reserved
29
All rights reserved 29
帕累托图
30
All rights reserved 30
例析
频数汇总
罪犯的例子
改造方式 监狱 文学课 总计
无新罪 22 32 54
新罪 18 6 24
总计 40 38 78
31
All rights reserved
用于结构比较研究
用于展示分类和顺序数据
40
All rights reserved
环形图
13%
7%
10% 8%
15% 21%
33% 36%
31% 26%
甲乙两城市家庭对住房状况的评价
41
非常不满意 不满意 一般 满意 非常满意
All rights reserved
3.3 数值型数据的整理与展示
数据筛选
当数据中的错误不能予以纠正,或者有些数 据不符合调查的要求而又无法弥补时,需要对 数据进行筛选
数据筛选的内容
▪ 将某些不符合要求的数据或有明显错误
的数据予以剔除
▪ 将符合某种特定条件的数据筛选出来,
而不符合特定条件的数据予以剔除
18
All rights reserved
数据筛选
用Excel例3.1进行数据筛选
数据排序
分类数据的排序
字母型数据,排序有升序降序之分,但习
惯上用升序
汉字型数据,可按汉字的首位拼音字母排
列,也可按笔画排序,其中也有笔画多少 的升序降序之分
数值型数据的排序
递递增增排排序序后:可设表一示组为数:据x为(1)<xx1,(2)<x…2,<…x(n,) xn, 递减排序:可表示为:x(1)>x(2)>…>x(n)
1.非常不 满意;2.不满意 ;3.一般;4. 满意;5.非常满 意。
甲城市家庭对住房状况评价的频数分布
甲城市
回答类别
户数 百分比 (户) (%)
向上累积
户数 百分比 (户) (%)
向下累积
户数 百分比 (户) (%)
非常不满意 24
8
24
8.0 300 100.0
不满意
108 36 132 44.0 276 92
而计算的比值 比例(ratio) :不同类别数值个数的比值
26
All rights reserved
分类数据整理—频数分布表
例3.3 一家市场调查公司 为研究不同品牌饮料的市 场占有率,对随机抽取的 一家超市进行了调查。调 查员在某天对50名顾客购 买饮料的品牌进行了记录 ,如果一个顾客购买某一 品牌的饮料,就将这一饮 料的品牌名字记录一次 。右边就是记录的原始数 据
向上累积
户数 百分比
(户)
(%)
向下累积
户数 百分比 (户) (%)
非常不满意 21
7.0
21
7.0 300 100.0
不满意
99 33.0 120
40.0 279
93.0
一般
78 26.0 198
66.0 180 60.0
满意
64 21.3 262
87.3 102
34.0
非常满意
38 12.7 300 100.0
12
All rights reserved
图表的力量
这幅图形揭示了 一个重要现象, 就是死亡发生地 都在街道中部一 处水源(水井) 周围,市内其它 水源周围极少发 现死者。进一步 调查他发现这些 死者都饮用过这 里的井水
13
All rights reserved
百度文库
3.1 数据预处理
14
All rights reserved 14
例析
Bar图
计数
60
50
40
30
20
10
0 无新罪
新罪
是否犯新罪
40
30
20 10
0 改造方式
监狱
新罪 无新罪
文学课
32
All rights reserved
马赛克图
总统选票
33
All rights reserved
分类数据的图示—饼图
也称圆形图,是用圆形及圆内扇形的角度来 表示数值大小的图形
不满意
满意
(a)向上累积
非常 不满意 一般 满意 非常
不满意 (b)向下累积
满意
甲城市家庭对住房状况评价的累积频数分布
39
All rights reserved
环形图
环形图中间有一个“空洞”,样本或总 体中的每一部分数据用环中的一段表示
与饼图类似,但又有区别
饼图只能显示一个总体各部分所占的比例, 环形图则可以同时绘制多个样本或总体的数据系 列,每一个样本或总体的数据系列为一个环
9
All rights reserved
图表的力量
南丁格尔“玫瑰图”
人类发现了统计 统计改变 了世界,若想了解上帝在 想什么,我们就必须学统 计,因为统计学就是在量 测他的旨意
10
All rights reserved
图表的力量
南丁格尔的极坐 标面积图:两幅 图分别是1854年 和1855年的军队 伤亡人数,一年 12个月恰好可以 将极坐标分为12 等分,每一瓣代 表一个月。图中 用颜色标记出了 三种死亡原因。
数据是否有错误,计算是否正确等
16
All rights reserved
数据的审核—二手数据
适用性审核
弄清楚数据的来源、数据的口径以及有关 的背景材料
确定数据是否符合自己分析研究的需要
时效性审核
尽可能使用最新的数据 确认是否有必要做进一步的加工整理!
17
All rights reserved
组距(class width) :上限与下限之差
组中值(class midpoint) :下限与上限之间 的中点值
组中值 = 下限值+上限值 2
45
All rights reserved
【例】某电 脑公司连续 个月各天的 销售量数据( 单位:台)。 试对数据进 行分组
一般
93 31 225 75.0 168 56
满意
45 15 270 90.0 75 25
非常满意 30 10 300 100.0 30 10
合计
300 100.0 —
—
—
—
37
All rights reserved
顺序数据的频数分布表
回答类别
乙城市家庭对住房状况评价的频数分布
乙城市
户数 百分比 (户) (%)
绿色
健康饮品
用Excel制作频数分布表
27
All rights reserved
分类数据的图示—Bar图
用宽度相同的条形的高度或长短来表示各 类别数据的图形
有单式条形图、复式条形图等形式 主要用于反映分类数据的频数分布 绘制时,各类别可以放在纵轴,称为条形
图,也可以放在横轴,称为柱形图
28
数数据据的的预预处处理理
数据审核
检查数据中的错误
数据筛选
找出符合条件的数据
数据排序
升序和降序 寻找数据的基本特征
数据透视
按需要汇总
15
All rights reserved
数据审核—原始数据
完整性审核
应调查的单位或个体是否有遗漏 所有的调查项目或变量是否填写齐全
准确性审核
数据是否真实反映实际情况,内容是否符 合实际
21
All rights reserved
数据透视表
数据透视表(pivot table )
▪ 以从复杂的数据中提取有用的信息 ▪ 可以对数据表的重要信息按使用者的习
惯或分析要求进行汇总和作图
▪ 形成一个符合需要的交叉表(列联表) ▪ 在利用数据透视表时,数据源表中的首
行必须有列标题 表3.2
22
All rights reserved
24
All rights reserved
分类数据的整理
列出各类别 计算各列的频数 制作频数分布表 用图形显示数据
25
All rights reserved
分类数据的整理
频数(frequency) :落在各类别中的数据个数 比率(proportion) :某一类别数据个数占全
部数据个数的比值 百分比(percentage) :将对比的基数作为100
42
All rights reserved 42
数据分组
将变量值的一个区间作为一组 适合于连续变量 适合于变量值较多的情况 需要遵循“不重不漏”的原则 可采用等距分组,也可采用不等距分组
43
All rights reserved
组距分组
确定组数:组数的确定应以能够显示数据的 分布特征和规律为目的。在实际分组时,组 数一般为5K 15
3.2 品质数据的整理与展示
23
All rights reserved 23
数据的整理与显示
明确面对的数据类型。不同类型的数据,采 取不同的处理方式和方法
对分类数据和顺序数据主要是作分类整理 对数值型数据则主要是作分组整理 适合于低层次数据的整理和显示方法也适合
于高层次的数据;但适合于高层次数据的整 理和显示方法并不适合于低层次的数据
7
All rights reserved
图表的力量
法国科学家 Marey称:该图所展现出的雄辩对历史 学家的笔是一种极大的挑战
8
All rights reserved
图表的力量
进出口时间序列
Playfair (1786)绘制的线图。这幅图主要展示了1700年至 1780年间英格兰的进出口时序数据
第3章 数据的图表展示
➢ 3.1 数据的预处理 ➢ 3.2 品质数据的整理与展示 ➢ 3.3 数值型数据的整理与展示 ➢ 3.4 合理使用图表
1
All rights reserved 1
参考书
2
All rights reserved 2
参考书
3
All rights reserved 3
参考书
4
确定组距:组距(Class Width)是一个组的上限 与下限之差,可根据全部数据的最大值和最 小值及所分的组数来确定,即 组距=( 最大值 - 最小值)÷ 组数
统计出各组的频数并整理成频数分布表
44
All rights reserved
组距分组
确定组距:组距(下限(lower limit) :一个组 的最小值
38
12.7
合计
300 100.0 —
—
—
—
38
All rights reserved
顺序数据的图示—累计频数分布图
400 累 积 300 户 数 200
(户1)00
400 累
225 270 300
积 300 户 300
276
数 200
168
132
(户) 100
75
0 24
0
30
非常 不满意 一般 满意 非常
一图胜千言
John Tukey:“图形的最大价值就是使我 们注意到我们从来没有料到过的信息”
6
All rights reserved
图表的力量
历史上著名的统计图表
拿破仑的大军团进军俄国
Minard绘制的地图,展现了1812年拿破仑的 大军团进军俄国的路,线(上半部分)和撤 退时的气温变化(下半部分)。这一历史事 件中,法军数量的急剧减少以及恶劣的气候 条件一览无遗
顺序数据的整理
(可计算的统计量)
对分类数据和顺序数据主累积频数 (cumulative frequencies):各类别频数的 逐级累加
累积频率(cumulative percentages):各类 别频率(百分比)的逐级累加
36
All rights reserved
顺序数据的频数分布表
【例】在一项城 市住房问题的研 究中,研究人员 在甲乙两个城市 各抽样调查300户 ,其中的一个问 题是:“您对您 家庭目前的住房 状况是否满意? ”
All rights reserved 4
参考书
5
All rights reserved 5
图表的力量
统计图表的意义
“给我10页纸的报告,必须有9页是数据 和图表分析,还有1页是封面”
“文不如表,表不如图”
Graphs are the most effective way to communicate using data
11
All rights reserved
图表的力量(续)
统计地图
1854年英国Broad大街大规模爆发霍乱,当时 了解微生物理论的人很少,人们不清楚霍乱 传播途径,而“瘴气传播理论”是当时的主 导理论; John Snow对这种理论表示了怀疑,于1849年 发表了关于霍乱传播理论的论文,本图即其 主要依据
8名学生的考试成绩数据
19
All rights reserved
数据排序
数据排序(Sort)
▪ 按一定顺序将数据排列,以发现一些明显
的特征或趋势,找到解决问题的线索
▪ 排序有助于对数据检查纠错,以及为重新
归类或分组等提供依据
▪ 在某些场合,排序本身就是分析的目的之
一排序可借助于计算机完成
20
All rights reserved
主要用于表示样本或总体中各组成部分所占 的比例,用于研究结构性问题
绘制圆形图时,样本或总体中各部分所占的 百分比用圆内的各个扇形角度表示,这些扇 形的中心角度,按各部分数据百分比乘以 3600确定
34
All rights reserved
顺序数据的整理与图示
35
All rights reserved
All rights reserved
29
All rights reserved 29
帕累托图
30
All rights reserved 30
例析
频数汇总
罪犯的例子
改造方式 监狱 文学课 总计
无新罪 22 32 54
新罪 18 6 24
总计 40 38 78
31
All rights reserved
用于结构比较研究
用于展示分类和顺序数据
40
All rights reserved
环形图
13%
7%
10% 8%
15% 21%
33% 36%
31% 26%
甲乙两城市家庭对住房状况的评价
41
非常不满意 不满意 一般 满意 非常满意
All rights reserved
3.3 数值型数据的整理与展示
数据筛选
当数据中的错误不能予以纠正,或者有些数 据不符合调查的要求而又无法弥补时,需要对 数据进行筛选
数据筛选的内容
▪ 将某些不符合要求的数据或有明显错误
的数据予以剔除
▪ 将符合某种特定条件的数据筛选出来,
而不符合特定条件的数据予以剔除
18
All rights reserved
数据筛选
用Excel例3.1进行数据筛选
数据排序
分类数据的排序
字母型数据,排序有升序降序之分,但习
惯上用升序
汉字型数据,可按汉字的首位拼音字母排
列,也可按笔画排序,其中也有笔画多少 的升序降序之分
数值型数据的排序
递递增增排排序序后:可设表一示组为数:据x为(1)<xx1,(2)<x…2,<…x(n,) xn, 递减排序:可表示为:x(1)>x(2)>…>x(n)
1.非常不 满意;2.不满意 ;3.一般;4. 满意;5.非常满 意。
甲城市家庭对住房状况评价的频数分布
甲城市
回答类别
户数 百分比 (户) (%)
向上累积
户数 百分比 (户) (%)
向下累积
户数 百分比 (户) (%)
非常不满意 24
8
24
8.0 300 100.0
不满意
108 36 132 44.0 276 92
而计算的比值 比例(ratio) :不同类别数值个数的比值
26
All rights reserved
分类数据整理—频数分布表
例3.3 一家市场调查公司 为研究不同品牌饮料的市 场占有率,对随机抽取的 一家超市进行了调查。调 查员在某天对50名顾客购 买饮料的品牌进行了记录 ,如果一个顾客购买某一 品牌的饮料,就将这一饮 料的品牌名字记录一次 。右边就是记录的原始数 据
向上累积
户数 百分比
(户)
(%)
向下累积
户数 百分比 (户) (%)
非常不满意 21
7.0
21
7.0 300 100.0
不满意
99 33.0 120
40.0 279
93.0
一般
78 26.0 198
66.0 180 60.0
满意
64 21.3 262
87.3 102
34.0
非常满意
38 12.7 300 100.0
12
All rights reserved
图表的力量
这幅图形揭示了 一个重要现象, 就是死亡发生地 都在街道中部一 处水源(水井) 周围,市内其它 水源周围极少发 现死者。进一步 调查他发现这些 死者都饮用过这 里的井水
13
All rights reserved
百度文库
3.1 数据预处理
14
All rights reserved 14
例析
Bar图
计数
60
50
40
30
20
10
0 无新罪
新罪
是否犯新罪
40
30
20 10
0 改造方式
监狱
新罪 无新罪
文学课
32
All rights reserved
马赛克图
总统选票
33
All rights reserved
分类数据的图示—饼图
也称圆形图,是用圆形及圆内扇形的角度来 表示数值大小的图形
不满意
满意
(a)向上累积
非常 不满意 一般 满意 非常
不满意 (b)向下累积
满意
甲城市家庭对住房状况评价的累积频数分布
39
All rights reserved
环形图
环形图中间有一个“空洞”,样本或总 体中的每一部分数据用环中的一段表示
与饼图类似,但又有区别
饼图只能显示一个总体各部分所占的比例, 环形图则可以同时绘制多个样本或总体的数据系 列,每一个样本或总体的数据系列为一个环
9
All rights reserved
图表的力量
南丁格尔“玫瑰图”
人类发现了统计 统计改变 了世界,若想了解上帝在 想什么,我们就必须学统 计,因为统计学就是在量 测他的旨意
10
All rights reserved
图表的力量
南丁格尔的极坐 标面积图:两幅 图分别是1854年 和1855年的军队 伤亡人数,一年 12个月恰好可以 将极坐标分为12 等分,每一瓣代 表一个月。图中 用颜色标记出了 三种死亡原因。
数据是否有错误,计算是否正确等
16
All rights reserved
数据的审核—二手数据
适用性审核
弄清楚数据的来源、数据的口径以及有关 的背景材料
确定数据是否符合自己分析研究的需要
时效性审核
尽可能使用最新的数据 确认是否有必要做进一步的加工整理!
17
All rights reserved