第二章 数据的描述性分析 图表展示
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第 2 章 数据的描述性分析: 图表展示
国际经济贸易学院 经济学教研室 柳馨竹
重要知识点
3.1 品质数据的整理与显示 3.2 数值型数据的整理与显示 3.3 合理使用图表
学习目标
1. 掌握分类和顺序数据的整理与显示方法 2. 掌握数值型数据的整理与显示方法 3. 合理使用图表
3.1 品质数据的整理与展示
° Ù ÊÂ ¿É ÀÖ 18%
Ðñ ÈÕ Éý ± ù ²è 22%
²» ͬ · Æ ÅÆ Òû ÁÏ µÄ ¹ ³É
顺序数据的整理与图示
顺序数据的整理
(可计算的统计量)
1. 累积频数(cumulative frequencies):各 类别频数的逐级累加
2. 累积频率(cumulative percentages):各 类别频率(百分比)的逐级累加
甲城市
回答类别
户数 百分比 (户) (%)
向上累积
户数 百分比 (户) (%)
向下累积
户数 百分比 (户) (%)
非常不满意 24
8
24
8.0 300 100.0
不满意
108 36 132 44.0 276 92
一般
93 31 225 75.0 168 56
满意
45 15 270 90.0 75 25
1. 环形图中间有一个“空洞”,样本或总体中 的每一部分数据用环中的一段表示
2. 与饼图类似,但又有区别
饼图只能显示一个总体各部分所占的比例 环形图则可以同时绘制多个样本或总体的数据
系列,每一个样本或总体的数据系列为一个环
3. 用于结构比较研究 4. 用于展示分类和顺序数据
环形图
13%
7%
向上累积 向上累积 向下累积 向下累积 频数 频率% 频数 频率%
1
2
50
100
5
10
49
98
17
34
45
90
35
70
33
Байду номын сангаас
66
43
86
15
30
47
94
7
14
48
96
3
6
50
100
2
4
3.2.2 数值型数据的图示 分组数据—直方图和折线图
分组数据—直方图
(histogram)
以下主要介绍等距分组的基本步骤。
组距式分组
第一,数据排序
第二,分组数目的确定
使每组所包含的数据个数,平均不少于4个或5个,或采用斯特吉
斯经验公式,即
k=1+3.322lgN
k为组数;N为总体中的个体数。
分组组数参考表
N 15~24 25~44 45~89 90~179 180~359
k
5
6
7
8
9
3.2.1 数据分组
2. 主要用于表示样本或总体中各组成部分所占的比 例,用于研究结构性问题
3. 绘制圆形图时,样本或总体中各部分所占的百分比 用圆内的各个扇形角度表示,这些扇形的中心角度, 按各部分数据百分比乘以3600确定
分类数据的图示—饼图
¶ ¶ 18% »ã Ô´ û¹ Ö 12%
¿É ¿Ú ¿É ÀÖ 30%
10% 8%
15% 21%
33% 36%
31% 26%
甲乙两城市家庭对住房状况的评价
非常不满意 不满意 一般 满意 非常满意
3.2 数值型数据的整理与展示
3.2.1 数据分组 3.2.2 数值型数据的图示
3.2.1 数据分组
按事物的数量特征进行分组。e.g. 对学生成绩分组 单项式分组
按数量标志分组的方法: 组距式分组
频率 fi fi
式中, fi 表示第 i 组的频数。很显然,任何一个分布都必须满 :
(1)各组的频率都界于0和1之间。 (2)各组频率之和等于1(或100%)。
Practice
根据抽样调查,2010年某地区50户城镇居民家庭 的人均月消费额(单位:元)的资料如下。
886 1000 886 926 864 900 938 821 1027 1006 816 999 946 950 1100 800 978 852 890 981 900 818 946 854 900 921 949 954 863 850 916 999 1040 893 967 927 905 919 651 987 928 918 1120 895 1050 866 864 924 928 926
非常满意 30 10 300 100.0 30 10
合计
300 100.0 —
—
—
—
顺序数据的频数分布表
回答类别
非常不满意 不满意 一般 满意 非常满意
合计
乙城市家庭对住房状况评价的频数分布
乙城市
户数 百分比
(户)
(%)
向上累积
户数 (户)
百分比 (%)
向下累积
户数 (户)
百分比 (%)
21
7.0
分类数据的整理与图示
分类数据的整理 (基本过程)
1. 列出各类别 2. 计算各类别的频数 3. 制作频数分布表 4. 用图形显示数据
分类 A B C D E
频数
比例
百分比
比率
分类数据的整理
(可计算的统计量)
1. 频数(frequency) :落在各类别中的数据个 数
2. 比例(proportion) :某一类别数据个数占全 部数据个数的比值
4414234433 4423324122 2242323124 1232231243 2344412223 1214142334 3143332423 3441442343 2424222213 4334233142
(1)上表中的数据属于什么类型
(2)制作一张频数分布表,向上频数,向上频率表
(3)绘制一张条形图,反映顾客的学历分布
例:对学生成绩的分组可以分为0~20分、20~40分、
40~60分、60~80分、80~100组
• 不等距分组 适用于变动很不均匀,且变动幅度大 例:学生成绩分组也可分为0~60(D)、 60~80(C) 80~90(B)、90~100(A) 关键问题:分组数目的确定/组距的确定
3.2.1 数据分组
(1)表中数据属于顺序数据
(2)
学历 初中 高中或中专 本科 研究生及以上 合计
频数(人) 13 31 27 29 100
(3) 绘制条形图
学历分布
31
27
29
13
初中
高中或中专
本科
研究生及以上
频率(%) 13.00 31.00 27.00 29.00 100.00
环形图
(doughnut chart)
3.1.1 分类数据的整理与图示 3.1.2 顺序数据的整理与图示
数据的整理与显示 (基本问题)
1. 要弄清所面对的数据类型
不同类型的数据,采取不同的处理方式和方法
2. 对分类数据和顺序数据主要是作分类整理 3. 对数值型数据则主要是作分组整理 4. 适合于低层次数据的整理和显示方法也适合
于高层次的数据;但适合于高层次数据的整 理和显示方法并不适合于低层次的数据
3. 百分比(percentage) :将对比的基数作为 100而计算的比值
4. 比率(ratio) :不同类别数值个数的比值
分类数据整理—频数分布表
【例】一家市场调查公司为研究不同品牌饮料的市场占有率,对随机 抽取的一家超市进行了调查。调查员在某天对50名顾客购买饮料的品 牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的 品牌名字记录一次 。右边就是记录的原始数据
21
7.0 300 100.0
99
33.0
120
40.0 279
93.0
78
26.0
198
66.0 180
60.0
64
21.3
262
87.3 102
34.0
38
12.7
300
100.0
38
12.7
300 100.0
—
—
—
—
顺序数据的图示—累计频数分布图
400 累 积 300 户 数 200
(户1)00
3.2.1 数据分组
单项式分组
就是把每一个变量值作为一组。 这种方法通常只适于离散变量且变量值较少的情况
10 13 4 8 7 14 17 7 24 8 10 9 15 10 15 2 5 10 6 5 15 9 8 4 5 20
由于机器台数属于离散型变量,因此使用单项式分组方法。 1.将原始资料按变量值升序排列, 2.然后将相同变量值分为一组, 3.最后将资料分成若干组。
分类数据的图示—条形图
(bar Chart)
1. 用宽度相同的条形的高度或长短来表示各类别数据 的图形
2. 有单式条形图、复式条形图等形式 3. 主要用于反映分类数据的频数分布 4. 绘制时,各类别可以放在纵轴,称为条形图,也可
以放在横轴,称为柱形图(column chart)
分类数据的图示—条形图
3.2.1 数据分组
组距式分组
第五,组中值的确定 组中值=(上限+下限 )÷2
开口组的组中值: 组中值=下限+邻组组距/2(缺上限) 组中值=上限-邻组组距/2(缺下限)
3.2.1 数据分组
1.频数
频数和频率
频数是各组所具有的单位个数,一般用 fi 表示。
2.频率
即各组频数与总体单位总和之比,它反映了各组频数的大小对总体所起 的作用的相对强度。频率的计算公式如下:
可采用等距分组,也可采用不等距分 组
~
~
频数分布表的编制
(例题分析)
【例】某电 脑公司连续 个月各天的 销售量数据( 单位:台)。 试对数据进 行分组
等距分组表
(上下组限重叠)
等距分组表
(上下组限间断)
等距分组表
(使用开口组)
3.2.1 数据分组
组距:
组距式分组
• 等距分组 适用于变量值的变动比较均匀
根据上述资料编制频数分布表,向上向下累计频数,频率 分布表
居民户月消费品 支出额
751~800 801~850 851~900 901~950 951~1000 1001~1050 1051~1100 1101~1150
合计
频数
1 4 12 18 8 4 1 2 50
频率%
2 8 24 36 16 8 2 4 100
组距式分组
第三,组距的确定 组距=(最大值-最小值)÷组数。
第四,组限的确定 组限的选择应做到第一组的下限应略低于最小变量值,最后 一组的上限应高于最大变量值。
离散型变量:相邻组的上下限可以不重叠 连续型变量:相邻两组的组限应重叠,即上一组的上限
同时也是下一组的下限。用“上限不在内”原则解决不 重问题 当变量值变动范围较大时,最小组为“……以下”,最大组 为“……以上”的开口组。
400 累
225 270 300
积 300 户 300
276
数 200
168
132
(户) 100
75
0 24
0
30
非常 不满意 一般 满意 非常
非常 不满意 一般 满意 非常
不满意 (a)向上累积
满意
不满意 (b)向下累积
满意
甲城市家庭对住房状况评价的累积频数分布
Practice
某家书店为了了解前来该书店购物的顾客的学历分布情况, 随机抽取了100名顾客。其中学历表示为:1:初中,2:高 中或中专,3:本科,4:研究生及以上。调查结果如下表:
频数
16 15
12
11
9
9
8
6
4
0 可口 旭日升 百事 可乐 冰茶 可乐
汇源 果汁
露露
不同品牌饮料的频数分布
品牌
分类数据的图示—对比条形图
(side-by-side bar chart )
1. 分 类 变 量 在 不 同 时间或不同空间 上有多个取值
2. 对 比 分 类 变 量 的 取值在不同时间 或不同空间上的 差异或变化趋势
顺序数据的频数分布表
【例】在一项城市 住房问题的研究中 ,研究人员在甲乙 两个城市各抽样调 查 300 户 , 其 中 的 一个问题是:“您 对您家庭目前的住 房状况是否满意? ”
1.非常不满意;2 .不满意;3.一般 ;4.满意;5.非 常满意。
甲城市家庭对住房状况评价的频数分布
分类数据的图示—帕累托图
(pareto chart)
1. 按各类别数 据出现的频 数多少排序 后绘制的柱 形图
2. 主要用于展 示分类数据 的分布
频数
16
15
12
11
9
9
8
6
4
0 可口可乐 旭日升冰茶 百事可乐
露露
不同品牌饮料的帕累托图
汇源果汁
品牌
分类数据的图示—饼图
(pie Chart)
1. 也称圆形图,是用圆形及圆内扇形的角度来表示数 值大小的图形
3.2.1 数据分组
组距式分组
• 将全部变量值依次划分为若干区间,并将这一区 间的变量值作为一组。
• 适用于:连续变量/离散变量且变量值较多
组距分组
(要点)
1. 将变量值的一个区间作为一组 2. 适合于连续变量 3. 适合于变量值较多的情况
~ ~
4. 需要遵循“不重不漏”的原则
~
5.
电脑品牌 一季度 二季度
联想 IBM 康柏 戴尔
256
468
285
397
247
328
563
688
分类数据的图示—对比条形图
(例题分析)
销售量
800
688
700
600
563
500
468
400
300 256
397 285
328 247
200
一季度 二季度
100
0
联想
IBM
康柏
戴尔 电脑品牌
电脑销售量的对比条形图
国际经济贸易学院 经济学教研室 柳馨竹
重要知识点
3.1 品质数据的整理与显示 3.2 数值型数据的整理与显示 3.3 合理使用图表
学习目标
1. 掌握分类和顺序数据的整理与显示方法 2. 掌握数值型数据的整理与显示方法 3. 合理使用图表
3.1 品质数据的整理与展示
° Ù ÊÂ ¿É ÀÖ 18%
Ðñ ÈÕ Éý ± ù ²è 22%
²» ͬ · Æ ÅÆ Òû ÁÏ µÄ ¹ ³É
顺序数据的整理与图示
顺序数据的整理
(可计算的统计量)
1. 累积频数(cumulative frequencies):各 类别频数的逐级累加
2. 累积频率(cumulative percentages):各 类别频率(百分比)的逐级累加
甲城市
回答类别
户数 百分比 (户) (%)
向上累积
户数 百分比 (户) (%)
向下累积
户数 百分比 (户) (%)
非常不满意 24
8
24
8.0 300 100.0
不满意
108 36 132 44.0 276 92
一般
93 31 225 75.0 168 56
满意
45 15 270 90.0 75 25
1. 环形图中间有一个“空洞”,样本或总体中 的每一部分数据用环中的一段表示
2. 与饼图类似,但又有区别
饼图只能显示一个总体各部分所占的比例 环形图则可以同时绘制多个样本或总体的数据
系列,每一个样本或总体的数据系列为一个环
3. 用于结构比较研究 4. 用于展示分类和顺序数据
环形图
13%
7%
向上累积 向上累积 向下累积 向下累积 频数 频率% 频数 频率%
1
2
50
100
5
10
49
98
17
34
45
90
35
70
33
Байду номын сангаас
66
43
86
15
30
47
94
7
14
48
96
3
6
50
100
2
4
3.2.2 数值型数据的图示 分组数据—直方图和折线图
分组数据—直方图
(histogram)
以下主要介绍等距分组的基本步骤。
组距式分组
第一,数据排序
第二,分组数目的确定
使每组所包含的数据个数,平均不少于4个或5个,或采用斯特吉
斯经验公式,即
k=1+3.322lgN
k为组数;N为总体中的个体数。
分组组数参考表
N 15~24 25~44 45~89 90~179 180~359
k
5
6
7
8
9
3.2.1 数据分组
2. 主要用于表示样本或总体中各组成部分所占的比 例,用于研究结构性问题
3. 绘制圆形图时,样本或总体中各部分所占的百分比 用圆内的各个扇形角度表示,这些扇形的中心角度, 按各部分数据百分比乘以3600确定
分类数据的图示—饼图
¶ ¶ 18% »ã Ô´ û¹ Ö 12%
¿É ¿Ú ¿É ÀÖ 30%
10% 8%
15% 21%
33% 36%
31% 26%
甲乙两城市家庭对住房状况的评价
非常不满意 不满意 一般 满意 非常满意
3.2 数值型数据的整理与展示
3.2.1 数据分组 3.2.2 数值型数据的图示
3.2.1 数据分组
按事物的数量特征进行分组。e.g. 对学生成绩分组 单项式分组
按数量标志分组的方法: 组距式分组
频率 fi fi
式中, fi 表示第 i 组的频数。很显然,任何一个分布都必须满 :
(1)各组的频率都界于0和1之间。 (2)各组频率之和等于1(或100%)。
Practice
根据抽样调查,2010年某地区50户城镇居民家庭 的人均月消费额(单位:元)的资料如下。
886 1000 886 926 864 900 938 821 1027 1006 816 999 946 950 1100 800 978 852 890 981 900 818 946 854 900 921 949 954 863 850 916 999 1040 893 967 927 905 919 651 987 928 918 1120 895 1050 866 864 924 928 926
非常满意 30 10 300 100.0 30 10
合计
300 100.0 —
—
—
—
顺序数据的频数分布表
回答类别
非常不满意 不满意 一般 满意 非常满意
合计
乙城市家庭对住房状况评价的频数分布
乙城市
户数 百分比
(户)
(%)
向上累积
户数 (户)
百分比 (%)
向下累积
户数 (户)
百分比 (%)
21
7.0
分类数据的整理与图示
分类数据的整理 (基本过程)
1. 列出各类别 2. 计算各类别的频数 3. 制作频数分布表 4. 用图形显示数据
分类 A B C D E
频数
比例
百分比
比率
分类数据的整理
(可计算的统计量)
1. 频数(frequency) :落在各类别中的数据个 数
2. 比例(proportion) :某一类别数据个数占全 部数据个数的比值
4414234433 4423324122 2242323124 1232231243 2344412223 1214142334 3143332423 3441442343 2424222213 4334233142
(1)上表中的数据属于什么类型
(2)制作一张频数分布表,向上频数,向上频率表
(3)绘制一张条形图,反映顾客的学历分布
例:对学生成绩的分组可以分为0~20分、20~40分、
40~60分、60~80分、80~100组
• 不等距分组 适用于变动很不均匀,且变动幅度大 例:学生成绩分组也可分为0~60(D)、 60~80(C) 80~90(B)、90~100(A) 关键问题:分组数目的确定/组距的确定
3.2.1 数据分组
(1)表中数据属于顺序数据
(2)
学历 初中 高中或中专 本科 研究生及以上 合计
频数(人) 13 31 27 29 100
(3) 绘制条形图
学历分布
31
27
29
13
初中
高中或中专
本科
研究生及以上
频率(%) 13.00 31.00 27.00 29.00 100.00
环形图
(doughnut chart)
3.1.1 分类数据的整理与图示 3.1.2 顺序数据的整理与图示
数据的整理与显示 (基本问题)
1. 要弄清所面对的数据类型
不同类型的数据,采取不同的处理方式和方法
2. 对分类数据和顺序数据主要是作分类整理 3. 对数值型数据则主要是作分组整理 4. 适合于低层次数据的整理和显示方法也适合
于高层次的数据;但适合于高层次数据的整 理和显示方法并不适合于低层次的数据
3. 百分比(percentage) :将对比的基数作为 100而计算的比值
4. 比率(ratio) :不同类别数值个数的比值
分类数据整理—频数分布表
【例】一家市场调查公司为研究不同品牌饮料的市场占有率,对随机 抽取的一家超市进行了调查。调查员在某天对50名顾客购买饮料的品 牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的 品牌名字记录一次 。右边就是记录的原始数据
21
7.0 300 100.0
99
33.0
120
40.0 279
93.0
78
26.0
198
66.0 180
60.0
64
21.3
262
87.3 102
34.0
38
12.7
300
100.0
38
12.7
300 100.0
—
—
—
—
顺序数据的图示—累计频数分布图
400 累 积 300 户 数 200
(户1)00
3.2.1 数据分组
单项式分组
就是把每一个变量值作为一组。 这种方法通常只适于离散变量且变量值较少的情况
10 13 4 8 7 14 17 7 24 8 10 9 15 10 15 2 5 10 6 5 15 9 8 4 5 20
由于机器台数属于离散型变量,因此使用单项式分组方法。 1.将原始资料按变量值升序排列, 2.然后将相同变量值分为一组, 3.最后将资料分成若干组。
分类数据的图示—条形图
(bar Chart)
1. 用宽度相同的条形的高度或长短来表示各类别数据 的图形
2. 有单式条形图、复式条形图等形式 3. 主要用于反映分类数据的频数分布 4. 绘制时,各类别可以放在纵轴,称为条形图,也可
以放在横轴,称为柱形图(column chart)
分类数据的图示—条形图
3.2.1 数据分组
组距式分组
第五,组中值的确定 组中值=(上限+下限 )÷2
开口组的组中值: 组中值=下限+邻组组距/2(缺上限) 组中值=上限-邻组组距/2(缺下限)
3.2.1 数据分组
1.频数
频数和频率
频数是各组所具有的单位个数,一般用 fi 表示。
2.频率
即各组频数与总体单位总和之比,它反映了各组频数的大小对总体所起 的作用的相对强度。频率的计算公式如下:
可采用等距分组,也可采用不等距分 组
~
~
频数分布表的编制
(例题分析)
【例】某电 脑公司连续 个月各天的 销售量数据( 单位:台)。 试对数据进 行分组
等距分组表
(上下组限重叠)
等距分组表
(上下组限间断)
等距分组表
(使用开口组)
3.2.1 数据分组
组距:
组距式分组
• 等距分组 适用于变量值的变动比较均匀
根据上述资料编制频数分布表,向上向下累计频数,频率 分布表
居民户月消费品 支出额
751~800 801~850 851~900 901~950 951~1000 1001~1050 1051~1100 1101~1150
合计
频数
1 4 12 18 8 4 1 2 50
频率%
2 8 24 36 16 8 2 4 100
组距式分组
第三,组距的确定 组距=(最大值-最小值)÷组数。
第四,组限的确定 组限的选择应做到第一组的下限应略低于最小变量值,最后 一组的上限应高于最大变量值。
离散型变量:相邻组的上下限可以不重叠 连续型变量:相邻两组的组限应重叠,即上一组的上限
同时也是下一组的下限。用“上限不在内”原则解决不 重问题 当变量值变动范围较大时,最小组为“……以下”,最大组 为“……以上”的开口组。
400 累
225 270 300
积 300 户 300
276
数 200
168
132
(户) 100
75
0 24
0
30
非常 不满意 一般 满意 非常
非常 不满意 一般 满意 非常
不满意 (a)向上累积
满意
不满意 (b)向下累积
满意
甲城市家庭对住房状况评价的累积频数分布
Practice
某家书店为了了解前来该书店购物的顾客的学历分布情况, 随机抽取了100名顾客。其中学历表示为:1:初中,2:高 中或中专,3:本科,4:研究生及以上。调查结果如下表:
频数
16 15
12
11
9
9
8
6
4
0 可口 旭日升 百事 可乐 冰茶 可乐
汇源 果汁
露露
不同品牌饮料的频数分布
品牌
分类数据的图示—对比条形图
(side-by-side bar chart )
1. 分 类 变 量 在 不 同 时间或不同空间 上有多个取值
2. 对 比 分 类 变 量 的 取值在不同时间 或不同空间上的 差异或变化趋势
顺序数据的频数分布表
【例】在一项城市 住房问题的研究中 ,研究人员在甲乙 两个城市各抽样调 查 300 户 , 其 中 的 一个问题是:“您 对您家庭目前的住 房状况是否满意? ”
1.非常不满意;2 .不满意;3.一般 ;4.满意;5.非 常满意。
甲城市家庭对住房状况评价的频数分布
分类数据的图示—帕累托图
(pareto chart)
1. 按各类别数 据出现的频 数多少排序 后绘制的柱 形图
2. 主要用于展 示分类数据 的分布
频数
16
15
12
11
9
9
8
6
4
0 可口可乐 旭日升冰茶 百事可乐
露露
不同品牌饮料的帕累托图
汇源果汁
品牌
分类数据的图示—饼图
(pie Chart)
1. 也称圆形图,是用圆形及圆内扇形的角度来表示数 值大小的图形
3.2.1 数据分组
组距式分组
• 将全部变量值依次划分为若干区间,并将这一区 间的变量值作为一组。
• 适用于:连续变量/离散变量且变量值较多
组距分组
(要点)
1. 将变量值的一个区间作为一组 2. 适合于连续变量 3. 适合于变量值较多的情况
~ ~
4. 需要遵循“不重不漏”的原则
~
5.
电脑品牌 一季度 二季度
联想 IBM 康柏 戴尔
256
468
285
397
247
328
563
688
分类数据的图示—对比条形图
(例题分析)
销售量
800
688
700
600
563
500
468
400
300 256
397 285
328 247
200
一季度 二季度
100
0
联想
IBM
康柏
戴尔 电脑品牌
电脑销售量的对比条形图