第3章统计学
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
18,000 is in the first class or second class?
Higher limit isn’t in this class.
11
分组
• Step 4: Tally the vehicle selling prices into the classes. 数据归入各组
第3章 数据的图表展示
3.1 3.2 3.3 3.4 数据的预处理 品质数据的整理与显示 数值型数据的整理与显示 合理使用图表
数据的预处理
• 数据审核
– 数据审核—原始数据 (raw data)
• • 完整性审核 准确性审核 适用性审核 时效性审核:尽可能使用最新的数据 有必要做进一步的加工整理
–
– 时间序列数据—线图(line plot) – 两个变量间的关系—二维散点图(2D Scatterplots) – 三个变量间的关系—气泡图(bubble chart) – 多变量数据—雷达图 (radar chart)
分组数据—直方图 (histogram)
1. 用矩形的面积表示频率分布 2. 横轴表示数据分组,纵轴表示频率 / 组距,各组与 相应的频率就形成了一个矩形,即直方图
一个组的最小最大值 2. 组距(class width) :上下限之 差 上下限间的中点值
下限值+上限值 组中值 = 2
频数分布表的编制 (例题分析)
【例】某电 脑 公 司 2005 年前四个月 各天的销售 量数据 ( 单位 :台 ) 。试对 数据进行分 组
Max=237 Min=141
等距分组表 (上下组限重叠)
11名学生8门课程考试成绩的Median/Quart./Range箱线图
股票分析中的K线图与箱线图类似
• K线图最早是日本德川幕府时代大阪的米商用来记 录当时一天、一周或一月中米价涨跌行情的图示法, 后被引入股市。 • K线图有直观、立体感强、携带信息量大的特点, 是各类传播媒介、电脑实时分析系统应用较多的技 术分析手段。 • 以日K线为例:是根据股价(指数)一天的走势中形 成的四个价位即:开盘价,收盘价,最高价,最低 价绘制而成的。
我一眼就看出 来了,销售量 在 170 ~ 180 之 间的天数最多!
30 25 20 15 10 5
140 150 160 170 180 190 200 210 220 230 240
某电脑公司销售量分布的直方图
分组数据—直方图
(直方图与条形图的区别)
1. 条形图是用条形的长度 ( 横置时 ) 表示各类别频数 的多少,其宽度(表示类别)则是固定的 2. 直方图是用面积表示各组频数的多少,矩形的高 度表示每一组的频数或百分比,宽度则表示各组 的组距,其高度与宽度均有意义 3. 直方图的各矩形通常是连续排列,条形图则是分 开排列 4. 条形图主要用于展示分类数据,直方图则主要用 于展示数值型数据
8门课程考试成绩的Median/Quart./Range箱线图
未分组数据—多批数据箱线图
(例题分析—Median/Quart./Range)
105
95 85 75 65 55 45
min-max 25%-75% median value
学生1 学生3 学生5 学生7 学生9 学生11 学生2 学生4 学生6 学生8 学生10
11名学生各科的考试成绩数据 课程名称 1 英语 经济数学 西方经济学 市场营销学 财务管理 基础会计学 统计学
计算机应用基础
学生编号 2 90 95 81 87 75 73 91 78 3 97 51 76 85 70 92 68 81 4 71 74 88 69 84 65 73 95 5 70 78 66 90 73 78 84 70 6 93 63 79 80 60 87 81 67 7 86 91 83 77 76 90 70 82 8 83 82 92 84 81 70 69 72 9 78 75 78 91 88 66 94 80 10 85 71 86 74 68 79 62 81 11 81 55 78 70 75 68 71 77
ห้องสมุดไป่ตู้
190
200
210
220
230 240
某电脑公司销售量数据的 Median/Quart./Rang箱线图
未分组数据—多批数据箱线图 (例 题分析)
【例】 从某 大学经济管理 专业二年级学 生中随机抽取 11 人 , 对 8 门 主要课程的考 试成绩进行调 查,所得结果 如表。试绘制 各科考试成绩 的批比较箱线 图,并分析各 科考试成绩的 分布特征
• 向下累积
– 顺序数据:从结尾向开始累加 – 数值型数据:变量值大向变量值小的方向累加
数值型数据的整理:分组
1. 将变量值的一个区间 • 组数应以能显示数据分布 特征和规律为目的。实际 作为一组 中,组数一般为5K 15 2. 适合于连续变量 • 组距是一个组上、下限之 3. 适合于变量值较多的 差,根据数据的最大值和 情况 最小值及组数确定。即 4. 遵循“不重不漏”原 组距=( 最大值-最小值)÷ 组数 则 • 统计频数可整理出频数分 布表 5. 等距分组或不等距分 组 1. 下上限(lower 、upper limit) : 3. 组中值(class midpoint) :
– 收盘价高于开盘价时,则开盘价在下收盘价在上,二者 之间的长方柱用红色或空心绘出,称之为阳线;其上影 线的最高点为最高价,下影线的最低点为最低价。 – 收盘价低于开盘价时,则开盘价在上收盘价在下,二者 之间的长方柱用绿色或实心绘出,称之为阴线,其上影 线的最高点为最高价,下影线的最低点为最低价。
未分组数据—单批数据箱线图
(箱线图的构成)
X 最小值 QL 中位数
QU
X 最大值
4
6
8
10
12
Median/Quart./Range箱线图
未分组数据—单批数据箱线图(例题
分析)
最小值 141 下四分位数 中位数 170.25 182 上四分位数 197 最大值 237
140
150
160
170
180
• 顺序数据
– 累积频数(cumulative frequency)、累积频率 (cumulative percentages) – 累积频数分布或频率图
分类数据的整理
1. 2. 频数(frequency) :落 在各类别中的数据个数 比例(proportion) :某 一类别数据个数占全部 数据个数的比值 百分比(percentage) : 将对比的基数作为100 而计算的比值 比率(ratio) :不同类别 数值个数的比值
76 65 93 74 68 70 55 85
未分组数据—多批数据箱线图
(例题分析—Median/Quart./Range)
105 95 85 75 65 55 45
英 语
经 济 数 学
西 方 经 济 学
市 场 营 销 学
财 务 管 理
基 础 会 计 学
统 计 学
计 算 机 应 用 基 础
Min-Max 25%-75% Median v alue
未分组数据—茎叶图 (例题分析)
某电脑公司销售量分布的茎叶图
未分组数据—箱线图 (box plot)
1. 用于显示未分组的原始数据的分布 2. 由一组数据的 5 个特征值绘制而成,它由 一个箱子和两条线段组成 3. 绘制方法
– 首先找出一组数据的 5 个特征值,即最大值、 最小值、中位数 Me 和两个四分位数 ( 下四分 位数QL和上四分位数QU) – 连接两个四分位数画出箱子,再将两个极值 点与箱子相连接
Max=237 Min=141
(Max-Min)/10=(141-237)/10=9.6≈10
149
160、180这几个数究竟属于哪一 上限(一个组的最大值)不在内。 组?
等距分组表 (使用开口组)
开口组如何计算组距、组中值?
分组
• Step 1: Decide on the number of classes. 确定组数 A useful recipe to determine the number of classes (k) is the “2 to the k rule.” such that 2k > n. There were 80 vehicles sold. So n = 80. If we try k = 6, which means we would use 6 classes, then 26 = 64, somewhat less than 80. Hence, 6 is not enough classes. If we let k = 7, then 27 = 128, which is greater than 80. So the recommended number of classes is 7. • Step 2: Determine the class interval or width. 确定组距 The formula is: i (H-L)/k where i is the class interval, H is the highest observed value, L is the lowest observed value, and k is the number of classes. If ($35,925 - $15,546)/7 = $2,911 Round up to some convenient number, such as a multiple of 10 or 100. Use a class width of $3,000
10
分组
• Step 3: Set the individual class limits 确定各组组限 Put each observation into only one category, namely avoiding overlapping or unclear class limits. Put approximately equal amounts of the excess in each of the two tails. Select convenient class limits. A guideline is to make the lower limit of the first class a multiple of the class interval.
Step 5: Count the number of items in each class. 计算各组频数
Class frequency 组频数
12
数值型数据的显示
• 数值型数据的图示
– 分组数据:直方图 – 未分组数据
(histogram)
• 茎叶图(stem-and-leaf display) • 箱线图 (box plot)
二手数据(second hand data)
• • •
• • •
数据筛选(data filter) 找出符合条件的数据 例3-1 数据排序 升序和降序 数据透视表(pivot table) 按需要汇总 例3-2
品质数据的整理与显示
• 分类数据
– 频数和频数分布(frequency distribution) – 条形图(bar Chart)、柱形图(column chart)、 对比条形图 – 帕累托图(pareto chart) – 饼图 (pie Chart) – 环形图 (doughnut Chart)
未分组数据—茎叶图
(stem-and-leaf display)
1. 用于显示未分组的原始数据的分布 2. 由“茎”和“叶”两部分构成,其图形是由数字 组成的 3. 以该组数据的高位数值作树茎,低位数字作树叶 4. 树叶上只保留最后一位数字 5. 茎叶图类似于横置的直方图,但又有区别
直方图可观察一组数据的分布状况,但没有给出具 体的数值 茎叶图既能给出数据的分布状况,又能给出每一个 原始数值,保留了原始数据的信息 直方图适用于大批量数据,茎叶图适用于小批量数 据
分类
(可计算的统计量)
频数 比例 百分比 比率
A
B C D
3.
4.
E
顺序数据的整理(可计算的统计量)
1. 累积频数(cumulative frequencies):各类别 频数的逐级累加 2. 累积频率(cumulative percentages):各类别 频率(百分比)的逐级累加
• 向上累积
– 顺序数据:从开始向结尾累加 – 数值型数据:变量值小向变量值大的方向累加
Higher limit isn’t in this class.
11
分组
• Step 4: Tally the vehicle selling prices into the classes. 数据归入各组
第3章 数据的图表展示
3.1 3.2 3.3 3.4 数据的预处理 品质数据的整理与显示 数值型数据的整理与显示 合理使用图表
数据的预处理
• 数据审核
– 数据审核—原始数据 (raw data)
• • 完整性审核 准确性审核 适用性审核 时效性审核:尽可能使用最新的数据 有必要做进一步的加工整理
–
– 时间序列数据—线图(line plot) – 两个变量间的关系—二维散点图(2D Scatterplots) – 三个变量间的关系—气泡图(bubble chart) – 多变量数据—雷达图 (radar chart)
分组数据—直方图 (histogram)
1. 用矩形的面积表示频率分布 2. 横轴表示数据分组,纵轴表示频率 / 组距,各组与 相应的频率就形成了一个矩形,即直方图
一个组的最小最大值 2. 组距(class width) :上下限之 差 上下限间的中点值
下限值+上限值 组中值 = 2
频数分布表的编制 (例题分析)
【例】某电 脑 公 司 2005 年前四个月 各天的销售 量数据 ( 单位 :台 ) 。试对 数据进行分 组
Max=237 Min=141
等距分组表 (上下组限重叠)
11名学生8门课程考试成绩的Median/Quart./Range箱线图
股票分析中的K线图与箱线图类似
• K线图最早是日本德川幕府时代大阪的米商用来记 录当时一天、一周或一月中米价涨跌行情的图示法, 后被引入股市。 • K线图有直观、立体感强、携带信息量大的特点, 是各类传播媒介、电脑实时分析系统应用较多的技 术分析手段。 • 以日K线为例:是根据股价(指数)一天的走势中形 成的四个价位即:开盘价,收盘价,最高价,最低 价绘制而成的。
我一眼就看出 来了,销售量 在 170 ~ 180 之 间的天数最多!
30 25 20 15 10 5
140 150 160 170 180 190 200 210 220 230 240
某电脑公司销售量分布的直方图
分组数据—直方图
(直方图与条形图的区别)
1. 条形图是用条形的长度 ( 横置时 ) 表示各类别频数 的多少,其宽度(表示类别)则是固定的 2. 直方图是用面积表示各组频数的多少,矩形的高 度表示每一组的频数或百分比,宽度则表示各组 的组距,其高度与宽度均有意义 3. 直方图的各矩形通常是连续排列,条形图则是分 开排列 4. 条形图主要用于展示分类数据,直方图则主要用 于展示数值型数据
8门课程考试成绩的Median/Quart./Range箱线图
未分组数据—多批数据箱线图
(例题分析—Median/Quart./Range)
105
95 85 75 65 55 45
min-max 25%-75% median value
学生1 学生3 学生5 学生7 学生9 学生11 学生2 学生4 学生6 学生8 学生10
11名学生各科的考试成绩数据 课程名称 1 英语 经济数学 西方经济学 市场营销学 财务管理 基础会计学 统计学
计算机应用基础
学生编号 2 90 95 81 87 75 73 91 78 3 97 51 76 85 70 92 68 81 4 71 74 88 69 84 65 73 95 5 70 78 66 90 73 78 84 70 6 93 63 79 80 60 87 81 67 7 86 91 83 77 76 90 70 82 8 83 82 92 84 81 70 69 72 9 78 75 78 91 88 66 94 80 10 85 71 86 74 68 79 62 81 11 81 55 78 70 75 68 71 77
ห้องสมุดไป่ตู้
190
200
210
220
230 240
某电脑公司销售量数据的 Median/Quart./Rang箱线图
未分组数据—多批数据箱线图 (例 题分析)
【例】 从某 大学经济管理 专业二年级学 生中随机抽取 11 人 , 对 8 门 主要课程的考 试成绩进行调 查,所得结果 如表。试绘制 各科考试成绩 的批比较箱线 图,并分析各 科考试成绩的 分布特征
• 向下累积
– 顺序数据:从结尾向开始累加 – 数值型数据:变量值大向变量值小的方向累加
数值型数据的整理:分组
1. 将变量值的一个区间 • 组数应以能显示数据分布 特征和规律为目的。实际 作为一组 中,组数一般为5K 15 2. 适合于连续变量 • 组距是一个组上、下限之 3. 适合于变量值较多的 差,根据数据的最大值和 情况 最小值及组数确定。即 4. 遵循“不重不漏”原 组距=( 最大值-最小值)÷ 组数 则 • 统计频数可整理出频数分 布表 5. 等距分组或不等距分 组 1. 下上限(lower 、upper limit) : 3. 组中值(class midpoint) :
– 收盘价高于开盘价时,则开盘价在下收盘价在上,二者 之间的长方柱用红色或空心绘出,称之为阳线;其上影 线的最高点为最高价,下影线的最低点为最低价。 – 收盘价低于开盘价时,则开盘价在上收盘价在下,二者 之间的长方柱用绿色或实心绘出,称之为阴线,其上影 线的最高点为最高价,下影线的最低点为最低价。
未分组数据—单批数据箱线图
(箱线图的构成)
X 最小值 QL 中位数
QU
X 最大值
4
6
8
10
12
Median/Quart./Range箱线图
未分组数据—单批数据箱线图(例题
分析)
最小值 141 下四分位数 中位数 170.25 182 上四分位数 197 最大值 237
140
150
160
170
180
• 顺序数据
– 累积频数(cumulative frequency)、累积频率 (cumulative percentages) – 累积频数分布或频率图
分类数据的整理
1. 2. 频数(frequency) :落 在各类别中的数据个数 比例(proportion) :某 一类别数据个数占全部 数据个数的比值 百分比(percentage) : 将对比的基数作为100 而计算的比值 比率(ratio) :不同类别 数值个数的比值
76 65 93 74 68 70 55 85
未分组数据—多批数据箱线图
(例题分析—Median/Quart./Range)
105 95 85 75 65 55 45
英 语
经 济 数 学
西 方 经 济 学
市 场 营 销 学
财 务 管 理
基 础 会 计 学
统 计 学
计 算 机 应 用 基 础
Min-Max 25%-75% Median v alue
未分组数据—茎叶图 (例题分析)
某电脑公司销售量分布的茎叶图
未分组数据—箱线图 (box plot)
1. 用于显示未分组的原始数据的分布 2. 由一组数据的 5 个特征值绘制而成,它由 一个箱子和两条线段组成 3. 绘制方法
– 首先找出一组数据的 5 个特征值,即最大值、 最小值、中位数 Me 和两个四分位数 ( 下四分 位数QL和上四分位数QU) – 连接两个四分位数画出箱子,再将两个极值 点与箱子相连接
Max=237 Min=141
(Max-Min)/10=(141-237)/10=9.6≈10
149
160、180这几个数究竟属于哪一 上限(一个组的最大值)不在内。 组?
等距分组表 (使用开口组)
开口组如何计算组距、组中值?
分组
• Step 1: Decide on the number of classes. 确定组数 A useful recipe to determine the number of classes (k) is the “2 to the k rule.” such that 2k > n. There were 80 vehicles sold. So n = 80. If we try k = 6, which means we would use 6 classes, then 26 = 64, somewhat less than 80. Hence, 6 is not enough classes. If we let k = 7, then 27 = 128, which is greater than 80. So the recommended number of classes is 7. • Step 2: Determine the class interval or width. 确定组距 The formula is: i (H-L)/k where i is the class interval, H is the highest observed value, L is the lowest observed value, and k is the number of classes. If ($35,925 - $15,546)/7 = $2,911 Round up to some convenient number, such as a multiple of 10 or 100. Use a class width of $3,000
10
分组
• Step 3: Set the individual class limits 确定各组组限 Put each observation into only one category, namely avoiding overlapping or unclear class limits. Put approximately equal amounts of the excess in each of the two tails. Select convenient class limits. A guideline is to make the lower limit of the first class a multiple of the class interval.
Step 5: Count the number of items in each class. 计算各组频数
Class frequency 组频数
12
数值型数据的显示
• 数值型数据的图示
– 分组数据:直方图 – 未分组数据
(histogram)
• 茎叶图(stem-and-leaf display) • 箱线图 (box plot)
二手数据(second hand data)
• • •
• • •
数据筛选(data filter) 找出符合条件的数据 例3-1 数据排序 升序和降序 数据透视表(pivot table) 按需要汇总 例3-2
品质数据的整理与显示
• 分类数据
– 频数和频数分布(frequency distribution) – 条形图(bar Chart)、柱形图(column chart)、 对比条形图 – 帕累托图(pareto chart) – 饼图 (pie Chart) – 环形图 (doughnut Chart)
未分组数据—茎叶图
(stem-and-leaf display)
1. 用于显示未分组的原始数据的分布 2. 由“茎”和“叶”两部分构成,其图形是由数字 组成的 3. 以该组数据的高位数值作树茎,低位数字作树叶 4. 树叶上只保留最后一位数字 5. 茎叶图类似于横置的直方图,但又有区别
直方图可观察一组数据的分布状况,但没有给出具 体的数值 茎叶图既能给出数据的分布状况,又能给出每一个 原始数值,保留了原始数据的信息 直方图适用于大批量数据,茎叶图适用于小批量数 据
分类
(可计算的统计量)
频数 比例 百分比 比率
A
B C D
3.
4.
E
顺序数据的整理(可计算的统计量)
1. 累积频数(cumulative frequencies):各类别 频数的逐级累加 2. 累积频率(cumulative percentages):各类别 频率(百分比)的逐级累加
• 向上累积
– 顺序数据:从开始向结尾累加 – 数值型数据:变量值小向变量值大的方向累加