第一章数据分析模型 PPT
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章数据分析模型
1. 数据分析模型
1.1 薪金到底是多少 1.2 评选举重总冠军 1.3 估计出租车的总数 1.4 解读CPI 1.5 NBA赛程的分析与评价——全国
大学生数学建模竞赛2008年D题
1.1 薪金到底是多少
日常生活中遇到的数据: • 一个班的考试成绩及按成绩的排 名 • 公司里每位职工一个月的薪金 • 超市中各个品牌牙膏一个月的销量 • 一个年级全部男同学的身高 用几个数简明地表示一组数据整体的大小.
依靠运动员全身力量完成的体育项目 举重 拳击 赛艇 摔跤
按照运动员体重划分级别进行比赛. 每个级别都有一个冠军. 能评选出一个“总冠军”吗?
……
问题
1.2 评选举重总冠军
男子举重比赛按运动员体重 (上限)分为8个级别: 56kg, 62kg, 69kg, 77kg, 85kg, 94kg, 105kg, 105kg以上.
a. 总额/万元
200
股东分红
150
职工薪金
100
2011 2012 2013
b. 增长率/%
c.人均/(万元/人)
哪种解读更有道理
500
400 300
职工薪金
200
100
股东分红
2011 2012 2013
a. 总额/万元
200
股东分红
150
职工薪金
100
2011 2012 2013
b. 增长率/%
不掌握创造记录的运动员的实际体重. 因为体重越大、举得越重,比赛时运动员体重 都会调整到非常接近各级别的上限.
105 kg以上级未设上限,只在其余7个级别中选总冠军.
数据分析 世界记录与体重数据的散点图
世 450
界 记 400 录 350
300
250
200
* 总成绩 + 挺举 x 抓举
世 界 2.7 记 2.6 录
其他代表数 跳水比赛的评分标准 中位数80分 7位裁判的分数去掉一个最高分和一个最低分,剩下 5个分数的总和乘以动作难度系数,为最后得分.
中位数和平均数的结合
哪种解读更有道理
某股份制公司50名职工和5位股东近3年的利润分配
500
400 300
职工薪金
200
100
股东分红
2011 2012 2013
n个数据的代表数
n 个数据的代表数
平均数 ~ n个数据的算术平均值.
中位数 ~ n个数据从小到大(或从大到小)排序 位于正中的数. 若n为偶数,取位于正中的2个数的平均值.
众数 ~ n个数据中出现次数最多的那个(或几个)数. 3个代表数反映一组数据整体大小的不同侧面.
薪金到底是多少
某公司100位职工的月薪/千元
职工薪金增长快
股东分红增长快 股东人均分红增长快
小结与评注
• 同样的一组数据可以有不同的表述和解读办法, 取决于要说明什么问题,达到什么目的.
• 3个常用的代表数:平均数、中位数和众数, 具有各自的特点和用法.
• 数值随时间的变化可以用绝对增长或相对增长 表示, 二者说明同一问题的不同侧面.
1.2 评选举重总冠军
中位数 ~ 只取决于按大小排列的位置,不受特大或 特小数据影响,能反映数据的中等水平.
未充分利用信息; 数据量大时计算较繁. 众数 ~ 常作为选择 “最多” , “最佳”的依据.
未充分利用信息; “并列第一”时无法做唯一抉择.
如何选用代表数
• 数据:某高三年级全部男同学的身高.
与10年前同龄男生身高作对比, 估计增长量. 平均数
模型 建立
xk~职工薪金总额, yk~股东分红总额
500
400 300
职工薪金
200
100股东分红Fra bibliotek2011 2012 2013
a. 总额/万元
200 股东分红
150 职工薪金
100
2011 2012 2013
b. 增长率/%
c. 均值/(万元/人)
xk斜率大于yk斜率 yk/y0斜率大于xk/x0斜率 斜率相差5倍
每个级别设3个项目:抓举、挺举、总成绩.
每个级别、每个项目都产生一个冠军.
同一项目 (如抓举) 的8个冠军中怎样选出“总冠军”?
不同级别冠军成绩按体重 “折合”到某个标准级别, 比较折合成绩,选出最高的作为总冠军.
1.2 评选举重总冠军 问题分析
建立体重与举重成绩的数学模型 计算各级别冠军举重成绩的理论值 比赛产生各级别冠军成绩的实际值
c.人均/(万元/人)
公司老板:职 工薪金比股东 分红增长得更 多、更快,可 谓有福同享.
工会负责人: 2013年职工薪金 增长到167%, 股东分红增长到 200%,应更顾 及职工利益.
职工:与股东 人均分红相比, 职工人均薪金 增长得太慢, 呼吁大幅度增 加职工的薪金.
哪种解读更有道理 k=0,1,2 (2011, 2012, 2013)
2.5
2.4
2.3
* 总成绩 + 挺举 x 抓举
2.2
150
普通坐标 体重
对数坐标 体重
100 55 60 65 70 75 80 85 90 95 100 105 110
2.1
1.7
1.75
1.8
1.85
1.9
1.95
2
大致呈线性关系
线性关系有所改进
大级别成绩的增加变慢 幂函数(幂次小于1)可能更合适
定制校服尺寸的参考.
众数
• 数据:生产小组15个工人每人一天生产零件的数目
与其他小组比较,作为评选先进的参考. 平均数
制定标准日产量,使多数人能超产.
中位数
大家应该也有点累了,稍作休息
大家有疑问的,可以询问和交
如何选用代表数
• 数据:班上20名学生一次考试成绩:15人80分, 2人90分,1人10分,1人15分,小李75分. 与其他班级或本班以前成绩对比. 平均分74分 小李衡量自己的标准. 高于平均分! 倒数第3名!
计算实际值与理论值的比值 构造一个简单、合适的指标作为折合成绩 各级别冠军折合成绩最高的为总冠军
数据收集 利用举重比赛的世界纪录建立数学模型.
• 不同级别成绩的差别基本上由运动员体重决定. • 多年积累下来的世界记录与某一次比赛成绩相比,
更能避免偶然性.
数据收集 利用举重比赛的世界纪录建立数学模型.
平均数 :8.6千元. 公司高层对外宣传. 中位数 :6千元(第50、51人都是6000元).
税务部门调查个人所得税的起征点. 众数 : 5千元(5千元的人数最多).
工会干部为职工争取福利.
3个代表数的特点
平均数 ~ 平等利用每一数据的信息,反映数据整体 大小;有方便的计算公式,应用最广.
受少数特大或特小数据影响,会失去代表性.
1. 数据分析模型
1.1 薪金到底是多少 1.2 评选举重总冠军 1.3 估计出租车的总数 1.4 解读CPI 1.5 NBA赛程的分析与评价——全国
大学生数学建模竞赛2008年D题
1.1 薪金到底是多少
日常生活中遇到的数据: • 一个班的考试成绩及按成绩的排 名 • 公司里每位职工一个月的薪金 • 超市中各个品牌牙膏一个月的销量 • 一个年级全部男同学的身高 用几个数简明地表示一组数据整体的大小.
依靠运动员全身力量完成的体育项目 举重 拳击 赛艇 摔跤
按照运动员体重划分级别进行比赛. 每个级别都有一个冠军. 能评选出一个“总冠军”吗?
……
问题
1.2 评选举重总冠军
男子举重比赛按运动员体重 (上限)分为8个级别: 56kg, 62kg, 69kg, 77kg, 85kg, 94kg, 105kg, 105kg以上.
a. 总额/万元
200
股东分红
150
职工薪金
100
2011 2012 2013
b. 增长率/%
c.人均/(万元/人)
哪种解读更有道理
500
400 300
职工薪金
200
100
股东分红
2011 2012 2013
a. 总额/万元
200
股东分红
150
职工薪金
100
2011 2012 2013
b. 增长率/%
不掌握创造记录的运动员的实际体重. 因为体重越大、举得越重,比赛时运动员体重 都会调整到非常接近各级别的上限.
105 kg以上级未设上限,只在其余7个级别中选总冠军.
数据分析 世界记录与体重数据的散点图
世 450
界 记 400 录 350
300
250
200
* 总成绩 + 挺举 x 抓举
世 界 2.7 记 2.6 录
其他代表数 跳水比赛的评分标准 中位数80分 7位裁判的分数去掉一个最高分和一个最低分,剩下 5个分数的总和乘以动作难度系数,为最后得分.
中位数和平均数的结合
哪种解读更有道理
某股份制公司50名职工和5位股东近3年的利润分配
500
400 300
职工薪金
200
100
股东分红
2011 2012 2013
n个数据的代表数
n 个数据的代表数
平均数 ~ n个数据的算术平均值.
中位数 ~ n个数据从小到大(或从大到小)排序 位于正中的数. 若n为偶数,取位于正中的2个数的平均值.
众数 ~ n个数据中出现次数最多的那个(或几个)数. 3个代表数反映一组数据整体大小的不同侧面.
薪金到底是多少
某公司100位职工的月薪/千元
职工薪金增长快
股东分红增长快 股东人均分红增长快
小结与评注
• 同样的一组数据可以有不同的表述和解读办法, 取决于要说明什么问题,达到什么目的.
• 3个常用的代表数:平均数、中位数和众数, 具有各自的特点和用法.
• 数值随时间的变化可以用绝对增长或相对增长 表示, 二者说明同一问题的不同侧面.
1.2 评选举重总冠军
中位数 ~ 只取决于按大小排列的位置,不受特大或 特小数据影响,能反映数据的中等水平.
未充分利用信息; 数据量大时计算较繁. 众数 ~ 常作为选择 “最多” , “最佳”的依据.
未充分利用信息; “并列第一”时无法做唯一抉择.
如何选用代表数
• 数据:某高三年级全部男同学的身高.
与10年前同龄男生身高作对比, 估计增长量. 平均数
模型 建立
xk~职工薪金总额, yk~股东分红总额
500
400 300
职工薪金
200
100股东分红Fra bibliotek2011 2012 2013
a. 总额/万元
200 股东分红
150 职工薪金
100
2011 2012 2013
b. 增长率/%
c. 均值/(万元/人)
xk斜率大于yk斜率 yk/y0斜率大于xk/x0斜率 斜率相差5倍
每个级别设3个项目:抓举、挺举、总成绩.
每个级别、每个项目都产生一个冠军.
同一项目 (如抓举) 的8个冠军中怎样选出“总冠军”?
不同级别冠军成绩按体重 “折合”到某个标准级别, 比较折合成绩,选出最高的作为总冠军.
1.2 评选举重总冠军 问题分析
建立体重与举重成绩的数学模型 计算各级别冠军举重成绩的理论值 比赛产生各级别冠军成绩的实际值
c.人均/(万元/人)
公司老板:职 工薪金比股东 分红增长得更 多、更快,可 谓有福同享.
工会负责人: 2013年职工薪金 增长到167%, 股东分红增长到 200%,应更顾 及职工利益.
职工:与股东 人均分红相比, 职工人均薪金 增长得太慢, 呼吁大幅度增 加职工的薪金.
哪种解读更有道理 k=0,1,2 (2011, 2012, 2013)
2.5
2.4
2.3
* 总成绩 + 挺举 x 抓举
2.2
150
普通坐标 体重
对数坐标 体重
100 55 60 65 70 75 80 85 90 95 100 105 110
2.1
1.7
1.75
1.8
1.85
1.9
1.95
2
大致呈线性关系
线性关系有所改进
大级别成绩的增加变慢 幂函数(幂次小于1)可能更合适
定制校服尺寸的参考.
众数
• 数据:生产小组15个工人每人一天生产零件的数目
与其他小组比较,作为评选先进的参考. 平均数
制定标准日产量,使多数人能超产.
中位数
大家应该也有点累了,稍作休息
大家有疑问的,可以询问和交
如何选用代表数
• 数据:班上20名学生一次考试成绩:15人80分, 2人90分,1人10分,1人15分,小李75分. 与其他班级或本班以前成绩对比. 平均分74分 小李衡量自己的标准. 高于平均分! 倒数第3名!
计算实际值与理论值的比值 构造一个简单、合适的指标作为折合成绩 各级别冠军折合成绩最高的为总冠军
数据收集 利用举重比赛的世界纪录建立数学模型.
• 不同级别成绩的差别基本上由运动员体重决定. • 多年积累下来的世界记录与某一次比赛成绩相比,
更能避免偶然性.
数据收集 利用举重比赛的世界纪录建立数学模型.
平均数 :8.6千元. 公司高层对外宣传. 中位数 :6千元(第50、51人都是6000元).
税务部门调查个人所得税的起征点. 众数 : 5千元(5千元的人数最多).
工会干部为职工争取福利.
3个代表数的特点
平均数 ~ 平等利用每一数据的信息,反映数据整体 大小;有方便的计算公式,应用最广.
受少数特大或特小数据影响,会失去代表性.