大数据与管理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
因此 UPS 利用大数 据分析打造了一个名 为 Orion 的道路优化 与导航集成系统,可 以在约3秒内找出最 佳路线。
2011 年 , UPS 的 驾 驶 员 少 跑 了 5000 万 公 里 的 路 , 节省了 300 万加仑燃 料,少排放了3万立 方公吨的二氧化碳。
大数据的发展背景
《Nature》杂志出版专刊 “Big Data”,分析了大 量快速涌现数据给数据分 析处理带来的巨大挑战。 2001年 2008年
Volume 大量
• 处理速度快。 1秒定律。 • 这一点也是 和传统的数据 挖掘技术有着 本质的不同。
• 数据类型繁多。 不仅包括传统的关 系数据类型,也包 括以网页、音视频、 文档等形式存在的 未加工的、半结构 化和非结构化的数 据。
Variety 多样
Value 价值
• 价值密度低。 但庞大的数 据中蕴含着 新知识,以 及极其重要 的预测价值。
法相结合,这个项目在 2008年 9月雷曼兄
弟破产之后马上就发现了通货紧缩趋势,然 而那些依赖官方数据的人直到 11 月份才知 道这个情况。
案例-百度迁徙图
国内有2亿手机用户使用百度 地图,用户每次位置变化,百度
都能得到数据。把手机网民的定
位信息汇总成大数据进行分析, 就能勾勒出人们的迁徙轨迹。
……
岩画 MB
目录
1
2 3
大数据的发展
大数据的定义和特征
案例分享
4
大数据时代的机遇和挑战
大数据的前世今生
莫里航海图,最早的大数据实践
大航海时代,早 期由于对潮汐、风和 洋流等知识的缺乏, 远洋航海不仅效率低 下,而且充满危险。
马修· 方丹· 莫里曾 是一名优秀的美国海 军军官,在一次偶然 的事故后被迫退役。 随后,他与20个志同 道合的数据处理者一 起,整理了所有旧航 海图上的信息,并绘 制了一张拥有 120 万 数据点的航海图。
案例-CPI预测
美国劳工统计局每个月都要公布CPI,这
些数据对投资者和商家都非常重要。政府为
了得到这些数据,每年大概需要花费两亿五 千万美元。这些数据是精确的也是有序的, 但是这个采集结果的公布会有几周的滞后。 MIT 的两位经济学家通过一个软件在互 联网上收集信息,他们每天可以收集到 50 万种商品的价格。通过把大数据和好的分析
大数据的发展背景
1、智能终端的普及
2、网络带宽的提升
3、电子商务的狂热 4、社交网络流行 5、位置信息 6、云计算的兴起 7、物联网时代的到来
大数据的发展背景
大数据的发展背景
大数据的定义
百度百科对大数据的定义是: 大数据( Big Data) ,或称巨量资 料,指由于容量太大和过于复杂,无法在一定时间内用常规软 件对其内容进行抓取、管理、存储、检索、共享、传输和分析 的数据集。
房产
道路
广告
案例-智能电表
智能电表部署后,每隔 5 分钟 就从用户处读取一次数据,从而产
生海量用电信息。
错峰用电
平衡用电
用电分析 ……
住房空置率
违建
大数据时代的机遇
2013年10月,济南电子政务数据交换平台正式启用。该平 台基于云计算理念,成功将工商、国税、质检、公安、社保 等20多个部门数据共享。国税局与地税局通过数据比对,发 现了25000条数据差异,落实纳税企业5000多户,补缴税款 2700多万元。 推广:如将我国城镇居民医疗数据与保险数据对比分析可以 优化保险企业报销比例,发现虚假报销行为;与制药厂数据
麦肯锡全球研究院(2011)对大数据的定义是从数据集的大体 量入手的:大数据是指那些规模大到传统的数据库软件工具已 经无法采集、存储、管理和分析的数据集。 维克托∙迈尔-舍恩伯格(2012)在《大数据时代》一书中主要从 价值大的角度来定义大数据,他认为大数据是当今社会所独有的 一种新型的能力:以一种前所未有的方式,通过对海量数据进行 分析,获得有巨大价值的产品和服务,或深刻的洞见。
5月麦肯锡全球研究院 发布了《大数据:创新、 竞争和生产力的下一个 领域》研究报告。 2012年 5月,联合国发表名 为《大数据促发展: 挑战与机遇》的政务 白皮书。
2011年
Gartner研究 指出,现代 信息社会的 信息爆炸已 经演变成了 数据爆炸。
《Science》推 出关于数据处理 的专刊“Dealing with data”,讨 论了数据洪流 (Data Deluge) 所带来的挑战。
用户年龄分布:覆盖适龄婚育群体,观众气质更 显成熟。不少适龄青年发微博称,“看到某某, 我也好想结婚,想有个这样的儿子/女儿。”
案例-《爸爸去哪儿》大数据解读
为决策提供支持。 若自己的目标客户 与该节目的观众一 致,可以考虑下一 季的赞助。 根据之前的 数据分析, 大胆推出了 低成本同名 电影并大获 成功!第二 季的拍摄紧 锣密鼓地进 行着…… 满足了自己“八卦”的 需求。对这个节目有了 深入的了解。
报告人:和 力
数据:数据是记录下来可以被鉴 别的符号,包括文字、图片、视 频和声音等。 太字节,记作TB,1TB=1024GB; 拍字节,记作PB,1PB=1024TB; 艾字节,记作EB,1EB=1024PB; 泽字节,记作ZB,1ZB=1024EB。
大数据
ZB
互联网
PB
纸、印刷术 TB
文字 GB
通过分析这些数 据,莫里知道了一些 良好的天然航线,这 些航线上的风向和洋 流都非常利于航行。 他所绘制的图表使航 海路程减少,也变得 更安全。
大数据的前世今生
UPS行车路线选择
UPS 的 司 机 一 般 每天要送 120 至 175 次货。在任何两个目 的地之间,都可以选 择多条路线。显然, 司机和 UPS 想要找到 其中最有效率的那条 。
Βιβλιοθήκη Baidu
比对分析可以调节药品的生产量与销售渠道。但医疗政策信 息并不能发挥这样的作用。
案例-政治选举
在 2012年 奥巴马的竞选团队
对数以千万计的选民邮件进行 数据挖掘,精确预测出更拥护
奥巴马的选民类型,并进行了
有针对性的宣传,从而帮助奥 巴马成为了美国历史上唯一一
位在竞选经费处于劣势下实现
连任的总统。
案例-《爸爸去哪儿》大数据解读
案例-《爸爸去哪儿》大数据解读
粉丝性别比例:“爸爸粉”女性占到八成。难道 是因为星爸太帅?当然,这与微博中女性用户占
比较高和她们更爱分享转评的习惯也有关。
地区偏好排行:《爸爸去哪儿》的观众明显向 GDP高地聚集。对湘派娱乐节目免疫力极强的京 、沪、苏、蜀等地罕见上榜。《爸爸去哪儿》偏 好度前十省份中,有5个GDP十强省份,涵盖3个 直辖市。这是否能说明,一部分“先富起来”的 人,对亲子关系有更深的焦虑和更多的期待?
小额信贷: 截止2013年底阿里巴巴数据平台服务器上,已积攒超过100PB 已处理的数据,包括交易、金融、SNS、地图、生活服务等多种数据类型, 依托阿里电商平台强大的数据体系和平台支撑,阿里金融开创了一种“纯信用 、无抵押、免担保”的小额贷款模式,从而给数十万小微企业,放贷数百亿 元,坏账率仅为0.3%左右,低于商业银行水平。
大数据的特征
大数据的4V特点:Volume、Velocity、Variety、Value
• 数据体 量巨大。 从TB级别 跃升到PB 级别。
Volume 大量
存储量
据估计,2007年全球存储了大约300EB 的数据,而到2013年,已达1.8ZB,据估计 到2020年,世界上存储的数据预计能达到 35ZB之多,相当于数千亿个大型图书馆存储 的数据。
大数据平台框架
管理模式的变迁
市场、金融、政策等等 业务数据 决策、预策
市场、金融、政策等等
业务数据
报表等
决策、预策
市场、金融、政策等等 大数据系统 业务数据 信息、预策
决策
案例-谷歌流感趋势项目
传统的流感预报会滞后大约两周的时间,这种滞后往往会导 致严重的后果。
谷歌发现,某些搜索 字词可以很好地标示流 感疫情的现状。Google 流感趋势使用了经过汇 总的 Google 搜索数据库 来测流感疫情。
案例-纽约沙井盖爆炸预测
在 每年纽约有很多沙井盖因内部失火发生 爆炸,后来相关部门对足够围绕地球三周半 的地下电缆和数万个沙井盖的历史数据进行 了处理,从数据中发现了大型沙井盖爆炸的 106种预警情况,并成功预测出了高危沙井 盖。这样,包含这些预警指标的预测模型就 建立起来了,可用于对以后的沙井盖爆炸做 出预测,帮助公司事前做出针对性的维修决 策。
+
数据存储、 传输等处 理速度快
Facebook上每秒有4.1 万张照片上传,淘宝每秒有 数万笔交易。
大数据的特征
大数据的4V特点:Volume、Velocity、Variety、Value
Velocity 高速
• 数据体 量巨大。 从TB级别 跃升到PB 级别。
Volume 大量
• 处理速度快。 1秒定律。 • 这一点也是 和传统的数据 挖掘技术有着 本质的不同。
新华社新媒体中心联合数 托邦创意分析工作室抓取了新 浪微 博上提及“爸爸去哪儿 ”45.5万条原创微博,并对 36.7万独立原发作者用户(去 除疑似水军账户)、1300余万 条用户微博及近1亿的关系进行 数据分析。结果发现:《爸爸
去哪儿》不仅成为名副其实的
“口碑王”,还使娱乐节目发 生了很多微妙变化。
潜在 赞助 商
观众
节目 组
大数据解读 可能的受益 者
同类 节目 竞争 者
从《爸爸去哪 儿》的成功中 可以学到什么 ?
明星
赞助 商
了解了自己及孩子在观众心中的 “热度”,为下一步转型及孩子 未来的规划提供参考。
本次赞助是否成 功?成功在哪里 ?为以后广告的 投放提供了经验 。
案例-纸牌屋的创作
在 《纸牌屋》是从3000万付费用 户的数据中总结收视习惯、选择, 仔细分析400万条评论、300万次 主题搜索,并对用户喜好精准分 析的基础上进行创作的。最终, 拍什么、谁来拍、谁来演、怎么 播,都由数千万观众的客观喜好
LOGO
案例-谷歌流感趋势项目
2009年,H1N1病毒肆虐全球,谷歌的“全球流感地图” 成功派上用场,准确预测出患病高发地区,有效地指导 人们进行预防。
案例-大数据在政务领域的应用
大数据的发展,将极大地改变政府的管理模式,有利于节约政府投资、加强
市场监管能力、提高政府决策能力、提升公共服务能力,实现区域化管理。
• 数据类型繁多。 不仅包括传统的关 系数据类型,也包 括以网页、音视频、 文档等形式存在的 未加工的、半结构 化和非结构化的数 据。
Variety 多样
大数据的特征
大数据的4V特点:Volume、Velocity、Variety、Value
Velocity 高速
• 数据体 量巨大。 从TB级别 跃升到PB 级别。
3月奥巴马总统 宣布美国政府投 资逾2亿美元启 动“大数据研究 和发展计划 (BDRDI)”。
大数据的发展背景
随着一系列标志性事件的发生和建立,人们越发感觉到大数据时 代的力量。因此2013年被许多国外媒体和专家称为“大数据元年”。
Agricultural
Industry
Information
Data
统计决定,是用大数据 “算”出
来的电视剧。
案例-大数据在金融领域的应用
大数据助力推进高频金融交易和小额信贷
高频交易:目前美国股市每天的成交量高达70亿股,通过对历史和实时数 据的挖掘创新,以创造和改进量化交易模型,并将之应用于基于计算机模 型的实时证券交易过程中。据统计其中高达三分之二的交易都是由建立在 数学模型和算法之上的计算机程序自动完成的。
• 数据体 量巨大。 从TB级别 跃升到PB 级别。
Volume 大量
+
计算量
大数据的特征
大数据的4V特点:Volume、Velocity、Variety、Value
数据更新、 增长速度 快
Velocity 高速
• 数据体 量巨大。 从TB级别 跃升到PB 级别。
Volume 大量
• 处理速度快。 1秒定律。 • 这一点也是 和传统的数据 挖掘技术有着 本质的不同。
太字节,记作TB,1TB=1024GB;拍字节,记作PB, 1PB=1024TB;艾字节,记作EB,1EB=1024PB;泽字 节,记作ZB,1ZB=1024EB。。。。
大数据的特征
大数据的4V特点:Volume、Velocity、Variety、Value
广州超算中心 存储量
16000个运算节点 312万个计算核心 整体总计内存1.408PB 12.4PB的硬盘阵列