大数据分析与决策(2016-1)[优质ppt]
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
-4-
大数据的定义理解
1
大数据的产生、增长
什么是大数据
2
大数据的“4V”特征
3
5
2019/8/23
“大数据”是如何产生的?
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经 积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的 信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学, 创造出了“大数据”这个概念*。如今,这个概念几乎应用到了所有人 类智力与发展的领域中。
1946 1951 19Байду номын сангаас6 1961
1970 1974 1979
1991
2001 2003 2008 2011
-3-
* 大数据发展背景
全球信息化发展已步入大数据时代
150亿个设备连接到互联网
全球每秒钟发送 290万封电子邮件
每天有 2.88 万小时视频上传到Youtube
Facebook 每日评论达32亿条,每天上传照片近 3亿张,每月处理数据总量约130万TB
6
2019/8/23
大数据时代的爆炸增长
1GB = 2^30字节 1TB = 2^40字节 1PB = 2^50字节 1EB = 2^60字节 1ZB = 2^70字节
地球上至今总共的数据量:
在2006 年,个人用户才刚刚迈进TB时代, 全球一共新产生了约180EB的数据;
在2011 年,这个数字达到了1.8ZB。
1946年,电脑诞生,数 据与应用紧密捆绑在文件 中,彼此不分
E-R 网络型
磁带+卡
第一台计 片
算机
人工管
ENIAC面 理
世
磁盘被 发明, 进入文 件管理 时代
GE公司发 明第一个网 络模型数据 库,但仅限 于GE自己 的主机
IBM E.F.Do dd提 出关系 模型
SQL
SQL语 言被发 明
关系型 数据库
8
2019/8/23
大数据的4V特征
数据体量巨大(Volume):
• 百度资料表明,其新首页导航每天需要提供 的数据超过1.5PB(1PB=1024TB),这些数 据如果打印出来将超过5千亿张A4纸。有资 料证明,到目前为止,人类生产的所有印刷 材料的数据仅为200PB(不能在单个计算机 上集中存储,一般需要用到分布式/云计算 模式等)。
海量交互数据: 源于Facebook、Twitter、微博、微信及其他来 源的社交媒体数据构成。它包括了呼叫详细记录、 设备和传感器信息、GPS和地理定位映射数据、 通过管理文件传输协议传送的海量图像文件、 Web文本和点击流数据、科学信息、电子邮件等 等。可以告诉我们未来会发生什么。
2011年6月底,IBM、麦肯锡等众多国外机构发布 "大数据"相关研究报告,予以积极跟进
2011 年10 月,Gartner 认为2012 年十大战略技 术将包括"大数据"
2011 年11 月底,IDC(互联网数据中心) 将"大 数据"放入2012 年信息通信产业十大预测之一
Google网站 Big data关键词搜索及新闻引用量
2011年全球产生数据量1.8ZB,预计2020年将增 长到35ZB
IDC全球数据量预测( 1ZB = 1百万PB = 10亿TB)
大数据正迅速成为最值得关注的IT领域之一
2011年5月,EMC World 2011大会主题“云计算 相遇大数据”,EMC 除了一直倡导的云计算外, 还抛出"大数据"(Big Data)概念
ORACL E发布第 一个商 用SQL 关系数 据库, 后续快 速发展
数据仓库
数据仓库开 始涌现,关 系数据库开 始全面普及 且平台无关, 进入成熟期
2001年后,互联网迅 速发展,数据量成倍递 增,量变引起质变,开 始对数据管理技术提出 全新的要求
GFS
谷歌发表 论文介绍 分布式计 算
Hadoop成 为Apache 顶级项目, 重点支持海 量数据分布 式管理和分 布式计算
21世纪是数据信息大发展的时代,移 动互联、社交网络、电子商务等极大拓展 了互联网的边界和应用范围,各种数据正 在迅速膨胀并变大。
互联网(社交、搜索、电商)、移动 互联网(微博)、物联网(传感器,智慧 地球)、车联网、GPS、医学影像、安全 监控、金融(银行、股市、保险)、电信 (通话、短信)都在疯狂产生着数据。
大数据分析与决策
报告内容
一、大数据的相关概念 二、大数据分析 三、大数据应用的典型案例 四、大数据的可靠性 五、大数据与贝叶斯方法
2
2019/8/23
* 数据管理技术发展历史
数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据技术的出 现使该领域进入了一个新的发展阶段
1960年代,IT系统规模和复杂度变大,数据与应用分 离的需求开始产生,数据库技术开始萌芽并蓬勃发展, 并在1990年后逐步统一到以关系型数据库为主导
而有市场研究机构预测: 到2020 年,整个世界的数据总量将会增长 44 倍,达到35.2ZB(1ZB=10 亿TB)!
想驾驭这庞大的数据,我们必 须了解大数据的特征。
7
2019/8/23
大数据的4V特征
Volume
Variety
Velocity
Value
“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是 “大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。
• 单个数据可能价值不大,但是数据整体 还是有高价值的(比如一个班级大家发 的微博可能没有特别大的意义,但是全 国高校大学生发的微博就可以反映当代 大学生思想理念)
9
2019/8/23
大数据的构成
大数据包括: 交易数据和交互数据 集在内的所有数据集
大数据 = 海量数据 + 复杂类型的数据
海量交易数据: 企业内部的经营交易信息主要包括联机交易数据 和联机分析数据,是结构化的、通过关系数据库 进行管理和访问的静态、历史数据。通过这些数 据,我们能了解过去发生了什么。
数据类型多样化:
• 现在的数据不仅是文本形式,更多的是图片、 视频、音频、地理位置信息等多种类型的数 据,个性化、非结构化数据占据较大比例。
处理速度快
• 数据处理遵循“1秒定律”,可从各种类型 的数据中快速获取高价值的信息
价值密度低:
• 以视频为例,几小时的视频,在不间断 的监控过程中,有用的数据可能仅仅几 秒。