大数据分析与决策研究报告

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

处理速度快

数据处理遵循“1秒定律”,可从各种类型 的数据中快速获取高价值的信息
数据类型多样化:
• 现在的数据不仅是文本形式,更多的是图片、 视频、音频、地理位置信息等多种类型的数 据,个性化、非结构化数据占据较大比例。
价值密度低:
• •
以视频为例,几小时的视频,在不间断 的监控过程中,有用的数据可能仅仅几 秒。 单个数据可能价值不大,但是数据整体 还是有高价值的(比如一个班级大家发 的微博可能没有特别大的意义,但是全 国高校大学生发的微博就可以反映当代 大学生思想理念)

电子商务 淘宝
facebook
社交网络
21世纪是数据信息大发展的时代,移 动互联、社交网络、电子商务等极大拓展 了互联网的边界和应用范围,各种数据正 在迅速膨胀并变大。

微博、 Apps 移动互联

互联网(社交、搜索、电商)、移动 互联网(微博)、物联网(传感器,智慧 地球)、车联网、GPS、医学影像、安全 监控、金融(银行、股市、保险)、电信 (通话、短信)都在疯狂产生着数据。
一、大数据的相关概念 二、大数据分析 三、大数据应用的典型案例 四、大数据的可靠性 五、大数据与贝叶斯方法
2
2017/8/30
* 数据管理技术发展历史
数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据技术的出 现使该领域进入了一个新的发展阶段
2001年后,互联网迅 速发展,数据量成倍递 增,量变引起质变,开 始对数据管理技术提出 全新的要求
1GB = 2^30字节 1TB = 2^40字节 1PB = 2^50字节 1EB = 2^60字节 1ZB = 2^70字节
想驾驭这庞大的数据,我们必 须了解大数据的特征。
7
2017/8/30
大数据的4V特征
Volume
Variety
Velocity
Value
“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是 “大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。
1960年代,IT系统规模和复杂度变大,数据与应用分 离的需求开始产生,数据库技术开始萌芽并蓬勃发展, 并在1990年后逐步统一到以关系型数据库为主导 1946年,电脑诞生,数 据与应用紧密捆绑在文件 中,彼此不分
网络型 GE公司发 明第一个网 络模型数据 库,但仅限 于GE自己 的主机 E-R SQL SQL语 言被发 明
8
2017/8/30
大数据的4V特征
数据体量巨大(Volume):
• 百度资料表明,其新首页导航每天需要提供 的数据超过1.5PB(1PB=1024TB),这些数 据如果打印出来将超过5千亿张A4纸。有资 料证明,到目前为止,人类生产的所有印刷 材料的数据仅为200PB(不能在单个计算机 上集中存储,一般需要用到分布式/云计算 模式等)。
GFS
关系型 数据库 数据仓库
磁带+卡 第一台计 片 算机 人工管 ENIAC面 理 世
磁盘被 发明, 进入文 件管理 时代
IBM E.F.Do dd提 出关系 模型
ORACL E发布第 一个商 用SQL 关系数 据库, 后续快 速发展
数据仓库开 始涌现,关 系数据库开 始全面普及 且平台无关, 进入成熟期
谷歌发表 论文介绍 分布式计 算
Hadoop成 为Apache 顶级项目, 重点支持海 量数据分布 式管理和分 布式计算
1946
1951
1956
1961
1970
1974
1979
1991
2001 2003
2008
2011
-3-
* 大数据发展背景
全球信息化发展已步入大数据时代
150亿个设备连接到互联网 全球每秒钟发送 290万封电子邮件 每天有 2.88 万小时视频上传到Youtube Facebook 每日评论达32亿条,每天上传照片近 3亿张,每月处理数据总量约130万TB 2011年全球产生数据量1.8ZB,预计2020年将增 长到35ZB
-4-
Google网站 Big data关键词搜索及新闻引用量
大数据的定义理解
1
大数据的产生、增长
什么是大数据
2
大数据的“4V”特征
3
大数据的构成
5
2017/8/30
“大数据”是如何产生的? 半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经 积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的 信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学, 创造出了“大数据”这个概念*。如今,这个概念几乎应用到了所有人 类智力与发展的领域中。
海量交互数据: 源于Facebook、Twitter、微博、微信及其他来 源的社交媒体数据构成。它包括了呼叫详细记录、 设备和传感器信息、GPS和地理定位映射数据、 通过管理文件传输协议传送的海量图像文件、 Web文本和点击流数据、科学信息、电子邮件等 等。可以告诉我们未来会发生什么。 海量数据处理: 大数据的涌现已经催生出了设计用于数据密集型 处理的架构。例如具有开放源码、在商品硬件群 中运行的Apache Hadoop。
IDC全球数据量预测( 1ZB = 1百万PB = 10亿TB)
大数据正迅速成为最值得关注的IT领域之一
2011年5月,EMC World 2011大会主题“云计算 相遇大数据”,EMC 除了一直倡导的云计算外, 还抛出"大数据"(Big Data)概念 2011年6月底,IBM、麦肯锡等众多国外机构发布 "大数据"相关研究报告,予以积极跟进 2011 年10 月,Gartner 认为2012 年十大战略技 术将包括"大数据" 2011 年11 月底,IDC(互联网数据中心) 将"大 数据"放入2012 年信息通信产业十大预测之一
6
2017/8/30
大数据时代的爆炸增长
ቤተ መጻሕፍቲ ባይዱ
地球上至今总共的数据量:
TB
GB
EB PB
ZB
在2006 年,个人用户才刚刚迈进TB时代, 全球一共新产生了约180EB的数据; 在2011 年,这个数字达到了1.8ZB。 而有市场研究机构预测: 到2020 年,整个世界的数据总量将会增长 44 倍,达到35.2ZB(1ZB=10 亿TB)!
9
2017/8/30
大数据的构成
大数据包括: 交易数据和交互数据 集在内的所有数据集
大数据 = 海量数据 + 复杂类型的数据
海量交易数据: 企业内部的经营交易信息主要包括联机交易数据 和联机分析数据,是结构化的、通过关系数据库 进行管理和访问的静态、历史数据。通过这些数 据,我们能了解过去发生了什么。
相关文档
最新文档