大数据及其典型应用 国内外大数据分析的研究现状ppt课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
E-R SQL SQL语言 被发明
关系型 数据库
GFS
数据仓库
网络型
磁带+卡片 第一台计算 人工管理 机ENIAC面 世
IBM GE公司发明第 磁盘被发明, 一个网络模型数 E.F.Dodd 进入文件管 据库,但仅限于 提出关系 模型 理时代 GE自己的主机
ORACLE发 布第一个商 用SQL关系 数据库,后 续快速发展
存储
• • • 结构化数据 海量数据的查询、统计、更新等操作效率低 非结构化数据 图片、视频、word、pdf、ppt等文件存储 不利于检索、查询和存储 半结构化数据 转换为结构化存储 按照非结构化存储
大数据技术:
• • • • 数据采集:ETL工具 数据存取:关系数据库;NoSQL;SQL等 基础架构支持:云存储;分布式文件系统等 计算结果展现:云计算;标签云;关系图等
数据仓库开始涌 现,关系数据库 开始全面普及且 平台无关,进入 成熟期
谷歌发表论文 介绍分布式计 算
Hadoop成为 Apache顶级项 目,重点支持海 量数据分布式管 理和分布式计算
1946
1951
1956
1961
1970
1974
1979
1991
2001
2003
2008
2011
-5-
全球信息化发展已步入大数据时代
1GB = 2^30字节 1TB = 2^40字节 1PB = 2^50字节 1EB = 2^60字节 1ZB = 2^70字节
想驾驭这庞大的数据,我们必须了解大数 据的特征。
9
2016/11/1
大数据的4V特征
Volume
Variety
Velocity
Value
“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说, 只有具备这些特点的数据,才是大数据。
Google网站 Big data关键词搜索及新闻引用量
-6-
大数据的定义理解
1
大数据的产生、增长
什么是大数据
2
大数据的“4V”特征
3
7
2016/11/1
“大数据”是如何产生的?
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变 革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科 如天文学和基因学,创造出了“大数据”这个概念*。如今,这个概念几乎应用到了所有人类智 力与发展的领域中。
8
2016/11/1
大数据时代的爆炸增长
地球上至今总共的数据量:
在2006 年,个人用户才刚刚迈进TB时代,全球一共新产 生了约180EB的数据; 在2011 年,这个数字达到了1.8ZB。 而有市场研究机构预测: 到2020 年,整个世界的数据总量将会增长44 倍,达到 35.2ZB(1ZB=10 亿TB)!
21世纪是数据信息大发展的时代,移动互联、社交网 络、电子商务等极大拓展了互联网的边界和应用范围,各 种数据正在迅速膨胀并变大。 互联网(社交、搜索、电商)、移动互联网(微博)、 物联网(传感器,智慧地球)、车联网、GPS、医学影像、 安全监控、金融(银行、股市、保险)、电信(通话、短 信)都在疯狂产生着数据。
2001年后,互联网迅速发展, 数据量成倍递增,量变引起质 变,开始对数据管理技术提出 全新的要求
1960年代,IT系统规模和复杂度变大,数据与应用分离的需求开始产生, 数据库技术开始萌芽并蓬勃发展,并在1990年后逐步统一到以关系型数 据库为主导 1946年,电脑诞生,数据与应用 紧密捆绑在文件中,彼此不分
10
2016/11/1
大数据的构成
大数据包括: 交易数据和交互数据集在内 的所有数据集
大数据 = 海量数据 + 复杂类型的数据
海量交易数据: 企业内部的经营交易信息主要包括联机交易数据和联机分析数据, 是结构化的、通过关系数据库进行管理和访问的静态、历史数据。 通过这些数据,我们能了解过去发生了什么。 海量交互数据: 源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构 成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理 定位映射数据、通过管理文件传输Manage File Transfer协议传送 的海量图像文件、Web文本和点击流数据、科学信息、电子邮件 等等。可以告诉我们未来会发生什么。
海量数据处理: 大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如 具有开放源码、在商品硬件群中运行的Apache Hadoop。
11
2016/11/1
一些相关技术 分析技术:
• • • • 数据处理:自然语言处理技术 统计和分析:A/B test; top N排行榜;地域占比;文本情感 分析 数据挖掘:关联规则分析;分类;聚类 模型预测:预测模型;机器学习;建模仿真
大数据正迅速成为最值得关注的IT领域之一
2011年5月,EMC World 2011大会主题“云计算相遇大数据”, ቤተ መጻሕፍቲ ባይዱMC 除了一直倡导的云计算外,还抛出"大数据"(BigData)概念 2011年6月底,IBM、麦肯锡等众多国外机构发布"大数据"相关研究 报告,予以积极跟进 2011 年10 月,Gartner 认为2012 年十大战略技术将包括"大数据" 2011 年11 月底,IDC 将"大数据"放入2012 年信息通信产业十大预 测之一
150亿个设备连接到互联网 全球每秒钟发送 290万封电子邮件 每天有 2.88 万小时视频上传到Youtube Facebook 每日评论达32亿条,每天上传照片近3亿张,每月处理 数据总量约130万TB 2011年全球产生数据量1.8ZB,预计2020年将增长到35ZB
IDC全球数据量预测( 1ZB = 1百万PB = 10亿TB)
大数据及其典型应用
video
*棱镜门 *波士顿马拉松爆炸案 *PredPol
*少数派报告 *2013 大数据元年
2
2016/11/1
一、大数据的相关概念 二、国内外大数据分析的研究现状 三、构建大数据分析平台 四、公共安全领域大数据应用案例
3
2016/11/1
4
2016/11/1
数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据技术的出现使该领域进入了一 个新的发展阶段
关系型 数据库
GFS
数据仓库
网络型
磁带+卡片 第一台计算 人工管理 机ENIAC面 世
IBM GE公司发明第 磁盘被发明, 一个网络模型数 E.F.Dodd 进入文件管 据库,但仅限于 提出关系 模型 理时代 GE自己的主机
ORACLE发 布第一个商 用SQL关系 数据库,后 续快速发展
存储
• • • 结构化数据 海量数据的查询、统计、更新等操作效率低 非结构化数据 图片、视频、word、pdf、ppt等文件存储 不利于检索、查询和存储 半结构化数据 转换为结构化存储 按照非结构化存储
大数据技术:
• • • • 数据采集:ETL工具 数据存取:关系数据库;NoSQL;SQL等 基础架构支持:云存储;分布式文件系统等 计算结果展现:云计算;标签云;关系图等
数据仓库开始涌 现,关系数据库 开始全面普及且 平台无关,进入 成熟期
谷歌发表论文 介绍分布式计 算
Hadoop成为 Apache顶级项 目,重点支持海 量数据分布式管 理和分布式计算
1946
1951
1956
1961
1970
1974
1979
1991
2001
2003
2008
2011
-5-
全球信息化发展已步入大数据时代
1GB = 2^30字节 1TB = 2^40字节 1PB = 2^50字节 1EB = 2^60字节 1ZB = 2^70字节
想驾驭这庞大的数据,我们必须了解大数 据的特征。
9
2016/11/1
大数据的4V特征
Volume
Variety
Velocity
Value
“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说, 只有具备这些特点的数据,才是大数据。
Google网站 Big data关键词搜索及新闻引用量
-6-
大数据的定义理解
1
大数据的产生、增长
什么是大数据
2
大数据的“4V”特征
3
7
2016/11/1
“大数据”是如何产生的?
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变 革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科 如天文学和基因学,创造出了“大数据”这个概念*。如今,这个概念几乎应用到了所有人类智 力与发展的领域中。
8
2016/11/1
大数据时代的爆炸增长
地球上至今总共的数据量:
在2006 年,个人用户才刚刚迈进TB时代,全球一共新产 生了约180EB的数据; 在2011 年,这个数字达到了1.8ZB。 而有市场研究机构预测: 到2020 年,整个世界的数据总量将会增长44 倍,达到 35.2ZB(1ZB=10 亿TB)!
21世纪是数据信息大发展的时代,移动互联、社交网 络、电子商务等极大拓展了互联网的边界和应用范围,各 种数据正在迅速膨胀并变大。 互联网(社交、搜索、电商)、移动互联网(微博)、 物联网(传感器,智慧地球)、车联网、GPS、医学影像、 安全监控、金融(银行、股市、保险)、电信(通话、短 信)都在疯狂产生着数据。
2001年后,互联网迅速发展, 数据量成倍递增,量变引起质 变,开始对数据管理技术提出 全新的要求
1960年代,IT系统规模和复杂度变大,数据与应用分离的需求开始产生, 数据库技术开始萌芽并蓬勃发展,并在1990年后逐步统一到以关系型数 据库为主导 1946年,电脑诞生,数据与应用 紧密捆绑在文件中,彼此不分
10
2016/11/1
大数据的构成
大数据包括: 交易数据和交互数据集在内 的所有数据集
大数据 = 海量数据 + 复杂类型的数据
海量交易数据: 企业内部的经营交易信息主要包括联机交易数据和联机分析数据, 是结构化的、通过关系数据库进行管理和访问的静态、历史数据。 通过这些数据,我们能了解过去发生了什么。 海量交互数据: 源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构 成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理 定位映射数据、通过管理文件传输Manage File Transfer协议传送 的海量图像文件、Web文本和点击流数据、科学信息、电子邮件 等等。可以告诉我们未来会发生什么。
海量数据处理: 大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如 具有开放源码、在商品硬件群中运行的Apache Hadoop。
11
2016/11/1
一些相关技术 分析技术:
• • • • 数据处理:自然语言处理技术 统计和分析:A/B test; top N排行榜;地域占比;文本情感 分析 数据挖掘:关联规则分析;分类;聚类 模型预测:预测模型;机器学习;建模仿真
大数据正迅速成为最值得关注的IT领域之一
2011年5月,EMC World 2011大会主题“云计算相遇大数据”, ቤተ መጻሕፍቲ ባይዱMC 除了一直倡导的云计算外,还抛出"大数据"(BigData)概念 2011年6月底,IBM、麦肯锡等众多国外机构发布"大数据"相关研究 报告,予以积极跟进 2011 年10 月,Gartner 认为2012 年十大战略技术将包括"大数据" 2011 年11 月底,IDC 将"大数据"放入2012 年信息通信产业十大预 测之一
150亿个设备连接到互联网 全球每秒钟发送 290万封电子邮件 每天有 2.88 万小时视频上传到Youtube Facebook 每日评论达32亿条,每天上传照片近3亿张,每月处理 数据总量约130万TB 2011年全球产生数据量1.8ZB,预计2020年将增长到35ZB
IDC全球数据量预测( 1ZB = 1百万PB = 10亿TB)
大数据及其典型应用
video
*棱镜门 *波士顿马拉松爆炸案 *PredPol
*少数派报告 *2013 大数据元年
2
2016/11/1
一、大数据的相关概念 二、国内外大数据分析的研究现状 三、构建大数据分析平台 四、公共安全领域大数据应用案例
3
2016/11/1
4
2016/11/1
数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据技术的出现使该领域进入了一 个新的发展阶段