大数据调研报告(2)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2017
大数据调研报告
目录页
CONTENTS PAGE
大数据概念与特征 大数据处理系统
大数据与机器学习 大数据系统框架
大数据概念与特征
01
• 大数据概念
• 大数据四个特征
• 大数据与传统数据的比较
大数据概念
“大数据”概念最早由维克托·迈尔·舍恩伯格和肯尼斯·库克耶在编写《大数据时代》中提出,指不用随机分析法(抽样调查)的捷径,而是采 用所有数据进行分析处理。大数据(Big Data)又称为巨量资料,指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、 高增长率和多样化的信息资产。
大数据与传统数据的比较
大数据处理系统
02
• 处理数据理念
• 静态数据批处理
• 大数据处理形式 • 在线数据实时处理
• 图数据综合处理
处理数据理念
要全体不要抽样 01
03 要效率不要绝对精确
处理数据理念
要相关不要结果
大数据处理ຫໍສະໝຸດ Baidu系统 静态数据批处理
批量数据处理系统
处理形式
在线数据实时处理
流式数据处理系统 交互式数据处理系统
特性:
高可靠性、高扩展性、高效性、高 容错性、低成本
实时数据处理之流式处理系统
流式数据特征:
数据连续不断、 来源众多、格式 复杂、物理顺序 不一、数据的价 值密度低.
典型应用:
(a)数据采集应用:数据 采集应用通过主动获取海量 的实时数据,及时地挖掘出 有价值的信息。 (b)金融银行业的应用: 发现隐含数据的内在特征, 可以帮助金融银行进行实时 决策。
实时数据处理之交互式处理系统
代表性处理系统:
Google 的 Pregel 系统 Pregel 是 Google 提出的基于 BSP(Bulk synchronous parallel)模型的分布式图计算 框架,主要用于图遍历(BFS)、 最短路径(SSSP)、PageRank 计算等. 特性: (a) 采用主/从(Master/Slave)结
图数据综合处理
批量数据处理系统
特征:
1.数据体量巨大(从TB跃升到PB级别) 2.数据精确度高(企业应用中沉淀下来的数据) 3.数据价值密度低(例如视频数据)
典型应用:
互联网领域: 社交网络(Facebook):文本、图片、音视频 电子商务(淘宝):购买历史记录 搜索引擎(Google)
公共服务领域: 能源、医疗保健
代表性处理系统:
Hadoop 是典型的大数据批量 处理架构,由 HDFS 负责静态数据 的存储,并通过MapReduce 将计 算逻辑分配到各数据节点进行数据 计算和价值发现.
MapReduce采用无共享大规模 集群系统,集群系统具有良好的性 价比和可伸缩性;MapReduce模 型简单、易于理解、易于使用; MapReduce能够提供良好的数据 处理性能。
构来实现整体功能 (b) 有很好的容错机制。 (c) 使用 GFS 或 BigTable 作
为持久性的存储。
BSP 模型是并行计算模型中的经典模型,采用的是“计算-通信同步”的模式.它将计算分成一系列超步(superstep)的迭代.从 纵向上看,它是一个串行模式,而从横向上看.它是一个并行的模 式,每两个超步之间设置一个栅栏,即整体同步点,确定所有并行 的计算都完成后再启动下一轮超步
典型应用: (a)在信息处理系统领域中, 主要体现了人机间的交互. 例如,网络日志分析 (b) 互联网领域. 主要体现了 人际间的交互. 如搜索引擎、 电子邮件、即时通讯工具等
代表性处理系统:
Berkeley 的 Spark 系统 Spark 是一个基于内存计算的可扩 展的开源集群计算系统,是专为大 规模数据处理而设计的快速通用的 计算引擎。 Spark拥有MapReduce 所具有的优点,针对 MapReduce 的不足,即大量的网络传输和磁盘 I/O 使得效率低效, Spark 使用内存 进行数据计算以便快速处理查询,实 时返回分析结果,能更好地适用于 数据挖掘与机器学习等需要迭代的 MapReduce的算法
代表性处理系统:
Twitter 的Storm:一套分布式、可靠、可容 错的用于处理流式数据的系统,其流式处理 作业被分发至不同类型的组件,每个组件负 责一项简单的、特定的处理任务。
批处理和流处理比较
实时数据处理之交互式处理系统
特征:
交互式数据处理灵活、直 观、便于控制. 操作人员 提出请求,数据以对话的 方式输入,系统便提供相 应的数据或提示信息,引 导操作人员逐步完成所需 的操作,直至获得最后处 理结果.
图数据综合处理
特征:
图数据中主要包括图中的 节点以及连接节点的边, 通常具有 3 个特征. 第一,节点之间的关联性. 第二,图数据的种类繁多. 第三,图数据计算的强耦 合性.
典型应用:
(a) 互联网领域的应用:搜索引擎中,可以用图表示网页之间 相互的超链接关系,从而计算一个网页的PageRank 得分;图 表示如 E-mail 中的人与人之间的通信关系,从而可以研究社会 群体关系等问题;在微博中,通过图研究信息传播与影响力最 大化等问题. (b) 自然科学领域的应用:图可以用来在化学分子式中查找分 子,在蛋白质网络中查找化合物,在 DNA 中查找特定序列等. (c) 交通领域的应用:图可用来在动态网络交通中查找最短路 径,在邮政快递领域进行邮路规划等.
大数据特征
特征
1.数据量大(Volume) 第一个特征是数据量大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10 亿个T)。
2.数据类型多(Variety) 第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的 数据对数据的处理能力提出了更高的要求。
3.价值密度低,商业价值高(Value) 第三个特征是数据价值密度相对较低。以视频为例,连续不间断监控过程中,可能有用的数据仅 有一两秒
4.速度快(Velocity) 第四个特征是数据处理速度快,数据产生快,如果海量数据未能实时处理,将失去其应有价值。
5.数据真实性(Veracity) 高质量的数据是大数据发挥效能的前提和基础。之后专业的数据分析工具才能从海量数据中提取 出隐含的、准确的、有用的信息。
大数据调研报告
目录页
CONTENTS PAGE
大数据概念与特征 大数据处理系统
大数据与机器学习 大数据系统框架
大数据概念与特征
01
• 大数据概念
• 大数据四个特征
• 大数据与传统数据的比较
大数据概念
“大数据”概念最早由维克托·迈尔·舍恩伯格和肯尼斯·库克耶在编写《大数据时代》中提出,指不用随机分析法(抽样调查)的捷径,而是采 用所有数据进行分析处理。大数据(Big Data)又称为巨量资料,指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、 高增长率和多样化的信息资产。
大数据与传统数据的比较
大数据处理系统
02
• 处理数据理念
• 静态数据批处理
• 大数据处理形式 • 在线数据实时处理
• 图数据综合处理
处理数据理念
要全体不要抽样 01
03 要效率不要绝对精确
处理数据理念
要相关不要结果
大数据处理ຫໍສະໝຸດ Baidu系统 静态数据批处理
批量数据处理系统
处理形式
在线数据实时处理
流式数据处理系统 交互式数据处理系统
特性:
高可靠性、高扩展性、高效性、高 容错性、低成本
实时数据处理之流式处理系统
流式数据特征:
数据连续不断、 来源众多、格式 复杂、物理顺序 不一、数据的价 值密度低.
典型应用:
(a)数据采集应用:数据 采集应用通过主动获取海量 的实时数据,及时地挖掘出 有价值的信息。 (b)金融银行业的应用: 发现隐含数据的内在特征, 可以帮助金融银行进行实时 决策。
实时数据处理之交互式处理系统
代表性处理系统:
Google 的 Pregel 系统 Pregel 是 Google 提出的基于 BSP(Bulk synchronous parallel)模型的分布式图计算 框架,主要用于图遍历(BFS)、 最短路径(SSSP)、PageRank 计算等. 特性: (a) 采用主/从(Master/Slave)结
图数据综合处理
批量数据处理系统
特征:
1.数据体量巨大(从TB跃升到PB级别) 2.数据精确度高(企业应用中沉淀下来的数据) 3.数据价值密度低(例如视频数据)
典型应用:
互联网领域: 社交网络(Facebook):文本、图片、音视频 电子商务(淘宝):购买历史记录 搜索引擎(Google)
公共服务领域: 能源、医疗保健
代表性处理系统:
Hadoop 是典型的大数据批量 处理架构,由 HDFS 负责静态数据 的存储,并通过MapReduce 将计 算逻辑分配到各数据节点进行数据 计算和价值发现.
MapReduce采用无共享大规模 集群系统,集群系统具有良好的性 价比和可伸缩性;MapReduce模 型简单、易于理解、易于使用; MapReduce能够提供良好的数据 处理性能。
构来实现整体功能 (b) 有很好的容错机制。 (c) 使用 GFS 或 BigTable 作
为持久性的存储。
BSP 模型是并行计算模型中的经典模型,采用的是“计算-通信同步”的模式.它将计算分成一系列超步(superstep)的迭代.从 纵向上看,它是一个串行模式,而从横向上看.它是一个并行的模 式,每两个超步之间设置一个栅栏,即整体同步点,确定所有并行 的计算都完成后再启动下一轮超步
典型应用: (a)在信息处理系统领域中, 主要体现了人机间的交互. 例如,网络日志分析 (b) 互联网领域. 主要体现了 人际间的交互. 如搜索引擎、 电子邮件、即时通讯工具等
代表性处理系统:
Berkeley 的 Spark 系统 Spark 是一个基于内存计算的可扩 展的开源集群计算系统,是专为大 规模数据处理而设计的快速通用的 计算引擎。 Spark拥有MapReduce 所具有的优点,针对 MapReduce 的不足,即大量的网络传输和磁盘 I/O 使得效率低效, Spark 使用内存 进行数据计算以便快速处理查询,实 时返回分析结果,能更好地适用于 数据挖掘与机器学习等需要迭代的 MapReduce的算法
代表性处理系统:
Twitter 的Storm:一套分布式、可靠、可容 错的用于处理流式数据的系统,其流式处理 作业被分发至不同类型的组件,每个组件负 责一项简单的、特定的处理任务。
批处理和流处理比较
实时数据处理之交互式处理系统
特征:
交互式数据处理灵活、直 观、便于控制. 操作人员 提出请求,数据以对话的 方式输入,系统便提供相 应的数据或提示信息,引 导操作人员逐步完成所需 的操作,直至获得最后处 理结果.
图数据综合处理
特征:
图数据中主要包括图中的 节点以及连接节点的边, 通常具有 3 个特征. 第一,节点之间的关联性. 第二,图数据的种类繁多. 第三,图数据计算的强耦 合性.
典型应用:
(a) 互联网领域的应用:搜索引擎中,可以用图表示网页之间 相互的超链接关系,从而计算一个网页的PageRank 得分;图 表示如 E-mail 中的人与人之间的通信关系,从而可以研究社会 群体关系等问题;在微博中,通过图研究信息传播与影响力最 大化等问题. (b) 自然科学领域的应用:图可以用来在化学分子式中查找分 子,在蛋白质网络中查找化合物,在 DNA 中查找特定序列等. (c) 交通领域的应用:图可用来在动态网络交通中查找最短路 径,在邮政快递领域进行邮路规划等.
大数据特征
特征
1.数据量大(Volume) 第一个特征是数据量大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10 亿个T)。
2.数据类型多(Variety) 第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的 数据对数据的处理能力提出了更高的要求。
3.价值密度低,商业价值高(Value) 第三个特征是数据价值密度相对较低。以视频为例,连续不间断监控过程中,可能有用的数据仅 有一两秒
4.速度快(Velocity) 第四个特征是数据处理速度快,数据产生快,如果海量数据未能实时处理,将失去其应有价值。
5.数据真实性(Veracity) 高质量的数据是大数据发挥效能的前提和基础。之后专业的数据分析工具才能从海量数据中提取 出隐含的、准确的、有用的信息。