大数据处理技术简介(PPT 37张)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
每一天,人们在Twitter上发出3.44亿条消息。 每一天,人们在Facebook发出40亿条信息。
6
学习 · 创造
大数据应用情景三(物联网数据流):传感网、物联网、智慧城市
传感网、物联网源源不断产生海量数据流、数据量更大,加上能更准确、更快地收集比如 活信息等数据,对在线即时处理提出了更高的要求和挑战。
计算模型 MPI
MapReduc
Online MapReduc
11
学习 · 创造
实时计算系统的改造
• • • • •
• • • • • • •
第一类方法,Hadoop改造: [1] Yingyi Bu等在Hadoop MapReduce工作的基础上设计了HaLoop,主要克服了Hadoo 迭代计算时需要设置收敛条件以及每次迭代均需要重新加载数据的缺点; [2] 伯克利大学的Tyson Condie等对Hadoop进行改进,设计了Hadoop Online Prototype 系统,支持连续查询、事件监测以及流处理等功能; [3] Facebook在SIGMOD’ 2011上发表了利用Hbase/Hadoop进行实时处理数据的论文,通 些实时性改造,力图使hadoop批处理计算平台也具备实时计算的能力。 [4] Google在新一代内容索引系统中放弃了MapReduce,替代者是尚不为人知的分布式数据 系统Percolator,Percolator是一种增量处理平台,它能持续更新索引系统,无需从头重新处 遍整个系统。 [5] Wang Lam等开发了类似于Map-reduce框架、专注于快速处理数据的Muppet; 第二类方法,实时云计算系统: [6] MIT等三所高校的研究人员联合研发了第二代分布式流处理系统Borealis; [7] Sheheryar Malik设计了具有良好错误容忍机制的实时云计算系统;Harmeek Singh Bed 了实时云计算系统的专利; [8] Baidu Dstream, 淘宝Beales, Facebook Puma,Twitter Storm,Yahoo! S4 [9] 2011年组织了以实时云计算和虚拟化为主题的国际讨论组会RTSOAA(Real-Time Cloud Computing and Virtualization)。 [10] 2011年度的Hadoop China大会一个热点议题就是数据流计算,在MapReduce计算模型 全球之后,Stream Processing将会是下一个研究热点,无论是在工业界还是学术界。
8
本与网民增长等速或超过网民的增速,网络国际出口带宽达到1,182,261.45Mb
学习 · 创造
国内外相关研究
实时计算(数据驱动) VS. 批处理计算(任务驱动)
数据流计算的典型模式之一是不确定数据速率的数据流流入系统,系统处 能力必须与数据流量大小相匹配。 Hadoop(MapReduce)框架为批处理做了高度优化,数据存储在分布式文 系统中,系统典型地通过调度批量任务来操作分布式文件系统静态数据。
3、海量异构的数据(包括文本、图像、声音等)。
大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)
3
学习 · 创造
大数据处理技术的应用
近年来,一种新的数据密集型应用已经得到了广泛的认同,这些应用
括:网络监控、电信数据管理、Web应用、传感检测等等。在这种数据流
据以大量、快速、时变(可能是不可预知)的数据流持续到达,如何对海 动数据建模并处理,产生了一些新的基础性研究问题。
4
学习 · 创造
大数据应用情景一(B2C、C2C与金融):淘宝、股票等即时交易数据
截至2011年11月,淘宝Beltles平台单日最 大服务调用量19亿。 今年淘宝双11 QPS:32万/分钟
2009年四月统计:上证交易所新一代交易 系统峰值订单处理能力约80000笔/秒,平 均订单时延比现用交易系统缩短30%以上, 系统日双边成交容量不低于1.2亿笔/日, 相当于单市场1.2万亿的日成交规模。
大数据处理技术简
1
学习 · 创造
1
概念及背景介绍 大数据处理相关工具介绍
2 3
国内相关数据处理平台简介 Storm实时计算系统简介
4
2
学习 · 创造
大数据概念
1、指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理的 取、管理、处理并整理成为帮助企业经营决策更积极目的的咨询。
2、维克托·迈尔-舍恩伯格以及肯尼斯·库克耶编写的《大数据时代》中大数 分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。
2012-01-14报道,铁道部12306网站连续5 天日均点击数超过10亿次,高峰时超过 14.09亿次,导致系统近乎崩溃或瘫痪。
5
学习 · 创造
大数据应用情景三(社交网络):社交网络即时消息处理
每秒钟,人们发送290万封电子邮件。 每分钟,人们向Youtube上传60个小时的视频。
每一天,人们在Twitter上发消息1.9亿条微博。
任务1…n n>>无穷 Hadoop
静态数据1...m
HDFS
任务 1...n
动态数据1…m m>>无穷
Stream cloud
9
学习 · 创造
国内外相关研究
实时计算(数据驱动) VS. 批处理计算(任务驱动)
数据流计算的典型模式之一是不确定数据速率的数据流流入系统,系统 能力必须与数据流量大小相匹配。 Hadoop(MapReduce)框架为批处理做了高度优化,数据存储在分布式 系统中,系统典型地通过调度批量任务来操作分布式文件系统静态数据
数据源 任务1
任务2.1
计算单元3 任务2.1
计算单元2 任务2 任务3.1 任务2.2
任务3.2 基于文件/消息传输的 分布式并行计算
应用 普通集群 云计算 数据流 实时云计算
计算模型与通信机制 基于消息传递的分布式模型 基于文件传输的并行计算模型 基于消息(封装文件)传输的 并行计算
数据规模 TB级/百台 PB级/千台 PB级/千台
服务器
设备网
Internet
用户端程序
实时数据流 处理平台 传感设备
数据库
7
学习 · 创造
大数据应用情景四(数据流过滤):互联网带宽增长
•
根据中国互联网络信息中心(CNNIC)的“中国互联网络发展状况统计报告”
2011年中国的互联网基础资源继续保持快速增长,IP地址、域名、网站和网页
年增长了7.6%。
任务1…n n>>无穷 Hadoop
静态数据1...m
HDFS
任务 1...n
动态数据1…m m>>无穷
Stream cloudห้องสมุดไป่ตู้
10
学习 · 创造
分布式并行计算系统
流水线+并行、可配置、可容错、弹性可扩展、全内存、实时在线处
面向数据流内容安全的 实时云计算模型 流分组 计算单元1 任务1.1 流汇聚
6
学习 · 创造
大数据应用情景三(物联网数据流):传感网、物联网、智慧城市
传感网、物联网源源不断产生海量数据流、数据量更大,加上能更准确、更快地收集比如 活信息等数据,对在线即时处理提出了更高的要求和挑战。
计算模型 MPI
MapReduc
Online MapReduc
11
学习 · 创造
实时计算系统的改造
• • • • •
• • • • • • •
第一类方法,Hadoop改造: [1] Yingyi Bu等在Hadoop MapReduce工作的基础上设计了HaLoop,主要克服了Hadoo 迭代计算时需要设置收敛条件以及每次迭代均需要重新加载数据的缺点; [2] 伯克利大学的Tyson Condie等对Hadoop进行改进,设计了Hadoop Online Prototype 系统,支持连续查询、事件监测以及流处理等功能; [3] Facebook在SIGMOD’ 2011上发表了利用Hbase/Hadoop进行实时处理数据的论文,通 些实时性改造,力图使hadoop批处理计算平台也具备实时计算的能力。 [4] Google在新一代内容索引系统中放弃了MapReduce,替代者是尚不为人知的分布式数据 系统Percolator,Percolator是一种增量处理平台,它能持续更新索引系统,无需从头重新处 遍整个系统。 [5] Wang Lam等开发了类似于Map-reduce框架、专注于快速处理数据的Muppet; 第二类方法,实时云计算系统: [6] MIT等三所高校的研究人员联合研发了第二代分布式流处理系统Borealis; [7] Sheheryar Malik设计了具有良好错误容忍机制的实时云计算系统;Harmeek Singh Bed 了实时云计算系统的专利; [8] Baidu Dstream, 淘宝Beales, Facebook Puma,Twitter Storm,Yahoo! S4 [9] 2011年组织了以实时云计算和虚拟化为主题的国际讨论组会RTSOAA(Real-Time Cloud Computing and Virtualization)。 [10] 2011年度的Hadoop China大会一个热点议题就是数据流计算,在MapReduce计算模型 全球之后,Stream Processing将会是下一个研究热点,无论是在工业界还是学术界。
8
本与网民增长等速或超过网民的增速,网络国际出口带宽达到1,182,261.45Mb
学习 · 创造
国内外相关研究
实时计算(数据驱动) VS. 批处理计算(任务驱动)
数据流计算的典型模式之一是不确定数据速率的数据流流入系统,系统处 能力必须与数据流量大小相匹配。 Hadoop(MapReduce)框架为批处理做了高度优化,数据存储在分布式文 系统中,系统典型地通过调度批量任务来操作分布式文件系统静态数据。
3、海量异构的数据(包括文本、图像、声音等)。
大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)
3
学习 · 创造
大数据处理技术的应用
近年来,一种新的数据密集型应用已经得到了广泛的认同,这些应用
括:网络监控、电信数据管理、Web应用、传感检测等等。在这种数据流
据以大量、快速、时变(可能是不可预知)的数据流持续到达,如何对海 动数据建模并处理,产生了一些新的基础性研究问题。
4
学习 · 创造
大数据应用情景一(B2C、C2C与金融):淘宝、股票等即时交易数据
截至2011年11月,淘宝Beltles平台单日最 大服务调用量19亿。 今年淘宝双11 QPS:32万/分钟
2009年四月统计:上证交易所新一代交易 系统峰值订单处理能力约80000笔/秒,平 均订单时延比现用交易系统缩短30%以上, 系统日双边成交容量不低于1.2亿笔/日, 相当于单市场1.2万亿的日成交规模。
大数据处理技术简
1
学习 · 创造
1
概念及背景介绍 大数据处理相关工具介绍
2 3
国内相关数据处理平台简介 Storm实时计算系统简介
4
2
学习 · 创造
大数据概念
1、指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理的 取、管理、处理并整理成为帮助企业经营决策更积极目的的咨询。
2、维克托·迈尔-舍恩伯格以及肯尼斯·库克耶编写的《大数据时代》中大数 分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。
2012-01-14报道,铁道部12306网站连续5 天日均点击数超过10亿次,高峰时超过 14.09亿次,导致系统近乎崩溃或瘫痪。
5
学习 · 创造
大数据应用情景三(社交网络):社交网络即时消息处理
每秒钟,人们发送290万封电子邮件。 每分钟,人们向Youtube上传60个小时的视频。
每一天,人们在Twitter上发消息1.9亿条微博。
任务1…n n>>无穷 Hadoop
静态数据1...m
HDFS
任务 1...n
动态数据1…m m>>无穷
Stream cloud
9
学习 · 创造
国内外相关研究
实时计算(数据驱动) VS. 批处理计算(任务驱动)
数据流计算的典型模式之一是不确定数据速率的数据流流入系统,系统 能力必须与数据流量大小相匹配。 Hadoop(MapReduce)框架为批处理做了高度优化,数据存储在分布式 系统中,系统典型地通过调度批量任务来操作分布式文件系统静态数据
数据源 任务1
任务2.1
计算单元3 任务2.1
计算单元2 任务2 任务3.1 任务2.2
任务3.2 基于文件/消息传输的 分布式并行计算
应用 普通集群 云计算 数据流 实时云计算
计算模型与通信机制 基于消息传递的分布式模型 基于文件传输的并行计算模型 基于消息(封装文件)传输的 并行计算
数据规模 TB级/百台 PB级/千台 PB级/千台
服务器
设备网
Internet
用户端程序
实时数据流 处理平台 传感设备
数据库
7
学习 · 创造
大数据应用情景四(数据流过滤):互联网带宽增长
•
根据中国互联网络信息中心(CNNIC)的“中国互联网络发展状况统计报告”
2011年中国的互联网基础资源继续保持快速增长,IP地址、域名、网站和网页
年增长了7.6%。
任务1…n n>>无穷 Hadoop
静态数据1...m
HDFS
任务 1...n
动态数据1…m m>>无穷
Stream cloudห้องสมุดไป่ตู้
10
学习 · 创造
分布式并行计算系统
流水线+并行、可配置、可容错、弹性可扩展、全内存、实时在线处
面向数据流内容安全的 实时云计算模型 流分组 计算单元1 任务1.1 流汇聚