流式计算框架分享
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
流式计算框架分享
PART ONE
流式计算定义和特点
PART THREE
流式计算框架技术路线
内容 简介
PART TWO
主流流式计算框架
PART FOUR
Spark Streaming和Storm 介绍
PART ONE
流式计算定义和特点
定义
流式计算是针对连续不断,且无法 控制数据流速的计算场景设计出的 计算模型,常见的场景有搜索引擎、 在线广告等
PPT素材:www.1ppt.com/sucai/ PPT图表:www.1ppt.com/tubiao/ PPT教程: www.1ppt.com/powerpoint/ 范文下载:www.1ppt.com/fanwen/ 教案下载:www.1ppt.com/jiaoan/ PPT课件:www.1ppt.com/kejian/ 数学课件:www.1ppt.com/kejian/shu xue/ 美术课件:www.1ppt.com/kejian/me ishu/ 物理课件:www.1ppt.com/kejian/wul i/ 生物课件:www.1ppt.com/kejian/she ngwu/ 历史课件:www.1ppt.com/kejian/lish i/
代码 • 框架Debug较为复杂
Spark Streaming
应用场景: • 日志处理 • 社交网站消息更新 • 推荐系统 • 运维报警 配套框架: • HBase • HDFS • Redis • 关系型数据库 • Kafka
Storm
应用场景: • 金融反欺诈,反洗钱 • 在线广告投放 配套框架: • HBase • Redis • 关系型数据库 • Kafka
谢谢!
PPT模板:www.1ppt.com/moban/ PPT背景:www.1ppt.com/beijing/ PPT下载:www.1ppt.com/xiazai/ 资料下载:www.1ppt.com/ziliao/ 试卷下载:www.1ppt.com/shiti/ PPT论坛:www.1ppt.cn 语文课件:www.1ppt.com/kejian/yuw en/ 英语课件:www.1ppt.com/kejian/ying yu/ 科学课件:www.1ppt.com/kejian/kexu e/ 化学课件:www.1ppt.com/kejian/huaxue/ 地理课件:www.1ppt.com/kejian/dili/
如Spark Sql,Mlib等 劣势: • 调度耗时较大,不适合做实时性要求很高的需
求 • 稳定性相对较差 • 机器性能消耗较大
计算模型:Actors模型 优势: • 框架简单,学习成本低 • 实时性很好,可以提供毫秒级延迟 • 稳定性很好,框架比较成熟 劣势: • 编程成本较高 • 框架处理逻辑和批处理完全不一样,无法公用
PART
ONE
流式计算Байду номын сангаас义 和特点
特点
1. 数据不止,计算不停 2. 无稳态数据,计算随数据变化 3. 不可控,计算速度随数据速度变化
PART ONE
主流流式计算框架
主流流式计算框架
数据传输层
• Flume:Cloudera开源项目
数据计算层
• Spark Streaming:Apache Spark子项目 • Storm:Apache顶级项目 • S4:Yahoo原型产品,未发布 • Elastic Search:Apche顶级项目,最流行的搜索引擎
专注于OLAP
搜索引擎
Elastic Search
PART ONE
Spark Streaming和Storm
Spark Streaming
Storm
计算模型:D-Stream模型 优势: • 编程原语丰富,编程简单 • 框架封装层级较高,封装性好 • 可以共用批处理处理逻辑,兼容性好 • 基于Spark,可以无缝内嵌Spark其他子项目,
数据应用层
• Splunk:商业软件,机器日志分析引擎 • Druid:大数据实时查询和分析的高容错、高性能开源分布式系统
PART ONE
流式计算模型技术路线
技术路线
通用性
适用一切场景
通用
OLAP,ETL,服务等
Actors模型
Storm
D-Stream模 型
Spark Streaming
特化系统
PART ONE
流式计算定义和特点
PART THREE
流式计算框架技术路线
内容 简介
PART TWO
主流流式计算框架
PART FOUR
Spark Streaming和Storm 介绍
PART ONE
流式计算定义和特点
定义
流式计算是针对连续不断,且无法 控制数据流速的计算场景设计出的 计算模型,常见的场景有搜索引擎、 在线广告等
PPT素材:www.1ppt.com/sucai/ PPT图表:www.1ppt.com/tubiao/ PPT教程: www.1ppt.com/powerpoint/ 范文下载:www.1ppt.com/fanwen/ 教案下载:www.1ppt.com/jiaoan/ PPT课件:www.1ppt.com/kejian/ 数学课件:www.1ppt.com/kejian/shu xue/ 美术课件:www.1ppt.com/kejian/me ishu/ 物理课件:www.1ppt.com/kejian/wul i/ 生物课件:www.1ppt.com/kejian/she ngwu/ 历史课件:www.1ppt.com/kejian/lish i/
代码 • 框架Debug较为复杂
Spark Streaming
应用场景: • 日志处理 • 社交网站消息更新 • 推荐系统 • 运维报警 配套框架: • HBase • HDFS • Redis • 关系型数据库 • Kafka
Storm
应用场景: • 金融反欺诈,反洗钱 • 在线广告投放 配套框架: • HBase • Redis • 关系型数据库 • Kafka
谢谢!
PPT模板:www.1ppt.com/moban/ PPT背景:www.1ppt.com/beijing/ PPT下载:www.1ppt.com/xiazai/ 资料下载:www.1ppt.com/ziliao/ 试卷下载:www.1ppt.com/shiti/ PPT论坛:www.1ppt.cn 语文课件:www.1ppt.com/kejian/yuw en/ 英语课件:www.1ppt.com/kejian/ying yu/ 科学课件:www.1ppt.com/kejian/kexu e/ 化学课件:www.1ppt.com/kejian/huaxue/ 地理课件:www.1ppt.com/kejian/dili/
如Spark Sql,Mlib等 劣势: • 调度耗时较大,不适合做实时性要求很高的需
求 • 稳定性相对较差 • 机器性能消耗较大
计算模型:Actors模型 优势: • 框架简单,学习成本低 • 实时性很好,可以提供毫秒级延迟 • 稳定性很好,框架比较成熟 劣势: • 编程成本较高 • 框架处理逻辑和批处理完全不一样,无法公用
PART
ONE
流式计算Байду номын сангаас义 和特点
特点
1. 数据不止,计算不停 2. 无稳态数据,计算随数据变化 3. 不可控,计算速度随数据速度变化
PART ONE
主流流式计算框架
主流流式计算框架
数据传输层
• Flume:Cloudera开源项目
数据计算层
• Spark Streaming:Apache Spark子项目 • Storm:Apache顶级项目 • S4:Yahoo原型产品,未发布 • Elastic Search:Apche顶级项目,最流行的搜索引擎
专注于OLAP
搜索引擎
Elastic Search
PART ONE
Spark Streaming和Storm
Spark Streaming
Storm
计算模型:D-Stream模型 优势: • 编程原语丰富,编程简单 • 框架封装层级较高,封装性好 • 可以共用批处理处理逻辑,兼容性好 • 基于Spark,可以无缝内嵌Spark其他子项目,
数据应用层
• Splunk:商业软件,机器日志分析引擎 • Druid:大数据实时查询和分析的高容错、高性能开源分布式系统
PART ONE
流式计算模型技术路线
技术路线
通用性
适用一切场景
通用
OLAP,ETL,服务等
Actors模型
Storm
D-Stream模 型
Spark Streaming
特化系统