基于流计算构建实时大数据处理系统
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于流计算构建实时大数据处理系统
为什么要用流计算
为什么要用阿里云流计算
如何用流计算
用户
使用
系统
影 响
产 生
商业和数据形成闭环
决策
处理
数据
价值
数据的价值随着时间延迟迅速降低
时间
业务数据
价值时效
实时推荐
异常&欺诈检测
实时调度
用户
使用
系统
影 响
越快 越好
产 生
越快越有竞争优势 大数据实时化——流式处理
Flink的企业版
二级调度
增量checkpoint 异步IO
生态 平台
引擎
关键部分性能提高10倍
Apache Storm
Model API 状态 准确性 窗口 时延 吞吐 SQL Native Low Level
Spark Streaming
Micro-Batch High Level Yes
Flink
为什么要用流计算
为什么要用阿里云流计算
如何用流计算
阿里云流计算商业化
一站式、高性能、稳定、易用的 流式大数据处理平台
阿里云流计算
SQL
Hale Waihona Puke Baidu快速上手
一站式平台
全链路、全周期、全托管
数据生态
对接阿里云各种数据存储
Blink
高性能、稳定
流式SQL
开发&运维门槛低
固定时间窗口下的单词计数功能
使 用 SQL来 表 示 : SELECT count(*) FROM words GROUP BY word WITH WINDOW(2, 3)
决策
处理
数据
离线(批量)计算
流计算
提交请求 装载数据 返回结果 实时数据流 实时结果流
提交流式任务
批量计算是一种批量、高时延、主动发起的计算任务
流计算是一种持续、低时延、事件触发的计算任务
离线(批量)计算
流计算
开船去湖里打鱼
拦河建坝发电
理论
实践
streaming
streaming
data
merge
Native High Level Yes Exactly-once
No
At-Least-Once No
Exactly-once
Limited High High Yes
Yes
Low High Yes
Low Low No
为什么要用流计算
为什么要用阿里云流计算
如何用流计算
典型架构
WEB
流计算
流式数据
APP
IoT设备
静态数据 流式数据 静态数据
流计算
流
parser filter
join
udf
join
agg
流
parser
filter
静态数据
典型场景
实时推荐
工业IoT
欺诈检测
实时报表
实时推荐
工业IoT
欺诈检测
实时报表
典型案例
天猫双十一大屏
城市大脑
工业大脑
我们的用户
新功能速览
独享集群
一站式平台
• 开发、调试、运维、报警
• 数据source、sink、维表管理 • 完善的支持团队:业务问题排查、引擎特性修改
数据生态
无缝对接云上10+种数据存储
IoTHub DataHub SLS MQ
ADS
RDS HybridDB HiTSDB
ElasticSearch
TableStore
Blink引擎
UDX、VPC、GPU、FPGA
Datalake ETL
数据清洗、同步、分析
CEP
流式复杂事件处理
6月7日邀测
DT时代,数据是新能源
流计算
让业务实时 , 让数据发电
为什么要用流计算
为什么要用阿里云流计算
如何用流计算
用户
使用
系统
影 响
产 生
商业和数据形成闭环
决策
处理
数据
价值
数据的价值随着时间延迟迅速降低
时间
业务数据
价值时效
实时推荐
异常&欺诈检测
实时调度
用户
使用
系统
影 响
越快 越好
产 生
越快越有竞争优势 大数据实时化——流式处理
Flink的企业版
二级调度
增量checkpoint 异步IO
生态 平台
引擎
关键部分性能提高10倍
Apache Storm
Model API 状态 准确性 窗口 时延 吞吐 SQL Native Low Level
Spark Streaming
Micro-Batch High Level Yes
Flink
为什么要用流计算
为什么要用阿里云流计算
如何用流计算
阿里云流计算商业化
一站式、高性能、稳定、易用的 流式大数据处理平台
阿里云流计算
SQL
Hale Waihona Puke Baidu快速上手
一站式平台
全链路、全周期、全托管
数据生态
对接阿里云各种数据存储
Blink
高性能、稳定
流式SQL
开发&运维门槛低
固定时间窗口下的单词计数功能
使 用 SQL来 表 示 : SELECT count(*) FROM words GROUP BY word WITH WINDOW(2, 3)
决策
处理
数据
离线(批量)计算
流计算
提交请求 装载数据 返回结果 实时数据流 实时结果流
提交流式任务
批量计算是一种批量、高时延、主动发起的计算任务
流计算是一种持续、低时延、事件触发的计算任务
离线(批量)计算
流计算
开船去湖里打鱼
拦河建坝发电
理论
实践
streaming
streaming
data
merge
Native High Level Yes Exactly-once
No
At-Least-Once No
Exactly-once
Limited High High Yes
Yes
Low High Yes
Low Low No
为什么要用流计算
为什么要用阿里云流计算
如何用流计算
典型架构
WEB
流计算
流式数据
APP
IoT设备
静态数据 流式数据 静态数据
流计算
流
parser filter
join
udf
join
agg
流
parser
filter
静态数据
典型场景
实时推荐
工业IoT
欺诈检测
实时报表
实时推荐
工业IoT
欺诈检测
实时报表
典型案例
天猫双十一大屏
城市大脑
工业大脑
我们的用户
新功能速览
独享集群
一站式平台
• 开发、调试、运维、报警
• 数据source、sink、维表管理 • 完善的支持团队:业务问题排查、引擎特性修改
数据生态
无缝对接云上10+种数据存储
IoTHub DataHub SLS MQ
ADS
RDS HybridDB HiTSDB
ElasticSearch
TableStore
Blink引擎
UDX、VPC、GPU、FPGA
Datalake ETL
数据清洗、同步、分析
CEP
流式复杂事件处理
6月7日邀测
DT时代,数据是新能源
流计算
让业务实时 , 让数据发电