亚马逊AWS 基于AWS云平台上的 实时数据分析最佳实践分享
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于AWS云平台上的
实时数据分析最佳实践分享
庄富任
产品拓展, A WS 中國
Business Development Manager
AWS 基于云的完整大数据服务
Glacier
S3
EC2
Redshi5 DynamoDB
EMR
Data P ipeline
实时数据流 |大规模存储|大集群并行计算 Kinesis
采集处理
AWS上的一些大数据客户
大数据挑战
存储 洞察收集 分析
4TB
每天
S3
长期 归档
Glacier
数据 挖掘
H adoop
实时 数据采集
Kinesis
数据 仓库
Redshi5
实时数据流处理使用案例
§▪ 对于广告平台
§▪ 用户在互联网上的行为能实时的影响其广告推送内容,在用户下一次刷新页面时,就提供给用户新的广告
§▪ 对于电商
§▪ 用户的每一次收藏、点击、购买行为,都能被快速的归入他的个人模型中,立刻修正商品推荐
§▪ 对于社交网络
§▪ 用户社交图谱的变更和发言等行为,也能快速被反映在他的好友推荐、热门话题提醒上。
大数据
收集和存储
收集 分析
存储 洞察
典型的实时动态数据流处理架构和工作流程
Client/Sensor
Aggregator
ConDnuous P rocessing
Storage
AnalyDcs + R eporDng
1)数据采集
负责从各节点上实时采集数据
例如选用flume
(cloudera) 来实现
例如使用 Apache 开源工具架构
2)数据接入
由于采集数据的速度和数据处理的速度不一定同步,因此添加一个消息中间件来作为缓冲 例如选用apache的kafka (LinkedIn) 3)流式计算
对采集到的数据进行实时分析
例如选用apache 的storm (twitter)
§ Amazon EC2 服务器上搭建收集器 (Kafka, Fluentd, Scribe 和 Flume
等)
从多个来源 汇集数据
区域
可用区 A
EC2
§▪ 客户端无法发送数据到端点 (数据收集器可靠性?) §▪ 无法立即消化大量併发事件 (数据收集器吞吐量
?)
从多个来源 汇集数据
区域
可用区 A
EC2
数据采集
高度 伸缩
可靠
从多个来源
汇集数据 区域
可用区 A EC2 可用区 B
EC2
载入数据 S3 存储在本地磁盘
容量?
持久性?
存储 并行数据
加载到S3 S3
Simple S torage S ervice (S3)
高度可扩展无限制容量的对象存储
每个对象存储达 1 b yte 至 5TB 容量
99.999999999% 持久性 从多个来源
汇集数据 区域 可用区 A
EC2
可用区 B
EC2
Amazon K inesis 实时数据流处理 §▪
实时数据采集, 摄入, 传输 §▪
处理实时动态数据流 §▪
并行写入写出 §▪
支持数据输出到不同存储目的地
S3 Amazon Kinesis
Hadoop EMR
数据仓库
Redshi> DynamoDB
D ata
S ources
App.4 [Machine L earning]
A W S E n d p o i n t App.1 [Aggregate & D e -‐Duplicate]
D ata S ources Data S ources
D ata S ources App.2 [Metric
E xtracDon]
S3
DynamoDB
Redshift App.3 [Sliding W indow A nalysis]
D ata S ources Availability
Zone Shard 1 Shard 2 Shard N Availability Zone Availability
Zone Amazon K inesis 实时数据流处理
数据流
Shard 分片
§▪ 分片是 Amazon K inesis 数据流的基本吞吐量单位 §▪ 一个分片提供
§▪ 1MB/秒数据输入(write)容量 = 1, 000 T PS
§▪ 2MB/秒数据输出(read)容量 = 5 T PS
实时数据流摄入
实时玩家
动作
Amazon Kinesis
Hay D ay 《卡通农场》
Shard 1 Shard 1
Shard 1
Shard N
§▪ 简单的调用 PUT 命令动态摄入数据 §▪ 每个分片 (Shard) 可摄入每秒1MB 数据(高达1000 T PS) §▪ 不停机状态下动态扩展 Shard 数量