大数据混合云技术架构分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
HI毗orlcal data storage Neha Narkhede "ETL la
d磷d"
一
不能即席查询和训练
1边缘计算下的大数据和AI架构一IOTA架构
Web
s Ed
g D
e k
A
n E
d d
sD
gerok
id
畛 11 1
Standard Format
Real Time Data
_ _
摄像头
1目前易观大数据混合云的数据规模
O 终端覆盖
0 产品覆盖
监测APP数昼'266万
+
行业雹盖,309个
0 用户覆盖
____ MAU: 5.5 亿
DAU: 7900万
标签类型 8365个
巴哩厨
巴但砚l
S匝
巳阁财晌
句巍哑
s匝
巳伍匡碟l 巳
凹颐犹勇斟犹亚
口罢酮厨 已座-'竺i ICI 砓夼叫蕊蕊圈.,圈豐
大数据处理 集群
1`.0 内1
分布式资 ,
I
部
:!飞矿I I
严? 11 内1111P 6 。寸算
1
11
1 m[ —
:' 五”心控与
分布队列组件
批:尸 | | $:::!m
,HDfS
分布式小效撮总线
.
实时效揖队列
I·一·S一D�笠·一·巴一吧·一"·一.一.一·一$·?一·:·记一,·立 一·一·一·一·一·氐一巴·一巴·一笠·一,:·一.一·一·一:·悦一艾·一,.竺一·一·一·一·一· - ;-::.
E s
gdD
e k
Historical data storage
loT Edge SDK
1. 计算分布在所有链路流程上 2. 通用业务数据模型
3. 端负责处理数据一致性问题 4. 即时查询、 实时反馈
仁
1数据模型与存储
• Common Data Model :贯穿整休业务始终的数据模型, 这个模型是整个业务的核心, 要保 持SDK 、 cache、 历史数据、 查询引擎保持一 致。 对千用户数据分析来讲可以定义为" 主-谓- 宾” 或者”对象-事件” 这样的抽象模型来满足各种各样的查询。 以大家熟悉的APP用户模型为
巴皿古茧 巴雇职阻四
巴 巴
巳屈讯陬
ICI 龟租疽巨l
己陪呵环,
巴
巴隘抖扭i
口晒过盔i
巴谌伉醴
巴
s 匝 已啊霆智础
S依卿逢
巳
巳E醴 巳
口— 曲已邑一二专4谔墨 3
丘『拦竺启妇
S
O 数据基础资源
I 1 1 1 数据存储容星5.8PB
每日处理数据条数271亿 数据合作伙伴1200+个
每秒处理数据61万条
实时数据处理5秒内展示
1现在大数据混合云的困境
.....
IOT大潮来临 数据噩级巨大 数据格式不相统一 数据业务多变 数据需要实时查询
,$二二勹三一工>___ 产品展现与服务
集群
|
数拊发布与订闽平台
二],i 擞掘洽ml务
. 数树调度与资
濠
分布式存镐与立诅下台
I . 统调一任 嗖务
通用数据查谒弓1竿
II 嘈,.氏一 11·
_
|
|
_ 接
收 层 边
|缘
计
Import TooIs
|算Iຫໍສະໝຸດ 厂 五叶_ -- 分布式数据传输接收平台
Java/CIPHP EdgeSDK
| Androld/iOS EdgeSDK
|
IOTEdgeSDK
I
I
I
自助查询 (Superset)
数据治理 元数据管
理
数据追踪
—数据质晟 稽核 数据安全
鉴权
数据审计
• 实时数据缓存区 这部分是为了达到实时计算的目的 , 海量数据接收不可能海量实时入历 史数据库 , 那样会出现建立索引延迟、 历史数据碎片文件等问题。 因此 , 有一个实时数据
缓存区来存储最近几分钟或者几秒钟的数据。 这块可以使用 Kudu或者Hbase等组件来实现。 这部分数据会通过Dumper来合并到历史数据当中。 此处的数据模型和SDK端数据模型是保 持一致的都是Common Data Mode| , 例如 “主谓-宾模型。 • 历史数据沉浸区, 这部分是保存[大量的历史数据, 为[实现Ad-hoc查询, 将自动建立相
关索引提高整体历史数据查询效率, 从而实现秒级复杂查询百亿条数据的反馈。 例如可以
使用 HDFS存储历史数据, 此处的数据模型依然SDK端数据模型是保持一致的Common Data Mode|。
1新—代边缘计算的大数据混合云
_ _ _ _ 应
用 层
服
r务
层
I
QueryEngine
1
蜘哇涧引擎(Presto、Spark)
大数据混合云技术架构分析
1目前易观大数据混合云的数据规模
O 终端覆盖
0 产品覆盖
监测APP数员,266万
+
行业雹盖,309个
0 用户覆盖
____ MAU: 5.5 亿
DAU: 7900万
标签类型 8365个
巴哩登
S颐犹滔沼郔
巴回涟酰宁
巴
巴但砚l 巳匝应
口罢腴厨 己劂IC一I臣砬•·济·宁一 叫一 殴·生L蕊· ,啊芒 i.,■',
:霖詈
巴咚霆智础
口函 酝-贮二,,一
巴回沮谝祠
巴皿言茧 巴雇铜阻闭 巴愣 巴诅哑 臼保仰逢
句拦妇酌m
巴 巴 巴
8 fi!il踝织扩
句
臼臣
O 数据基础资源
数据存储容呈5.8PB
1 每日处理数据条数271亿 数据合作伙伴1200+个
每秒处理数据61万条
实时数据处理5秒内展示
|| |叫尸采集格式1
11 1畸门采如格式2
要适配各种采集格式
Real Time Data
ming,
_
开发不同 时展现
Historical data storage
一 同一个数据实时和批 呈处理不同
1传统大数据架构的挑战一KAPPA架构
|| |叫尸采集格式1
mmg,
11 1畸门采如格式2
要适配各种采集格式
例, 用 “ 主-谓-宾“模型描述就是“X用户-事件1-A页面(2018/4/11 20:00) "。 当然, 根据 业务需求的不同, 也可以使用产品-事件” 、'地点-时间模型等等。 模型本身也可以根据协
议(例如 protobuf) 来实现SDK端定义, 中央存储的力式。 此处核心是, 从SDK到存储到 处理是统一的一个Common Data Mode|。
数据采集与预处理 Android
I II . _ 亡f::' ..I SDK
云端数撮按收群 SOK•LVS<Ng;n,.Netty
105 SDK
:价值
云墙高
sty s D k . lV
线 3i
数
N 一“
虹5 H
5 Nel 收
群
D
K
.
_.o-l
1
微信小程序SD`”K“ .
r [:『
亡已
1传统大数据架构下的挑战一LAMBDA架构