阿里云大数据产品体系介绍
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
目录
大数据产品框架
数据计算平台
数据加工与分析
服务与应用引擎
大数据应用场景
记录 统计
大规模计算
GB
计算复杂程度
数据量
TB
PB
网站
独立数据 集市
论坛
小型电商
小型EDW BI/DW
MPP
淘宝
支付宝 CRM
ERP
HPC
语言识别
影音识别
图像识别
关系网络
图像比对 行为DNA
刷脸
精准广告
大数仓
消费预测
征信
搜索排序
EB
深度学习
大数据产品框架
应用加速器
分析引擎 推荐引擎 兴趣画像
分类预测
规则引擎 标签管理
ID-Mapping
计算引擎
数据加工和分析工具
离线计算 流计算 数据开发 ETL 开发
调度系统
机器学习
分析型数据库
数据可视化工具
数据采集
CDP (离线)
数据服务和应用引擎
数据管理
数据 地图
数据 质量
智能 监控
阿里云大数据集成服务平台是阿里巴巴集团统一的大数据平台,提供一站式的大数据开发、管理、分析挖掘、共享交换解决方案,可用于构建PB 级别的数据仓库,实现超大规模数据集成,对数据进行资产化管理,通过对数据价值的深度挖掘,实现业务的数据化运营。
目录
大数据产品框架
数据计算平台
数据加工与分析
服务与应用引擎
大数据离线计算服务 MaxCompute
离线计算
流计算
分析型数据库
大数据计算服务(MaxCompute ,原ODPS)是由阿里巴巴自主研发的大数据产品,支持针对海量数据(结构化、非结
构化)的离线存储和计算、分布式数据流处理服务,并可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务,应用于数据分析、挖掘、商业智能等领域。
存储
易用
安全
计算
●支持TB 、PB 级别数据存储 ●支持结构化、非结构化数据存储
●集群规模可灵活扩展,支持同城、异地多数据中心模式
●支持海量数据离线计算
●
支持分布式数据流式处理服务 ●支持SQL 、MR 、Graph(BSP)、StreamSQL 、MPI 编程框架 ●提供丰富的机器学习算法库
●支持以RESTful API 、SDK 、CLT 等方式提供服务
●不必关心文件存储格式以及分布式技术细节
●经受了阿里巴巴实践检验
●数据存储多份拷贝 ●所有计算在沙箱中运行
MaxCompute 的优势和能力
高效处理海量数据
1、跨集群技术突破,集群规模可以根据需要灵活扩展,支持同城、异地多数据中心模式
2、单一集群规模可以达到10000+服务器(保持80%线性扩展)
3、不保证线性增长的情况下,单个集群部署可以支持100万服务器以上
4、对用户数、应用数无限制,多租户支持500+部门
5、100万以上作业及2万以上并发作业安全性
1、所有计算在沙箱中运行
2、多种权限管理方式、灵活
数据访问控制策略
3、数据存储多份拷贝
易用性
1、开箱即用
2、支持SQL、MR、Graph、流
计算等多种计算框架
3、提供丰富的机器学习算法库
4、ODPS支持完善的多租户机制,
多用户可分享集群资源
自主可控经过实践验证
1、阿里巴巴自主研发
2、整套平台经受了阿里巴巴超大
规模数据应用的实践验证
离线计算流计算分析型数据库
离线计算流计算分析型数据库
自主可控
•使用Hadoop组件开发受制于开源社区,最多只能维护一个分支
•开源社区组件太多,版本问题,打包问题,升级维护成本太高
Hadoop核心技术架构发展缓慢
•一些技术阿里要比开源社区更早实现(如分布式文件系统多master实现等)
没有一个Hadoop发行版可以满足阿里巴巴的业务场景
•如异地多数据中心、数据安全性等要求
Hadoop社区分化严重,发展状况有隐忧
当前Yahoo、Facebook等公司使用的都是自己的私有版本
流计算 StreamCompute
离线计算流计算分析型数据库●阿里云流计算(StreamCompute)是一个通用的流式计算平台,提供实时的流式数据分析及计算服务●整个数据处理链路是进行压缩的,链路是即时的,完全以业务为中心,数据驱动解决用户实际问题
实时ETL 监控预警实时报表
实时在线系统对用户行为或相关事件进行实
时监测和分析,基于风控规则
进行预警
用户行为预警、app crash
预警、服务器攻击预警
数据的实时清洗、归并、结构化
数仓的补充和优化
实时计算相关指标反馈及时调整决策
内容投放、无线智能推送、实时个性化推荐等
双11、双12等活动直播大屏
对外数据产品:数据魔方、生意参谋等