基于数据湖架构的时空大数据分析云平台
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于数据湖架构的时空大数据分析云平台
数据存储选型
NAS
Standalone
Direct Access
Enterprise
Cloud NFS Http
Simple/
Object Store
Elasticity
CIFS
数据存储形态变化
数据来源多样
数据类型多样
数据海量异构
传统的数据存储和分析方法不再能满足大数据和人工智能场景下的业务需求,为了实现更高的敏捷性和灵活性,需要一种新的架构模式。
数据存储与分析发展阶段
1.0:基于关系型数据库的传统数据仓库
2.0:以Hadoop为基础的传统大数据分析(HDFS、MapReduce、YARN)
3.0:以数据湖为基础的支持异构技术融合的架构
什么是数据湖?
数据湖架构可以在一个集中式存储位置安全地存储、分类和分析所有数据,且数据可以按照原始格式存储而无需转换为预定义结构。
数据湖发展
2011年概念
2016年Amazon AWS & Microsoft Azure & Google Cloud 2018年阿里云华为云
地理信息领域对数据湖架构的已有应用OpenStreetMap(Amazon AWS)
Google Earth Engine(Google Cloud)
Esri ArcGIS(Windows Azure)
数据仓库与数据湖
GB vs PB
数据湖并非对数据仓库的替代,而是在应用场景上的相互补充