企业级大数据框架概述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
企业级⼤数据框架概述
1、数据收集层
1)扩展性:灵活适配不同的数据源。
2)可靠性:数据在传输过程中不能丢失。
3)安全性:敏感数据在收集过程中不会有安全隐患。
4)低延迟:能够以较低延迟传输到后端存储系统中
2、数据存储层
1)扩展性:需要灵活增加新机器扩展存储能⼒。
2)容错性:在机器出现故障不会导致数据丢失。
3)存储模型:⽀持多种数据模型,确保结构化和⾮结构化数据容易保存。
3、资源管理与服务协调层
1)资源利⽤率⾼:共享集群模式通过多种应⽤共享资源,使集群资源得到充分利⽤。
2)运维成本低:共享模式需少数管理员可以完成对多个框架的统⼀管理。
3)数据共享:多种应⽤公⽤集群中的硬件资源,⼤⼤减少数据移动带来的成本。
4、计算引擎层
1)批处理:最求⾼吞吐率,即单位时间内处理的数据量尽可能⼤。
2)交互式处理:对时间要求⽐较⾼,需要系统与⼈进⾏交互。
3)实时处理:对时间要求最⾼。
5、数据分析层
与⽤户应⽤程序对接,为其提供易⽤的数据处理⼯具。
6、数据可视化层
运⽤计算机图形学和图像处理技术,将数据转换为图形或图像在图形中显⽰出来,并进⾏交互处理的理论、⽅法和技术。
⼤数据架构:Lambda Architecture
1、批处理层
主要思想是利⽤分布式批处理计算,以批处理为单位处理数据,并产⽣⼀个经预计算产⽣的只读数据视图。
该层将数据流看成只读的、仅⽀持追加操作的超⼤数据集。
优点是吞吐率⾼;缺点是⾼延迟性。
2、流式处理层
为降低处理层的⾼延迟问题,使⽤流式计算技术。
优点是处理延迟低;缺点是⽆法进⾏复杂的逻辑计算,得到的解往往是近似解。
3、服务层
将批处理层和流式处理层结合在⼀起,整合计算结果,对外提供了统⼀的访问接⼝⽅便⽤户使⽤。
内容来源书籍:《⼤数据技术体系详解原理、架构与实践》 --董西成。