大数据挖掘通用解决方案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1概述 (3)
1.1建设背景 (3)
1.2设计范围 (3)
1.3总体设计原则 (3)
2系统平台设计 (5)
2.1项目需求 (5)
2.2设计思想 (7)
2.3系统方案 (7)
2.4系统优势和特点 (8)
2.5作业调度系统方案 (10)
2.6分布式数据处理系统方案 (11)
2.7分布式数据库方案 (12)
2.8分布式并行挖掘算法方案 (12)
3系统架构 (13)
3.1存储层基本组成 (13)
3.2Jobkeeper系统基本组成 (17)
3.3分布式数据立方系统基本组成 (19)
3.4数据挖掘层基本组成 (29)
4系统架构 (31)
4.1安全保障体系框架 (35)
4.2云计算平台的多级信任保护 (37)
4.3基于多级信任保护的访问控制 (42)
4.4云平台安全审计 (45)
5关键技术 (50)
5.1数据处理集群的可靠性与负载均衡技术 (50)
1
5.2计算与存储集群的可靠性与负载均衡 (54)
5.3计算与存储集群的负载均衡处理 (62)
5.4分布式文件系统的可靠性设计 (65)
5.5分布式数据立方可靠性设计 (68)
5.6分布式并行计算可靠性设计 (70)
5.7查询统计计算可靠性鱼负载均衡设计 (73)
5.8数据分析与数据挖掘 (76)
6大数据挖掘平台介绍 (88)
6.1平台介绍 (88)
6.2功能介绍 (88)
6.3可视化查询介绍 (92)
6.4分类算法介绍 (93)
6.5聚类算法介绍 (94)
2
1概述
1.1建设背景
随着云计算和大数据的兴起和发展,云计算已经处理大数据很重要的一个组成部分,伴随着数据量的几何增长,传统的数据挖掘平台系统架构模式已经远远不能适应现代数据挖掘的建设要求。大数据挖掘平台就是建立在数据立方基础上针对海量的数据的集中计算与挖掘,建立一套具有高可靠、可在线弹性伸缩,提供数据内在关系和价值的数据挖掘计算平台。为业务决策提供便捷、快速和高效的平台支撑。
1.2设计范围
本技术解决方案针对大数据挖掘平台技术,提供从系统软硬件技术架构、原理、硬件选型、网络接入以及软件与应用之间的接口等方面的全面设计阐述。
1.3总体设计原则
针对本次工程的实际情况,充分考虑系统建设的建设发展需求,以实现系统统一管理、高效应用、平滑扩展为目标,以“先进、安全、成熟、开放、经济”为总体设计原则。
1.3.1先进性原则
在系统总体方案设计时采用业界先进的方案和技术,以确保一定时间内不落后。选择实用性强产品,模块化结构设计,既可满足当前的需要又可实现今后系统发展平滑扩展。
3
1.3.2安全性原则
数据是业务系统核心应用的最终保障,不但要保证整套系统能够7X24运行,而且底层存储系统必须有高可用性,以保证应用系统对数据的随时存取。同时配置安全的备份系统,对应用数据进行更加安全的数据保护,降低人为操作失误或病毒袭击给系统造成的数据丢失。
在进行系统设计时,充分考虑数据高可靠存储,采用高度可靠的软硬件容错设计,进行有效的安全访问控制,实现故障屏蔽、自动冗余重建等智能化安全可靠措施,提供统一的系统管理和监控平台,进行有效的故障定位、预警。
1.3.3成熟性原则
为确保整个系统能够稳定工作,软件平台将使用先进、完善、易于管理和稳定可靠的云存储资源管理系统,对于与应用的集成接口,提供统一的通用稳定访问接口。1.3.4开放性原则
系统建设具有开放性的标准体系,提供开放的应用API编程接口,提供人性化的应用和管理界面,以满足用户需求。遵循规范的通用接口标准,使全系统中的硬件、通信、软件、操作平台之间的互联共享。充分考虑系统的升级和维护问题,维护采用在线式的,即在系统不停止工作的情况下,可以更换单元备件。系统的维护和升级操作由系统管理员即可完成。
1.3.5经济性原则
现有业务系统存储数据量较大,且数据的增长速度较快。因此在建设系统存储架构时,应从长远的角度考虑,建设一个长期的存储架构,除了可以应对存储硬件设备的升
4