数据挖掘平台建设方案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘平台建设方案
1.1.1.1平台简介
DataSense数据挖掘系统主要提供实现大多数主流的数据挖掘功能,包括属性选择、分类预测、回归预测、聚类分析、关联分析、时间序列分析等6大类。为适应不同业务数据的特点,对同一个数据挖掘功能,通过多种算法进行实现,例如“分类预测”有决策树、分类回归树、支撑向量机分类、神经网络分类、贝叶斯网络、朴素贝叶斯、逻辑回归、分类组合模型等算法可供上层应用选择,具有高处理性能和高可靠性,可不间断接受任务。
1.1.1.2平台设计
数据挖掘架构图
DataSense数据挖掘系统采用了数据立方大数据库作为对系统海量数据的底层存储平台,提供了高效的ETL工具,能够对海量数据进行高效快速的清洗。前端WEB部分方便用户管理和使用系统,对于数据挖掘的结果提供了饼图、散点图、折线图、面积图、柱状图、雷达图、线箱图、分布图、多折线图、帕累托图等10类可视化手段,利于业务系统对数据和模型的观察和调用。
DataSense数据挖掘核心模块系统架构:
DataSense核心模块图
➢分布式数据挖掘引擎
管理本机上同时运行的多个计算任务,协调资源分配。➢分布式挖掘运行时
独立的数据挖掘程序,负责对切分好的最小单元任务进行处理。
➢DataSense分布式数据挖掘管理引擎
提供对数据挖掘应用的API,同时负责对整个数据挖掘
任务的调度管理。
➢分布式数据挖掘算法库
提供对数据挖掘常用的基本挖掘算法,同时用户可以自己任意添加新的挖掘算法。
1.1.1.3主要功能
DataSense数据挖掘系统实现了大多数主流的数据挖掘功能,包括属性选择、分类预测、回归预测、聚类分析、关联分析、时间序列分析等6大类。为适应不同业务数据的特点,对同一个数据挖掘功能,通过多种算法进行实现,例如“分类预测”有决策树、分类回归树、支撑向量机分类、神经网络分类、贝叶斯网络、朴素贝叶斯、逻辑回归、分类组合模型等算法可供用户选用。共计包含了27个数据挖掘算法。
➢平台界面
DataSense分布式数据挖掘平台提供对集群机器的负载监控,磁盘监控等基本管理功能。用户可以快速方便的监控整个集群的运行状态。
➢数据导入
负责对数据的导入,支持数据库,文件系统两种数据抽取方式。将数据抽取保存到数据立方。
➢数据管理
可以查询不同表的数据信息,可以导出原始数据文件。
➢任务管理
由于算法的输入规模的不同,部分数据挖掘业务可能运行时间过长,系统提供了挖掘任务的查看、管理功能。
➢用户管理
大数据挖掘平台提供了多用户使用,系统管理员可以通过用户信息管理功能实现对系统多用户的管理。
➢系统配置
提供系统平台自身的参数信息管理
➢可视化查询介绍
系统提供了对于已有数据的可视化查询,用户可以自定义查询逻辑,系统会在后台自动提交查询任务。目前查询支持了标准SQL 60%的查询功能。
➢分类算法
分类算法目前提供了对于数据集的学习、分类的功能。同时用户还可以保存数据训练模型以便决策者或者第三方系统能够在线获取模型,并基于模型进行企业经营行为的决策或计算。
分类结束后系统会通过可视化的方式展示系统训练分类后的结果。
➢聚类算法
聚类分是对未知事物的分类,系统提供了对结构化数据的聚类,用户可以选择不同纬度的聚类。
上图为聚类设计页面,用户可以选择数据源,聚类属性,聚类本身的相关属性等信息。
聚类完成后,系统通过可视化的查询,目前提供了饼图、散点图、折线图、面积图、柱状图、雷达图、线箱图、分布图、多折线图、帕累托图等10类可视化手段,利于用户对数据和模型的观察和理解。
1.1.1.4平台优势特性
(1)灵活的高性能硬件配置
DeepRack深度学习一体机包含24U半高机柜,很多可配
置4台4U高性能服务器;每台服务器CPU选用英特尔E5-2600系列至强处理器;每台服务器很多可插入4块英伟达GPU卡;可选配NVIDIA TITAN X, GeForce GTX 1080、K80等各档次英伟达GPU卡,以满足不同深度学习应用的需求。DeepRack 深度学习一体机为用户提供很大每秒176万亿次的单精度计算能力,满配时相当于160台服务器的计算能力,使您的深度学习产品在计算效率上具有非凡竞争力;另外,充分考虑了7*24小时大规模运算的需要,一体机内部采用专业的散热、能耗设计。
(2)集成知名的深度学习软件系统
DeepRack深度学习一体机预装CentOS操作系统,集成了两套位于行业前沿开源工具软件——Google的TensorFlow以及伯克利大学的Caffe,以帮助学习诸如图像识别、语音识别和语言翻译等任务。
(3)提供基础训练数据
DeepRack深度学习一体机提供了MNIST、CIFAR-10、ImageNet等图像数据集,以满足实验与模型塑造过程中的训练数据需求。
(4)即买即用,周到服务
DeepRack深度学习一体机预装CentOS操作系统,安装配置了TensorFlow、Caffe等主流深度学习开源工具软件,并免费提供大量的可训练数据,用户根据操作手册,可快速