ETHINK 一站式大数据分析、挖掘与可视化解决方案
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0551-65708092
象形科技
统集成
第四代
与移动数据/各 多个算法 种计算设备的 数据联合
和预言模 型系统 数据管 理、预言 模型、移 动系统
et 网络计算
移动和各种计 算设备
化数据和 web 数 据 普遍存在的 计算模型
数据挖掘任务和方法有多样性特征,故对数据挖掘提出了许多挑战性的研究问题,未 来会形成更大的高潮,研究焦点可能会集中到以下几个方面: 1、研究专门用于知识发现的数据挖掘语言,走向形式化和标准化; 2、寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知 识发现过程中的人机交互; 3、研究在网络与分布式环境下的数据挖掘技术,特别是在 Internet 上建立数据挖掘服务器, 与数据库服务器配合,实现数据挖掘; 4、加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据; 5、探索可伸缩的和可交互的数据挖掘方法,全面提高挖掘过程的总体效率,尤其是超大规 模数据集中数据挖掘的效率; 6、扩大数据挖掘应用范围,如金融分析、生物医药研制、犯罪侦查等; 7、开发适应多数据类型、容噪的挖掘方法,以解决异质数据集的数据挖掘问题; 8、 动态数据和知识的挖掘等。
数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据 中挖掘知识,提供决策支持,是建立在数据库、人工智能、机器学习、神经网络、统计学、 模式识别、高性能计算等技术基础上的一门新兴技术。因此,在这种需求牵引下,汇聚了不 同领域的研究者,吸引了数据库技术、人工智能技术、数理统计、可视化技术、并行计算等 多方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。
4、技术优势 .............................................................10 4.1、特有算法及深度学习..............................................10 4.2、智能数据预处理..................................................11 4.3、算法自动选择....................................................12
象形科技
ETHINK
大数据分析挖掘平台
产 品 白 皮 书
象形科技 2016.03
http://www.ethinkbi.cwenku.baidu.comm
1
services@ethinkbi.com
0551-65708092
象形科技
版本修订记录:
版本 160301.1446 160302.1530 160310.1542 160311.1300 160330.1300
3、特色 .................................................................10 3.1、拖拽式建模......................................................10 3.2、可扩展性强......................................................10 3.3、丰富的数据挖掘,并支持深度学习..................................10
数据仓库集成 能够挖掘一 系统,包 域 的计算机群 持对象,文本
次不能放进 括数据库 集
和连续的媒
内 存 的 数 和数据仓
体数据
据
库
第三代
与 预 言 模 型 系 多个算法 数据管理 intranet/extran 支 持 半 结 构
http://www.ethinkbi.com
4
services@ethinkbi.com
作者 温明杰 温明杰 刘国光 温明杰 温明杰
说明
目录
添加内容
内容修订
内容修订
内容修正 排版与格式修正 图片尺寸修正 明显表述错误修正
http://www.ethinkbi.com
2
services@ethinkbi.com
0551-65708092
象形科技
目录
1、大数据挖掘概述 ........................................................3 1.1、数据挖掘.........................................................4 1.2、历程和趋势.......................................................4 1.3、ETHINK...........................................................5
2、ETHINK 大数据分析挖掘平台概述 ..........................................5 2.1、总览.............................................................5 2.2、功能架构.........................................................6 2.3、技术架构.........................................................7 2.4、集群方案.........................................................7 2.5、目标与展望.......................................................8 2.6、解决方案.........................................................8
2、ETHINK 大数据分析挖掘平台概述
2.1、总览
ETHINK 大数据分析挖掘平台,支持鼠标拖拽的建模可视化,支持数据可视化和模型可 视化。通过与 Spark、sparkStreaming、R 等开源技术对接,已经集成 Kmeans、逻辑回归、 随机森林、统计分析,以及深度学习,视频文本分析等 50 多种算法模型。这些算法经过一 系列项目大规模及复杂的数据场景锻炼,有效性、算法能力和计算规模都得到了很好的验证。
数据挖掘的目标是从数据库中发现隐含的、有价值、有意义的信息,通过这些信息的解 读,预测未来趋势及行为,做出前摄的、基于数据与知识的决策。
现阶段的数据挖掘模型都是针对某些具体的任务和领域,选择一些已经认可的模型。算 法和建模的难度很大,既懂技术又懂业务并且知道如何把数据转化为商业洞察力的人才,国 内几乎没有。传统数据挖掘系统,强调人工主动参与,循环测试可能有效的挖掘技术,最终 得出相对可行的系统结构,导致了数据挖掘的过程不得不手工化、复杂化。
1.1、数据挖掘
进入信息时代,计算机中的文件、数据库中的数据,总量正在以指数级增长。同时,人 们期望从数据中获得更加有用的信息。实际上,这些数据中,仅有一小部分有包含有价值信 息。由于,人们却渴求获得知识,正面临“数据丰富而知识贫乏”的问题,故,迫切需要一 种新的技术,能够从海量数据中自动且高效地提取有价值的信息,获取有用知识。数据挖掘 技术由此而生。
数据挖掘(DataMining,简称 DM),是在庞大的数据中找出有价值的隐藏信息或事件, 并且加以分析的过程。其目标在于从数据中获取有意义的信息、从数据中归纳出有用的结构, 作为管理决策的依据。此外,数据挖掘发现数据中的一些有价值、却未知悉的信息,而这些 信息可能是我们关心,但却未曾知悉的。事实上,数据挖掘并不只是一种技术或一套软件, 而是一种通过统计、在线分析、检索、机器学习、专家系统(依靠过去的经验法则)和模式 识别等诸多方法来实现分析目标的综合应用。
5、ETHINK 大数据分析挖掘平台功能 .........................................13 5.1、支持数据挖掘方法论..............................................13 5.2、丰富的数据源....................................................14 5.3、高性能弹性计算引擎..............................................14 5.4、可视化工作流式模型设计..........................................14 5.5、交互式数据处理..................................................15 5.6、丰富的算法并支持................................................16 5.7、数据可视化......................................................16 5.8、任务协作管理....................................................17
1、大数据挖掘概述
现代企业经常会搜集大量的数据,这些数据涵盖了市场、客户、供货商,及其竞争对手
http://www.ethinkbi.com
3
services@ethinkbi.com
0551-65708092
象形科技
等重要信息,但是由于信息超载与无结构化,企业的决策者无法充分利用这些庞大的数据资 源,仅能使用其中的一小部分,这可能导致决策失误,甚至出现决策错误。而借助机器学习 技术,企业完全有能力从浩瀚的数据海洋中,挖掘出全面而又有价值的信息和知识,并作为 决策支持之用,进而形成企业独有的竞争优势。
1.3、ETHINK
象形科技聚集了科大的技术专家和象形的行业专家,从数据挖掘的先进技术性与行业实 际应用性的角度出发,对数据挖掘技术进行了深层次的研究,开发形成了 ETHINK 大数据分 析挖掘平台。
ETHINK 大数据分析挖掘平台是一款企业级的大数据分析挖掘平台产品,ETHINK 大数据 分析挖掘平台通过分布式内存计算引擎,解决大数据相关分析挖掘问题。借助 ETHINK 大数 据分析挖掘技术+服务,让企业有能力从浩瀚的数据海洋中,快速发现潜在的规律与趋势, 挖掘出有价值的信息和知识,实现智慧决策,推进战略的前瞻性,进而形成强有力的竞争优 势。
1.2、历程和趋势
当前数据挖掘的软件已经发展到了第四代,各代数据挖掘软件的基本特点,如下表:
序号
特征
挖掘算法 集成
分布计算模型 数据规模
第一代
作 为 一 个 独 立 支 持 一 个 独立的系 单个机器
向量数据
的应用
或 者多个 统
算法
第二代
和 数 据 库 以 及 多个算法: 数据管理 同质、局部区 有 些 系 统 支
6、应用部署 .............................................................18 6.1、部署模式........................................................18 6.2、系统环境........................................................18
7、服务 .................................................................18 7.1、行业能力........................................................18 7.2、技术能力........................................................19 7.3、服务模式........................................................19 7.4、产品和服务......................................................20