数据挖掘主要工具软件简介
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘主要工具软件简介
Dataminning指一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法。前面介绍了报表软件选购指南,本篇介绍数据挖掘常用工具。
市场上的数据挖掘工具一般分为三个组成部分:
a、通用型工具;
b、综合/DSS/OLAP数据挖掘工具;
c、快速发展的面向特定应用的工具。
通用型工具占有最大和最成熟的那部分市场。通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型,其中包括的主要工具有IBM 公司Almaden 研究中心开发的QUEST 系统,SGI 公司开发的MineSet 系统,加拿大Simon Fraser 大学开发的DBMiner 系统、SAS Enterprise Miner、IBM Intelligent Miner、Oracle Darwin、SPSS Clementine、Unica PRW等软件。通用的数据挖掘工具可以做多种模式的挖掘,挖掘什么、用什么来挖掘都由用户根据自己的应用来选择。
综合数据挖掘工具这一部分市场反映了商业对具有多功能的决策支持工具的真实和迫切的需求。商业要求该工具能提供管理报告、在线分析处理和普通结构中的数据挖掘能力。这些综合工具包括Cognos Scenario和Business Objects等。
面向特定应用工具这一部分工具正在快速发展,在这一领域的厂商设法通过提供商业方案而不是寻求方案的一种技术来区分自己和别的领域的厂商。这些工
具是纵向的、贯穿这一领域的方方面面,其常用工具有重点应用在零售业的KD1、主要应用在保险业的Option&Choices和针对欺诈行为探查开发的HNC软件。
下面简单介绍几种常用的数据挖掘工具:
1. QUEST
QUEST 是IBM 公司Almaden 研究中心开发的一个多任务数据挖掘系统,目的是为新一代决策支持系统的应用开发提供高效的数据开采基本构件。系统具有如下特点:
(1)提供了专门在大型数据库上进行各种开采的功能:关联规则发现、序列模式发现、时间序列聚类、决策树分类、递增式主动开采等。
(2)各种开采算法具有近似线性(O(n))计算复杂度,可适用于任意大小的数据库。
(3)算法具有找全性,即能将所有满足指定类型的模式全部寻找出来。
(4)为各种发现功能设计了相应的并行算法。
2. MineSet
MineSet 是由SGI 公司和美国Standford 大学联合开发的多任务数据挖掘系统。MineSet 集成多种数据挖掘算法和可视化工具,帮助用户直观地、实时地发掘、理解大量数据背后的知识。MineSet 2.6 有如下特点:
(1)MineSet 以先进的可视化显示方法闻名于世。MineSet 2.6 中使用了6 种可视化工具来表现数据和知识。对同一个挖掘结果可以用不同的可视化工具以各种形式表示,用户也可以按照个人的喜好调整最终效果, 以便更好地理解。MineSet 2.6 中的可视化工具有Splat Visualize、Scatter Visualize、Map
Visualize、Tree Visualize、Record Viewer、Statistics Visualize、Cluster Visualizer,其中Record Viewer 是二维表,Statistics Visualize 是二维统计图,其余都是三维图形,用户可以任意放大、旋转、移动图形,从不同的角度观看。
(2)提供多种数据挖掘模式。包括分类器、回归模式、关联规则、聚类归、判断列重要度。
(3)支持多种关系数据库。可以直接从Oracle、Informix、Sybase 的表读取数据,也可以通过SQL 命令执行查询。
(4)多种数据转换功能。在进行挖掘前,MineSet 可以去除不必要的数据项,统计、集合、分组数据,转换数据类型,构造表达式由已有数据项生成新的数据项,对数据采样等。
(5)操作简单。
(6)支持国际字符。
(7)可以直接发布到Web。
3. DBMiner
DBMiner 是加拿大Simon Fraser 大学开发的一个多任务数据挖掘系统,它的前身是DBLearn。该系统设计的目的是把关系数据库和数据开采集成在一起,以面向属性的多级概念为基础发现各种知识。DBMiner 系统具有如下特色:(1)能完成多种知识的发现:泛化规则、特性规则、关联规则、分类规则、演化知识、偏离知识等。
(2)综合了多种数据开采技术:面向属性的归纳、统计分析、逐级深化发现多级规则、元规则引导发现等方法。
(3)提出了一种交互式的类SQL 语言——数据开采查询语言DMQL。
(4)能与关系数据库平滑集成。
(5)实现了基于客户/ 服务器体系结构的Unix 和PC(Windows/NT)版本的系统。
4、IBM Intelligent Miner
IBM公司以它在美国及世界各地的研究实验室发展数年的资料探勘解决方案,发展出了一系列包括在人工智能、机制学习、语言分析及知识发掘上的应用和基本研究的精密软件。IBM的Intelligent Miner在资料探勘工具的领导地位上是极具竞争力的,因为它提供了以下的好处:包含了最广泛的资料探勘技术及算法,可容纳相当大的资料量的能力且有强大的计算能力;事实上,这套产品在IBM SP的大量平行硬件系统上执行效率最好,这套产品也可以在IBM或非IBM平台上执行丰富的APIs可用来发展自定的资料探勘应用软件;所有资料探勘引擎和资料操作函式可以透过C 函式库来存取Intelligent Miner支持classification、prediction、association rules generation、clustering、sequential pattern detection和time series analysis算法,Intelligent Miner藉由利用精密的资料可视化技术及强大的Java-based使用者接口来增加它的可用性(目标大多锁定在有经验的使用者),Intelligent Miner支持DB2关系型数据库管理系统,并整合大量精密的资料操作函式结论整体而言,Intelligent Miner(for Data)是市场上最大容量及功能强大的工具,在顾客评定报告中它的整体效能是最好的,有所算法的效能甚至比其它应用不同的应用软件还要好,IBM将它定位在企业资料探勘解决方案的先锋。
5、SAS Enterprise Miner