5种数据挖掘工具分析比较

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据挖掘工具调查与研究

姓名：马蕾

学号：18082703

5种数据挖掘工具分别为：

1、 Intelligent Miner

2、 SAS Enterpreise Miner

3、SPSS Clementine

4、马克威分析系统

5、GDM

Intelligent Miner

一、综述：IBM的Exterprise Miner简单易用，是理解数据挖掘的好的开始。能处理大数据量的挖掘，功能一般，可能仅满足要求．没有数据探索功能。与其他软件接口差，只能用DB2，连接DB2以外的数据库时，如Oracle, SAS, SPSS需要安装DataJoiner作为中间软件。难以发布。结果美观，但同样不好理解。

二、基本内容：一个挖掘项目可有多个发掘库组成；每个发掘库包含多个对象和函数对象：

数据:由函数使用的输入数据的名称和位置。

离散化:将记录分至明显可识别的组中的分发操作。

名称映射:映射至类别字段名的值的规范。

结果:由函数创建的结果的名称和位置。

分类:在一个项目的不同类别之间的关联层次或点阵。

值映射:映射至其它值的规范。

函数：

发掘:单个发掘函数的参数。

预处理:单个预处理函数的参数。

序列:可以在指定序列中启动的几个函数的规范。

统计:单个统计函数的参数。

统计方法和挖掘算法：单变量曲线，双变量统计，线性回归，因子分析，主变量分析，分类，分群，关联，相似序列，序列模式，预测等。

处理的数据类型：结构化数据(如：数据库表，数据库视图，平面文件) 和半结构化或非结构化数据(如：顾客信件，在线服务，传真，电子邮件，网页等) 。

架构：它采取客户/服务器（C/S）架构，并且它的API提供了C++类和方法

Intelligent Miner通过其独有的世界领先技术，例如自动生成典型数据集、发现关联、发现序列规律、概念性分类和可视化呈现，可以自动实现数据选择、数据转换、数据挖掘和结果呈现这一整套数据挖掘操作。若有必要，对结果数据集还可以重复这一过程，直至得到满意结果为止。

三、现状：现在，IBM的Intelligent Miner已形成系列，它帮助用户从企业数据资产中

识别和提炼有价值的信息。它包括分析软件工具——Intelligent Miner for Data和IBM Intelligent Miner forText ，帮助企业选取以前未知的、有效的、可行的业务知识——

如客户购买行为，隐藏的关系和新的趋势，数据来源可以是大型数据库和企业内部或Internet 上的文本数据源。然后公司可以应用这些信息进行更好、更准确的决策，获得竞争优势。

四、挖掘案例:(客户细分)

1. 商业需求:：客户细分

2. 数据理解:根据用户基本信息(实际上还包括客户消费行为,人口统计信息等,本示例为简单起见,只在这个表的数据基础上进行挖掘)进行客户细分

3. 数据准备:

4. 建模:

选择挖掘模型（比如是分群，还是分类）

确定模型输入，需要做的处理，结果分析

选择模型输入字段:

挖掘模型选择：

神经分群发掘函数使用了一个Kohonen 特征映射神经网络。Kohonen 特征映射使用一个称作自组织的进程来将相似的输入记录组合在一起。您可以指定群集的数目和遍数。这些参数控制进程时间和将数据记录分配到群集时使用的粒度程度。分群的主任务是为每个群集查找中心。此中心也称为称为原型。对于每个在输入数据中的每个记录，神经分群发掘函数计算和记录计分最近的群集原型。

每个数据记录的计分是用到群集原型的欧几里得距离表示的。计分越靠近0，与群集原型的相似性程度就越高。计分越高，记录与群集原型就越不相似。输入数据的每个遍历，中心被调整来达到更好的整个分群模型质量。在发掘函数运行时，进度指示器显示每次遍历的质量改进状况。

4. 建模:选择模型:

指定输入数据:

选择分群方式:

分群模型设置概要:

5. 运行模型:

点击蓝色按钮运行模型，运行模型进程：

６．模型结果分析：运行结果（群）：

运行结果，统计：

从上面两个图中我们可以看出一些有意义的分群，根据consume_level和online_duration 分群有一定意义。而比如用gender进行的分群我们可以直接观察出来，意义不大，只有两个大类，可以直观地看出男女比例：

consume_level(消费层次)的群特征信息：可以看出在第2、3类消费层次占的比重较大。

在线通话时长的一点分析：

从上面图中可以看出，大部分客户每一个月消费是50元以下的。50-200各区间逐步递

减；而一个月消费300以上的，也从3%，8%，12%逐渐递增的态势。挖掘的这些消费分群信息，对有针对性的营销，提前对客户进行细分是很有意义的。

6．保存调出模型：

客户分类挖掘示例(待续)：

采用一样的数据，对客户消费水平进行分类预测(consume_level)

混淆矩阵：分类百分率：

SAS Enterprise Miner

一、综述：SAS完仝以统计理论为基础，功能强大，有完备的数据探索功能。但难以掌握，要求是高级统计分析专业人员．结果难以理解。价格也极其昂贵，而且是租赁模式。

二、基本内容：

支持SAS统计模块，使之具有杰出的力量和影响，它还通过大量数据挖掘算法增强了那些模块。SAS使用它的SEMMA方法学以提供一个能支持包括关联、聚类、决策树、神经元网络和统计回归在内的广阔范围的模型数据挖掘工具。

SAS Entelprise Miner设计为被初学者和有经验的用户使用。它的GUI界面是数据流驱动的，且它易于理解和使用。它允许一个分析者通过构造一个使用链接连接数据结点和处理结点的可视数据流图建造一个模型。另外，此界面允许把处理结点直接插入到数据流中。由于支持多种模型，所以Enterprise Miner允许用户比较(评估)不同模型并利用评估结点选择最适合的。另外，Enterprise Miner提供了一个能产生被任何SAS应用程序所访问的评分模型的评分结点。

三、用户配置:SAS Enterprise Miner能运行在客户／服务器上或(计算机

的外围设备)能独立运行的配置上。此外，在客户／服务器模式下，Enterprise Miner允许把服务器配置成一个数据服务器、计算服务器或两者的综合。EntepnseMiner被设计成能在所有SAS支持的平台上运行。该结构支持胖客户机配置(要求客户机上的完全SAS许可证)以及瘦客户机(浏览器)版本。

四、数据挖掘技术、算法和应用程序：

SAS Entelprise Miner支持关联、聚类、决策树、神经元网络和经典的统计回归技术。

五、前景：它在统计分析软件上的丰富经验，所以SAS开发出了一个全

功能、易于使用、可靠和易于管理的系统。模型选项和算法所覆盖的广阔范围、设计良好的用户界面、现存数据商店的能力和在统计分析市场所占的巨大份额(允许一个公司获得一个增加的SAS部件而不是一个新的工具)都可能使SAS在数据挖掘市场上取得领先位置。由于它最近刚投放市场，所以在写此书时只能获得少数公布的用户基推测试。这些结果表明Enterprise Miner在可伸缩性、预测准确性和处理时间上都表现得很好。总的来说，此工具适合于企业在数据挖掘方面的应用以及CBM的全部决策支持应用。

六、案例：