实验一 Clementine12.0数据挖掘分析方法与应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

实验一Clementine12.0数据挖掘分析方法与应用
一、[实验目的]
熟悉Clementine12.0进行数据挖掘的基本操作方法与流程,对实际的问题能熟练利用Clementine12.0开展数据挖掘分析工作。

二、[知识要点]
1、数据挖掘概念;
2、数据挖掘流程;
3、Clementine12.0进行数据挖掘的基本操作方法。

三、[实验内容与要求]
1、熟悉Clementine12.0操作界面;
2、理解工作流的模型构建方法;
3、安装、运行Clementine12.0软件;
4、构建挖掘流。

四、[实验条件]
Clementine12.0软件。

五、[实验步骤]
1、主要数据挖掘模式分析;
2、数据挖掘流程分析;
3、Clementine12.0下载与安装;
4、Clementine12.0功能分析;
5、Clementine12.0决策分析实例。

六、[思考与练习]
1、Clementine12.0软件进行数据挖掘的主要特点是什么?
2、利用Clementine12.0构建一个关联挖掘流(购物篮分析)。

实验部分
一、Clementine简述
Clementine是ISL(Integral Solutions Limited)公司开发的数据挖掘工具平台。

1999年SPSS公司收购了ISL公司,对Clementine产品进行重新整合和开发,现在Clementine已经成为SPSS公司的又一亮点。

作为一个数据挖掘平台,Clementine结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。

强大的数据挖掘功能和显著的投资回报率使得Clementine在业界久负盛誉。

同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比,Clementine其功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。

为了解决各种商务问题,企业需要以不同的方式来处理各种类型迥异的数据,相异的任务类型和数据类型就要求有不同的分析技术。

Clementine提供最出色、最广泛的数据挖掘技术,确保可用最恰当的分析技术来处理相应的问题,从而得到最优的结果以应对随时出现的商业问题。

即便改进业务的机会被庞杂的数据表格所掩盖,Clementine也能最大限度地执行标准的数据挖掘流程,为您找到解决商业问题的最佳答案。

为了推广数据挖掘技术,以解决越来越多的商业问题,SPSS和一个从事数据挖掘研究的全球性企业联盟制定了关于数据挖掘技术的行业标准--CRISP-DM (Cross-Industry Standard Process for Data Mining)。

与以往仅仅局限在技术层面上的数据挖掘方法论不同,CRISP-DM把数据挖掘看作一个商业过程,并将其具体的商业目标映射为数据挖掘目标。

最近一次调查显示,50%以上的数据挖掘工具采用的都是CRISP-DM的数据挖掘流程,它已经成为事实上的行业标准。

Clementine完全支持CRISP-DM标准,这不但规避了许多常规错误,而且其显著的智能预测模型有助于快速解决出现的问题。

在数据挖掘项目中使用Clementine应用模板(CATs)可以获得更优化的结果。

应用模板完全遵循CRISP-DM标准,借鉴了大量真实的数据挖掘实践经验,是经过理论和实践证明的有效技术,为项目的正确实施提供了强有力的支撑。

Clementine中的应用模板包括:
(1)CRM CAT--针对客户的获取和增长,提高反馈率并减少客户流失;
(2)Web CAT--点击顺序分析和访问行为分析;
(3)cTelco CAT--客户保持和增加交叉销售;
(4)Crime CAT--犯罪分析及其特征描述,确定事故高发区,联合研究相关犯罪行为;
(5)Fraud CAT--发现金融交易和索赔中的欺诈和异常行为;
(6)Microarray CAT--研究和疾病相关的基因序列并找到治愈手段。

利用Clementine,可以在如下几方面提供解决方案:
(1)公共部门。

各国政府都使用数据挖掘来探索大规模数据存储,改善群众关系,侦测欺诈行为(譬如洗黑钱和逃税),检测犯罪行为和恐怖分子行为模式以及进一步扩展电子政务领域。

(2)CRM。

客户关系管理可以通过对客户类型的智能分类和客户流失的准确预测而得到提高。

Clementine 已成功帮助许多行业的企业吸引并始终保有最有价值的客户。

(3)Web 挖掘。

Clementine 包含的相关工具具有强大的顺序确定和预测算法,对于准确发现网站浏览者的行为以及提供精确满足浏览者需求的产品或信息而言,这些工具是不可或缺的。

从数据准备到构建模型,全部的数据挖掘过程均可在Clementine 内部操控。

(4)药物发现和生物信息学。

通过对由试验室自动操作获得的大量数据进行分析,数据挖掘有助于药物和基因组的研究。

聚类和分类模型帮助从化合物库中找出线索,与此同时顺序检测则有助于模式的发现。

二、Clementine数据挖掘的基本思想
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,它是一种深层次的数据分析方法。

随着科技的发展,数据挖掘不再只依赖在线分析等传统的分析方法。

它结合了人工智能(AI)和统计分析的长处,利用人工智能技术和统计的应用程序,并把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。

Clementine为我们提供了大量的人工智能、统计分析的模型(神经网络,关联分析,聚类分析、因子分析等),并用基于图形化的界面为我们认识、了解、熟悉这个软件提供了方便。

除了这些,Clementine还拥有优良的数据挖掘设计思想,正是因为有了这个工作思想,我们每一步的工作也变得很清晰。

Clementine 遵循CRISP-DM Model(Cross Industry Standard Process for Data Mining,数据挖掘跨行业标准流程),具体如图所示。

图4.1 CRISP-DM process model
如图可知,CRISP-DM Model包含了六个步骤,并用箭头指示了步骤间的执行顺序。

这些顺序并不严格,用户可以根据实际的需要反向执行某个步骤,也可以跳过某些步骤不予执行。

通过对该步骤的执行,我们也涵盖了数据挖掘的关键部分。

1.商业理解
商业理解阶段应算是数据挖掘中最重要的一个部分,在这个阶段里我们需要明确商业目标、评估商业环境、确定挖掘目标以及产生一个项目计划。

Clementine的可视化操作界面使得企业可以更容易地把业务知识应用到数
据挖掘项目中。

此外,使用针对特定商业目标的Clementine应用模板(CATs),可以在数据挖掘工作中使用成熟的、最佳的方法。

CATs使用的样本数据可以以平面文件或者关系型数据库表的形式安装。

■ 客户关系管理(CRM)CAT*
■ 电信CAT*
■ 欺诈探测CAT*
■ 微阵列CAT*
■ 网页挖掘CAT* (需要购买Web Mining for Clementine)
2.数据理解
数据是我们挖掘过程的“原材料”,在数据理解过程中我们要知道都有些什么数据,这些数据的特征是什么,可以通过对数据的描述性分析得到数据的特点。

使用Clementine,可以做到:
■ 使用Clementine的数据审核节点获取对数据的初步认识;
■ 通过图形、统计汇总或数据质量评估快速浏览数据;
■ 创建基本的图表类型,如直方图、分布图、线形图和点状图;
■ 在图形面板节点中通过自动帮助方式创建比过去更多的基本图形及高级图形;
■ 通过表格定制节点轻松创建复杂的交叉表;
■ 编辑图表使分析结果交流变得更容易;
■ 通过可视化联接技术分析数据的相关性;
■ 与数据可视化互动,可在图形中选择某个区域或部分数据,然后对选择的数据部分再进行观察或在后续分析中使用这些信息;
■ 在Clementine中直接使用SPSS统计分析、图形以及报表功能。

3.数据准备
在数据准备阶段我们需要对数据作出选择、清洗、重建、合并等工作。

选出要进行分析的数据,并对不符合模型输入要求的数据进行规范化操作。

运用Clementine,可以做到:
(1)访问数据
–---结构化(表格) 数据
■ 通过SPSS Data Access Pack访问支持ODBC的数据源,包括IBM DB2,Oracle,Microsoft SQL Server,Informix和Sybase数据库;
■ 导入用分隔符分隔和固定宽度的文件,任何SPSS的文件,SAS 6, 7, 8, 和9文件;
■ 在读取Excel文件时,可以限定工作表和数据范围。

–---非结构化(原文) 数据
■ 使用Text Mining for Clementine自动从任何类型的文本中提取各种概念。

– ---网站数据
■ 使用Web Mining for Clementine自动从网络日志中提取网站上的事件。

–----调查数据
■ 直接访问存储在Dimensions数据模型或Dimensions*产品中的数据文件。

–--- 数据输出
■ 可以输出为分隔符分隔,固定宽度的文件,所有主流数据库数据,Microsoft Excel,SPSS,和SAS 6,7,8和9文件;
■ 使用Excel导出节点导出成XLS格式;
■ 为市场调研输出数据到Dimensions中。

(2)各种数据清洗选项
–移出或者替换无效数据
–使用预测模型自动填充缺失值
–自动侦测及处理异常值或极值
(3)数据处理
–--- 完整的记录和字段操作,包括:
■ 字段过滤、命名、导出、分段、重新分类、值填充以及字段重排;
■ 对记录进行选择、抽样(包括簇与分层抽样)、合并(内连接、完全外连接、部分外连接以及反连接)和追求;排序、聚合和平衡;
■ 数据重新结构化,包括转置;
■ 分段节点能够根据预测值对数字值进行最优分段;
■ 使用新的字符串函数:字符串创建、取子字符串、替换、查询和匹配、空格移除以及截断;
■ 使用时间区间节点为时间序列分析做准备;
–--- 将数据拆分成训练、测试和验证集。

–--- 对多个变量自动进行数据转换。

■ 可视化的标准数据转换
–---数据转换在Clementine中直接使用SPSS数据管理和转换功能;
■ RFM评分:对客户交易进行汇总,生成与最近交易日期、交易频度以及交易金额相关的评分,并对这些评分进行组合,从而完成完整的RFM分析过程。

4.建模
建模过程也是数据挖掘中一个比较重要的过程。

需要根据分析目的选出适合的模型工具,通过样本建立模型并对模型进行评估。

Clementine提供了非常广泛的数据挖掘算法以及更多高级功能,从而帮助企业从数据中得到尽可能最优的结果。

■ 提供交互式建模、方程式浏览器及专业统计输出;
■ 图形化显示不同变量对预测目标影响的重要程度;
■ 用元建模合并模型
–合并多个模型或者将一个模型的预测应用于建立另外一个模型;
–模型合并节点能够自动整合预测值从而优化预测结果的准确性及稳定性;
■ 用PMML导入其它工具生成的模型,例如AnswerTree和SPSS for Windows ■ 使用Clementine扩展性架构客户化算法。

Clementine提供的数据挖掘算法包括:
■ C&RT、CHAID&QUEST—决策树算法
包括交互式决策树创建;
■ 决策列表—交互式业务规则创建算法能够让分析人员把业务知识集成在预测模型中
■ C5.0决策树及规则集算法
■ 神经网络—向后传播的多层感知器以及径向基函数
■ 支持向量机—为宽表提供更准确的分析结果
■ 贝叶斯网络—可视化的概率模型
■ 二元及多元回归
■ 自学习响应模型—增量学习的贝因斯模型
■ 线性回归—最佳拟和线性方程式模型
■ 广义线性模型(GLM)
■ Cox回归—分析某类事件的发展趋势
■ 时间序列—自动生成时间序列预测模型
■ K-means—聚类
■ Kohonen—神经元网络聚类算法
■ 两步聚类—自动选择合适的聚类数
■ 异常侦测—基于聚类算法侦测那些异常记录
■ 两步聚类—自动选择合适的聚类数
■ 主成分/因子分析—通过主成分/因子分析对数据降维
■ GRI—规则归纳相关性探索算法
■ Apriori—提供高级评估功能的演绎关联算法
■ CARMA—提供多后项的关联算法
■时序分析—针对顺序相关性分析的时序关联算法
■ 二元分类器和数值型预测器—自动化创建及评估多个模型。

5.评估
并不是每一次建模都能与我们的目的吻合,评价阶段旨在对建模结果进行评估,对效果较差的结果我们需要分析原因,有时还需要返回前面的步骤对挖掘过程重新定义。

通过Clementine可以做到:
■ 使用提升、收益、利润和响应图表可以方便地评估模型
–使用一步到位的流程评估多个模型,缩短项目用时;
–定义命中和得分条件来评估模型的性能。

■ 使用一致性矩阵以及其它自动评估工具分析模型的总体精度
■ 使用倾向性评分来简化部署及多模型比较
6.发布
该阶段是用建立的模型去解决实际中遇到的问题,它还包括了监督、维持、产生最终报表、重新评估模型等过程。

Clementine提供多种部署方式从而满足企业不同的需要。

■ Clementine Solution Publisher (可选*)
–自动导出所有操作,包括数据访问、数据处理、文本挖掘、模型评分(包括模型组合)以及后加工过程;
–使用runtime在给定的平台上执行图像文件。

■ 将生成的模型导出为SQL或PMML(针对预测模型的标准XML文件)
■ 自动把Clementine数据流导入到SPSS企业级预测服务器中
–合并导出的Clementine数据流以及隐含业务规则的预测模型,从而优化企业运营过程。

■ Cleo (可选*)
–基于网页的快速模型部署;
–通过可定制的浏览器界面,允许多个用户同时访问并立即评估单个记录、多个记录甚至整个数据库。

■ Clementine批处理
–在用户界面之外自动进行工作,使用Clementine批处理模式您可以:
■ 从其它应用或者调度系统中自动启动Clementine流程
■ 生成编码密码
■ 使用命令行执行Clementine的数据挖掘过程
■ 脚本
–自动执行命令行脚本或者与Clementine流程相关的脚本,以自动执行用户界面重复工作。

脚本通常执行与鼠标和键盘同样的工作。

■ 使用工具栏中的图标执行Clementine流中选定的行、超级节点或者独立的脚本。

■ 用单独的脚本更新流参数
■ 将生成的模型导出为PMML 2.1
–对数据库内对数据进行评分,减少在客户端代价昂贵的数据转移和计算工作;
–将Clementine PMML模型部署到IBM DB2 Intelligent Miner™ 可视化和Intelligent Miner打分中。

■ 使用数据库的大批量输入程序
–在数据导出时,使用为每个特定数据库定制的大批量输入程序。

您可以调整各种选项,包括为使用ODBC的载入进程确定行或列的约束条件,以及为数据库中执行的批处理调整其规模。

三、数据挖掘主要模式
1.分类(Classification)
首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。

例子:
(1)信用卡申请者,分类为低、中、高风险;
(2)故障诊断:中国宝钢集团与上海天律信息技术有限公司合作,采用数据挖掘技术对钢材生产的全流程进行质量监控和分析,构建故障地图,实时分析产品出现瑕疵的原因,有效提高了产品的优良率。

注意:类的个数是确定的,预先定义好的。

2.估计(Estimation)
估计与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的类别是确定数目的,估值的量是不确定的。

例子:(1)根据购买模式,估计一个家庭的孩子个数;
(3)根据购买模式,估计一个家庭的收入;
(3)估计real estate的价值;
一般来说,估值可以作为分类的前一步工作。

给定一些输入数据,通过估值,得到未知的连续变量的值,然后,根据预先设定的阈值,进行分类。

例如:银行对家庭贷款业务,运用估值,给各个客户记分(Score 0~1)。

然后,根据阈值,将贷款级别分类。

3.预测(Prediction)
通常,预测是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预言。

从这种意义上说,预言其实没有必要分为一个单独的类。

预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。

·相关性分组或关联规则(Affinity grouping or association rules)
决定哪些事情将一起发生。

例子:
(1)超市中客户在购买A的同时,经常会购买B,即A => B(关联规则) (2)客户在购买A后,隔一段时间,会购买B (序列分析)
4.聚类(Clustering)
聚类是对记录分组,把相似的记录在一个聚集里。

聚类和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。

例子:
(1)一些特定症状的聚集可能预示了一个特定的疾病
(2)租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群
聚集通常作为数据挖掘的第一步。

例如,"哪一种类的促销对客户响应最好?",对于这一类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,回答问题,可能效果更好。

5.描述和可视化(Description and Visualization)
是对数据挖掘结果的。

四、Clementine的基本操作方法
1、操作界面的介绍
在数据挖掘过程中的每一个阶段,均可通过Clementine 易于使用的界面来邀请特定业务的专家。

建模算法(如预测、分类、细分和关联检测)可确保得到强大而准确的模型。

模型结果可以方便地部署和读入到数据库、SPSS 和各种其他应用程序中。

图4.2 Clementine操作界面
1.1数据流程区
Clementine在进行数据挖掘时是基于数据流程形式,从读入数据到最后的结
果显示都是由流程图的形式显示在数据流程区内。

数据的流向通过箭头表示,每一个结点都定义了对数据的不同操作,将各种操作组合在一起便形成了一条通向目标的路径。

数据流程区是整个操作界面中最大的部分(上右大部分),整个建模过程以及对模型的操作都将在这个区域内执行。

我们可以通过文件-新建流新建一个空白的数据流,也可以打开已有的数据流。

图4.3 数据流
使用Clementine 处理数据的三个步骤。

• 首先,将数据读入Clementine,
• 然后,然后通过一系列操作运行数据,
• 最后,将数据发送到目标位置。

这一操作序列称为数据流,因为数据以一条条记录的形式,从数据源开始,依次经过各种操作,最终到达目标(模型或某种数据输出)。

所有在一个运行期内打开的数据流都将保存在管理器的流栏下。

图4.4 数据流程区窗口
1.2选项面板
选项面板横跨于Clementine操作界面的下部,它被分为收藏夹、源、记录选项、字段选项、图形、建模、输出、导出8个栏,其中每个栏目包含了具有相关
功能的结点。

结点是数据流的基本组成部分,每一个结点拥有不同的数据处理功能。

设置不同的栏是为了将不同功能的结点分组,下面我们介绍各个栏的作用。

图4.5 选项面板
源:该栏包含了能读入数据到Clementine的结点。

例如Var. File结点读取自由格式的文本文件到Clementine,SPSS File读取spss文件到Clementine。

记录选项:该栏包含的结点能对数据记录进行操作。

例如筛选出满足条件的记录(select)、将来自不同数据源的数据合并在一起(merge)、向数据文件中添加记录(append)等。

字段选项:该栏包含了能对字段进行操作的结点。

例如过滤字段(filter)能让被过滤的字段不作为模型的输入、derive结点能根据用户定义生成新的字段,同时我们还可以定义字段的数据格式。

图形:该栏包含了纵多的图形结点,这些结点用于在建模前或建模后将数据由图形形式输出。

建模:该栏包含了各种已封装好的模型,例如神经网络(Neural Net)、决策树(C5.0)等。

这些模型能完成预测(Neural Net,Regression,Logistic )、分类(C5.0,C&R Tree,Kohonen,K-means,Twostep)、关联分析(Apriori,GRI,Sequece)等功能。

输出:该栏提供了许多能输出数据、模型结果的结点,用户不仅可以直接在Clementine中查看输出结果,也可以输出到其他应用程序中查看,例如SPSS和Excel。

收藏夹:该栏放置了用户经常使用的结点,方便用户操作。

用户可以自定义其收藏夹栏,操作方法为:选中菜单栏的工具,在下拉菜单中选择管理选项板,在弹出的选项板管理器中双击收藏夹,出现下图,可以从左边选择要加入收藏夹的节点,点击中间箭头,节点自动加入到右边收藏夹中。

图4.6 收藏夹栏的设置
1.3管理器
管理器(图4.1中右边上部分)中共包含了流、输出、模型三个栏。

其中流中放置了运行期内打开的所有数据流,可以通过右键单击数据流名对数据流进行保存、设置属性等操作。

输出中包含了运行数据流时所有的输出结果,可以通过双击结果名查看输出的结果。

模型中包含了模型的运行结果,我们可以右键单击该模型从弹出的Browse中查看模型结果,也可以将模型结果加入到数据流中。

图4.7管理器流窗口图4.8管理器输出窗口图4.9管理器输出窗口
1.4 项目窗口的介绍
项目窗口含有两个选项栏,一个是CRISP-DM,一个是类。

CRISP-DM的设置是基于CRISP-DM Model的思想,它方便用户存放在挖掘各个阶段形成的文件。

由右键单击阶段名,可以选择生成该阶段要拥有的文件,也可以打开已存在的文件将其放入该阶段。

这样做的好处是使用户对数据挖掘过程一目了然,也有利于对它进行修改。

图4.10 CRISP-DM项目窗口图4.11 类项目窗口Classes窗口具有同CRISP-DM窗口相似的作用,它的分类不是基于挖掘的各个过程,而是基于存储的文件类型。

例如数据流文件、结点文件、图表文件等。

五、数据流基本操作的介绍
5.4.1生成数据流的基本过程
数据流是由一系列的结点组成,当数据通过每个结点时,结点对它进行定义好的操作。

我们在建立数据流是通常遵循以下四步:
①向数据流程区增添新的结点;
②将这些结点连接到数据流中;
③设定数据结点或数据流的功能;
④运行数据流。

5.4.2向数据流程区添/删结点
当向数据流程区添加新的结点时,我们有下面三种方法遵循:
①双击结点面板中待添加的结点;
②左键按住待添加结点,将其拖到数据流程区内;
③选中结点面板中待添加的结点,将鼠标放入数据流程区,在鼠标变为十字形时单击数据流程区。

通过上面三种方法我们都将发现选中的结点出现在了数据流程区内。

当我们不再需要数据流程区内的某个结点时,可以通过以下两种方法来删除:
①左键单击待删除的结点,用delete删除;
②右键单击待删除的结点,在出现的菜单中选择delete。

5.4.3将结点连接到数据流中
上面我们介绍了将结点添加到数据流程区的方法,然而要使结点真正发挥作用,我们需要把结点连接到数据流中。

以下有三种可将结点连接到数据流中的方法:
①双击结点。

左键选中数据流中要连接新结点的结点(起始结点),双击结点面板中要连接入数据流的结点(目标结点),这样便将数据流中的结点与新结点相连接了;
图4.12 双击目标结点以加入数据流
②通过鼠标滑轮连接。

在工作区内选择两个待连接的结点,用左键选中连接的起始结点,按住鼠标滑轮将其拖曳到目标结点放开,连接便自动生成。

(如果鼠标没有滑轮也选用alt键代替)
图4.13 由滑轮连接两结点
③手动连接。

右键单击待连接的起始结点,从弹出的菜单栏中选择Connect。

选中Connect后鼠标和起始结点都出现了连接的标记,用鼠标单击数据流程区内要连接的目标结点,连接便生成。

图4.14 选择菜单栏中的connect
图4.15 点击要连入的结点
注意:
①第一种连接方法是将选项面板中的结点与数据流相连接,后两种方法是将已在数据流程区中的结点加入到数据流中;。

相关文档
最新文档