Clementine自带实例_数据审核
数据挖掘软件clementine中文教程
基本功能—自動配置
基本功能—加入節點註解
▪ 加入註解,滑 鼠游標移過去 就可以看到註 解。
基本功能—超級節點
基本功能—超級節點
CRISP-DM 中的Clementine功能
Clementine中文版在商業理解(I)提供的
功能
▪ 把計畫、專業術語相關檔案直接存放在專案中, 任何使用 Clementine 7.2 中文版的人員都可以 隨時輕鬆查閱。
工作環境—用串流方式呈現
▪ 上使用者在工作區自由發揮,利用豐富的工具 ,設計出最符合實際需要的流程。彈性大、自 由度高。
工作環境— Windows 作業環境
▪ 配合基本的 windows功能如剪 貼、滑鼠拖曳、右 鍵功能表、鍵盤快 速鍵直接操作等, 讓熟悉windows的 使用者可以馬上上 手。
▪ 也可以從檔案、資料庫中存取資料 ▪ 資料倉儲提供的資料量更足夠 ▪ 從多種資料檔或資料庫中取出檔案可能遭遇格式不 ▪ 符不一致的問題,要多花時間在整合上,若有資料 ▪ 倉儲,可以省去不少麻煩。
資料採礦的定位
Business Value
Measurement
Prediction (future)
▪ 配合資料倉儲
CRISP-DM 標準流程
▪ Cross-Industry Standard Process for Data Mining ▪ SPSS 和 NCR 在 1996 年為克萊斯勒做資料採礦時
訂出的一套標準程序,並參加了專家意見修訂,目前 版本為1.0
1. 商業理解 (Business Understanding) 2. 資料理解 (Data Understanding) 3. 資料預備 (Data Preparation) 4. 塑模 (Modeling) 5. 評估 (Evaluation) 6. 部署(或佈署) (Deployment)
实验一 Clementine12.0数据挖掘分析方法与应用
实验一Clementine12.0数据挖掘分析方法与应用一、[实验目的]熟悉Clementine12.0进行数据挖掘的基本操作方法与流程,对实际的问题能熟练利用Clementine12.0开展数据挖掘分析工作。
二、[知识要点]1、数据挖掘概念;2、数据挖掘流程;3、Clementine12.0进行数据挖掘的基本操作方法。
三、[实验内容与要求]1、熟悉Clementine12.0操作界面;2、理解工作流的模型构建方法;3、安装、运行Clementine12.0软件;4、构建挖掘流。
四、[实验条件]Clementine12.0软件。
五、[实验步骤]1、主要数据挖掘模式分析;2、数据挖掘流程分析;3、Clementine12.0下载与安装;4、Clementine12.0功能分析;5、Clementine12.0决策分析实例。
六、[思考与练习]1、Clementine12.0软件进行数据挖掘的主要特点是什么?2、利用Clementine12.0构建一个关联挖掘流(购物篮分析)。
实验部分一、Clementine简述Clementine是ISL(Integral Solutions Limited)公司开发的数据挖掘工具平台。
1999年SPSS公司收购了ISL公司,对Clementine产品进行重新整合和开发,现在Clementine已经成为SPSS公司的又一亮点。
作为一个数据挖掘平台,Clementine结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。
强大的数据挖掘功能和显著的投资回报率使得Clementine在业界久负盛誉。
同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比,Clementine其功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。
为了解决各种商务问题,企业需要以不同的方式来处理各种类型迥异的数据,相异的任务类型和数据类型就要求有不同的分析技术。
Clementine完整教程
Clementine教程1. 概要资料采矿使用Clementine系统主要关注通过一系列节点来执行资料的过程,这被称作一个数据流(stream)。
这一系列的节点代表了将在资料上执行的操作,而在这些节点之间的联系表明了数据流(stream)的方向。
使用者的数据流包括四个节点:一个变量文件节点,用来从资料源读取资料。
一个导出节点,向资料集中增加新的,通过计算得到的字段。
一个选择节点,用来建立选择标准,从数据流中去除记录。
一个表节点,用来显示使用者操作后得到的结果。
2.建立数据流使用者可以使用下列步骤来建立一个数据流:●向数据流区域中增加节点●连接节点形成一个数据流●指明任一节点或数据流的选项●执行这个数据流图2-1 在数据流区域上的一个完整数据流2.1节点的操作工作区域中的各种节点代表了不同的目标和操作。
把节点连接成数据流,当使用者执行的时候,让使用者可以看到它们之间的联系并得出结论。
数据流(stream)就像脚本(scripts),使用者能够保存它们,还可以在不同的数据文件中使用它们。
节点选项板(palette)在Clementine系统窗口底部的选项板(palette)中包含了用来建立数据流的所有可能的节点。
图2-2 在节点选项板上的记录选项项目(Record Ops tab)每一个项目(tab)包含了一系列相关的节点用于一个数据流(stream)操作的不同阶段,例如:●来源(Sources)。
用来将资料读进系统的节点。
●记录选项(Record Ops)。
用来在资料记录上进行操作的节点,例如选择、合并和增加。
●建模。
在Clementine系统中可用的代表有效建模算法的节点,例如类神经网络、决策树、聚类算法和资料排序。
定制常用项在节点选项板(palette)上的Favorites项目能够被定义成包含使用者对Clementine系统的习惯用法。
例如,如果使用者经常分析一个数据库中的时间序列资料,就可能想确保数据库来源节点和序列建模节点这两个都可以从Favorites项目中获得。
clementine实例学习-预测带宽利用率(时间序列)要点
Clementine 操作说明—预测流量收入(时间序列)
为了预测流量收入,需要对流量单价、户均流量、出账用户、零流量用户占比分别进行预测,然后根据公式下面公式,计算流量收入。
使用时间序列来预测未来6个月的数字。
一建模
1.1 数据准备
1.1.1 读入分析数据(分析的数据为excel类型)
拖拽到操作区域
双击导入数据文件
点击应用——确定
1.1.2过滤字段
对计算所需四个变量进行预测,其他变量叉掉1.2建模准备
1.2.1添加类型节点
设置类型
四个字段都为输出,方向选择输出
设置好以后类型右键--缓冲--启动,可以保存数据,数据量大时不用每次都从源读取
1.2.2进行过滤,选择流量单价进行预测
1.2.3添加时间区间节点
因为是时间序列模型,所以在建模之前要添加时间区间
间隔设置
这次的数据时间区间是月份,所以选择月
起始时间2011年6月
预报设置
设置要预测的事件1.2.3建时间序列模型
1.3建模
可以选择建模方法
这里选择专家下的ARIMA模型
模型右键点击执行
1.4模型展示
有方区域可以找到新建模型
输出时间散点图
散点图设置
选择要展示的字段
将预测值与实际值展现在同一界面需要将
前面对勾去掉
显示下选择自己想要的效果
执行
应用--执行
如果相差较大,可以返回模型重新选择。
其他三个变量的预测方法同上。
clementine使用经典实例
Clementine使用经典实例收藏下面使用Adventure Works数据库中的Target Mail作例子,通过建立分类树和神经网络模型,决策树用来预测哪些人会响应促销,神经网络用来预测年收入。
Target Mail数据在SQL Server样本数据库AdventureWorksDW中的dbo.vTargetMail视图,关于Target Mail详见:/zh-cn/library/ms124623.aspx#DataMining1. 定义数据源将一个Datebase源组件加入到数据流设计区,双击组件,设置数据源为dbo.vTargetMail视图。
在Types栏中点“Read Values”,会自动读取数据个字段的Type、Values等信息。
Values是字段包含的值,比如在数据集中NumberCardsOwned字段的值是从0到4的数,HouseOwnerFlag只有1和0两种值。
Type是依据Values判断字段的类型,Flag类型只包含两种值,类似于boolean;Set是指包含有限个值,类似于enumeration;Ragnge是连续性数值,类似于float。
通过了解字段的类型和值,我们可以确定哪些字段能用来作为预测因子,像AddressLine、Phone、DateFirstPurchase等字段是无用的,因为这些字段的值是无序和无意义的。
Direction表明字段的用法,“In”在SQL Server中叫做“Input”,“Out”在SQL Server中叫做“PredictOnly”,“Both”在SQL Server中叫做“Predict”,“Partition”用于对数据分组。
2. 理解数据在建模之前,我们需要了解数据集中都有哪些字段,这些字段如何分布,它们之间是否隐含着相关性等信息。
只有了解这些信息后才能决定使用哪些字段,应用何种挖掘算法和算法参数。
在除了在建立数据源时Clementine能告诉我们值类型外,还能使用输出和图形组件对数据进行探索。
Clementine自带实例二项式Logistic回归
» 添加一个指向telco.sav 的Sቤተ መጻሕፍቲ ባይዱSS源文件节点
» 添加一个类型节点以定 义字段,确保它们的类 型都设置正确。例如, 对于大多数只有0值和1 值的字段来说应该被设 为标志,但某些特定的 字段,如性别,应该被 更精确的视为双值集合。
小技巧:要改变多个字段的类型,点击“值”字段 排序,按下shift键对您要改变的字段进行多选。可 右击选择的字段改变选择字段的类型或者属性。
» 有一项总会出现在案例处理过程摘要,那就是落 在某分类的记录条数以及比例。另外,还列出了 缺失(如果有的话)数量,那些一个或多个输入 字段不可用且未被选中
» 向下滚动到分类表
» 前进法由空模型(无协变量,看作基础模型,用 于与最终模型比较)开始。空模型把所有的记录 都预测为0,所以空模型有72.6%的准确率,因 为726名客户没有流失。但是那些流失的客户一 个都没预测正确
» 把生成的过滤节点连接到类型节点
» 连接数据审核节点到生成的过滤节点并执行
» 在数据审核浏览器的质量标签中,单击%完成标 题进行升序排序。这让您能识别出有大量缺失值 的字段;在本例中,我们仅需修正字段logtoll, 它的缺失值大于50%
» 在缺失插补中,为logtoll选择指定
» 在插补时间一栏,选择 空值与无效值,已固定 为一栏选择平均值
» 例如,假设电信提供商关心流失给竞争对手的客 户数量。如果服务使用数据可以被用来预测哪些 客户有流失到竞争对手的倾向,那么就可以实施 相应的措施以挽留客户。
» 实例以客户使用数据预测客户的可能流失概率。 因为目标是分成两类,所以选用二项式模型。在 多目标分类的情况下,可以使用多项式模型代替 。详见系列教程Clementine自带实例到类型节点并执行
基于clementine的数据挖掘算法决策树
从变量自身 考察
变量重要性分析方法
变量与输出变量
、变量间的相关 程度
变量值中缺失值所占比例 分类变量中,类别个数占样本比例 数值变量的变异系数 数值型变量的标准差
输入、输出变量均为数值型:做两个变量的相
关性分析
输入变量为数值型、输出变量为分类型:方差 分析(输出变量为控制变量、输入变量为观测变 量) 输入变量为分类型、输出为数值型:方差分析 (输入变量为控制变量、输出变量为观测变量) 输入、输出变量均为分类型:卡方检验
2、计算每个属性的熵。
(1)先计算属性“年龄”的熵。 • 对于年龄=“<=30”:s11=2,s21=3,p11=2/5,p21=3/5, 对于年龄=“31…40”:s12=4,s22=0,p12=4/4=1,p22=0, 对于年龄=“>40”:s13=3,s23=2,p13=3/5,p23=2/5, •
s1 j s2
smj
pij
是 Sj 中的样本属于类 Ci 的概率。
sij sj
Gain( A) I ( S ) E ( A)
Gain A I
s1 , s2 ,
, sm
E A
C5.0算法应用场景
场景:利用决策树算法分析具有哪些特点的用户最可能流失:
用户 1 年龄 <=30 出账收入 智能机 信用等级 高 否 一般 类别:是否流失 否
核心问题
决策树的生长 决策树的减枝 树剪枝的原因:完整的决策树对训练样本特征的 捕捉“过于精确”--- 过拟和 常用的修剪技术: 预修剪:用来限制决策树的充分生长。
利用训练样本集完成决策树的建立
过程 分枝准则的确定涉及:
•第一,如何从众多的输入变量中
SPSS数据挖掘工具——Clementine介绍
Scripts可以完成用户应用数据流可以完成的所有工 作 Scripting经常用于自动执行数据流,这样就可以避免 用户去执行那些重复性特别大或者特别耗时的工作
控制数据流执行的顺序 建立复杂的应用 建立Clementine过程使之可以嵌入用户的应用系统或者 通过在Batch模式下调用Clementine执行Script
数据描述
变量名称 Age Sex 变量含义 备注 年龄 性别 分为高(high)、低(low)和正常 BP 血压 (normal)三种 Cholestero 胆固醇含 分为高(high)、低(low)和正常 l 量 (normal)三种 Na 钠含量 K 钾含量 以下五种之一: 最适合药 Drug drugA、drugB 、drugC、drugX、 物 drugY
遵循CRISP-DM的数据挖掘过程
数据理解(数据流) 商业理解(文档)
数据准备(数据流)
结果发布(数据流) 建立模型(数据流)
模型评估(数据流)
模型发布——分析应用
1. 大量的操作在数据库端进行.
2.建模等工作在Server 上进行
4. 数据无需在 网上无谓的传输.
3. 客户端用于 查看数据挖掘结果.
建立模型
Clementine的特征
有监督的数据挖掘模型
预测算法:神经网络、 C&RT、线性回归 分类算法:C5.0、 Logistic回归、C&RT、神 经网络 无监督的数据挖掘模型 聚类算法:K-means、 Kohonen、TwoStep
返回
一个演示—客户价值评估
——数据挖掘更多的时候是一种理念,而不是表现在复杂的方法
商业问题: 微软公司提供的例子数据库——罗斯文商贸公司,如何对客户 价值进行评估 数据挖掘问题: (1)如何描述客户价值?——购买总金额?购买频次?平均 每次购买金额?最近购买金额?它们的线性组合? (2)需要什么样的数据挖掘方法?——描述汇总?分类?预 测?概念描述?细分?相关分析? 商业问题解决方案 从所有客户中找出最有价值的10个客户,将名单发给市场部门 ,让其对这些客户进行更多的关注
数据挖掘工具(一)Clementine
数据挖掘工具(一)SPSS Clementine18082607 洪丹Clementine是ISL(Integral Solutions Limited)公司开发的数据挖掘工具平台。
1999年SPSS公司收购了ISL公司,对Clementine产品进行重新整合和开发,现在Clementine已经成为SPSS公司的又一亮点。
作为一个数据挖掘平台, Clementine结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。
强大的数据挖掘功能和显著的投资回报率使得Clementine在业界久负盛誉。
同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比, Clementine其功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。
近年来,数据挖掘技术越来越多的投入工程统计和商业运筹,国外各大数据开发公司陆续推出了一些先进的挖掘工具,其中spss公司的Clementine软件以其简单的操作,强大的算法库和完善的操作流程成为了市场占有率最高的通用数据挖掘软件。
本文通过对其界面、算法、操作流程的介绍,具体实例解析以及与同类软件的比较测评来解析该数据挖掘软件。
1.1 关于数据挖掘数据挖掘有很多种定义与解释,例如“识别出巨量数据中有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。
” 1、大体上看,数据挖掘可以视为机器学习和数据库的交叉,它主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据。
2、数据挖掘的意义却不限于此,尽管数据挖掘技术的诞生源于对数据库管理的优化和改进,但时至今日数据挖掘技术已成为了一门独立学科,过多的依赖数据库存储信息,以数据库已有数据为研究主体,尝试寻找算法挖掘其中的数据关系严重影响了数据挖掘技术的发展和创新。
尽管有了数据仓库的存在可以分析整理出已有数据中的敏感数据为数据挖掘所用,但数据挖掘技术却仍然没有完全舒展开拳脚,释放出其巨大的能量,可怜的数据适用率(即可用于数据挖掘的数据占数据库总数据的比率)导致了数据挖掘预测准确率与实用性的下降。
Clementine12.0操作
数据源(Sources)选项卡:存放将各种外部数据读到Clementine中的节点工具。
记录(Record Ops)选项卡:存放针对记录操作的节点工具。通常,数据以行为单位组织,每一行为一
条数据。数据库中称为记录,统计上称为样本。
2015/10/8
6
总体介绍
智慧数据 财富未来
字段( Field Ops)选项卡:存放针对字段操作的节点工具。数据库中称列为字段,统计上称为变量。
项目管理 窗口
节点工具箱窗口
2015/10/8 3
总体介绍
1.数据流编辑区域:建立和编辑Clementine数据流的区域。
智慧数据 财富未来
2.节点工具箱窗口:数据流是由多个节点组成,工具箱中分类存放Clementine的所有节点
工具。这些节点均以图标形式显示,可实现数据采集、数据展示、数据(包括变量和样本)
预处理、数据建模以及模型评价等功能。它们被分别放置在Source、Record Ops、Field Ops、 Graphs、Modeling、Output和Export选项中,其中常用节点集中放置在Favorites选项卡中。 呈黄色背景显示的选项卡为当前选项卡。
3.流管理窗口:由Streams、Outputs、Model三张选项卡组成。可在Streams选项卡中
新建、打开、关闭、保存数据流。 Outputs选项卡中存放着执行数据流后生成的各种数据表, Models选项卡中存放着执行数据流后生成的各种模型计算结果。 4.项目管理窗口:多条数据流可组成一个数据挖掘项目。当数据挖掘任务较庞大而建立了 很多数据流时,可自行将流管理窗口中的服务于不同目标的数据流,分别存放到不同目录中。
图形(Graphs)选项卡:存放展示数据分布特征和变量关系规律的可视化图形节点工具。
SPSS_Clementine典型案例分析
输出类型除了选用“决策树”之外,还可以选择“规则集” 来显示结果。用“规则集”表示的结果很多时候比“决策 树”更加直观、易懂。。
一般生成的决策树都是经过剪枝的。下面看 看剪枝程度的高低对挖掘结果的影响。选中 “模式”中的“专家”,把“修剪严重性” 的值改为“0”,这意味着在挖掘过程中,进 行的剪枝程度将很小。模型名称改为 “nocut”。
24.3.4 建模
将一个“类型”节点添加到当前数据流中。对 数据集中的数据进行设置。
在数据流上添加一个“神经网络”节点。执 行此数据流。神经网络经过训练后,会产生 一个模型。将产生的模型加入到数据流流中。 然后在数据流中再增加一个“散点图”节点, 对“散点图”节点进行设置。设置完成之后, 执行。
在数据流区域中添加一个“选择”节点,对 该节点进行设置。 以农场大小、主要作物类型、土壤质量等为 自变量建立一个回归模型来估计一个农场的 收入是多少。
为了发现那些偏离估计值的农场,先生成一个字段――diff, 代表估计值与实际值偏离的百分数。在数据流中再增加一 个“导出”节点 进行设置。 在数据流中增加一个“直方图”节点。对“直方图”节点进 行设置。。
选择“执行(E)”。在右面管理器窗口中选中“模型(S)”, 在“nocut”上右击,选择“浏览(B)”,查看生成模型结 果。
利用剪枝程度较高的决策树、剪枝程度低的决 策树、规则集生成的结果,可以通过 Clementine系统提供的很多模型来进行精度 测试。 在这儿选用“分析”节点。生成的结果显示剪 枝程度高的模型正确率为93.8% 。同样的原 理,测试“nocut” 。剪枝程度低的精度为 94.7%。
数据挖掘原理与SPSS Clementine应用宝典
本章包括:
市场购物篮分析 利用决策树模型挖掘商业信息 利用神经网络对数据进行欺诈探测
SPSS+Clementine8.1(英文版)数据挖掘平台入门操作指南
SPSS Clementine8.1(英文版)数据挖掘平台入门操作指南一、基本操作1.工作区简介1)可视化界面操作:管理器数据流区域项目区选项板区2.基本符号1)收藏夹用于存放常用的节点。
2)数据源用来将数据读进Clementine系统的节点。
3)记录选项用来在数据记录上进行操作的节点。
4)字段选项用来在数据字段上进行操作的节点。
5)图在建模之前和之后用来可视化数据的节点。
6) 建模在Clementine 系统中可用的代表有效算法的节点。
7)输出用来给出Clementine数据的各种输出、图表和模型结果。
3.基本操作1)向数据流中增加数据流节点从节点选项板中向数据流增加节点有三种方式:●在选项板上双击一个节点,自动将它连接到当前的数据流上●将一个节点从选项板拖放到数据流区域中●在选项板上点击一个节点,然后在数据流区域中点击一下向数据流区域增加节点以后,双击这个节点来显示它的对话框。
2)删除节点●点击数据流中的节点并按Delete键●或者单击鼠标右键从菜单中选择“Delete”3)在数据流中连接节点●通过双击鼠标左键来增加和连接节点●使用鼠标中间键来连接节点(如果鼠标没有中间键,可通过按住Alt键后单击鼠标左键来完成)●手工连接节点a)选择一个节点并单击鼠标右键打开内容菜单b)从菜单中选择“Connect”c)一个连接符号将同时出现在开始节点上和鼠标上,点击数据流区域上的第二个节点将两个节点连接在一起如果试图做下列任何类型的连接,将会收到一个错误信息:a)导向一个来源节点的连接b)从一个最终节点导出的连接c)一个超过其输入连接最大值的节点d)连接两个已被连接的节点e)循环(数据返回一个它已经经过的节点)4)绕开一个节点●在数据区域上,使用鼠标中间键来双击想要绕开的节点●或者按住Alt键后双击鼠标左键来完成5)在当前连接中增加节点●使用鼠标中间键,点击连接箭头不放,并拖到想要插入的节点上●或者按住Alt键后,使用鼠标左键点击连接箭头,并拖到想要插入的节点上来完成●选择一个节点,从主菜单中选择:Edit→Note→Disconnect6)执行数据流●从工具菜单中选择Execute●点击工具栏上的执行按钮用户可以执行整个数据流或者只是执行数据流的一部分a)单击鼠标右键选择一个最终节点,可以执行一个简单的数据流b)单击鼠标右键选择任何一个非最终节点,可执行所选节点后的所有操作7)删除节点间的连接●在连接箭头的头部单击鼠标右键打开内容菜单,从菜单中选择“Delete Connection”选择一个节点并按F3键,来删除该节点所有的连接4.基本流程数据流:通过一系列节点来执行数据的过程称为一个数据流。
dw-dm实验(李向东)clementine4数据基本分析
第5章 Clementine数据的基本分析【流5(5).str】数据挖掘往往从数据的基本分析开始,它是了解数据分布特征,把握数据间相关性强弱的基本手段,也是后续模型选择和深入分析的基础。
数据的基本分析一般从单变量的分析入手。
通常,可通过探索性分析,评估数据的质量。
通过计算基本描述统计量,确切掌握数据的分布特点,是数据进一步分析的基石;两变量相关性研究是数据基本分析的另一个重要方面,可通过列联表揭示变量之间的内在联系,通过均值检验了解数据之间的相互影响作用,是数据模型分析的基础。
数据的基本分析可通过具体数字实现,也可通过图形直观展示。
本章将就这两个方面分析进行讨论。
相应的节点放置在节点工具箱的输出(Output)卡和图形(Graphs)卡中,具体节点如图5-1和图5-2所示。
图5-1 输出(Output)卡中的节点工具图5-2 图形(Graphs)卡中的节点工具本章将以一份虚拟的电信客户数据为例,数据为SPSS格式,文件名为Telephone.sav。
该数据包括居住地、年龄、婚姻状况、家庭月收入(百元)、受教育水平、性别、家庭人口、基本服务累计开通月数、是否申请无线转移服务、上月基本费用、上月限制性免费服务项目的费用、无线服务费用、是否电子支付、客户所申请的服务套餐类型、是否流失15个变量。
利用这份数据,可分析流失客户的一般特征,同时建立模型进行客户流失的预测。
本章只对数据做基本分析。
5.1 数据质量的探索高质量数据是数据分析的前提和分析结论可靠性的保障。
Clementine数据质量的探索主要包括数据缺失问题、数据离群点和极端值两大方面,具体包括数据中有效样本比例的计算、变量中用户缺失值和空白比例的计算和处理、数据中离群点的诊断和处理等。
数据质量的探索应通过输出(Output)卡中的数据审核(Data Audit)节点实现。
数据审核(Data Audit)节点还可以计算变量的基本统计量并绘制柱形图或直方图等。
Clementine工具使用讲解
Clementine工具使用讲解杨华源QQ:1078695641Phone:136****3729Clementine介绍•Clementine作为一个受欢迎的数据挖掘平台,充分利用了计算机系统的运算能力和图形展示能力,快速有效的实现大数据的决策树分类模型或者回归、关联规则挖掘、聚类等数据挖掘。
•操作使用clementine的目的是建立数据流,即根据数据挖掘的实际需要选择节点,顺序连接节点建立数据流,不断修改和调整数据流中节点的参数,执行数据流,最终完成相应的数据挖掘任务。
•Clementine操作步骤为:导入数据集—>数据集预处理—>建模—>评估模型。
Clementine 12.0源节点•Clementine提供了简单有效的获取不同数据来源的方法•其中,最常用的是可变文件节点源节点•数据库:用于通过ODBC导入数据。
•可变文件:用于导入无限制字段的ASCII数据。
•固定文件:用于导入固定字段的ASCII数据。
•SPSS文件:用于导入SPSS文件。
•SAS文件:用于导入SAS格式的文件。
•Excel :用于导入excel电子表格。
•用户输入:用于代替已存在的来源节点,也可通过在已存在节点上点击鼠标右键的方式使用该节点。
•Dimensions可变文件•特点通常一行数据为一个样本每行数据有不同的列,分别对应不同的变量。
列之间以逗号分隔符分隔变量名一般存储在第一行源节点参数设置——文件•双击源节点•指定所读入数据的基本格式源节点参数设置——数据•指定所读入数据的基本类型等•右键存储列表,可修改字段存储类型覆盖:查看目前存储类型和是否需要重新存储。
存储:可修改每一字段的存储类型。
Clementine 的存储类型有:实数、整数、字符串、时间戳、天、时间。
源节点参数设置——过滤•指定读数据是不读哪些变量,并可重新修改变量名单击字段过滤选项即可设置过滤。
也可以右键字段过滤选项指定类型的字段。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
质量标签展示了离群值,极值和缺失值 你也可以制定处理这些值的方法,并生成超节点 以便自动完成 转换 例如你可以选 择一个或者多 个字段,再选 择相应的处理 方法,其中包 括C&RT算法。
在选择相应的处理方法后,我们可以从下左图所 示菜单生成缺失值超节点 生成的超节点可连接至流中
事实上,超节点包含了一系列转换节点,为了了解超节点 是如何工作的,你可以编辑超节点,并按“放大” 对于每个用算法估算的字段来说, 例如将有一个独立的C&RT模型加上 填充节点用来预测并填充缺失值 你可以增加,编辑或删除超节点内 部特定的节点,以便制定特定的行 为
Clementine应用程序示例
分析数据准备(数据审核节点)
数据审核节点为你导入Clementine中的数据提供 广泛的预览功能。数据审核报告不但展示每个字 段的统计摘要,还提供直方图和分布图以及让你 选择缺失值、离群值、极值的处理方法。 用到的文件 1.\demos\Segmentation_Module\telco_dataaudit. str 2.\demos\telco.sav
技巧:要改变多个有相似值的字段的属性(如 0/1),可单击“值”字段对该列进行排序,用 shift键选择所有你想改变值类型的字段,然后通 过右击鼠标完成。 添加数据审核节点到流中,在设置标签中,保持 所有设置为默认,以确保所有的字段都 在报告内。 尽管churn字段是唯一的目标字段,但是它还是会 自动包含在报告中的。 在质量标签,保留检测缺失值,离群值和极值的 默认设置,点击执行。
可选的,可以生成一个选择或者 过滤节点以移除或记录缺失值。 例如,你可以设置质量百分比来 过滤字段字段 离群值和极值也可以被相似的方 式处理。可以对每个字段做相应 的操作如强制转换,丢弃或者置 空,并产生相应的超节点用于做 转换。
完成审计并将产生的节点添加到流以后,你可以 继续你的分析。你还可以按自己意图添加异常检 测节点,特征选择节点或其他方法,以进一步检 验和展示数据。
数据审核节点即展示每个字段的缩略图和描述性 统计信息。下图的工具条按钮可以改变直方图的 方向,以及编辑需要展示的统计量。
双击报告中的缩略图可查看完整版的图片。并且 还能通过上面那排工具按钮对图形进行进一步编 辑。
作为可选的,你可以选择一个或多个缩略图并为 之产生图形节点。生成的节点会放到流画布上, 可以被添加到流中复用。
加入SPSS源节点,并指向telco.sav 将SPSS源节点指向新加入的类型节点并将churn 置为目标字段(即方向为输出)。其他字段应为 churn 输入,所以只有churn是唯一的目标 确认字段都被正确定义了,例如只有0和1二值的 可以被标识为flag类型。但一些特定字段如性别, 看为二值集合则更精确。