第5章 Clementine使用简介
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第5章 Clementine使用简介
5.1Clementine 概述
Clementine数据挖掘平台是一个可视化的、强大的数据分析平台。
用户可以通过该平台进行与商业数据操作相关的操作。
数据流区域:它是Clementine窗口中最大的区域,这个区域的作用是建立数据流,或对数据进行操作。
选项板区域:它是在Clementine的底部,每个选项卡包含一组相关的可以用来加载到数据流区域的节点组成。
它包括:数据源、记录选项、字段选项、图形、建模和输出。
管理器:它位于Clementine的右上方,包括流、输出和模型三个管理器。
项目区域:它位于Clementine的右下方,主要对数据挖掘项目进行管理。
并且,它提供CRISP-DM和类两种视图。
另外,Clementine还包括类似于其他windows软件的菜单栏、工具栏和状态栏。
Clementine非常容易操作,包含很多经典数据挖掘算法和一些较新的数据挖掘算法
通常,大多数数据挖掘工程都会经历以下过程:
检查数据以确定哪些属性可能与相关状态的预测或识别有关。
保留这些属性(如果已存在),或者在必要时导出这些属性并将其添加到数据中。
使用结果数据训练规则和神经网络。
使用独立测试数据测试经过训练的系统。
Clementine的工作就是与数据打交道。
最简单的就是“三步走”的工作步骤。
首先,把数据读入Clementine中,然后通过一系列的操作来处理数据,最后把数据存入目的文件。
Clementine数据挖掘的许多特色都集成在可视化操作界面中。
可以运用这个接口来绘制与商业有关的数据操作。
每个操作都会用相应的图标或节点来显示,这些节点连接在一起,形成数据流,代表数据在操作间的流动。
Clementine用户界面包括6个区域。
数据流区域(Stream canvas):数据流区域是Clementine窗口中最大的区域,在这个区域可以建立数据流,也可以对数据流进行操作。
每次在Clementine中可以多个数据流同时进行工作,或者是同一个数据流区域有多个数据流,或者打开一个数据流文件。
在一项任务中,数据流被存储在管理器中。
选项板区(Palettes):位于Clementine窗口底端。
每个选项板包含了一组相关的可以用来加到数据流中的节点。
比如:Sourece包含了可以把数据读入模型的节点,Graphs包含了用于可视化探索数据的节点,Favorites包含了数据挖掘默认的常用节点。
管理器(Managers):在Clementine窗口中有3中管理器:Stream、Output、Models,用来查看和管理相应类型的对象。
数据流区域的节点只有被连接在一起才能形成数据流。
节点之间的连接表明数据的流向。
有两种常用的方式连接节点。
方法一:通过双击来增加和连接节点
形成一个数据流的最简单的方法是双击选项板上的节点。
这个方法自动把新节点连接到数据流区域中已选定的节点上。
例如,若数据流区域包含一个数据源节点,首先选择这个节点,然后再选项板双击另一个节点(如类型节点),这个操作自动把新生成的节点连接到当前的数据源节点。
可以重复这个过程直到到达终点,在这个点上,任何新的节点都将被连接到最后一个非末端节点上。
方法二:手工连接节点
手工连接节点的过程如下:
z选择一个节点并单击鼠标右键
z从菜单中选择连接(connect)
z连接符号同时出现在开始节点和鼠标上,单击第二个节点将两个节点连接在一起
二、数据流的操作
一旦用户在数据流区域中连接了来源、过程和最终节点,就建立了一个数据流。
作为节点集,数据流能够被保存、注释和增加到项目中。
用户也能对数据流设置许多选项。
在Clementine系统,用户每次可以使用,修改多个数据流。
Clementine系统窗口的右边放置了工具管理器,可以帮助浏览当前打开的数据流。
如想要查看工具管理器,可以从视图菜单中选侧管理器(Manager),然后点击stream。
选中数据流后,用户可以:z进入数据流
z保存数据流
z保存数据流到当前的项目
z关闭数据流
z打开新数据流
这些功能可以通过右键菜单看到。
(1)为数据流设置选项
这些选项包括:三角函数单位、输入日期和时间的格式、日期格式、时间格式、小数位数、小数点分隔符、最大字段个数等
(2)对数据流配置设置选项
三、执行数据流
有以下几种方法可以执行流:
从工具菜单中选择Execute
右击一个最终节点,并从菜单中选择Execute
用户可以执行流的一部分,通过在任何非最终节点上单击鼠标右键,并从菜单中选侧Execute from here,它将执行所选节点后的所有操作。
为了终止一个流程的执行,可以点击工具栏上的红色停止按钮或从工具菜单中选择Stop Execution。
四、保存数据流
5.3 数据源节点
来源选项板包含以下节点
数据库——用于通过ODBC导入数据
由于各种原因,用户需要对原数据进行抽样。
可以使用抽样节点来明确限制通过流的记录数或排除一定比例的记录。
节点选项如下:
(1)模式(mode):为以下操作包含样本(include sample)还是丢弃样本(discard sample)。
(2)抽样(sample):通过以下三个选项决定抽样方法。
(3)按序抽样(First):选择使用连续数据抽样法。
(4)间隔抽样(1-in-n):选择数据抽样法为每n个通过或丢弃一个记录。
(5)随机百分比抽样(random%):选择随机抽取数据集一定百分比的记录。
(6)最大样本容量(Maximium sample size)。
(7)设置随机种子(set random seed)。
三、均衡(balance)节点
用户可以使用均衡节点来修正数据集中的不均匀性,以便能够符合特定的测试原则。
许多建模技术在处理呈偏态分布的数据时会有问题。
均衡是根据指定的条件复制记录后丢弃记录,因而数据的原始顺序将在数据下传过程中流失。
一定要在均衡节点加到流程之前导出一个和顺序有关的值。
注意:均衡节点可以从数据分布图和直方图中自动生成。
记录均衡指令(record balancing directives):列出当前均衡指令。
每一指令都包括一个因子和一个条件,使软件在条件为真时,根据指定的因子提高记录的比例。
四、聚合(aggregate)节点
把一系列输入记录变换成总括性的、聚合的输出记录,类似于Excel中的汇总。
五、排序(sort)节点
根据一个或多个域值对记录进行升序或降序排列。
六、合并(merge)节点
合并节点的功能是接受多重输入记录,并生成包含部分或全部输入字段源的单一输出记录。
类似于SQL Server中的连接操作。
这一操作在合并来自不同数据源的数据时很有用。
有两种合并数据的方法:
(1)按顺序合并(merge by order):按照输入顺序连接来自所有数据库的对应记录,直至最小的数据源输入完毕。
在使用这一选项时有必要先使用排序节点对数据进行排序。
(2)按照关键字合并(merge using a key field):使用诸如用户ID号等作为关键字段,以指定来自某一数据库的数据在合并时如何与来自其他数据库的数据匹配。
(3)指定合并方法和关键字段。
(4)从合并节点过滤字段
(5)设置输入顺序并加上卷标
七、区分(distinct)节点
可以使用区分节点来清除重复性记录,可以将首个区分记录传递到数据流中或舍弃首个记录,而将任意的副本传递到数据流。
八、附加(append)节点
可以使用附加节点将记录集串联起来。
附加节点用于合并有相似结构而数据不同的数据集。
(8)Condition:一旦选择Based on condition选项,此选项即启动。
(9)Replace with:通过定义的CLEM表达式给选中的字段赋值。
也可以通过在文本框内键入undef把原来的值替换为无效值。
用填充节点转换存储值。
用填充节点的replace条件,可以很容易地转换单个或多个字段的存储类型。
五、分箱(Binning)节点
分箱节点可以使得在一个或多个现有连续型字段的基础上建立一个性的字段集。
(1)分箱字段(Bin Fields):选择响应的分箱字段;
(2)分箱方法(Bining Method):Fixed-width——固定组距,Tiles(equal count)——等距,Ranks——随机,Mean/standard deviation——均值/标准差,Option——最优化。
六、分割(Partition)节点
分割节点用于产生一个分割字段,这个字段把数据分割成及格子集或样本用于模型建立的运行、测试和确认阶段。
七、转置(Transpose)节点
用于交换行和列,使字段变成记录,记录变成字段。
八、重新分类(Reclassify)节点
重新分类节点可以把一个离散值集转换到另一个中。
重新分类对于为了分析而进行的类别的重组或数据的再分组很有用
九、调整(Restructure)节点
调整节点可以在一个集或标记字段值的基础上产生多个字段,新字段包含了其他字段或数值标记的值。
这个节点的功能类似于设置标记节点。
十、设置标志(Set to Flag)节点
时间区间(Time intervals),历史(History),SPSS变换,字段重排(Field ),整体,匿名化,RFM 分析
5.6 图形节点
图选项板包括以下节点:点图(Plot),分布图(条形图)(Distrbution),柱形图(直方图)(Histogram),堆积图(Collection),多点图(折线图)(Multiplot),网络图(web),时间序列点图(Time plot),评估图(Evaluation)
有大量各种各样的层迭图可以被Clementine图所用。
其中每一个都可以被用来从不同角度探索数据。
一、建立图
一旦被加入到一个流程中,每个图节点都可以通过双击来打开一个标记过的对话框以指定选项。
大多数图都包括许多显示在一个或多个卷标上的特殊选项。
还有一些卷标选项是所有图都常用的。
用各种不同类型的线条指示联系的强度来显示关系。
八、评估图节点
评估图节点提供一种能够很轻松地评估和比较预想的模型,并从中选择最有利于应用的模型的方法。
评估图展示了模型在预测某些特殊结果时是如何执行的。
通过以下步骤来工作:以预测值和对预测的可信度为基础来为记录分类、将记录划分为同样大小的组、然后由高到低地为每一个分位点绘制商业标准的变量值。
多个模型在图中被表示为多条相互独立的线。
5.7 建模节点
建模选项板包括以下节点:
聚类(细分):k-means聚类, kohonen聚类, Two step(两步聚类),Anomaly(异常分析)
分类:C&R 树,QUEST,CHAID, Decision List(决策树列表),Regression (回归),Factor/PCA(主成分分析),Neural Net(神经网络),C5.0,Feature Selection(特征选择),Discriminant(判别式),Logistic Regression(逻辑回归),Generalized linear,Cox,SVM,Bayes 网络,SLRM
关联规则:Generalized Rule Induction(GRI ,广义规则归纳),Apriori,Carma(Carma 规则),Sequence Detection(序列检测)
自动:Binary Classifier(二元分类器),数值预测器,Time Series(时间序列)
一、建模节点字段选项
所有建模节点都有一个字段选项,用户可以在此制定用于建模的字段。
在建模前,需要指定使用哪些字段作为目标字段和输入字段。
在默认状态下,除序列节点外,所有的建模节点都从上游的Type节点获取字段信息。
(1)使用类型节点的设置(Use Type node setting):这一选项告诉节点从上游的Type节点获取字段信息。
这是默认设置。
(2)使用用户自定义设置(Use Custom setting):这一选项告诉节点使用本节点指定的字段信息而不是来自上游节点的设置。
二、C5.0节点
该节点使用C5.0算法生成决策树活则规则集。
C5.0模型根据能够带来最大信息增益的字段拆分样本。
第一次拆分确定的样本子集随后再次拆分,通常是根据另一字段进行拆分,这一过程重复进行直到样本子集不能再被拆分位置。
最后,重新检验最低层次的拆分,那些对模型值没有显著贡献的样本子集被剔除或者剪枝。
(1)C5.0节点模型选项
模型名称(model name):指定要产生的模型名称,有自动(Auto)和用户自定义(Custom)两个选项。
输出类型(Output type):最终生成的模型是决策树还是规则集。
组字符(Group symbolics):如果选择该选项,C5.0会尝试将所有与输出字段格式相似的字符合并。
如果没有选择该选项,C5.0会为用于拆分母节点的字符字段的每个值创建一个子节点。
使用自举法(Use boosting):C5.0算法使用boosting方法提高精确率。
这种方法按序列建立多重模型。
第一个模型以通常的方式建立;随后,建立第二个模型,聚焦于被第一个模型错误分类的纪录;然后第三个模型聚焦于第二个模型的错误,等等。
最后,应用整个模型集对样本进行分类,使用加权投票机制把分散的预测综合为最终预测。
Boosting可以显著提
小记录数)避免在被分割节点记录数小于指定值时对该节点分割。
Minimum records in child branch(子节点最小记录数)避免在拆分节点所生成每一分支记录均小于指定值时对该节点的分割。
可以使用百分数(Use percentage)或绝对值(use absolute value)来指定大小。
(4)分类回归树节点先验概率选项
先验概率是目标字段在训练集所描述的总体中的相对次数的估计值。
或者说,鲜艳概率是事先未知预测值得情况下对每个可能的目标值所做的概率估计。
有三种设置先验概率的方法。
基于训练数据集(Based on training data):
所有类等概率(Equal for all classes)
自定义(Custom):先验概率起始值为各类相等,可以将各类德先验概率调整为用户定义值。
使用错误分类损失调整先验概率(Adjust priors using misclassification costs):该选项允许根据错误分类损失调整先验概率。
三、CHAID
(1)CHAID模型选项
模型名称(mode name):auto,Custom两个选项。
使用分割数据(Use partitioned data):自动使用训练集建立模型,并使用测试集和验证集对模型评价。
方法(Method):提供CHAID和Exhaustive CHAID两种方法,后者花费更多时间,但会得到更为可靠的结果。
模式(mode):提供直接生成最终模型(Generate model) 和以交互方式选择(Lauch interactive session) 。
最大深度(Maximum tree depth):指定CHAID树的最大层数。
(2)CHAID高级选项
模式(mode):简单模式(simple)和高级模式(expert)。
分裂显著水平(Alpha for Splitting):显著水平越低,则树的分叉越少。
合并显著水平(Alpha for merging):若要避免任何合并,则应设置为1。
分类目标变量的卡方值(Chi-square for categorical targets):当目标变量是分类变量时,CHAID模型可利用Pearson卡方值或者Likelihood ratio方法进行分类。
但小样本下不应使用Pearson卡方值,Likelihood ratio更为通用和稳健。
收敛值(Epsilon for convergence):当估计巢状数据的频率时,利用卡方检验来迭代判断最优分割。
当卡方值大于Epsilon时,需进一步迭代,否则停止迭代。
最大迭代收敛次数(Maximum iterations for convergence):指定收敛的最大迭代次数。
允许分裂已合并的分类(Allow splitting of merged categories):CHAID倾向于合并节点以生成简单树,这一选项允许算法对已合并的节点重新分裂,以获得更好的分类结果。
使用Bonferroni方法调整(Use bonferroni adjustment):对预测变量组合进行分类时,根据检验的次数调整显著水平,以获得较稳健的决策树。
(3)CHAID的成本选项。
四、Kohonen节点
Kohonen节点用于创建和训练kohonen网络或自组织映射神经网络。
Kohonen网络由一个输入层和一个二维输出网组成。
在训练过程中,每个单元与其它单元竞争获得每个记录,当一个单元获得一个记录时,该单元即其邻近单元的权值调整为更加匹配该记录的预测所属
显示聚类(Cluster display):指定生成聚类类别字段的格式。
类别可以用字符(string)表示,使用指定的Label prefix(卷标前缀)(如cluster1、cluster 2),或者用数字(number)表示。
优化(Options):提高运算效率的选项,有速度和内存两种方式。
(2)k-means高级选项
停止条件(stop on):指定训练模型的终止准则。
默认(default)终止准则是迭代20次或者差异<0.000001。
选择custom指定自己的终止准则。
最大迭代次数(Maximum Iterations):
调节允许度(Change tolerance):该选项允许在一次迭代中,类中心直接的最大差异小于指定水平时终止。
对集合字段重新编码(Encoding value for sets):指定0到1之间的一个值用于把集合字段重新编码成一组数值型字段。
默认值是0.5的平方根,以为重新编码后的flag变量字段提供合适的权值。
值越接近1,集合型字段权值大于数值型字段。
六、Two-step聚类节点
Two-step聚类是首先将数据压缩成为可控的小子集,而后运用聚类方法逐步使小类合并为大类,接着再使这些类合并为更大的类,如此反复直到所希望的最小类数为止。
两步聚类法的最大优点是可以自动估计训练数据的最佳分类数目。
模型选项如下:
模型名称(mode name):auto,Custom两个选项。
使用分割数据(Use partitioned data):自动使用训练集建立模型,并使用测试集和验证集对模型评价。
标准化数值型字段(Standardize numeric fields):默认设置下,两步聚类会统一把所有数值型输入字段标准化为平均值为0,变异系数为1。
排除离群值(Exclude outliers):如果选择了该选项,输入字段具有离群值的记录将从分析中自动排除。
聚类标签(Cluster label):指定生成聚类类别字段的格式。
类别可以用字符(string)表示,使用指定的Label prefix(卷标前缀)(如cluster1、cluster 2),或者用数字(number)表示。
自动计算聚类数(Automatically calculate number of clusters):通过设置最大(Maximum)和最小(Minimum)聚类数指定聚类数范围。
两步聚类使用两阶段过程来决定最佳聚类数。
在第一阶段,根据贝叶斯信息标准(Bayes Information Criterion BIC)的变化添加的聚类数来选择模型的聚类上界。
在第二阶段,找出所有聚类数小于最小BIC方案模型的聚类间最小距离变化。
距离变化最大处用于区分最终的聚类模型。
指定簇数(Specified number of clusters):指定生成的簇数。
七、异常探测节点
异常探测(Anomaly Detection)用于发现数据中的离群值和其它异常现象。
(1)模型选项
模型名称(mode name):auto,Custom两个选项。
异常值的临界值条件(Determine cutoff value for anomaly based on):决定判别异常点的方法。
提供了三种方法:
异常点中的最小临界值(Minimum anomaly index level)
训练集中异常点占得比例(Percentage of most anomalous records in the training data)
训练集中异常点的数目(Number of most anomalous records in the training data)
报告中包含的异常字段的数目(Number of anomalous fields to report)
(2)异常节点高级选项
方程中没有一个输入字段。
每一步中,对未进入方程的所有字段进行评估,如果这些字段中最好的字段能显著增强模型的预则效果,则添加该字段进入方程。
此外,已经存在于方程中的字段将被重新评估,以决定其是否可以从方程中除去而不显著降低方程效果。
如果可以,则将被除去。
随后,重复该进程,添加或除去其它字段。
在没有字段添加到方程以改进方程,也没有字段可被除去而不显著降低方程预测效果时,生成最终模型。
逐步删除法或后退法(Backwards):后退法选择与逐步回归字段选择相似之处在于都是逐步建立模型。
但是,这种方法最初的模型包括所有的输入字段作为预测字段,字段只能被剔除出模型而不能添加到模型。
对模型几乎没有贡献的输入字段被一个一个地删除出模型,直至剩下的每一个字段都显著影响模型预测效果,此时生成最终模型。
逐步加入法(Forwards):前进法本质上与后退法相反。
这种方法最初的模型是没有任何输入字段的最简化模型,字段只能被添加到模型中而不能被剔除。
在每一步,检查尚未进入模型的输入字段队模型的改进程度,对模型改进最大的字段进入模型。
在没有字段可添加到模型或者最好的备选字段对模型没有多大改进时,生成最终模型。
方程中包括常数(Include constant in equation):该选项决定是否在最终方程中包含常数项。
(2)线性回归节点高级选项
缺失值(Missing values):在默认设置下,线性回归节点只使用模型中所有字段均为有效值的记录。
异常值允许度(Singularity tolerance):这一选项允许用户指定某一字段独立于模型中其它字段的最小方差比率。
逐步方式(Stepping)
输出(Output)
(3)线性回归节点单步选项
选择两个准则中的一个作为前进的准则,需要用户输入临界值。
使用F的概率(Use probability of F):该选项允许指定基于每个字段的关联统计概率(associated p value)作为选择准则。
只有当p值比entry值小时字段才会添加到模型,也只有p值比Removal值大时字段才会被剔除。
Entry 值必须比Removal值小。
使用F值(Use F value):该选项允许指定基于每个字段的F统计量作为选择准则。
只有当F值比entry值大时字段才会添加到模型,也只有F值比Removal值小时字段才会被剔除。
Entry 值必须比Removal值大。
(4)线性回归节点输出选项
模型拟合优度(Model fit):模型拟合概要,包括拟合优度(2
R)。
它表示输出字段方差中能够被输入字段解释的比例。
2
R改变量(R squared change):逐步回归、前进法、后退法等估计方法中每一步的2R改变量。
选择准则(Selection criteria):估计模型过程中每一步模型所包含的信息内容的统计量,用以帮助评估模型的改进程度。
统计量包括Akaike信息量(Akaike Information Criterion)、阿米米亚预测准则(Amemiya Prediction Criterion)、马洛斯预测准则(Mallows’ Prediction Criterion)和施瓦兹-贝叶斯准则(Schwarz Bayesian Criterion)。
描述统计量(Decriptives):输入和输出字段的基本描述统计量。
部分相关系数和偏相关系数(Part and Partial correlation):辅助决定每个输入字段对模型重要性及对模型的独特贡献的统计量。
多重共线性诊断(Collinearity diagnostics):辅助判别多余输入字段问题的统计量。
回归系数(Regression coefficients):回归系数相关统计量。
代停止。
如果值为0,则不使用该准则。
参数收敛(Parameter convergence):如果参数估计值中的绝对改变或者相对相对改变小雨该值,则停止迭代。
如果值为0,则不使用该规则。
Delta值:可以指定0到1之间的值添加到一个空单元(输入字段和输出值域的组合)。
当相对数据集中的记录而言,值域的所有可能组合过多时,该选项可以协助算法处理数据,默认值为0。
(4)Logistic回归输出选项
摘要统计量(Summary statistics):模型拟合的cox&Snell、Nagelkerke以及McFadden 2
R 模型拟合度。
这些统计量在某种程度上类似于线性回归中的2
R统计量。
似然率检验(Likelihood ratio test):检验模型系数在统计意义上是否不为0。
输出结果中显著水平非常小的字段是显著性输入字段。
(标有Sig)
渐近相关系数(Asymptotic correlation):系数估计值的估计相关系数矩阵。
适合度卡方统计量(Goodness-of-fit chi-square statistics):Pearson卡方统计量和概率卡方统计量。
迭代历史记录(Iteration history for every):指定高级输出中显示迭代状况的间隔。
逐步回归的方差载荷(Stepwise variance loadings)
信息准则(Information criteria):显示AIC、BIC准则。
参数估计(Parameters estimates):对方程系数的参数估计。
置信区间(Confidence interval):方程系数置信区间,指定置信区间的信任水平(默认为95%)。
渐近协方差(Asymptotic covariance):参数估计值的估计协方差矩阵。
分类表(Classification table):观察响应值对应预测响应值的表格。
单调性测度(Monotonicity measures)
十一、Apriori节点
Apriori节点能发现数据中的关联规则,提供了五种选择规则的方法,使用一种复杂的指数方案以有效处理大型数据集。
(1)Apriori节点模型选项
模型名称(mode name):auto,Custom两个选项。
使用分割数据(Use partitioned data):自动使用训练集建立模型,并使用测试集和验证集对模型评价。
最小规则支持度(Minimum rule support):
支持度(support):指在训练集中,前提条件为真的记录的百分比。
最小可信度(Minimum rule confidence):可信度是前提条件为真的记录中,结论也为真的记录所占的百分比;或者说,可信度是基于规则的预则中为真的百分比。
最大前项数(Maximum number of antecedents):这是限制规则复杂程度的一种方法。
标志变量只有真值(Only true value for flags):如果选择了该选项,只有真值出现在最终的规则中。
这有助于规则的理解。
优化(Optimize):选择Speed使算法执行加快,但占用更多内存;选择Memory使执行速度减慢,但节约内存。
(2)Apriori节点高级选项
评估标准(Evaluation measure):apriori提供5种评估前在规则的方法。
规则可信度(Rule confidence):这是默认方法。
对于这种方法,选项评估度量下界(Evaluation measure lower bound)不可用。