数据挖掘决策树上机内容

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

读取数据文件
• • • • • • • • 内容及节点： ฀ 2.1 Clementine可以读取的数据格式 ฀ 2.2 读取文本数据与查看数据 ฀ 2.3 读取SPSS数据 ฀ 2.4 读取数据库数据 ฀ 2.5 Clementine中的字段类型 ฀ 2.6 Clementine中的字段方向 ฀ 2.7 保存Clementine流
Clementine 面板
•
Clementine 可视化程序使用基础
• • • • • • 鼠标应用 ฀ 三键与双键鼠标 ฀ 左键选择节点或图标置于流区域 ฀ 右键激活Context菜单 ฀ 中键连接或断开两个节点 ฀ 帮助
节点操作
• 1.3 节点选项板在clementine系统窗口底部的选项板 (palette)中装有用来建立数据流的所有可能的节点。 1、收藏夹(Favorites):用于存放最常用的节点 2、数据源(sources)：用来将数据读clementine 系统的节点
• Derive:增加一个或多个属性集；
• 数据集drug1n中有7个字段，只有Na,K是人体所含的矿物质元素。影响人体的BP和 Cholesterel的是这两种元素的比例。
状态检测实例
• 例3：利用clementine系统提供的数据集 C0ND1n,对一台机器提供的状态信息进行监测，识别和预测故障状态的问题。
• • • • • •
1.7 通过双击来增加和连接节点 1.8 手工连接节点 1.9 在数据列中绕过节点 2.0 绕开一个节点 2.1 在当前的连接中增加节点 2.2 删除节点间的连接
2 读取数据文件
• 目的 ฀ 掌握Clementine如何读取文本格式数据了解Clementine可以读取的数据格式 ฀ 掌握Clementine中的字段类型和方向
• 3、聚类分析(drug1n数据文件) 聚类分析(drug1n数据文件) (drug1n数据文件要求：建立K means、twostep、kohonen模型模型, 要求：建立K-means、twostep、kohonen模型, 对结果进行distribution分析. distribution分析对结果进行distribution分析. • 4、神经网络(Goods1n,2n数据文件) 神经网络(Goods1n,2n数据文件) (Goods1n,2n数据文件要求：建立Neuralnet模型， Neuralnet模型要求：建立Neuralnet模型，会运用建立的模型进行预测
• Missing栏是在数据有缺失时选择是否用 Blank填充该字段；Check栏选择是否判断该字段数据的合理性； • Direction栏在机器学习模型的建立中具有相当重要的作用，通过对它的设置我们可将字段设为输入/输出/输入且输出/ 非输入亦非输出四种类型。
• 在这里我们将前19个字段的Direction设置为none，这表明在因子分析我们不将这前19个字段列入考虑，从第20个字段起我们将以后字段的direction设置为In，对这些字段进行因子分析。
读取文本数据与查看数据
读取文本数据与查看数据
实例
关联分析
• 例1 对商场中的数据进行分析数据集有：18个属性，1000个记录； Cardid--age描述的是客户的基本信息；后面是客户购买商品的数据；
首先,要明白我们是对什么样的数据进行分析的? 在这里我们是对顾客购买信息做关联分析，一种商品和另外一种商品之间是否有一定的关联性
• K-means的优缺点：优点：简单，高效而且可以用于多种数据类型缺点：容易受异常点的干扰，检测和去处异常点能显著提高分类效果。
神经网络节点
• 神经网络节点用于创建并训练神经网络。神经网络节点用于创建并训练神经网络。神经网络，有时也称作多层感知器，神经网络，有时也称作多层感知器，本质上是人脑处理信息方式的简化模型。质上是人脑处理信息方式的简化模型。它通过模拟大量相互连接的简单处理单元工作，元工作，这些处理单元好像神经元的抽象化版本。象化版本。
• Clementine的结果非常直观，它并不是告诉你谁跟谁之间的关联度有多大；它是站在商业的角度告诉你，哪些物品应该放在一起，哪些物品同时出现的几率大，
• 接入web图 • 用科学的方式来改变销售策略
决策树
• 例1 对商场中的数据进行分析数据集有：18个属性，1000个记录； Cardid--age描述的是客户的基本信息；后面是客户购买商品的数据；
• Step三：对数据进行因子分析
Step四：显示经过因子分析后的数据表
时间序列点图
• • • • • 时间序列点图设置选项时间序列点图的显示选项时间序列点图的输出选项输出到屏幕(output to screen) 输出到文件(output to file)
三维图像
直方图节点
K-means聚类
因子分析
• 因子分析：是设法将原来众多具有一定相关性( 比如P 个指标) , 重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P 个指标作线性组合, 作为新的综合指标。
• 研究问题涉及：（1）属性变量众多（2）众多属性变量之间有一定的相关性因子分析可以不牺牲太多的信息内容而有效的降低了数据复杂性。
• K-means提供了一种聚类分析方法，在最初并不知道数据的分类时，可以采用K-means把数据聚成不同的类。与clementine中的其他学习方法不同， K-means模型不使用目标字段。这种不使用目标字段的学习方法被称作无监督的学习。Kmeans不是去预测某一结果，而是从输入字段中发现特征。记录被分成类，并且使得同一类中的记录彼此相似，而不同类的记录尽量不相同。
6、建模(Modeling)：在clementine系统中可用的代表有效建模算法的节点，例如神经网络、决策树、聚类算法和数据排序。 7、输出(output)：用来给出clementine数据的各种输出、图表和模型结果。 8、导出(export):以其他格式保存数据
在节点选项板(palette)上的Favorites 项目能够存入用户对clementine系统的习惯用法。
Clementine可以读取的数据格式 Clementine
• 文本格式数据 ฀ • SPSS/SAS数据 ฀ • Excel，Access，dBase，Foxpro，Oracle， SQL Server，DB2等数据库 • 用户输入数据
Clementine数据分析步骤
读取数据数据整理字段和记录数据理解建模模型评估结果发布
• 从图可以看出，故障202的温度和功率时序模式有别于故障303和101. • 在故障202的模式中温度随时间递增，而功率不断震荡；其他故障模式则不然。 • 但是，故障303和101的温度和功率时序模式则区别不大。两者的温度依时间不变，功率逐渐下降，看起来故障303的功率随时间下降的更快。
对数据的统计输出实例
• 例1：利用clementine系统提供的数据集 snapshottestN.db,分析不同性别不同区域未生育人员的平均年龄和平均收入，并按平均收入降序排列输出到表格中。
分析医生开处方药的依据实例
• 例2：利用clementine系统提供的数据集 drug1n，分析医生开取药方的参考依据。
构建数据流
构建数据流
• 1.1 概述使用clementine系统进行数据挖掘时，应着重关注通过一系列节点来执行数据的过程，这个过程被称作一个数据流 (stream).这一系列的节点代表了将对数据进行的操作，而这些节点之间的联系表明了数据流(stream)的方向。
• 1.2 建立数据流 Clementine系统独特的接口让用户可以通过数据流的图表以可视化方式挖掘数据。最基本的，用户可以使用下列步骤建立一个数据流： ●向数据流区域中增加节点 ●连接节点形成一个数据流 ●指明任一节点或数据流的选项 ●执行这个数据流
• 在神经网络中通常有三个部分：一个输入层，在神经网络中通常有三个部分：一个输入层，其单元代表输入字段；一个或者更过的隐藏层；其单元代表输入字段；一个或者更过的隐藏层；以及一个输出层，其单元代表输出字段。以及一个输出层，其单元代表输出字段。这些单元通过不断变化的连接强度或权值连接。单元通过不断变化的连接强度或权值连接。 • 神经网络学习包括：检查单个记录、为每个记神经网络学习包括：检查单个记录、录生成预测、录生成预测、一旦发生生成错误的预测便对权值进行调整。这一进程多次重复，值进行调整。这一进程多次重复，神经网络不断提高预测效果，断提高预测效果，直到满足一个或多个终止准则。
• Type结点具有设置各字段数据类型、选择字段在机器学习中的的输入/输出属性等功能，我们利用该结点选择要进行因子分析的字段。 • Type表示了每个字段的数据类型。 • 我们不需要为每个字段设定数据类型，只需从 Values栏中的下拉菜单中选择<Read>项，然后选择Read Value键，软件将自动读入数据和数据类型； • Factor/PCA模型中只能使用数值型字段
• 目的： • –掌握如何在Clementine中进行Neural Network 模型的构建和解读 • –掌握Neural Network节点
• • • • • • • • •
内容 –8.1 Neural Net节点介绍 –8.2 构建Neural Network –8.3 模型管理区介绍 –8.4 结果查看和结果解释 –8.5 模型预测值生成 –8.6 模型评价 –8.7 理解预测原因 –8.8 模型总结
• 1.4 向数据流中增加数据流节点从节点选项板中向数据流增加节点有三种方式： 1、在选项板上双击一个节点 2、将一个节点从选项板上拖放到数据流区域中 3、在选项板上点击一个节点，双击这个节点来显示它的对话框。
• 1.5 删除节点单击鼠标右键从菜单中选择删除 1.6 在数据流中连接节点数据流区域的节点只有被连接在一起才能形成一个数据流。节点之间的连接表明数据的流向，就如数据从一个操作流向另一个。通过双击鼠标左键操作
因子分析
• 过多的字段（属性）不仅增添了分析的复杂性，而且字段之间还可能存在一定的相关性，于是我们无需使用全部字段来描述样本信息。下面我们将介绍用Clementine 进行因子分析的步骤：
• Step一：读入数据 • Step二：设置字段属性 • 进行因子分析时我们需要了解字段间的相关性，但并不是所有字段都需要进行相关性分析，比如“序号”字段，所以需要我们将要进行因子分析的字段挑选出来。
3、记录选项(record ops)：用来在数据记录上进行操作的节点，例如选择、合并和增加。 4、字段选项(Field ops):用来在数据字段上进行操作的节点，例如过滤、导出新字段和确定给出字段的数据类型。 5、图(Graphs):在建模之前和之后用来可视化数据的节点。图包括点图、直方图、web节点和评估图表。
• 要求：对字段类型没有限制。神经网络要求：对字段类型没有限制。节点要求一个或更多字段有“ 方向方向，节点要求一个或更多字段有“in”方向，以及一个或更多字段有“ 方向。以及一个或更多字段有“out”方向。方向 • 优点：神经网络在执行一般估计功能时优点：非常强大。非常强大。他们一般能够和其他方法一样执行预测任务，有时甚至执行的更好。样执行预测任务，有时甚至执行的更好。
• 针对数据BASKETS1n建立一棵决策树； • 目标：那些顾客是健康食品购买者分析的目标群已从商品信息转到客户基本信息；
• • • • • •
什么是健康食品购买着？找出健康食品购买者，健康食品购买者=fruitveg+fish True:购买 F：没购买增加一个属性集healthy
• Derive:增加一个或多个属性集；
• 练习1 • 读入数据文件BASKETS1n • 针对某商场的购物资料对数据进行分析。使用关联分析方法找出商品在出售时是否存在某种联系； • 为了得到购买某种商品的顾客特征，采用决策树方法对顾客分类。 • 练习2 • Newschan数据文件进行决策树分析
因子分析
• 也称主分量分析 • 由霍特林(Hotelling)于1933年首先提出； • 利用降维思想，在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法； • 每个主成分都是原始变量的线性组合； • 各个主成分之间是互不相关的；

数据挖掘 决策树上机内容

数据挖掘决策树上机内容