数据挖掘 决策树上机内容
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
读取数据文件
• • • • • • • • 内容及节点: 2.1 Clementine可以读取的数据格式 2.2 读取文本数据与查看数据 2.3 读取SPSS数据 2.4 读取数据库数据 2.5 Clementine中的字段类型 2.6 Clementine中的字段方向 2.7 保存Clementine流
Clementine 面板
•
Clementine 可视化程序使用基础
• • • • • • 鼠标应用 三键与双键鼠标 左键 选择节点或图标置于流区域 右键 激活Context菜单 中键 连接或断开两个节点 帮助
节点操作
• 1.3 节点选项板 在clementine系统窗口底部的选项板 (palette)中装有用来建立数据流的所有可能的 节点。 1、收藏夹(Favorites):用于存放最常用的节点 2、数据源(sources):用来将数据读clementine 系统的节点
• Derive:增加一个或多个属性集;
• 数据集drug1n中有7个字段,只有Na,K是人 体所含的矿物质元素。影响人体的BP和 Cholesterel的是这两种元素的比例。
状态检测实例
• 例3:利用clementine系统提供的数据集 C0ND1n,对一台机器提供的状态信息进行 监测,识别和预测故障状态的问题。
• • • • • •
1.7 通过双击来增加和连接节点 1.8 手工连接节点 1.9 在数据列中绕过节点 2.0 绕开一个节点 2.1 在当前的连接中增加节点 2.2 删除节点间的连接
2 读取数据文件
• 目的 掌握Clementine如何读取文本格式数据 了解Clementine可以读取的数据格式 掌握Clementine中的字段类型和方 向
• 3、聚类分析(drug1n数据文件) 聚类分析(drug1n数据文件) (drug1n数据文件 要求:建立K means、twostep、kohonen模型 模型, 要求:建立K-means、twostep、kohonen模型, 对结果进行distribution分析. distribution分析 对结果进行distribution分析. • 4、神经网络(Goods1n,2n数据文件) 神经网络(Goods1n,2n数据文件) (Goods1n,2n数据文件 要求:建立Neuralnet模型, Neuralnet模型 要求:建立Neuralnet模型,会运用建立的模 型进行预测
• Missing栏是在数据有缺失时选择是否用 Blank填充该字段;Check栏选择是否判 断该字段数据的合理性; • Direction栏在机器学习模型的建立中具 有相当重要的作用,通过对它的设置我 们可将字段设为输入/输出/输入且输出/ 非输入亦非输出四种类型。
• 在这里我们将前19个字段的Direction设 置为none,这表明在因子分析我们不将 这前19个字段列入考虑,从第20个字段 起我们将以后字段的direction设置为In, 对这些字段进行因子分析。
读取文本数据与查看数据
读取文本数据与查看数据
实例
关联分析
• 例1 对商场中的数据进行分析 数据集有:18个属性,1000个记录; Cardid--age描述的是客户的基本信息; 后面是客户购买商品的数据;
首先,要明白我们是对什么样的数据进行分析的? 在这里我们是对顾客购买信息做关联分析,一种 商品和另外一种商品之间是否有一定的关联性
• K-means的优缺点: 优点: 简单,高效而且可以用于多种数据类型 缺点: 容易受异常点的干扰,检测和去处异常点 能显著提高分类效果。
神经网络节点
• 神经网络节点用于创建并训练神经网络。 神经网络节点用于创建并训练神经网络。 神经网络,有时也称作多层感知器, 神经网络,有时也称作多层感知器,本 质上是人脑处理信息方式的简化模型。 质上是人脑处理信息方式的简化模型。 它通过模拟大量相互连接的简单处理单 元工作, 元工作,这些处理单元好像神经元的抽 象化版本。 象化版本。
• Clementine的结果非常直观,它并不是告 诉你谁跟谁之间的关联度有多大;它是站 在商业的角度告诉你,哪些物品应该放在 一起,哪些物品同时出现的几率大,
• 接入web图 • 用科学的方式来改变销售策略
决策树
• 例1 对商场中的数据进行分析 数据集有:18个属性,1000个记录; Cardid--age描述的是客户的基本信息; 后面是客户购买商品的数据;
• Step三:对数据进行因子分析
Step四:显示经过因子分析后的数据表
时间序列点图
• • • • • 时间序列点图设置选项 时间序列点图的显示选项 时间序列点图的输出选项 输出到屏幕(output to screen) 输出到文件(output to file)
三维图像
直方图节点
K-means聚类
因子分析
• 因子分析:是设法将原来众多具有一定 相关性( 比如P 个指标) , 重新组合成一组 新的互相无关的综合指标来代替原来的 指标。通常数学上的处理就是将原来P 个指标作线性组合, 作为新的综合指标。
• 研究问题涉及: (1)属性变量众多 (2)众多属性变量之间有一定的相关性 因子分析可以不牺牲太多的信息内 容而有效的降低了数据复杂性。
• K-means提供了一种聚类分析方法,在最初并不 知道数据的分类时,可以采用K-means把数据聚 成不同的类。与clementine中的其他学习方法不 同, K-means模型不使用目标字段。这种不使 用目标字段的学习方法被称作无监督的学习。Kmeans不是去预测某一结果,而是从输入字段中 发现特征。记录被分成类,并且使得同一类中的 记录彼此相似,而不同类的记录尽量不相同。
6、建模(Modeling):在clementine系统中可 用的代表有效建模算法的节点,例如神经 网络、决策树、聚类算法和数据排序。 7、输出(output):用来给出clementine数据 的各种输出、图表和模型结果。 8、导出(export):以其他格式保存数据
在节点选项板(palette)上的Favorites 项目能够存入用户对clementine系统的习 惯用法。
Clementine可以读取的数据格式 Clementine
• 文本格式数据 • SPSS/SAS数据 • Excel,Access,dBase,Foxpro,Oracle, SQL Server,DB2等数据库 • 用户输入数据
Clementine数据分析步骤
读取数据 数据整理 字段和记录 数据理解 建模 模型评估 结果发布
• 从图可以看出,故障202的温度和功率时序 模式有别于故障303和101. • 在故障202的模式中温度随时间递增,而功 率不断震荡;其他故障模式则不然。 • 但是,故障303和101的温度和功率时序模 式则区别不大。两者的温度依时间不变, 功率逐渐下降,看起来故障303的功率随时 间下降的更快。
对数据的统计输出实例
• 例1:利用clementine系统提供的数据集 snapshottestN.db,分析不同性别不同区域未 生育人员的平均年龄和平均收入,并按平均 收入降序排列输出到表格中。
分析医生开处方药的依据实例
• 例2:利用clementine系统提供的数据集 drug1n,分析医生开取药方的参考依据。
构建数据流
构建数据流
• 1.1 概述 使用clementine系统进行数据挖掘时, 应着重关注通过一系列节点来执行数据 的过程,这个过程被称作一个数据流 (stream).这一系列的节点代表了将对数 据进行的操作,而这些节点之间的联系 表明了数据流(stream)的方向。
• 1.2 建立数据流 Clementine系统独特的接口让用户可 以通过数据流的图表以可视化方式 挖掘数据。最基本的,用户可以使 用下列步骤建立一个数据流: ●向数据流区域中增加节点 ●连接节点形成一个数据流 ●指明任一节点或数据流的选项 ●执行这个数据流
• 在神经网络中通常有三个部分:一个输入层, 在神经网络中通常有三个部分:一个输入层, 其单元代表输入字段;一个或者更过的隐藏层; 其单元代表输入字段;一个或者更过的隐藏层; 以及一个输出层,其单元代表输出字段。 以及一个输出层,其单元代表输出字段。这些 单元通过不断变化的连接强度或权值连接。 单元通过不断变化的连接强度或权值连接。 • 神经网络学习包括:检查单个记录、为每个记 神经网络学习包括:检查单个记录、 录生成预测、 录生成预测、一旦发生生成错误的预测便对权 值进行调整。这一进程多次重复, 值进行调整。这一进程多次重复,神经网络不 断提高预测效果, 断提高预测效果,直到满足一个或多个终止准 则。
• Type结点具有设置各字段数据类型、选择字 段在机器学习中的的输入/输出属性等功能, 我们利用该结点选择要进行因子分析的字段。 • Type表示了每个字段的数据类型。 • 我们不需要为每个字段设定数据类型,只需从 Values栏中的下拉菜单中选择<Read>项,然 后选择Read Value键,软件将自动读入数据 和数据类型; • Factor/PCA模型中只能使用数值型字段
• 目的: • –掌握如何在Clementine中进行Neural Network 模型的构建和解读 • –掌握Neural Network节点
• • • • • • • • •
内容 –8.1 Neural Net节点介绍 –8.2 构建Neural Network –8.3 模型管理区介绍 –8.4 结果查看和结果解释 –8.5 模型预测值生成 –8.6 模型评价 –8.7 理解预测原因 –8.8 模型总结
• 1.4 向数据流中增加数据流节点 从节点选项板中向数据流增加节点有三种 方式: 1、在选项板上双击一个节点 2、将一个节点从选项板上拖放到数据流区 域中 3、在选项板上点击一个节点,双击这个节 点来显示它的对话框。
• 1.5 删除节点 单击鼠标右键从菜单中选择删除 1.6 在数据流中连接节点 数据流区域的节点只有被连接在一起才能形 成一个数据流。节点之间的连接表明数据的 流向,就如数据从一个操作流向另一个。通 过双击鼠标左键操作
因子分析
• 过多的字段(属性)不仅增添了分析的复 杂性,而且字段之间还可能存在一定的相 关性,于是我们无需使用全部字段来描述 样本信息。下面我们将介绍用Clementine 进行因子分析的步骤:
• Step一:读入数据 • Step二:设置字段属性 • 进行因子分析时我们需要了解字段间的相 关性,但并不是所有字段都需要进行相关 性分析,比如“序号”字段,所以需要我 们将要进行因子分析的字段挑选出来。
3、记录选项(record ops):用来在数据记录上 进行操作的节点,例如选择、合并和增加。 4、字段选项(Field ops):用来在数据字段上进 行操作的节点,例如过滤、导出新字段和确 定给出字段的数据类型。 5、图(Graphs):在建模之前和之后用来可视化 数据的节点。图包括点图、直方图、web节 点和评估图表。
• 要求:对字段类型没有限制。神经网络 要求:对字段类型没有限制。 节点要求一个或更多字段有“ 方向 方向, 节点要求一个或更多字段有“in”方向, 以及一个或更多字段有“ 方向。 以及一个或更多字段有“out”方向。 方向 • 优点:神经网络在执行一般估计功能时 优点: 非常强大。 非常强大。他们一般能够和其他方法一 样执行预测任务,有时甚至执行的更好。 样执行预测任务,有时甚至执行的更好。
• 针对数据BASKETS1n建立一棵决策树; • 目标:那些顾客是健康食品购买者 分析的目标群已从商品信息转到客户基本信息;
• • • • • •
什么是健康食品购买着? 找出健康食品购买者, 健康食品购买者=fruitveg+fish True:购买 F:没购买 增加一个属性集healthy
• Derive:增加一个或多个属性集;
• 练习1 • 读入数据文件BASKETS1n • 针对某商场的购物资料对数据进行分析。使用关 联分析方法找出商品在出售时是否存在某种联系; • 为了得到购买某种商品的顾客特征,采用决策树 方法对顾客分类。 • 练习2 • Newschan数据文件进行决策树分析
因子分析
• 也称主分量分析 • 由霍特林(Hotelling)于1933年首先提出; • 利用降维思想,在损失很少信息的前提下 把多个指标转化为几个综合指标的多元统 计方法; • 每个主成分都是原始变量的线性组合; • 各个主成分之间是互不相关的;