数据挖掘报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘实验报告
学院:经济与管理学院
专业:信管10-2班
姓名:*****
学号:*****
指导老师:*****
实验一决策树C5.0建模
学生姓名***班级信管10-2班学号****成绩
实验项目决策树C5.0建模指导老师****
实验目的 1.熟悉SPSS Clementine建模方法。
2.掌握SPSS Clementine分布图,网络图,散点图的创建方法。
3.掌握决策树C5.0的决策方法
实验要求 1.创建散点图
2.创建网络图
3.创建分布图
实验步骤
1.读取文本数据
使用变量文件节点读取定界文本数据。可以从选项板中添加变量文件节点,方法是单击原选项卡找到此节点,或者使用收藏夹选项卡(在默认的情况下包含此节点)然后,双击新添加的节点以打开相应的对话框。
单击紧挨“文件”框右边以省略号“···”标记的按钮,浏览到系统中的Clementine 安装目录。打开demos目录,然后选择名为DRUC1n目录的文件,选择从文件读取字段名,并标注已载入此对话框中的字段和值。
单击数据选项卡,覆盖和更改某个字段的存储。注意,存储不同于类型或数据字段的用途。类型选项卡可以帮助了解数据中的更多字段类型。还可以选择读取值来查看各个字段实际值,具体取决于在值列中的选择。此过程称为实例化。
类型选项卡可以帮助了解数据中的更多字段类型,还可以选择读取值来查看各个
字段的实际值。具体取决于在值列中的选择。此过程称为实例化。
字段的实际值。具体取决于在值列中的选择。此过程称为实例化。
2.添加表
现在已载入数据文件,可以浏览某些文件数据的值。其中一个方法就是构建包含表节
点的流。要将表节点添加的流中,可以双击选项板中的表节点图标或将其拖放到工作区。
双击选项板中的某个节点后,该节点将自动与流工作区中的选定节点项链相连接。此外,如果尚未连接节点,则可以使用鼠标中建将源节点与表节点相连接。要么你鼠标中键
操作,请使用鼠标是按下Alt键。
择执行。
3.创建分布图
数据挖掘过程中,创建汇总视图通常有助于研究数据。Clementine提供了若干不同类型的图表供您选择,具体取决于要汇总分析的数据。例如,要找出每种药物的对症患者的比例,请使用分布节点。
将分布节点添加的流,并将其与源节点相连,然后双击该节点以编辑要显示的选项。选择药品作为要显示其分布的目标字段。然后在对话框中单击执行。
最终图表有助于查看数据的“结构”。结果表明,药品Y的对症患者最多,而药品B 和药品C的对症患者最少。
此外,还可以添加数据审核节点,同时快速浏览所有字段的分布图和直方图。
4.创建散点图
现在我们来看看有哪些因素会对药品(目标变量)产生影响。作为研究员,您一定知道钠和钾的浓度在血液中有着重要影响。由于两者都是数值,您可以用颜色区分药品,创建一个关于钠和钾的散点图。
将散点图节点放在工作区中,并将其与源节点相连接,然后双击该节点对其进行编辑。
在散点图选项卡中,选择Na作为X字段,选择K作为Y字段,并选择药品作为交叠字段。然后单击执行。
此散点图清楚的显示一个阈值,在此阈值上方,对症药品始终是Y,在此阈值下方,对症药品均不是Y。此阈值是一个比率,即Na和K的比率。
5.创建网络图
因为很多数据字段均可分类,也可尝试网络图,此图表将反应不同类型质检的联系。首先,将网络节点云您工作区中的源节点相连。
在“网络节点”对话框中,选择BP(血压)和药品。然后单击执行。
此图显示,药品Y与三种级别的血压均相关。Y是最佳药品。
实验二关联规则挖掘
学生姓名****班级信管10-2班学号****成绩
实验项目关联规则挖掘指导老师****
实验目的 1.熟悉C5.0规则归纳。
2.掌握购物篮分析的方法。
实验要求 1.字段和记录的筛选。
2.规则归纳(C5.0)分类。
3.购物篮分析。
实验步骤
本示例处理描述超级市场购物篮内容(即,所购买的全部商品的集合)的虚构数据,以及购买者的相关个人数据(可通过忠诚卡方案获得)。目的是寻找购买相似产品并且可按人口统计学方式(如按年龄、收入等)刻画其特征的客户群。
本示例说明了数据挖掘的两个阶段:
*关联规则建模和一个揭示所购商品之间联系的Web显示
*C5.0规则归纳(描述已标识产品组的购买者的特征)
本实验采用baskrule的流。该流引用名为BASKETS1n的数据文件。任何Clementine Client安装的Demos目录中都具有这些文件,通过从Windows的开始菜单中选择Start>[All]Programs>SPSS Clementine11.1>Demos可访问文件。文件haskrule位于Classification_Module目录下。
1.访问数据
使用“变量文件”节点连接到数据集BASKETS1n,选择要从该文件读取的字段名称。将“类型”节点连接到数据源,两年后将该节点连接到“表”节点。
将字段卡的类型设置为无类型(因为每个忠诚卡ID在数据集中只出现一次,因此对于建模没有用处)。选择集作为字段性别类型(这是为了确保GRI建模方法不会将性别视为标志)。
2.发现购物篮内容的关系
首先,需要使用一般规则归纳(GRI)大致了解购物篮内容的关系(关联)以生成关联规则。选择要在此建模过程中使用的字段,方法是:编辑“类型”节点,将所有产品类型的方向设置为双向,并将所有其他方向设置为无。(双向表示该字段可以是结果模型的输入或输出)
注意:通过按住Shift键并单击以选择多个字段,然后指定列中的选项,可为多个字段设置选项。
指定了用于建模的字段后,请将GRI节点附加到“类型”节点,编辑它,选择选项只显示值为真的标志变量,然后执行GRI节点。结果(管理器窗口右上角“模型”选项卡上的非精炼模型)包含您可以查看(使用上下文菜单,然后选择浏览)的关联规则。
这些规则显示冻肉、罐装蔬菜和啤酒之间存在多种关联;酒和糖果也具有关