数据挖掘及决策树

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

昆明理工大学信息工程与自动化学院学生实验报告

(2016 —2017 学年第学期)

课程名称:数据仓库与数据挖掘开课实验室:信自楼444 2017 年 06 月 01 日

一、上机目的及内容

目的:

1.理解数据挖掘的基本概念及其过程;

2.理解数据挖掘与数据仓库、OLAP之间的关系

3.理解基本的数据挖掘技术与方法的工作原理与过程,掌握数据挖掘相关工具的使用。

内容:

给定AdventureWorksDW数据仓库,构建“Microsoft 决策树”模型,分析客户群中购买自行车的模式。

要求:

利用实验室和指导教师提供的实验软件,认真完成规定的实验内容,真实地记录实验中遇到的

二、实验原理及基本技术路线图(方框原理图或程序流程图)

请描述数据挖掘及决策树的相关基本概念、模型等。

1.数据挖掘:从大量的、不完全的、有噪音的、模糊的、随机的数据中,提取隐含在其中的、

人们事先不知道的、但又潜在有用的信息和知识的过程。

项集的频繁模式

分类与预测分类:提出一个分类函数或者分类模型,该模型能把数据库中的数据项

映射到给定类别中的一个;

预测:利用历史数据建立模型,再运用最新数据作为输入值,获得未来

变化趋势或者评估给定样本可能具有的属性值或值的范围

聚类分析根据数据的不同特征,将其划分为不同数据类

偏差分析对差异和极端特例的描述,揭示事物偏离常规的异常现象,其基本思想

是寻找观测结果与参照值之间有意义的差别

3.决策树:是一种预测模型,它代表的是对象属性与对象值之间的一种映射关系。树中每个

节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从

根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输

出,可以建立独立的决策树以处理不同输出。

4.常用决策树算法:

算法概念

ID3 在实体世界中,每个实体用多个特征来描述。每个特征限于在一

个离散集中取互斥的值

C4.5 对ID3算法进行了改进:

用信息增益率来选择属性,克服了用信息增益选择属性时偏向选

择取值多的属性的不足;在树构造过程中进行剪枝;能够完成对

连续属性的离散化处理;能够对不完整数据进行处理。

三、所用仪器、材料(设备名称、型号、规格等或使用软件)

1台PC及Microsoft SQL Server套件

四、实验方法、步骤(或:程序代码或操作过程)

(一)准备Analysis Services 数据库

1.Analysis Services 项目创建成功

2.更改存储数据挖掘对象的实例

3.创建数据源

4.修改数据源视图

(二)生成目标邮件方案

1.创建用于目标邮件方案的挖掘结构

2.修改目标邮件模型

创建聚类分析挖掘模型Naive Bayes 模型处理挖掘模型

(三)决策树

(四)依赖关系网络

五、实验结果( 测试数据、图表、计算等)

决策树

六、分析和结论(误差分析与数据处理、成果总结等。其中,绘制曲线图时必须用计算纸

或程序运行结果、改进、收获)

1.在本次实验中,在建立数据源视图时,多次出现错误,后来发现是因为未附加数据库

的原因,附加数据库后解决了。

2.因为实验没有完成就关闭了电脑,重启电脑后,出现无法连接的错误,后通过管理界

面启动服务后解决。

3.在部署时,出现由于“创建用于目标邮件方案的挖掘结构”中“内容类型”的设置没

有严格按照教程来,导致后续有继承键而无法部署,重新设置更改后才得以解决。

4.本次实验都只是按照丛书教程里弄的,还不太深入理解其中的知识和相关理论,相信

在今后的生活、学习和实践中,慧能更好的去掌握决策树。

相关文档
最新文档