数据挖掘及决策树
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
昆明理工大学信息工程与自动化学院学生实验报告
(2016 —2017 学年第学期)
课程名称:数据仓库与数据挖掘开课实验室:信自楼444 2017 年 06 月 01 日
一、上机目的及内容
目的:
1.理解数据挖掘的基本概念及其过程;
2.理解数据挖掘与数据仓库、OLAP之间的关系
3.理解基本的数据挖掘技术与方法的工作原理与过程,掌握数据挖掘相关工具的使用。
内容:
给定AdventureWorksDW数据仓库,构建“Microsoft 决策树”模型,分析客户群中购买自行车的模式。
要求:
利用实验室和指导教师提供的实验软件,认真完成规定的实验内容,真实地记录实验中遇到的
二、实验原理及基本技术路线图(方框原理图或程序流程图)
请描述数据挖掘及决策树的相关基本概念、模型等。
1.数据挖掘:从大量的、不完全的、有噪音的、模糊的、随机的数据中,提取隐含在其中的、
人们事先不知道的、但又潜在有用的信息和知识的过程。
项集的频繁模式
分类与预测分类:提出一个分类函数或者分类模型,该模型能把数据库中的数据项
映射到给定类别中的一个;
预测:利用历史数据建立模型,再运用最新数据作为输入值,获得未来
变化趋势或者评估给定样本可能具有的属性值或值的范围
聚类分析根据数据的不同特征,将其划分为不同数据类
偏差分析对差异和极端特例的描述,揭示事物偏离常规的异常现象,其基本思想
是寻找观测结果与参照值之间有意义的差别
3.决策树:是一种预测模型,它代表的是对象属性与对象值之间的一种映射关系。树中每个
节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从
根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输
出,可以建立独立的决策树以处理不同输出。
4.常用决策树算法:
算法概念
ID3 在实体世界中,每个实体用多个特征来描述。每个特征限于在一
个离散集中取互斥的值
C4.5 对ID3算法进行了改进:
用信息增益率来选择属性,克服了用信息增益选择属性时偏向选
择取值多的属性的不足;在树构造过程中进行剪枝;能够完成对
连续属性的离散化处理;能够对不完整数据进行处理。
三、所用仪器、材料(设备名称、型号、规格等或使用软件)
1台PC及Microsoft SQL Server套件
四、实验方法、步骤(或:程序代码或操作过程)
(一)准备Analysis Services 数据库
1.Analysis Services 项目创建成功
2.更改存储数据挖掘对象的实例
3.创建数据源
4.修改数据源视图
(二)生成目标邮件方案
1.创建用于目标邮件方案的挖掘结构
2.修改目标邮件模型
创建聚类分析挖掘模型Naive Bayes 模型处理挖掘模型
(三)决策树
(四)依赖关系网络
五、实验结果( 测试数据、图表、计算等)
决策树
六、分析和结论(误差分析与数据处理、成果总结等。其中,绘制曲线图时必须用计算纸
或程序运行结果、改进、收获)
1.在本次实验中,在建立数据源视图时,多次出现错误,后来发现是因为未附加数据库
的原因,附加数据库后解决了。
2.因为实验没有完成就关闭了电脑,重启电脑后,出现无法连接的错误,后通过管理界
面启动服务后解决。
3.在部署时,出现由于“创建用于目标邮件方案的挖掘结构”中“内容类型”的设置没
有严格按照教程来,导致后续有继承键而无法部署,重新设置更改后才得以解决。
4.本次实验都只是按照丛书教程里弄的,还不太深入理解其中的知识和相关理论,相信
在今后的生活、学习和实践中,慧能更好的去掌握决策树。