数据挖掘课程报告

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Southwest university of science and technology 数据挖掘课程报告

ID3算法

学院名称计算机科学与技术

专业名称计算机科学与技术

学生姓名

学号

指导教师吴珏

2014年12月

声明

在辛苦的将这个论文写完之后,怀着忐忑的心情让众所周知的学霸大神指点看看有什么不妥的地方,没有想到还是出现了一个bug。

因此在这里作一个声明,以免引起不必要的误会。

由于我选择的课题ID3算法分析,早在86年,在数据挖掘这个科目之前就已经有学者提出了,因此在分析上虽然经典但是早已有更新版本出现。在查询百科的时候甚至有这样说法:详细请查询改进版。

于是在找实验用例的时候就难以寻找,由于笔者能力有限也无法编制一个特别有针对性的用例,在苦思之后突然笔者灵光一闪,既然这个版本的用例很难寻找,那何不用改进版的例子进行实验呢?于是就套用了实验中的例子(考虑到这个例子很经典,并且很有针对性,有助于论文理论的理解),请放心,用例是这样的,但是方法完全是按照本文算法进行计算的,没有抄袭的可能。

在询问了学霸兼大神之后,他说在这方面会有一些麻烦建议我换一个例子,但是做一个例子并完全画出各种图,只有做的人才明白这有多么费劲。于是在此作一下声明。

怀着忐忑的心情,献上此声明,并为此致以深深的歉意。

如有任何疑问,请拨打:

2014年12月3日

摘要 ............................................................................................................................................. - 1 -关键字 ......................................................................................................................................... - 1 -第一章绪论.. (2)

1.1 引言 (3)

1.2 什么是ID3算法 (3)

1.3信息熵 (4)

1.4信息增益 (4)

1.5 ID3算法流程 (4)

第二章ID3算法 (5)

2.1 ID3算法 (5)

2.2 公式 (5)

2.2.1 公式一 (5)

2.2.2 公式二 (5)

2.2.3 公式三 (5)

第三章实验用例 (6)

3.1 网球与天气 (6)

3.2 学生成绩 (8)

第四章ID3算法发展 (11)

4.1 ID3算法 (11)

4.2 ID4算法 (12)

4.3 ID5算法 (12)

第五章个人评价 (12)

参考文献 (13)

致谢 (14)

ID3算法

【摘要】

决策树算法是数据挖掘领域的核心分类算法之一,依据学习算法可以建立能够准确地预测未知样本类标号的模型。分类方法的实例包括:决策树分类法、基于规则的分类法、神经网络、支持向量级、朴素贝叶斯分类方法等。相对于其他几种算法而言,ID3算法理论清晰,算法简单,是很有实用价值的实例学习算法,计算时间是例子个数、特征属性个数、节点个数属性之积的线性函数,总预测准确率较高,针对属性选择问题,是决策树学习方法中最具影响和最为典型的算法。ID3算法理论清晰、使用简单、学习能力较强,且构造的决策树平均深度较小,分类速度较快,特别适合处理大规模的学习问题,目前已经得到广泛的应用。本文主要讲述ID3算法的相关知识,对于ID3算法的分析,实验结果分析,在对算法的分析还有算法实验结果分析之后对ID3算法的总结还有展望。

【关键字】

ID3算法介绍ID3算法分析ID3算法实例ID3算法实验结果分析ID3算法总结ID3算法展望个人评价

第一章绪论

1.1 引言

接触数据挖掘还要得益于我的老师吴珏老师,之前我甚至没有听说过这一门知识,在知道这个词之后,一瞬间发现原来这种技术早已经充溢在我们的周围,这项技术早已经被广泛应用,连我最喜爱的《纸牌屋》也是这一项技术的高科技结晶!于是我对这门课有了极大的兴趣,并申请报了吴珏老师的《数据挖掘技术》这门课,并简单的了解这一门技术。

我们身处在大数据时代,数据挖掘没有像蓝翔那样的沃尔沃挖掘机,甚至没有铲子,怎么从大量的数据中提取到无污染、少误差、凝练的结果呢?这就需要科学家们总结的经典的应对不同情况所作出的分析算法,在大量的数据中一击制胜,找出很多平时生活中难以发现甚至奇葩的规律,就比如啤酒和尿片的问题。

当然我们挖掘算法有很多种,每一种都可以说是一个难以复制的经典。

分类技术是一种根据输入数据集建立分类模型的系统方法。分类技术一般是用一种学习算法确定分类模型,该模型可以很好地拟合输入数据中类标号和属性集之间的联系。依据学习算法可以建立能够准确地预测未知样本类标号的模型。分类方法的实例包括:决策树分类法、基于规则的分类法、神经网络、支持向量级、朴素贝叶斯分类方法等。相对于其他几种算法而言,ID3算法理论清晰,算法简单,是很有实用价值的实例学习算法,计算时间是例子个数、特征属性个数、节点个数属性之积的线性函数,总预测准确率较高,针对属性选择问题,是决策树学习方法中最具影响和最为典型的算法。因此本文将详细介绍该算法。

1.2 什么是ID3算法

ID3算法可以说是一个很超前的概念,它出现在数据挖掘技术真正出现在大众视野之前。id3是一种基于决策树的分类算法,由J.Ross Quinlan在1986年开发。id3根据信息增益,运用自顶向下的贪心策略建立决策树。信息增益用于度量某个属性对样本集合分类的好坏程度。由于采用了信息增益,id3算法建立的决策

相关文档
最新文档