利用决策树方法对数据进行分类挖掘毕业设计论文

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

目录

摘要 (3)

Abstract (iii)

第一章绪论 (1)

1.1 数据挖掘技术 (1)

1.1.1 数据挖掘技术的应用背景 (1)

1.1.2数据挖掘的定义及系统结构 (2)

1.1.3 数据挖掘的方法 (4)

1.1.4 数据挖掘系统的发展 (5)

1.1.5 数据挖掘的应用与面临的挑战 (6)

1.2 决策树分类算法及其研究现状 (8)

1.3数据挖掘分类算法的研究意义 (10)

1.4本文的主要内容 (11)

第二章决策树分类算法相关知识 (12)

2.1决策树方法介绍 (12)

2.1.1决策树的结构 (12)

2.1.2决策树的基本原理 (13)

2.1.3决策树的剪枝 (15)

2.1.4决策树的特性 (16)

2.1.5决策树的适用问题 (18)

2.2 ID3分类算法基本原理 (18)

2.3其它常见决策树算法 (20)

2.4决策树算法总结比较 (24)

2.5实现平台简介 (25)

2.6本章小结 (29)

第三章 ID3算法的具体分析 (30)

3.1 ID3算法分析 (30)

3.1.1 ID3算法流程 (30)

3.1.2 ID3算法评价 (33)

3.2决策树模型的建立 (34)

3.2.1 决策树的生成 (34)

3.2.2 分类规则的提取 (377)

3.2.3模型准确性评估 (388)

3.3 本章小结 (39)

第四章实验结果分析 (40)

4.1 实验结果分析 (40)

4.1.1生成的决策树 (40)

4.1.2 分类规则的提取 (40)

4.2 本章小结 (41)

第五章总结与展望 (42)

参考文献 (44)

致谢 (45)

附录 (46)

毕业设计(论文)原创性声明和使用授权说明

原创性声明

本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。

作者签名:日期:

指导教师签名:日期:

使用授权说明

本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。

作者签名:日期:

学位论文原创性声明

本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。

作者签名:日期:年月日

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

涉密论文按学校规定处理。

作者签名:日期:年月日

导师签名:日期:年月日

指导教师评阅书

评阅教师评阅书

教研室(或答辩小组)及教学系意见

摘要:信息高速发展的今天,面对海量数据的出现,如何有效利用海量的原始数据分析现状和预测未来,已经成为人类面临的一大挑战。由此,数据挖掘技术应运而生并得到迅猛发展。

数据挖掘是信息技术自然演化的结果,是指从大量数据中抽取挖掘出来隐含未知的、有价值的模式或规律等知识的复杂过程。

本文主要介绍如何利用决策树方法对数据进行分类挖掘。文中详细的阐述了决策树的基本知识和相关算法,并对几种典型的决策树算法进行了分析比较,如:核心经典算法——ID3算法;能够处理不完整的数据、对连续属性的数据离散化处理以及克服了ID3算法偏向于选择取值较多的属性作为测试属性的缺点的C4.5算法;利用GINI系数判别数据集中的分裂属性并形成二叉树的CART算法;使数据的分类不受机器主存的限制,有着良好的伸缩和并行性的SLIQ和SPRNIT 算法。ID3算法是最核心的技术,所以本文主要对它进行了研究和设计实现。

第四章在JAVA编译器上实现ID3算法,并对结果进行分析,决策树生成,分类规则的提取,以便于以后直接使用这一规则进行数据分析。在论文的最后一章介绍了目前数据挖掘技术的研究前景。

关键词:数据挖掘;决策树;ID3算法;信息增益;熵值

Abstract: Today, the massage is passed very quickly. How to investigate current status and forecast the future with good use of tremendous original Data has been becoming the big challenge to human beings when facing the emergence of mass Data in information era. Consequently, Data mining technology emerge and boom quickly.

Data mining, is the product of the evolution of information technology, which is a complex process excacting the implicated and valuable pattens, knowledge and rules from a large scale of dataset.

This paper mainly introduces the decision tree algorithm for classification. Firstly, the basic knowledge about decision tree and some representative algorithms for inducing decision tree are discussed, including ID3,which is classical;C4.5,which can deal with continuous attributes and some empty attribute ,at the same time, it can overcome the ID3’weakness which is apt to select some attribute with more value; CART, which uses GINI coefficient about attribute selection and induces a binary tree; SLIQ and SPRINT, which are scalable and can be easily parallelized, moreover they don’t have any limitation of main memory. Because ID3 algorithms which is classical, so in the paper I main introduce it.

The firth chapter,ID3 algorithm is developed on the java platform by java,and carries on the analysis to the result, the decision tree production, the classified rule extraction, it will be advantageous for us to use this rule to carry on the data analysis directly in the future. I introduce data mining technology research prospect in the paper last chapter.

Key words: Data mining; Decision tree; ID3 algorithm ;Information gain; Entropy value

相关文档
最新文档