毕业设计论文--数据挖掘技术

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

目录

摘要 (iii)

Abstract (iv)

第一章绪论 (1)

1.1 数据挖掘技术 (1)

1.1.1 数据挖掘技术的应用背景 (1)

1.1.2数据挖掘的定义及系统结构 (2)

1.1.3 数据挖掘的方法 (4)

1.1.4 数据挖掘系统的发展 (5)

1.1.5 数据挖掘的应用与面临的挑战 (6)

1.2 决策树分类算法及其研究现状 (8)

1.3数据挖掘分类算法的研究意义 (10)

1.4本文的主要内容 (11)

第二章决策树分类算法相关知识 (12)

2.1决策树方法介绍 (12)

2.1.1决策树的结构 (12)

2.1.2决策树的基本原理 (13)

2.1.3决策树的剪枝 (15)

2.1.4决策树的特性 (16)

2.1.5决策树的适用问题 (18)

2.2 ID3分类算法基本原理 (18)

2.3其它常见决策树算法 (20)

2.4决策树算法总结比较 (24)

2.5实现平台简介 (25)

2.6本章小结 (29)

第三章 ID3算法的具体分析 (30)

3.1 ID3算法分析 (30)

3.1.1 ID3算法流程 (30)

3.1.2 ID3算法评价 (33)

3.2决策树模型的建立 (34)

3.2.1 决策树的生成 (34)

3.2.2 分类规则的提取 (377)

3.2.3模型准确性评估 (388)

3.3 本章小结 (39)

第四章实验结果分析 (40)

4.1 实验结果分析 (40)

4.1.1生成的决策树 (40)

4.1.2 分类规则的提取 (40)

4.2 本章小结 (41)

第五章总结与展望 (42)

参考文献 (44)

致谢 (45)

附录 (46)

摘要:信息高速发展的今天,面对海量数据的出现,如何有效利用海量的原始数据分析现状和预测未来,已经成为人类面临的一大挑战。由此,数据挖掘技术应运而生并得到迅猛发展。

数据挖掘是信息技术自然演化的结果,是指从大量数据中抽取挖掘出来隐含未知的、有价值的模式或规律等知识的复杂过程。

本文主要介绍如何利用决策树方法对数据进行分类挖掘。文中详细的阐述了决策树的基本知识和相关算法,并对几种典型的决策树算法进行了分析比较,如:核心经典算法——ID3算法;能够处理不完整的数据、对连续属性的数据离散化处理以及克服了ID3算法偏向于选择取值较多的属性作为测试属性的缺点的C4.5算法;利用GINI系数判别数据集中的分裂属性并形成二叉树的CART算法;使数据的分类不受机器主存的限制,有着良好的伸缩和并行性的SLIQ和SPRNIT 算法。ID3算法是最核心的技术,所以本文主要对它进行了研究和设计实现。

第四章在JAVA编译器上实现ID3算法,并对结果进行分析,决策树生成,分类规则的提取,以便于以后直接使用这一规则进行数据分析。在论文的最后一章介绍了目前数据挖掘技术的研究前景。

关键词:数据挖掘;决策树;ID3算法;信息增益;熵值

Abstract: Today, the massage is passed very quickly. How to investigate current status and forecast the future with good use of tremendous original Data has been becoming the big challenge to human beings when facing the emergence of mass Data in information era. Consequently, Data mining technology emerge and boom quickly.

Data mining, is the product of the evolution of information technology, which is a complex process excacting the implicated and valuable pattens, knowledge and rules from a large scale of dataset.

This paper mainly introduces the decision tree algorithm for classification. Firstly, the basic knowledge about decision tree and some representative algorithms for inducing decision tree are discussed, including ID3,which is classical;C4.5,which can deal with continuous attributes and some empty attribute ,at the same time, it can overcome the ID3’weakness which is apt to select some attribute with more value; CART, which uses GINI coefficient about attribute selection and induces a binary tree; SLIQ and SPRINT, which are scalable and can be easily parallelized, moreover they don’t have any limitation of main memory. Because ID3 algorithms which is classical, so in the paper I main introduce it.

The firth chapter,ID3 algorithm is developed on the java platform by java,and carries on the analysis to the result, the decision tree production, the classified rule extraction, it will be advantageous for us to use this rule to carry on the data analysis directly in the future. I introduce data mining technology research prospect in the paper last chapter.

Key words: Data mining; Decision tree; ID3 algorithm ;Information gain; Entropy value

相关文档
最新文档