数据挖掘决策树算法概述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
决策树是分类应用中采用最广泛的模型之一。与神经网络和贝叶斯方法相比,决策树无须花费大量的时间和进行上千次的迭代来训练模型,适用于大规模数据集,除了训练数据中的信息外不再需要其他额外信息,表现了很好的分类精确度。其核心问题是测试属性选择的策略,以及对决策树进行剪枝。连续属性离散化和对高维大规模数据降维,也是扩展决策树算法应用范围的关键技术。本文以决策树为研究对象,主要研究内容有:首先介绍了数据挖掘的历史、现状、理论和过程,然后详细介绍了三种决策树算法,包括其概念、形式模型和优略性,并通过实例对其进行了分析研究
目录
一、引言 (1)
二、数据挖掘 (2)
(一)概念 (2)
(二)数据挖掘的起源 (2)
(三)数据挖掘的对象 (3)
(四)数据挖掘的任务 (3)
(五)数据挖掘的过程 (3)
(六)数据挖掘的常用方法 (3)
(七)数据挖掘的应用 (5)
三、决策树算法介绍 (5)
(一)归纳学习 (5)
(二)分类算法概述 (5)
(三)决策树学习算法 (6)
1、决策树描述 (7)
2、决策树的类型 (8)
3、递归方式 (8)
4、决策树的构造算法 (8)
5、决策树的简化方法 (9)
6、决策树算法的讨论 (10)
四、ID3、C4.5和CART算法介绍 (10)
(一)ID3学习算法 (11)
1、基本原理 (11)
2、ID3算法的形式化模型 (13)
(二)C4.5算法 (14)
(三)CART算法 (17)
1、CART算法理论 (17)
2、CART树的分支过程 (17)
(四)算法比较 (19)
五、结论 (24)
参考文献...................................................................................... 错误!未定义书签。
致谢.............................................................................................. 错误!未定义书签。
数据挖掘中决策树算法的研究
一、引言
在激烈的市场竞争中,信息对于企业的生存和发展越来越起到至关重要的作用,随着数据库技术的迅速发展以及数据库管理系统的广泛应用,数据库中表达信息的数据亦随着时间和业务的发展而急剧膨胀,人们需要对数据进行更高层次的处理,从中找出规律和模式,以帮助人们更好的利用数据进行决策和研究。目前的数据库系统虽然可以实现高效的数据录入、查询、统计等功能,却无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。由于缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象,面对“人们被数据淹没,人们却饥饿于知识”的挑战,数据挖掘和知识发现技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。
数据挖掘的核心部分是为数据集建立模型的过程,不同的数据挖掘方法构造数据模型的方式也不相同,在进行数据挖掘时可采用许多不同的方法,例如神经网络、决策树、遗传算法和可视化技术等,同时同一方法下又有数以百计的派生方法。决策树算法是数据挖掘常用的方法之一,但它一直未受到人们重视,直到1984年Breiman等人合著出版了《分类和回归树》一书,决策树方法才开始被统计学界接受并获得了信赖,并很快得到推广应用。现在很多公司的数据挖掘产品中都采用了决策树数据挖掘算法,J.R.Quinlan对决策树算法作出了详细的理论描述决策树算法中一种广为人知的算法就是ID3算法,是1986年由Quinlan提出的一种基于信息墒的决策树算法,近年来在很多知识发现领域得到应用,很多学者针对
ID3算法进行研究。本课题主要研究了ID3算法、C4.5算法等的优势和略势,比较了各算法在实际应用中的好处和不足。
二、数据挖掘
(一)概念
图 1-1
数据挖掘,在人工智能领域,习惯上又称为数据库中知识发现(Knowledge Discovery in Database, KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程以下三个阶段组成:(1)数据准备,(2)数据挖掘,(3)结果表达和解释。数据挖掘可以与用户或知识库交互。
并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。
(二)数据挖掘的起源
要是发明之母。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。
(三)数据挖掘的对象
数据挖掘可以在任何类型的数据上进行,即可以来自社会科学,又可以来自自然科学产生的数据,还可以是卫星观测得到的数据。数据形式和结构也各不相同,可以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是Web数据信息。
(四)数据挖掘的任务
数据挖掘的目标是从海量数据中发现隐含的、有意义的知识。它的任务主要是分类、预测、时间序列模式、聚类分析、关联分析预测和偏差分析等。
分类:分类就是按照一定的标准把数据对象划归成不同类别的过程。
预测:预测就是通过对历史数据的分析找出规律,并建立模型,通过模型对未来数据的种类和特征进行分析。
时间序列模式:时间序列模式就是根据数据对象随时间变化的规律或趋势来预测将来的值。
聚类分析:聚类分析是在没有给定划分类的情况下,根据数据信息的相似度进行数据聚集的一种方法。
关联分析预测:关联分析就是对大量的数据进行分析,从中发现满足一定支持度和可信度的数据项之间的联系规则。
偏差分析:偏差分析就是通过对数据库中的孤立点数据进行分析,寻找有价值和意义的信息。
(五)数据挖掘的过程
数据挖掘使用一定的算法从实际应用数据中挖掘出未知、有价值的模式或规律等知识,整个过程由数据准备、数据挖掘、模式评估、结果分析和运用知识等步骤组成。
数据准备:数据挖掘的处理对象是数据,这些数据一般存储在数据库系统中,是长期积累的结果。但往往不适合直接在这些数据上进行知识挖掘,首先要清除数据噪声和与挖掘主题明显无关的数据;其次将来自多数据源中的相关数据组合并;然后将数据转换为易于进行数据挖掘的数据存储形式,这就是数据准备。
数据挖掘:数据挖掘就是根据数据挖掘的目标,选取相应算法及参数,分析准备好的数据,产生一个特定的模式或数据集,从而得到可能形成知识的模式模型。
模式评估:由挖掘算法产生的模式规律,存在无实际意义或无实用价值的情况,也存在不能准确反映数据的真实意义的情况,甚至在某些情况下与事实相反,因此需要对其进行评估,从挖掘结果中筛选出有意义的模式规律。在此过程中,为了取得更为有效的知识,可能会返回前面的某一处理步骤中以反复提取,从而提取出更有效的知识。
巩固知识:解释并评估结果.其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术.
运用知识:将分析所得到的知识集成到业务信息系统的组织结构中去.
(六)数据挖掘的常用方法