数据挖掘论文 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

《数据挖掘论文》

数据挖掘分类方法及其应用

课程名称：数据挖掘概念与技术姓名

学号：

指导教师：

数据挖掘分类方法及其应用

作者：来煜

摘要：社会的发展进入了网络信息时代，各种形式的数据海量产生，在这些数据的背后隐藏这许多重要的信息，如何从这些数据中找出某种规律，发现有用信息，越来越受到关注。为了适应信息处理新需求和社会发展各方面的迫切需要而发展起来一种新的信息分析技术，这种局势称为数据挖掘。分类技术是数据挖掘中应用领域极其广泛的重要技术之一。各种分类算法有其自身的优劣，适合于不同的领域。目前随着新技术和新领域的不断出现，对分类方法提出了新的要求。

。

关键字：数据挖掘；分类方法；数据分析

Abstract：The development of the society entered the network information age, mass produce various forms of data, hidden behind the data that a number of important information, how to find out some rule from these data, find useful information, more and more attention. In order to meet the new demand information processing and the urgent needs of the social development in all aspects and developed a new kind of information analysis technology, this situation is called data mining. Classification technique is widely applied in data mining field of one of the important technology. All kinds of classification algorithm has its own advantages and disadvantages, and suitable for different fields. Now with the new technology and new fields appear constantly, puts forward new requirements for classification method.

Key words: data mining; Classification method; Data analysis

引言

数据是知识的源泉。但是，拥有大量的数据与拥有许多有用的知识完全是两回事。过去几年中，从数据库中发现知识这一领域发展的很快。广阔的市场和研究利益促使这一领域的飞速发展。计算机技术和数据收集技术的进步使人们可以从更加广泛的范围和几年前不可想象的速度收集和存储信息。收集数据是为了得到信息，然而大量的数据本身并不意味信息。尽管现代的数据库技术使我们很容易存储大量的数据流，但现在还没有一种成熟的技术帮助我们分析、理解并使数据以可理解的信息表示出来。在过去，我们常用的知识获取方法是由知识工程师把专家经验知识经过分析、筛选、比较、综合、再提取出知识和规则。然而，由于知识工程师所拥有知识的有局限性，所以对于获得知识的可信度就应该打个折扣。目前，传统的知识获取技术面对巨型数据仓库无能为力，数据挖掘技术就应运而生。

数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出，人们希望在对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理，但是目前所拥有的数据分析工具很难对数据进行深层次的处理，使得人们只能望“数”兴叹。数据挖掘正是为了解决传统分析方法的不足，并针对大规模数据的分析处理而出现的。数据挖掘通过在大量数据的基础上对各种学习算法的训练，得到数据对象间的关系模式，这些模式反映了数据的内在特性，是对数据包含信息的更高层次的抽象。目前，在需要处理大数据量的科研领域中，数据挖掘受到越来越多的关注，同时，在实际问题中，大量成功运用数据挖掘的实例说明了数据挖掘对科学研究具有很大的促进作用。数据挖掘可以帮助人们对大规模数据进行高效的分析处理，以节约时间，将更多的精力投入到更高层的研究中，从而提高科研工作的效率。

分类技术是数据挖掘中应用领域极其广泛的重要技术之一。至今已提出了多种分类算法，主要有决策树、关联规则、神经网络、支持向量机和贝叶斯、k－临近法、遗传算法、粗糙集以及模糊逻辑技术等。大部分技术都是使用学习算法确定分类模型，拟合输入数据中样本类别和属性集之间的联系，预测未知样本的类别。训练算法的主要目标是建立具有好的泛化能力的模型，该模型能够准确地预测未知样本的类别。

1．数据挖掘概述

数据挖掘又称数据库中的知识发现，是目前人工智能和数据库领域研究的热点问题，所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程，它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分析企业的数据，做出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，做出正确的决策。

数据挖掘是通过分析每个数据，从大量数据中寻找其规律的技术，主要有数据准备、规律寻找和规律表示3个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集；规律寻找是用某种方法将数据集所含的规律找出来；规律表示是尽可能以用户可理解的方式（如可视化）将找出的规律表示出来。

分类技术是数据挖掘中应用领域极其广泛的重要技术之一。各种分类算法有其自身的优劣，适合于不同的领域。目前随着新技术和新领域的不断出现，对分类方法提出了新的要求。

2．数据挖掘分类算法介绍

分类是用于识别什么样的事务属于哪一类的方法，可用于分类的算法有决策树、关联规则、神经网络、支持向量机和贝叶斯、k－临近法、遗传算法、粗糙集以及模糊逻辑技术等。下面对若干分类问题进行简要分析。

2．1基于决策树的分类

基于决策树的分类算法是数据挖掘中最为典型的分类算法。决策树是一个类似于流程图的树结构，其每个内部节点表示在一个属性上的测试，每个分枝代表一个测试输出，每个叶节点代表类或类分布。

2．1．1决策树算法基本思想。开始时所有的训练样本在根部，基于最高信息增益自顶向下递归地划分数据集，生成决策树。当一个结点上所有样本都属于同一类或者没有剩余属性可以用来进一步划分样本时停止划分，形成一个叶结点。如果叶结点上的样本不属于同一类，则根据大多数样本的分类来确定叶结点的类别。

创建决策树时，因数据中存在噪声和孤立点，许多分枝反映的是训练数据集中的异常。剪枝方法可以剪去不可靠的分枝，提高分类速度和分类的准确度。常用的剪枝方法有：先剪枝和后剪枝。前者通过提前停止树的构造而对树剪枝；后者在完全创建好的树上剪去分枝。

2．1．2典型的决策树算法。最为典型的决策树学习算法是ID3，它采用自顶向下不回溯策略，能保证找到一个简单的树。算法c4．5和c5．0是ID3的扩展，它们将分类领域从类别属性扩展到数值型属性。

在决策树中，从根到树叶的每条路径以IF—THEN形式表示一条分类规则，沿着给定路径上的每个属性一值对形成规则前件的一个合取项，叶结点包含类预测，形成规则后件。

2．1．3优缺点。决策树很擅长处理非数值型数据，从决策树中可以方便地提取分类规则。其主要优点是描述简单，分类速度快，特别适合大规模的数据处理。不足之处是ID3算法偏向于选择属性较多的属性，而属性较多的属性往往不是最优的属性：学习简单的逻辑表达能力较差。