数据挖掘常用技术

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第二章数据挖掘常用技术

7

数据挖掘是涉及了机器学习,统计学,人工智能,数据仓库等多门学科知识的

新兴交叉学科。也正是因为这样使得数据挖掘的研究渗透在多个学科,从而使得

数据挖掘的方法在不同的理论背景下出现了多种形式,多种研究途径。数据挖掘

技术的发展是数据驱动的,针对不同的数据产生了很多数据挖掘的方法,同时也

要知道大多数的算法都不是专门为解决某个特定问题而设计的,不同算法彼此之

间也不相互排斥,在进行实际应该的过程中应根据数据自身的特点与业务的具体

问题选择合适的数据挖掘算法,进而得到较好的挖掘效果,在不能确定挖掘算法

之前也可以采取抽样数据然后用各种算法尝试的方法来选择相对较好的算法,算

法的好坏不是以其使用范围和效果而言,而是针对不同的问题有不同的评判标准。下面对常见的并且应用性很好的数据挖掘技术进行简要介绍。

(1)决策树

决策树是一种方法简单而又应用广泛的分类技术。它是一种分类函数逼近手段,

是从机器学习的方面改进而来的。决策树算法的好处在于算法易于理解,但是其

缺点在于每个分支的判定条件过于严格毫不含糊,这样在实际应用中可能会带来

一定的麻烦。近年来随着研究的深入决策算法有了很多进步产生很高效的算法。(2)神经网络方法

神经网络来源于神经生物学和生理学中有关神经细胞计算本质的研究工作。有

很多种不同的神经网络,可以给不同的学习目的提供应用。前馈神经网络是一种

常见的用于分类的算法。

神经网络有很好的抗噪音的能力,并且针对未知数据也一样有很好的预测分类

能力,有很高的分类精准度。不过,训练过程一般比较长是神经网络的一大缺点。另外,神经网络算法所得到的结果可解释性很差,差不多相当于黑盒。

(3)统计分析方法

经典统计学中的重点内容包括回归分析,假设检验,方差分析等。而相关的统

计学的中的很多知识也都会在数据挖掘中被用到。在使用数据挖掘技术来解决相

关问题之前有时也会用统计方法尝试着解决问题,甚至在数据预处理过程中也会

用到统计方法。

(4)遗传算法

遗传算法(genetic algorithm,又称GA),该算法试图通过计算机模仿自然选择

的过程,并将他们运用到解决商业和研究问题。遗传算法是在遗传和生物进化的

思想之下而开展的,所以他有许多传统算法所以不具备的优点。

(5)关联挖掘电子科技大学硕士学位论文

6

概括起来数据挖掘的一般步骤可以用如下图示来表达

图2-1 数据挖掘基本步骤图

从数据挖掘所使用的技术的方面来理解的话,数据挖掘的过程可以有如下几步:

初始数据的获得及分析,数据抽样和数据清理,数据挖掘技术,样本集,数据的

转换,数据仓库技术,知识。本步骤的要点是对数据的预处理的优化,省掉了实

际商业应用时所需要的很多步骤。图2-2 展示了如何从初始数据出发,从中得到有用的模式,进而得到有用的知识。用于数据挖掘的工具越优秀,从一个步骤转到

另一个步骤就越简单、越自动化。

图2-2 数据挖掘的技术过程图

在具体应用的过程之中,需要经常反复执行某一些数据挖掘的步骤。并且,以上四步的分界线经常区分不明显,例如,数据转换及预处理同时又可以当作一种线索关系的提取。因而指明数据挖掘常做的工作就是如此的划分目的

[2]

2.1.3 数据挖掘常用方法

原始数据

样本集

数据仓库

知识

抽样、清理

转换

挖掘

原始数据

业务理解

数据理解数据预处理

建模

评估

部署第二章数据挖掘常用技术

5

绍一下各个步骤

[4]

(1)业务理解

在进行数据挖掘之前要了解所挖掘的行业背景,了解行业知识,进而知道数据挖掘的目标以及衡量挖掘成功的标准,同时也要了解数据挖掘在相关行业下的资源以及风险。在了解了上述相关行业知识之后,把挖掘的任务转换成数据挖掘的问题,同时定下挖掘目标和挖掘成功的标准。最后得到初期的项目计划。

(2)数据理解

在完成了业务目标以后,接着的任务就应该是收集数据。收集数据之后要对数据开展研究分析,以了解数据的结构以及数据的质量。若是此步骤数据的获得有困难或者得不到满意的数据,就应该重新回到业务理解步骤,分析是否业务理解出了问题。

(3)数据预处理

此步骤的目的是得到最终使用的数据集。数据预处理的过程一般开销比较大,无论从工作量还是时间方面来讲。这一过程主要包括噪声数据的清洗,数据的相关选择,以及数据属性的合成和数据集的合并,还有数据的规范化等等。在实际应该过程之中还包括很多数据预处理有关处理方法及过程。

(4)建模

在经过数据预处理得到使用数据之后,就要根据数据的特点及应用的性质建立合适的模型算法以及给相关算法设置参数值。在实际的应用中,同一个数据挖掘业务可能候选的挖掘算法不止一种,但是每一种算法都会所要进行挖掘的数据有一定特殊的要求,因此进行建模的时候要考虑上一步骤所得到的数据的特点来选用适当的聚类分析算法。有时候也会回溯到上一步骤重新进行数据的预处理,进

而得到适合目标算法的数据。

(5)评估

在完成了建模之后就要对所得的模型结果进行评估。由于应用类型的不一样使

得评估的具体方法也有差别,通常可以针对小型市场进行调研,进而验证实际数

据。如果此步骤的评价结果不符合要求,就要回到建模步骤,甚至重新开始以上

的所有步骤。如果结果理想就可以继续下一步了。

(6)部署

一般情况下完成了模型的挖掘并不代表挖掘任务的完成,而是会进一步把结果

应用到实际的业务之中,然后根据实际反馈回来的应用结果,来验证模型的质量

以及展开进一步改进的工作。4

第二章据挖掘常用技术

2.1 数据挖掘基础知识

通过数据挖掘可得到多种知识,而这些知识最终可以应用到多个方面,包括给

相关组织和个人提供决策支持。在一般情况下用户并不了解大量的数据中蕴藏了

哪些有意义有价值的信息,所以,对数据挖掘系统来说,应该同时能够搜索发现

多种形式的信息知识,进而满足用户的实际要求和期望。

数据挖掘(Data Mining,或称DM)是将隐藏在海量数据中的有意义有价值的

规律的发掘出来的过程。又称为数据库中的知识发现(Knowledge Discovery from Database,简称KDD)

[2]

。其主要有三个特点。(1)海量数据。(2)未知的有价值

的规律。数据挖掘所发现的规律,应该是有用的并且不应该是显而易见的,应该

是对不同的任务来说有意义的、隐藏的规律。(3)数据挖掘是一个过程。他需要

数据理解、业务理解、数据准备、评估、建模、部署等一系列步骤,数据挖掘人

员的业务能力和分析能力对成功有重要的影响

[1]

2.1.1 数据挖掘主要任务

数据挖掘的主要有任务有两点:描述型和分类预测型的任务

[3]

描述型的任务是指通过数据库数据的自身内部联系,从而得到数据库中数据关

系或者数据库的概要描述。

分类预测型的任务是指通过现有的已经知道的分类的数据学习模型以及类的

标签的区别,称作为预测型和分类型。

2.1.2 数据挖掘的过程

数据挖掘不是一个公式也不是一个机器只需把数据输入就会得到预期的结果。

数据挖掘是包含了很多步骤的一个复杂过程,其各个步骤之间需要不断的重复已

达到精确的结果。通常来讲,数据挖掘的主要过程分为业务理解,数据理解,数

据预处理,建立模型,结果评估,部署等多个步骤。这些步骤彼此之间先后关系

也没有严格的定义,实际应该过程中很多步骤之间经常会不断重复。下面具体介电子科技大学硕士学位论文

8

关联挖掘就是在海量的数据中迅速找出各个数据对象之间潜在的有价值有意

相关文档
最新文档