数据挖掘的最新发展技术

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据挖掘技术

引言

面对如今海量数据库，人们感到“数据爆炸”，但“知识贫乏”。数据挖掘技术的出现正是解决了这一问题，能在“数据矿山”中找到蕴藏的“知识金块”，帮助企业减少不必要投资的同时提高资金回报。世界范围内具有创新性的公司都开始采用数据挖掘技术来判断哪些是他们的最有价值客户、重新制定他们的产品推广策略，以最小的花费得到最好的销售。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。本文就数据挖掘的常用技术和过程进行了研究。

1数据挖掘的定义

数据挖掘（Data Mining），也称数据库中的知识发现（KDD：Knowledge Discovery in Database），是指从大型数据库或数据仓库中提取人们感兴趣的知识，这些知识是隐含的、事前未知的潜在有用信息，提取的知识一般可表示为概念（Concepts）、规则（Rules）、规律（Regularities）、模式（Patterns）等形式[1]。

数据挖掘研究具有广泛的应用前景，因为数据挖掘产生的知识可以用于决策支持、信息管理、科学研究等许多领域。Parsaye把决策支持空间从应用层次上分成数据空间（Data Space）、聚合空间（Aggregation Space）、影响空间（Influence Space）和变化空间（Variation Space）等4个子空间[2]

其中，数据空间是用于处理基于关键字的决策查询，其最典型的是联机事务处理（OLTP）；而对数据空间中数据元素进行聚合运算所形成的空间就是聚合空

间，它主要用于联机分析处理（OLAP）；影响空间则用于处理逻辑性质的决策支持。变化空间负责回答某种变化过程和速度问题，在上述4个空间中，数据挖掘处于影响空间中，从中可以看出数据挖掘在决策支持中所处的重要地位。

2数据挖掘技术的分类

数据挖掘技术按照知识的种类可分为：有关联规则挖掘、分类规则挖掘、特征规则挖掘、离群数据挖掘、聚类分析、数据总结、趋势分析、偏差分析、回归分析、序列模式分析等；

根据挖掘的数据库种类分类有关系型、事务型、面向对象型、时间型、空间型、文本型、多媒体型、主动型和异构数据库等；

根据采用的技术分类，最常用的数据挖掘技术有如下7种：

（1）规则归纳：通过统计方法归纳、提取有价值的if-then规则；

（2）决策树方法[3]：即用树形结构表示决策集合，这些决策集合是通过对数据集的分类来产生规则。决策树方法是首先利用信息熵来寻找数据

库中具有最大信息量的字段，从而建立决策树的一个结点，再根据字

段的不同取值来建立数的分支；然后在每个分支子集中，重复建立数

的下层结点和分支。

（3）人工神经网络：这种方法主要是模拟人脑神经元结构，也是一种通过训练来学习的非线性预测模型，它可以完成分类、聚类、特征规则等

多种数据挖掘人物，同时它又以MP模型和HEBB学习规则为基础，

来建立前馈式网络、反馈式网络、自组织网络3类神经网络模型；

（4）遗传算法[4]：这是一种模拟生物进化过程的算法。它是基于群体的、具有随机和定向搜索特征的迭代过程，这些过程有基因组合、交叉、

变异和自然选择4中典型算子。遗传算法作用于一个由问题的多个潜

在解组成的群体上，并且群体中的每个个体都由一个编码表示，同时

每个个体均需依据问题的目标函数而被赋予一个适应值，另外，为了

应用遗传算法，还需要把数据挖掘任务表达为一种搜索的问题，以便

发挥遗传算法的优势搜索能力。

（5）模糊技术[5]:即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。这种模糊性是客观存在的，且系统的

复杂性越高，模糊性越强。

（6）粗（Rough）集方法[6]:它是1982年由波兰逻辑学家Pawlak提出的一种全新的数据分析方法，近年来在机器学习和KDD等领域获得了广

泛的重视和应用。这种粗集方法是一种研究信息系统中不确定、不精

确问题的有效手段，其基本原理是基于等价类的思想，而这种等价类

中的元素在粗集中被视为不可区分的，其基本方法是首先用粗集近似

的方法来将信息系统中的属性值进行离散化，然后对每一个属性划分

等价类，再利用集合的等价关系进行信息系统的约简；最后得到一个

最小的决策关系，从而便于获得规则。

（7）可视化技术[7]:即采用直观的图形方式来将信息模式、数据的关联或趋势呈现给决策者，这样决策者就可以通过可视化技术来交互地分析数

据关系，而可视化技术主要包括数据、模型和过程3方面的可视化，

其中，数据可视化主要有直方图、盒须图和散点图；模型可视化的具

体方法则与数据挖掘采用的算法有关。

3数据挖掘的过程

KDD的整个过程包括在指定的数据库中用数据挖掘算法提取模型，以及围绕数据挖掘所进行的预处理和结果表达等一系列的步骤，是一个需要经过反复的多次处理的过程。整个知识发现过程是由若干挖掘步骤组成的，而数据挖掘仅是其中的一个主要步骤。整个知识发现的主要步骤有以下几点。

（1）目标定义阶段：要求定义出明确的数据挖掘目标。目标定义是否适度将影响到数据挖掘的成败，因此往往需要具有数据挖掘经验的技术人员和具有

应用领域知识的专家以及最终用户紧密协作，一方面明确实际工作中对数

据挖掘的要求，另一方面通过对各种学习算法的对比进而确定可用的算法。（2）数据准备阶段：数据准备在整个数据挖掘过程中占得比例最大，通常达到60%左右。这个阶段又可以进一步划分为三个子步骤：数据选择

（DataSelection），数据预处理（DataProcessing）和数据变换（Data

Transformation）。数据选择主要指从已存在的数据库或数据仓库中提取相

关数据，形成目标数据（Target Data）。数据预处理对提取的数据进行处

理，使之符合数据挖掘的要求。数据变换的主要目的是精减数据维数，即