数据挖掘技术的研究现状及发展方向_陈娜

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘技术的研究现状及发展方向

陈娜1.2

(1.北京交通大学计算机学院,北京100044;2.石家庄铁路运输学校,河北石家庄050021)

!"

电脑与信息技术卷

!

)可视化技术

"

通过直观的图形方式将

信息数据、关联关系以及发展趋势呈现给决策者,

使用最多的方法是直方图、数据立方体、散点图。

其中数据立方体可以通过

#$%&

操作将更多用户

关心的信息反映给用户。

)遗传算法

(

是一种模拟生物进化过程

的算法,最早由

)*++,-.

/0

世纪

(0

年代提出。

它是基于群体的、具有随机和定向搜索特征的迭

代过程,包括

! 种典型的算子:遗传、交叉、变异和

自然选择。遗传算法作用于一个由问题的多个潜

在解(个体)组成的群体上,并且群体中的每个个体都由一个编码表示,同时个体均需依据问题的

目标函数而被赋予一个适应值。另外,为了应用遗传算法,还需要把数据挖掘任务表达为一种搜索

的问题,以便发挥遗传算法的优势搜索能力。同时可以用遗传算法中的交叉、变异完成数据挖掘中

用于异常数据的处理。

")统计学方法

1

在数据库字段项之间存

在着两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定关系)。对它们的分析采用如下方

法:回归分析、相关分析、主成分分析。主要用于数据挖据的聚类方法中。

()模糊集(23445 678)方法利用模糊集理

论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。模糊性是客观存在的。系统的复杂性越高,精确化能力就越低,即模糊性就越强,这是

9,.7: 总结出的互克性原理。

/ 数据挖掘的算法

;)关联规则中的算法

%<=>*=>算法是一种最具有影响力的挖掘布

尔关联规则频繁项集的算法,该算法是一种称为

主层搜索的迭代方法,它分为两个步骤:

,?通过多趟扫描数据库求解出频繁;@项集的

集合

$

;

A?不断的寻找到/@项集$

/

-@项集$

-

,最后

利用频繁项集生成规则。

随后的许多算法都沿用

%<=>*=>中“频繁项集

的子集必为频繁项集”的思想,在频繁项集

$

B@;

进行

C*>- 运算构成潜在B 项集D

B

。由于数据库和

D

B

的规模较大,需要相当大的计算量才能生成频

繁项集。

一旦由数据库

E

中的事物找出频繁项集,由

它们产生强关联规则是直截了当的(强关联规则满足最小支持度和最小置信度)。对于置信度,可以用下式,其中条件概率用项集支持度计数表示。F*-G>.7-F7

%HIJ

H&

%KJ

H

63<<*=8LF*3-(8%!J)

63<<*=8LF*3-(8%)

其中,

63<<*=8LF*3-(8%!J)是包含项集%!J

的事务数,

63<<*=8LF*3-8

%

)是包含项集

%

的事务

数,关联规则可以表示如下:

·对于每个频繁项集

+,产生+ 的所有非空子

集。

·对于

+ 的每个非空子集6,如果

63<<*=8LF*3-8

%!J

63<<*=8LF*3-(8%)

"M>-LF*-G,则输出“6HI(+@

6)”,其中M>-LF*-G 是最小置信度阈值。

由于规则由频繁项集产生,每个规则都自动

满足最小支持度。频繁项集连同它们的支持度预

先存放在列表中,使得他们可以快速地被访问。

/)分类规则中的算法

决策树是一种常用于分类、预测模型的算法,

它通过将大量数据有目的的分类,从而找到一些

有价值的、潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。最有影响和最早的决策树方法是由

N3>-+,- 提出的

著名的基于信息熵的

OEP 算法。它的主要问题是:

OEP 是非递增学习算法;OEP 决策树是单变量决策树,复杂概念的表达困难;同性间的相互关系强调不够;抗噪性差。针对上述问题,出现了许多较好的改进算法,如

QF:+>MM7= 和2>6:7= 设计了OE!

递增式学习算法;钟鸣,陈文伟等提出了

OJ$R 算

法等。图

/ 是顾客是否购买计算机的判定树。

沿着由根节点到树叶节点的路径,图

/ 的判

定树可以转化为

O2LS)RT 分类规则。其规则如

/

概念

A356LF*M<387=

的判定树

D=7.>8L=,8>-U?

T*V76

RWF7++7-82,>+

Q83.7-8

T*V76

相关文档
最新文档