数据挖掘技术的研究现状及发展方向_陈娜
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘技术的研究现状及发展方向
陈娜1.2
(1.北京交通大学计算机学院,北京100044;2.石家庄铁路运输学校,河北石家庄050021)
第
!"
电脑与信息技术卷
(
!
)可视化技术
[
"
]
通过直观的图形方式将
信息数据、关联关系以及发展趋势呈现给决策者,
使用最多的方法是直方图、数据立方体、散点图。
其中数据立方体可以通过
#$%&
操作将更多用户
关心的信息反映给用户。
(
’
)遗传算法
[
(
]
是一种模拟生物进化过程
的算法,最早由
)*++,-.
于
/0
世纪
(0
年代提出。
它是基于群体的、具有随机和定向搜索特征的迭
代过程,包括
! 种典型的算子:遗传、交叉、变异和
自然选择。遗传算法作用于一个由问题的多个潜
在解(个体)组成的群体上,并且群体中的每个个体都由一个编码表示,同时个体均需依据问题的
目标函数而被赋予一个适应值。另外,为了应用遗传算法,还需要把数据挖掘任务表达为一种搜索
的问题,以便发挥遗传算法的优势搜索能力。同时可以用遗传算法中的交叉、变异完成数据挖掘中
用于异常数据的处理。
(
")统计学方法
[
1
]
在数据库字段项之间存
在着两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定关系)。对它们的分析采用如下方
法:回归分析、相关分析、主成分分析。主要用于数据挖据的聚类方法中。
(
()模糊集(23445 678)方法利用模糊集理
论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。模糊性是客观存在的。系统的复杂性越高,精确化能力就越低,即模糊性就越强,这是
9,.7: 总结出的互克性原理。
/ 数据挖掘的算法
(
;)关联规则中的算法
%<=>*=>算法是一种最具有影响力的挖掘布
尔关联规则频繁项集的算法,该算法是一种称为
主层搜索的迭代方法,它分为两个步骤:
,?通过多趟扫描数据库求解出频繁;@项集的
集合
$
;
;
A?不断的寻找到/@项集$
/
…
-@项集$
-
,最后
利用频繁项集生成规则。
随后的许多算法都沿用
%<=>*=>中“频繁项集
的子集必为频繁项集”的思想,在频繁项集
$
B@;
上
进行
C*>- 运算构成潜在B 项集D
B
。由于数据库和
D
B
的规模较大,需要相当大的计算量才能生成频
繁项集。
一旦由数据库
E
中的事物找出频繁项集,由
它们产生强关联规则是直截了当的(强关联规则满足最小支持度和最小置信度)。对于置信度,可以用下式,其中条件概率用项集支持度计数表示。F*-G>.7-F7
(
%HIJ
)
H&
(
%KJ
)
H
63<<*=8LF*3-(8%!J)
63<<*=8LF*3-(8%)
其中,
63<<*=8LF*3-(8%!J)是包含项集%!J
的事务数,
63<<*=8LF*3-8
(
%
)是包含项集
%
的事务
数,关联规则可以表示如下:
·对于每个频繁项集
+,产生+ 的所有非空子
集。
·对于
+ 的每个非空子集6,如果
63<<*=8LF*3-8
(
%!J
)
63<<*=8LF*3-(8%)
"M>-LF*-G,则输出“6HI(+@
6)”,其中M>-LF*-G 是最小置信度阈值。
由于规则由频繁项集产生,每个规则都自动
满足最小支持度。频繁项集连同它们的支持度预
先存放在列表中,使得他们可以快速地被访问。
(
/)分类规则中的算法
决策树是一种常用于分类、预测模型的算法,
它通过将大量数据有目的的分类,从而找到一些
有价值的、潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。最有影响和最早的决策树方法是由
N3>-+,- 提出的
著名的基于信息熵的
OEP 算法。它的主要问题是:
OEP 是非递增学习算法;OEP 决策树是单变量决策树,复杂概念的表达困难;同性间的相互关系强调不够;抗噪性差。针对上述问题,出现了许多较好的改进算法,如
QF:+>MM7= 和2>6:7= 设计了OE!
递增式学习算法;钟鸣,陈文伟等提出了
OJ$R 算
法等。图
/ 是顾客是否购买计算机的判定树。
沿着由根节点到树叶节点的路径,图
/ 的判
定树可以转化为
O2LS)RT 分类规则。其规则如
图
/
概念
A356LF*M<387=
的判定树
D=7.>8L=,8>-U?
T*V76
RWF7++7-82,>+
Q83.7-8
T*V76