模糊数据挖掘_严小卫
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文章编号:1000-1220(2001)04-0504-03
收稿日期:2000-03-01 基金项目:广西“十百千人才工程”专项资金和广西自然科学基金(0007008)资助 作者简介:严小卫,教授,主要研究领域为数据库技术.蒋运承,硕士,主要研究领域为人工智能.
模糊数据挖掘
严小卫 蒋运承
(广西师范大学计算机科学系 广西桂林541004)
摘 要:本文在数据库中知识发现(KDD )和数据挖掘(DM )技术的基础上,提出了模糊数据库中知识发现(K D FD )和模糊数据挖掘(FDM )的概念与技术,并给出FDM 的算法,它能有效地挖掘出模糊数据库中潜在的有价值的知识.本文
具体讨论了模糊关联规则及模糊数据依赖的挖掘.关键词:数据挖掘;数据库中知识发现;模糊数据处理分类号:T P 391 文献标识码:A
1 引 言
随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增加.但目前数据库系统中数据的开发应用主要是在于数据的检索和查询.而蕴藏在数据库中丰富的、有价值的信息远远没有得到充分的挖掘和利用,为了提取这些隐含的、事先未知的、潜在有用的信息,以满足人们实际工作中的需要,数据库中的知识发现即K DD (Know ledg e Discov ery in Data base )技术逐渐发展起来.目前,模糊数据库的研究取得了很大进展,已逐步投入实际应用.如美国和日本已把模糊数据库用于能源决策、医疗会诊等许多领域,显示了其重要的实用价值.如何快速、方便、有效地查询和分析模糊数据库中大量的模糊数据以发现潜在的、有价值的和人们感兴趣的信息是模糊数据库应用中的一大难题.本文提出了K DFD (K no wledg e Discov ery in Fuzzy Da ta base )概念和技术,并给出了模糊数据挖掘FDM (Fuzzy Da ta M ining )的算法,它能有效地从模糊数据库中挖掘出有价值的、人们感兴趣的知识.
2 相关的KDD 技术
定义2.1给定一个事实(数据)集F,以及一个语言L,一个模式S 就是L 中的一个陈述,用来描述F 的一个子集F s 中的关系,并使得S 要易于对F s 中所有事实的简单枚举.
我们对KD D 定义如下.定义 2.2K DD 是从大量数据中提取新颖的、有效的、可信的、并能被人们理解的模式的处理过程,这种处理过程是非平凡的过程.
KDD 的核心是那些用来发现各种各样的模式或规则的算法.而在获取有用的知识的整个问题中,对模式或规则的推理仅仅只是一小部分.K DD 应该是一个多步骤的处理过程,在处理过程中可能会有很多次反复.大致来说,KD D 主要包括以下一些处理步骤.
(1)数据准备;(2)数据挖掘DM ;
(3)结果表达和知识评价.
可见,DM 是K DD 中最重要的一个步骤.它主要是利用某些特定的知识发现算法,在一定的运算效率的限制内,从大量数据中发现出有关的知识.
最常用的DM 技术有:规则归纳、人工神经网络、遗传算法、决策树、最近邻技术、可视化技术等等.本文采用规则归纳技术,即通过统计方法来归纳、提取有价值的If-the n 规则.规则归纳的技术在数据挖掘中被广泛使用,例如关联规则的挖掘等.
DM 的目的就是要发现人们感兴趣的知识.而要提取人们感兴趣的知识,其主要任务就是找出数据中经常发生的模式,然后从这些模式中发现人们感兴趣的知识.从而DM 的任务可描述为下面两个步骤:
(1)DM (p )={p ∈Q |p 在Q 中经常发生},其中Q 为模式集合,它描述了数据的某些性质.
(2)在DM (p )中挖掘出人们感兴趣的知识.
3 模糊数据库中的知识发现
与KD D 类似,我们可以把模糊数据库中的知识发现即K DFD 定义为:从大量模糊数据中提取新颖的、有效的、带信度的、并能被人们所理解的模糊模式的处理过程.这种处理过程是非平凡的过程.其中模糊模式是指带可信度的模式.
K DFD 也是一个多步骤的处理过程,主要包括以下步骤:(1)模糊数据准备.选择模糊数的表示方法,确定模糊数据的可信度及模糊模式的可信度的计算方法,检查数据的完整性,对丢失的数据可以利用统计方法进行填补.说明K DFD 过程的有关数据及必要的背景知识.
(2)模糊数据挖掘FDM.选择模糊模式的发现方法,说明要发现哪一种知识及有关参数的选择,运用选定的知识发现算法,从数据中提出有价值的、用户感兴趣的、带信度的知
第22卷第4期 2001年4月
小型微型计算机系统M IN I -M ICRO SY ST EM V o l.22No.4 Apr .2001
识.
(3)结果表达和知识评价.根据用户的目的对发现的知识进行分析,并以用户能了解的方式呈现给用户.这期间也包括对知识的信度进行修正,以确保本次发现的知识的信度与以前发现的知识的信度不相抵触.
下面,给出模糊数据的有关概念.
定义3.1设X是一个模糊数据,用二元组X=(c,b)表示,其中c为X的内容,b为X中所有模糊词的量化词,且b ∈〔0,1〕.
例如,X表示“很可能买苹果”,用二元组表示为:X=(买苹果,0.90).
定义3.2设X=(c,b)是一个模糊数据,给定α∈〔0,1〕,如果b>α,则称X为α-发生,其中α由专家给定.
定义3.3设模糊数据X=(c,b)为α-发生,则X为α-发生的可信度Belief(X)定义为:
Belief(X)= b.
定义 3.4设X1=(c1,b1),X2=(c2,b2),…,X n=(c n, b n)是n个模糊数据,给定(∈〔0,1〕,如果min{b1,b2,…, b n}>α,则称X1X2…X n为α-发生,其α-发生的可信度Be-lief(X1X2…X n)=min{b1,b2,…,b\-n}.其中α由专家给定.
要从大量模糊数据中提取人们感兴趣的、带信度的知识,本质上就是要找出数据中经常α-发生的、带可信度的模糊模式,然后从这些模糊模式中发现人们感兴趣的、带信度的知识.也就是说,FDM分为两个步骤:
(1)求F DM1(p1)={p1∈Q|p1在Q中经常α-发生,并且给p1确定了一个可信度}.其中Q为模糊模式的集合,它描述了模糊数据的某些模糊性质.
(2)求FDM2(p)={p∈FDM1(p1)|p为从FDM1(p1)中提取的、人们感兴趣的、带信度的知识}.
对于求FDM1(p),我们给出以下查找经常α-发生的模糊模式的算法F FF P(Find-f requent-fuzzy-pa tterns).
算法FF FP:(假设模糊模式集合Q中定义了序<,即(Q,<)为有序集)
(1)把Q中所有最小的模糊模式放入C中,即:
C={p∈Q|不存在q∈Q使得q
(2)F=
(3)W hile C≠ do
(4) Begin
(5) 对每一个p∈C,判断p是否经常α-发生
(6) K={p∈C|p经常α-发生,且p带一个可信度}
(7) F=F∪K
(8) C={p∈Q|任意的q∈Q,对满足q
糊模式都已计算,并且Prune(P,1)
K}
(9) End
(10)FDM1(p)=F
(11)输出FDM1(p)
(12)End
其中函数Prune(P,1)表示从P中删去任意一个单位模式后所得到的所有模糊模式的集合.例如:设P=ABC,则Prune(P,1)={AB,AC,BC}.
对于求FDM2(p),所谓令人感兴趣的知识要因人而异,不同的用户有不同的要求,如有的用户想挖掘模糊关联规则,有的用户想进行模糊聚类等等.很显然,由于要求不同,所采用的算法也不同.
下面以模糊数据库中模糊关联规则及模糊数据的模糊依赖关系的挖掘为例来说明FDM算法的应用.
4 模糊关联规则FAR的挖掘
F A R(Fuzzy Asso ciatio n Rule)表示模糊数据库中一组对象之间某种模糊关联关系的规则,也就是指具有一定信度的关联关系的规则.例如“从一个模糊对象能以0.95的信度推出另一个模糊对象”就是一条F A R.
设R={A,B,C,…,D}是一个模糊数据库模式,r是R 上的一个模糊关系,对于r中的每一个属性值都用定义 2.1的方法表示,精确数据也表示成模糊数的形式,如“买苹果”可表示为:(买苹果, 1.0).
定义 4.1设W是R的子集,r是R中的一个模糊关系, W在r上α-发生的次数为K,则W在r上的α-支持被定义为:
α-Suppo rt(W,r)=K/r的总元组数.
定义 4.2对于r,给定一个最小的α-支持,设为α-min-sup,如果
α-Suppo rt(W,r)>α-minsup,
则称W在r中经常发生.
下面,给出挖掘F A R的第一步,即找出R中经常α-发生的模糊模式的算法,我们称之为M FA R1算法.
算法M F AR1:
(1)C={{A}|A∈R}
(2)F=
(3)i=1
(4)While C≠
(5) Begin
(6) F’={X|X∈C且X经常α-发生,并对X置可信
度}
(7) F=F∪F’
(8) C={Y|Prune(P,1)F’,size(Y)=i+1,且满
足:若对任意的W Y,size(W)=i,则W经
常α-发生}
(9) i=i+1
(10) End
(11)输出F
(12)End
其中函数size(X)表示计算模糊模式X的大小,如size(A)的值为1,size(ABD)的值为 3.
下面再给出如何从F中挖掘出FA R的算法,即M F AR2算法.首先定义几个概念.
定义4.3设X是模糊关系r中的一模糊模式,m为r的总元组数,τi为r中的元组,i=1,2,…,m.τi(X)表示模糊模式X在元组τi上的值,如果τi(X)α-发生的次数为k(k≤m),则模糊模式X的可信度定义为:
Belief(X)=(Belief(τ1(X))+Belief(τ2(X))+…+Belief (τm(X)))/k.
定义4.4模糊关系r中的模糊关联规则X→Y的可信度定义为:
505
4期 严小卫等:模糊数据挖掘