不完备信息系统中集对粗糙集模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
收稿日期:2008-01-21;修回日期:2008-03-26。 基金项目:国家自然科学基金委员会与中国民用航空总局联合资助项目(60672178);中国民航大学博士启动基金资助项目(05QD02S )。 作者简介:陶志(1963-),男,辽宁沈阳人,教授,博士,主要研究方向:复杂系统建模、智能化建模、软计算方法、粗糙集、智能决策支持系统;戴慧君(1982-)女,硕士研究生,主要研究方向:智能化建模、粗糙集; 张艳(1983-),男,主要研究方向:数据挖掘、算法分析与设计。
文章编号:1001-9081(2008)07-1684-02
不完备信息系统中集对粗糙集模型
陶 志,戴慧君,张 艳
(中国民航大学理学院,天津300300)
(t86543213@ )
摘 要:粗糙集理论在数据挖掘中的成功应用已成为近来人工智能领域研究的热点,人们将经典粗糙集中的等
价关系放宽后使粗糙集理论的运用更加广泛,但在不完备信息系统中的运用仍受到限制。在已有的集对粗糙集模型的基础上,提出了针对不完备系统更加有效的集对粗糙集模型,通过实例说明了这种模型的可行性和有效性,使粗糙集模型在一定程度上得到了推广。
关键词:不完备信息系统;集对分析;粗糙集中图分类号:TP311.131 文献标志码:A
Rough set m odel ba sed on set pa i r ana lysis i n i n co m plete i n forma ti on system
T AO Zhi,DA I Hui 2jun,Z HANG Yan
(Science College,C ivil A viation U niversity of China,Tianjin 300300,China )
Abstract:Rough set theory has become a focus subject because of its successful app licati ons t o data m ining .Equivalent relati on in the classical r ough setwas relaxed t o the app licati on of the r ough set theory widely,but it is restricted in incomp lete syste m s .I n this paper,we put the more effective r ough set model based on set pair analysis of the existing model .Thr ough a case study,it is verified that the model is more feasible and effective,and r ough set theory is extended in s ome way .
Key words:incomp lete inf or mati on syste m;set pair analysis;r ough set
0 引言
经典粗糙集理论[1]在知识获取方面取得了很大的成功。
但遗憾的是,它基于完备信息系统这样一个假设,即所处理的信息是完备的,每个样本对象的所有属性值都是已知的。而在现实生活中,由于数据测量的误差、对数据理解或获取的限制等原因,使得在数据获取时往往面临的是不完备信息系统,即可能存在部分对象的一些属性值未知的情况。为了使粗糙集理论能适应于不完备信息系统的处理,目前主要有两类方法:一是间接处理方法,其特点是通过一定的方法(通常是基于概率统计)把不完备信息系统转化为完备信息系统,即数据补齐;二是直接处理方法,其特点是对经典粗糙集理论中的相关概念在不完备信息系统下进行适当扩充[2]。
文献[3]利用集对分析思想建立了针对不完备信息系统的粗糙集模型,在将集对分析思想与粗糙集理论相结合等方面作了具体的分析和应用。但我们发现,该系统在讨论空值较少并且对属性的精度要求较高的信息系统中效果欠佳,其上、下近似关系的性质也不甚完善。
本文在文献[3]的基础上,综合考虑了空值的重要性和对立值对相似度的影响,从而使相似度更高,分类更加精确,克服了文献[3]对要求精度较高的信息系统分类不够准确的缺点。
1 集对联系度的定义
集对分析(Set Pair Analysis,SP A )是我国学者赵克勤于
1989年正式提出用于研究两个集合互相关系的理论,其核心思想是把被研究的客观事物的确定性联系和不确定性联系作
为一个确定不确定系统来分析和处理[3,4]。
定义1 给定两个集合A 和B ,并设这两个集合组成集对H =(A,B ),在某个具体的问题背景(W )下,集对H 有n 个特性,其中:有s 个为集对H 中A 和B 所共有,f 个为A 和B 既不共有也不对立,P 个为A 和B 所对立。则称比值:
s
n
为A 和B 在问题W 下的同一度;f
n
为A 和B 在问题W 下的差异度;p
n
为A 和B 在问题W 下的对立度。并用u (A,B )=
s n +f n i +p n
j 表示A 和B 的关系,u 亦称为A 和B 在W 下的联系度,简记为u (A,B )=a +bi +cj 。
其中i 为差异不确定系数,j 为对立度系数,这里i 、j 仅起差异标记作用。显然0≤a,b,c ≤1且a +b +c =1[3-4]。
2 基于集对联系度的粗集模型
定义2 四元数组S =(U,A =C ∪D,V,f )称为一个信息系统,其中U 是表示对象的非空有限集合,称为论域;A =C ∪D 是表示属性的非空有限集合,C 称为条件属性集合,D 表示决策属性集合,且C ∩D = ;V =
∪
a ∈A
V a
,V a
表示属性a 的值域;f 表示U ×A →V 的一个信息函数,它为每个对象在每个属性上赋予一个信息值,即Πa ∈A,x ∈U,f (x,a )∈
V a 。
若D = ,则称信息系统为数据表,否则称为决策表,若存在一个x ∈U,a ∈C,f (x,a )未知(记作f (x,a )=3),则称信息系统为不完备的,否则称信息系统是完备的。
第28卷第7期
2008年7月
计算机应用
Computer App licati ons
Vol .28No .7
July 2008