集值信息系统及其属性约简_管延勇

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息系统是经过量化的数据集合, 其主体是论域以及论域中对象的属性. 关于信息系统 有两个主要问题: 一是如何合理地表达其中对象的属性特征, 以便于发现知识; 二是如何从 中发现知识. 目前已有多种信息表达及知识发现的理论, 如决策树方法、贝叶斯方法、聚类分 析、遗传算法与神经网络等. 波兰数学家Paw lak 于1982 年提出的粗糙集理论[1], 在知识发现 与规则提取方面体现出其独特的优势. Paw lak 粗糙集及其拓展模型, 较好地处理了完备信 息系统[2—6 ], 不完备信息系统[7—9 ] 及 Α- R S T 模型[10 ]等信息系统的知识约简及规则提取问 题.
例 2 表 1 所示集值信息系统中的最大相容类及其特征描述, 其中 des (K ) =
x ) , …,

x ∈K
(a5,
x
)
)
:
K 1 = {x 1, x 4}, d es (K 1) = (1, 0, 2, {0, 1}, 2) ;
(∩ x ∈K
(a1,
K 2 = {x 1, x 5, x 7}, d es (K 2) = (1, 1, 2, 1, 1) ;
T A T (x 4) = {x 1, x 4}, T A T (x 5) = {x 1, x 5, x 6, x 7, x 8},
T A T (x 6) = {x 2, x 5, x 6, x 8}, T A T (x 7) = {x 1, x 5, x 7}, T A T (x 8) = {x 5, x 6, x 8}.
间有包含关系, 而且不能保证同一类中的元素具有相同的属性值. 因为 TB (x ) 中的元素都
与 x 相似, 但不一定两两相似.
例 1 在集值信息表 1 中, A T = {a1, a2, a3, a4, a5}, 可计算得
T A T (x 1) = {x 1, x 4, x 5, x 7}, T A T (x 2) = {x 2, x 6}, T A T (x 3) = {x 3},
E T (X ) = ∪ {x ϖ K ∈ CC T (x ) , K ∩ X ≠ <} = ∪ {x T (x ) ∩ X ≠ <}, A T (X ) = ∪ {x Π K ∈ CC T (x ) , K ∩ X ≠ <}. 显然有: A T (X ) Α E T (X ) Α X Α A T (X ) Α E T (X ). 注2 文献[ 9 ]中对不完备系统也采用了最大相容分类的方法, 只不过由于空值的存在, 其最大相容类中的元素只能说是形式上的两两相容, 而事实上可能并不相容.
定义 2 设 (U , A T , V , f ) 为集值信息系统, B Α A T , 令 T B = { (x , y ) Π b ∈ B , b (x ) ∩ b (y ) ≠ <}
显然, T B 为 U 上的相容关系. 下面我们采用最大相容分类, 使“边缘”对象可以同时处在它 所接近的多个类中, 保证分类的合理性, 避免信息丢失.
x8
{0} {0, 1} {0, 1} {2}
{1}
U
a1
a2
a3
a4
a5 d
x 1 {1} {0, 1} {2} {0, 1} {1, 2} 0
x 2 {0, 1} {1, 2} {1} {0} {1} 1
x 3 {2} {0} {0, 1} {1} {0} 1
x 4 {1} {0} {2} {0, 1} {2} 0
则可用无序数组{0Leabharlann Baidu 1}来表示“既食草又食肉”. 又如, 我们观察一群人的血统, 假设纯血统有
0, 1, 2 三种类型, 则其中的混血儿可用无序数组{0, 1}, {1, 3}等来表示.
表 1 集值信息表
表 2 集值决策表
U
a1
a2
a3
a4
a5
x1
{1} {0, 1} {2} {0, 1} {1, 2}
3 最大相容分类
完备信息系统中, 属性集确定的不可分辨关系将论域分成一些等价类, 等价类的特征 为: 不同等价类互不相交且同一个等价类中的元素具有相同的属性特征. 所谓在信息系统中 提取规则, 即是看具有相同条件属性值的对象集有无共同的决策属性, 所以分类的一个基本 准则应是将具有共性的元素分在同一类中.
y T x 不成立, 则称 K 为一个 T 最大相容类.
以 CC T (U ) 记U 上所有最大相容类的集合, 则 CC T (U ) 是U 的一个完全覆盖 (不同的
块之间不相互包含).
最大相容类是能够两两相容的元素的最大集, 最大相容类之间可能相交, 但不可能相互
包含. 任一相容类必可扩展成最大相容类. 最大相容类是 U 上具有某种特性的所有元素的
2期
管延勇, 等: 集值信息系统及其属性约简
103
在多数文献中, 相容关系 T B 对论域U 的分类, 往往采用U T B = {T B (x ) x ∈U }, 其中
T B (x ) = {y y ∈ U , y T B x }. U T B 显然是 U 的一个覆盖, 但这种分类不仅太粗、类多、类之
摘要: 阐明集值信息系统具有知识表达的实际意义; 引入关于相容关系的最大相容分类方法对论域中的 对象分类, 以保证每个相容类中的对象具有共同的属性特征; 讨论集值信息系统的属性约简问题, 利用区分 函数, 给出核及约简的求法. 关键词: 集值信息系统; 最大相容类; 属性约简; 区分函数
1 引 言
收稿日期: 2005204205 基金项目: 国家自然科学基金 (70271048) ; 山东省教育厅科研发展计划 (J 06P01) ; 济南大学博士基金 (B 0616)
102
数 学 的 实 践 与 认 识
38 卷
当A T =
C ∪D , C ∩D =
<,
且f
:U
×D
→ ∪V a∈D
a
为单值映射, 则称
不同等价类之间的无边界性, 反映在实际问题中是对象属性值的唯一性. 而集值信息系 统中, 同一个对象可能同时具有多种属性特征, 如: 一个 35 岁的人可视为具有“中年”与“青 年”两个属性值. 所以, 在集值信息系统中, 不可能象在完备信息系统中那样定义不可分辨关 系来对对象进行分类. 我们引入相容关系.
相容类, 是一种特殊的邻域. 下面给出由最大相容类所定义的两种不同的上下近似算子.
定义 4 设 T 为论域U 上的相容关系, 令
104
数 学 的 实 践 与 认 识
38 卷
E T (X ) = ∪ {x ϖ K ∈ CC T (x ) , K Α X } = ∪ {K K Α X }, A T (X ) = ∪ {x Π K ∈ CC T (x ) , K Α X } = ∪ {x T (x ) Α X },
x 2 {0, 1} {1, 2} {1}
{0}
{1}
x3
{2}
{0} {0, 1} {1}
{0}
x4
{1}
{0}
{2} {0, 1} {2}
x 5 {0, 1} {1} {1, 2} {1, 2} {1}
x6
{0}
{1}
{1} {0, 2} {1, 2}
x7
{1} {0, 1} {0, 2} {1, 2} {0, 1}
注 1 一般地, 若某最大相容类 K 中所有对象关于某个属性无共同的属性值, 如 K =
{y 1, y 2, y 3}, b (y 1) = {0, 1}, b (y 2) = {0, 2}, b (y 3) = {1, 2}, 则 d es (K ) 中 b 位置处的取值可
取 <.
文献[ 11 ]中讨论了一般的邻域算子与近似算子理论. 论域上的相容关系所确定的最大
2 集值信息系统
定义1 集值信息系统是一个四元组 (U , A T , V , f ) , 其中U 为有限非空论域; A T 是属
性集; V
=
∪V
a∈A T
a,V
a
为U
中对象关于A T
中属性 a 的属性值的集合;
f
为U
×A T
到 2V

映射, 亦即 f 为U ×A T 到V 的多值映射. 集值信息系统用表格表示, 称为集值信息表.
集合, 故可称之为相容知识颗粒. Π K ∈ CC T (U ) , 以 d es (K ) 记 K 中所有对象的共同的特
征描述. 令 CC T (x ) = {K K ∈ CC T (U ) , x ∈ K }, 易证下面的结论:
命题 1 T (x ) = ∪ {K K ∈ CC T (x ) }, K = ∩ T (x ). x ∈K
(U , C
∪D
,V
,f
)
为集值决策表. 其中: C 称为条件属性, D 称为决策属性. Π a ∈A T , Π x ∈U , 简记 a (x ) =
f (x , a). 下面给出一个集值信息表 (表 1) 和一个集值决策表 (表 2).
例如, 当我们按动物的“食性”将一群动物分类时, 若以 0 表示“食草”, 以 1 表示“食肉”,
K 3 = {x 2, x 6}, d es (K 3) = (0, 1, 1, 0, 1) ;
K 4 = {x 3}, d es (K 4) = (2, 0, {0, 1}, 1, 0) ;
K 5 = {x 5, x 6, x 8}, d es (K 5) = (0, 1, 1, 2, 1).
一般地, 设 T 为论域U 上的相容关系. Π x ∈U , 令 T (x ) = {y y ∈U , y T x }, 则U T
= {T (x ) x ∈U } 是U 的一个覆盖.
定义 3 设 T 为论域 U 上的相容关系. 若 N Α U , 且 N 中元素两两 T 相容 (有 T 关
系) , 则称 N 是一个 T 相容类; 若 K 是一个 T 相容类, 且 Π x ∈ U - K , 必存在 y ∈ K 使
4 集值信息系统的属性约简
在信息系统中, 属性对对象的描述有很多表达方式, 可以是定性的也可以是定量的; 对 象的属性值的获取也有多种方法, 可能是实验得到的, 也可能是专家给出的. 完备信息系统 中, 每个对象关于属性集中的每一个属性都有且仅有一个属性值, 所以可定义不可分辨关系 来处理完备信息系统. 然而, 由于人类认识水平的局限性, 有时候信息系统中某些对象的属 性特征可能是未知的, 故有些属性值是空值, 这样的信息系统称为不完备信息系统. 可以通 过将不完备信息系统转化为完备信息系统或在不完备信息系统中定义相容关系来处理它. 本文讨论所谓集值信息系统, 阐明其知识表达的实际意义, 利用最大相容分类方法建立粗糙 集模型, 处理集值信息系统的属性约简问题. 关于带有决策属性的集值决策信息系统的属性 约简问题, 我们将另文讨论.
x 5 {0, 1} {1} {1, 2} {1, 2} {1} 0
x 6 {0} {1} {1} {0, 2} {1, 2} 1
x 7 {1} {0, 1} {0, 2} {1, 2} {0, 1} 0
x 8 {0} {0, 1} {0, 1} {2} {1} 1
另一方面, 粗糙集理论处理不确定性问题的本质在于它对论域的分类能力, 论域划分的 太细或太粗都无实际意义. 于是, 对连续型属性值需要进行离散化; 即使是离散型的属性值, 若取值太多, 则也需重新将之“聚类”. 在这个过程中, 不管采用什么方法, 只要是等价分类, 那么临界点就只能归于唯一一个等价类, 这显然有其不合理性, 反映出等价分类的局限性. 在某些情况下, 允许不同类之间有共同元素 (但类之间不相互包含) 会更具合理性.
第 38 卷第 2 期
数学的实践与认识
V o l138 N o12
2008 年 1 月 M A TH EM A T ICS IN PRA CT ICE AND TH EO R Y Jan. , 2008
集值信息系统及其属性约简
管延勇1, 王洪凯1, 史开泉2
(1. 济南大学 理学院, 山东 济南 250022) (2. 山东大学 数学与系统科学学院, 山东 济南 250100)
可见 T A T (x 7) Α T A T (x 1) , T A T (x 4) Α T A T (x 1). T A T (x 1) 中的元素 x 4、x 5 可由 a2 或 a5 分
辨, x 4、x 7 可由 a5 分辨. 这说明 T A T (x 1) 中元素没有共同属性特征.
为了解决上述问题, 我们引入最大相容类的概念.
相关文档
最新文档