信息系统的属性约简算法-【中文】共51页文档

合集下载

一种基于粗糙熵的信息系统属性约简算法

一种基于粗糙熵的信息系统属性约简算法

龙源期刊网 一种基于粗糙熵的信息系统属性约简算法作者:史进玲来源:《电脑知识与技术》2012年第24期摘要:在信息系统中,研究了知识的粗糙性,定义了一种粗糙熵度量方法,并证明了知识的粗糙熵随着划分的增大而单调增加的结论,给出了属性的重要性度量方法,在此基础上提出了一种基于粗糙熵的启发式属性约简算法。

实例验证表明,该算法能有效地从信息系统中获取最优属性约简。

关键词:信息系统;粗糙熵;属性重要度;属性约简中图分类号:TP312文献标识码:A文章编号:1009-3044(2012)24-5872-03An Attribute Reduction Algorithm Based on Rough Entropy in Information SystemSHI Jin-ling(International School of Education, Xuchang University, Xuchang 461000, China)Abstract:In information system, a rough entropy is defined by studying roughness of knowledge, then knowledge rough entropy’s mo? notonous increasing property with the increase of partition is proved. On this basis, attribute significance measure method is given and a heuristic reduction algorithm based on rough entropy is proposed. A detailed example is shown that the algorithm can effectively extract op? timal reduction.Key words: information system; rough entropy; attribute significance; attribute reduction粗糙集理论(Rough Set )是一种有效的从不精确、不完备与不一致数据的知识库中获取知识的数学理论[1-2]。

不完备信息系统的属性约简算法-计算机工程

不完备信息系统的属性约简算法-计算机工程

决策属性集;V = ∪ Vr 是属性值集合,Vr 表示属性 R 的值域; r∈R f :U × R → V 是一个映射函数。若 D 为空,则称信息系统为
数据表,否则称之为决策表。对于具有遗漏属性值的属性子
集 B ⊆ C ,记遗漏值为“*”,则含有未知属性值的信息系统
称为不完备信息系统。Kryszkiewicz M.定义了容差关系 T。
定义 1 容差关系 T 为
( ) ∀x,
y∈U
,
⎛ ⎜ ⎜⎝
TB ( x,
∀Cj∈B
y)
C

j (x
)
=
C
jபைடு நூலகம்
(
y
)

C
j
(
y
)
=


C
j
(
x
)
=∗
⎞ ⎟ ⎟⎠
其中, TB ( x, y) 表示在属性集合 B 上满足关系个体对象 y 和
对象 x 的容差类关系。本文沿用完备信息系统中的一些相关
定义,对不完备信息系统做相同定义。
若 POSB ( D) = POS(B−{r}) ( D) ,则称 r 为 B 中相对于 D 可省略
的属性,否则称 r 为 B 中相对于 D 不可省略的属性。若对 C
中的独立子集 B ⊆ C ,有 POSB ( D) = POSC ( D) ,则称 B 为 C
的相对约简。
2.2 集合近似关系下的属性约简算法 集合近似关系下的属性约简算法描述如下:
扩展后的信息表进行属性约简。
本文考虑扩展粗糙集理论的适应范围,通过实例比较了
3 种属性约简方法的处理效果。
2 基于集合近似关系的不完备决策属性约简

信息系统属性约简的快速算法

信息系统属性约简的快速算法

h na uc gi mfr ti t dc o s rvdd T e qi l rh o a r uin eut nipo ie.n1t o lx yo te rvdda o tmima { ( I ) ka o t tb o r i e i cmpei fh poie l rh s x 0 I UI me t gi AI ,0 ( { I A
LI AO — i n GUIXin c i Yiq a g , a —a
(. un dn d syT cncl ol e G a gh u 3 0 C ia . c o l f te t s n o p t inl 1 G ag o g n ut eh i l g, u n zo 1 0 , h ;2 S h o o hma c d m ua o a I r aC e 5 0 n Ma i a C t Si c , h ni g r l ol e Z aj n 2 0 8 C i ) c n e Z aj n maC l g, h ni g 44 , hn e a No e a 5 a
信息系统属性约简的快速算法
廖 毅 强 桂现 才 ,
(.广 东轻 工职 业技 术 学 院,广 东 广 州 5 0 0 ; 1 13 0
2 .湛江 师范 学院 数 学与计 算科 学学院 ,广 东 湛 江 5 4 4 ) 208
摘 要 :对 目前 已有 的信 息系统属性 约简的启发 式算法进 行 了分析 ,认 为它们 的时间复 杂度 不太理 想。 以快速 缩 小搜 索空 间为 目的, 先利用 划分 uA对 信 息系统进行化 简。 计 了一个新 的度 量属 性重要性 的计算公 式 , / 设 并给 出 了该公 式的递 归计 算 方法 。然后给 出了一个 时间复杂度 为 ma { ( 1q O II /I 的快速属 性约 简算法 , x D b 1 ) ( A) 4 ̄ , A I } U 最后 , 实例及 实验 结果表 明 了该算 法的

广义信息系统的属性约简

广义信息系统的属性约简

广义信息系统的属性约简
巩增泰;郭永平;史战红
【期刊名称】《计算机工程与应用》
【年(卷),期】2010(046)023
【摘要】把完备信息系统、不完备信息系统、序信息系统、覆盖信息系统等常见信息系统统称为广义信息系统,采用新的知识表达形式将其知识结构进行统一表示,特别是将覆盖信息系统纳入了广义信息系统的框架之中.在广义信息系统中引入粒度熵的概念,对属性的重要性给出度量;在此基础上,提出一种广义信息系统属性约简的启发式算法,进而得到广义信息系统的知识约简,并给出了若干算例.
【总页数】5页(P34-37,58)
【作者】巩增泰;郭永平;史战红
【作者单位】西北师范大学,数学与信息科学学院,兰州,730070;西北师范大学,数学与信息科学学院,兰州,730070;甘肃农业大学,理学院,兰州,730070
【正文语种】中文
【中图分类】O159
【相关文献】
1.广义多粒度粗糙集属性约简和matlab计算 [J], 张先韬
2.广义分布保持属性约简研究 [J], 高学义;张楠;童向荣;姜丽丽
3.广义不完备直觉模糊信息系统的属性约简 [J], 杨柳娇;舒畅;莫智文
4.广义优势多粒度直觉模糊粗糙集的属性约简 [J], 梁美社;米据生;冯涛
5.基于三支决策的广义代价敏感近似属性约简 [J], 方宇;高磊;刘忠慧;杨新
因版权原因,仅展示原文概要,查看原文内容请购买。

信息系统的属性约简算法-【中文】

信息系统的属性约简算法-【中文】

基于Pawlak属性重要度的属性约简算法

2、具体步骤
( 2 ) 求属性约简算法 输入:信息系统IS (U , A, V , f )。 输出:属性集合 A 的约简 RED( A). 具体步骤: 第1步 第 2步 第3步
思想:从核开始 逐个添加,直到 满足约简条件。
依照求核算法求出信息 系统IS的核CORE( A); 令B CORE( A),如果IND(B) IND(A), 转向第 5 步; a A \ B, 计算属性重要度sig( a, B ) | IND(B {a}) | - | IND(B ) |,
对表1所示信息系统,
负类
正类
(1)设R={Outlook},X={1, 2, 6, 8, 14},计算X关于R 的下近似 R X 和上近似 R X 。 (2)设R={Outlook, Temperature},X={3, 4, 5, 7, 9, 10, 11, 12, 13},计算X关于R的下近似 R X 和上近 似 R X 。
定理
CORE A a | a A cij | cij M nn cij 1 元素组成的集合。




即信息系统的核等于该 信息系统的差别矩阵中 所有单属性
证明:当cij {a | a A}是单个属性的元素时, 去掉它一定 会改变信息系统的分类 能力,即属性 在A中是绝对必要的, a 否则不必要的。因此所 有必要属性组成的集合 即信息系统的核, 在差别矩阵表示法中转 化为所有简单属性组成 的集合。
1、删除法 2、添加法
信息系统的盲目删除属性约简算法
定义 (标记函数Mark(a) ) 设A是给定信息系统 的属性集,a A, 定义 0, a尚未被访问 Mark(a ) 1, a已被访问 为属性a的标记函数。

集值信息系统的属性约简

集值信息系统的属性约简

集值信息系统的属性约简马建敏;朱朝晖【摘要】属性约简是粗糙集理论研究中的重要内容之一.本文主要研究集值信息系统的属性约简问题.在集值信息系统中基于拟序关系引入了信息量的概念,给出了属性特征的判定方法,以及信息量与属性约简之间的关系.根据信息量定义了属性重要性,研究了属性重要性与属性约简之间的关系.进而得到了基于信息量和属性重要性的属性约简算法,给出了该算法的时间复杂度.通过实例说明,该算法是有效的.【期刊名称】《工程数学学报》【年(卷),期】2010(027)005【总页数】6页(P883-888)【关键词】集值信息系统;拟序关系;信息量;属性重要性;属性约简【作者】马建敏;朱朝晖【作者单位】长安大学理学院数学与信息科学系,西安,710064;深圳卓成混凝土模块研究所,深圳,518000【正文语种】中文【中图分类】TPL81 引言粗糙集理论是由波兰数学家Pawlak于1982提出的一种数据分析理论[1]。

该理论由于能分析处理不精确、不协调和不完备等信息引起人工智能工作者的广泛关注,并被成功应用在机器学习与知识发现、数据挖掘、决策支持与分析、过程控制、模式识别等领域[2]。

属性约简作为粗糙集理论的重要研究内容之一[1,3],是在保持分类能力不变的前提下删除其中的冗余属性。

由于属性约简并不唯一,人们希望找出所有约简或最小约简。

但寻找最小约简是NP-hard问题[4]。

解决这类问题的一般方法是采用启发式搜索方法求出最优或次优约简[5]。

苗夺谦等人[6]提出了基于互信息的知识相对约简的启发式算法。

王国胤等人提出了基于条件信息熵的决策表约简算法[7]。

梁吉业等人[8]提出了基于信息量的属性约简算法。

黄兵等人[9]给出了不完备信息系统的属性约简算法。

而对不确定或缺省信息,则需研究不完备信息系统或集值信息系统。

本文在集值信息系统中建立了拟序关系,由此引入了信息量的概念,通过信息量研究了属性特征,以及信息量与约简之间的关系。

序信息系统的启发式属性约简算法

序信息系统的启发式属性约简算法
第3卷 7
第1 期





21 0 0年 1月
Co mput r e Sce e inc
Vo . 7 No 1发 式 属 性 约简 算 法
王 锋 钱 宇华 梁 吉业 ( 算智 能与 中文信 息处理 教育部 重 点实验 室 太原 0 0 0 ) 计 3 0 6 ( 山西 大学计 算机 与信 息技 术学 院 太原 0 0 0 ) 3 0 6
摘 要 属 性 约 简是 粗 糙 集 理 论 的 核 心 问题 之 一 , 信 息 系统 中的 属 性 约 简 也逐 渐 受到 关 注 。基 于优 势 类的 概 念 , 序 引
入 了序 信 息 系统 的一 种 信 息 粒度 , 于度 量属 性 集在 序 意 义 下 的 不 确 定性 , 而 给 出 了序 信 息 系统 中属性 重要 度 的定 用 进 义 。在 此基 础 上 , 计 了一 种 序 信 息 系统 的 启发 式属 性 约 简算 法 , 通 过 实例 分 析进 行 了有 效 性 检 验 。 设 并 关 键词 序 信 息 系统 , 势 类 , 发 式 约 简算 法 优 启 T 1 P8 文 献 标识 码 A 中 图法 分 类 号
1 引 言
粗 糙 集 ( o g e) 论 是 由波 兰 学 者 P wl R uh St 理 a a k于 18 92
粗糙集 中的等价关 系 , 通过建立 序信息系统来考虑现实 中存 在的标准属性 的偏好信息的问题 , 而且 , 近年来这 一研究也取
得 了一 定 进 展 l 。 8
H e rsi ti t e c i n Alo ih o Or e e nf r a in S se u itc Atrbu eR du to g r t m t d r I o m to y t ms d W ANG n QI Fe g AN — u LI Yuh a ANG i e J~ y

属性约简

属性约简

粗糙集的研究对象是一个数据集,数据集一般被保存为数据表格形式,即数据库或信息系统。

信息系统的形式是由研究对象和属性值关系构成的二维数据表,类似于基础数学中的关系数据库。

信息系统实现了粗糙集模型的知识表示。

定义 2.1.1[46] 设(,,,)S U A V f =为一个数据库,即信息系统,也称为知识表示系统。

其中12{,}U U x x x = 为一个非空的有限对象集,12{,,}A A a a a = 是属性的有限非空集合,a V V =⋃,a A ∈,a V 为属性a 的值域;定义信息函数:U V c a f A ⨯→ .例如表2.1.1是一个信息系统,其中12345{,,,,}U x x x x x =,1234{,,,}A a a a a =,123a a a V V V ==={0,1},4a V ={0,1,2}.表2.1.1 信息系统定义2.1.2[46] 对于a A ∀∈,x U ∀∈,(,)a f x a V ∈,对于P A ∀∅≠⊆,定义:{(,):(,)(,),}I x y U U f x q f y q q P =∈⨯=∀∈,I U 称为上的不可分辨关系。

(1)若(,)x y I ∈,则称:x y 和是不可分辨的。

(2)不可分辨关系是等价关系,具有:自反性:xIx ; 对称性:xIy yIx ⇒;传递性:,xIy yIz xIz ⇒ .(3) I 是U 上的一个等价关系,[]{,}I x y y U xIy =∈,12{[]}{,}I k U I x x U X X X =∈= ,12,k X X X 称为U 关于I 的一个划分。

(4)P I ∅≠⊆,1,2I I I ∈, 112{,}k U I X X X = ,212{,}l U I Y Y Y = ,12{,1,2,1,2}i j U I I X Y i k j l ⋂=⋂== ,()I Pind P I P ∈== ,则称:()ind P U 是上的一个等价关系,称为P 上的不可区分关系。

信息系统的属性约简算法-【中文】共51页文档

信息系统的属性约简算法-【中文】共51页文档

谢谢!
信息系统的属性约简算法-【中文】

26、我们像鹰一样,生来就是自由的 ,但是 为了生 存,我 们不得 不为自 己编织 一个笼 子,然 后把自 己关在 里面。 ——博 莱索

27、法律如果不讲道理,即使延续时 间再长 ,也还 是没有 制约力 的。— —爱·科 克

28、好法律是由坏风俗创造出来的。 ——马 克罗维 乌斯

29、在一切能够接受法律支配的人类 的状态 中,哪 里没有 法律, 那里就 没有自 由。— —洛克

30、风俗可以造就法律,也可以废除 法律。 ——塞·约翰逊
61、奢侈是舒适的,否则就不是奢侈 。——CocoCha nel 62、少而好学,如日出之阳;壮而好学 ,如日 中之光 ;志而 好学, 如炳烛 之光。 ——刘 向 丘 64、人生就是学校。在那里,与其说好 的教师 是幸福 ,不如 说好的 教师是 不幸。 ——海 贝尔 65、接受挑战,就可以享受胜利的喜悦 。——杰纳勒 尔·乔治·S·巴顿

信息系统的属性约简

信息系统的属性约简

2001年12月系统工程理论与实践第12期 文章编号:100026788(2001)1220076205信息系统的属性约简梁吉业1,2,曲开社2,徐宗本1(1.西安交通大学理学院信息与系统科学研究所,陕西西安710049;2.山西大学计算机科学系,山西太原030006)摘要: 粗糙集理论是一种新的处理模糊和不确定知识的数学工具.属性约简是粗糙集理论研究中的重要内容之一,现已证明寻找信息系统的最小约简是N P2hard问题.本文提出一个基于信息量的属性约简的启发式算法,该算法的时间复杂性为O( A 3 U 2).通过例子分析,表明该算法是有效的.关键词: 粗糙集理论;信息系统;属性约简;算法复杂性中图分类号: T P18 文献标识码: A αR educti on of A ttribu te in Info rm ati on System sL I AN G J i2ye1,2,QU Kai2she2,XU Zong2ben1(1.In stitu te fo r Info rm ati on and System Science,Facu lty of Science,X i’an J iao tong U n iversity,X i’an 710049,Ch ina;2.D epartm en t of Compu ter Science,Shanx i U n iversity,T aiyuan030006,Ch ina)Abstract: Rough set theo ry is a new m athem atical too l to deal w ith vagueness anduncertain ty.R educti on of attribu te is one of the i m po rtan t top ics in the research onrough set theo ry.It has been p roved that finding the m in i m al reducti on of aninfo rm ati on system is a N P2hard p rob lem.In th is paper,an info rm ati on quan tity2basedheu ristic algo rithm fo r reducti on of attribu te is p ropo sed,the ti m e comp lex ity of th isalgo rithm is O( A 3 U 2).T hough runn ing an examp le,w e show that th is algo rithmis effective.Keywords: rough set theo ry;info rm ati on system s;reducti on of attribu te;comp lex ityof algo rithm1 引言粗糙集理论[1,2]是一种新的处理模糊和不确定知识的数学工具.其主要思想是,在保持信息系统的分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则.经过十几年的研究与发展,粗糙集理论已经在理论和实际应用上取得了长足的发展,特别是由于九十年代在知识发现等领域得到了成功的应用而受到国际学术界广泛关注.目前,它正在被广泛应用于机器学习、决策分析、过程控制、模式识别和数据挖掘等领域[3,4].属性约简是粗糙集理论中的重要内容之一[1]。

实值信息系统的属性约简

实值信息系统的属性约简

实值信息系统的属性约简黄小刚;陈子春【期刊名称】《计算机工程与应用》【年(卷),期】2012(048)020【摘要】Real-valued information systems are generalized continuous-valued information systems, in which the values of the attributes are some actual data reflected by practical problem. By defining a tolerance relation to real-valued information systems, this paper mainly deals with attribute reduction in real-valued information systems and real-valued decision tables based on rough theory, the discernibility functions and judgment theorems of attribute reduction are then given, from which the approaches for attribute reduction are provide. A numerical example is employed to substantiate the conceptual arguments.%实值信息系统是连续值信息系统的广义形式,其属性值是实际问题反映出来的真实数据.通过在实值信息系统上定义一种相容关系,主要讨论了这种关系下实值信息系统与实值决策表基于粗糙集理论的属性约简,给出了区分函数的定义与约简的判定定理,得到了计算约简的具体方法,并将所得结论用于无线电信号数据分析处理上.【总页数】6页(P158-163)【作者】黄小刚;陈子春【作者单位】西华大学数学与计算机学院,成都610039;西华大学数学与计算机学院,成都610039【正文语种】中文【中图分类】TP18【相关文献】1.实值信息系统上基于熵的属性约简 [J], 鲁文霞;马盈仓2.基于判别度的实值决策系统的属性约简 [J], 鲁文霞;李巧艳;刘亚梅;马盈仓3.广义粗糙集理论及实值属性约简 [J], 肖迪;张军峰4.一种基于区分矩阵的实值属性约简算法 [J], 周丽;吴根秀;晏伟峰;李灿泽5.基于区间值信息系统的信息熵增量式属性约简算法 [J], 焦玉清;张勇因版权原因,仅展示原文概要,查看原文内容请购买。

一种面向用户需求的序决策信息系统属性约简算法

一种面向用户需求的序决策信息系统属性约简算法

一种面向用户需求的序决策信息系统属性约简算法韩素青;高永娥【摘要】本文针对不协调序决策信息系统,面向用户需求研究属性约简问题.首先,根据基于近似分类质量不变给出的属性约简的定义,重新定义不协调序决策信息系统的区分矩阵.然后,在此基础上,给出判定条件属性子集为属性约简的充分必要条件.最后,通过将用户需求纳入考虑,提出面向用户需求的序决策信息系统属性约简算法.理论分析与实例验证显示算法可行且有效.【期刊名称】《山西师范大学学报(自然科学版)》【年(卷),期】2017(031)001【总页数】8页(P29-36)【关键词】序决策信息系统;优势区分矩阵;属性序;属性约简【作者】韩素青;高永娥【作者单位】太原师范学院计算机科学与技术系,山西晋中030006;太原师范学院计算机科学与技术系,山西晋中030006【正文语种】中文【中图分类】TP3010 引言互联网的飞速发展以及社交媒体的兴起使得网络上各行各业遗留下来的用户行为数据越来越多.与此同时,数据中所蕴含的价值也越来受到人们的关注.面向用户需求对数据进行智能分析与智能预测正在形成趋势.实际应用中,好的分析算法或者好的预测算法,需要有好的特征,因此,算法设计时,针对用户需求,选择用户关注的特征非常重要.属性约简是特征选择的一种方法,是粗糙集理论的主要贡献,在知识发现、决策分析、智能信息处理等方面有广泛的应用.鉴于现实中的许多数据都存在各种偏好信息,Greco[1,2]等人提出了基于优势关系的粗糙集理论(DRSA),用以研究序信息系统的决策分析问题.这类方法将粗糙集中的等价关系拓展成了优势关系.与经典粗糙集理论一样,区分矩阵[3]在序信息系统或序决策信息系统属性约简算法的设计中扮演着重要的角色.张文修等针对协调的序决策信息系统,给出优势区分矩阵的一种定义[4],并被广泛应用.徐伟华等人针对不协调序决策信息系统,先后分别给出了不协调序决策信息系统的部分一致约简[5]、下近似约简[6]、和上近似约简[7]等概念,及相应区分矩阵的定义.Kusunoki和Inuiguchi[8]将属性约简归为类的约简、基于类的并的约简、近似约简、分类质量约简等四类,并且定义了两种区分矩阵,用以计算属性约简.这些方法在保持序决策表某种特性不变的情况下,对约简的概念和性质之间的关系,以及相应区分矩阵的刻画等进行了研究.众所周知,信息系统或决策信息系统的属性约简并不唯一.一般而言,不同的用户对于同一数据集应该有不同的期望、偏好或需求.针对决策信息系统,文献[9]最早提出基于用户需求计算属性约简,认为不同的属性约简对应着不同的用户需求,并且通过将用户需求以属性序形式嵌入学习算法中,设计了属性序属性约简算法.文献[10]证明,面向用户需求计算最优约简是NP- Hard问题.因此,面向用户需求的属性约简算法通常以启发式算法为主.文献[11]研究了决策信息系统属性序空间与属性约简空间之间的关系,设计了面向用户需求的启发式属性约简算法.文献[12]系统研究了用户需求的描述问题,并基于不同的搜索策略,设计了不同的面向用户需求的属性约简算法.文献[13]则基于树结构给出了面向用户需求的快速启发式属性约简算法.与上述研究不同,本文针对序决策信息系统,基于优势关系,面向用户需求研究属性约简问题.本文余下部分组织如下:第一节,首先回顾与序决策信息系统属性约简相关的基本概念;然后,在保持近似分类质量不变的条件下,根据属性约简的定义重新定义优势区分矩阵,同时证明该定义与文献[14]给出的定义等价;在此基础上,给出判别序决策信息系统属性子集为属性约简的一个充分必要条件,旨在从理论上保证基于该优势区分矩阵获得的属性约简确实是保持近似分类质量不变的属性约简.第二节,通过将用户需求以属性序的形式嵌套到属性约简算法中,设计了面向用户需求的序决策信息系统属性约简算法.最后,第四节,通过一个简单的实例对算法进行了直观验证.1 序决策信息系统及其相关概念序决策信息系统是一类特殊的决策信息系统,其中,条件属性值按升序或降序排列,而决策属性值则以全序关系表示.针对序决策信息系统构建学习算法时,需要将决策信息系统所依赖的等价关系拓展为偏序关系.1.1 基本概念定义1[2] 称S=(U,A,V,f)为一个决策信息系统,其中,U表示对象的非空有限集合,称为论域;A表示属性集,分为条件属性集C和决策属性集D;V为属性值的集合,Va表示属性a∈A的值域;f:U×AV是一个信息函数,它指定U中每一个对象的属性值.定义2[2] 在一个决策信息系统中,如果在某个属性值域上建立了偏序关系,则称这个属性为一个准则.当所有的属性都为准则时,该决策信息系统称为序决策信息系统.一般,序决策信息系统用S≻=(U,A,V,f)表示.定义3[2] 设S≻=(U,A,V,f)为一个序决策信息系统,P⊆A,U上的二元关系和定义如下(y,a),∀a∈P}(y,a),∀a∈P}对于x,y∈U,若则x关于属性子集P优于y;若则x关于属性子集P劣于y.显然,偏序关系满足自反性和传递性,但不满足对称性.令(x,a),∀a∈P}(x,a),∀a∈P}则和分别称为x关于属性集P的优势类和劣势类.优势类与劣势类具有如下性质[15]:性质1 如果则性质2 如果则⊆本文仅考虑决策属性集D={d}的情况,含有多个决策属性的序决策信息系统可以通过转化为单个属性的情况来处理.对于序决策信息系统S≻=(U,C∪{d},V,f)决策属性d将论域U根据属性值的大小划分为N个有序的(从小到大)决策类,即U/D={U1,U2,…,UN}.其中∅(i≠j).令则和分别称为决策类Ut的优势类和劣势类.显然,⊇⊇…⊇且⊆⊆…⊆定义关于P的下近似和上近似分别为⊆∅}⊆∅}关于P的边界域定义为文献[2]已证明由于∅,故因此,论域U关于P的边界域可以定义为显然,论域U关于P的边界域Bnp(U)中的对象是论域U中关于P的不协调对象的集合.如果序决策信息系统中存在不协调对象,即Bnp(U)≠∅,则称该序决策信息系统为不协调的,否则称为协调的.定义5[2] 决策属性d关于条件属性子集P⊆C的近似分类质量定义为其中,|X|表示集合X的基.显然,分类质量γP与条件属性子集P相关,其大小由BnP(U)的基决定,可以作为是属性子集P关于序决策信息系统重要性的一种度量.本文在保持近似分类质量不变的意义下讨论属性约简问题.定义6[2] 设P⊆C,如果P满足γP=γC,且对任意R⊆P,有γR≠γP,则称P是C 的一个保持近似分类质量不变的属性约简.如果将C的所有保持近似分类质量不变的约简的集合记为RED(D),则是C的核,并且将核CoreC(D)中的元素称为核属性.1.2 优势区分矩阵Skowron A于1992年提出的区分矩阵原理[3]是描述属性约简空间、计算属性约简以及属性核的有效工具.近年来,区分矩阵原理在基于序信息系统或序决策信息系统的算法构建中也开始得到应用.文献[14]给出了如下定义的优势区分矩阵M={mij},且其中,直观上,U1的含义不够清晰,为此,根据定义6,我们将序决策信息系统的优势区分矩阵重新定义如下:定义7 序决策信息系统S≻=(U,C∪{d},V,f)的优势区分矩阵M定义为M={mij},其中其中,U′=U-BnC(U),并且mij称为区分元素.容易证明定义7与文献[14]所给出的优势区分矩阵等价.事实上,只要证明U′=U1即可.任取x∈U′,则x∉BnC(U),即x属于协调对象的集合,所以当U′≠∅时,一定存在决策类Uj(1≤j≤N),使得[x]⊆且⊆根据下近似的定义,易知且即由x的任意性,有U′⊆另一方面,任取则存在Uj(1≤j≤N),使得根据下近似的定义,易知⊆且⊆所以x∉BnC(U),即x∈U′.于是⊆U′.这样,注解:根据定义7易知,当差别元素只包含一个属性时,说明只有该属性能区分xi和xj,所以该属性是序决策信息系统的核属性.与经典粗糙集一样,序决策信息系统的区分函数为fC=∧{∨mij|mij∈M,mij≠∅}将fC转化为析取范式:fC=(∧X1)∨(∧X2)∨…∨(∧Xs),其中,Xi⊆C,即可获得属性约简集(X1,X2,…,Xs).下面给出判定序决策信息系统属性子集为属性约简的一个充分必要条件.定理1 令M为序决策信息系统S≻=(U,C{d},V,f)的优势区分矩阵,mij∈M是优势区分元素,则属性子集R是C的一个保持近似分类质量不变的属性约简的充分必要条件是(1)对于任意的xi∈U′,xj∈U,如果mij≠∅,那么R∩mij≠∅.(2)对∀a∈R,∃mij∈M,使得R∩mij≠∅,但(R-{a})∩mij=∅.证明条件(1)等价于论域内的全部对象关于属性子集R保持优势区分,即γR=γP.条件(2)等价于属性子集R中每一个属性都是必要的属性,即γR-{a}≠γR.故由定义6知R是一个保持协调对象不变的约简.定理1从理论上保证,基于优势区分矩阵获得的属性约简一定是保持近似分类质量不变的属性约简.2 用户需求描述及算法设计2.1 用户需求描述从保持序信息的角度考虑,由不同属性约简所代表的序决策信息系统彼此等价,但从用户需求的角度考虑,基于不同属性约简的序决策信息系统代表了不同的知识与信息.因此,将用户需求纳入考虑,面向用户需求计算序决策信息系统的属性约简是值得关注的问题.由于用户对属性的偏好本质上是关于属性重要性的一种排序,因此,本节将用户需求以属性序的形式描述.定义8[15](属性偏好关系) 设C是一个有限非空的属性集,对于任意的a,b∈C,C 上的二元关系▷:a▷b⟺用户偏好属性a多于属性b称为属性集C上的一个偏好关系.定义9[15](属性子集偏好关系) A,B是属性集C的任意两个子集,其属性偏好关系分别为a1▷a2▷…▷ap和b1▷b2▷…▷bq,令t=min{p,q},则属性子集A依从左到右的方向位于属性子集B之前,记作A▷B,当且仅当(1)存在1≤i≤t使得当1≤j<i时,aj~bj并且ai▷bi或者(2)对于1≤i≤t,ai~bi且p<q.当序决策信息系统存在多个属性约简时,定义9可以用来判断哪个属性约简依从左向右的方向更符合用户的需求.下面通过一个例子来说明用户需求与属性约简之间的关系.例1 设C={a,b,c,d,e}为序决策信息系统的条件属性集,{a,c},{a,b},{c,b,e}均为其属性约简,如果假定用户的需求为:a▷c▷b▷e▷d,那么,根据定义9,用户对3个约简的偏好次序为{a,c}▷{a,b}▷{c,b,e}即{a,c}是用户最为偏好的约简,{a,b}次之.2.2 算法设计本文给出的算法涉及如下两种操作.定义10(删除操作) 设M为优势区分矩阵,对于任意的mij∈M且mij≠∅,如果mij-{a}≠∅,那么,属性a可以从优势区分矩阵M的所有区分元素中删除而保持优势区分矩阵的区分能力不变.同理,对于属性子集E,如果mij-E≠∅, 那么,属性子集E可以从优势区分矩阵M的所有区分元素中删除而保持区分矩阵的区分能力保持不变.定义10中,mij-{a}≠∅可以保证核属性不会被删除.由于删除单个属性的操作可以看作是删除属性子集操作的特殊情形,因此,下面只考虑删除属性子集的操作.定理2 设M0是对优势区分矩阵M施行删除属性子集操作后得到的优势区分矩阵,并且RED(M0)和RED(M)分别为M0和M的属性约简集,则RED(M0)⊆RED(M)证明任取R∈RED(M0),根据定理1,对于任意的xi∈U′,xj∈U,如果∅,则∅.因为M0通过M对施行删除属性子集获得,所以存在mij∈M使得⊆mij,并且R∩mij≠∅,即R关于M满足定理的条件(1).对∀a∈R,根据定理1,存在使∅,但∅.当删除的属性子集E不包含于mij时,此时R∩mij≠∅,并且(R-{a})∩mij=∅,即R关于M满足定理的条件(2);当删除的属性子集E⊆mij时,因为并且E∩R=∅,因此∅,∅,即R关于M满足定理的条件(2).综上所述,根据定理1,R是M的一个约简,即R⊆RED(M).故有RED(M0)⊆RED(M).定义11(吸收操作) 对于优势区分矩阵M的任意两个区分元素α,β,如果α⊆β,那么区分元素β可以从优势区分矩阵M中删除.定理3 施行吸收操作后获得的优势区分矩阵Ms与原优势区分矩阵M等价,即RED(Ms)=RED(M)2.3 基于用户需求的序决策信息系统约简算法启发式属性约简本质上是在约简空间中搜索最优的属性子集.一般涉及三个方面,即搜索的起点、搜索的方向和搜索的策略.如果用户需求根据属性的重要度从左到右排列,那么属性约简算法的构建可以采用添加策略,即,以最左边的属性为起点,从左到右将用户最偏好的属性优先添加到约简当中,直至获得属性约简.记M为序决策信息系统的优势区分矩阵,Absorb(M)为施行吸收操作后的优势区分矩阵,根据定理3,基于Absorb(M)获得的属性约简与基于M获得的属性约简集相同,但显然Absorb(M)要比M简单的多.令属性a为区分元素mij依用户需求(属性序)排在首位(最左边)的元素,则mij-{a},记作tail(mij)表示优势区分元素mij的尾,其中,i=1,2,…,|U′|;j=1,2,…,|U|.基于用户需求的序决策信息系统约简算法的基本思想描述如下:首先对优势区分矩阵实施吸收操作,获得优势差别矩阵Absorb(M),并且在算法开始时,令R=∅;其次根据属性序从左到右选择属性a添加到R中,并计算Absorb(M)中包含属性a的所有区分元素mij的尾tail(a).如果属性a为约简属性,则包含属性a的所有区分元素mij的尾tail(a)中的任何属性都不会再是约简属性,因此,tail(a) 可以从优势区分矩阵M的所有优势区分元素中删除.由于包含属性a的区分元素mij(i=1,2,…,|U′|;j=1,2,…,|U|)可能不止一个,所以tail(a)也可能不止一个.因此,从用户需求的角度考虑,在实施删除操作时,需要根据从左往右方向,选择用户最不偏好的tail(a)予以删除.循环上述过程直至优势区分矩阵M为空集.根据上述算法思想,面向用户需求的序决策信息系统属性序约简算法描述如下:输入:序决策信息系统的优势区分矩阵M,属性序S.输出:序决策信息系统的一个约简R.Step 1 令R=∅,M=Absorb(M),如果M中有单元素β,则令R=R∪{β},M=M-{β}.Step 2如果M≠∅,根据属性序S依从左到右的次序选择属性a.如果γ{a}∪R≠γR 令R=R∪{a};否则依从左到右的次序重新选择属性.Step 3 计算E={mij|mij∩{a}≠∅,mij∈M},令M=M-E,对mij∈E,计算tail(mij)=mij-{a},然后根据属性序S选择用户最不偏好的tail(mij).Step 4计算M={mij-tail(mij)|mij∈M}.重复Step 2到Step 4直至M=∅.根据定理2和3,易知算法的输出一定是序决策信息系统的一个属性约简,即算法满足完备性,并且输出的结果唯一.3 实例验证例2 序决策信息系统S≻=(U,C∪{f},V,f)如表1所示,其中U={x1,x2,x3,x4,x5,x6,x7,x8,x9,x10}是由10个学生组成的论域;C={a,b,c,d,e}是分别代表语文、数学、英语、物理、化学五门课程的条件属性集{f}为决策属性集,表示对学生的总体评价(0:合格;1:良好;2:优秀).假定用户想要了解数学成绩对学生总体评价的影响,那么用户对5门课程的一种关注度可以描述为:b▷c▷a▷d▷e.表1 学生成绩表Tab.1 Table of student reportcardabcdefx192978997972x2911009293982x387858696940x489928398852x580918795930x683928088861x785757097871x882779280751x99478877 7720x1076797879782Step 1计算序决策信息系统S≻=(U,C∪{f},V,f)的优势区分矩阵M.论域U中各个对象关于属性集C的优势类为[x5={x1,x5} [x6={x1,x2,x6} [x7={x1,x7} [x8={x2,x8}论域U中各个对象关于属性集C的劣势类为[x1={x1,x3,x5,x6,x7,x10} [x2={x2,x6,x8,x10} [x3={x3,x10}决策属性{f}将U划分为有序(从小到大)的3个决策类,U/{f}={U1,U2,U3}.其中,U1={x3,x5,x9},U2={x6,x7,x8},U3={x1,x2,x4,x10}.决策类Ui关于决策属性{f}的优势类和劣势类分别为的上近似、下近似、边界域分别如下∅()={x1,x2,x3,x4,x5,x6,x7,x8,x10} ()={x1,x2,x4,x6,x7,x8}BnC()={x3,x5,x10}()={x1,x2,x3,x4,x5,x6,x10}论域U关于条件属性集不协调对象集为则U′=U-BnC(U)={x1,x2,x4,x7,x8,x9}优势区分矩阵如表2所示,故优势区分矩阵为M={ac,abd,abde,abcd,abe,bde,ace,abcde,abce,ad,acd,ade,bd,bcde,de,cde,be,bc,d,c}对M执行吸收操作,得M=Absorb(M)={d,c,be},将M中的单元素添加到约简中,得到R={d,c},M={be}.Step 2根据从左往右的方向在属性序S上选择表2 优势区分矩Tab.2 Dominant distinguishingmatrixx1x2x4x7x8x9x1⌀⌀⌀abceabdebcdx2⌀⌀⌀abceabebcdx3Cabceabddc⌀x4⌀⌀⌀abcdabdebdex5Cabceabdadac⌀x6CCacd⌀⌀bdex7Cabceabcd⌀⌀dex8 abdeabdeabde⌀⌀cdex9bcdebcdebdedecde⌀x10⌀⌀⌀bcbebde属性b,因为γ{b}∪R≠γR.R={d,c}∪{b}={b,c,d}Step 3计算E={be},因为M=M-E=∅,算法结束.输出R={b,c,d}.因此,R={b,c,d}是满足用户需求(用户对5门课程关注度)b▷c▷a▷d▷e的属性约简.文献[17]提供了一种很好的序决策规则提取算法,利用该算法对例2进行规则提取,设用户置信度为0.8,规则覆盖度为0.3,可以获得如下决策规则:b≥f≥[置信度0.87,规则覆盖度0.65]c≥∧d≥f≥[置信度1,规则覆盖度0.3]b<∧d<f<[置信度1,规则覆盖度0.35]其蕴含的知识如下:a)数学成绩好的学生比数学成绩差的学生的总体评价好;b)英语成绩与物理成绩好的学生的总体评价比英语成绩和物理成绩都差的学生好;c)数学成绩与物理成绩都差的学生比数学成绩和物理成绩都好的学生的总体评价差. 容易验证,R={c,d,e}是该序决策信息系统的另一个属性约简,但对于用户需求b▷c▷a▷d▷e显然属性约简{b,c,d}是比{c,d,e}更符合用户需求的属性约简.事实上,就用户需求而言,因为属性约简{b,c,d}与数学无关.因此,对关注数学成绩的用户而言,由此获得的知识显然没有基于约简{b,c,d}获得的知识有吸引力.4 小结传统的属性约简算法将所有的属性视为同等重要,属性约简旨在获取最小约简,并不关注用户需求.本文针对序决策信息系统,面向用户需求,在保持近似分类质量不变意义下研究属性约简问题,理论分析与实例验证显示,本文设计的算法可行并且有效.【相关文献】[1] Greco S, Matarazzo B,Slowinski R.Rough approximation of a preference relation by dominance Relations[J].European Journal of Operational Research,1999,117:63~83. [2] Greco S, Matarazzo B, Slowinski R.Rough sets methodology for sorting problems in presence of multiple attributes and criteria[J].European Journal of Operational Research,2002 ,138(2):247~259.[3] A Skowron ,C Rauszer .The discernibility matrices and functions in information systems[A].In : R Slowinski eds . Intelligent Decision support, Handbook of Applications and Advances of Rough Set Theory[C].Dordrecht : Kluwer Academic publishers,1992.331~362.[4] 张文修,梁怡,吴伟志.信息系统与知识发[M].北京:科学出版社,2003.[5] 徐伟华,张晓燕,张文修.优势关系下不协调目标信息系统的部分一致约简[J].模糊系统与数学,2009,23(6):155~161.[6] 徐伟华,张晓燕,张文修.优势关系下不协调目标系统的下近似约简[J].计算机工程与应用,2009,45(16):66~68.[7] 徐伟华,张晓燕,张文修.优势关系下不协调目标系统的上近似约简[J].计算机工程,2009,35(18):191~193.[8] Kusunoki Y, Inuiguchi M. A unified approach to reducts in dominance based rough set approach[J].Soft Computing,2010,14(5):507~515.[9] Wang J, Wang J. Reduction algorithms based on discernibility matrix : The ordered attributes method[J].Journal of Computer Science and Technology, 2001,16(6): 489~504.[10] Liang H L,Wang J,Yao Y Y. User oriented features selection for machinelearning[J].Computer Journal,2007,50(4):421~434.[11] Han S Q , Wang J. Reduct and attribute order Journal of Computer Science and Technology[J].2004,19(4):429~449.[12] YaoY Y,Zhao Y, Wang J,et al.A model of user Oriented reduct construction for machine learning[A].Peters J F, Skowron A , Jerzy W, eds.Tranactions on Rough SetsVIII[C].Berlin Germany:Springer Verlag,2008.332~351.[13] Zhao M, Han S Q, Wang J. Tree expressions for information systems[J].Journal of Computer Science and Technology, 2007, 22(2):297~307.[14] 桂现才.改进的优势区分矩阵及其求核方法[J].计算机工程与应用,2011,46(27):36~38.[15] 韩素青,赵岷.Reduct理论[M].北京:清华大学出版社,2010.[16] 徐伟华.序信息系统与粗糙集[M].北京:科学出版社,2013.[17] 徐久成,史进玲,张倩倩.粒计算中决策规则的提取[J].模式识别与人工能,2009,22(4):660~665.。

属性约简方法概述

属性约简方法概述

属性约简方法概述属性约简又称维规约或特征选择,从数学的角度考虑,就是有p维数据x=(x1,x2……xp),通过某种方法,得到新的数据x’=(x’1,x’2……x’k),k≤p,新的数据在某种评判标准下,最大限度地保留原始数据的特征。

属性约简主要是为了解决高维数据计算的复杂性和准确性问题。

目标是消除冗余和不相关属性对计算过程和最终结果造成的影响。

数据属性约简的意义主要从以下几个方面考虑:a)从机器学习的角度来看,通过属性约简去除噪音属性是非常有意义的;b)对一些学习算法来说,训练或分类时间随着数据维数的增加而增加,经过属性约简可以降低计算复杂度,减少计算时间;c)如果不进行属性约简,噪声或无关属性对分类的影响将与预期属性相同,这将对最终结果产生负面影响;d)当用较多的特征来描述数据时,数据均值表现得更加相似,难以区分。

为了描述属性约简方法,这里假设数据集合为d,d={x1,x2….xn},xi表示d中第i个实例,1≤i≤n,n为总的实例个数。

每个实例包含p个属性{|xi|=p}。

从机器学习的角度来看,属性约简方法可以分为监督的和非监督的两类。

下面是几种常用的方法。

(1)主成分分析主成分概念是karlparson于1901年最先引进。

1933年,hotelling把它推广到随机变量。

主成分分析把高维空间的问题转换到低维空间来处理,有效的降低了计算的复杂度。

通过主成分的提取,降低了部分冗余属性的影响,提高了计算的精度。

主成分分析的基本思想是通过正交变换将具有成分相关性的原始随机变量转换为具有成分不相关性的新变量。

从代数的角度,将原始变量的协方差矩阵变换为对角矩阵;从几何角度来看,将原始变量系统转换为一个新的正交系统,指向样本点分布最广的正交方向,然后降低多维变量系统的维数[43]。

定义4-1[44]:设x?(x1,x2,...,xp)'为p维随机向量,它的第i主成分分量可表示yi?ui'x,i=1,2,…,p。

第四章 属性值约简(决策规则约简)

第四章  属性值约简(决策规则约简)

第四章 属性值约简(决策规则约简)§1 属性值约简属性约简分两类,一类是信息表约简,一类是决策表约简。

信息系统S ={U ,A }的约简,是对整个属性集A 进行约简,要求利用最少属性的属性集能提供与原属性集A 同样多的信息,在此若A a ∈是冗余属性,则是将a 去掉后则A -{a }与A 具有同样的分类能力,即有下面相同的等价类族:{}A U a A U =-若{}a A -是独立的,即{}a A -中任意去掉一个属性,都将改变其分类能力,则{}a A -就是A 的一个约简。

A 的约简是A 中独立的子集P 并且P 与A 具有同样的分类能力,而{}P A -中的属性对P 来说都是冗余属性。

信息表的特点是属性集A 不再划分为条件属性集和决策属性集。

对于决策表()D C A U T ==,来说,约简的情况不同,它不是针对整个属性集A 进行的,约简的只是条件属性集。

决策表的约简分两部分: 第一步:属性集约简若果C P ⊆,满足P 是关于决策属性集D 独立的,并且()()D Pos D Pos C P =,则P 是C 的D 约简。

C 中的所有D 约简的交()D RED C 称为C 的核,记作()C Core D 。

第二步:属性值约简设()D C U T ,=是一致性决策表,C P ⊆是C 的D 约简。

值约简是针对相对约简P 而言的,或说属性值约简是对决策表上每一条决策规则来说的。

关于决策规则中属性值约简,下面例题提供了属性值约简的理论依据。

决策表上一条决策规则的条件属性值可以被约去,当且仅当约去该属性值后,仍然保持该条规则的一致性,即不出现与该条规则不一致的规则。

约简算法的步骤为:1 约简属性集;2 约简决策规则,即属性值约简;3 从算法中消去所有过剩决策规则。

关于决策表的属性约简和决策规则的属性值约简,看下面例子。

例1 简化给定决策表,其中{}d c b a C ,,,=为条件属性集,{}e D =为决策属性集算法步骤:第一步:约简属性集:从决策表中,将属性A 中的属性逐个移去,每移去一个属性立刻检查其决策表,如果决策表中的所有决策规则不出现新的不一致,则该属性是可以被约去的,否则,该属性不能被约去,称这种方法为属性约简的数据分析法。

信息系统的属性约简算法-【中文】概要51页PPT

信息系统的属性约简算法-【中文】概要51页PPT

谢谢!
51、 天 下 之 事 常成 于困约 ,而败 于奢靡 。——陆 游 52、 生 命 不 等 于是呼 吸,生 命是活 动。——卢 梭
53、 伟 大 的 事 业,需 要决心 ,能力 ,组织 和责任 感。 ——易 卜 生 54、 唯 书 籍 不 朽。——乔 特
55、 为 中 华 ቤተ መጻሕፍቲ ባይዱ 崛起而 读书。 ——周 恩来
信息系统的属性约简算法-【中文】概 要
11、用道德的示范来造就一个人,显然比用法律来约束他更有价值。—— 希腊
12、法律是无私的,对谁都一视同仁。在每件事上,她都不徇私情。—— 托马斯
13、公正的法律限制不了好的自由,因为好人不会去做法律不允许的事 情。——弗劳德
14、法律是为了保护无辜而制定的。——爱略特 15、像房子一样,法律和法律都是相互依存的。——伯克
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息系统的属性约简算法-【中文】பைடு நூலகம்
21、没有人陪你走一辈子,所以你要 适应孤 独,没 有人会 帮你一 辈子, 所以你 要奋斗 一生。 22、当眼泪流尽的时候,留下的应该 是坚强 。 23、要改变命运,首先改变自己。
24、勇气很有理由被当作人类德性之 首,因 为这种 德性保 证了所 有其余 的德性 。--温 斯顿. 丘吉尔 。 25、梯子的梯阶从来不是用来搁脚的 ,它只 是让人 们的脚 放上一 段时间 ,以便 让别一 只脚能 够再往 上登。
谢谢
11、越是没有本领的就越加自命不凡。——邓拓 12、越是无能的人,越喜欢挑剔别人的错儿。——爱尔兰 13、知人者智,自知者明。胜人者有力,自胜者强。——老子 14、意志坚强的人能把世界放在手中像泥块一样任意揉捏。——歌德 15、最具挑战性的挑战莫过于提升自我。——迈克尔·F·斯特利
相关文档
最新文档