大数据环境下多决策表的区间值全局近似约简
基于大数据的配电网故障诊断预测模型设计

电气传动2022年第52卷第2期摘要:针对传统基于无线传感器的配电网故障检测模型对大数据环境下的配电网故障数据存在诊断准确率低、故障诊断耗时较长以及经济效益较低的问题,设计基于大数据的配电网故障诊断预测模型,其采用RS-IA 模型对大规模故障信息进行智能搜索,计算出最优约简得到决策规则,实现对配电网故障发生位置的初步定位。
采用基于模糊积分的故障诊断预测模型,根据初步诊断结果确定发生故障的候选元件及模糊测度值,根据拓扑信息以及元件的诊断结果形成不同相关联度的支持度集合,采用模糊积分融合技术确定模糊积分值构成故障可能性指标集合,根据该指标确定配电网故障发生的准确位置。
实验结果说明,所设计模型能提高大规模配电网故障诊断的精度,缩短诊断用时,提高配电网的安全性。
关键词:大数据;配电网;故障诊断;预测模型;模糊积分;预处理中图分类号:TM76文献标识码:ADOI :10.19457/j.1001-2095.dqcd22297Design of Fault Diagnosis and Prediction Model for Distribution Network Based on Large DataCHENG Xiaolei ,WANG Peng ,WANG Yuan ,ZHAO Jiadong(Inner Mongolia Electric Power Economics and Technology Research Institute ,Hohhot 010090,Nei Monggol ,China )Abstract:The fault data of distribution network based on traditional wireless sensor fault detection model is based on large data environment ,which is low in diagnostic accuracy ,time-consuming in fault diagnosis and poor in economy.A distribution network fault diagnosis model based on large data was designed ,which makes use of the intelligent searching ability of RS -IA for large-scale fault information and the optimal reduction of calculation decision rules to realize the initial location of distribution network fault.The fault diagnosis and prediction model based on fuzzy integral determines the candidate component faults and fuzzy measure values according to the preliminary diagnosis results ,forms the related support set of different components according to the topological information and diagnosis results ,determines the fuzzy integral value set of fault probability index by using the fuzzy integral fusion technology ,determines the accurate distribution position of fault in the network according to the index.The experimental results show that the design model can improve the accuracy of the fault diagnosis of the large-scale distribution network ,shorten the diagnosis time and improve the safety of the distribution network.Key words:large data ;distribution network ;fault diagnosis ;prediction model ;fuzzy integral ;preprocessing基于大数据的配电网故障诊断预测模型设计程晓磊,王鹏,王渊,赵嘉冬(内蒙古电力经济技术研究院,内蒙古呼和浩特010090)基金项目:内蒙古电力有限公司科研项目(510141190010)作者简介:程晓磊(1981—),男,硕士,高级工程师,Email :*******************随着社会经济的发展和人民生活水平的不断提高,电力系统能够直接影响人们的日常生活,配电网使用者对电网的安全性和可靠性的要求越来越高。
数据约简的方法

数据约简的方法数据约简就像是给数据来一场超级减肥大赛,下面我给你唠唠几种方法。
首先是采样法。
这就好比从一大群羊里挑几只最有代表性的羊来代表整个羊群。
比如你有海量的用户访问数据,你不可能把每一次访问都详细研究,那就每隔一段时间或者每隔几个访问者抽取一个样本,这样既能抓住数据的大致特征,又能大大减少数据量。
就像你要尝一锅汤的味道,不需要把整锅汤都喝光,只要舀几勺尝尝就知道个大概了。
再说说特征选择。
这就像是从满桌的菜里挑出最合口味的那几道菜。
数据可能有一堆的特征,但并不是每个特征都对结果有重要影响。
比如说判断一个人是否会买某个商品,可能他的头发颜色这个特征就完全不重要,那我们就把这个像“花瓶里的假花”一样没用的特征去掉,只留下像“年龄、收入、消费习惯”这些真正有用的“硬菜”。
维度约简也是个好办法。
这就像是把三维立体画压扁成二维的简笔画。
当数据有太多的维度,就像一个复杂的迷宫,让人眼花缭乱。
我们通过一些数学魔法,把那些多余的维度去掉,就像把迷宫里那些死胡同都去掉,只留下通往出口的主要通道。
聚类法也很有趣。
想象一下,这就像是把一群小动物按照种类分类关进不同的笼子。
把相似的数据点聚成一类,然后用一个代表点来表示这一类。
这就好比一群兔子里,选一只最可爱(最有代表性)的兔子来代表整个兔子群,其他兔子就可以先不管啦,这样数据量就大大减少了。
还有数据离散化。
这就像是把连续的彩虹颜色分成几块大的颜色区域。
比如把连续的年龄数值变成“儿童、青年、中年、老年”这样的区间,一下子就把那些细微的年龄差别给简化了,就像把彩虹上无数种颜色变成了红、橙、黄、绿、蓝、靛、紫这几种主要颜色一样。
近似法就像是给数据画个大概的轮廓。
比如说,精确的数字太麻烦了,我们把1.23、1.24、1.25这些相近的数字都近似成1.2,就像把那些长得很像的双胞胎、三胞胎当成一个人来统计,虽然不精确到每一个细节,但也能反映出大致的情况。
主成分分析就像是从一群超级英雄里找出最核心的几个英雄。
区间值决策信息系统中基于正域的属性约简

区间值决策信息系统中基于正域的属性约简陈华峰; 龙建武; 瞿先平【期刊名称】《《重庆理工大学学报(自然科学版)》》【年(卷),期】2019(033)011【总页数】7页(P130-136)【关键词】区间值; 决策信息系统; 邻域; 正域; 属性约简【作者】陈华峰; 龙建武; 瞿先平【作者单位】重庆电讯职业学院基础部重庆402247; 重庆理工大学计算机科学与工程学院重庆400054【正文语种】中文【中图分类】O235粗糙集理论作为一种有效的数据挖掘工具,自20世纪80年代由波兰数学家Pawlak[1]提出以来,其对知识的自动获取、机器学习以及模式识别等多个科学研究领域的发展都起到了积极的推动作用。
该理论主要是基于一个等价关系对论域进行划分,然后通过一对上、下近似算子来描述任意对象集的近似范围,以此从数据库挖掘出以规则形式进行表达的知识。
随着粗糙集理论研究及实际应用的不断深入,经典的Pawlak 粗糙集模型存在着一定的不足之处,为此大量的学者对广义粗糙集模型进行了深入的研究[2-4]。
常见的方法是将经典粗糙集模型中的等价关系推广为一般二元关系,也即是将等价关系所需满足的3条(自反性、对称性、传递性)删除1条或多条,从而构造满足特定要求的二元关系,以此建立基本信息粒结构[5-6]。
也有通过邻域来建立基本信息粒的,即按照某一度量方式得到小于给定的阈值的对象构成的集合为一个基本信息粒[7-8]。
还有学者结合实际问题的需要,提出了多粒度粗糙集方法[9-10],这些方法常用于不完备信息系统或广义值信息系统的知识发现研究中。
信息系统作为数据描述的基本形式,是基于粗糙集理论研究的基础[11]。
随着数据的多元化和复杂化,用简单的实数值来描述对象和属性之间的关系明显不够,为此学者们分别对模糊值信息系统[12]、模糊决策序信息系统[13]、直觉模糊信息系统[14-15]、基于覆盖的决策信息系统[16]等进行了系统的研究。
优势-等价关系下区间值目标信息系统的分配约简

Do mi na nc e a nd Eq u i v a l e nt Re l a t i o n s
XI E n —q i o n g
( S c h o d o f Ma t h e m a t i c s a n d S t a i t s i t c s , Mi n n a n N o r ma l U n i v e r s i t y , Z h a n g z h o u , F u j i a n 3 6 3 0 0 0 , C h i n a )
之 间 的 关 系。 相 继 讨 论 知 识 约 简的 判 定 定 理 以及 对 应 的 辨 识 矩 阵。 提 出在优 势一 等 价 关 系下 的 区 间值 日标 信 息 系
统 分 配 约 简 的详 细 计 算 方 法 .
关 键 词 :优 势 一 等 价 关 系;区闻 值 目标信 息 系统 ; 分 配 约 简; 近似约 简
G e n e r a lN o . 9 2
优势一 等价关系下区间值 目标信息系统的分配约简
谢 文 琼
决策表的一种知识约简与规则获取方法

收稿日期:2006-02-28作者简介:孙 胜(1978-),男,湖北黄冈人,博士研究生,研究方向为现代数据库理论与技术及系统实现;导师:王元珍,教授,博士生导师,主要研究方向为现代数据库理论及实现技术。
决策表的一种知识约简与规则获取方法孙 胜1,2(1.华中科技大学计算机学院,湖北武汉430074;2.黄石理工学院计算机学院,湖北黄石435003)摘 要:粗糙集理论是一种新型的数据挖掘和决策分析方法,利用粗糙集理论进行决策表的知识约简与决策规则挖掘已经成为研究热点。
文中介绍了粗糙集的基本理论,在此基础上运用该理论对从决策表中获取最小规则进行了研究,提出了决策表约简的启发式方法,并通过一个具体实例详细说明了决策规则获取过程,实例分析表明了其有效性。
关键词:粗糙集;决策表;决策规则;属性约简中图分类号:T P311.131 文献标识码:A 文章编号:1673-629X(2006)09-0035-03Knowledge Reduction and Rule Acquirement Method in Decision TableSUN Sheng 1,2(1.Schoo l of Computer Science,Huazhong U niv ersity of Science and T echnolog y,Wuhan 430074,China;2.School of Computer Science,Huangshi Institute of T echnolog y,Huangshi 435003,China)Abstract:Rough set theory is a new data mining and decision analysis method.Knowledge reduction and decision rule mining in decision table by using rough set theory has become a research hotspot.T he article introduces basic con cepts in rough set theory first.M inimal dec-i sion rule acquirement in deci sion table based on rough set theory i s researched.A heuristic approach for rule reduction is put forward,and the procedure of decisi on rule acquirem ent is i lluminated using an example.T he instance analysis show s its validity.Key words:rough set;deci sion table;decision rule;attribute reduction0 引 言粗糙集理论是由波兰科学家Z.Paw lak 教授于1982年提出的一种研究不精确、不确定性知识的数学工具[1,2]。
水平划分多决策表下基于相对粒度的隐私保护属性约简算法

u a i o rv c — r s ri g d sr u e t b t e u t n wh c o l ov h rb e t a l p e p r e are u t l r y f rp i a y p e e vn i i td a t u er d ci , i h c u d s le te p o lm h t t tb i r o mu t l at sc ri d o t — i i a t b t r d cin c mp t t n i it b t d e v rn n i o ts a i g p iae d t. h l o t m o l o u e go a a — i r u e e u t o u ai n d s u e n io me tw t u h rn rv t aa T e a g r h c u d c mp t lb l t o o i r h i t b t r d cin b s d o h t b t e u t n i e f r lt e g a u a t a d u e e — u t d t i at n e u e i r u e e u t a e n t e a t u e rd ci d a o ea i r n l r y, n s d s mi r se hr p r a d s c r o i r o v i t d y
大数据 近似算法

大数据近似算法
大数据近似算法是一种解决大数据问题的有效方法。
由于大数据量庞大,直接处理所有数据需要消耗大量的时间和计算资源,因此我们需要采用一些近似算法来快速得到近似的结果。
近似算法可以采用多种技术,如采样、略图、摘要等,以引入可控误差的方式解决由数据规模扩大带来的时间、空间和通讯量效率问题。
这种算法可以处理的数据规模远远超过传统算法,而且可以快速得到近似的结果。
近似算法有很多应用场景,例如机器学习、数据挖掘、图像处理等。
在机器学习中,我们可以用近似算法来训练模型,加速模型的训练过程。
在数据挖掘中,我们可以用近似算法来处理大规模的数据集,快速找到有用的信息。
在图像处理中,我们可以用近似算法来加速图像处理的过程,提高处理效率。
总之,大数据近似算法是一种非常有用的算法,它可以有效地处理大规模的数据集,快速得到近似的结果。
在未来的大数据处理中,它将会发挥越来越重要的作用。
基于集对分析的多值信息系统粗集模型及其约简

定义 1 给定两个集合 A和 日, _ o 并设这两个 集合组成集对 H=( , ) 在某个具体的问题背景 AB ,
下, 集对 H有 n个特性 , 中 , s 为集对 H 中 其 有 个 A和 所共 有 ; 为 A和 相 对立 个 为 A 和 P个 厂
收稿 日期 :06— 3—7 20 0 1 基金项 目: 国家 自然科学基金 (0 7 02 资助项 目 6442) 作者简介 : 王 燕 (9 1) 女 , 18 . , 硕士生; 指导教师 : 莫智文( 93 ) 男 , 16 一 , 教授
维普资讯
20 07年 5月
第3 0卷
第 3期
四川师范大学学报 ( 自然科 学版) Ju a o i unN r l nvr t( aua Sine orl f c a o i sy N t l cec ) n Sh ma U e i r
( l) 音+ , ( = 争+ 2 y 1 )
简记 为 口= ( Y =0+6 , ,) +
维普资讯
第3 期
上
,
王
燕等 : 于集对分析 的多值信息 系统粗集模型及其 约简 基
卫
,
39 1
Ⅱ
:
6:f
,
c
:
6 ( = { :: )n D ≠ } : ) D, ( S , 式中 ( ): 基数 . , ≤J ,xl 示 的 1 . l  ̄r 表
中图分类号 : 19 C 3 0 5 ; 94 文献标 识码 : A 文章编号 :0 18 9 ( 07 0 -3 80 10 —3 5 2 0 )30 1-3
0 引 言
粗糙集理论是 2 0世纪 8 0年代 由波兰学者 z . Pwa 提 出的 一 种处 理 含 糊 和 不精 确 问题 的 新 alk1 L
决策表的最近近似约简

2 信 息系统 与决策表
定 义 1 称 ( , 为 信 息 系 统 ,其 中 己 是 有 限 对 象 集 合 ,即 U={。 :… ) A是 有 限 属 性 集 ,即 , F) , , , ; A={。 :…a } F是 u与 A的关 系集 ,即 F={ : , , m ; U , )其 中 k , a 的有 限值 域 . k
3 决 策表的近似约简
为了刻画边界的不确定性对属性约简的影响, 我们给 出如下定义 :
定义 2 设 ,, ) A F 为信息系统, 对于集合 X U, 称 为集合 的
R ={ ] ∈U) A 【 : ,
收 稿 日期 :2 0 . 1 3 0 80 . 2
作者简介: 赵雪芬 (93 ) ,宁夏大学新华学院助教 ,研究统 计 与人工智能的数学基础. 18 一 ,女 学 基金项 目:教育 部科学技术研 究重点项 目 ( o2 6 5 ,宁夏 自然科学基金资助项 目 ( 0 1 ) N 0 19) NZ 5 6
l l
= R
u A= / = 4, , p . / u { …A )
为 A确定的不可区分关系在 上产生 的分划. 对于集合 X U, 当 ( = ) X= aX) B D ( R ( 或 N )=2 ( j
时, 称 为 A 一 精确集;当g ( ≠ ( 或 B D ( ) 瓦 ) N )≠ 时, 称 为 A 一 粗糙集, 它的不确定性是 由边界
维普资讯
第3 4卷第 3期
J
o um a fS t w e tUni e iyf rN ai nal i Na u al i c ton lo ou h s v rs t o to i e t r 1 en eEdii t s Sc
大数据技术导论期末复习题2023-5

一、选择题1可视分析是一种()?【A.】交互式用户界面模型【B.】结构化用户界面模型【C.】非结构化用户界面模型【D.】独立式用户界面模型【答案】A2数据科学的研究对象是()?【A.】药品成分【B.】文学作品【C.】数据界的数据【D.】人类历史【答案】C3下面不是研究数据方法的是()?【A.】统计学【B.】机器学习【C.】心理分析【D.】数据挖掘【答案】C4下面是数据科学的主要研究内容的是()?【A.】数据泄露【B.】数据交易【C.】数据盗窃【D.】数据分析【答案】D5下面不是数据产品开发的特征的是()?【A.】多样性【B.】无竞争性【C.】增值性【D.】层次性【答案】B6下面不属于互联网大数据的是()?【A.】视频【B.】图片【C.】音频【D.】心情【答案】D7下面不属于大数据的特性是()?【A.】数据量大【B.】多样性【C.】真实性差【D.】具有价值【答案】C8下面属于结构化数据的是()?【A.】表格数据【B.】图形【C.】图像【D.】HTML文档【答案】A9下面不属于大数据的处理过程的是()?【A.】数据获取、储存【B.】数据清洗【C.】数据分析【D.】数据安全【答案】D10下面不属于大数据离线处理特点的是()?【A.】数据保存时间短【B.】数据不会发生改变【C.】可进行复杂的批量计算【D.】方便查询计算结果【答案】A11下面不属于大数据处理模式的是()?【A.】离线处理【B.】在线处理【C.】手动计算【D.】交互处理【答案】C12下面仅属于大数据在线处理模式的是()?【A.】批量计算【B.】流式计算【C.】手动计算【D.】交互处理【答案】B13下面不属于流式数据源的是()?【A.】硬盘数据【B.】传感器数据【C.】图像数据【D.】流媒体传输【答案】A14下面不属于流式数据的特点的是()?【A.】实时性【B.】层次性【C.】易失性【D.】突发性【答案】B15下面不属于大数据计算模式的类型的是()?【A.】批量计算【B.】手动计算【C.】流式计算【D.】交互式计算【答案】B16下面不属于数据流技术应用的方式是()?【A.】指定查询【B.】模糊查询【C.】即席计算【D.】中间计算【答案】B17下面不属于判断大数据应用成功的指标是()?【A.】创造价值【B.】具备高速度【C.】在本质上提高【D.】低性能【答案】D18基于任务的定义和分类,下列不属于可视分析关注点的是()?【A.】以用户价值为关注点【B.】以用户意图为关注点【C.】以同户行为为关注点【D.】以软件操作为关注点【答案】A19下面不属于企业大数据应用成功的考虑因素是()?【A.】成本【B.】客户满意度【C.】附加收益【D.】工人满意度【答案】D20下面不属于大数据在通讯行业的应用是()?【A.】预测客户行为【B.】市场监控【C.】智能电表【D.】市场预警【答案】C21MapReduce以什么方式进行分布式计算()?【A.】文本【B.】函数【C.】数据集【D.】矩阵【答案】B22在Hadoop中,将每一次计算请求称为一个()?【A.】文本【B.】函数【C.】数据集【D.】作业【答案】D23在Hadoop中,将每个作业拆分为若干个()?【A.】文本【B.】Map任务【C.】数据集【D.】Reduce任务【答案】B24在Hadoop中,作业服务器被称为()?【A.】Job【B.】Map【C.】Master【D.】Reduce【答案】C25下列不属于一个作业的计算流程的是()?【A.】作业开始【B.】作业修改【C.】Map任务分配【D.】Reduce任务执行【答案】B26下列不属于Map任务的执行的子步骤的是()?【A.】输入准备【B.】输入修改【C.】算法执行【D.】输出生成【答案】B27在MapReduce模型编程中,不属于其步骤的是()?【A.】遍历数据【B.】映射键值【C.】数据分组【D.】数据插补【答案】D28Hadoop的核心是()和MapReduce。
区间值决策表中基于相对优势邻域粒度的属性约简

区间值决策表中基于相对优势邻域粒度的属性约简
张晓燕;李璐
【期刊名称】《西南大学学报(自然科学版)》
【年(卷),期】2024(46)5
【摘要】现实生活中大量数据以区间值形式存在,此时区间值决策表并不是基于等价关系,传统的决策方法并不能解决这一问题.为此,本文在区间值决策表中引入相邻关系、相邻类的定义,进而由相邻类建立了区间决策表的相对优势邻域粒度,拓展了经典决策信息系统的相关方法,并利用相对优势邻域粒度研究了区间决策表属性约简的启发式算法,通过具体案例将得到的属性约简结果与代数约简进行了有效性验证,进一步丰富和完善了信息系统属性约简理论.
【总页数】10页(P67-76)
【作者】张晓燕;李璐
【作者单位】西南大学人工智能学院
【正文语种】中文
【中图分类】TP18
【相关文献】
1.相对知识粒度序决策表的属性约简方法
2.水平划分多决策表下基于相对粒度的隐私保护属性约简算法
3.区间值决策表中基于相对知识粒度的属性约简
4.区间值决策表中基于相对知识粒度的属性约简
5.可变精度邻域区间值决策表的属性约简
因版权原因,仅展示原文概要,查看原文内容请购买。
第四章 属性值约简(决策规则约简)

第四章 属性值约简(决策规则约简)§1 属性值约简属性约简分两类,一类是信息表约简,一类是决策表约简。
信息系统S ={U ,A }的约简,是对整个属性集A 进行约简,要求利用最少属性的属性集能提供与原属性集A 同样多的信息,在此若A a ∈是冗余属性,则是将a 去掉后则A -{a }与A 具有同样的分类能力,即有下面相同的等价类族:{}A U a A U =-若{}a A -是独立的,即{}a A -中任意去掉一个属性,都将改变其分类能力,则{}a A -就是A 的一个约简。
A 的约简是A 中独立的子集P 并且P 与A 具有同样的分类能力,而{}P A -中的属性对P 来说都是冗余属性。
信息表的特点是属性集A 不再划分为条件属性集和决策属性集。
对于决策表()D C A U T ==,来说,约简的情况不同,它不是针对整个属性集A 进行的,约简的只是条件属性集。
决策表的约简分两部分: 第一步:属性集约简若果C P ⊆,满足P 是关于决策属性集D 独立的,并且()()D Pos D Pos C P =,则P 是C 的D 约简。
C 中的所有D 约简的交()D RED C 称为C 的核,记作()C Core D 。
第二步:属性值约简设()D C U T ,=是一致性决策表,C P ⊆是C 的D 约简。
值约简是针对相对约简P 而言的,或说属性值约简是对决策表上每一条决策规则来说的。
关于决策规则中属性值约简,下面例题提供了属性值约简的理论依据。
决策表上一条决策规则的条件属性值可以被约去,当且仅当约去该属性值后,仍然保持该条规则的一致性,即不出现与该条规则不一致的规则。
约简算法的步骤为:1 约简属性集;2 约简决策规则,即属性值约简;3 从算法中消去所有过剩决策规则。
关于决策表的属性约简和决策规则的属性值约简,看下面例子。
例1 简化给定决策表,其中{}d c b a C ,,,=为条件属性集,{}e D =为决策属性集算法步骤:第一步:约简属性集:从决策表中,将属性A 中的属性逐个移去,每移去一个属性立刻检查其决策表,如果决策表中的所有决策规则不出现新的不一致,则该属性是可以被约去的,否则,该属性不能被约去,称这种方法为属性约简的数据分析法。
不一致决策表的知识约简方法研究_李凡

第21卷第8期V ol.21N o.8 控 制 与 决 策Contr ol andDecision 2006年8月 Aug.2006 收稿日期:2005-06-06;修回日期:2005-08-15. 基金项目:国家自然科学基金(天元)项目(A 0324638). 作者简介:李凡(1972—),男,江苏南通人,博士生,从事Ro ug h 集理论、智能信息处理等研究;杨国纬(1939—),男,重庆人,教授,博士生导师,从事人工智能、计算机网络等研究. 文章编号:1001-0920(2006)08-0857-06不一致决策表的知识约简方法研究李 凡,刘启和,叶 茂,杨国纬(电子科技大学计算机科学与工程学院,成都610054)摘 要:目前计算不一致决策表的分布约简、最大分布约简和分配约简的方法均基于可辨识属性矩阵,在大数据集下耗时较多.为此,提出转化算法,将计算原不一致决策表的上述3种约简转化为计算3种一致决策表的P awlak 约简.通过应用针对后者的高效启发式算法,有效地减少了计算时间.此外,引入 -约简的概念,通过调节 的值,能得到一族反映决策矢量不同水平相似程度的知识约简.该方法降低了分布约简对决策表区分能力的过高要求,较上述3种约简更为灵活.关键词:Ro ugh 集;知识约简;不一致决策表;Fuzzy 相似关系中图分类号:T P18 文献标识码:AApproaches to Knowledge Reductions in Inconsistent Decision TablesLI Fan ,L I U Qi -he ,YE M ao ,YA N G Guo -w ei(College o f Co mput er Science a nd Eng ineer ing,U niver sity of Elect ro nic Science and T echnolog y ,Cheng du 610054,China.Cor respondent :L I F an,E-mail:lifan987@to )Abstract :Ex isting ,appr oaches t o kno wledge reduct ions for t he distr ibut ion reduct ,the m aximum distr ibutio n reduct and the assignment r educt o f an inconsistent decision table ar e based o n discer nibility matrix es,w hich are ver y time-consuming when the dataset is lar ge.T o ov ercome this sho rt co ming ,an appro ach is pro po sed to conv ert the co mput atio n fo r t he t hree ty pes of r educts of the or ig inal inco nsistent decision table int o the computatio n fo r the Paw lak r educt of t hr ee types of derived co nsist ent decisio n t ables .T hus ,efficient heur istic kno wledg e reductio n alg or ithms fo r t he P aw lak reduct can be used t o reduce computational costs.F urther mor e,the -r educt,a new ty pe of r educts,is intr o duced.By tuning the par ameter ,a set o f reducts can be o bt ained,each o f w hich r eflects the differ ent level of similar it ies of decisio n v ector s .T he -r educt eliminat es the harsh r equir ement s of the distr ibutio nreduct a nd is mo re flexible than the thr ee types of r educts .Key words :R ough sets;Know ledg e reductio n;Inconsistent decision table ;Fuzzy similar ity relation1 引 言 知识约简(属性约简)是Rough 集理论的核心问题之一[1,2].所谓知识约简,就是在信息系统的分类或决策能力保持不变的前提下,删除其中不相关或不重要的属性.通过知识约简,可以在不丢失基本信息的前提下得到更简明的分类或决策规则.目前,学者们已提出了一些有效的知识约简算法[1~4],但这些研究大多集中于讨论决策表的Paw lak 约简,即决策表的正区域在约简前后保持不变.然而,为了从复杂的不一致决策表中获取符合实际需要的不确定性命题规则,必须从更多侧面研究不一致决策表的知识约简问题.为此,文献[5]讨论了不一致决策表5种形式的知识约简,指出只有分布约简(DR )和分配约简(AR )是基本约简形式,其他几种约简都与二者之一等价.文献[6,7]在此基础上提出另一种知识约简的概念,即最大分布约简(M DR ),并讨论了DR,M DR和AR之间的关系,给出了这3种知识约简相应的可辨识属性矩阵,从而得到了计算这3种知识约简的方法.本文在以上研究的基础上,继续讨论不一致决策表的知识约简问题.首先,基于可辨识属性矩阵的方法虽然可以求出所有的约简,但在决策表较大的情况下将消耗大量计算时间,因而对大数据集或计算时间有严格要求的应用而言,这种方法并不适合.为此,本文提出了针对DR,M DR和AR的转化算法,将计算原不一致决策表的这3种约简转化为计算3种一致决策表的Paw lak约简(PR),通过应用针对PR的高效启发式知识约简算法[3,4],可以有效减少计算时间的消耗.其次,DR对决策表的区分能力有严格的要求,因而对噪声数据较为敏感.MDR和AR虽然从不同侧面降低了对决策表区分能力的要求,但与DR 一样,仍然属于确定性约简,对于特定的应用,往往缺乏必要的灵活性.在以往的研究中,许多学者从不同侧面提出了利用参数来调节约简精度的思路[8,9].通过调节参数,引入一定程度的分类误差,即可按实际需要将信息系统的辨识能力控制在合适的水平.实践证明,这种处理方式能有效提高新出现个体的分类准确度.本文采用了这一思想,提出了一种新的不一致决策表知识约简的概念,即 -约简.通过定义个体间决策近似度,得到Fuzzy相似关系,并进一步转化为Fuzzy等价关系.通过计算其 截关系所对应的 -决策表的PR,即得到 -约简.通过调节参数 的值,能够得到一族平滑过渡的知识约简,其中的每个约简反映决策矢量间不同水平的相似程度,从而不仅降低了对决策表区分能力的要求,而且能更好地满足实际应用的需要.2 Rough集理论的基本概念 下面简要介绍Rough集理论的基本概念,详细内容参见考文献[1,2].定义1(信息系统) 一个信息系统可以表示为三元组:T=〈U,A,f〉.其中U,A均是非空有限集, U包含论域中所有个体,A包含所有的属性, a∈A,f a:U→V a,V a表示属性a的值域.如果属性集A 可以分为条件属性集C和决策属性集D,即C∪D =A,C∩D= ,则该信息系统也称为决策表,表示为DT=〈U,C∪D,f〉.在信息系统中,对于每个属性子集B A,可以定义不可区分关系IND(B): IND(B)={(x,y)∈U×U b∈B,b(x)= b(y)}.显然IND(B)是U上的等价关系,对象x在属性集B上的等价类记为[x]IND(B),[x]IN D(B)={y y ∈U,(x,y)∈IND(B)},在不产生混淆的情况下一般用B代替IND(B).定义2(集合近似) 在信息系统T=〈U,A,f〉中,对于论域个体子集X U和属性子集R A,定义两个集合R-X=∪{Y∈U/R Y X},(1)R-X=∪{Y∈U/R Y∩X≠ },(2)分别称为X的R下近似集和R上近似集.定义3(正区域) 在信息系统T=〈U,A,f〉中,若P A,Q A,定义Q的P正区域为POS P Q=∪X∈U/QP-X.(3) 定义4(一致决策表和不一致决策表) 在决策表DT=〈U,C∪D,f〉中,如果POS C D=U,则称DT为一致决策表,否则称DT为不一致决策表.一致决策表意味着IND(C) IND(D).一致决策表产生确定性命题,不一致决策表则产生不确定性命题. 3 不一致决策表知识约简的基本概念 定义5(决策矢量) 在不一致决策表DT=〈U,C∪D,f〉中,U/D={D1,D2,…,D n}, x∈U,定义其决策矢量为B(x)=(D(D1[x]B),D(D2[x]B),…,D(D n[x]B)),(4)其中D(D i[x]B)=D i∩[x]B[x]B ,i∈{1,2,…,n}.进一步记B(x)={D k D(D k[x]B)=m axj≤nD(D j[x]B)},(5) B(x)={D k D(D k/[x]B)>0}.(6) B(x)是由x最有可能被划分到的决策等价类组成,而 B(x)由x可能被划分到的决策等价类组成.定义6(不一致决策表的约简)[5~7] 在不一致决策表DT=〈U,C∪D,f〉中,B C.1)若POS B(D)=POS C(D),且B的所有真子集均不满足此条件,则称B为决策表DT的Pawlak 约简(PR). 2)若 x∈U,有 B(x)= C(x),且B的所有真子集均不满足此条件,则称B为决策表DT的分布约简(DR). 3)若 x∈U,有 B(x)= C(x),且B的所有真子集均不满足此条件,则称B为决策表DT的最大分布约简(M DR). 4)若 x∈U,有 B(x)= C(x),且B的所有真子集均不满足此条件,则称B为决策表DT的分配约简(AR). 由以上定义可知,PR保证约简前后决策表的858控 制 与 决 策第21卷正区域不变;DR 保证约简前后决策表中的个体在每个决策类上的隶属程度不变;M DR 保证约简前后决策表中的个体的最大分布决策类不发生变化;而AR 保证约简前后决策表中的个体的可能决策类不发生变化.4 针对分布约简、最大分布约简及分配约简的高效知识约简方法4.1 决策表转化算法若决策表DT =〈U ,C ∪D ,f 〉是一致决策表,则定义6中的4种知识约简是等价的,但在不一致决策表的情况下则有所不同.文献[6,7]研究了DR,M DR 和AR 之间的关系,提出了相应的判定定理和可辨识属性矩阵.由可辨识属性矩阵可以导出相应的辨识公式,通过求解其极小析取范式可求得所有的约简.但是,这种方法在决策表较大的情况下将消耗大量计算时间,因而对大数据集或计算时间有严格要求的应用并不适合.另一方面,通过长期的研究和实践,许多学者都提出了针对PR,特别是一致决策表PR 的高效启发式算法[3,4].因此,如果能将DR,M DR 和AR 的计算转化为计算相应的一致决策表的PR,则可以利用现有的高效启发式算法提高计算效率. 定理1 在不一致决策表DT =〈U ,C ∪D ,f 〉中,U /D ={D 1,D 2,…,D n },B C ,以下结论成立:1) x ∈U , B (x )= C (x )当且仅当 y ∈[x ]B , C (y )= C (x );2) x ∈U , B (x )= C (x )当且仅当 y ∈[x ]B , C (y )= C (x );3) x ∈U , B (x )= C (x )当且仅当 y ∈[x ]B , C (y )= C (x );证明 由B C ,不妨设[x ]B =∪mi =1[y i]C.1)必要性: y ∈[x ]B ,由题设,有 B (y )= C (y )及 B (x )= C (x ).而由 B (y )的定义,有 B (y )= B (x ),因此可得 C (y )= C (x )成立.充分性: D i ∈U /D ,有D (D i [x ]B )= D i ∩[x ]B[x ]B=∑mj =1D i ∩[y j ]C [y j ]C [y j ]C[x ]B,y j ∈[x ]B ,1≤j ≤m .由题设,有 C (y j )= C (x ),即D i ∩[y j ]C [y j ]C = D i ∩[x ]C[x ]C.所以D (D i [x ]B )= D i ∩[x ]C [x ]C ∑mj =1 [y j ]C [x ]B= D i ∩[x ]C [x ]C =D (D i[x ]C ).故有 B (x )= C (x ).2)必要性:类似1)的必要性成立的证明.充分性: y j ∈[x ]B ,1≤j ≤m ,不妨设 C (y j )= C (x )={D k }, D i ∈U /D ,可得D (D i [x ]B )= D i ∩[x ]B[x ]B≤ D k ∩[x ]C [x ]C ∑mj =1 [y j ]C [x ]B =D (D k[x ]C ),仅当i =k 等号成立,故有 B (x )= C (x ).3)必要性:类似1)的必要性成立的证明.充分性: D k ∈ B (x ),D (D k /[x ]B )>0,即 D k ∩[x ]B[x ]B = D k ∩[x ]C [x ]C ∑mj =1 [y ]j ]C [x ]B >0.故有D k ∩[x ]C[x ]C>0,因此D k ∈ C (x ).则 B (x )C (x ).另一方面,由于B C ,显然有 C (x ) B (x ).综上所述,有 B (x )= C (x ).□定义7(导出决策表) 将 C , C 和 C 作为决策属性,由不一致决策表DT =〈U ,C ∪D ,f 〉可导出3个决策表DT =〈U ,C ∪{ C },f ′〉,DT =〈U ,C ∪{ C },f ′〉,DT =〈U ,C ∪{ C },f ′〉.(7)其中f ′仅在个体的决策属性到决策属性值的映射上与f 不相同.对于决策属性,f ′ C(x )= C (x ),f′C(x )= C (x ),及f ′C (x )= C (x ),易证以上3个导出决策表均为一致决策表.定理2 在不一致决策表DT =〈U ,C ∪D ,f 〉中,B C ,以下结论成立:1)B 是DT 的PR 当且仅当B 是DT 的DR;2)B 是DT 的PR 当且仅当B 是DT 的M DR;3)B 是DT 的PR 当且仅当B 是DT 的AR.证明 仅证1),2)和3)类似可证.充分性:假设U /{ C }={D 1,D 2,…,D n }, D k∈U /{ C },假设[x ]C D k .因为B 是DT 的DR,故B (x )=C (x ),因此[x ]BD k .另一方面,由定理1, y ∈[x ]B , C (y )= C (x )成立,由此可得[y ]C D k ,从而易知C -(D k )=B -(D k ).这意味着POS C { c }=POS B { c },显然B 的任何真子集均不满足此条件,因此B 是DT 的PR.类似可证明必要性成立.□利用定理2,可以得到计算DR,M DR 和AR 的859第8期李凡等:不一致决策表的知识约简方法研究算法,描述如下:输入:不一致决策表DT=〈U,C∪D,f〉.输出:DT的DR(或M DR,AR)集RED.Step1:计算决策表DT的 C(或 C, C),从而得到DT (或DT ,DT );Setp2:应用高效启发式算法计算DT (或DT , DT )的PR,得到RED.根据定理2,算法最后得到的结果一定是一个DR(或M DR,AR),即本算法是完备的.4.2 算法复杂度分析下面分析算法的时间复杂度.Setp1首先应求出条件属性集C的等价类.如果Step2计算PR时采用基于排序的启发式算法[3],则求解条件属性的等价类是计算PR中的一步,不必单独统计其计算时间.此时只需考察每个条件等价类中的个体的决策属性取值情况,即可得到每个条件等价类与每个决策等价类交集的基数,继而得到 C(或 C, C),因而这种情况下时间复杂度是O( D U );如果Step2计算PR时采用基于数据库技术的算法[4],则必须单独用一步计算求出各条件等价类,采用文献[3]提出的算法,其时间复杂度为O( C U log U ),然后考察每个条件等价类中决策属性取值的情况,故总的时间复杂度为O( C U log U )+O( D U ).一般说,决策属性集D中一般只含有一个属性,则两种情况下Setp1的时间复杂度分别为O( U )和O( C U log U ).Setp2的时间复杂度取决于计算PR所用的算法.同样假定决策属性集D中只含有一个属性,若采用文献[3]提出的算法,时间复杂度为O( C 2 U lo g U ),而采用基于数据库技术的算法[4],时间复杂度进一步降为O( C U ).综上所述,视计算PR采用的算法的不同,求解DR, M DR或AR的时间复杂度为O( C 2 U lo g U )或O( C U log U ).在数据量较大时,无论哪种情况,本算法均较基于可辨识属性矩阵的算法更为有效.5 -约简 由定义6可知,DR保证约简前后决策表中每个个体在每个决策类上的隶属程度保持不变,约简后能最大限度地保持原决策表的信息.然而,在实际应用中,如果论域中两个个体的决策矢量原本相等,但由于数据受噪声的影响产生了微小差异,根据定理2,DR也必须区分这两个决策矢量,此时就对决策表的区分能力提出了不必要的要求.即使此时数据并没有受噪声影响,为提高新出现个体的分类准确程度,在很多应用中也并不需要精确区分两个较接近的决策矢量,因此需要定义一种约简,以避免这种对决策表区分能力的过高要求.为此,首先定义决策近似度,以此作为两个决策矢量是否视为相似的依据.定义8(决策近似度) 令 x,y∈U, A(x)= (x1,x2,…,x n), A(y)=(y1,y2,…,y n).x,y间的决策近似度定义为S(x,y)=∑ni=1x i y i∑ni=1x2i∑ni=1y2i.(8) 显然,S(x,y)是x与y的决策矢量间的夹角余弦值,这是一种常用的衡量二矢量是否接近的指标.从另一个侧面讲,S是U×U→[0,1]的一个映射,因此是U上的一个Fuzzy关系,并具有以下性质:性质1 对于不一致决策表DT=〈U,C∪D, f〉,S是U中的Fuzzy相似关系.证明 x,y∈U,由定义8易知S(x,x)=1及S(x,y)=S(y,x),即S满足自反性和对称性,因此是U上的Fuzzy相似关系.□因为S是U上的Fuzzy相似关系,所以S的 截关系是U上的相似关系.但在决策表中,要求决策属性构成对U的划分,而相似关系往往只能得到U的某个覆盖,因此S并不适合作为决策属性.为此需将S改造为某种Fuzzy等价关系,这可以通过求其传递闭包的方式进行处理.定理3 对于不一致决策表DT=〈U,C∪D, f〉中,S的传递闭包为[11]T S=S k,(9)其中k≥ U .TS为U上的Fuzzy等价关系,可以相应得到其 截关系T S 为如下形式:T S ={(x,y)∈U×U T S(x,y)≥ },(10)其中0≤ ≤1.T S 是U上的一个等价关系,可以构成对U的划分,记为U/TS , x∈U,包含x的等价类记为[x] .每个等价类中各元素间决策近似度大于等于 .进一步,将T S 看作原决策表的决策属性,则可以得到一个新的决策表.定义9( -决策表) 由不一致决策表DT=〈U,C∪D,f〉,可以导出 -决策表DT =〈U,C∪{T S },f ′〉.其中f ′仅在个体的决策属性到决策属性值的映射上与f不相同,对于决策属性,有f′TS(x)=[x] .易证DT 是一致决策表,相应定义原决策表DT的 -约简为:860控 制 与 决 策第21卷定义10( -约简) 决策表DT 的PR 称为决策表DT 的 -约简.显然,如果 =1,则DT 的 -约简即是DT 的DR.通过引入可调节参数 ,可以得到决策矢量在不同水平相似程度下的约简,即相当于对DR 引入程度可调的不一致,因而降低了DR 对决策表区分能力的苛刻要求.在实际应用中,得到T S 后即可进行 值的选择.选择的主要依据是用户的使用要求和数据中所含噪声数据的情况.如果不需要严格区分相近的决策矢量,或已知决策表中数据受噪声影响较大,则选择较小的 值,反之则选取较大的 值.此外,如果可估计某些数据受到噪声影响情况,则可以在S 矩阵中相应增大或减小相应的矩阵元素值.由此可见,这样处理不仅能得到符合实际需要的约简结果,而且能有效降低噪声数据对约简结果的影响,这样的处理方式相对于M DR 和AR 更为灵活.-约简的计算可分为两步,第1步需要计算T S 矩阵,继而求出TS .第2步构造DT 并计算约简.易知总的时间复杂度取决于计算TS 矩阵,其值为O ( U 3[lo g U ]),[x ]表示x 的整数部分.6 实例计算分析 下面通过一个实例来说明本文提出的计算不一致决策表约简的方法.决策表如表1所示,DT =〈U ,C ∪D ,f 〉.其中,U ={t 1,t 2,…,t 18},C ={a ,b ,c ,e ,f ,g },D ={d }.易得U /C ={{t 1},{t 2,t 3,t 14,t 15},{t 4,t 5,t 6},{t 7,t 8,t 9},{t 10,t 11,t 17,t 18},{t 12,t 13,t 16}}={C 1,C 2,C 3,C 4,C 5,C 6};U /D ={{t 1,t 2,t 12},{t 3,t 4,t 6,t 9,t 10,t 14,t 16,t 17,t 18},{t 5,t 7,t 8,t 11,t 13,t 15}}={D 1,D 2,D 3}.表1 实例决策表ab c e f g d t 10000000t 21000000t 31000001t 40111111t 50111112t 60111111t 70001002t 80001002t 90001001t 100111011t 110111012t 120011000t 130011002t 141000001t 151000002t 160011001t 170111011t 1811111 由定义7,可得到由表1导出的DT ,DT 和DT ,如表2所示(条件属性均为{a ,b ,c ,e ,f ,g },决策属性分别为{ C },{ C },{ C }).采用基于排序的启发式算法[3],由表2可分别计算出DR,MDR 和AR;由表1可直接计算出PR.计算结果如表3所示.表2 由表1导出的各种决策表a b c e f g C C C C 1000000(1,0,0) 1 1C 2100000(1/4,1/2,1/4) 2 2C 3011111(0,2/3,1/3) 3 3C 4000100(0,1/3,2/3) 4 4C 5011101(0,3/4,1/4) 5 5C 611(1/3,1/3,1/3)66表3 实例决策表4种约简的计算结果分布约简最大分布约简分配约简Pawlak 约简{a ,b ,c ,e ,f }{a ,b ,c ,e }{a ,b ,c ,e }{a ,e } 表2中: 1={D 1}, 2={D 2}, 3={D 2}, 4={D 3}, 5={D 2}, 6={D 1,D 2,D 3}; 1={D 1}, 2={D 1,D 2,D 3}, 3={D 2,D 3}, 4={D 2,D 3}, 5={D 2,D 3}, 6={D 1,D 2,D 3}.下面计算表1所示实例决策表的 -约简.由表2可求得Fuzzy 相似关系S 和Fuzzy 等价关系T S 为S =10.4080000.5780.40810.9130.7300.9040.94300.91310.80.9900.77500.7300.810.7070.77500.9040.9900.70710.7310.5780.9430.7750.7750.7311,T S =10.5780.5780.5780.5780.5780.57810.9130.80.9130.9430.5780.91310.80.9900.9130.5780.80.810.80.80.5780.9130.9900.810.9130.5780.9430.9130.80.9131.则在 = 1.0, =0.99, =0.943, =0.913和 =0.8时,可分别得到U /TS 1.0={{C 1},{C 2},{C 3},{C 4},{C 5},{C 6}},U /TS 0.99={{C 1},{C 2},{C 3,C 5},{C 4},{C 6}},U /TS 0.943={{C 1},{C 2,C 6},{C 3,C 5},{C 4}},U /TS 0.913={{C 1},{C 2,C 3,C 5,C 6},{C 4}},U /TS 0.8={{C 1},{C 2,C 3C 4C 5,C 6}}. 采用基于排序的启发式算法[3],可以分别求得在这个水平下表1所示实例决策表的 -约简,如表4 不同 水平下实例决策表的 -约简10.990.9430.9130.8861第8期李凡等:不一致决策表的知识约简方法研究表4所示: 从表4可见,通过调节 的值,由 -约简可以得到一族平滑过渡的知识约简,并且其中包括了实例决策表的DR,MDR,AR以及PR.7 结 论 在实际应用中,由于数据获取或数据处理方面的原因,决策表往往是不一致的.为了从中得到简洁的不确定性命题规则,必须对其进行知识约简.本文从以下两个方面对这个问题进行了探讨.首先,对不一致决策表的DR,M DR和AR,目前的约简方法是通过构造可辨识属性矩阵和相应的辨识公式求解约简.这样的方法在决策表很大或对计算时间有严格要求的场合并不适用.为此,本文提出了针对这3种约简的转化算法,将计算原不一致决策表的这3种约简转化为计算3种一致决策表的PR,进而通过应用针对PR的高效启发式算法,可以有效地减少计算时间的消耗.其次,DR对信息系统区分能力的要求比较苛刻,针对实际应用而言,这种约简不仅缺乏灵活性,而且易受到噪音数据的影响.针对这些缺点,本文提出了一种新的不一致决策表知识约简的概念,即 -约简.通过调节参数 的值,对原决策表引入可调节的额外不一致,从而可以得到一族平滑过渡的知识约简,其中的每个约简反映决策矢量间不同水平的相似程度.相对于上述3种约简, -约简有更好的灵活性,因此能更好地满足实际应用的需要.参考文献(References)[1]P aw lak Z,G rzymala-Busse J,Slow inski R,et al.R ough Sets[J].Communication of the A CM,1995,38(11):89-95.[2]P aw lak Z.So me Issues on R ough Set s[J].T r ans onR ough Sets I,L N CS3100,2004:1-58.[3]刘少辉,盛秋戬,吴斌,等.Roug h集高效算法研究[J].计算机学报,2003,26(5):524-529.(L iu S H,Sheng Q J,W u B,et al.R esear ch on Efficient A lg or ithms for R ough Set M ethods[J].Chinese J of Comp uter,2003,26(5):524-529.)[4]Han J C,Hu X H,L in T Y.A New Com putationM o del for Roug h Set T heor y Based on Database Systems[A].DaW aK2003,L N CS2737[C].Ber lin: Spr ing er-Ver lag Heidelber g,2003:381-390.[5]K ry szkiew icz M.Co mparative Study o f A lt ernativeT y pes o f Kno wledge R eductio n in Inco nsist ent Systems [J].I nt J of I ntellig ent Sy stems,2001,16(1):105-120.[6]Zhang W X,M i J S,W u W Z.A ppro aches t oK no wledge Reduct ions in Inconsistent Infor mation Systems[J].I nt J of I ntelligent S y stems,2003,18(9): 989-1000.[7]张文修,米据生,吴伟志.不协调目标信息系统的知识约简[J].计算机学报,2003,26(1):12-18.(Zhang W X,M i J S,Wu W Z.Ko nwledg e Reductions in I nco nsistent Infor matio n Systems[J].Chinese J of Comp uter,2003,26(1):12-18.)[8]Ziar ko W.V ar iable P recisio n R oug h Set M o del[J].Jof Comp uter Sy stems and Science,1993,46(1):39-59.[9]N guyen H S,Slezak D.A ppr ox im atio n Reducts andA sso ciatio n Rules Cor respondence and Co mplex it yResults[A].Pr oc of RSF DGr C'99,L N A I1711[C].Ber lin:Spring er-V erlag Heidelberg,1999:137-145.[10]L i F,L iu Q H,Y ang G W.A Heur istic A lg or ithm forA ttr ibute Reductio n in Inco mplete Infor mationSy st ems[A].Pr oc of I S I CA2005[C].W uhan:China U niver sity o f Geo sciences of P ress,2005:574-580. [11]杨纶标,高英仪.模糊数学原理及应用[M].广州:华南理工大学出版社,2000:112-125.(Y ang L B,Gao Y Y.Fuz z y M ath T heor y andA p p lications[M].G uang zhou:South ChinaU niver sity o f T echnolog y o f Pr ess,2000:112-125.) (上接第847页)[39]Rofer T,J ng el M.V isio n-based F ast a nd R eact ive M onte-car lo L ocalizatio n[A].Pr oc of the I E EE I nt Conf on Robotics and A utomation(I CRA-2003)[C].T aipei,2003:856-861.[40]Bo gdan K.Finding L ocat ion U sing a P art icle F ilterand Histo g ram M atching[A].P roc of A r tif icialI ntelligence and Sof t Comp uting[C].P oland:Spr ing er,2004:786-791.[41]A ndr ew H,Sa jid S.A n Ex perimental Study ofL o calization U sing Wir eless Ether net[A].Pr oc of theI nt Conf on Field and Serv ice Robotics[C].L akeY amanaka,2003:201-206.[42]M eneg atti E,P rett o A,Pag ello E.A N ew Omni-dir ectio nal V ision Senso r for M onte-car lo L o ca lization[A].Pr oc of the8th RoboCup I nt Sy mp osium[C].Berlin:Spr inger,2005:97-109.862控 制 与 决 策第21卷。
基于集对分析自洽算法的区间数多属性决策

基于集对分析自洽算法的区间数多属性决策陆广地【摘要】多属性决策是当前决策管理界比较热门的问题,对解决评价的多元与差异的不确定性应用广泛.其中区间数问题决策是处理问题的较好方式,对于同一个区间数多属性决策管理,可以通过不同算法得到不同的决策结果,为了择优和综合评优,以集对分析为基础提出自洽算法,应用事例说明此法具有独特的有效性和客观合理性.【期刊名称】《德州学院学报》【年(卷),期】2017(033)004【总页数】6页(P92-97)【关键词】区间数;多属性决策;集对分析;联系数;自洽算法【作者】陆广地【作者单位】江苏联合职业技术学院宿迁经贸学院, 江苏沭阳 223600【正文语种】中文【中图分类】TP301由于科研、工作、生产中存在种种不确定性,多属性决策是实际决策工作中的热点问题.常常无法决策用属性数据作定量刻画;在这种情况下,区间数多属性决策受到决策者的欢迎.因为用一个区间数表示某个决策用属性值,既方便又客观.但原先用精确数表示的确定性决策就演变成具有一定范围的多属性决策.从数学微观分析,区间数是一种具有不确定性的实数,把一些专家评委的打分进行适当的技术处理(比如,去掉一个最高分和最低分,或者进行一些加权的个别处理),所得数据分布在一个数据区间数内,在形式和合理性上是完全成立的.但由此引出需要深入研究的问题:例如,如何对区间数多属性决策建立数学模型并借助一定的数学运算作出决策?如何保证区间数多属性决策的客观合理性和科学性?在区间数多属性决策中的各个方案的优劣排序是否一致?是否允许有不同的排序?当有不同排序时,又如何确定出最优方案?根据文献检索,到目前为止,一部分文献的工作是对区间数多属性决策中的方案按某种特定的规则作出唯一确定的优劣排序,并建议决策者择优方案作决策[1-8];但也有文献作者本着对不确定性多属性决策大胆探索的科学精神,研究和讨论在同一个区间数多属性决策问题中不同方案在不同条件下的不同排序,后者主要是以集对分析联系数为数学工具的区间数多属性决策研究,详见文献[9-18].由于这种研究较好地应用了集对分析理论中关于系统的确定性与不确定性相互联系,相互影响的辩证思想,建模规范,算法灵活,应用广泛,近期相关成果集中反映在文献[18]中.但文献[18]并没有专门研究同一区间数多属性决策采用不同的集对分析联系数算法导致不同结果时,如何择优决策的问题.为此,本文研究了这一问题,并参考文献[19]的思想,提出集对分析自洽算法用于区间数多属性决策研究,实例表明了集对分析自洽算法有一定的实用性和优越性.2.1 集对集对是指由一定联系的2个集合组成的对象.设有集合E和集合F,若记E和F组成的对象用H表示,则有集对的例子比比皆是,如招标单位和投标单位、参赛对象与评委、创业比赛项目与评价人、招聘单位与应聘对象、教师、教科书与学生、教师、作业与学生、教材与教案、读书、考研、考公务员与就业的不同选择、同时开设的多门课程、决策中的多种属性(指标),等等.2.2 集对分析在一定的问题背景下,分析集对中2个集合的全部关系,并把这些关系分成确定性的关系和不确定性的关系2类,用联系数刻画这2类关系的数量或比例,得到一个集对的特征函数,再对特征函数展开分析或有关数学建模与运算解决给定的问题,这是集对分析的基本思路.2.3 联系数联系数是集对分析的特征函数.当集对H中的2个集合E和F的全部关系仅分成确定的关系和不确定的关系两大类且不计关系的权重时,则用作为集对H的特征函数.式(2)也称为二元联系数,因其有A,B两个联系分量,A是确定的关系数,B是不确定关系数,i作为B的系数,在[-1,1]中视不同情况取值,即i∈[-1,1],具有不确定性,从而使B表示不确定关系数的内涵得到形式上的外显.对式(2)作归一化处理时,可令N=A+B,a=A/N,b=B/N即式(3)也称为二元联系度,a为H中2个集合的确定性测度,b为不确定性测度;当给定以确定性测度为参考测度时,a称为(与a的)同一度,简称同一度;b为(与a的)差异度,简称差异度,这时也称式(3)为同异联系度.若把i取值-1的情况单独列出,并用j=-1加以表示,则由式(3)得称式(4)为同异反联系度,或3元联系度,其中a+b+c=1,c称为与a性质相反的对立度.沿着以上思路,可以进一步导出4元、5元等多元联系数,但是本文主要用到2元,3元联系数.3.1 普通运算对于2个或2个以上联系数,可以进行普通的加减、乘除,方幂和开方运算,这里仅介绍与本文有关的联系数运算,另外,为简明计,仅以μ作为运算单位加以说明.设μ1,μ2,μ3,μ是4个联系数,则可以有以下加法运算1)加法运算2)乘法运算3)加乘混合运算设k为常数,则有4)幂运算由于除法运算是乘法运算的逆运算,开方运算又可以看作是一个联系数自乘结果的逆运算,所以可以由联系数的乘法运算导出其除法运算和开方运算,具体导出过程从略,可见相关文献和下面关于二元联系数的运算举例.3.2 二元联系数的运算二元联系数是最基本的一种联系数,而且在区间数多属性决策建模研究中也主要地是应用二元联系数,所以把二元联系数作为以上各种运算的例子加以说明.设有3个二元联系数:μ1=a1+b1i1,μ2=a2+b2i2, μ3=a3+b3i3(aK+bK=1,k=1,2,3;i1=i2=i3=i∈[-1,1])则有1)加法运算μ1+ μ2= (a1+b1i1)+(a2+b2i2)=(a1+a2)+(b1+b2)i2)乘法运算μ1 μ2= (a1+b1i1)(a2+b2i2)=a1a2+a1b2i2+a2b1i1+b1b2i1i2=a1a2+(a1b2+a2b1)i+b1b2i2如引入约简公式i=i2=i3=in (n=1,2,3,…)得μ1 μ2=a1a2+(a1b2+a2b1+b1b2)i有关联系数的除法运算与矩阵运算等,因与本文研究关系不大,在此不再介绍,其中(15)式也称为三元二次联系数.4.1 联系数的伴随函数联系数是一种结构函数,携带着相应的结构信息,联系数的伴随函数就是这种结构信息的数学表达,由文献[9-17]可知,目前常用的联系数伴随函数有以下5种.1)势函数.设μ为联系数,则势函数记为Shi(μ),其定义为一个联系数的首项与末项之比.对于二元联系数对于三元联系数2)相互作用函数.设μ为联系数,则其相互作用函数记为In(μ)(Interaction funvtion),其定义对于二元联系数对于三元联系数3)偏联系数.设μ为联系数,则其偏正联系数记为∂μ对于二元联系数对于三元联系数此外,还有偏负联系数和全偏联系数等概念,因与本文关系不大,这里略过.4)态势函数.设μ为联系数,则其态势函数通常用矩阵表示,对于二元联系数,有共有三种状态势(映射结果)对于三元联系数,有27种状态,见文献[18].本文中用不到三元联系数态势函数,故这里不再赘述.4.2 自洽算法由上节可知,所谓联系数的伴随函数,是指对于同一个联系数中的2个或2个以上联系分量作不同的运算而得到的函数.这种对于同一个联系数施行不同运算的方法,本文称之为基于集对分析的联系数的自洽算法,简称为集对分析自洽算法.与集对分析自洽算法相对应的是集对分析非自洽算法,也即是把集对分析与非集对分析方法相结合的综合方法,见文献[19].5.1 区间数定义1 设a、b是两个实数,且a<b,则称(a,b)为区间数.其中a为区间数的下界,b 为区间数的上界.当要考虑区间数的上、下界是可以变动的量时,常记区间数的下界为x-,区间数的上界为x+,于是得到区间数的一般表示式为5.2 区间数向联系数的转换鉴于区间数x的内部有无穷多个值x1,x2,…,xn(n→∞)可以任意选取,为此参考概率统计理论,令x的期望值a与x的上界x+的离差为b,即称式(28),(29)为区间数向联系数的转换公式.考虑一所大学的5个学院S1,S2,S3,S4,S5的教育、科研、服务状况的多属性综合评估问题,各属性数据及其属性权重均为区间数,详见表1,其中的教育Q1,科研Q2,服务Q3都是越大越好的效益型属性.试对这5所学院作综合评估和给出优劣排序.分析:第1步先利用式(28,29)把表1中的属性权重及属性值都转换成基于期望的二元联系数,得到表2.第2步把表2中各属性权重计入到各属性值中得到决策矩阵.第3步运用二元联系数的加法规则和表3中的各学院属性值求得各学院的综合评估联系数如下μ(S1)=0.1913+0.0111iμ(S2)=0.2067+0.0139iμ(S3)=0.2047+0.0118iμ(S4)=0.1897+0.0116iμ(S5)=0.1918+0.0112i第4步对5个学院作出初排序(1)按照μ(Sk)(k=1,2,3,,4,5)中同一度最大值排序优劣得(2)对5个学院的μ(Sk)作不确定性分析.为方便计,分别计算当i=0,i=-1,i=1,i=ak/(ak+bk)时,μ(Sk)的值,按值从大到小作出优劣排序,结果在表4中. (3)分别对5个学院的μ(Sk)求相互作用联系数I n(μ(Sk))=akbk,模函数,势函数Shi(μ(Sk))及偏正联系数∂(μ(Sk)),并按这些伴随函数值的从大到小作方案排序,结果在表5中.(4)对5个学院的属性值作加权计算,用关于i的2次幂函数表示,得表6.记为μ2(Sk),对μ2(Sk)作不确定性分析,分别取i=0,i=1,i=-1计算,结果在表7中. 第5步对5个学院作出终排序.分别统计对μ1(Sk)和μ2(Sk)不确定性分析(i的不同值)时,每个学院的序数和(见表8).表8汇集了5个学院在μ(Sk)为1次联系数和2次联系数作不确定性分析7种情况下的排序号变化情况,容易看出,5个学院的综合评估为S2>S3>S5>S1>S4是合理的.表9则是按μ(Sk)伴随函数值的大小作排序的序数和.表9汇集了5个学院作基于μ(Sk)伴随函数(相互作用函数,模函数,势函数,偏联系数,二次联系数及其不确定性分析)几种情况下的排序号变化情况,容易看出,5个学院的综合评估排序为S2>S3>S5>S1>S4.这一排序与根据表8作出的排序完全相同,尽管各学院的序数和不同.1)本文研究表明,对于同一个区间数多属性决策问题,可以选择不同的角度应用集对分析联系数建立决策模型,从理论来说,这些不同的决策模型与不同的算法,从数学形式上映射出区间数多属性决策的不确定性,依据样本对总体参数作出推断,符合统计学原理.2)在同一个区间数多属性决策问题中所应用到的集对分析方法,是相互联系着的一组方法,它们从不同角度刻画区间数多属性决策属性值与属性权重不确定性.因此在本质上是自洽的,正是在这一点上,本文称之为是集对分析自洽算法.由于本文侧重于研究区间数多属性决策中集对分析自洽算法的应用,所以对两个二元联系数乘积的线性表示与非线性表示之间的内在关系不作深入研究.3)本文没有深入具体的介绍有关学者参考复数理论把二元联系数表示成三角函数式的做法;也没有具体介绍叶跃祥博士对属性权重和决策矩阵都为区间数的多属性决策问题提出的“完美点法”,但也有一些研究者的复联系数法与叶跃祥博士提出的“完美点法”仍然可以看作集对分析自洽算法集中的一种方法,特别是这两种方法都有应用于本文例子的文献,而且这两种方法就5个学院的综合评估排序结果都是S2>S3>S5>S1>S4,此外还有赵克勤先生在文献[18]中给出的基于“均值-方差联系数”的多属性决策模型,也用到本文的讨论实例,得到的排序也是S2>S3>S5>S1>S4,从一个侧面说明集对分析自洽算法的自洽性.4)联系数的这2个伴随函数不适宜用来作状态评估,而只能做趋势评估.因为系统的状态和这种状态的趋势是不同的两码事.前面把由这二种算法得到的结果与直接利用联系数联系分量作不确定性分析(i的不同值)的排序结果放在一起讨论,是因为不影响最终的排序结论;另一方面也揭示对区间数多属性决策的集对分析可以分为基于状态的集对分析和基于趋势的集对分析2个类型,相应的集对分析自洽算法也因此可分成基于系统状态的集对分析自洽算法(包括i的不同值的不确定分析法,基于确定性与不确定性相互作用原理的相互作用函数方法,基于μ(Sk)模的排序法)和基于系统趋势的集对分析自洽算法(势函数法,偏联系数法)是否还可以从其它角度分类,则有待进一步研究.集对分析在多属性决策管理有了不少应用.本文用联系数的不同算法分析和处理同一个区间数多属性决策问题的不确定性,为最优化的自动化管理提供了理论依据和决策支撑,这种自洽算法是一个新概念,需要联系实际情况进行更多的比较分析,得出稳妥成熟的算法步骤.这种新算法的意义在于在其他管理决策范围推广应用集对分析,发现其普适性,比如面临系统预测时,能否应用这种自洽算法,使大数据决策具有更大的准确性,这是未来需要探讨的问题.【相关文献】[1]孙海龙,姚卫星.区间数排序方法评述[J].系统工程学报,2010,26(3):304-312.[2]叶跃祥,糜仲春,王宏宇,等.一种基于集对分析的区间数多属性决策方法[J].系统工程与电子技术,2006,28(9):1344-1347.[3]高峰记,杨文哲.指标排序条件下的多指标区间决策[J].数学的实践与认识,2014,44(21):179-185.[4]刘万琳,屈春丽.基于AHP和区间数排序可能度法的工程项目综合评估法研究[J].数学的实践与认识,2014,44(21):100-106.[5]刘健.刘思峰.属性值为区间数的多属性决策对象排序研究决策[J].中国管理科学,2010,27(3):90-94.[6]王坚强,吴建文.基于区间灰色不确定语言的多准则决策方法[J].中国管理科学,2010,27(3):107-111.[7]张方伟,王炜,赵德.一种基于分层法的区间数多属性决策方法及应用[J].系统工程理论与实践,2014,34(11):2881-2884.[8]朱方霞,陈华友.区间多属性决策问题研究综述[J].模糊系统与数学,2013,27(3):149-159.[9]高峰记.可能度及区间数综合排序[J].系统工程理论与实践,2013,33(8):131-138.[10]王坚强,龚岚.基于集对分析的区间概率随机多准则决策方法[J].控制与决策,2009,24(12):1877-1880.[11]盛文平,杨明军,王威.基于联系数的空中目标威胁评估模型[J].舰船电子工程,2010,30(7):39-41.[12]谭乐祖,杨明军.采用区间数的集对分析目标威胁判断模型[J].电光与控制,2011,18(2):73-76.[13]刘秀梅,赵克勤.基于联系数复运算多多属性决策方法及应用[J].数学的实践与认识,2008,38(23):57-64.[14]韦美雁.一种基于最小偏差的联系数我属性决策方法[J].数学理论与应用,2016,36(1):118-124.[15]张美恋.区间数多属性决策在课堂教学质量评价中应用[J].宁德师院学报(自科版),2014,26(20):178-181.[16]尤天慧,高美丽.一种基于误差分析的区间数多属性决策方法[J].系统工程教师,2014,23(2):224-228.[17]王万军.一种基于三元联系数的语言区间信息集结方法[J].计算机工程与应用,2014,50(17):219-222.[18]刘秀梅,赵克勤.区间数决策集对分析[M].北京:科学出版社,2014:1-243.[19]汪明武,全菊良,周玉良.集对分析洽方法与应用[M].北京:科学出版社,2014:1-188.[20]陆广地,等.用偏联系数与态势函数对高校评价的聚类分析[J].数学的实践与认识,2015,45(19):50-59.。
优势-等价关系下区间值目标信息系统的分布约简

优势-等价关系下区间值目标信息系统的分布约简谢文琼;林国平【摘要】在优势-等价关系下区间值目标信息系统中,首先描述了分布约简和最大分布约简的概念,随之给出了二者之间的关系,相继讨论分布约简的判定定理以及对应的辨识矩阵,提出在优势-等价关系下的区间值目标信息系统分布约简的详细计算方法.【期刊名称】《齐齐哈尔大学学报(自然科学版)》【年(卷),期】2016(032)006【总页数】6页(P72-77)【关键词】优势-等价关系;区间值目标信息系统;分布约简;最大分布约简【作者】谢文琼;林国平【作者单位】闽南师范大学数学与统计学院,福建漳州363000;闽南师范大学数学与统计学院,福建漳州363000【正文语种】中文【中图分类】O159粗糙集理论[1]于20世纪80年代初,经过30年的发展,已经形成相对完备的知识体系,而且取得了十分丰富的应用成果。
粗糙集理论是处理信息系统中包含的不精确性的科学计算工具。
目前,它已经在信息系统分析、模式识别、机器学习及决策支持系统等领域中有着广泛应用[2-5]。
众所周知,粗糙集是以完备信息为研究对象,并以等价关系为根本,划分论域,划分得越细,信息越充分。
在知识库中,有些知识是多余的。
而在知识处理的过程中,这些多余的知识必然产生不必要的计算量。
因此,知识约简的动机与背景就是在知识处理之前删除这些多余的知识,进而减少计算量。
知识约简是粗糙集应用的核心内容之一,也是信息获取的重要步骤,经过研究人员的不断钻研摸索,已取得丰硕的成果[6-10]。
我们发现,近年来人们对信息系统的研究领域主要是基于等价关系,但是,如噪音、信息丢失、缺损等各种原因一直存在于现实问题中,因此,基于复杂的优势关系下信息系统的知识约简,受到了国内外的关注。
区间值目标信息系统是信息系统的一类重要分支。
研究学者已做了大量的研究与探讨[11-14]。
本文在不协调区间值目标信息系统中,对决策属性进行等价划分,定义了优势-等价关系下区间值目标信息系统分布约简和最大分布约简的概念,随之给出二者之间的关系,并相继讨论分布约简的判定定理以及对应的辨识矩阵,提出在优势-等价关系下的区间值目标信息系统分布约简的可行性操作办法,丰富了粗糙集理论。
垂直分布多决策表下基于条件信息熵的近似约简

垂直分布多决策表下基于条件信息熵的近似约简
杨明;杨萍
【期刊名称】《控制与决策》
【年(卷),期】2008(23)10
【摘要】目前粗糙集理论研究主要针对单个决策表,而有关分布式环境下的核求解和属性约简研究的报道不多,为此提出垂直分布多决策表下基于条件信息熵的近似约简算法.该算法在各局部站点并行求相应的条件信息熵,并通过传送部分等价类的策略,可有效降低通讯代价,提高垂直分布多决策表下基于条件信息熵的近似约简效率.算法分析和实验结果表明,所提出的算法是有效可行的.
【总页数】6页(P1103-1108)
【关键词】粗糙集;条件信息熵;全局属性核;局部属性核;近似约简
【作者】杨明;杨萍
【作者单位】南京师范大学数学与计算机科学学院
【正文语种】中文
【中图分类】TP311
【相关文献】
1.决策表中基于条件信息熵的近似约简 [J], 杨明
2.基于条件信息熵的决策表约简 [J], 王国胤;于洪;杨大春
3.基于信息熵的信息系统及决策表的属性约简 [J], 王静;屈玲玲;孙宗剑
4.优势关系下决策表的下近似约简方法研究 [J], 廖毅强;桂现才
5.基于多特定类的序决策表下近似约简 [J], 于天佑; 张楠; 岳晓冬; 童向荣; 孔贺庆因版权原因,仅展示原文概要,查看原文内容请购买。
基于连续型决策表属性均值聚类约简算法

基于连续型决策表属性均值聚类约简算法
傅德月
【期刊名称】《计算机应用》
【年(卷),期】2010(0)6
【摘要】针对粗糙集对于连续域属性决策表的处理能力差以及不容易获得模糊集之间关系等问题,提出一种基于连续型属性的硬C均值(HCM)聚类约简算法.该算法首先引入三角隶属度函数将连续属性值转化为模糊值,并使用HCM聚类方法获得数据集之间关系.实例验证表明:采用该算法,用户可以根据实际决策需要和领域知识更改阈值,从而获得满意的属性结果.
【总页数】3页(P1536-1538)
【作者】傅德月
【作者单位】四川邮电职业技术学院,通信工程系,成都,610067
【正文语种】中文
【中图分类】TP301
【相关文献】
1.决策表中基于属性重要性的属性约简算法研究 [J], 汤伟;徐甜
2.基于多属性模糊C均值聚类的属性约简算法 [J], 李诗瑾;李倩;徐桂琼
3.基于元素约简的决策表属性约简算法 [J], 黄国顺
4.基于宽松下近似概念的连续型决策表的属性约简方法 [J], 张群峰;张天一
5.基于属性分辨度的不完备决策表属性约简算法 [J], 纪霞;李龙澍;齐平
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
软件学报ISSN 1000-9825, CODEN RUXUEW E-mail: jos@Journal of Software,2014,25(9):2119−2135 [doi: 10.13328/ki.jos.004640] +86-10-62562563 ©中国科学院软件研究所版权所有. Tel/Fax:∗大数据环境下多决策表的区间值全局近似约简徐菲菲1, 雷景生1, 毕忠勤1, 苗夺谦2, 杜海舟11(上海电力学院计算机科学与技术学院,上海 200090)2(同济大学电子与信息工程学院,上海 200092)通讯作者: 徐菲菲, E-mail: xufeifei@摘要: 在电力大数据中,很多具体的应用如负荷预测、故障诊断都需要依据一段时间内的数据变化来判断所属类别,对某一条数据进行类别判定是毫无意义的.基于此,将区间值粗糙集引入到大数据分类问题中,分别从代数观和信息观提出了基于属性依赖度和基于互信息的区间值启发式约简相关定义和性质证明,并给出相应算法,丰富和发展了区间值粗糙集理论,同时为大数据的分析研究提供了思路.针对大数据的分布式存储架构,又提出了多决策表的区间值全局约简概念和性质证明,进一步给出多决策表的区间值全局约简算法.为了使得算法在实际应用中取得更好的效果,将近似约简概念引入所提的3种算法中,通过对2012上半年某电厂一台600MW的机组运行数据进行稳态判定,验证所提算法的有效性.实验结果表明,所提的3种算法均能在保持较高分类准确率的条件下从对象和属性个数两方面对数据集进行大幅度缩减,从而为大数据的进一步分析处理提供支撑.关键词: 大数据;区间值;近似约简;多决策表;全局约简中图法分类号: TP181中文引用格式: 徐菲菲,雷景生,毕忠勤,苗夺谦,杜海舟.大数据环境下多决策表的区间值全局近似约简.软件学报,2014,25(9):2119−2135./1000-9825/4640.htm英文引用格式: Xu FF, Lei JS, Bi ZQ, Miao DQ, Du HZ. Approaches to approximate reduction with interval-valued multi-decision tables in big data. Ruan Jian Xue Bao/Journal of Software, 2014,25(9):2119−2135 (in Chinese)./1000-9825/4640.htmApproaches to Approximate Reduction with Interval-Valued Multi-Decision Tables in BigDataXU Fei-Fei1, LEI Jing-Sheng1, BI Zhong-Qin1, MIAO Duo-Qian2, DU Hai-Zhou11(College of Computer Science and Technology, Shanghai University of Electric Power, Shanghai 200090, China)2(College of Electronic and Information Engineering, Tongji University, Shanghai 200092, China)Corresponding author: XU Fei-Fei, E-mail: xufeifei@Abstract: For the big data on electric power, many specific applications, such as load forecasting and fault diagnosis, need to consider datachanges during a period of time to determine their decision classes, as deriving a class label of only one data record is meaningless. Based on theabove discussion, interval-valued rough set is introduced into big data classification. Employing algebra and information theory, this paperdefines the related concepts and proves the properties for interval-valued reductions based on dependency and mutual information, and presentsthe corresponding heuristic reduction algorithms. The proposed methods can not only enrich and develop the interval-valued rough set theory,but also provide a new way for the analysis of big data. Pertaining to the distributed data storage architecture of big data, this paper furtherproposes the interval-valued global reduction in multi-decision tables with proofs of its properties. The corresponding algorithm is also given. Inorder for the algorithms to achieve better results in practical applications, approximate reduction is introduced. To evaluate three proposedalgorithms, it uses six months’ operating data of one 600MW unit in some power plant. Experimental results show that the three algorithms∗基金项目: 国家自然科学基金(61272437, 60305094); 上海市教育委员会科研创新项目(12YZ140, 14YZ131); 上海市自然科学基金(13ZR1417500)收稿时间:2014-03-31; 定稿时间: 2014-05-142120 Journal of Software软件学报 V ol.25, No.9, September 2014proposed in this article can maintain high classification accuracy with the proper parameters, and the numbers of objects and attributes can both be greatly reduced.Key words: big data; interval-value; approximate reduction; multi-decision tables; global reduction随着云计算、物联网、移动互联网等新兴信息技术的发展,将人类带进了大数据时代,无处不在的大数据成为了各界关注的焦点[1−9].有调查指出,如今大规模的企业系统包括由分布在不同位置的上千台服务器所构成的完整数据中心[10].如何从分布式存储的大数据中快速、准确地挖掘其潜在的价值,将大数据转化为经济价值的来源,日益成为企业超越竞争对手的有力武器.分布式存储的大数据呈现出许多鲜明的特征:数据体量巨大,数据种类繁多,流动速度快,价值密度低,这些对大数据的处理能力和效率提出了更高的需求.与以往的数据分析不同,对大数据的分析处理不再一味热衷于追求精确度和寻找因果关系[11].面对海量的即时数据,适当忽略微观层面上的精确度可以在宏观层面拥有更好的洞察力.同样,在大数据时代,寻求事物之间的相关关系而无须紧盯事物之间的因果关系,可以提供非常新颖且有价值的观点.在很多实际大数据环境中,均存在着大量的不确定性因素,采集到的数据往往包含着噪声、不精确甚至不完整.粗糙集理论[12]是继概率论、模糊集、证据理论之后又一个处理不确定性的强有力的数学工具.作为一种软计算方法,其有效性已在各应用领域中得到证实,是人工智能理论及其应用领域中的研究热点之一[13−27].粗糙集与概率论、模糊集、证据理论有很多相同的特征,但相比于后三者,粗糙集无需任何的先验知识,只通过数据本身就可以获得知识,而概率论、模糊集和证据理论分别需要概率、隶属度和概率赋值等信息.粗糙集研究中的核心问题之一是属性约简,通过属性约简,可以求得决策表的最小表达,即保持知识表达系统中分类能力不变的情况下,删除其中不相关或不重要的属性,这也是知识获取的关键.但已有证明,求解所有约简和求解最小约简都是NP-hard问题.目前提出的属性约简算法大都基于启发式的,且都是针对集中式单决策表(即一张完整决策表)的情况,并不适用于分布式存储的大数据分析与挖掘.目前,已有学者对粗糙集的属性约简算法在分布式平台下进行研究并实现[28,29].然而,这些算法仅仅是将约简算法本身在分布式平台的实现,仍然处理的是集中式单决策表,并未考虑数据集的分布式存储.对分布式存储的大数据环境下的约简算法研究还不多见.对大数据的条件属性进行约简,可以选取保持决策分类不变的最小条件属性子集,极大地减少大数据分析的工作量.分布式存储的带标签的大数据,每个站点都可看成是一张决策表,整体的大数据可认为是由多张决策表构成的,并且这些决策表的条件属性互不相同,但决策属性为同一个.因此,对分布式存储的大数据进行约简算法研究,可转化为求多决策表的约简方法研究.文献[30]针对分布式多决策表的近似约简进行了相关研究.文献[31]在前文基础上考虑到在某些应用场景中,各站点希望自己持有的本地决策表原始数据和敏感信息不被其他站点获取,加入隐私保护策略,设计了多决策表的隐私保护属性约简算法.由此可见,对多决策表(分布式存储的大数据)的研究离不开具体的应用.随着智能电网建设的推进,电力大数据格局逐步形成.目前,获得电力运行大数据的主要形式来源于分散在各地不同的系统数据库,所获得的数据类型也以连续值属性为主.与传统的分类方法不同,对大数据的分类研究不再单独考虑某一条数据,而是以数据块的形式作为一个研究对象.这是因为仅仅依靠某一条数据来判断它的类别信息已意义不大,而是应该考虑某个时间段内的数据特征,从而判断该数据段所属的类别.例如,基于电力大数据对负荷进行预测,单条数据不具备负荷预测的特质,而是应该将待预测的数据段与某时间段的数据进行相似性比较,从而确定负荷预测值.因此,对大数据的分类研究应从数据块开始.为了快速有效地对电力大数据建立分类模型,将数值型条件属性的数据块近似表示成区间值形式,即通过该数据块的最大最小值对数据块进行近似描述(对非数值型的条件属性可转化为数值型处理),从而研究区间值的属性约简策略,建立分类模型.已有学者对区间值条件属性约简方法进行了研究[32−35],但这些方法均是针对一个集中数据集,并未考虑多决策表的情况,因此不适用于分布式存储的大数据环境.本文将分布式存储的大数据看成是由多张决策属性相同、条件属性不同的决策表组成,在此基础上,将大数据进行分块使其区间化,研究多决策表的区间值全局近似约简方法.本文所做工作的意义在于:徐菲菲 等:大数据环境下多决策表的区间值全局近似约简 21211) 针对大数据的数据体量巨大、噪声多的特点,将粗糙集方法引入至大数据分析中,通过属性约简方法减少大数据分析所涉及的数据量;2)针对电力大数据以连续值属性为主,并且对大数据的分类研究实际应以数据块作为对象单位,提出将数据块近似描述为区间值形式,从而讨论了区间值决策表的启发式约简方法;给出基于依赖度的区间值属性约简相关概念和性质证明,并提出相应算法;给出基于互信息的区间值属性约简相关概念和性质证明,提出相应算法;为了增强算法实用性,提出区间值决策表的近似约简概念和方法;3) 针对大数据的分布式存储,给出条件属性不同、决策属性相同的多决策表下的全局近似约简相关概念和性质证明,并提出相应的约简算法,从而对分布式存储的大数据求得满足分类结果近似不变的全局约简;4) 将所设计的3种算法在电力大数据真实数据集中进行测试,并对结果进行分析和讨论;实验结果表明:3种算法在合适的区间长度时,选取的属性子集均能保持较高的分类准确率;随着属性个数的增加,基于依赖度的区间值约简方法比基于互信息的区间值约简方法运行时间略长,多决策表下的全局约简运行时间最短.本文第1节对多决策表以及区间值决策表的相关概念和性质进行介绍.第2节分别给出基于依赖度和基于互信息的区间值属性约简的相关定义和性质证明,并提出相应的算法;同时,将近似约简引入到上述方法中,增强算法的实用性.第3节给出多决策表下的区间值全局近似约简概念和性质证明,提出相应的算法.第4节将以上算法在电力大数据中进行实验、比较和分析,实验结果验证了算法的有效性.第5节对全文进行总结,并对未来的工作进行展望.1 相关基本概念本节主要介绍分布式环境中多决策表以及区间值决策表的相关概念和性质. 1.1 多决策表的相关概念和性质设有m 个站点S 1,S 2,…,S m ,相应的局部决策表DT i (或成员决策表)的属性集分别为C 1∪D ,C 2∪D ,…,C m ∪D ,1,mi i C ==∅∩各局部决策表具有相同的对象集U 且均隐含一个对象标识属性.通过该属性,可将各局部决策表连接成一个单决策表DT =〈U ,C ∪D ,V ,f 〉,1,mi i C C ==∪并假设唯一的决策属性D 的取值范围是1,2,…,l .由D 导出的决策类构成U 的一个划分{ψ1,ψ2,…,ψl }.其中:ψi ={u ∈U :f (u ,D )=i },i =1,2,…,l ;U 中的对象个数为n .定义1.1[31]. 全局决策表DT 是四元组〈U ,C ∪D ,V ,f 〉.其中:U 是一组对象的非空有限集合,称为论域;设有 n 个对象,则U 可表示为U ={u 1,u 2,…,u n };C 为条件属性集,D 为决策属性集;(),a a C D V V ∈∪=∪V a 为属性a 的值域集;f是U ×(C ∪D )→V 的映射.定义1.2[31]. 在站点S i (i =1,2,…,m ),局部决策表DT i 是四元组DT =〈U ,C i ∪D ,V ,f 〉.其中:C i 为条件属性集,D 为决策属性集,(),i a a C D V V ∈∪=∪V a 为属性a 的值域集,f 是U ×(C i ∪D )→V 的映射.由于在大数据的复杂环境中,要求得全局决策表的精确约简所花费的代价较高,对大数据的分析应更多地考虑时间因素,因此定义ε-近似约简如下(由于基于信息熵的定义方法比代数观下的更加直观,本文所涉及的研究主要基于信息论观点):定义1.3. 对于给定的全局决策表DT 和ε(ε≥0),若|H (D |C )−H (D |A )|≤ε(A ⊆C ),且|H (D |C )−H (D |B )|>ε(∀B ⊂A ),则A 为决策表的一个ε-近似约简.其中,H (P |Q )表示为条件信息熵,且P ,Q ⊆C ∪D .上述定义中,如果条件属性集合C 的值域为有限离散集合,则H (P |Q )可依据等价类的分布情况来计算.而在大数据环境中,条件属性集合C 往往都是连续的,可选用Pazon 窗方法或文献[25]采用的模糊粗糙集方法计算连续值的条件熵.对大数据构建粗糙集分类模型的首要任务就是求得全局的ε-近似约简.2122 Journal of Software 软件学报 V ol.25, No.9, September 2014定义1.4. 设X 为论域U 的一个子集,即X ⊆U ,P ⊆C ,X 关于P 的全局下近似为PX (C )={u ∈U :[u ]p ⊆X },其中:[u ]p ={x ∈U |∀a ∈P ,f (u ,a )=f (x ,a )}.性质1.1. 若A ⊆C ,B ⊆C ,且A ⊆B ,则H (D |A )≥H (D |B ). 1.2 区间值决策表的相关概念和性质目前对区间值信息系统的研究大多都基于无分类标签的信息系统[34−36],也有学者对决策属性为区间值的决策系统进行了探讨.本文基于电力大数据的特点,讨论条件属性为区间值,而决策属性为类别标签的情况.定义1.5. 设区间值决策表DT =〈U ,C ∪D ,V ,f 〉,非空有限属性集C ∪D 包括条件属性集C ={a 1,a 2,…,a h }和决策属性集D ={d }两部分;V =V C ∪V D ,其中,V C 为条件属性值集合,V D 为决策属性值集合;f :U ×C →V C 为区间值映射,f :U ×D →V D 为单值映射.表1为一个区间值决策表[33],其中:论域U ={u 1,u 2,…,u 10},条件属性集C ={a 1,a 2,a 3,a 4,a 5},决策属性集D ={d }; 条件属性值(,)[,]k k k i i i f a u l u =是区间值,如f (a 2,u 3)=[7.03,8.94];决策属性值d (u i )是单值,如d (u 3)=2.Table 1 An interval-valued decision table表1 区间值决策表U a 1 a 2 a 3a 4 a 5 d u 1 [2.17,2.96] [5.32,7.23] [3.35,5.59][3.21,4.37][2.46,3.59] 1 u 2 [3.38,4.50] [3.38,5.29] [1.48,3.58][2.36,3.52][1.29,2.42] 2 u 3 [2.09,2.89] [7.03,8.94] [3.47,5.69][3.31,4.46][3.48,4.61] 2 u 4 [3.39,4.51] [3.21,5.12] [0.68,1.77][1.10,2.26][0.51,1.67] 3 u 5 [3.70,4.82] [2.98,4.89] [1.12,3.21][2.07,3.23][0.97,2.10] 2 u 6 [4.53,5.63] [5.51,7.42] [3.50,5.74][3.27,4.43][2.49,3.62] 2 u 7 [2.03,2.84] [5.72,7.65] [3.68,5.91][3.47,4.61][2.53,3.71] 1 u 8 [3.06,4.18] [3.11,5.02] [1.26,3.36][2.25,3.41][1.13,2.25] 3 u 9 [3.38,4.50] [3.27,5.18] [1.30,3.40][4.21,5.36][1.11,2.23] 1 u 10[1.11,2.26] [2.51,3.61] [0.76,1.85][1.30,2.46][0.42,1.57]4经典粗糙集采用等价关系对论域进行划分,然而区间值决策表中,相同区间值形成的等价类很难对论域形成合理的划分.因此,引入相似率来表示2个区间值的相似程度,为论域的分类提供度量标准.定义1.6. 设区间值决策表DT =〈U ,C ∪D ,V ,f 〉,a k ∈C ,(,)[,]k k k i i i f a u l u =,其中,k k i i l u ≤.当k k i i l u =时,表示对象u i在属性a k 上的取值为常数.若对任意的u i 和任意的条件属性a k ,k k i i l u =,则该决策表为传统的决策表.定义对象u i 与u j 关于属性a k 的相似度[35]为0, [,][,],([,][,]), [,][,](max{,}min{,})k k kki i j j k k k k kij i i j j k k k ki i j j k k k ki j i j l u l u r card l u l u l u l u card u u l l ⎧∩=⊄⎪=∩⎨∩≠⊄⎪−⎩ 其中,card (⋅)表示区间值的长度.显然,01k ij r ≤≤.如果0k ij r =,则条件属性值f (a k ,u i )与f (a k ,u j )相离;若01k ij r <<,则条件属性值f (a k ,u i )与f (a k ,u j )部分相离或真包含;若1k ij r =,则条件属性值f (a k ,u i )与f (a k ,u j )是完全不可分辨的.条件属性值相似度描述了区间值环境下不同对象之间的等价程度.定义1.7[35]. 设DT =〈U ,C ∪D ,V ,f 〉是一区间值决策表,给定阈值水平λ∈[0,1]和任意属性子集A ⊆C ,定义U 上的二元关系:{(,):,}k AA i j ij k R R x x U U r a A λλλ=∈×>∀∈称为关于A 的λ-容差关系. 性质1.2. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,给定阈值水平λ∈[0,1]和任意属性子集A ⊆C ,显然,A R λ是自反的和对称的,但不一定是传递的.性质1.3. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],任意属性子集A ⊆C ,有{}.kk A a a AR R λλ∈=∩记()A i R u λ表示区间值对象u i 在属性集A 下的λ-相容类,以表1为例,当λ=0.7,A =a 1时,根据定义1.6和定义1.7计算可得:徐菲菲 等:大数据环境下多决策表的区间值全局近似约简 212311111111110.7{}11370.7{}22490.7{}31370.7{}42490.7{}550.7{}660.7{}71370.7{}880.7{}92490.7{}1(){,,}(){,,}(){,,}(){,,}(){}(){}(){,,}(){}(){,,}(a a a a a a a a a a R u u u u R u u u u R u u u u R u u u u R u u R u u R u u u u R u u R u u u u R u =========010){}u =.由于λ-容差关系满足自反和对称但不满足传递性,在计算λ-相容类时只需考虑当前对象之后的记录,对之前的对象可通过对称关系获取,在大数据环境下可极大地节省计算λ-相容类的时间.如果A 由多个属性组成,可根据性质 1.3,先分别计算区间值对象在每个属性下的λ-相容类(满足λ-容差关系的对象集合),再通过交运算得到多属性的λ-相容类.定义1.8. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],任意属性子集A ⊆C ,X ⊆U ,定义X 关于A 的粗糙上、下近似为(){,()},(){,()}.A i A i A i A i R X u U R u X R X u U R u X λλλλ=∈∩≠⊄=∈⊆以上定义和性质实际并未涉及到决策属性,仅仅是将无标签的区间值信息系统的概念简单地移植到区间值决策表中.2 区间值决策表的启发式约简文献[33]提出了一种基于区分函数的区间值决策表约简算法,然而该算法的计算复杂度较高,很难用于处理大数据.本节针对大数据分析中无须过度追求精确度的特点,分别从代数观和信息观给出了区间值决策表的启发式约简概念和性质证明,并提出相应算法.同时,为了增强算法的实用性,将近似约简概念引入,并提出相应方法.2.1 代数观下区间值决策表约简的相关概念和性质根据定义1.8,我们可以定义决策属性关于区间值条件属性子集的上、下近似为:定义2.1. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],由D 导出的决策类构成U 的一个划分{ψ1,ψ2,…,ψl }.任意条件属性子集A ⊆C ,定义决策属性D 关于A 的上、下近似为11()(),()(),lA A i i l A A i i R D R R D R λλλλψψ====∪∪其中,(){,()},(){,()},()A i A i A i A i A i R X u U R u X R X u U R u X R u λλλλλ=∈∩≠⊄=∈⊆表示区间值对象u i 在属性集A 下的λ-相容类.决策属性D 的下近似也称为正域,记为()A POS D λ.正域的大小反映的是分类问题在给定属性空间中的可分离程度.正域越大,表明各相容类的重叠区域越少.为了度量属性的重要度,定义决策属性D 相对于区间值条件属性A 的λ-依赖度为2124 Journal of Software 软件学报 V ol.25, No.9, September 2014|()|(),||A AR D D U λλγ= 其中,|⋅|表示集合的基.0()1AD λγ≤≤表示了区间值对象集合中根据条件属性A 的描述,那些能够被某一类决策 完全包含的对象所占全体对象的比率.显然,正域越大,决策属性D 对条件属性A 的依赖性越强.性质2.1. 给定区间值决策表DT =〈U ,C ∪D ,V ,f 〉和λ,如果B ⊆A ⊆C 且()i B u POS D λ∈,则()i A u POS D λ∈成立. 证明:假设()i B j u R D λ∈,其中,D j 表示决策类别为j 的对象集合,即()B i j R u D λ⊆.由于B ⊆A ⊆C ,()(),Ai B i R u R u λλ⊆因此,()()A i B i j R u R u D λλ⊆⊆.从而有().i A u POS D λ∈□性质2.2. ()A D λγ是单调的.如果A 1⊆A 2⊆…⊆C ,则12()()...().A A C D D D λλλγγγ≤≤≤ 证明:根据性质2.1可知:1()i A u POS D λ∀∈,我们有2(),...,().i A i C u POS D u POS D λλ∈∈可能存在1()j A u POS D λ∉,但2(),...,(),j A j C u POS D u POS D λλ∈∈因此有12|()||()|...|()|.A A C POS D POS D POS D λλλ≤≤≤由于|()|(),||A APOS D D U λλγ=所以有12()()...().A A C D D D λλλγγγ≤≤≤ □定义2.2. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],A ⊆C ,∀a k ∈A ,如果{}()(),k A a A D D λλγγ−<称属性a k 相对于属性集A 是必要的;否则,如果{}()(),k A a A D D λλγγ−=称属性a k 相对于属性集A 是多余的.如果∀a k ∈A 都是必要的,称属性集A 是独立的.如果{}()()k A a A D D λλγγ−=,表明从决策表中去掉属性a k ,决策表的正域不会发生改变,即各类的可区分性不变.也就是说,属性a k 没有给分类带来任何的贡献.因此,a k 是多余的.相反地,如果删除a k ,决策表的决策正域变小了,则表明各类的可区分性变差了.此时,a k 不能被删除.定义2.3. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],A ⊆C ,称属性子集A 是条件属性集C 的一个λ-约简,如果A 满足:(1) ()();AC D D λλγγ= (2){},()().k k A a A a A D D λλγγ−∀∈<该定义的条件(1)要求λ-约简不能降低决策表的区分能力,λ-约简应该与决策表中全部条件属性具有相同的分辨能力;条件(2)要求在一个λ-约简中不存在多余的属性,所有的属性都应该是必要的.这一定义与经典粗糙集模型中的定义在形式上是完全一致的.然而,该模型定义了区间值空间中的λ-约简,而经典粗糙集是定义在离散空间中的.定义2.4. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],A 1,A 2,…,A s 是该决策表的所有λ-约简,则定义1si i Core A ==∩为决策表的核.2.2 基于依赖度的区间值决策表λ-约简算法如果要找出区间值决策表的全部λ-约简,需要计算2h −1个属性子集,判断它们是否满足λ-约简的条件.其中, h 是条件属性的个数.这对于拥有上百个,甚至上千个属性的大数据而言,计算量是不可容忍的.本文将基于依赖度的概念构造启发式约简算法,极大地降低算法复杂度.由于依赖度描述了条件属性对分类的贡献,因此可以作为属性重要度的评价标准.定义2.5. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],A ⊆C ,a k ∈C −A ,定义a k 相对于C 的重要度为{}(,,)()().k k A a A SIG a A D D D λλγγ∪=−有了属性重要度的定义,我们可以构造区间值λ-约简的贪心算法.该算法以空集为起点,每次计算全部剩余属性的属性重要度,从中选取属性重要度值最大的属性加入到λ-约简集合中,直到所有剩余属性的重要度为0,即加入任何新的属性,依赖度不再发生变化为止.前向搜索算法能够保证重要的属性先被加入到λ-约简中,从而不损失重要的特征.后向搜索算法难以保证这个结果,因为对于有大量冗余属性的区间值决策表而言,即使那些徐菲菲 等:大数据环境下多决策表的区间值全局近似约简2125重要的属性被删除也不一定会降低整个决策表的区分能力.因此,最终可能保留了大量区分能力很弱、但作为一个整体依然能够保持原始数据的分辨能力的特征,而不是少量区分能力很强的特征.基于依赖度的区间值决策表的λ-约简算法描述见算法1.算法1. 基于依赖度的区间值决策表λ-约简(λ-reduction in interval-valued decision table based ondependence,简称RIvD).输入:DT =〈U ,C ∪D ,V ,f 〉,λ; 输出:λ-约简red . Step 1. 令red =∅;Step 2. 对所有属性a ∈C ,计算属性a 下的λ-相容类{}a R λ;Step 3. 对任意的a k ∈C −red ,计算{}(,,)()()k k red a red SIG a red D D D λλγγ∪=−; //定义()0D λγ∅=Step 4. 选择a i ,满足:(,,)max((,,))i k kSIG a red D SIG a red D =;Step 5. 如果SIG (a i ,red ,D )>0,red =red ∪{a i },转至Step 3;否则,返回red ,结束.设条件属性C 的个数为h ,区间值对象个数为n ,则该算法的时间复杂度为O (n 2+hn ).以上为代数观点下的区间值λ-约简算法.在传统粗糙集中,对于一致决策表的启发式算法,已经证明代数观点与信息论观点等同.然而对于不一致决策表而言,信息论观点下对象的划分依然可以改变知识的条件信息熵,即基于条件信息熵的属性约简与影响不一致对象划分的粒度有一定的关系.主要体现在基于条件信息熵的属性约简可以增加一些属性,而这些属性影响了不一致对象划分的粒度.因此,粗糙集的信息论观点包含了其代数观点,为决策表的知识获取和规则提取提供了更加有效的途径.因此,非常有必要对基于条件信息熵的区间值属性约简作进一步研究.2.3 信息观下区间值决策表约简的相关概念和性质由于在区间值决策表中,λ-容差关系取代了等价关系,不再构成论域的划分而是覆盖,因此,我们先定义区间值决策表的λ-知识粗糙熵,进而定义λ-信息熵及λ-条件信息熵等概念.知识粗糙熵表征了知识整体的统计特征,是总体的平均不确定性的量度;信息熵也是度量信息的平均不确定性的量度,与知识粗糙熵的和为log 2|U |;条件信息熵表示如果已经完全知道某变量(集)的前提下,另一变量(集)的信息熵还有多少.为了计算条件信息熵,需要用到联合信息熵的概念.定义2.6. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],U ={u 1,u 2,…,u n }.任意属性子集A ⊆C ,则区间值决策表的λ-知识粗糙熵定义为||211()log (),||U Rough AA i i H R f u U λλ==∑ 其中,()A i f u λ表示u i 在所有u j (1≤j ≤|U |)的λ-相容类中出现的次数.性质2.3. 若R 是基于知识A 的等价关系,则有()()Rough A Rough H R H A λ=.证明:如果R 是基于知识A 的等价关系,则对象u i 所在的λ-相容类就是等价类.设属性集A 将论域划分为k个不同的等价类{X 1,X 2,…,X k },则有:||222111|()|11()log ()|()|log |()|log |()|().||||||U k k j Rough A A i j jj Rough i j j R u H R f u R u R u R u H A U U U λλ=====×=×=∑∑∑ 知识粗糙熵与信息熵的和为论域的信息量log 2|U |,所以等价关系下知识粗糙熵为22211|()||()||()|log ||log log |()|||||||kk i i i i i i R u R u R u U R u U U U ==+=×∑∑. □性质2.4. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],U ={u 1,u 2,…,u n }.B ⊆A ⊆C ,则有:()()Rough A Rough B H R H R λλ≤.2126 Journal of Software 软件学报 V ol.25, No.9, September 2014性质2.4可由定义2.6直接推理得到.性质2.4说明,区间值决策表的λ-知识粗糙熵随着知识分辨能力的增强而单调下降.有了上述对区间值决策表λ-知识粗糙熵的定义,根据知识粗糙熵与信息熵之和为log 2|U |,我们可以定义区间值决策表的λ-信息熵为:定义2.7. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],U ={u 1,u 2,…,u n }.任意属性子集A ⊆C ,则区间值决策表的λ-信息熵定义为||211()()log ||||U A i A i f u H R U U λλ==−∑. 性质2.5. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],U ={u 1,u 2,…,u n }.B ⊆A ⊆C ,则有()()AB H R H R λλ≥. 证明:如果B ⊆A ⊆C ,则有A B R R λλ⊆,则存在u i ∈U ,使得()()B i A i f u f u λλ≤.根据定义2.7,则有()()A B H R H R λλ≥.证毕.□性质2.5说明:λ-相容类形成对论域的覆盖块越小,知识所包含的信息量就越大.定义2.8. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],U ={u 1,u 2,…,u n },P ,Q ⊆C ∪D ,则P ,Q 的λ-联合信息熵可表示为||21()1()log ,||||U P Q i P Q i f u H R R U U λλλ∪=∪=−∑其中,()P Q i f u λ∪表示区间值对象u i 在属性集P ∪Q 下的u j (1≤j ≤|U |)λ-相容类中出现的次数.定义2.9. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],U ={u 1,u 2,…,u n },P ,Q ⊆C ∪D ,且P ≠Q ,则知识(属性集合)Q 相对于知识(属性集合)P 的λ-条件信息熵的定义为||211()(|)log ||()U P i Q P i P Q if u H R R U f u λλλλ=∪=∑.定理2.1. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],U ={u 1,u 2,…,u n },A ⊆C ,a k ∈A ,属性a k 是不必要的,其充分必要条件是{}(|)(|)k A A a H D R H D R λλ−=.证明:• 必要条件假设存在a k ∈A 是不必要的,对于任意u i ∈U ,则有{}()()k A i A a i R u R u λλ−=,易得{}(|)(|).k A A a H D R H D R λλ−=• 充分条件假设存在a k ∈A 满足{}(|)(|).k A A a H D R H D R λλ−=如果对于任意的a k ∈A 都是必要的,即存在u i ∈U ,使得不等式{}()()k A i A a i R u R u λλ−≠成立.又由于A −{a k }⊂A ,有{}(|)(|),k A A a H D R H D R λλ−<这与假设{}(|)(|)k A A a H D R H D R λλ−=相矛盾.由此可知:对于任意的a k ∈A ,当{}(|)(|)k A A a H D R H D R λλ−=时,a k 是不必要的.□定义2.10. 设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],A ⊆C ,称属性子集A 是条件属性集C 的一个λ-约简,如果A 满足:(1) (|)(|);A C H D R H D R λλ=(2){},(|)(|)k k A A a a A H D R H D R λλ−∀∈≠.区间值的λ-条件信息熵描述的是一个属性集对另一属性集的依赖程度.由定理2.1可知,λ-条件信息熵可以应用到区间值决策表的λ-约简中. 2.4 基于互信息的区间值λ-约简算法为了能够进行有效的知识约简,必须要建立一个衡量属性重要性的标准.在传统粗糙集理论的信息观点下,提出在决策表中添加某个属性所引起的互信息的变化大小可以作为该属性重要性的度量.设DT =〈U ,C ∪D ,V ,f 〉是区间值决策表,λ∈[0,1],B ⊆C .那么,在B 中添加一个区间值条件属性a ∈C −B 之后,互信。