基于变精度粗糙集理论的知识约简方法

合集下载

基于粗糙集理论的数据挖掘方法(2006.10.16)

基于粗糙集理论的数据挖掘方法(2006.10.16)

关于属性选择
许多学习算法处理高维数据有困难, 并且大量 无关属性的存在, 也使得数据分析受到干扰. 目的是找到满足特定标准的最小的属性子集. 搜索算法起着重要的作用. 搜索算法可以用搜 索方向(前向, 后向, 双向), 搜索方式(穷尽搜索, 启发式, 非确定式)及评价方式(精确度, 一致性, 依赖度, 信息熵等)等三个方面来分类. 约简的特点是可以保持分类/近似能力不变。
x5
x6 x7
MBA
MCE MSc
Low
Low Medium
Yes
Yes Yes
Neutral
Good Neutral
Reject
Reject Reject
x8
MCE
x1
Low
x2 x3
No
x4
Excellent
x5 x6
Reject
x7 x8
x1 x2 x3 x4 x5 x6 x7 x8 er der dr def de der e defr der der er def efr def defr der
例如,x1的决策函数 为f(x1)=(e r) (d e r) (d r) (d e f) 整个Accept类的决策 函数为f(Accept)=f(x1) f(x2) f(x3) f(x4) 化成析取范式后,各 项就是Accept类最小 决策规则
粗糙集和其他理论方法结合
和模糊集(Fuzzy set) ►模糊粗糙集(Fuzzy-Rough set) ► 应用:特征选择 聚类 ►Rough K-means ►应用: Web挖掘
粗糙集的问题
粗糙集理论应用于实际数据分析时, 会遇到 -离散化: - 噪音: 过拟合 - 数据缺失: 如何“不可区分” ? - 大数据量: 计算复杂度太高.

基于VPRS理论的一种混合分类算法

基于VPRS理论的一种混合分类算法

基于VPRS理论的一种混合分类算法洪智勇;秦克云;邓维斌【摘要】在文本分类领域中,KNN与SVM算法都具有较高的分类准确率,但两者都有其内在的缺点,KNN算法会因为大量的训练样本而导致计算量过大;SVM算法对于噪声数据过于敏感,对分布在分类超平面附近的数据点无法进行准确的分类,基于此提出一种基于变精度粗糙集理论的混合分类算法,该算法能够充分利用二者的优势同时又能克服二者的弱点,最后通过实验证明混合算法能够有效改善计算复杂度与分类精度.【期刊名称】《计算机工程与应用》【年(卷),期】2010(046)009【总页数】4页(P23-25,54)【关键词】文本分类;支持向量机(SVM)算法;K-近邻法(KNN);变精度粗糙集模型(VPRS)【作者】洪智勇;秦克云;邓维斌【作者单位】西南交通大学,数学学院,成都,610031;五邑大学,计算机学院,广东,江门,529020;西南交通大学,数学学院,成都,610031;西南交通大学,信息与科学技术学院,成都,610031【正文语种】中文【中图分类】TP3011 引言文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了快速发展,文本分类主要任务是指依据文本的内容,由计算机根据某种自动分类算法,把文本判分为预先定义好的类别。

在文本自动分类中,著名的文本分类方法有支持向量机(Support Vector Machine,SVM)、K 近邻(KNearest Neighbor,KNN)、神经网络(Neural Network,NN)、线性最小二乘估计(LLSF)、贝叶斯算法(Bayes)和决策树等[1]。

KNN是一个常用的模式识别算法,并且在许多领域(简单情况和复杂情况)都显示出良好的性能。

但是KNN是一种消极(Lazy)学习法——学习过程只是简单地存储已知的训练数据,当遇到新的查询样本时,通常要遍历训练实例空间以找到查询实例的K个最近的邻居[2]。

基于变精度粗糙集的属性约简

基于变精度粗糙集的属性约简

摘 要 : 性 约 简是 粗 糙 集 理 论 的 核 心 内容 之 一 。 对 变 精 度 粗 糙 集 理 论 的 属 性 约 简 问题 , 属 性 依 赖 度 增 量 、 信 属 针 从 互 息 增 量 角 度 对 属 性 重 要 度 进 行 分 析 , 以 这 两 个 属 性 重 要 度 的 度 量 作 为 启 发 式 信 息 。 出 变精 度 粗 糙 集 属 性 约 简 的 并 给
其中 f f 表示集合 的基数。称P X, ) ( l 为集合 于集 , 关
合 y的 相 对 错 误 分 类 率 。 即 如 果 将 集 合 中 的无 素 分 到 集 合 y
糙集模 型 中引入 了错 误分 类率 1o 3 05的概 念 , 出了变 精 3 ≤1 . ( < ) 提 度粗 糙 集 模 型 。后 来 , Ⅳ等人 将 定 义 为 正 确 分 类 率 且卢∈ ( .,1 模 型是P w a 粗 糙集模 型 的扩 充 。当 0 , 05 1。该 a lk = 时 变精 度
R u { /ห้องสมุดไป่ตู้ = ∈UR f E 1 }
B R =. E∈URl <P J 1Bj N‘ t J{ / 卢 J <- N G  ̄ =u { / P Ex) - E Rx EEUR1f, ≥1 ̄)
的 下近 似 可理 解 为将 中的 对象 以不 大 于 的分 类 误差 分 于 的集合 ; 的 区域 相应 理解 为将 中的 对象 以不 大 于J 负 B 的分类 误 差分 于 的补 集 ( ) 的集 合 。显 然 , 于任 意 ∈ ; 对 p s X= EG o- ; 3 界 域 是 由那 些 以不 大 于J的分类 误 oP N R (X) 的/ 边 B
差 既不 能分 类 于~ 又 不 能 分 类 于 ~ 的 U 对 象 所 构 成 的 集 合 。 中 如 果 B a d, l or _ⅣE = 的卢 近 似 是 由 那 些 以 NRX=p ¥p s Xt G J S J ; 上

粗糙集理论介绍

粗糙集理论介绍
粗糙集理论介绍
问题的提出:知识的含糊性
术语的模糊性,如高矮 数据的不确定性,如噪声 知识自身的不确定性,如规则的前后件间的 依赖关系不完全可靠 不完备性,数据缺失
由此,提出了包括
概率与统计、证据理论:理论上还难以令人信服,
不能处理模糊和不完整的数据
模糊集合理论:能处理模糊类数据,但要提供隶属
函数(先验知识)
so
例2: (表2)
R1(颜色) R2(形状) R3(体积) class
X1

圆形

1
X2

方形

1
X3

三角形

1
X4

三角形

1
X5

圆形

2
X6

方形

2
X7

三角形

2
X8

三角形

2
等价类IND(R1)={{x1,x3,x7}, {x2,x4}, {x5,x6,x8}}
X={X1,X2,X3,X4}
Step2. 针对各个属性下的初等集合寻找下近似和上近似。
以“头疼+肌肉痛+体温”为例,设集合X为患流感的 人的集合,I为3个属性构成的一个等效关系: {p1},{p2,p5},{p3},{p4},{p6}, 则
X={P1,P2,P3,P6} I={{p1},{p2,p5},{p3},{p4},{p6}}
粗糙集在数据挖掘中的应用 基于粗糙集的数据约简
返回
1. 粗糙集在数据挖掘中的应用
粗糙集对不精确概念的描述是通过上、下近似这两 个精确概念来表示的。
粗糙集理论的的数学基础:假定所研 究的每一个对象都涉及到一些信息(数据、 知识),如果对象由相同的信息描述,那 么它们就是相似的或不可区分的。

一种利用属性序关系的变精度粗糙集知识约简方法

一种利用属性序关系的变精度粗糙集知识约简方法

第32卷第4期2008年8月江西师范大学学报(自然科学版)J cI U R N A L0FⅡA N GⅪN O R l雌L I『r qⅣER SI TY(N A l r I瓜AI.ScI E N CE)、,01.32N o.4A I l g.2008一种利用属性序关系的变精度粗糙集知识约简方法张玉琢(云南师范大学计算机科学与技术系,云南昆明650092)摘要:变粗糙集模型主要用于包含错误信息或缺失一些重要信息的决策表的知识获取.该文引入了变粗糙集模型和卢上、下分布约简和分布约简(卢约简)的概念,并讨论了它们之间的关系;通过对约简的进一步研究,得到可辩识矩阵及其特性;在此基础上提供了利用属性序关系的约简算法,并通过含有噪声的实例验证了此方法的可行性和有效性.关键词:变粗糙集模型;知识约简;决策表;协调集中图分类号:TP18文献标识码:A自波兰数学家娜l ak提出粗糙集(R S)理论以来,它已被广泛应用于模式识别,机器学习,知识获取,人工智能等领域.但经典粗糙集理论存在一些局限[1.21;对此,研究者对经典粗糙集理论进行了不同的扩展.zi ar ko教授于1993年提出的变精度粗糙集模型心J是其中重要一分支.在该模型中,给定一个阈值,当对象所在的等价类在某种程度上包含于集合j中时,就认为这个对象属于X,这个推广在应用上是非常重要的,因为在实际应用中,绝对的包含有时是不必要的.知识约简是变精度粗糙集研究的重要内容,文献[1‘5]中对此问题有所讨论.归结所讨论的约简方法大致为两大类:一类是利用属性启发式约简算法求得属性约简集,其特点是以属性重要度作为启发式信息bo;二类是利用可辨识矩阵,通过对属性组合的合取和析取操作得到一个属性约简集u圳,但当得到的可辨识矩阵维数较高时。

该算法计算复杂度高,内存消耗量大,并且如何选取满意的特征属性组合是一个待商榷的问题怛12J.本文针对这个问题,提出了一个改进算法,在得出可辩识矩阵后,利用属性序关系求约简的算法,最后,通过具体实例验证该算法的有效性.1变精度粗糙集模型定义1【4】一个信息系统s可以表示为5=(u,C U D,y,.厂),其中u表示对象的非空有限集合,U= {石l,算2,…,‰I;C表示属性的非空有限集合,C={口I,口2,…,口。

多指标综合评价方法研究综述

多指标综合评价方法研究综述

·开发与创新·0引言多指标综合评价是指人们根据不同的评价目的,选择相应的评价形式,据此选择多个因素或指标,并通过一定的评价方法,将多个评价因素或指标转化为能反映评价对象总体特征的信息[1]。

其中评价指标与权重系数确定将直接影响综合评价的结果[2]。

本文由此从评价指标与权重确定两方面出发,对当前应用神经网络、遗传算法、粗糙集、熵、模糊数学与灰色关联度等相关理论的多指标评价方法作简要综述,并对多指标综合评价方法的未来研究方向作出展望。

1综合评价方法概述[3~6]按照权数产生方法的不同,多指标综合评价方法可分为主观赋权评价法和客观赋权评价法两大类。

其中主观赋权评价法采取定性的方法,由专家根据经验进行主观判断而得到权数,然后再对指标进行综合评价。

如层次分析法、综合评分法、模糊评价法、指数加权法和功效系数法等。

客观赋权评价法则根据指标之间的相关关系或各项指标的变异系数来确定权数进行综合评价。

如熵值法、神经网络分析法、TOPSIS 法、灰色关联分析法、主成分分析法、变异系数法、聚类分析法、判别分析法等。

两种赋权方法特点不同,其中主观赋权评价法依据专家经验衡量各指标的相对重要性,有一定的主观随意性,受人为因素的干扰较大,在评价指标较多时难以得到准确的评价。

客观赋权评价法综合考虑各指标间的相互关系,根据各指标所提供的初始信息量来确定权数,能够达到评价结果的精确,但是当指标较多时,计算量非常大。

由于大多数评价方法其约束条件太多,在实际应用中,经常需要在许多假定的基础上或在进行一系列的变通处理后才能应用相关评价方法。

对此,当前出现了采用神经网络、熵、粗糙集、遗传算法等多种方法集成的思想,来改进评价方法的公正性与精确性。

所谓集成的综合评价方法,就是采用综合集成的思想,将两种或两种以上的方法加以改造并结合,获得一种新的评价方法。

下面就对当前所出现的新评价方法进行比较分析。

2集成的综合评价方法综述2.1基于神经网络的综合评价法人工神经网络ANN (Artificial Neural Network )具有自组织、自学习、自适应、非线性映射等特性,能对多指标综合评价问题给出一个客观的评价。

粗糙集 (ppt)

粗糙集 (ppt)
一、概述 二、知识分类 三、知识的约简 四、决策表的约简 五、粗糙集的扩展模型 六、粗糙集的实验系统 七、粒度计算简介
2
一、 概述
现实生活中有许多含糊现象并不能简单 地用真、假值来表示﹐如何表示和处理这些 现象就成为一个研究领域。早在1904年谓词 逻辑的创始人G.Frege就提出了含糊(Vague) 一词,他把它归结到边界线上,也就是说在 全域上存在一些个体既不能在其某个子集上 分类,也不能在该子集的补集上分类。
12
Issues in the Decision Table
• The same or indiscernible objects may be represented several times. • Some of the attributes may be superfluous.
13
不可区分性Indiscernibility
二、 知识分类
为数学处理方便起见,在下面的定义中用等价关系 来代替分类。 一个近似空间(approximate space)(或知识库)定义 为一个关系系统(或二元组)
K=(U,R)
其中U(为空集)是一个被称为全域或论域(universe) 的所有要讨论的个体的集合,R是U上等价关系的一 个族集。
7
二、 知识分类
设PR,且P ,P中所有等价关系的交集称为P上 的一种不可区分关系(indiscernbility relation) 记作IND(P),即
[x]IND(p)= ∩[x]R RP 注意,IND(P)也是等价关系且是唯一的。
8
二、 知识分类
给定近似空间K=(U, R),子集XU称为U上的一个概念 (concept),形式上,空集也视为一个概念;非空子族集 PR所产生的不可区分关系IND(P)的所有等价类关系的集合 即U/IND(P),称为基本知识(basic knowledge),相应的等 价类称为基本概念(basic concept);特别地,若关系QR, 则关系Q就称为初等知识(elementary knowledge),相应的 等价类就称为初等概念(elementary concept)。 根据上述定义可知,概念即对象的集合,概念的族集(分类) 就是U上的知识,U上分类的族集可以认为是U上的一个知识 库,或说知识库即是分类方法的集合。

3变精度粗糙集方法

3变精度粗糙集方法

上一页
下一页
返回本章首页
粗糙集的扩展理论
β-粗糙近似
令:β=0.6,则β-粗糙近似分别为:
对论域进行划分,可得如下等价类 U/C={X1, X2, X3, X4, X5} 其中,X1={n1, n4,n6},X2={n2},X3={n3},X4={n5},X5={n7} U/D={YN,YP} 其中,YN={n1, n2,n3},YP={n4, n5,n6, n7}
上一页
U n1 n2 n3 n4 n5 n6 n7
a1
1 1 2 1 2 1 2
a3
1 2 1 1 2 1 2
d N N N P P P P
下一页
返回本章首页
粗糙集的扩展理论
由β-约简{a1 ,a3}构造的概率决策规则
表 2.6 由β-约简{a1 ,a3}构造的规则 规则 支持数 1 1 3 2
下一页
上一页 下一页 返回本章首页
粗糙集的扩展理论
β值与分类精度关系
上一页
下一页
返回本章首页
粗糙集的扩展理论
变精度粗糙集的分类质量
上一页
下一页
返回本章首页
粗糙集的扩展理论
变精度粗糙集中的近似约简
上一页
下一页
返回本章首页
粗糙集的扩展理论
概率规则获取
上一页
下一页
返回本章首页
粗糙集的扩展理论
算例 1
对论域进行划分,可得如下等价类: U/C={X1, X2, X3, X4, X5} 其中:X1={n1,n4,n6},X2={n2},X3={n3},X4={n5},X5={n7} U/D={YN,YP} 其中:YN={n1,n2,n3},YP={n4,n5,n6, n7} 求得一个β-约简为{a1,a3 }, β=0.6,则 β{a β=0.6

粗糙集综述word版

粗糙集综述word版

粗糙集论文题目 粗糙集综述1 粗糙集属性约简1.1 经典粗糙集属性约简对于经典粗糙集我们可以用上下近似来描述。

给定知识库()R U K ,=,对于每个子集U X ⊆和一个等价关系()K ind R ∈,定义两个上下近似:{}{}.|/,|/ U U φ≠⋂∈=⊆∈=X Y R U Y X R X Y R U Y X R 另外上下近似还可以用以下的等式表达:[]{}[]{}.|,| U U φ≠⋂∈=⊆∈=X x U x X R X x U x X R R R 当利用区分矩阵来表达知识时有许多优点,特别是他能很容易计算约简和核。

约简是满足能区别由整个属性集区别的所有对象的属性极小子集。

如果A 包含B 是满足B 交区别对象x 和y 的所有属性集合的极小子集不为空,且区别对象x 和y 的所有属性集合的极小子集不为空,则B 是A 的一个约简。

核是区分矩阵中所有单个元素组成的集合。

对于决策表,C 为条件属性集,D 为决策属性集,决策表S 的区分矩阵是一个n n ⨯矩阵,其任一元素为},x ),(),(|{),(a *)(且y a y f a x f C a y x ω≠∈=对于满足),(,,x y x U y ω∈)(y )(x D pos D pos C C ∉∈且,或者)(y )(x D pos D pos C C ∈∉且,或者).(),()(,D ind y x D pos y x C ∉∈且如果φφ≠∀≠⋂⊆),(,),(C C C **''y x a y x a 满足条件的极小子集(关于包含),则'C 是C 的D 约简(相对约简).D 核(相对核)是决策表S 的区分矩阵中所有单个元素组成的集合,即}.,},{),(a |{)(core *U y x a y x C a C D ∈=∈=其中1.2 变精度粗糙集属性约简变精度粗糙集是粗糙集的扩充,它是在基本粗糙集模型的基础上引入)5.00(<≤ββ,即允许一定程度的错误分类率存在。

基于VPRS的决策树分类算法

基于VPRS的决策树分类算法
价关 系 族 。 P R且 P 若 ≠0, 称 nP P中所 有 等 方 法 。 则 ( 其基 本 思 想是 用样 本 的属性 作 为结 点 。 属 用 价关 系的交 集 ) 也是 一个 等 价关 系 . 为 P上 的不 性 的取 值作 为 分 枝 的树 结构 .用样 本 的类 别值 作 称 可 区分 关 系 , 记为 idP。 n () 、 为树 的叶结 点 。它 的关键 在 于选择 各级 节 点 的分 定 义 3 给定 知识 库 K ( ,)对 X≠ 且 X : =U R , 类 属性 。 为 一种 直 观 的知识 表示 方法 。 策树 以 作 决 U, 个 等 价 关 系 R∈idK 。 则 R U{ 一 n () X= Y∈U R 其具 有 速度 快 、 /I 精度 高 、 成模 式简 单等 优 点 一直 生 Y X 为 X关 于 R的 下近 似 。 X= 1 R uf Y∈U RYn 是人 们 研究 的热 点 . / I 各种 新 的算法也 不 断涌 现 。 X≠ 为 X关 于 R的上 近似 。若 R l X≠K x则 X为 2 算 法描 述 、 R 的粗糙 集 , 则 X为 R的精确 集 。 合 b a ) 否 集 n( = X R — X称 为 R 的边 界域 :OR ) 称 为 X 的 R XR p s( = X RX
21 0 2年 第 7期
福 建 电
Hale Waihona Puke 脑 基于 V R P S的决策树分 类算 法
朱 一 飞 .武琳 琳 (1 郑 州 大学信 息 工程 学 院 郑 州 河 南 4 0 0 、 50 1
2、 河 水 利 职 业技 术 学 院 开 封 河 南 4 5 0 ) 黄 703
【 摘 要 】 本 文将粗 糙 集理 论 应 用到 决 策树 生成过 程 中 ,利 用 变精 度粗糙 集理 论属 性 约 简 : 的特 性在 决 策树 生成过 程 中在 保 证 分类 能 力不 变的前提 下减 少分 支数 目,并考虑 到 实际 问题 中

基于粗糙集—决策树的上市公司财务预警

基于粗糙集—决策树的上市公司财务预警

□财会月刊·全国优秀经济期刊□·26·2012.6下旬一、有关财务危机预测的研究方法财务危机预测模型是由Beaver 最早提出来的,之后许多预测方法被用于公司财务危机预测研究。

20世纪60年代主要是Beaver 和Altman 分别采用单变量判别分析和多变量判别分析进行财务危机预警研究。

20世纪80年代,Ohlson 首先将Logistic 模型应用于财务预警领域,20世纪90年代神经网络又被引入财务危机预测。

20世纪80年代,Frydman 等将决策树引入了财务预警研究中,决策树(DT )在解决分类问题上具有简单和易于理解的优点。

决策树是一种对大量数据集进行分类的非常有效的方法,通过决策树的构造模型,从大量信息中挖掘有效的数据,提取有价值的分类规则,从而获得有用的知识,帮助决策者准确预测。

它的基本算法是贪心算法,采用自顶向下的递归方式构造决策树。

根据决策树增长的方法不同,学者们提出了很多经典的决策树算法。

1986年J .R.Quinlan 提出了决策树ID3算法,有人在此基础上提出了一些改进的SLIQ 、SPRINT 、CHAID 等一些算法。

这些算法运用也被运用到财务预警方面。

姚靠华、陈晓红(2007)运用这些算法对我国上市公司的财务预警问题进行了研究。

1982年Z.Pawlak 教授提出了粗糙集理论,运用粗糙集的方法可以对属性进行约简,把粗糙集的知识运用到决策树上,国内外学者提出了很多不同的建树方法并应用到很多领域。

2001年赵卫东、李旗号运用粗糙集知识对决策树进行了优化,通过引入粗糙集理论中可分辨的概念给出一种方法,这种方法通过优化降低了树的高度。

2009年Iftikhar U.Sikder 和Toshinori Munakata 的基于粗糙集和决策树对低地震活动前兆因素的描述,他们运用粗糙集和决策树的方法,使用了信息增益和熵产生一系列规则,对地震进行预警。

值此论文完成之际作者首先要衷心感...

值此论文完成之际作者首先要衷心感...

致 谢值此论文完成之际,作者首先要衷心感谢导师邵良杉教授的悉心指导和淳淳教诲。

邵老师严谨治学、开拓创新的学术作风,谦虚豁达、平易近人的高尚人格,勤勉踏实、兢兢业业的工作态度,对我在做人、治学、工作和生活等方面产生了极大影响,将使我终身受益。

在此,谨向导师致以崇高的敬意和真诚的感谢!感谢一起学习和生活的各位同学。

学术上的交流促进了我们彼此的科研,生活中大家一起分享阳光,分担风雨,一起面对学习中的压力与挑战,一起度过了愉快而短暂的美好时光。

这些同学包括已经毕业的师兄师姐,一同入校的同学,宿舍里同住的姐妹以及实验室里一起学习的师弟师妹们。

难得的友情我一定会铭记终生。

最后感谢父母,生活上的关怀和精神上的理解与鼓励,使我能够面对各种困难与挫折,让我充满信心和勇气。

他们的默默支持,是促使我完成学业的最大动力。

最后我要将本文献给所有支持和帮助过我的人,向他们表达我最诚挚的谢意。

摘 要随着信息技术和数据库技术的高速发展,人们每天都要面对巨大的数据量,数据挖掘正是致力于数据的分析和理解、揭示数据内部蕴藏知识的技术,是当前人工智能研究中非常活跃的领域。

粗糙集理论是一种有效地处理模糊性和不确定性问题的数学工具,为数据挖掘的研究提供了新的思路和基础。

本文主要研究变精度粗糙集的约简算法,针对传统数据挖掘处理噪声数据不力的问题,从理论和应用两个方面对约简算法进行了深入的研究。

主要工作包括:(1) 在变精度粗糙集理论下对经典粗糙集的概念进行了重新的诠释;分析了粗糙集理论在数据挖掘应用中的理论根据和基本原理,并点出了研究的方向。

(2)比较分析了两种变精度粗糙集模型下的约简算法,即−β下近似和−β下分布约简算法,结合这两种算法提出了一种改进算法,并验证了新算法的有效性。

(3) 提出了基于变精度粗糙集和熵权相结合的评估模型,并将模型应用于企业自主创新能力评价中,通过实证分析,证实了该模型在企业自主创新能力评价中的有效性。

关键词:变精度粗糙集;属性约简;熵权;自主创新能力AbstractAs information technology and database technology developing rapidly, people every day face the enormous amount of data,Data mining is a technology that dedicated to data analysis and understanding, revealing hidden knowledge of the internal data ,and is currently a very active area of research of AI. Rough set theory is an effective way of dealing with ambiguity and uncertainty of the mathematical tools for data mining research has provided new ideas and the foundation.This paper studies the variable precision rough set reduction algorithm ,for traditional data mining deal with the noise problem of insufficient data, from both theoretical and applied aspects of reduction algorithm in-depth study.Main functions include:1) Re-interpret the concept of the classic rough set based on the variable precision rough set theory; analysis of rough set theory in data mining applications, the theoretical basis and rationale, and point out research directions.2) A comparative analysis of two kinds of variable precision rough set model of the reduction algorithm, namely, the βlower approximation andβlower distribution reduction algorithm, combining the two algorithms proposed an improved algorithm and verify that the new algorithm.3) Propose an assessment model based on variable precision rough set and entropy, and the model was applied to evaluation of enterprise independent innovation capacity, through empirical analysis confirms the model capability of independent innovation in the enterprise evaluation of effectiveness.Key Words:Variable precision rough set; attribute reduction ;entropy;capability of independent innovation目 录摘要Abstract1 引言 (1)1.1 论文研究背景及意义 (1)1.2 国内外研究综述 (2)1.2.1粗糙集理论的发展及研究现状 (2)1.2.2 数据挖掘方法的研究现状 (7)1.3 论文主要研究内容和结构安排 (8)2 相关理论概述 (10)粗糙集基本理论2.1 (10)2.2变精度粗糙集理论 (15)2.3变精度粗糙集理论和其他挖掘算法的结合应用 (17)3 基于变精度粗糙集的属性约简算法 (19)β近似属性约简算法 (19)3.1 变精度粗糙集中的−β下分布属性约简算法 (22)3.2 变精度粗糙集下的−β下分布约简的基本思想 (22)3.2.1 −β下分布可辨识矩阵 (23)3.2.2 −β下近似属性约简算法 (25)3.3 改进的VPRS下的−3.4实验结果及分析 (29)4 基于VPRS-熵权法的企业自主创新能力评价研究 (31)4.1 自主创新理论阐述 (31)4.1.1 创新概念的提出 (31)4.1.2 自主创新的内涵 (32)4.1.3 企业创新能力及测度理论 (32)4.2信息熵与熵权 (35)4.2.1信息熵 (36)4.2.2 熵权 (36)4.3 熵值法计算步骤 (38)4.4基于VPRS下近似约简算法的建模过程 (39)4.5 实证分析 (40)4.5.1 初选评价指标及待评对象确定 (40)4.5.2 原始数据采集及数据预处理 (41)4.5.3 指标约简 (45)4.5.4 确定熵值、权重和综合评价 (46)5 结论 (49)5.1研究工作总结 (49)5.2展望 (50)致谢 (50)参考文献 (51)作者简历 (54)学位论文原创性声明 (55)学位论文数据集 (56)1 引言1.1 论文研究背景及意义20世纪90年代以来,随着科技的进步,特别是信息产业的发展和普及,把我们带入了一个崭新的信息时代。

序信息系统中变精度粗糙集属性约简的Matlab实现

序信息系统中变精度粗糙集属性约简的Matlab实现

变精度 粗糙 集属 性 约 简的计 算 。 当序 信 息 系统 变精 度 粗糙 集考 虑单 个优 势决 策 时 , 约 简类 型不 受 系统 协调 性 的影 响 , 因此进 行 了考 虑 单 个优 势 决 策 的约 简计 算研 究 , 并 和 可行 性 。
i n Do mi n a nc e - Ba s e d Va r i a b l e Pr e c i s i o n Ro ug h S e t
x u We i — h u a , Z H A N G X i a n — t a o , WA N G Q i a o — r o n g
第2 7卷 第 1 期
Vo 1 . 2 7 No. 1
重 庆 理 工 大 学 学 报 (自然科 学 )
J o u r n a l o f C h o n g q i n g Un i v e r s i t y o f T e c h n o l o g y ( N a t u r a l S c i e n c e )


词: 序 信 息 系统 ; 变精度 ; 属性约简; 单个优 势决策
文献标 识码 : A 文章编 号 : 1 6 7 4— 8 4 2 5 ( 2 0 1 3 ) 0 1 — 0 1 0 7— 0 9
中图分 类 号 : T P 1 8
Ex p e r i me n t a l Co mp u t i n g o n At t r i b u t e Re d u c t i o n b y Ma t l a b
Ab s t r a c t :Ac c o r d i n g t o t h e t h e o r y o n Do mi n a n c e — b a s e d v a r i a b l e p r e c i s i o n r o u g h s e t ,we s t u d y a n d p r o g r a m Ma t l a b c o d e s t o c o mp u t e t h e a t t r i b u t e r e d u c t i o n s a n d r e a l i z e t h e v a ia r b l e p r e c i s i o n r o u g h s e t i n o r d e r e d i n f o r ma t i o n s y s t e ms .W h i l e a s i n g l e d o mi n a n c e d e c i s i o n i s c o n s i d e r e d i n a n o r d e r e d i n f o r .

粗糙集约简方法

粗糙集约简方法

粗糙集约简方法简介粗糙集约简方法是数据挖掘领域中一种常用的特征选择方法。

在众多特征选择方法中,粗糙集约简方法以其简单快速、易于理解的特点而受到广泛关注。

它通过粗糙集理论的基本原理,对原始数据集进行约简,从而得到一个更精简的特征子集,提高数据挖掘效率。

粗糙集理论基础粗糙集理论是由波兰学者Pawlak于1982年提出的,是一种处理不确定性信息的方法。

它基于集合论和近似推理,并尝试解决数据集中存在的不确定性和模糊性问题。

在粗糙集理论中,将数据集划分为对象的集合和属性的集合,并使用近似关系来描述属性与对象之间的关系。

约简的概念与意义约简是指通过对原始数据集进行操作,得到一个特征子集,该子集包含了原始数据集中的重要、有用的特征信息,而丢弃了无关、冗余的特征信息。

约简的过程就是在保持数据集中信息完整性和准确性的基础上,减少特征的数量,提高数据挖掘的效率。

约简所起到的作用有以下几个方面: - 减少特征的数量,提高数据挖掘算法的效率和性能; - 去除冗余信息,减少数据挖掘模型的复杂度; - 提高数据可视化效果,减少特征数量可以降低维度,更方便数据的可视化和分析。

粗糙集约简方法的步骤粗糙集约简方法一般包括以下几个步骤:1.确定属性集合和决策集合:首先确定数据集中的属性集合和决策集合。

属性集合是指数据集中待选择的特征集合,决策集合是指用于分类或预测的结果集合。

2.计算属性间的依赖度:使用粗糙集理论中的依赖度指标,计算属性集合中各个属性之间的依赖程度。

具体来说,可以计算属性集合中每个属性与决策集合之间的依赖度,衡量该属性对于分类结果的贡献程度。

3.确定依赖度阈值:根据需求和实际情况,确定一个依赖度阈值。

该阈值可以根据经验选择,也可以通过交叉验证等方法进行确定。

4.生成约简的特征子集:根据依赖度阈值,从属性集合中选择具有较高依赖度的特征,构成约简的特征子集。

5.验证约简的质量:使用约简的特征子集,进行数据挖掘任务,比如分类、预测等。

如何利用粗糙集理论构建知识发现系统

如何利用粗糙集理论构建知识发现系统

如何利用粗糙集理论构建知识发现系统在当今信息爆炸的时代,人们面临着海量的数据和信息,如何从中挖掘出有价值的知识成为了一个重要的问题。

粗糙集理论作为一种有效的数据挖掘和知识发现方法,已经被广泛应用于各个领域。

本文将探讨如何利用粗糙集理论构建知识发现系统。

首先,我们需要了解粗糙集理论的基本概念和原理。

粗糙集理论是由波兰学者Zdzisław Pawlak于1982年提出的,它是一种处理不完备和不确定信息的方法。

粗糙集理论的核心思想是通过对数据进行粗糙化和近似处理,找出数据之间的关联和规律。

在粗糙集理论中,属性约简是一个重要的概念,它可以帮助我们从大量的属性中找出最具代表性和区分性的属性,从而简化数据分析过程。

基于粗糙集理论,我们可以构建一个知识发现系统。

这个系统可以包括以下几个模块:数据预处理、属性约简、知识提取和知识表示。

首先,数据预处理模块负责对原始数据进行清洗、去噪和归一化处理,以保证数据的质量和一致性。

接下来,属性约简模块通过粗糙集理论中的属性约简算法,从大量的属性中选择出最具代表性和区分性的属性,减少数据维度和冗余信息。

然后,知识提取模块将根据约简后的属性和数据之间的关联关系,挖掘出隐藏在数据中的知识和规律。

最后,知识表示模块将提取到的知识以可视化的方式展示出来,方便用户理解和应用。

在构建知识发现系统的过程中,我们还需要考虑一些关键问题。

首先是数据的选择和采集问题。

我们需要选择合适的数据集,并进行有效的数据采集和整理,以保证数据的全面性和准确性。

其次是算法的选择和优化问题。

粗糙集理论中有多种属性约简算法,我们需要根据具体的应用场景选择合适的算法,并进行算法的优化和改进,以提高系统的性能和效果。

最后是系统的应用和评估问题。

我们需要将构建好的知识发现系统应用到实际问题中,并对系统的性能和效果进行评估和改进。

除了构建知识发现系统,粗糙集理论还可以与其他数据挖掘和机器学习方法相结合,进一步提高知识发现的效果和精度。

经典-经典变精度概念格的一种属性约简

经典-经典变精度概念格的一种属性约简

经典-经典变精度概念格的一种属性约简
李同军;徐珍珍;吴明瑞;杨晓平
【期刊名称】《西北大学学报:自然科学版》
【年(卷),期】2022(52)5
【摘要】变精度概念格是形式模糊背景中知识的一种表式形式,经典-经典变精度概念格是一种形式的变精度概念格。

正因为变精度概念格建立在形式模糊背景之上,所以基于变精度概念格的形式模糊背景属性约简的研究显得更加困难。

该文研究经典-经典变精度概念格的属性约简问题。

讨论了利用不同精度的经典-经典形式概念提取一组确定性规则,进而提出一种变精度概念格属性约简的概念,保证约简后的形式模糊背景导出的确定性规则与原背景导出的规则具有相同的性能。

关于属性约简,我们给出了属性协调集的判定定理以及核心属性的特征刻画,定义了辨识属性集,通过辨识属性集给出一种约简计算方法,利用该方法可以获得全部约简,并且结合示例说明了方法的可行性。

【总页数】9页(P765-773)
【作者】李同军;徐珍珍;吴明瑞;杨晓平
【作者单位】浙江海洋大学信息工程学院;浙江海洋大学浙江省海洋大数据挖掘与应用重点实验室
【正文语种】中文
【中图分类】TP18
【相关文献】
1.一种新的面向对象概念格属性约简方法
2.概念格的贴近度及基于贴近度的概念格属性约简算法
3.基于经典-模糊变精度概念格的决策规则获取及其推理算法
4.一种基于属性重要性的变精度粗糙集属性约简算法
5.基于矩阵的模糊-经典概念格属性约简
因版权原因,仅展示原文概要,查看原文内容请购买。

10.粗糙集方法

10.粗糙集方法

可知有:

A ( X ) { f }
A ( X ) {a, b, c} { f } {a, b, c, f }
PosA ( X ) A ( X ) { f }
NEGA ( X ) U A ( X ) {d , e}
BNDA ( X ) A ( X ) A ( X ) {a, b, c}
计算减少一个条件属性相对决策属性的正域
Pos(C \{a1}) (D) {2,5,9,10,11 U } Pos(C \{a2 }) (D) U Posc (D) Pos(C \{a3 }) (D) U Posc (D)
Pos(C \{a4 }) (D) {1,2,3,7,8,9,10,11,12,13} U
a R, x U , fa ( x) Va
(2)等价关系定义
对 于 a A A 中 包 含 一 个 或 多 个 属 ( A 性), R, x U , y U ,它们的属性值相同, f ( x) f ( y ) 即: 成立,称对象x和y是对属性A的等价关系, 表示为:
a a
(2)集合X的上近似定义
对任意一个子集 X U ,属性A的等价类 Ei [ x]A 有: A ( X ) Ei | Ei A Ei X 或 A ( X ) x | [ x] A X 表示等价类 Ei [ x]A 中的元素x可能属于X, 即x A (X ),则x可能属于X,也可能不属于X。
第 8 章 集合论方法 (一) 粗糙集方法
8.1粗糙集方法

8.1.1粗糙集概念 8.1.2属性约简的粗糙集理论 8.1.3属性约简的粗糙集方法 8.1.4粗糙集方法的规则获取 8.1.5粗糙集方法的应用实例

变精度粗糙集方法

变精度粗糙集方法

近似集合与真实集合的相似度。
决策规则的生成算法
确定决策规则
根据下近似集和上近似集,通过一定的算法确定决策规则,即根据近似精度进行 分类或决策。
评估决策规则
根据实际需求和数据集,通过一定的算法评估决策规则的准确性和可靠性。
属性约简算法
确定冗余属性
根据数据集和决策规则,通过一定的 算法确定冗余属性,即对决策结果没 有影响的属性。
进行属性约简
根据冗余属性,通过一定的算法进来自 属性约简,即去除冗余属性后得到最 小决策规则集合。
04
变精度粗糙集方法的应 用实例
数据预处理与实例选择
原始数据收集
首先需要收集相关的数据,这些数据可以是 来自不同来源和格式的数据。
数据清洗
对收集到的数据进行清洗,去除重复、错误 或不完整的数据。
数据转换
处理连续属性受限
传统的变精度粗糙集方法主要针对离散属性,对于连续属性的处理能力有限,需要进一 步改进和扩展。
决策规则提取困难
变精度粗糙集方法在提取决策规则方面可能面临挑战,尤其是在处理复杂和不均衡数据 集时,难以得到可靠和有效的决策规则。
未来研究方向与展望
属性约简优化
进一步研究属性约简算法,提高模型在处理大规模数据集时的效率 和准确性。
资源和时间。
03
变精度粗糙集方法的核 心算法
近似集的求解算法
确定下近似集
01
根据给定的数据集和阈值,通过一定的算法确定下近似集,即
确定哪些对象属于集合。
确定上近似集
02
根据给定的数据集和阈值,通过一定的算法确定上近似集,即
确定哪些对象可能属于集合。
计算近似精度
03
根据下近似集和上近似集,通过一定的算法计算近似精度,即

基于变精度粗糙集的不完备决策表属性约简

基于变精度粗糙集的不完备决策表属性约简
d e c i s i o nt a b l e . C o mp u t e r En g i n e e r i n g a n dAp p l i c a t i o n s , 2 0 1 3 , 4 9 ( 1 3 ) : 1 1 8 — 1 2 0 .
Ab s t r a c t :I n v i e w o f t h e l i mi t a t i o n s o f t h e a t t r i b u t e r e d u c t i o n a l g o r i t h m b a s e d o n v a r i a b l e p r e c i s i o n r o u g h s e t i n t o l e r a n c e r e l a —
d e mo n s t r a t e s t h e e f f e c t i v e n e s s o f t h e p r o p o s e d me t h o d . Ke y wo r d s :v a r i a b l e p r e c i s i o n r o u g h s e t ; i n c o mp l e t e d e c i s i o n t a b l e ; a t t r i b u t e r e d u c t i o n ; t o l e r a n c e r e l a t i o n
C o m p u t e r E n g i n e e r i n g a n d A p p l i c a t i o n s 计 算机 工程 与应 用
基 于 变 精 度 粗 糙 集 的不 完备 决 策 表 属 性 约 简
林春 杰 , 张瑞玲 , 韩 晓琴
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2004年1月系统工程理论与实践第1期 文章编号:100026788(2004)0120076207基于变精度粗糙集理论的知识约简方法米据生1,2,吴伟志1,张文修1(1.西安交通大学理学院信息与系统科学研究所,陕西西安710049;2.河北师范大学数学与信息科学学院,河北石家庄050016)摘要: 基于变精度粗糙集理论与包含度理论,引入了不协调目标信息系统的上、下分布约简的概念,并讨论了它们之间的关系.上(下)分布约简是保持每个决策类的上(下)近似不变的最小属性集,由约简系统产生的命题规则与由原系统产生的命题规则是相容的,即约简不会改变由对象所产生的规则的决策结果.通过对这两种知识约简的等价刻画,得到了上、下分布知识约简的判定定理和可辨识属性矩阵,从而提供了不协调目标信息系统知识约简的新方法.关键词: 变精度粗糙集;知识约简;信息系统;协调集中图分类号: T P18 文献标识码: A Know ledge R educts Based on V ariab le P recisi on Rough Set T heo ry M I J u2sheng1,2,W U W ei2zh i1,ZHAN G W en2x iu1(1.In stitu te fo r Info rm ati on and System Sciences,Facu lty of Science,X i’an J iao tong U n iversity,X i’an710049,Ch ina;2. Co llege of M athem ath is and Info rm ati on Science,H ebei N o rm al U n iversity,Sh ijiazhuang050016,Ch ina)Abstract: T he m ain ob jective of the paper is to in troduce som e new concep ts of know ledge reducti onbased on variab le p recisi on rough set theo ry such as upper distribu ti on reducti on and low er distribu ti onreducti on.T he decisi on ru les derived from the distribu ti on con sisten t set are compatib le w ith the onesderived from o riginal system.T heir equ ivalen t defin iti on s are studied.T he relati on sh i p s among alterna2tive reducts in incon sisten t info rm ati on system s are discu ssed.T he judgem en t theo rem s and discern ib ili2ty m atrixes w ith respect to upper and low er reducti on s are ob tained.So one can calcu lates the reductsby the discern ib ility fo rm u las.T hese resu lts are m ean ingfu l bo th in the theo ry and in app licati on s.Key words: variab le p recisi on rough set;info rm ati on system;know ledge reducti on;con sisten t set 知识发现是人工智能的核心问题之一,它是从信息系统中识别正确、新颖、有潜在应用价值并最终可为人们所理解的模式的方法.粗糙集理论提供了知识发现的一种数学方法.由于这一理论的广泛应用,它越来越引起国际学术界的关注.知识约简是知识发现的重要课题,因而也是粗糙集理论的核心问题之一.目前,信息系统的知识约简大多是在Paw lak粗糙集模型下进行的[1-7].Paw lak粗糙集模型的一个局限性是它所处理的分类必须是完全正确的或肯定的,因而它的分类是精确的,亦即只考虑完全“包含”与“不包含”,而没有某种程度上的“包含”与“属于”.Paw lak粗糙集模型的另一个局限性是它所处理的对象是已知的,且从模型中得到的结论仅适用于这些对象.但在实际应用中,往往需要把从小规模对象集中得到的结论应用于大规模对象集上去.Paw lak粗糙集模型的这些局限性限制了它的应用.近年来,许多学者从多方面推广了这一模型. Ziarko于1993年提出了变精度粗糙集模型.在这个模型中,给定一个阈值,当对象所在的等价类在某种程度上包含于集合X中时,就认为这个对象属于X.这一推广在应用上是非常重要的,因为在实际问题收稿日期:2002211218资助项目:国家自然科学基金(10271039);973项目(2002CB312206) 作者简介:张文修(1940-),男,教授,博士生导师,中国数学会常务理事.研究方向:应用概率论,人工智能的数学基础等;米据生(1966-),男,副教授,博士生.研究方向:人工智能的数学基础,粗糙集与随机集;吴伟志(1964-),男,副教授,博士生.研究方向:人工智能的数学基础,粗糙集与随机集中绝对的包含有时是不必要的.基于变精度粗糙集理论,文[8-11]给出并研究了不协调信息系统的Β下近似约简.Β下近似约简保持有决策的对象总数不变,但所产生的决策规则与原信息系统产生的规则有可能冲突.因此,这种约简定义不太适合实际需要,并且也没有文献从理论上给出这种知识约简的具体操作方法.为此,在文[12]中,我们利用可辨识属性矩阵给出并研究了不协调目标信息系统的几种知识约简方法.本文提出变精度粗糙集模型上两种知识约简的新概念,即Β上、下分布约简.它们分别是保持每个决策类的Β上、下近似不变的属性集,并且与全部属性集A 产生相容的命题规则.同时给出了Β上分布约简与Β下分布约简的判定定理和相应的可辨识属性矩阵,从而得到了变精度粗糙集模型上知识约简的新方法.这为不协调目标信息系统的知识约简提供了理论依据与算法.1 变精度粗糙集模型变精度粗糙集模型[8]是Paw lak 粗糙集模型[1]的推广.先给出有关概念和术语.定义1.1 设(U ,A ∪D ,f )是目标信息系统,其中,U 是有限对象集合,U ={x 1,…,x n };A 是有限条件属性集,A ={a 1,…,a p };D 是有限目标属性集,D ={d 1,…,d q },A ∩D = .f 是描述,f :U ×(A ∪B )→V ,V =∪c ∈A ∪DV c ,V c 是c 的有限值域.对于任意B ΑA ∪D ,记R B ={(x ,y ):f (x ,c )=f (y ,c ),c ∈B }则R B 是U 上的等价关系,称为由B 决定的不可区分关系.它产生的上的U 分划记为:U R B ={[x ]B :x ∈U }其中[x ]B ={y :(x ,y )∈R B }是x 关于B 的等价类.ΠX ΑU ,记R B (X )={x ∈U :[x ]B ΑX }=∪{[x ]B :[x ]B ΑX }R B (X )={x ∈U :[x ]B ∩X ≠ }=∪{[x ]B :[x ]B ∩X ≠ }则R B (X )与R B (X )分别称为x 关于B 的下近似和上近似.X 的下近似是按着知识B 肯定属于X 的对象全体,而上近似是按着知识B 可能属于X 的对象全体.显然R B ΑX ΑR B (X ),R B (X )ΑR B ∪{a }(X ), R B (X )ΒR B ∪{a }(X )这说明:增加属性会减少对象是否属于X 的不确定程度.称(U ,R A ,R A ,R A )为Paw lak 粗糙集模型.对Β∈(0.5,1],记R ΒB (X )={x ∈U :D (X [x ]B )ΕΒ}=∪{[x ]B :D (X [x ]B )ΕΒ}R ΒB (X )={x ∈U :D (X [x ]B )>1-Β}=∪{[x ]B :D (X [x ]B )>1-Β}则分别称R ΒB (X )与R ΒB (X )为X 关于B 的Β下近似和Β上近似.称(U ,R A ,R ΒB ,R ΒB)(B ΑA )为变精度粗糙集模型[8].其中D 为U 的幂集P (U )={X :X ΑU }上的包含度.为方便起见,本文中取D (X Y )= X ∩YY,若 Y ≠0;D (X Y )=1,若 Y =0.其中 Y 表示Y 中的元素个数.则D (X Y )+D (X cY )= X ∩Y Y=1这时R ΒB (X )与R ΒB (X )满足对偶性质:R ΒB (X )=~R ΒB (~X ).当Β=1时,R ΒB(X )=R B (X )且R ΒB (X )=R B (X ).因此,变精度粗糙集模型是Paw lak 粗糙集模型的推广.为叙述简单,以下设D ={d },V d ={1,2,…,r },D j ={x ∈U ,f (d ,x )=j }.则U R D ={[x ]D :x ∈U }={D 1,…,D r }.容易证明[8],R ΒB 与R ΒB 具有以下性质:1)R ΒB(D i )∩R ΒB (D j )= ,(i ≠j );2)∪rj =1R ΒB(D j )Α∪rj =1R ΒB (D j )ΑU ,等号未必成立;3)R ΒB (D i )∩R ΒB (D j )= 一般不成立.77第1期基于变精度粗糙集理论的知识约简方法在变精度粗糙集模型中,由x ∈R ΒA(D j )可产生如下形式的命题规则∧c ∈A(c ,f (c ,x ))→d =j 显然,基于变精度粗糙集理论,并不是每一个对象都有决策,只有当其所在等价类在某个决策类中的包含度不小于阈值时,它才能产生决策规则.定义1.2 设(U ,A ∪D ,f )是目标信息系统,若R A ΑR D ,则称目标信息系统是协调的,否则称目标信息系统是不协调的.2 变精度粗糙集模型上知识约简的概念基于变精度粗糙集理论,文[8-11]给出了Β下近似约简的概念.下面再定义几种知识约简概念.定义2.1设(U ,A ∪D ,f )是目标信息系统,B ΑA .记ΡΒB =6{ R ΒB(D k ) :k Φr } U;ΚΒB =6{ R ΒB(D k ) :k Φr } UL ΒB =(R ΒB (D 1),…,R ΒB (D r )); H ΒB=(R B(D 1),…,R B (D r )) 1)若ΡΒB =ΡΒA ,则称B 是Β下近似协调集.若B 是Β下近似协调集,但B 的任何真子集不是Β下近似协调集,则称B 是Β下近似约简[11].2)若ΚΒB =ΚΒA ,则称B 是Β上近似协调集.若B 是Β上近似协调集,但B 的任何真子集不是Β上近似协调集,则称B 是Β上近似约简.3)若L ΒB =L ΒA ,则称B 是Β下分布协调集.若B 是Β下分布协调集,但B 的任何真子集不是Β下分布协调集,则称B 是Β下分布约简.4)若H ΒB =H ΒA ,则称B 是Β上分布协调集.若B 是Β上分布协调集,但B 的任何真子集不是Β上分布协调集,则称B 是Β上分布约简.Β上(下)分布协调集是保持每个决策类的Β上(下)近似不变的属性集,它与A 产生相容的命题规则,即在原系统和约简系统中,由同一对象所产生的命题规则的决策部分相同.而Β下近似协调集保持决策类的下近似中的对象总数不变,由它产生的命题规则与由A 产生的命题规则可能冲突,但支持这些命题规则的对象个数不变.定理2.1 设(U ,A ∪D ,f )是目标信息系统,则Β下分布协调集必为Β下近似协调集,Β上分布协调集必为Β上近似协调集.表2.1U a 1a 2dx 1101x 2111x 3112x 4121x 5203x 6224x 7223x 8214证明 由定义立即可得.例2.1 Β下近似协调集未必是Β下分布协调集.给出目标信息系统(表2.1).记D 1={x 1,x 2,x 4},D 2={x 3},D 3={x 5,x 7}D 4={x 6,x 8},A ={a 1,a 2},B ={a 1}则R 0.7A (D 1)={x 1,x 4},R 0.7A (D 2)= ,R 0.7A (D 3)={x 5}R 0.7A (D 4)={x 8},R 0.7B (D 1)={x 1,x 2,x 3,x 4},R 0.7B (D 2)=R 0.7B (D 3)= ,R 0.7B (D 4)= .因此,B ={a 1}是0.7下近似协调集,但不是0.7下分布协调集.同样,Β上近似协调集也未必是Β上分布协调集.定理2.2 设(U ,A ∪D ,f )是目标信息系统,则B 为1上近似协调集的充分必要条件是B 为1上分布协调集.证明 设B 为1上近似协调集,则6{ R 1B(D j ) :j Φr }=6{ R 1A(D j ) :j Φr }.又容易证明,Πj87系统工程理论与实践2004年1月Φr ,有R 1B (D j )ΒR 1A (D j ),因此R 1B (D j )=R 1A (D j ),即B 是1上分布协调集.相反方面由定理2.1即得. 定理2.3 设(U ,A ∪D ,f )是目标信息系统,则1)1上分布协调集必为1下分布协调集;2)1上近似协调集必为1下近似协调集. 证明 1)设B 是1上分布协调集,则Πj Φr ,有R 1B (D j )=R 1A (D j ).于是对Πx ∈U ,D (D j [x ]B )>0α]D (D j [x ]A )>0,即[x ]B ∩D j ≠ α][x ]A ∩D j ≠ .由于{D j :j Φr }构成了U 的划分,故[x ]B ΑD j α][x ]A ΑD j .因此R 1B(D j )=R 1A (D j ),Πj Φr ,即B 是1下分布协调集.2)由定理2.2,定理2.1及以上(1)的证明立即可得.3 变精度粗糙集模型上的知识约简方法先给出Β上、下分布协调集的等价刻画.定理3.1 设(U ,A ∪D ,f )是目标信息系统,B ΑA ,记M ΒB (x )={D j :x ∈R ΒB (D j )},x ∈UG ΒB (x )={D j :x ∈R ΒB (D j )},x ∈U则,1)B 是Β上分布协调集,α]Πx ∈U ,M ΒB (x )=M ΒA (x ).2)B 是Β下分布协调集α]Πx ∈U ,G ΒB(x )=G ΒA (x ).证明 1)因为x ∈R ΒA (D j )α]D j ∈M ΒA (x );x ∈R ΒB (D j )α]D j ∈M ΒB (x ).则证.2)类似于1)可证.定理3.2(知识约简的判定定理) 设(U ,A ∪D ,f )是目标信息系统,B ΑA .则1)B 是Β上分布协调集α]Πx ,y ∈U ,当M ΒA (x )≠M ΒA (y )时,[x ]B ∩[y ]B = .2)B 是Β下分布协调集α]Πx ,y ∈U ,当G ΒA(x )≠G ΒA (y )时,[x ]B ∩[y ]B = .证明 记J ([x ]B )={[y ]A :[y ]A Α[x ]B }.由于B ΑA ,J ([x ]B )构成了[x ]B 的一个分划.1)设B 是Β上分布协调集.Πx ,y ∈U ,当[x ]B ∩[y ]B ≠ 时,有[x ]B =[y ]B ,于是M ΒB(x )=M ΒB (y ).由定理3.1得M ΒA(x )=M ΒB (x )且M ΒA (y )=M ΒB (y ),从而M ΒA (x )=M ΒA (y ).因而当M ΒA (x )≠M ΒA (y )时,[x ]B ∩[y ]B = .反之,Πx ∈U ,当[y ]A Α[x ]B 时,有[x ]B ∩[y ]B ≠ ,故M ΒA(x )=M ΒA (y ).Πj Φr ,若x ∈R ΒB(D j ),则[x ]B ΑR ΒB (D j ).由于[x ]B =∪{[y ]A :[y ]A ∈J ([x ]B )},故Π[y 0]A ∈J ([x ]B ),有[y 0]A ΑR ΒB (D j ),故D j ∈M ΒA (y 0).从而D j ∈M ΒA (x ).因此x ∈R ΒA (D j ).若x ∈R ΒA (D j ),则D j ∈M ΒA (x ).当[y ]A ∈J ([x ]B )时,[y ]B ∩[x ]B ≠ ,故M ΒA (x )=M ΒA (y ),从而D j∈M ΒA (y ),即D (D j[y ]A )>1-Β.于是D (D j [x ]B )=6{ [y ]A ∩D j :[y ]A ∈J ([x ]B )} [x ]B=6[y ]A ∩D j [y ]A [y ]A[x ]B:[y ]A ∈J ([x ]B )>(1-Β)6[y ]A[x ]B:[y ]A ∈J ([x ]B )=1-Β因此x ∈R ΒB(D j ).这样便证明了R B (D j )=R A (D j ),Πj Φr .即B 是Β上分布协调集.2)类似于(1)的证明可得.定理3.2给出了判断属性子集是Β上、下分布协调集的方法.由此我们可进一步得到相应的知识约简方法.先给出可辨识属性矩阵的概念.定义3.1 设(U ,A ∪D ,f )是目标信息系统,U R A ={C 1,…,C m }.记D 3Β1={([x ]A ,[y ]A ):M ΒA (x )≠M ΒA (y )};97第1期基于变精度粗糙集理论的知识约简方法D3Β2={([x]A,[y]A):GΒA(x)≠GΒA(y)}用f(C i,a k)表示属性a k关于C i中对象的取值.定义DΒl(C i,C j)={a k∈A:f(C i,a k)≠f(C j,a k)},(C i,C j)∈D3Βl.A,(C i,C j)|D3Βl,l=1,2则分别称DΒ1(C i,C j)与DΒ2(C i,C j)为C i与C j的Β上、下分布可辨识属性集,DΒ1=(DΒ1(C i,C j);i,jΦm)与DΒ2=(DΒ2(C i,C j);i,jΦm),分别称为目标信息系统的Β上、下分布可辨识属性矩阵.定理3.3 目标信息系统的Β上、下分布可辨识属性矩阵具有以下性质:1)它们都是对称矩阵,即DΒl(C i,C j)=DΒl(C j,C i),(l=1,2);2)主对角线上的元素都是A,即DΒl(C i,C i)=A,ΠiΦm,(l=1,2,);3)DΒl(C i,C j)ΑDΒl(C i,C s)∪DΒl(C s,C j),Πi,s,jΦm(l=1,2).证明 只需证3).若a k|DΒl(C i,C s)∪DΒl(C s,C j),则a k|DΒl(C s,C j)且a k|DΒl(C s,C j).于是f(C i, a k)=f(C s,a k),f(C s,a k)=f(C j,a k).从而f(C i,a k)=f(C j,a k),故a k|DΒl(C i,C j).3)得证.定理3.4 设(U,A∪D,f)是目标信息系统,BΑA,则1)B是Β上分布协调集α]Π(C i,C j)∈D3Β1,有B∩DΒ1(C i,C j)≠ .2)B是Β下分布协调集α]Π(C i,C j)∈D3Β2,有B∩DΒ2(C i,C j)≠ .证明 1)设B是Β上分布协调集,Π(C i,C j)∈D3Β1,不妨设C i=[x]A,C j=[y]A,则MΒA(x)≠MΒA (y).由定理3.21)得[x]B∩[y]B= .于是存在a k∈B,使得f(x,a k)≠f(y,a k),即f(C i,a k)≠f(C j, a k),故a k∈DΒ1(C i,C j).因此B∩DΒ1(C i,C j)≠ .反之,若存在(C i,C j)∈D3Β1,使得B∩DΒ1(C i,C j)= .记C i=[x]A,C j=[y]A,则MΒA(x)≠MΒA(y).对Πa k∈B,必有a k|DΒ1(C i,C j),于是f(C i,a k)=f(C j,a k),从而f(x,a k)=f(y,a k).这说明[x]B= [y]B.再由定理3.21)即得B不是Β上分布协调集.3)类似于(1)可证.定义3.2 设(U,A∪D,f)是目标信息系统,DΒl=(DΒl(C i,C j);i,jΦm)(l=1,2)分别为Β上、下分布可辨识属性矩阵.分别称MΒl=∧i,j (∨DΒl(C i,C j))=∧C i,C j∈D3Βl(∨DΒl(C i,C j)),l=1,2为Β上、下分布辨识公式.定理3.5 设(U,A∪D,f)是目标信息系统,辨识公式MΒl的极小析取范式为MΒl=∨tk=1(∧q ks=1a is).记B lk={a is:s=1,2,…,q k},则{B lk:k=1,2,…,t}(l=1,2)分别是所有Β上、下分布约简形成的集合.证明 仅证{B lk:k=1,2,…,t}是所有Β上分布约简的全体.ΠkΦt,Π(C i,C j)∈D3Βl,由极小析取范式的定义知B1kΒDΒ1(C i,C j)≠ ,再由定理3.41)知B1k是上Β分布协调集.表3.1 不协调目标信息系统U a1a2a3a4d x110001 x201112 x301002 x401012 x501001 x601001同时,MΒ1=∨tk=1B1k,若在B1k中去掉一个元素而形成B′1k,则必存在(C i,C j)∈D3Β1,使得B’1k∩DΒ1(C i,C j)= ,故B’1k不是Β上分布协调集,从而B1k是Β上分布约简.由于Β上分布辨识公式中包含了所有的DΒ1(C i,C j),因此不存在其他Β上分布约简.定理3.5提供了求不协调信息系统两种知识约简的方法,下面给出一个数值计算例子.例3.1 给出目标信息系统(表3.1).记D1={x1,x5,x6},D2={x2,x3,x4}08系统工程理论与实践2004年1月C 1=[x 1]A ={x 1},C 2=[x 2]A ={x 2},C 3=[x 3]A ={x 3,x 5,x 6},C 4=[x 4]A ={x 4}则有ΛA (x 1)=(1,0),ΛA (x 2)=(0,1),ΛA (x 3)=ΛA (x 5)=ΛA (x 6)=(2 3,1 3),ΛA (x 4)=(0,1)M0.7A(x 1)={D 1},M 0.7A (x 2)={D 2},M 0.7A (x 3)=M 0.7A (x 5)=M 0.7A (x 6)={D 1,D 2},M 0.7A (x 4)={D 2}故D 30.71={(C 1,C 2),(C 1,C 3),(C 1,C 4),(C 2,C 3),(C 3,C 4)}因为D 0.71(C 1,C 2)={a 1,a 2,a 3,a 4},D 0.71(C 1,C 3)={a 1,a 2},D 0.71(C 1,C 4)={a 1,a 2,a 3}D 0.71(C 2,C 3)={a 3,a 4},D 0.71(C 3,C 4)={a 3}我们有M0.71=(a 1∨a 2∨a 3∨a 4)∧(a 1∨a 2)∧(a 1∨a 2∨a 3)∧(a 3∨a 4)∧a 3=(a 1∧a 3)∨(a 2∧a 3)因此{a 1,a 3}与{a 2,a 3}是目标信息系统的两个0.7上分布约简.又因为G 0.6A (x 1)={D 1}, G 0.6A (x 2)={D 2},G 0.6A (x 3)=G 0.6A (x 5)=G 0.6A (x 6)={D 1},G 0.6A (x 4)={D 2}故D 30.62={(C 1,C 2),(C 1,C 4),(C 2,C 3),(C 3,C 4)}但D 0.62(C 1,C 2)={a 1,a 2,a 3,a 4}, D 0.62(C 1,C 4)={a 1,a 2,a 3}D 0.62(C 2,C 3)={a 3,a 4}, D 0.62=(C 3,C 4)={a 3}于是M0.62=(a 1∨a 2∨a 3∨a 4)∧(a 1∨a 2∨a 3)∧(a 3∨a 4)∧a 3=a 3因此{a 3}是目标信息系统的0.6下分布约简.4 结论知识约简能够简化信息系统,又不损失有用的信息,因此它是知识获取的重要内容.关于目标信息系统的知识约简的研究已有很多成果.这些结果大多是在P aw lak 粗糙集模型中进行的.由于P aw lak 粗糙集模型在应用上的局限性,它的各种推广形式应运而生.本文研究变精度粗糙集模型上的知识约简.这方面的大量文献讨论下近似约简的问题.由于下近似约简可能产生与原信息系统不相容的命题规则,这在具体应用时不太符合实际情况.为此,我们又引入了两种新的知识约简概念,讨论了它们之间的关系.通过等价刻画得到了上分布约简与下分布约简的判定定理和相应的可辨识属性矩阵.由此提供了这两种知识约简的具体操作方法.这在理论上与应用上都是有意义的.本文的讨论是对于完备的信息系统进行的,对于不完备信息系统的知识约简的类似讨论有待进一步研究.参考文献:[1] Paw lak Z .Rough Sets :T heo retical A spects of R eason ing abou t D ata [M ].Bo ston :K luw er A cadem ic Pub lishers ,1991.[2] 王珏,王任,苗夺谦,等.基于Rough Set 理论的“数据浓缩”[J ].计算机学报,1998,21(5):393-400.[3] 王国胤.Rough 集理论与知识获取[M ].西安:西安交通大学出版社,2001.[4] 张文修,吴伟志,梁吉业,李德玉.粗糙集理论与方法[M ].北京:科学出版社,2001.[5] 苗夺谦,胡贵荣.知识约简的一种启发式算法[J ].计算机研究与发展,1999,36(6):681-684.[6] Greco S ,M atarazzo B ,Slow in sk i R .A new rough set app roach in m u lticreteria and m u ltiattribu te classificati on [A ].LNA I 1424,R SCTC’98[C ].Sp ringer ,1998.18第1期基于变精度粗糙集理论的知识约简方法[7] Slezak D.A pp rox i m ate reducts in decisi on tab les[A].P roc of IP M U’96[C].Granada,Spain:1996,V o l.3,1159-1164.[8] Ziarko W.V ariab le p recisi on rough set model[J].Jou rnal of Compu ter and System Sciences,1993,46(1):39-59.[9] K ryszk iew parative studies of alternative type of know ledge reducti on in incon sisten t system s[J].In ter2nati onal Jou rnal of In telligen t System s,2001,16:105-120.[10] Q uafatou M.Α-R ST:a generalizati on of rough set theo ry[J].Info rm ati on Sciences,2000,124:301-316.[11] Beynon M.R educts w ith in the variab le p recisi on rough sets model:a fu rther investigati on[J].Eu ropean Jou rnal ofOperati onal R esearch,2001,134:592-605.[12] 张文修,米据生,吴伟志.不协调目标信息系统的知识约简[J].计算机学报,2002,26(1):12-18.征文通知2004年服务系统与服务管理国际学术会议2004In ternati onal Conference on Service System s and Service M anagem en t北京 2004年7月19日-21日h ttp: www.rcc ieee2sss m04会议组织:Service System s and O rgan izati on Comm ittee,IEEE System s,M an and Cybernetics Society清华大学经济管理学院会议主席:陈剑(清华大学) Jam es M.T ien(R en sselaer Po lytechn ic In stitu te,U SA)会议主题:会议主题包括(但不限于):1)In terdisci p linary R esearch of Service Concep t ・strategy and quality ・cu stom er behavi o r:cu stom er satisfacti on,cu stom er reten ti on,etc. ・service i m pact model:financial perfo rm ance,retu rn on quality,etc. ・service operati on s m anagem en t:layou t and queu ing theo ry,inven to ry models,yield m anagem en t,etc. ・agen t theo ry:agen t screen ing,agen t compen sati on,etc ・o ther related research:p rocess reengineering,supp ly chain m anagem en t,etc. 2)Service Info rm ati on T echno logy ・data m in ing ・artificial in telligence ・e2bu siness ・o ther info rm ati on techno logy 3)Study of H igh Con tact Service System s・health care・retail・p rofessi onal services・em erging service重要日程: 论文摘要提交截至日期:2004年3月10日论文录用通知:2004年4月10日论文全文提交和预注册截至日期:2004年5月20日会议时间:2004年7月19日-21日论文提交:有关服务系统与服务管理的论文都可以投稿Λ论文用英文书写,第一页要包括论文题目,作者姓名,作者联系方式,论文摘要,邮寄地址,电话,传真,电子邮箱和合著作者Λ被接受的稿件必须有一个作者出席会议,所有接受的论文将入会议论文集Λ稿件格式:稿件(用PD F或W o rd格式)交到em ail:I CSSS M04@其他要求请联系:清华大学现代管理研究中心吴利芬,邮编100084电话:86-10-62789928,传真:86-10-62784555,em ail:I CSSS M04@28系统工程理论与实践2004年1月。

相关文档
最新文档