基于粗糙集理论的规则提取算法
计算机软件与理论专业毕业论文[精品论文]基于粗糙集和决策树的规则提取方法研究
计算机软件与理论专业毕业论文 [精品论文] 基于粗糙集和决策树的规则提取方法研究计算机软件与理论专业毕业论文 [精品论文] 基于粗糙集和决策树的规则提取方法研究关键词:粗糙集理论分明矩阵属性约简决策树规则提取覆盖度摘要:粗糙集理论是一种处理不准确、不确定和不完备信息的有效分析工具,能利用现有知识库中的知识对不完备信息进行近似刻画处理。
属性约简和决策规则提取是粗糙集的两大核心研究内容,但现有的属性约简算法和决策规则提取方法都存在各种不足。
为了获得更精简的属性约简集并有效提取决策规则,本论文首先针对基于分明矩阵的属性约简算法中构造分明函数时存在的元素重复、化简计算量大、矩阵元素长度不一等缺陷进行了改进。
由于决策树技术具有分类速度快、效率高、容易理解等特点,本论文将其与粗糙集理论相结合实现决策规则的提取。
利用上述改进的属性约简算法得到约简集,再利用约简集构造一棵具有多变量多集合的决策树,从而提取决策规则。
为避免不一致信息的干扰,引入准确度和覆盖度两个评价因素对决策规则进行筛选,最后提取有效的决策规则。
通过旋转机械中转子不对中的故障诊断实例对上述改进算法进行验证,实例表明,改进的属性约简算法比改进前的算法在故障规则提取时间上更快,证明了改进算法的有效性;同时也表明用粗糙集与决策树相结合的方法,不仅可以去除噪声,也可以处理不一致信息,最终能得到有效的故障诊断决策规则集。
为了将上述方法更好应用到实践中,本论文在.NET平台上设计和实现了一个基于粗糙集的决策规则提取系统,此系统可对原始决策表进行属性约简、根据约简集构造出决策树进行规则提取、并引入覆盖度对规则进行筛选获得有效规则。
正文内容粗糙集理论是一种处理不准确、不确定和不完备信息的有效分析工具,能利用现有知识库中的知识对不完备信息进行近似刻画处理。
属性约简和决策规则提取是粗糙集的两大核心研究内容,但现有的属性约简算法和决策规则提取方法都存在各种不足。
为了获得更精简的属性约简集并有效提取决策规则,本论文首先针对基于分明矩阵的属性约简算法中构造分明函数时存在的元素重复、化简计算量大、矩阵元素长度不一等缺陷进行了改进。
基于粗糙集理论的规则提取算法
班级: 学号:
姓名:主要内容:来自1、前言 2、规则提取算法2.1 算法的思想
2.2 算法过程
3、结论
前言
粗糙集理论是一种刻画模糊的、不完整性和不 确定性的数学工具。它的主要思想是是在保持分 类能力不变的前提下,通过属性约简和值约简, 导出决策规则。但在目前研究的粗糙约简算法中, 大多都比较关注属性的约简,把求得最佳属性约 简作为设计目标。但在很多的实际应用中,有时 我们并不是特别关注属性约简,而只关心求得用 户所需的决策规则。所以才提出基于粗糙集理论 的规则提取算法。
规则提取算法
算法的思想如下:
算法过程如下:
结论
本算法适用于一致性决策表和不一致性决策表,在不 求核值表的情况下,从约简后的决策表中通过隶属度函数, 直接得到各规则的最少条件属性集,获得决策表的所有决 策规则。另外,在该算法得到的所有规则中,只要将对应 同一分类结果的冗余规则去掉,可以提取出各个属性约简 下的决策规则。不足之处在于由于本算法的迭代次数较多, 使得时间复杂性比普通的规则提取算法要高。
基于粗集的最小规则集提取算法研究.
K y wo d e r s: r u h s t ; s p o u s t o g e s u p r s b e ;mii l r ls s t t n ma ue e s
粗 集 理 论 是 由 波 兰 华 沙 理 工 大 学 P WL Z 教 A AK 授 _ 于 18 l1 9 2年 提 出 的 , 要 研 究 不 完 整 数 据 、 精 确 _ 主 不
i d c in o e i o u e .An x e me tt n ma e la h ai i f t i e lo t m y u i g e a ls n u t f d cs n r l s o i d e p r n a i k s ce r t e v l t o h s n w ag r h b s x mp e . i o dy i n
理 论 。 从 该 理 论 的 基 础 原 理 出 发 , 用 支 持 子 集 相 对 于 决 策 的 分 类 能 力 , 出一 种 最 小 规 则 集 的 提 取 运 提
算法, 并给 出例 子分 析 算 法过程 , 明其 有 效性 。 表
关 键 词 :粗 糙 集 ; 持 子 集 ; 小 规 则 集 支 最
3 1 , ∈U,定 义 一 个 函数 rO : — 。r 为 决 策 表 S中 的 决 策 称
规则 , 0和 分 别 为 决 策 规 则 0 — 的 因和 果 。定 义 原 子
条 件 集 , 示 为 ={ )Va∈C, ∈Vl 用 C来 表 表 ( 口, I V 。
来 描 述 。
了定 义 , 知 识 看 作 价关 系 来 讨 论 知 识 , 智 能 信 息 处 理 提 供 了有 效 的 为
处 理 技 术 。目前 已经 在 人 工 智 能 、 器 学 习 与 知 识 发 现 、 机
基于粗糙集和证据理论的决策规则提取
粗糙 集 理论 _是 一种研 究不 精 确 、不 确定 性知 识 的数 学 工具 , 数据 挖 掘 领 域有 重 要 作 用.它能 l 在
分析隐藏在数据中的事实而不需要关于数据的任何附加信息 , 因而应用广泛 ..约简是粗糙集 中一 3 J
个 重要 的概 念 , 即极 小条 件属 性集 , 去掉 约 简 中的任 何 一个 属 性 ,都将 使 该 属 性集 对 应 的规则 覆 盖反 例 .而 核是 指该 知识 中所 有 约简 的交 集 , 可能 为空 . 它 D m s r hf 证据 理论 是一 种 不 确 定 性 推 理 理 论 ,尤 其 对 未 知 的 处 理 更 接 近 人 的 自然 思 维 习 4期
吉 林 大 学 学 报 (理 学 版 ) J U N L O II N V R IY ( CE C DT O ) O R A FJLN U I E ST S I N EE II N
Vo . 5 No 4 14 .
a o tm p sne ippr i l e erd c go a r st n ail f i i ni a l rh r et i t s ae mpi sh ui f te es gi e d nh s i f t e n fe u .A diif s e o hg dmes nl tse b r h o
基于粗糙集规则提取的协同过滤推荐算法
通信学报
Journal on Communications
Байду номын сангаас
Vol.41 No.1 January 2020
基于粗糙集规则提取的协同过滤推荐算法
任永功,张云鹏,张志鹏
(辽宁师范大学计算机与信息技术学院,辽宁 大连 116000)
摘 要:基于现实推荐系统数据集非常稀疏,导致传统的协同过滤算法往往无法提供高质量推荐的问题,提出了 一种基于粗糙集规则提取的协同过滤算法。首先利用用户/物品属性和用户−物品评分矩阵构建决策表,然后通过 决策表约简算法得到每一条规则的核值,最后根据核值表的核值决策规则,完成所有决策规则的约简,从而实现 对未评分的用户进行预测评分。实验结果表明,所提方法可以有效地缓解稀疏数据对协同过滤带来的负面影响, 提高推荐结果的准确度。 关键词:个性化推荐;协同过滤;粗糙集;规则提取 中图分类号:TP391 文献标识码:A doi:10.11959/j.issn.1000−436x.2020028
1 引言
进入互联网时代以来,人们能够获取的信息资 源愈加丰富,这些信息资源在方便人们生活的同时 也带来了一定的问题,人们需要花费更多的时间和 精力去搜索对他们有用的信息,因此“信息超载 (information overload)”所带来的问题越来越严重。
推荐系统(RS, recommendation system)[1]能够有效 地解决信息超载问题,通过为用户推荐满足其需求 的对象,实现个性化服务。
协同过滤(CF, collaborative filtering)[2]是目前 推荐系统领域应用最广泛且最成功的推荐技术之 一。协同过滤就是根据用户模型找到与之匹配的信 息,然后将这些信息推荐给用户,或者建立具有相
基于粗糙集理论的设计规则提取及其应用
Ab s t r a c t :Du r i n g t h e p r o d u c t e v o l u t i o n d e s i g n , t h e t wo k e y i s s u e s t r o u b l e d b y t h e d e s i g n e r a r e d e s i g n d a t a c o mp l e x r a n g e a n d d e s i g n r ul e s d i ic f u l t e x t r a c t i o n . A r e d u c t i o n a l g o r i t h m b a s e d o n r o u g h s e t a n d a n e x t r a c t i o n a l g o r i t h m b a s e d o n c l a s s i ic f a t i o n
摘
要: 产 品 演进设 计 中 , 产 品数据 复 杂繁 多 、 设计规 则难 以提取 是 困扰设 计人 员的 两个 关键 问题 。提 出基 于粗糙 集理论
的属 性 约 简算法 , 较 好地 解 决 了产品数 据 约 简 问题 ; 利用 分类 一致 性算 法 , 较好 地 解 决 了产品设 计知 识挖 掘 和设 计规 则提 取 问题 。通 过 实证 分析 , 证 明 了算 法的有 效性 和 高效 性 。
HUA E r t i a n , L I U Ke h o n g , XI AO J u n j u n , e t a 1 . Ro u g h — s e t - b a s e d i n f a n t t r o l l e y d e s i g n r u l e s e x t r a c t i o n a n d a p p l i c a t i o n .
一个基于粗集的决策树规则提取算法
粗糙集理论 [4 波兰 科学 家 P wa . 3 ,是 J a l Z在 18 k 92 年提 出的对不完整数据进行 分析 、 推理 、 习、 学 发现 的 新方法 , 借鉴 了逻辑学 和哲学 中对不精确 、 模糊 的各种 定义 , 针对信息的不同分类模型 , 出不精确范畴 等概 提 念, 为处理模糊 信息系统或不 确定性 问题提供 了一种 新型的数学工具 , 它不仅能够解 决传统 的数据 分析方 法如决策树法不能解决 的粗糙 集数 据 , 到传统方法 得 如神经 网络得不到的较高精度 规则 , 而且能发 现属性 之间的依 赖关 系并 对所 得 的结果进 行 简 明易懂 的解 释。该理论 已广泛应 用于信息 处理 据挖掘 等认知 数
dt n l1 3ag rt ,tSs lri h tu t r ,n c n i rv h fii c fcasf ain ii a 1 lo i o 3 m h i’ i e t esr cu e ad a mp n mp o et eef e y o lsic t . cn i o
dee dn eb sdo p n a c a e nm n hst Usn t sag r h ,a xrc r pr l fo ca f aini omain se . o ae g e . i hi lo t m cne ta t i ue rm lric t g i cs s i o nfr t s tm C mp r dwi h r. o y t ht eta
rai h oy mes r . ee tean w lo tm o lrii t nr l x rcin b h o i trb t fi otn eo trb t n n t t e r au e Prsn el e ag r h frca fc i e e ta t y c o sn atiue o n o i a o o s o g s mp ra c fat ue a d i s
一种基于粗糙集的决策树规则提取算法
1 相关 概 念
1 1 支持度 和可信度 的定 义_ . 5
决 策规则 的可信 度定义 如下 :
cr e ' )一 D
其 中 l z)n D( ) 为满 足决 策规则 c( ) D( ) c( z l z一 z 的样本 总数 .c( ) 为满 足决 策规则 的前件 c( ) 1 z l z
,{ r
2 新 的决 策树 构 建 算 法
2 1 算 法描述 .
输 入 : 象集 己, 件属性 集 C, 对 ,条 决策 属性 集 D, 策最小 可信 度 B. 决
输 出 : 策规则 . 决
Se 1对 C中的每个 属性 n 计 算 等价划 分 [ 对 每个 划分 求 出其概率 分 布 函数 ( ; 出每个划分 tp : , 薯] , 五) 求 的可信 度 m ( , 五) 同时 求 出满 足可 信度 大于 B 的规 则 支持度 总 和. Se 2 选 择使支 持度 总和最 大 的属性 , tp : 如果 支持 度相 同则选 择划 分 的等价类 最 少 的属 性 , 若划 分 的等价 类 仍相等 , 则选 择靠 前 的属 性为 决策 树的根 节点 n d . oe Se 3 用选 择 的属性 n d , C— C — n d tp : o e且 o e开始建 立子 决策 表. Se 4 如果 分支 Y ( 1 2 … ,)中的所有对 象 的可信 度大 于 B, 么在分 支 y 下生 成一个 叶子 节点 , tp : 一 , , 那 标 志决策 属性值 , 成规则 . 给出可 信度 和支持 度. 则转 S e 2 生 并 否 tp . Se 5 如果 B — C或者 己 被 决策 树分支 完全 分类 , tp : , 则算 法结 束.
J-2008-基于粗糙集和神经网络理论的规则提取算法_张绍兵
2008,44(27)1前言粗糙集理论是一种研究不精确、不确定性知识的数学工具,由波兰科学家Pawlak在1982年提出。
粗糙集方法有几个优点:不需要预先给出额外信息;可以去掉冗余的信息,得到可以接受的分类模式;算法简单、易于操作。
粗糙集理论存在的主要问题是:实际问题处理中,对噪声较敏感,抗干扰能力差和推广能力较弱。
粗糙集方法适合处理离散数据,对于连续型数据处理能力有限。
神经网络是一种模拟人类思维的方法。
它的优点是:具有较强的自组织能力,可以通过训练,自适应地对数据产生聚类;具有较好的抑制噪声干扰的能力和推广能力。
缺点是不能将输入信息属性简化,网络结构复杂,而且训练时间也长。
另外神经网络的知识蕴含在网络结构和连接权重中,因而缺乏解释功能,难于为人理解。
由于粗糙集理论与神经网络具有很强的优势互补性,因此两种技术的有效结合是当前规则提取领域的一个研究热点。
针对上述问题,本文提出一种融合粗糙集理论和神经网络的规则提取新算法。
其基本思想是首先对初始数据集进行离散化,并使用粗糙集方法进行决策表条件属性约简,得到一个约简表;然后使用神经网络对决策表进行再约简,删除决策表中的噪声属性和那些不能被神经网络正确分类的训练实例;最后,应用粗糙集理论值约简算法从约简后的决策表中提取规则。
2算法基本步骤本文基于粗糙集和神经网络理论的规则提取算法主要包含4个阶段,如图1所示。
基于粗糙集和神经网络理论的规则提取算法张绍兵1,季厌浮2ZHANGShao-bing1,JIYan-fu21.黑龙江科技学院计算机与信息工程学院,哈尔滨1500272.黑龙江科技学院电气与信息工程学院,哈尔滨1500271.CollegeofComputerandInformationEngineering,HeilongjiangInstituteofScienceandTechnology,Harbin150027,China2.CollegeofElectronicandInformationEngineering,HeilongjiangInstituteofScienceandTechnology,Harbin150027,ChinaE-mail:zsb3000@sohu.comZHANGShao-bing,JIYan-fu.Algorithmonruleextractionbasedonroughsetandneuralnetworktheory.ComputerEngineeringandApplications,2008,44(27):145-147.Abstract:Thispaperproposesamethodforruleextractionbasedonroughsetandneuralnetwork.Firstly,thispaperdispersesinitialdatasetandinitiativereducesconditionattributesofdecision-makingtableusingroughset,thenlearnsandforecastsdatausingneuralnetworkandfiltratesyawpofdecision-makingtablethroughdeletingunclassifieddata,finallyreducesrulesusingvaluereductionalgorithmofroughset.Theexperimentprovesthatthismethodisquickandeffective,andcanremainhighro-bustnessofneuralnetworkavoidingthedifficultytoextractrulesfromneuralnetworkcomparedtotraditionalruleextractionalgorithms.Keywords:roughset;neuralnetwork;ruleextraction;attributereduction摘要:提出了一种基于粗糙集和神经网络组合进行规则提取的方法。
基于粗糙集的最简规则提取算法
基于粗糙集的最简规则提取算法
刘文军
【期刊名称】《华东理工大学学报:自然科学版》
【年(卷),期】2007(033)B06
【摘要】提出一种基于粗糙集理论的最简规则提取算法。
该算法从已知数据的初始决策系统出发,首先通过建立可辨识矩阵进行属性约简,然后以所有约简建立一系列不同简化层次的子系统,最后对各个子系统获取带有置信度的最简决策规则。
一般而言,这种方法能得到尽可能简单的规则。
【总页数】4页(P10-12,20)
【作者】刘文军
【作者单位】长沙理工大学数学与计算科学学院,长沙410076
【正文语种】中文
【中图分类】O159
【相关文献】
1.基于粒极值的最简规则提取算法 [J], 何群
2.基于值约简和决策树的最简规则提取算法 [J], 罗秋瑾;陈世联
3.基于粗糙集的最简规则提取算法 [J], 刘文军
4.基于逻辑距离判定的最简规则提取算法 [J], 何群
5.基于G逻辑的最简规则提取算法 [J], 何群
因版权原因,仅展示原文概要,查看原文内容请购买。
基于粗糙集理论的决策规则提取及应用研究
科技信息
。科教 视野 o
S IN E&T C N L G F R A I N CE C E H O O YI O M TO N
20 0 7年
第 2 期 5
基于粗糙集理论的决策规则提取及应用研究
尹 钰 ’ 杜 茜 (. 1I 沂卫 生学校微 机教 研室 山东 临 沂 2 6 0 7 0 0; 2临沂师 范学 院信 息学 院 山东 临沂 2 6 0 . 7 0 0)
等 。 次 约简 有 时 往 往 并 不 能 约 简掉 一部 分 不 必 要 属 性 以
频率 : 】 )l 当 aEci= ,, a= + , , l ……n n为样本个数 。 a j 2 . ( ) 每个属性 a 3对 EE, 根据式 ( ) 1计算其属性重要度 SGaRD 。 I (,,) ( ) 择 SGaRD值 最 大 的属 性 , 入 至 R中 。 4选 I (,,】 加 一 1 当 D(i 0. x1 ≠D(1 x i ( ) : +a ,= —a, 5 R R (}E E }计算 P S()P S( ) ?若 是则结束 , O R - O cD否 D 否 其 中 ax是 元 组 在 属 性 C上 的取 值 , ( 是 在 决 策 属性 的取 值 。 (】 Dx ) 则 , () 转 3 根 据 分 辨矩 阵 的概 念 , 阵 元 素 与 属 性 约简 存 在 着 下 列 关 系 : 矩 ( ) 出 R, 即 为属 性 约 简 6输 R ( ) 阵 中 条 件 属 性 组 合 数 为 1的元 素 项 是 核 属 性 , 属 性 必 须 1矩 该 保留。 5分 类 一致 性 规 则 的 知 识 约 简算 法I . S ] () 2 在差 别矩阵 中, 在属性组合 中凡是包含 有核属性 的差别矩 阵 根 据 粗 糙 集 理论 . 有 论 域 可 以分 为 正 域 、 域 和边 界 域 。 于一 所 负 对 项 的其 他 条 件 属 性都 是 多余 的 。 致决策表 , 可以看作是确定性 的正域 , 在约简过程 中, 如果去掉某一条 () 3 对于不包含核属性 的属性组合必然每个组合都至少有一个元 件 属性 导 致 了非 一 致 性 决 策 规 则 的 出 现 , 即产 生 了不 可 分 辨 对 象 , 表 素 成 为 约 简 后 的一 个 条 件 属 性 。 明 确 定 性 的正 域 变 成 了模 糊 的边 界 域 ,影 响 了该 知 识 系 统 的 分 类 能 因此 , 从 分 辨 矩 阵 D 中提 取 过 滤 分 辨 矩 阵 , 可 以参 考 属 性 集 R( 一 力 , 此 该 条 件 属 性 不 能 删 除 : 果 删 除 某 一 条 件 属 性 没有 导 致 非 一 因 如
基于粗糙集的最小规则提取算法
2 算法基本思想及步骤
根据定义 3和属性值 的概念 , 到推论 1 可得 。
推论 1 如果 C D决策 规 则 一 的 最简 形 式 为 oc ) f 并且存 在另一条决 策规则 一 , ( 一{ , , 规则 的 因 也包含子分量 C , 则规则 一河 简化 的最简形
式也 为 C ) 一 。
一
当 IJ ) _ C 一斌 含 l
c { ) f 一 口} , —I ,称属性a 是规
则 可省略的, 一 否则提 规则 c 不可省略的。 一{ 冲
属性a的属性值为 { , , , }表示 属性 j … ‰ , 的
第J 个属性值。 表示a ) oia/ : , v 用 用口 # - - ̄ ,  ̄a v w ,P( >- 。 ) [ ] 口 表示范畴[ , = :∈ 且 () } ( ]{ , 口= 。 ) 『
域;: ( u ) 厂 c D 一 是一个信息函数 , 它对一个对象 的每一个属性赋予一个信息值 , 口 c D,∈ , 即V ∈ u U  ̄fx ∈ 。 i( , 定义 2 决策表 < U C D, V>, 。 , f, 对于每个 ∈U 每个 a CU E D函数 , . 。 一 , = ) 为决 策 ( 称
次 添加到规 则 的因 中。
第 2步 : 出不止 1 原子 条件 的规则 5 6 7 8 9 导 个 l 2 3 4。 ( ) 出到决策类 上 的规 则 1导
・ .
算法的基本步骤分为 3 : 步 ( ) 出只有 1 1导 个原 子条件 的确定性规 则 。 导 出不 止 1 原子条件 的确定 性规则 。这步是 个 算法的关键 。 为了导出不止 1 个原子条件的确定性 规则 , a( [q ] ) 用m x Ia ) , nG I作为启发信息选择规则 因的原子条件口 ) 如果 当前规则的因 , 。 使得[ 能 ] 够包含于某个决策类y 则停止往规则的因 , 中添加
一种基于粗糙集理论的分类规则提取算法
Ro g e e r u h S t Th o y
S iM ig u Zh u Ch n l h n h i o a ge
(ntue o rf i nel e c , ime nvri , i n 3 0 ) Is tt fA t ca Itlgn e X a n U ies y X a 6 0 5 i i l i i t me 1 ( o ue ce c e at e to im n U i ri , i n 3 0 ) C mp t S ine D p r n fX a e nv s y X a 6 0 5 r m e t me 1
347367xml知识管理统一可扩展易于统一规范存储便于分类管理基于元数据的快速细化搜索直接发布简单容易共享其他管理方法复杂可扩展性差统一规范存储困难难于分类管理全文搜索效率低发布方式复杂不易共享一般文档结构存储分类搜索发布共享异构系统传递基于xml的知识管理与其他知识管理的比较165
维普资讯
分特征和必要特征。在此基础上 , 结合“ 简” 约 方法和“ 焦” 聚 机制 , 出了一种新的分类规则提 取算法。使用该算法 , 提 能从
分 类信 息 系统 中提 取 出明 确 的 分 类 规 则 。 些规 则 不仅 包含 了分 类信 息 系 统 中类 的 某 些潜 在 的 充 分 特 征 和 必要 特征 , 这 而 且 比传 统 的 归纳 法 所 提 取 的 规 则 更 能 反 映 专 家 的 “ 焦” 维 方 式 。 最 后 给 出 了运 用 该 算 法 的 示例 。 聚 思 关 键 词 知 识 获 取 规 则提 取 粗糙 集 机 器 学 习 数 据挖 掘
t i u tae te p p s d a g r h o l sr t h r o e lo t m. l o i Ke wo d y r s:k o e g c u st n, ls e ta t n, u h s t ma h n e r i g d t n n n wld e a q i i r e x r ci r g e , c ie la n n , aa mi i g io u o o
基于粗糙集和神经网络理论的规则提取算法
的条件属性进行初步约 简, 然后利 用神经 网络对数据进行 学习和预测 , 并通过删 除网络不 能分 类的数据 来对决策表 中的噪声进行
过滤 , 最后再 由粗糙 集值 约简算法进行规则提 取。实验表明 , 该方法相对于传 统规 则提取 算法快速有效 , 在保 留神 经网络 高鲁棒性
的 同时 , 免 了从神 经 网络 中提 取 规 则 的 困难 避 关键 词 : 粗糙 集 ; 经 网络 ; 则提 取 ; 性 约 简 神 规 属
1 . 黑龙江科技学院 计算机与信息工程学院 , 哈尔滨 10 2 507 2黑龙江科技学院 电气 与信息工程学院 , . 哈尔滨 10 2 07 5
1 oi eo o p t n nom t n E g er g H i nj n ntue o c n ea d T cnlg , abn 10 2 ,hn . l g rC m ue ad Ifr a o n i ei , e ogi gIstt fSi c n eh o y H ri 0 7 C ia C e r i n n l a i e o 5 2C l g fEet nca d If m t n E g er g H i nj n ntueo c n ea dT c lg , ri 5 0 7 C i .0i eo lc o i n n r a o n i ei , e gi gIst fSi c n et oy Habn 10 2 , hn e r o i n n o f a it e mo a
b te s f usn s o ne r l u a newo k v i i g he t r a o d n t di c t t e ta t r l s r m ne r l i f uly o x r c u e fo u a newo k c mpaed t ta to a r l e ta to t r o r o r diin l u e xr c in
基于粗糙集的变电站故障诊断规则提取方法研究
中: = 。 2 , 为对 象 的 非 空有 限集 合 , 为 论 域 ; , , ) X… 称 C={ aI a c 称 为 条件 属 性 集 , l e 称 为 决策 属 性 集 , C D= E ) D= D} d 且 A
0 引 言
粗 糙 集 理 论 的主 要 思想 是 在 保 持分 类 能 力 不变 的前 提 下 , 通 过 知 识约 简 , 决策 系 统 简 化 , 高 系统 潜 在 知 识 的清 晰度 , 将 提
抽 取 出 问题 的决 策 或 分 类 规 则 “ 该 理 论 已 渗 透 到 人 工 智 能 。
计 算 机 工程 与设 计 C m u r ni e n d ei o pt E g er g n s n e ni a D g ・智 能技 术 ・
2 1, 1 00 1( ) 3 4
37 27
基于粗糙集的变电站故障诊断规则提取方法研究
张 延 松 , 赵 英 凯 ( 南京工 业 大学 自动化 与 电 气工程 学 院 ,江 苏 南京 200) 109
teat b t e u t na dtev ler d cint xrc ea c rt lso efut ig o i. Th euts o ev l i f h h t iu erd ci au u t e ta th c u aer e ft ld a n ss r o n h e o o t u h a ers l h wst ai t o e h dy t
一种基于粗糙集的文本分类规则抽取方法_孟庆春
一种基于粗糙集的文本分类规则抽取方法X 孟庆春1,2 王汉萍1 魏天滨1 葛 艳1 高 云1(1中国海洋大学计算机系,青岛266071;2清华大学智能技术与系统国家重点实验室,北京100004)摘 要: 随着文本数据库的日益增大,寻找新的文本数据处理方法变得十分紧迫。
本文将粗糙集理论应用于文本自动分类的规则提取,提出了基于粗糙集理论的文本分类方法。
把文本特征项的权值进行离散化处理后,作为规则的条件属性,文本所属的类别用作决策属性,构造决策表,然后通过决策表的知识约简算法提取出文本的分类规则。
实验结果表明,该方法提取规则的分类正确率较高,分类速度较快。
关键词: 文本分类;粗糙集;决策表;属性约简;规则提取中图法分类号: T P 391.6 文章编号: 1001-1862(2003)06-943-070 引言万维网的飞速发展使得网上的文本信息量急剧增长,整个Internet 网可以看作1个庞大的、异构的、互连的动态文本数据库。
但是w eb 上的信息只有很小的一部分是相关的,一般来说99%的w eb 信息对于99%的用户是无用的。
因此对于文本自动分类技术的研究是1项非常有价值的课题。
利用文本分类技术,将文本分配到1个类别结构体系中,可以限定文本的查找范围,使得用户更容易找到所需要的资料,还可以用来整理内部互联网的文本,节省大量的人力物力。
文本的自动分类技术是1种典型的有教师的机器学习问题,一般分为训练和分类2个阶段。
常用的文本分类方法主要有基于向量比较的文本分类技术和基于规则抽取的文本分类技术。
基于向量比较的文本分类技术[1],如:简单中心向量比较算法、K 近邻算法、支持向量机算法等等。
首先将文本用1个特征矢量(V (d )=(t 1,X 1(d );…;t n ,X n (d )),其中t i 为词条项,X i (d )为t i 在d 中的权值来表示,在训练阶段由人工给出分类的类别集合和训练文档的集合,并且每个训练文档被标上所属的类别标志。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于粗糙集理论的规则提取算法摘要粗糙集理论的主要思想是在保持分类能力不变的前提下,通过属性约简和值约简,提取决策规则。
本文主要是提出了利用隶属度函数进行值约简的同时提取决策规则的算法。
利用该算法可在不求得核值表的情况下,直接找到各规则的最小条件属性集,获得决策表的所有决策规则。
关键词:粗糙集;隶属度函数;规则提取An Algorithm for Rule Extraction Based on Rough SetTheoryAbstractThe main idea of rough set theory is to extract decision rules by attribute reduction and value reduction in the premises of keeping the ability of classification. In this paper, an algorithm on value reduction, and for extracting decision rule based on the membership function is proposed. All the decision rules on decision table and the minimal rule set of reduced condition attribute set without core-valued table would be attained by this algorithm.Keywords:rough set;membership function;rule extraction引言粗糙集理论是一种刻画模糊的、不完整性和不确定性的数学工具。
它的主要思想是是在保持分类能力不变的前提下,通过属性约简和值约简,导出决策规则。
但在目前研究的粗糙约简算法中,大多都比较关注属性的约简,把求得最佳属性约简作为设计目标。
但在很多的实际应用中,有时我们并不是特别关注属性约简,而只关心求得用户所需的决策规则。
以文献 [1] 中全球变暖的决策表为例,如表1所示,其中Solar energy,Volcanic activity,Residual CO2为条件属性,Temperature为决策属性,Days count是每一个对象在一年中出现的频次。
FactSolarenergyVolcanicactivityResidualCO2TemperatureDayscount1 Medium High Low High 202 High High High High 303 Medium Low High High 904 Low Low Low Low 1205 High High Medium High 706 Medium Low High Low 34利用可辨矩阵进行约简[2]可知,属性约简为{Solar energy,Volcanicactivity},{Solar energy,Residual CO2},{Volcanic activity,Residual CO2}。
以{Solar energy,Volcanic activity}为条件属性约简可得到5条决策规则:(Volcanic Activity,high) →(Temperature,high);(Solar energy,high) →(Temperature,high);(Solar energy,low) →(Temperature,low);(Solar energy,Medium)∧(Volcanic Activity,low) →(Temperature,high);(Solar energy,Medium)∧ (Volcanic Activity,low) →(Temperature,low);其中,前三条为一致性决策规则,后两条为不一致性的决策规则。
同样以{Solar energy,Residual CO2}和{Volcanic activity,Residual CO2}为条件属性约简也可得到相应的决策规则。
但在具体的应用中,也许我们只关心哪些条件属性之间有关系,哪些条件属性之间没有关联,哪些条件属性是对决策毫无用处的,不管约简是{Solar energy,Volcanic activity}、{Solar energy,Residual CO2}还是{Volcanicactivity,Residual CO2}都是我们感兴趣的,因为如果只用属性约简{Solar energy,Volcanic activity}得到的决策规则进行决策,那么当出现含有属性Residual CO2的规则时,将不能做出正确的决策来判断是否导致全球变暖。
也就是说,我们有必要求出全部的决策规则。
我们只需求条件属性中对于决策属性一定可省略的属性,将它约简掉即可。
本文针对此问题提出了一种不找核值表的情况下,直接得到各规则的最小条件属性集,获得决策表的所有决策规则的算法,该算法对于一致性决策表和不一致决策表 [3] 都适用。
1.粗糙集理论的相关概念一个知识表达系统S可表达为:S=<U,A,V,f>,其中U表示对象的集合,即论域;A是属性的集合;V=∪a∈A Va是属性值的集合,即属性的值域集,其中Va是属性a∈A的值域;f是信息函数,f:U×A→V,即f(x,a)∈V,它指定了U 中每一对象x的属性值。
决策表根据知识表达系统定义为:S=(U,A)为一知识表达系统,C,D⊂A为两个属性子集,且C⋃D=A,C⋂D=∅,C, D分别称为条件属性集和决策属性集,具有条件属性和决策属性的知识表达系统称为决策表,记作T=(U,A,C,D),或简称CD决策表。
在决策表中,对于属性子集R⊆A,不可分辨关系IND(R)定义为:IND(R)={(x,y)∈U⨯U| r∈R,r(x)=r(y)}。
显然,IND(R)是一个等价关系,x在属性集R上的等价类[x]IND(R)定义为:[x]IND(R)={y| y∈U, y IND(R) x}。
为方便起见,在不产生混淆的情况下用R 代替IND(R)。
关系IND(C)和IND(D)的等价类分别称为条件类和决策类。
在文献 [4] 中,隶属度定义中的参数x 表示数据对象,修改参数为属性集值,重新表示属性集B 对Y i 的隶属度函数。
在决策表中,D 为决策属性,Y i ∈U/D ,i =0, 1,…,|IND(D)|-1。
即Y i 是根据决策属性D 得到的各个等价类,每一个等价类对应着一种决策分类类别。
B 为条件属性集的子集,即B ⊆C ,x 1,x 2,..., x |B|为属性集B 所对应的属性值,属性集B 对Y i 的隶属度函数为:BB B =][][),...,2,1(x Y x xb x x iY iμ 其中,x 表示x 1, x 2 ,...,x |B|所对应的对象,|*|表示集合中元素的个数,b 表示B 中元素的个数即|B|。
)b ,...,2,1(x x x iY μB 表示根据属性集B 中的某一个等价类能确定归于某一个决策类Y i 的对象的个数与该类对象的个数的比例。
隶属度函数)b ,...,2,1(x x x iY μB 反映的是:如果已知属性集B 的某值对应的对象属于某个等价类,那么这个属性集值对应的对象属于决策类Y i 的概率为)b ,...,2,1(x x x iY μB 。
显然,)b ,...,2,1(x x x iY μB 越大,属于决策类Y i 的概率越大。
若)B ,...,2,1(x x x iY μB=1,可以肯定这个属性集值对应的对象一定属于决策类Y i 。
若)b ,..,2,1(x x x iY μB =0说明属性集值对应的对象一定不属于决策类Y i ,即在决策表中不存在这样一条决策规则。
若)(x iY μB ∈(0,1) 那么这个属性集值对应的对象可能属于决策类Y i 也可能不属于决策类Y i 。
在非数据集的情况下,利用可辨矩阵得到一个差别函数,通过对该差别函数进行化简可以得到所有属性约简[5],则在任何属性约简中都不包含的属性,称之为条件属性中相对于决策属性一定可以省略的属性。
令X 是U 中根据条件属性C 定义的分类,Y 是U 中根据决策属性D 定义的分类,对于每个x i ,y i ∈U ,定义一个函数d x :des c (x i )→des D (y i ):x i ⋂y i ≠∅,x i ∈X ,y i ∈Y ,称函数d x 为决策表T 中的决策规则。
定理[5]:设d x 是一条被消去所有过剩条件属性值的决策规则,条件属性集C 的等价类[x]c 中任何最少属性a 的等价类[x]a 的交集⊆相应的决策类[x]D 中,则由最小条件属性a 组成的新决策规则d x ’是d x 的一个决策规则约简。
2规则提取算法算法的思想如下:输入:决策表S ,条件属性的个数m 输出:规则集RSTEP1:进行属性约简,删除条件属性中相对于决策属性一定可以省略的属性。
STEP2: R=Φ,n=1。
其中n 代表属性集B 中属性的个数 STEP3: 计算各属性集的等价类划分及根据隶属度函数)b ,...,2,1(x x x iY μB 计算各隶属度。
STEP4:若)b ,...,2,1(x x x iY μB =1,提取对应的决策规则d x ,R=R ⋃{d x },将该隶属度删除。
若)b ,...,2,1(x x x iY μB =0,直接将该隶属度删除。
若)b ,...,2,1(x x x iY μB ∈(0,1),将Y i 相同的)b ,...,2,1(x x x iY μB 中属性集B 及其对应的属性值,每两个组合使属性集B 的个数扩展为n+1个。
若规则集R 中存在由属性集B 的含有n 个属性的子集及对应的属性集值所提取的决策规则,将此)b ,...,2,1(x x x iY μB 删除。
STEP5:n=n+1STEP6:重复3至5,直到n=m+1或者所有的隶属度都被删除。
STEP7:若n=m+1时结束,说明存在不一致的决策规则,提取对应的决策规则d x ,R=R ⋃{d x },隶属度的值表示属于决策类的概率。
STEP8: 结束,输出规则集R 。
以表1中的数据为例进行算法过程演示。
用S 代表Solar energy ,V 代表Volcanic activity ,R 代表 Residual CO 2,T 代表Temperature ,M 代表Medium ,H 代表High ,L 代表Low 。