属性重要度
基于属性重要性的属性约简算法
1 粗糙 集基本概念
定义 1 一个信息 系统 S 表示 为 S=( A, , , 中 U= , U, V')其 { 1X , , } X , 2 … 是论 域 ; A是属性 集合 ; V=U , VU∈A,。表
第2 7卷第 2 期
21 0 0年 2月
计算机 应 用 与软件
C mp tr A p ia in n o t r o ue p l t sa d S f c o wa e
Vo . . 127 No 2 Fe 2 0 b. 01
基 于 属 性 重 要 性 的属 性 约 简 算 法
分析 和处理不精 确 、 不一致 、 不完整 等各种 不完备信 息 , 并从 中
示 属性 的值域 =U× — 是 一个信 息 函数 , A 对 ∈U U∈ 有 , A, 发现 隐含 的知识 , 揭示潜 在 的规律 … 。其 主要 思想 是在保 持分 , , ) 。 ( U ∈V 。若 A可分为条件属性集 C和决 策属性集 D, A= 即 类能力不变 的前 提下 , 过知识约简 , 出问题 的决 策或分类规 通 导 则 。近年来 , 已经被广 泛应 用 到人工智 能 、 它 模式 识别 、 据挖 数 C UD, CnD= , 则该信 息系统称为决策表 。 定义 2 在信息 系统 s中 , 于每个属性子集 对 义一个不可分辨 的关 系 ( : 曰)
t n e o t b t s d f e . a ig t e n w i ot n e o t b t s a h e rsi me s g , h o ei a n l s h ws t a h lo t m a c fat u e i e i d T k n h e mp ra c fat u e s t e h u it s a e t e r t l a a y i s o h tt e ag r h i r n i r c c s i p e e td i h sp p ri f ce ta d f a i l . r s n e n ti a e s e i in n e s e b
基于属性重要度的ID3改进算法
维普资讯
第2 8卷 20 0 8年 6月
文章编号 : 0 — 0 1 20 ) 1 0 4 1 1 9 8 (0 8 S — 14—0 0 2
计 算机应 用
Co u e p i ain mp tr Ap lc to s
V 12 o.8
总是重要的 , 从而影响 了分类预 测的高效性 。通过对 I3算法的研 究, 据属性 重要 度粗糙 集理论的 思想 , 经典 的 D 依 对
I 3算法做 了相应的改进 , D 改进后的 I 3算法( I 3 , 高 了算法的决策效率 。最后的实例及应 用表 明, D AI ) 提 D 改进 的算法 更有效 , 更快速 。
J n o 8 u e2 o
基 于 属 性 重 要度 的 I 3改进 算 法 D
邹永贵 , 范程 华
( 重庆邮电大学 计算机科学与技术学院, 重庆 40 6 ) 00 5
( hnh a8 @ ht i cr ce gu_4 o l o ) ma . n
.
摘
要 : 3算法是数据挖掘 中最经典的分类算法。该 算法偏 向于选择取值较 多的属 性 , I D 而属性值 较 多的属性 不
0 引言
决策树分类方法是一种有效 的数据挖 掘方法 … , una Q il n
提 出的 I3算法 是 最有 影响的一 种决 策树 生成 算法 , D 其思
基于属性重要度的案例特征权重确定方法
基于属性重要度的案例特征权重确定方法柳玉;贲可荣【摘要】To resolve deficiencies of existent methods as requirement of larger storage and no consideration on the sit- uation when new cases appear, an improved method to determine weighting coefficient for case feature based on at- tribute importance theory was proposed. By introducing fission matrix, the relationship between new core, reduction of attribute set and old ones was summarized, and incremental updating algorithms of core and attribute reduction were given. Computational algorithm description of weighting coefficient was illustrated according to above conclu- sions. Performance was showed by comparison of time and space complexity.%针对已有案例特征权重确定方法所需存储空间大且未解决新增案例情况下的权重更新问题,提出一种基于属性重要度的改进方法,通过引入分体差别矩阵,发现新的属性核、约简与原有结果之间的关系,设计属性核、约简的增量式更新算法,并给出计算特征项权重的算法描述,利用时间及空间复杂性对比,体现了算法的性能优势。
基于云模型的云分类及分类属性重要度计算
基于云模型的云分类及分类属性重要度计算提要:本文介绍了基于云模型的分类方法,并通过实例提出一种云分类方法,从而实现对论域的软划分,且划分结果更符合人类的思维方式,能够反映从定量数值到定性概念间转换的不确定性。
关键词:云模型;分类;不确定性;1、云模型及分类方法1.1、云模型李德毅院士从以自然语言中的概念为切入点,在模糊数学和概率理论的基础上了建立定性和定量转换模型——云模型,云模型不再强调精确的函数表示,而是利用期望Ex(Expected value)、熵En(Entropy)和超熵He(Hyper entropy)三个数字特征,通过特定构造的算法,形成定性概念与其定量表示之间的不确定性转换模型,主要反映概念中模糊性、随机性及其关联性。
利用云模型,可以从语言值表达的定性信息中获得定量数据的范围和分布规律,也可以把精确数值有效转换为恰当的定性语言值,从而构成不确定性知识表示模型。
1.2、分类最初的数据挖掘分类应用大多都是在这些方法及基于内存基础上所构造的算法。
目前数据挖掘方法都要求具有基于外存以处理大规模数据集合能力且具有可扩展能力。
主要有以下几种分类方法:(1)决策树;(2)KNN法(K-Nearest Neighbor);(3)SVM法;(4)VSM法;(5)Bayes法;(6)神经网络。
其中,决策树归纳是经典的分类算法。
它采用自顶向下递归的各个击破方式构造决策树。
树的每一个结点上使用信息增益度量选择测试属性。
可以从生成的决策树中提取规则。
2、实例分析2.1、鸢尾花(Iris)Iris是一种鸢尾属植物,它有三个变种的植物。
每个花的特征用以下五种属性描述:1.萼片长度(厘米);2.萼片宽度(厘米);3.花瓣长度(厘米);4.花瓣宽度(厘米);5.类别(Setosa,Versicolour,Virginica).其中,前四种属性为条件属性,即AC={萼片长度,萼片宽度,花瓣长度花瓣宽度},属性“萼片长度”的取值V萼片长度={5.1,4.9,4.7,4.9,6.6,5.2,7.2,6.5,6.4}。
基于专家知识库属性重要度的故障诊断方法研究
Ab ta t Ba e n a ti u e sg i e n e o o g e n n e r t d t c n lg f e p r sd t b s , e m e h d O src s d o trb t i n f a c fr u h s ta d i t g a e e h o o y o x e t a a a e a n w t o f i f u td a n ss t o e y tms i e e r h d Fis f al h trb t i n f a c d lo x e t a a a e i a l ig o i o c ml x s s e S r s a c e . r t o l,t e a t i u e sg i c n e mo e f e p r s d t b s S i p e e t d b o i g it g a e y t m f u t fed e p r s a d a sg me tr l f f u ts a e wih a ti u e sg i — r s n e y c mb n n e r t d s s e o li i l x e t n s in n u e o a l t t t trb t i n f m - i c n e c n e ti o g e h o y S c n l , a n t r d lb s d o l f il x e t a a a e i o s r c e , a c o c p r u h s t t e r . e o d y e wo k mo e a e n mu t ed e p r s d t b s S c n t u t d n i wh c a e u e o mo io h y a i s s e n r a- i n ig o i a l Fi al ,a smu a e x mp e h s ih c n b s d t n t r t e d n m c y t ms i e lt me a d d a n ss f u t . nl y i l t d e a l a s o h tt e t c n q e i e f c ie y a d e a t .Th r s n e e h d h s u e n t e f u t d a n ss o o l x h wn t a h e h i u S fe tv l n x c l y e p e e t d m t o a s d i h a l ig o i fc mp e s se n o d rs lsh v en a he e .a d t et e r t a n lssidc t h tt ep e e td ag rtm a y tmsa d g o eut a eb e c iv d n h h o ei la ay i n iast a h rs n e lo ih h sa c b o d p o p c o r c ia p l a in r a r s e tf r p a t l p i to . c a c Ke wo d Co p ia e y tm , u tp e i t M u t a e ti t g a in, n i e c e e , l r n e e r r y rs m l t d s s e Fa l r d c , li g n n e r t c - o Co fd n e lv lTo e a c r o
不完备信息系统中属性的重要度及约简方法
E ma : 12 @1 3 o - i  ̄ 54 6 . r l cn Y G j —i , H - u 。 I Ke y nI o tn e re o t iu e a d atiu e rd cin i n o l e ifr - AN i l Z OU Yu h a Q N - u . n mp r td g e f at b t n t b t e u t n ic mpe n o ma a r r o t
C m u rE gneiga dA pi t n 计算机工程与应用 o p t n i r n p lai s e e 、 数 信号 与信 息处 理◎
不完备信息系统 中属性 的重要 度及 约简 方法
杨 霁琳 , 周玉 华 2秦 克云 1 ,
关键词 : 不完备信 息系统 ; 相似 关系; 粗糙 集; 属性约 简; WA算子 O D :03 7/i n10 — 3 1 0 0O . 1 文 章 编号 :0 2 8 3 ( 0 0 0 — 0 9 0 文 献 标 识码 : 中 图 分 类  ̄ : P 8 OI1 . 8 .s.02 8 3 . 1 .1 3 7 js 2 0 10 — 3 1 2 1 ) 10 9 —4 A 'T 1
Y N il 1Z O u h a. I e y n A G J—i , H U Y - u Q N K - u n
1 . 西南交通大学 数学学院 , 成都 6 03 10 1 2信阳职业技术学院 , . 河南 信 阳 4 4 0 600
基于分辨矩阵和属性重要度的规则提取算法
A bsr ct The trb e e ucin nd ta : at ut r d to a vau r ducin f o g s t r dic s d n hi p pe . e i le e to o r u h e a e s us e i t s a rTh dic r i lt m arx s x— s e nbiiy t i e i
维普资讯
C m ue nier g adA p i t n 计算机工程与应用 o p t E gnei n p l ai s r n c o
2 0 ,4 2 ) 1 3 0 8 4 (3 6
基于 分辨 矩 阵和属性重 要 度的规 则提取 算法
K e wor y ds: d s e i lt marx; trb e ini c nc r l g ne ai n; t b e e ucin ic r bi y n i ti at ut sg f a e; e e r to at ut r d t i i u i r o
摘
要 : 究 了 R uh集 理 论 中的 属 性 约 简和 值 约 简 问题 , 分 辨 矩 阵 引入 值 约 简 中 , 属 性 依 赖 度 的 角 度 重 新 定 义 了属 性 重 要 研 og 将 从
饶 泓 , 叶娟 , 姆竹 夏 李
R O Ho g X A Yeja ,IMe~h A n , I -u n L iz u
南 昌大学 计算 中心 , 昌 3 0 3 南 30 1
模糊决策信息系统属性重要度的约简算法
表 1 模 糊 决 策 信 息 系统
() p B 7 1 ar D ) ( f1 2 若 2
) p Ca
) ;
CCA, _
a rD ) pd 7, p ̄ 7 Car D ) ( a rD ) ar D ) ps 7 p c  ̄; ( (
少 学者进 行 了~ 系列 的研 究. 本 文针 对完 备 的模 糊 决策信 息 系统 , 根据 模糊 决策属 性利 用截 集划 分论 域空 间 ,定义 了完备 模糊
f) 2 A表示 非 空的有 限条件 属性集 合 ,
即 A= ,/ …, } G , 2 , %.
决策信 息 系统 的上下 近似 概念 , 给 出 了相 关 的性 并
定 义 1 设 S ( A, , 为信 息 系 统 , CA, = V B_ V ∈U, 的等价类 为
】 { l ∈U Ⅱ )0 y Y , = ∽,V ∈B }
声 的干 扰 , 使得 采集 到 的数 据不 够完 整 或精 确 , 传
统 的数学 方法 已不 能够 解决 这种 不确定 性 , 者处 或
定 义不 同 的概 念 , 主要 思想 是利用 已有 的知 识库 其 来 表示不 确定 或不 精确 的 知识 , 在保 持分 类能 力不 变的前 提下 , 通过 知识 约简 , 出问题 的决 策规 则. 导
记 / { ∈U =M I )为 B上 的所 有等 价类 , 定 给
,Hale Waihona Puke 的 日下近似 为 Vo . 6 No6 1 . . 2
De . 0 0 c2 1
模糊 决策信 息系统属性重要度 的约简算法
贾俊 芳
( 山西 大 同大学数 学与计算机 科 学学 院 ,山西 大同 0 7 0 - 30 9 )
基于属性重要度的随机决策树学习算法
性 的属性重要度 , 提升重要属性 的影 响因子 , 使得建树过程 中随机选择属 性时, 不同属性之间 的区分度得 以体 现, 从而显著提高 了算法 的抗干扰能力 , AStT在保持 原有 R 使 I S DT算法优 点 的基 础上 , 更具有 良好 的分 类
准确率 及稳 定性 。
关键词 : 数据挖掘 ;分类 ; 随机决策树 ; 性重要度 属
最有 代表 性 的决 策 树 构 造 算 法 A R S DT( ti— Atr b
中图分类号 : P 8 T 12 文献标识码 : A 文章编号 :0 35 6 (0 7 0—6 10 10 —0 0 2 0 )60 8-5
A a o e ii n t e lo ihm a e n a ti u e sg fc c r nd m d cso r e a g rt b s d o tr b t iniia e n
ppr a e ,whc p e d infc n ef r e ey ati u e b h o g e h o y t r mo e t e i p c ih a p n s s i a c o v r trb t y t e r u h s tt e r o p o t h a t g i m
d n l ih rc r e t e sa d b te t bl yo ls iiai n t a h e ty hg e o r c n s n e trsa i t fca sf t h n t eRDT l o ih . i c o ag rt m
Ke r s d t n n ywo d : a amiig;ca sfc t n;r n o d cso r e RDT) trb t in f a c ls i a i i o a d m e iin te ( ;a tiu esg i c n e i
基于辨识矩阵的属性集重要度评价方法
中 图法 分类号
T 3 16 P0 . ;
文献 标志码
A
粗糙 集 理论 ¨ 于 18 92年 由波 兰 学者 z Pwa . alk 提 出 , 已在 机 器 学 习 、 据 挖 掘 等 若 干领 域 得 到 现 数 了广泛 地应 用 。根 据 粗糙 集 理 论 , 知识 推理 就 是 根 据 知识 表达 系统 的 条件 属性 和决 策 属 性 , 出所 有 求 符合 该 知 识 的 最 小 条 件 属 性 集 , 到 最 简 分 类 得
定义 4 依 赖度 设 S = ( A, U,
策信 息系统 , =CU D是属 性集 , A C和 D分别 是条
件属 性集 和决策属 性 , 于条件 属性 集 B C描述 基 决策 属性 D表 达 的知 识 其 可 导性 定 义 为知 识 的依 赖性 , 表达 为
还要 考虑 该 属 性 与其 他 属 性 构 成 的 属 性 集 的重 要
成 的集合 ; 于决 策属 性 D 不可 分 辨 关 系 的等 价族 基
程度 J 目前 , 多 数 文 献 对 依 赖 度 的研 究 , 限 。 大 仅
于求 解单 一 属性 的依 赖 度 , 为单 一 属 性 依 赖 度 为 认
为:
P
一
在辨 识矩 阵 的基 础 上 , 出 了一 种 基 于辨 识 矩 提
阵 的属性集 重 要度 评 价 方 法 , 求 解 属 性 集依 赖 度 其 的方法 更简 单 , 间 复 杂 度 相 对 于 文 献 [ ] 时 8 的方 法
21 0 2年 5月 2 1日收 到
( ) =u { ∈ Ul i X
弃 . 。然 而 , 7 _ 把单 一属 性 依 赖 度 为 0的 属性 删 除 ,
属性重要度的英语四级考试成绩分析
第 6期
技
术
与
创新管理 Vo l 。 3 5 No . 6 No v . 201 4
2 0 1 4年 1 1月
TECHNOL OGY AND I NNOVATI ON MANAGEMENT
【 高等教育管理】
属 性 重 要 度 的英 语 四级 考试 成 绩 分 析
冯卫兵 , 王一斌
( 西 安科技 大学 理学 院 , 陕西 西安 7 1 0 0 5 4 )
摘
要: 大学英语 四级考试 ( C E T一 4 ) 成绩的高低 是社会评 价大学生英语 水平的重要 指标之一 , 即能检测 学生的 学
习情况 , 又能对 以后的教 学提供 宝贵的信息。为 了研 究 C E T一 4考试 中各题型对 总分数的重要性 , 运 用粗糙 集理论
知识 , 对影响学生成绩 的属性 重要度进行计算 , 并对其进行属 性约 简, 从 而分析各题 型对 总分数的 的重要性 , 减 少 了人 为主观 因素对评价 结果的影响。应用表 明 , 分析方案更科学 、 合理 。结果表 明: C E T一 4成绩 中, “ 阅读” 部 分的 属性 重要度 最大, 在“ 听力” 与“ 写作和翻译” 属性 重要度 的二倍 以上 , 而后 面二 者的 重要度相 当。该研 究结果对大 学英语教 学 中更好 备考 C E T一 4有帮助作 用, 同时也 给 C E T~ 4命 题者提供反馈 信息 , 对进一 步改革 C E T一 4有一
定的参考价值 。
关键 词 : 粗糙 集; 英语 四级 ; 属性约 简; 属 性 重要 度
中 图分 类 号 : O 2 9
文 献标 识码 : A
文章编号 : 1 6 7 2— 7 3 1 2 ( 2 0 1 4 ) 0 6— 0 6 3 2— 0 3
基于属性重要度的多变量决策树构造方法
1 相关 概 念
粗糙 集理论 是一 种新 的处 理模 糊 和不 确定 知识
域是 U 中所有 根据 分 类 U /P的信 息 可 以准 确 地 划分 到关 系 Q 的等价类 中去 的对象 的集 合 。 、
的数学工具 。其 主要思 想就 是在 保持 分 类能 力不 变
的前 提下 , 过知识 约简 , 出 问题 的决 策或 分类 规 通 导
则。
定 义 3设 P R是 等价关 系的一个 族集 , 关系
∈P 若 I , ND(P )一 I ND(P 一 {r ) , ) 则称 关 系. r 在族 集 P中是可 缺 的 , 否则 就是不 可缺 的 , 若族 集 P 中的每个 关 系都是 不可 缺 的 , 称族集 P是独 立的 , 则 否则 就是 依赖 的或 非独立 的 。
这一 理论从新 的视 角对 知识进 行 了定 义 。把知 识看 成是关 于论域 的划 分 。 引入 等 价 关 系 来 讨论 知识 。 该理论 主要用 于知识 约简 及知 识相 依性 的分析 。因 此 , 以作 为机 器学 习和复 杂数 据分 析的工 具[ 。 可 6 ] 本文 进行 了构 建 多 变 量 决 策 树 的算 法 研 究 , 应 用 粗糙集 中的 相对 核 作 为 多 变 量结 点 的选 择 依 据 ,
RX= U{ Y∈U /A IYn X ≠ )
分 别称 它们 为 x 的下 近似 和上近 似 。 实 际 的应 用 中, 个 分类 相对 于另 一 个分 类 的 一
对 于单个 结点 , 用 粗 糙 集 中的属 性 重 要 度 [ 来 代 采 5
替 I 3的信息 熵来作 为 属性 分 裂 的度量 。为 了算 法 关 系 十分重要 , D 因此 产 生 了一 个 分类 相 对 于 另一 个
基于Relief属性重要度的快速约简算法
林芷欣,刘遵仁,纪俊
(青岛大学计算机科学技术学院,青岛266071)
摘要:邻域粗糙集是经典Pawlak粗糙集的扩展,能够有效的处理数值型数据&因为引入了
邻域粒化的概念,使用邻域粗糙集模型计算样本邻域度量属性重要度时,需要不断反复的对
负域中的样本进行邻域划分操作,算法计算量很大&为此提出了一种基于Relief算法属性
1邻域粗糙集模型
1.1邻域粗糙集的基本概念
定义1在一给定的N维实数空间Q中,△ =RNXRN *R,则称#为RN上的一个度量,若#满足以
下条件:
1) △ ! 1 ,孔)+ 0,其中当且仅当!1 %!时等号成立,,!1— RN ;
2) △ (( 1 !2 ) %△ ! 2,!1) ,, !1,! 2 — RN ; 3) △(! 1,! 3) . △ (( 1,!2) + △ ! 2,^3) ,V !1,!2,兄3 — R. ;
重要度的快速属性约简算法,降低计算邻域的算法时间复杂性&通过和现有算法运用多组
UCI标准数据集进行比较,实验结果表明,在不降低分类精度的前提下,该算法能更快速地
得到属性约简&
关键词:邻域粗糙集;邻域计算;Relief算法;属性重要度;属性约简
中图分类号:TP181
文献标志码:A
经典的粗糙集理论是Pawlak教授在1982年提出的(1),通过等价关系将论域划分为多个等价类,运用上 下近似的概念对目标实现知识发现&但这种建立在等价关系和等价类基础上的粗糙集理论只适用于处理离 散型数据,对广泛存在于现实应用中的连续型数据却不能够直接处理 &因此,作为粗糙集理论的扩展模 型一一邻域粗糙集模型被引入并广泛应用于连续数据的处理中与经典粗糙集不同 ,邻域粗糙集中的信 息粒子需要通过度量计算来确定,这在一定程度上增加了算法的计算量,消耗运行时间&为了得到更高效的 属性约简算法,胡清华等3提出了基于前向贪心搜索的邻域粗糙集前向搜索属性约简快速算法 (FARNeMF)。Liu等⑷对Hu算法中的正域计算模块进行改进,提出了更快速地FHARA算法&通过对 FARNeMF算法和FHARA算法分析可知,两者每次在做贪心选择之前,要对所有尚未选择的属性都计算 一遍,然后选择属性重要度最大的属性并入约简集&为此,本文提出一种基于Relief5属性重要度的快速约 简算法[58],首先通过对沧近邻样本的所有属性进行加权特征选择,一次性求得属性重要度大小的排列,避免 每次贪心选择之前都要对各个待选属性重复的进行重要度计算,节省时间开销,加快了算法的运行效率&
基于二进制可辨矩阵属性重要度的属性约简算法
ag r h c n g tt e s letat b tsq iky a d b e i d e s y lo tm a e h mals t ue uc l n e ra z a i .An ti rv d t e wok be i h i i r l e l d i s po e o b r a l n te
有些属性是冗余的。 约简的关键是求 出决策表的最小条件属性集 , 去掉冗余属性 , 得到简化的决策表。 文中根 据粗集理论中二进制可辨矩阵的相关概念 ,提出了一种利用二进制可辨矩阵的属性重要度实现属性约简的 算法 , 该算法能快速求得最小条件屙 陛 集且实现简单。
1相 关概 念
定义 1 设决策表 ( , , , t 1 兄, 其中: 表 相应的二进制可辨矩阵构造如下: 1 2…, R G D C = )c ( , , c D { , , , 1) = U ( nD t ;=c C …, 1; , p 12 ; =e 决策 )
W ANG Xi o y n a -a
结合属性重要度和灰色关联度的数据补齐方法
( 1 . 首都 师 范大学 信 息 工程 学院 ,北京 1 0 0 0 4 8 ;2 . 首都 师 范大学 高可靠嵌入 式 系统技 术 北京 市工程
研究中心,北京 1 0 0 0 4 8 ;3 .首都师范大学 电子系统可靠性技术北京市重点实验室,北京 1 0 0 0 4 8 )
W ANG F a n g — x i n ・ ,P AN We i ’ ,W U L i — f e n g , , J I N S h e n g — z h e n ' 。 , L I Xi a o — j u a n ’ ’ 。
( 1 .C o l l e g e o f I n f o r ma t i o n E n g i n e e r i n g , C a p i t a l No r ma l U n i v e r s i t y ,B e i j i n g 1 0 0 O 4 8 , C h i n a ; 2 .B e i j i n g E n g i n e e r i n g R e s e a r c h C e n t e r o f Hi g h R e l i a b l e E mb e d d e d S y s t e m, C a p i t a l No r ma l Un i v e r s i t y ,B e i j i n g 1 0 0 0 4 8 , C h i n a ;3 .B e i j i n g Ke y L a b o r a t o r y o f E l e c t r o n i c S y s t e m R e l i a b i l i t y T e c h n o l o g y ,C a p i t a l No r ma l Un i v e r s i t y , B e i j i n g 1 0 0 0 4 8 , C h i n a )
基于包含程度的属性重要性定义
c关 于 D的重 要性 定 义为
特别地 , C 当 : { }时 , 性 口∈ C关 于 D 的重 要性定 义 为 口 属 S C( ) = c D)一y } D) ’ lDa ( g c ( , 其 中 c D)=l O cD)I Ul ( S( P /l _
纪 军 , : 等 基于包含程度 的属性 重要性 定义
67 5
立的, 则称 C 是 C相 对 D 的属性 约简 , C 为代数 约 简 , 为 rd C =C , 有 属性 约简 的交集 称 为属性 称 记 e( ) 所 核 , 为 c r( ) 记 oe C . 定 义 7 令 c和 D 分别 为条 件属性 集 和决策 属性 集 , 属性 子集 c
相对 于 D是 不必要 的 , 否则称 口在 c 中相对 于 D是 必要 的 , 果 c 如 定义 6 给定 决策 表 S = ( , U C UD,
收稿 日期 :09 1—2 2 0 —01
C中任 意属性相 对 于 D都是 必要 的 ,
, C 对 C, 如果 P S,D)=P S ( O ( O cD)且 c 相对 于 D是 独
了基于该定义下的属性最佳约简方法 , 最后结合实例说 明该方法 的有效性.
关键 词 : 属性约简; 属性重要性; 包含程度
中图分 类号 :Pl T 8
文献标 识码 : A
2 纪 8 代 由 Pwa 0世 O年 aห้องสมุดไป่ตู้k等人 提 出的粗糙 集理论 . 是处 理数据 的新 方法 , 它 目前在 信 息检索 、 数据挖 掘、 文本 分类 、 模式 识别 等许 多领 域得 到 了广 泛 的运用 . 在粗 糙 集理 论 中, 知识 约简 是 一个 核 心 内容 , 谓 知 所 识 约简 , 就是 在保 持知识 库 的分类 能力 不变 的条件 下 , 除知识 库 中不 相关 或 不 重要 的冗 余 知识 ]一 般来 删 .
基于属性重要度的决策树算法
基于属性重要度的决策树算法王蓉;刘遵仁;纪俊【期刊名称】《计算机科学》【年(卷),期】2017(044)0z2【摘要】The traditional ID3 decision tree algorithm is difficult in selecting attribute,its classification efficiency is not high,and anti-noise performance is not strong,so it is difficult to adapt to large-scale data set and other issues.Aiming at this situation,a decision tree algorithm based on attribute significance and variable precision rough set was proposed to ensure that the tree size is not too large while removing the noise data.The algorithm was validated by using multiple UCI standard data sets.The experimental results show that the algorithm is superior to the ID3 algorithm in the scale and classification accuracy of the decision tree.%传统的ID3决策树算法存在属性选择困难、分类效率不高、抗噪性能不强、难以适应大规模数据集等问题.针对该情况,提出一种基于属性重要度及变精度粗糙集的决策树算法,在去除噪声数据的同时保证了决策树的规模不会太庞大.利用多个UCI标准数据集对该算法进行了验证,实验结果表明该算法在所得决策树的规模和分类精度上均优于ID3算法.【总页数】4页(P129-132)【作者】王蓉;刘遵仁;纪俊【作者单位】青岛大学数据科学与软件工程学院青岛266071;青岛大学计算机科学技术学院青岛266071;青岛大学计算机科学技术学院青岛266071【正文语种】中文【中图分类】TP18【相关文献】1.基于粗糙集的组合属性重要度确定单属性重要度新方法 [J], 孙立民;金祥菊2.基于粗糙集的组合属性重要度确定单属性重要度新方法 [J], 孙立民;金祥菊;3.基于可创新度的产品属性重要度计算方法 [J], 孔造杰;赵啸天;孙可远;李斌4.基于k近邻属性重要度和相关系数的属性约简 [J], 林芷欣;刘遵仁;纪俊5.基于边际属性重要度的属性权重确定方法及应用 [J], 王世华;张清华;胡绍林;吴思莹因版权原因,仅展示原文概要,查看原文内容请购买。
改进的粗糙集属性重要度
改进的粗糙集属性重要度肖劲森;孙立民【摘要】粗糙集理论知识库的属性重要度,体现的是去掉某个或某些属性前后的知识库分类变化的程度.对现有粗糙集理论的属性重要度确立方法的不足,充分考虑条件属性对决策的直接和间接的影响,提出一种新的基于粗糙集属性依赖度的属性重要度确定方法.此外,针对原有属性重要度与改进重要度的差别,讨论改进的属性重要度的意义,并证明改进的属性重要度更加可信.最后,利用改进的方法对机械故障属性重要度进行仿真;对比原有属性重要度的数据,改进方法获得的数据不但更符合属性约简结果,并且具有更大区分度,十分有利于决策者快速做出判断.%The attribute significance degree based on the knowledge base of rough sets shows the classification change af-ter removing one or more attributes. For the inadequacy of the method to determine the attribute significance degree, the direct and indirect effects of the condition attributes acted on the decision attributes are considered, and the method to de-termine the attribute significance degree, which is based on the attribute dependency degree in rough sets, is improved. Moreover, after comparing the difference between the original and the improved method, the meaning of the later is dis-cussed, and theorems show that the improved method is more credible. Finally, the simulation on the attribute significance degree of mechanical faults shows that the attribute significance degrees are more distinguishable and suitable for the attri-bute reduction, which are beneficial to decision-makers'quick judgments.【期刊名称】《计算机工程与应用》【年(卷),期】2017(053)003【总页数】4页(P174-176,210)【关键词】粗糙集;属性重要度;故障诊断;属性约简;决策【作者】肖劲森;孙立民【作者单位】广东石油化工学院理学院, 广东茂名 525000;广东石油化工学院理学院, 广东茂名 525000【正文语种】中文【中图分类】TP182;O189XIAO Jinsen,SUN Limin.Computer Engineering and Applications,2017,53(3):174-176.属性重要度在信息评判和决策的过程中十分重要,它反映了各个属性在信息系统中的地位和作用,能否比较准确地确定属性重要度直接影响到最终信息的评判和决策结果。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。