基于约简概念格的关联规则提取改进算法
一种基于概念格属性约简的语义相似度计算方法
度 对相 似度 的影 响而作 的修 正 , 在此 取 c=0 1 . 13 基 于 概念 格 的相 似度 综合 计算 方法 . 基 于概 念 格 的语 义 相似 度 要考 虑 概念 在 概念 格 中 的语 义距 离、 内容 以及层 次结 构 三个 方 面 的因素对 概念 相似 度 的影 响. 综 合 考虑 以上 三个 因素对 概 念 相似 度 的影 响 , 公 式 ( . ) 对 2 1 和公 式 (. )进 行 权 重调 整 得 到综 合 计 算 22 概 念格 中两个概 念 相 似度 的计 算模 型 , 如公式 (. ) 23 :
针对概念相似度计算 中存在的问题 , : 本文提出一种基于概念格属性约简的本体语 义相似度综合计算
方法 . 即计算 概念 间的语 义相 似度 时 , 合考 虑 概念 的属 性 、 综 语义 距 离和概 念层 次结 构 , 并通 过 调整 这 些方
在综合相似度 中所 占的权值来适应不同的应用需求. 在计算过程 中利用概念格属性约简知识 , 删除冗余 信
伍 振 兴
( 州学 院 电子 信 息工程 学 院 , 南 三 亚 52 2 ) 琼 海 70 2
摘 要 : 出一种基于概念格 属性 约简 的语义 相似度 综合计 算 方法 。该 方法 要考虑 概念 在概 念格 中的 提
语义距离 、 内容 以及层次结构 三个 方面的因素对语义相 似度 的影 响。 同时对所 构造 的概念格进 行属 性约简 ,
式 ( . ) 22 :
。 p ( , 1 , , ): i ( x。B ) ( B ) m :
n+
6 ( +c ” f ) 1 ) 2 )
收 稿 日期 :0 1 2— 8 2 1 —1 0 作 者 简 介 : 振 兴 (9 4一) 男 , 南娄 底 人 , 州 学 院 电子 信 息 工程 学 院助 教 硕 士 伍 18 , 湖 琼
基于基集与概念格的关联规则挖掘算法
Ba e n Ba eSe nd Co e ti e s d 0 s ta nc ptLa tc
CHE Xi n . U e N a g W Yu
(co l f o ue cec n n ier g U iesyo Eet ncS ineadT cn lg f ia C eg u6 05 , ia Sh o C mp tr i eadE gn e n , nvri f lc o i ce c n eh oo yo Chn , hn d 10 4 Chn) o S n i t r
即包含 和 y两者 的事务在 D中所 占的百分 比。 定义 3 设 , > , - 】为一个关联规则 ,同时包含 和 y两 = 者的事务在 D 中所占的百分比称为该 关联规则的置信度,它 的值为 ur/x) 3 ( 。 y 定义 4给定一个事务集 D,挖掘 关联规则的问题就是产 生支持度和置信 度分别大于 用户给定的支持度 阈值( i u) mn p s 和置 信度 阈值( icn) 关联规 则 ,这样 的规 则被称 为强 mn oJ的
[ btat r i nls c t nremn ga o t a l fc nyadihs ut feud tnmin sl. i n i A s c Ta t a a oii l in l r m hs o e i c a a r l d i s ao u i g i o h w i e n t mon o dna n gr u sAmi at s r n i i e t g th
算法 。利用规定种子项分布范 围的基集代替原始数据库 以缩小挖掘源规模 ,从而建立概念格快速求解 出关联规则 。实验结果表 明 , 该算法
在时问效率方面优于 B s 和 A r r 算法 。 ae po ii 关健诃 : 数据挖掘 ;关联规则;概念格 ;基集
一种基于决策矩阵的属性约简及规则提取算法
第 25卷第 3 期 2005年 3 月计算机应用Comp u t e r App li ca t i o n sVo l . 25 No. 3 M a r . 2005文章编号 : 1001 - 9081 ( 2005 ) 03 - 0639 - 04一种基于决策矩阵的属性约简及规则提取算法武志峰 1 , 2 ,吉根林 1( 1. 南京师范大学 数学与计算机科学学院 ,江苏 南京 210097;2. 石家庄经济学院 信息工程学院 ,河北 石家庄 050031 )(w z f_heb@ sjz ue . edu. cn )摘 要 :研究了 Rough 集理论中属性约简和值约简问题 ,扩展了决策矩阵的定义 ,提出了一种基 于决策矩阵的完备属性约简算法 ,该算法利用决策属性把论域划分成多个等价类 ,然后利用每个等价 类对应的决策矩阵计算属性约简 。
与区分矩阵相比 ,采用决策矩阵可以有效地减少存储空间 ,提高约 简算法效率 。
同时 ,借助决策矩阵进行值约简 ,提出了一种新的规则提取算法 ,使最终得到的决策规 则更加简洁 。
实验结果表明 ,本文提出的属性约简和值约简算法是正确 、有效 、可行的 。
关键词 : Rough 集 ;属性约简 ;值约简 ;决策矩阵 ;规则提取中图分类号 : TP311. 13 文献标识码 : AA ttr ibu t e reduc t i on an d ru l e ex t ra c t i on a lgor ith m s ba sed on dec is i on m a tr ice sWU Zh i 2feng1 , 2, J I Gen 2li n 1(1. S c hool of M a t he m a tics and Co m pu t er S c ience , N an j ing N or m a l U n i versity , N an j ing J i angsu 210097, Ch ina ; 2. S c hoo l of Infor m a t ion Eng ineering , S h i jiazhuang U n i versity of Econo m ics , S h i jiazhuang H e bei 050031 , Ch i na )A b s tra c t : Two i m po r tan t issue s in r o ug h se t , a t tribu t e reduc t ion and va l ue reduc t i o n, we r e d i scu s sed . The defin i tion of extended dec i si o n m a t rice s wa s p re s en t ed . A nove l a l g o r ithm ba s ed on extended dec i sion m a t rice s fo r a t tribu t e reduc t ion (EDMAR ) wa s p r opo s ed . S om e equ i va l ence c l a sse s we r e p a r titi o ned fr om the un i ve r se of ob j ec t s by the dec i si o n a t tribu t e s , and dec i sion m a t rix fo r each equ i va l ence c l a s s wa s c r ea t ed . U sin g the dec i si o n m a t rice s , the a t tribu t e s we r e reduced . C omp a r ed w i th a l g o r ithm s ba s ed on d i sce r n i b i lity m a t rice s , EDMAR is of m u ch le s s s p a ce comp lexity and ti m e comp lexity . Fu r the r mo r e, a new a l g o r ithm f o r ru l e extrac t i o n ba s ed on dec i si o n m a t rice s wa s p re s en t ed . A n d m u ch mo r e conc i se dec i sion ru l e s cou l d be g o t w ith th i s m e t hod . Ex p e r i m e n t a l re s u l ts on the da t a se t s in UC I m a ch i ne lea r n i ng repo s ito r y show tha t the a l g o r ithm s a r e effic i en t and fea s ib le .Key word s : roug h se t s; a t tribu t e reduc t ion; va l ue reduc t ion; dec i sion m a t rice s ; ru l e extrac t i o n简的改进算法 ,但没有相应的值约简算法 。
基于基集与概念格的关联规则挖掘算法
—34—基于基集与概念格的关联规则挖掘算法陈 湘,吴 跃(电子科技大学计算机科学与工程学院,成都 610054)摘 要:传统关联规则挖掘算法的挖掘效率较低,且挖掘结果中存在大量冗余。
针对该问题,提出一种基于概念格与基集的关联规则挖掘算法。
利用规定种子项分布范围的基集代替原始数据库以缩小挖掘源规模,从而建立概念格快速求解出关联规则。
实验结果表明,该算法在时间效率方面优于Base 和Apriori 算法。
关键词:数据挖掘;关联规则;概念格;基集Association Rule Mining AlgorithmBased on Base Set and Concept LatticeCHEN Xiang, WU Yue(School of Computer Science and Engineering, University of Electronic Science and Technology of China, Chengdu 610054, China)【Abstract 】Traditional association rule mining algorithm has low efficiency and it has a mount of redundant in mining results. Aiming at this problem, this paper presents an association rule mining algorithm based on base set and concept lattice. It replaces the original database with the base set which has seed item distribution range, and builds concept lattice to find association rules. Experimental results show that this algorithm has much superior to Base and Apriori algorithm on the performance of time efficiency. 【Key words 】data mining; association rule; concept lattice; base set计 算 机 工 程 Computer Engineering 第36卷 第19期Vol.36 No.19 2010年10月October 2010·软件技术与数据库· 文章编号:1000—3428(2010)19—0034—03文献标识码:A中图分类号:TP3931 概述关联规则是数据挖掘的重要模式之一。
基于约简概念格的关联规则挖掘算法
合, 而概 念 的外延 是 概 念 内涵 可 以确 定 的最 大 对象 集 合 , 个 一
概 念是 一个 完整 的二 元组 。 定 义 23 在 概 念 节 点 之 间 能 够 建 立 起 一 种 偏 序 关 系 。 对 _
大 . 掘 规 则 时 计 算量 偏 大 。本 文 对 G li 进 行 了 扩 展 , 提 高 挖 aos 格 在
根据 偏 序 关 系可 生 成概 念 格 的Has图 ,如 果 有C > , se 在 Has 图中将存 在 一条 边从C, se 到 , 。 c 的直 接超概 念 , C C是 2 C是 的 直接 子 概念 。形 式 背 景 T ( D, 中 , 足 直接 子 概念 一 - 0, R) 满 超 概 念关 系 的所 有概 念节 点 的集合 是一 个 完备 格 ,称 为G li概 ao s
概念格 的形 式化 描述 。
定义 21 一个 形 式 背景是 一 个 三元 组 ( D, , 中0 . 0, R) 其
求 。 面基 于Wie 下 l. l R概念 格 给 出约简概 念格 的定义 。可 以证 明
胡 的约 简概 念格 与下 面定 义 的格是 相 同 的。
是 对象 集合 , D是特 征 集合 , 0 尺是 和D之 间 的二元 关 系 ,即R
为进 一步 降低 概念格 对存 储 空 问的需 求 , 考虑 概念 格 的 可 简化形 式 。 胡学 钢首 先提 出 了 内涵 约 简概念 格 的思路 —— 在扩
展 概 念 格 的 基 础 上 去 掉 冗 余 内 涵 . 而 大 大 减 少 内 涵 的 存 储 需 从
映对象 与属 性之 间 的联 系以及 概念 泛化 与例 化关 系 。 面 给 出 下
基于概念格和Apriori的关联规则挖掘算法分析
An l s s o s o i to u e m i n l o ih s b s d o a y i f a s c a i n r l ni g a g r t m a e n t e c nc ptl ti e a he Ap i r l o ih h o e a tc nd t r o ia g r t m
W ANG - i g。 HU mg n II Xio p n , W ANG a De x n Xu a g。 U a — i g H o
( c o lo mp t ra dI f r t n,H ee ie st fTe h oo y,Hee 3 0 ,Chn S h o fCo u e n n o ma i o fiUn v riyo c n lg fi2 0 09 ia)
wh c v l e r m h o c p t ie b n r d c n q i a e c e a i n t s i t n in a d q a tt ih e o v s f o t e c n e tl tc y i t o u i g e u v l n e r l t o i n e so n u n i a o t y t t x e so c n b s d t i e t e a s ca i n r l s t e u e s a e i t r s e n I o a io o is e t n i n, a e u e o m n h s o i t u e h s r r n e e t d i . n c mp r s n o
Ab ta t A o c p a tc e r s n sk o e g y t e r l t n b t e h t n i n a d e t n i n o sr c : c n e tl tie r p e e t n wl d eb h e a i e we n t e i e so n x e so f o n a c n e ta d t e r l t n b t e h e e a ia i n a d s e i l a i n o o c p ,t u ti a p i d o c p n h e a i e we n t e g n r l to n p ca i t fa c n e t h si s p l o z z o e
一种不完备决策表的改进约简算法
一种不完备决策表的改进约简算法
一种不完备决策表的改进约简算法是一种用来提高决策效率的方法。
它旨在通过从已有的决策表中去除不必要的决策路径,使决策表变得更为精简,从而改善决策者的决策效率。
改进约简算法的基本思想是:通过将不必要的决策路径进行删减,消除重复的决策,减少决策表的大小,从而提高决策者的决策效率。
该算法是基于图论中拓扑排序算法的思想,即根据决策表中各节点之间的关系,从开始节点开始,依次遍历节点,并移除重复的节点,最终形成一个新的决策路径,从而提高决策效率。
为实现上述目的,首先要对决策表进行分析,根据决策表的结构,把决策表的状态空间划分为若干个子空间,根据子空间之间的关系,构建出一个有向图,将有向图中的节点进行标记,标记出开始节点、结束节点和决策节点。
然后,根据决策表的状态空间划分,对有向图中的节点进行拓扑排序,即从开始节点开始,依次遍历节点,移除重复的节点,形成新的决策路径。
最后,将结果转换成决策表,从而提高决策效率。
在实际应用中,改进约简算法可以有效处理不完备决策表,可以有效解决复杂决策问题,显著提高决策者的决策效率。
总之,改进约简算法是一种改善决策效率的有效方法,它旨在通过从决策表中去除不必要的决策路径,使决策表变得更为精简,从而提高决策者的决策效率。
它的基本思想是通过分析决策表的状态空间,构建有向图,对有向图中的节点进行拓扑排序,移除重复的节点,形成新的决策路径,从而提高决策效率。
基于概念格的关联规则挖掘
10 2 0 ,3 3 ) 7 0 74 (3
— ===; == = - = — 一 ——— = == == == = == = : = = = = = = ; = = === == == =: = = =
C m u r , er g adA p& ̄ os o p t nei n p l in 计算机工程 与应用 e n
=== == == ==== : = = = ; === == == =: == == = = = = = = === ==: = == == == == =; = = = = = = = ; =・ ====== == = := = = = = = ; ; ;= ・ : ! == = : = = = = = = 一
◎ 据 库 与信 息 处 理 ◎ 数
基于概念格 的关联规则挖掘
谢 福 鼎 , 照飞 王
XI E F di g, ANG Zh o e u— n W a -f i
辽宁师范大学 计算机信息与技术学院 , 辽宁 大连 16 2 09 1
De at n f C mp t r a d I fr t n T c n lg , io ig No ma ie st , l n, io i g 6 2 C i a pr me t o o u e n n o mai e h oo y L a n n r l Un v ri Dai L a n n 1 0 9, h n o y a 1 E mal x ed o u C B — i: if @s h .O
XI — i g W ANG a -fi s ca i n r ls m i i g b s d o o c p a tc . mp t r En i e rn n p i a i n , E Fu d n , Zh o e . o i t u e n n a e n c n e t l tie Co As o u e g n e i g a d Ap l to s c
基于概念格的关联规则对半查找算法设计
竺
,/ , /
基于概念格 的关联规则对半查 找算法设计
姬朝 阳 . 陈建 涛
( 许 昌学 院教 育技 术与信 息 部, 昌 4 10 ; . 汉市第 一 医院信 息 中心, 1 . 许 6 00 2 武 武汉 4 0 2 ) 30 2
A r r相 比无 明 显 的 减 少 。 pi i o
1 两个 定 理
定 理 1 若项 目集 I 嗍: 1与子 集 I 2的支持 度相 等 . 则它们 的闭包 ( 闭项 目集 ) 封 也相 等
证 明 :略 ) ( 。
3 对 半 查 找算 法 设 计
Coe P C L T T N C 都 是 从 1 项 集 开 始 查 找 频 ls 、AS A 、 IA I 一
计 算候选 封 闭集及相 应 的支持度 . p r = isp u t p r, o 则将 C加入 F k ; t C 中1 生成 F C+的产生器 ; C k 。 } ( ) 回所 有频 繁封 闭项 目集 和其支 持度 。 3返 Coe 法采 用逐层 迭代 计算 .在 每层循 环 中计 ls 算 算 该 层 产 生 器 的 闭 包 .其 对 数 据 库 的遍 历 次 数 与
^
算
总
思想 : 对所 有的项 目集 , 按维 数划 分都落 在 区间(, 0 N1
第
上
( N为 数据库 项 目总数 , N J ) 即 : I。每次遍 历数 据库 二 T
二
作 者 简 介 : 朝 阳 (9 5 ) 姬 1 7 一 ,男,河 南 鄢 陵人 , 师, 士 , 事 领 域 为 人 工 智 能 和 数 据 挖 掘 研 究 讲 硕 从
摘 要 : 出一种应 用二 分法 查找频 繁封 闭项 目集 的算 法 , 维数 区间对 半划 分 , 次遍历 时都 提 将 每 计 算 落在 前半 区的 项 目集的 支持 度。该 算 法能有 效减 少数据 库遍 历次数 , 高效 率。 提 关键词 :关联规 则挖掘 ;概念 格 ;频 繁封 闭项 目集 ;算法
基于概念格的规则提取算法研究及改进
创 建 一 个 新 的 概 念 格 , 中 取 出 相应 的规 则 。 定 从 设 支 持 度 的 最 小 值 为A, 任 度 的最 小 值 为 B 信 。
作 者 简 介 : 凯 (9 1 )硕 士 , 教 , 究方 向 : 赵 18 一 , 助 研 网络 数 据 库 。
Co e tLa tc s d Rul t a to g rt m s a c nd I pr v m e t nc p ti eba e eEx r c i n Al o ih Re e r h a m o e n
zHA0 K
( ioV c t n l n tue Z b 5 3 4, hn ) Zb o a o a I s tt i 2 5 1 C ia i i , o
不小于指定的项 目集 。
( )在 事 务 数 据 库 找 出 的频 繁 数 据 项 目集 ,经 过 2
一
O a() ̄; mx = Y
J Y Y ; /集 合 X中的 新 项 目集 = —j / Fr lj J / 一 个 子 集 项 目作 为 最 大 生 成 器 o l a / 每
相 比 , 于 产 生 集 的规 模 大 大 减 少 了 , 由 由此 , 户 可 以 用
,做 为下 一 轮 的候 选 最 大生 成 器 /
很好地 理解相应的规则 , 更容易推导 出其他 的新规 则 , 避免 了大量的对用户来说无用 的新规则 的产 生 ,对 于
大型的数据库来说 , 也避免 了产生大量 的规则产 生集 。
但 是 该 算 法相 对 传 统 规 则 集 来 说 也 有 不 足 ,比如 新 的
收 稿 日期 :0 1 1 — 6 2 1- 0 2
0 1{ =l dl l+ ,0 E jj 卜‘ "Jl =0’j…J l j l j 0, -l I l" } V t 3 o …jJ j +
基于改进概念格的无冗余关联规则提取
定义 4 设 C( , 和 ( y 是格 中的 2 … l , x ) x ,) 2 个概念 , 其 中偏序关系 “ ≤”定义为 C ≤C 兮 X ∈X 或者 ∈y ,此时 i 2 , 2
称 C 是 c 的子概念 ( bcne t, C 是 C 的超概念 ( pr , s —o cp) 2 u l s e- u cn et。如果不存在概念 c x,) o cp) ( y 使得 C ≤C≤ 成立,则 I 称 c 与 C 互为直接子概念和直接超概念 。 l , 量化概念格是将概念格的外延量化 ,忽 略概念格外廷 的
中啊 分类号tT316 P0. 0
基 于 改进概 念格 的无 冗余 关联 规 则提 取
刘霜霜 ,饶天贵 ,孙建华
(. 南大学计算机与通信学院 ,长沙 4 0 8 ;2 I湖 10 2 .株洲南车时代 电气技术 中心 ,株洲 4 2 0 ) 10 1
擅
耍:在介绍概念格相 关理论 的基础上 ,提出改进概念格构造算法一
[ yw r s ocp tc; soit nrlse t cinag rh Ke o d lc neta i ascao e;xr t loi m lt e i u a o t
1 概述
概念是人类进行知识表达 的一种手段 。数据库中知识发
y =X ,X和 Y分别称 为概念的外延(xe t Et ) n 和内涵( t t Ie ) nn , 分别用 E tn( ) Itn() xet 和 net 表示 。 C C
[ b t clA t t d c gt a ct oyo n et ai ,h a e b n s r  ̄ ni rv dcnt c o l rh a dG dn A s at f r n o u i ebs e r f o cp l t e t s pr r g f w da o e o s ut na oi m nme oi r e ir n h i h c tc i p i o mp r i g t
一种基于概念格的软件过程改进算法
Ab ta t Asa i d o x e ln CA o l, o c p a t e h sb e p l d i , a am i ig, n n wld e e t a — src n k n fe c l tF e t o c n e tlti a e n a p i AI d t n n a d k o e g x r c c e n t n fed b c u eo sh e a c y a d i s i c in o t r r c s p o e n sk y o o t r d s r . n r d c d i i l e a s f t ir r h n t t .S fwa ep o e si r v me t e f fwa e i u ty I to u e o i n n o m i s n t e c n e t lttc n o s fwa e p o e s r s a c p e e t d a c n e t ltie me h d f r i r vn o t r r ls , h o c p a t ie i t o t r r l s e e r h, r s n e o c p a t t o o mp o i g s fwa e p o e s c a d d d a x e i n a n l ss Ex e i n e n t a e h tt e me h d i v l o r p l n h o t r r l s n i n e p r me t l ay i. p rme td mo sr t s t a h t o s a i f rp o el g t e s fwa e p o e s a d i
i pr ve e . m o m nt
Ke wo d Co c p a tc , o t r r c s p o e n , e rc As o it n r l x r c in y rs n e tltie S fwa e p o e s i r v me t M t i , s ca i u e e t a t m o o
概念格与关联规则发现
概念格与关联规则发现
概念格与关联规则发现是数据挖掘领域中的两个重要概念,它们之间存在密切的联系。
概念格是一种形式化工具,用于描述对象和特征之间的联系以及概念间的泛化与例化关系。
它通过构建概念层次结构来表达数据的抽象层次,从而帮助我们更好地理解和分析数据。
关联规则发现是数据挖掘中的一项任务,旨在从数据集中发现变量之间的有趣关系,如购物篮分析中经常一起购买的商品组合。
关联规则发现可以帮助我们发现数据中的隐藏模式和关联,从而为决策制定提供支持。
概念格与关联规则发现之间存在密切的联系。
概念格可以作为关联规则发现的基础,因为它提供了对数据的层次化描述,有助于发现变量之间的关联。
同时,关联规则发现的结果也可以进一步丰富和完善概念格,使其更加准确地反映数据的结构和关系。
在数据挖掘过程中,结合使用概念格和关联规则发现可以获得更好的挖掘效果。
例如,可以使用概念格来识别变量之间的隐含关系,并进一步应用关联规则发现算法来验证和扩展这些关系。
这种方法有助于发现更有价值的信息和知识,从而为决策制定提供更可靠的依据。
总之,概念格与关联规则发现是数据挖掘领域中的两个重要概念,它们之间存在密切的联系。
通过结合使用概念格和关联规则发现,我们可以更好地理解和分析数据,发现更有价值的信息和知识,从而为决策制定提供更可靠的依据。
一种改进的关联规则提取算法
一种改进的关联规则提取算法
刘军;谢康林
【期刊名称】《小型微型计算机系统》
【年(卷),期】2003(024)007
【摘要】运用图论中的完全图知识,对关联规则提取过程的第一阶段进行改造,把大项集计算转换为集合的并和交两种基本运算,并利用候选大项集生成过程中的中间结果对已知大项集进行过滤,大大减少不必要的重复计算,从而加快候选大项集的生成速度.
【总页数】3页(P1343-1345)
【作者】刘军;谢康林
【作者单位】上海交通大学,计算机科学与工程系,上海,200030;上海交通大学,计算机科学与工程系,上海,200030
【正文语种】中文
【中图分类】TP311.13
【相关文献】
1.基于Apriori算法改进的关联规则提取算法 [J], 罗可;贺才望
2.一种基于云理论的空间关联规则提取算法 [J], 孟凡荣;郑中珮;陈佩佩
3.一种带权重又带约束的关联规则提取算法 [J], 邹长忠;傅清祥
4.一种双向关联规则提取算法 [J], 袁彩虹; 张连堂
5.一种基于改进型遗传算法的关联规则提取算法及其应用 [J], 王礼刚;左源瑞;李盛瑜
因版权原因,仅展示原文概要,查看原文内容请购买。
一种改进的规则获取方法
一种改进的规则获取方法
旷海兰;刘新华;罗可
【期刊名称】《微计算机信息》
【年(卷),期】2006(000)06X
【摘要】属性约简和属性值约简是基于粗糙集理论获取决策规则的基础,在分析经典约简算法的基础上,根据粗糙集理论中属性的依赖度和重要度等性质,提出一种改进的约简方法,以获取简洁的决策规则。
并运用实例对方法的有效性进行分析和验证。
【总页数】3页(P242-243,163)
【作者】旷海兰;刘新华;罗可
【作者单位】衡阳师范学院;长沙理工大学;武汉理工大学
【正文语种】中文
【中图分类】TP18
【相关文献】
1.一种基于粗糙集理论的最优故障诊断规则获取方法 [J], 张光轶;苏艳琴;孟凡娜
2.一种基于扩展差别矩阵的规则获取方法 [J], 林晓斌;叶东毅
3.一种改进的规则知识获取方法 [J], 易巍;郑启伦;彭宏
4.一种改进的规则获取方法 [J], 旷海兰;刘新华;罗可
5.MonoLoop:CA城市模型状态转换规则获取的一种方法 [J], 刘翠玲;龙瀛;王艳慧因版权原因,仅展示原文概要,查看原文内容请购买。
约简 算法
约简算法是一种用于减少文档长度和复杂性的技术。
它采用一系列技术和方法,通过对文本进行分析和处理,提取出其中的关键信息,并以更简洁的方式重新表达。
约简算法在自然语言处理和信息检索领域得到了广泛的应用。
约简算法的核心思想是通过识别文本中的重要信息和关键句子,并删除冗余的内容。
其主要步骤包括:
1.文本分割:将长文本分割成若干个句子或段落,为后续处理做准备。
2.关键词提取:通过自然语言处理技术,提取出文本中的关键词。
关键
词通常是那些在文本中频繁出现、具有特定含义的词语,可以帮助我们理解文本的重点。
3.句子权重计算:通过对文本的关键词和句子进行关联度计算,给每个
句子赋予一个权重。
具有高权重的句子往往包含了文本的重要信息。
4.句子排序:根据句子的权重,将文本中的句子按照重要性进行排序。
重要的句子排在前面,次要的句子排在后面。
5.句子选择:根据设定的约简比例或约简长度限制,选择权重最高的句
子组成约简后的文档。
在选择的过程中,保证句子之间的连贯性,以确保约简后的文档能够传达出原文的主要信息。
约简算法的优点是可以帮助读者快速理解长文本的主要内容,节省阅读时间。
它在自动文摘、科技文献阅读和信息检索等领域有着广泛的应用。
然而,约简算法也存在一些挑战,例如如何准确地识别关键信息,如何处理文本中的复杂结构和语义关系等。
总之,约简算法是一种有效的文本处理技术,通过识别关键信息和精炼语言表达,帮助读者更快地理解文本的核心内容。
随着自然语言处理技术的不断发展,约简算法在文本理解和信息检索领域将发挥更重要的作用。
改进的基于条件信息熵的属性约简算法
【作 者】李俊丽
【作者单位】晋中学院信息技术与工程学院,山西晋中030619
【正文语种】中 文
【中图分类数的属性约简算法 [J], 甄宇峰;施化吉
2.基于覆盖算法的条件信息熵表示及属性约简 [J], 单雪红;吴涛;李国成
改进的基于条件信息熵的属性约简算法
李俊丽
【期刊名称】《中北大学学报(自然科学版)》
【年(卷),期】2014(000)006
【摘 要】针对经典属性约简算法不能有效适应大数据集的问题,通过分析经典属性约简算法的特点,提出了一种改进的基于条件信息熵的属性约简算法。该算法以分类为基础,引入了类分布链表,将条件信息熵和成熟的数据库技术相结合,解决了内存限制问题,优化了算法的结构,同时加快了决策表的运行速度。最后通过实例对算法的有效性和可伸缩性做了分析。实例仿真计算表明,该算法在具有更快的约简速度的同时又不失其准确率。%The classic attribute reduction algorithms cannot effectively to adapt to the problem of large data set ,through the analysis of the characteristics of classic attribute reduction algorithms ,based on conditional information entropy ,an improved attribute reduction algorithm was proposed ,which was based on the classi-fication ,and the class distribution list and conditional information entropy with mature database technology was combined .Then the problem of memory limit was solved ,the algorithm structure was optimized .At the same time ,the speed of decision table was accelerated .Finally ,the effectiveness of the algorithm and scal-ability by the analysis of the instance simulation calculation shows that the algorithm has faster reduction speed and does not lose its accuracy at the same time .
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数 据 挖 掘是 知 识 发 现 的 一 门重 要 技术 , 联 规 则是 数 据 挖 关 掘 的重 要模 式 之 一 。 自关联 规 则 的概 念 被 提 出 以 来 , pi i A rr o 算 法 是第 一 个 有 效 的挖 掘 算 法 , 指 出 了 关 联 规 则 挖 掘 过 它 程 的主 要瓶 颈在 于 生 成 全部 所 需 的频 繁 项集 , 并且 提 出 了一 个
Absr c : T spa r p o o e e ag rt ta t hi pe r p s d a n w lo i hm s d o smplf d c n e tl tie t mp o e t e fiin y o e r tn ba e n i i e o c p atc O i r v h e ce c f g nea ig i lr e s tf r t e c nc ptltie Th lo i ag e om h o e atc . e ag rt hm o d g n r t l te lr e ie st y usn h a e t—hid e o r lto c ul e e ae al h a g tm esb ig t e p r ns c l r n c rea in o h o e .I mp o e h fiinc fg n r t ag esbyc ti h i o to o tn o e n e ucn h o — fte n d s ti r v d t e e c e y o e e ai lr e s t u t t e t ng ng me c s fs rig n d sa d r d i g te c r n pai i s b t e h o es rng t me ewe n t en d .Thrug h x e i n so rom a e sud o h t ee p rme t npef r nc t y,i c n b e nt a hep o o e lo ih h s t a e s e h tt r p s d ag rt m a mu h s p ro e o ma c n e ce c o te o ii lag rt . c u e irp r r n e i f i n y t h rgna loihm f i Ke o d y w r s: k o e e dic v r d t nig;a s cain r e;lr eie e ;smpi e o c ptlti e n wldg s o ey; aa mi n so it ul o a g tms t i lf d c n e atc i
项 集 的支 持 度 , 做 . ) 是 一 个 值 域 为 ( ,1 的 函 数 , 记 厂 。厂 ( 0 ) 并 且 对 于任 意 的 XCY都存 在 . X) ‘ Y 。空 集 的 支 持 度 为 _ 厂 ( ≥厂 ) (
1 即 ,
) 。关联规则 X= >Y的支持度记为. uy , =1 = 厂 ( ) 即
CHEN a g,W U e Xin Yu
( colfCm ue Si c E gne n ,U iri fEe rn c ne& Tcnl yo C ia hn d 10 4 hn ) Sho o o p t c ne& nier g n es)o lt i Si c r e i v t co c e eh o g hn ,C eg u60 5 ,C ia o f
陈 湘, 吴 跃
( 电子科技 大 学 计 算机科 学与工程 学院 ,成都 60 5 ) 10 4 摘 要 :为 了提 高在概念格 上生成频 繁项集 的效率 , 出 了一个基 于约 简概 念格 的生成频繁 项 集的新 算 法。该 提
算 法通过利 用节点之 间的父子关 系能够直接 生成全部 频繁 项集 , 省略 了对 节点进 行排 序 的 时 间开销 , 大大减 少
d i 1 3 6 /ji n 1 013 9 . 01 . 4 0 6 o :0. 9 9 .sБайду номын сангаас. 0 —6 5 2 0 . 2 s 1
Mi ig a s cain a e l smpi e o c p at e b mp o e lo i m n n so ito sb s d Ol i l d c n e tlti y i r v d ag rt i f c h
了节点比较 次数 , 而提 高了频繁 项集 的生成效 率。 实验 结果证 明 了其可 靠性和 高效 性。 从 关键词 :知识发现 ; 数据 挖掘 ;关联规 则 ;频繁 项 集 ; 简概念格 约 中 图分 类号 :T 3 1 P1 文 献标 志码 :A 文章编 号 :10 —6 5 2 1 )4 19 — 3 0 13 9 ( 0 10 — 2 3 0
第2 8卷 第 4期 21 0 1年 4月
计 算 机 应 用 研 究
Ap lc to s a c fCo u e s p ia in Re e r h o mp t r
VoI28 . No 4 . Ap . 2011 r
基 于约简 概 念格 的关 联 规则 提 取 改进 算 法 米
包 含 和 y两者 的事 务 在 , 中所 占的 百 分 比。 J 定 义 3 设 X= >Y为 一 个关 联 规 则 , 时包 含 x 和 ,两 = 同 ,
具有较高效率 的生成算法 , 大量后续 的研究提高了此算法的效 率和应用范围, 如文献 [ 7 。概念格 是数据 分析 和规则 3~ ]