一种节约内存的中文多模式匹配算法
基于CUDA的Wu-Manber多模式匹配算法

N D A 公司推 出的一种全 新的软件和硬件架构 ,它 VI I 将 G U视为一个并行数据 计算的设备, P 对所进行 的任 务进行 分配和 计算。C DA编程模型【 】 U 5 将执行 的程序 , 6 分为两部分: s端与 D vc 端 。 ot 是指在 C U Hot ei e H s端 P 上执行 的部分 ,Dei vc e端则是在 G U上执行 的部分 , P
的编程 模 型 以及 WuMab r算法 ,第 3 节 是 关于 . ne
WuMa br . n e 算法在 C DA下的实现 与优化 , 4节是 U 第 实验 结果与分 析,最后 是结 束语 。
角,其 已经应用在 图形动画 、科学计算 、生物 、物理
2 相关技术介绍
21 D .CU A编程模型 C D C m ueU ie e i rh etr)J U A( o p t nf dD vc A ci c e[ i e t u 5 是
_
C DA 中包含 多种存储空 间,合理使用这些存储 U 空间能够提高 数据访 问速度 ,节省带宽,提升程 序的
性能 。
行完全 匹配 ,若有完全 匹配则报告结果 。T :T+1,
转() 1。
2 - n e 算法 介绍 . WuMa b r 2
3 Wu n e算法在C D . br Ma U A中的实现
()计算该窗 口T的前缀 即 … 的哈希值 ,记 3
为 tx p e x。 et r f i
_
()对于符合 H S h】 <H H【 1所有 4 A H【 P AS h+ 】 C DA程序流程 U p ,若 P FX【 t tpe x E R I P】 x rf ,则 把 文本 和模 式 串进 e i
多模匹配算法

除了自动机这种主流多模式匹配思想外还有一种很有 效的想法。这就是哈希(Hashing),Hashing方法的串查 寻最早是在1971年被Harrison介绍,之后得到了充分地分 析。1992年到1996年,台湾人Sun Wu和他的导师Udi Manber发表了一系列的论文 ,详细地介绍了他们设计的 匹配算法,并用此算法实现了一个Unix下类似fgrep的工 具:agrep。
➢ Step2:记f(s) = g(state, a)
以图1 a)为例说明计算的失效函数f; ① 先令f(1) = f(3) = 0,因为1和3是深度为1的状态。 ② 计算深度为2的状态2,6和4的失效函数。
计算f(2),令state = f(1) = 0;由于g(0, a) = 0,得到f(2) = 0。 计算f(6),令state = f(1) = 0;由于g(0, i) = 0,得到f(6) = 0 。 计算f(4),令state = f(3) = 0; 由于g(0, h) = 1,得到f(4) = 1。 ③ 按这种方式继续,最终得到了如图1 b) 所示的失效函数f。
➢ 计算方法:用于计算某个状态失效函数值的算法在概念上 是非常简单的。首先,令所有深度为1的状态s的函数值为f(s) = 0。假设所有深度小于d的状态的f值都已经被算出了,那么 深度为d的状态的失效函数值将根据深度小于d的状态的失效 函数值来计算。
为了计算深度为d状态的失效函数值,我们考虑每个深度 为d-1的状态r,执行以下步骤: ➢ Step1:如果对所有状态a的g(r, a) = fail,那么什么都不做
图1 a) d(0) = 0; d(1) = d(3) = 1; d(2) = d(6) = d(4) = 2
基于bloom filter的多模式匹配优化设计和硬件实现

bl m f1 00 6
、
据集合T {t.. , =t2., 模式集P { . , 1,,} . =p . , )
服从均匀分布的独立hs 函数集H= ,, } a h { .h , .k .
wM、A 等 ,wM 和 A 算法 的匹 C C
当 , m 一 定 时 , 可 通 过 选 择 适 当 的 正 整 数 k 使 厂 取 最 小 值 , 若 k:[ l 2 m n ]时 , 则 f 。=( . m 05 ) 。
咀
,而 一 次 搜 索 所 必 需 的 时 间为 p +(_ ) , 1 p t
因 此 一 个 L M 的 流 量 (p )计 算 为 P bs
数据窗u ( 数据长度
i3 m ) _ = ,L 一 ]
’ 数据移 出
对 于 查 找 操 作 , 将 数 据 集 合 中 的 每 个 元 素 分 别 与 hs ah函 数 集 进 行 运 算 , 得 到 k个 也 hs ah值 , 若 向量 表 中这 k个 h s 值 对 应 位 ah 置 的 值 都 为 l 则 表 示 被 查 询 数 据 可 能 存 在 于 , 尸 中 ; 反 之 任 一 个 位 置 的值 为 0 则 数 据 不 存 一 ,
, Leabharlann 擎 ( 2 ,可在 1 图 ) 个时钟 内搜 索 出从 窗 口第 个字节位 置起 的前任 意长度数据 在模式集 中的 全部 匹配 。而将 W 个这样 的 L M 引擎 并行起 P
来 ( L M) 且起始字位 置依次偏 移一字节 , P P ,并
该位 为 1的概率 l (一 ) 一 1 ,虚警 率 /表 示为 向量表 中任 意 k 位置均置为 l 个 的概 率 ,即
基于FPGA的多模式匹配算法研究与实现

中 分 号 P 3 田 类 l 3 T0
基 于 F GA 的 多模 式 匹配算 法研 究与 实现 P
貉 潇 ,郭 健 ,邓 敏 ,自 斌
(. 1 西南 电子 电信技术研究所 ,成都 604 ;2 中国 电子科技 集团公司第 3 研究所 ,成都 600) 101 . 0 100
耍: 针对模 式匹配软件算法速度慢、正确率低等问题,提 出一种基于 F G P A的硬件 多模 式匹配 算法 ,通过设计窗 口折叠 的布鲁姆过 滤
窗 口数 据 的第 i 个字 节 bt = , …, 。其 中 , bt 的 y , ( , ) e ye ,
7 {, … ,模式集合 P= p, ) 1 ‘2 , = t ) , I , P …, ,服从均匀分布 的独立 h s ah函数集合 H: ^ …, ,则 B 数据结构为 { , 】 , F
关键词的模式集进行 hs ah转换形成 ,可用于实现对集合
基金硬 目: 教育部 人文社科基金资助项 [(0 J Z 19;四川省金融智能与金融工程重点实验室基金资助项 I(IE 00 O)  ̄ 1Y C H 6)  ̄FF 21. S l P
作者筒介: 潇( 8一 , 骆 1 o ) 女,工 9 程师, 主研方向:光 络通信, 纤网 高速网 络数据处理; 健、邓 敏、自 斌, 程师 郭 工
定理 设字节集合∑ 、而∈ 、n ∑ 为偶数,有运算关系 :
Y = 2 ・ 0x 1 0x 0・0x ,Y =Y l ・ () 1
收稿 日期 :2 1-11 .四 日期 : 020—4 Ema i x @ 1 3 o 0 1 -4 1 - } 2 1-11 -  ̄ v x 6. r y cn
_
22 3
计
一种基于子串识别的多模式串匹配算法

多模式串匹配算 法广泛应 用于 网络安全 的众多领域 , 网 对
0 引 言
串匹配是计算机科学领域 的经典 问题之一 , 所谓串匹配 , 就
络安全应用系统的性能起 着决定性 作用 。典 型应用包 括 : 入侵
检测/ 防御 系统 ( D /P ) 反 病 毒 和 反 垃 圾 邮 件 检 测 ( V IS IS 、 A/ 是给定一组特定的字符 串集 合 P={ ’P , , } 对于 任 P , … P ’ ,
He Humi ' i n ,
Lu Ya bn , T n Ja ln 。 Gu i・ i n ig ’。 a ino g , 。 o L
(ntueo o p tg Tcnl y hns Aa e yo c ne, ei 0 10 hn Istt fC m ui 0 9 ,C i i n h g e fS e s j g1 a)
)w ihi s p ro hc s u e r i
t sbtn eont nb sd m t i lo tm,B M,w oe saecm l i sO( r ∑ l gmr ;tea o tm’ vr et e o u s igr g io ae a hn agrh r c i c g i O hs pc o pe t i xy m  ̄ ) h l rh saea i I l o gi g m
何慧敏 刘燕兵
( 中国科学 院研究生 院
谭建龙 。 郭 莉
北京 10 9 ) 0 10
北京 104 0 09)
’ 中国科学 院计算技术研究所 (
( 信息 内容安全技术 国家工程实验室
北京 109 ) 0 10
摘
要
多模 式 串匹配算法是 网络 内容过 滤系统的核心技术。 巨大 的存储 空间开销是制 约 多模 式匹配 串算法应 用的瓶颈之 一。
中文多模式匹配算法性能的分析与研究

( 1 . 成都 网安科技发展有限公 司, 四川 成都 6 1 0 0 9 2 ;
2 . 电子 科技 大学 示 范性软 件 学院 , 四川 成都 6 1 0 0 5 4 )
摘 要: 模 式 匹配算 法一 般不 具有所 有环 境 下的通 用 性 , 不 同 的算法 在不 同语 义环 境 下 的表 现 , 往往 差 异较 大 。为 实现 中
文环 境下 对模式 串 的快速 多模 式 匹配 , 选 择 出在 中文环 境 下 的最 优 匹 配 算法 , 分 析 了几种 经 典 的 多模 式 匹 配算 法 。通 过 对各 个算 法设 计思路 、 时 间性 能与 空间性 能 的研究 , 推 导 出基 于 “ 坏 字 符” 的算 法设 计思 路最 适用 于 中文 环境 下 大字 符集 、
d o i : 1 0 . 3 9 6 9 / j . i s s n . 1 6 7 3 - 6 2 9 X . 2 0 1 4 . 0 2 . 0 1 6
An a l y s i s a n d Re s e a r c h o f Ch i n e s e Mu l t i - p a t t e r n Ma t c h i n g
第2 4卷 第 2期 2 0 1 4年 2月
计 算 机 技பைடு நூலகம்术 与 发 展
COMP UTER TEC HNOLOGY AND DEVEL0P MENT
Vo 1 . 2 4 N o . 2 F e b . 2 0 1 4
中文 多模 式 匹配 算 法 性 能 的分 析 与研 究
h i n g, s e l e c in t g t h e o p ima t l ma t c h i n g a l go it r hm u n d e r t h e Ch i n e s e e n v i r o n me n t , a n ly a z e s e v e r a l c o mmo n mu l t i —p a t t e n r ma t c h i n g a l g o —
多对多组合匹配算法

多对多组合匹配算法1. 引言1.1 背景介绍在当今社会,随着信息时代的来临,数据的数量呈指数级增长,如何高效地进行数据的匹配和组合成为了一个重要的课题。
而多对多组合匹配算法作为解决这个问题的一种重要方法,受到了越来越多的关注和研究。
背景介绍着眼于当前大数据时代背景下,多对多组合匹配算法的重要性和必要性。
在实际应用中,如社交网络、推荐系统、交通管理等领域,常常需要对大量的数据进行有效的匹配与组合。
传统的匹配算法往往只涉及到一对一或者多对一的匹配,而多对多组合匹配算法的出现填补了这一空白,能够更加灵活高效地处理多对多的匹配需求。
本文将从多对多组合匹配算法的概述、基本原理、常见算法、优缺点分析以及应用领域等方面进行探讨,旨在全面介绍多对多组合匹配算法的研究现状和发展趋势,为相关领域的研究者提供参考和借鉴。
1.2 研究意义多对多组合匹配算法在当今社会中具有非常重要的研究意义。
随着信息技术的快速发展,人们在日常生活和工作中需要处理大量的数据和信息,而多对多组合匹配算法可以帮助人们更有效地处理这些信息,提高工作效率。
多对多组合匹配算法在许多领域都有着广泛的应用,比如在社交网络中,人们需要进行多对多的匹配,以找到适合自己的朋友或合作伙伴;在物流配送中,需要对多个货物进行合理的匹配和分配;在生物信息学中,可以用于多对多基因组的比对和分析等等。
研究多对多组合匹配算法不仅可以帮助人们更好地处理信息和数据,提高工作效率,还可以推动各个领域的发展和进步。
希望通过深入研究多对多组合匹配算法,能够为实际应用提供更多有益的启发和帮助,促进社会的发展和进步。
2. 正文2.1 多对多组合匹配算法概述多对多组合匹配算法是一种重要的匹配算法,其主要作用是在多个数据集之间进行匹配,实现多对多的关联。
在实际应用中,我们经常会遇到多对多的关系,例如用户和商品之间的关系,学生和课程之间的关系等。
多对多组合匹配算法在数据处理和分析中具有非常广泛的应用前景。
java 实现中文匹配方法

java 实现中文匹配方法Java是一种高级的面向对象编程语言,它具有广泛的应用领域。
在本篇文章中,我们将重点讨论如何使用Java实现中文匹配方法。
中文匹配是指在一段文本中查找与给定中文字符串相匹配的部分。
在实际应用中,中文匹配常常用于文本搜索、敏感词过滤、自然语言处理等场景。
下面我们将介绍如何使用Java实现中文匹配方法。
我们需要了解Java中的字符串处理方法。
Java提供了String类来处理字符串,它包含了许多有用的方法。
例如,我们可以使用String的indexOf方法来查找一个字符串在另一个字符串中第一次出现的位置。
在中文匹配中,我们可以利用这个方法来判断给定的中文字符串是否在文本中出现。
然而,由于中文字符的特殊性,我们需要注意一些问题。
中文字符通常采用Unicode编码表示,一个中文字符由多个字节组成。
因此,如果我们直接使用indexOf方法查找中文字符串,可能会出现错误的结果。
为了解决这个问题,我们可以使用Java的正则表达式功能。
Java的正则表达式功能通过Pattern类和Matcher类实现。
我们可以使用Pattern类的compile方法编译一个正则表达式,并使用Matcher类的find方法在文本中查找与正则表达式匹配的部分。
在中文匹配中,我们可以使用正则表达式来匹配中文字符。
下面是一个使用Java实现中文匹配的示例代码:```javaimport java.util.regex.Matcher;import java.util.regex.Pattern;public class ChineseMatcher {public static void main(String[] args) {String text = "这是一段包含中文的文本,我们要在其中查找中文字符串。
";String chineseString = "中文";// 编译正则表达式Pattern pattern = pile("[\\u4e00-\\u9fa5]+"); Matcher matcher = pattern.matcher(text);// 查找中文字符串while (matcher.find()) {String match = matcher.group();if (match.equals(chineseString)) {System.out.println("找到了中文字符串:" + match); }}}}```在上面的示例中,我们定义了一个包含中文的文本和一个中文字符串。
实现顺序串的各种模式匹配算法

实现顺序串的各种模式匹配算法序号一:引言实现顺序串的各种模式匹配算法是一项重要而复杂的任务。
在计算机科学领域,这一问题一直备受关注,因为它涉及到如何高效地在一个文本中找到一个模式的出现。
通过使用不同的算法和数据结构,我们可以在实际应用中更有效地实现字符串匹配。
在本文中,我们将深入探讨各种模式匹配算法,包括它们的原理、优缺点以及适用场景,以便读者能够更全面地理解和应用这些算法。
序号二:模式匹配算法的基本原理在开始讨论不同的模式匹配算法之前,让我们先了解一下模式匹配的基本原理。
模式匹配是指在一个文本串中查找一个模式串的过程。
具体来说,我们需要在文本串中以每一个位置为起点,依次比较模式串和文本串的对应字符,从而确定模式串是否出现在文本串中。
这个过程类似于在一本书中找到特定章节的名字,只不过在计算机中我们需要以更快的速度完成这一任务。
序号三:常见的模式匹配算法及其优缺点在实际应用中,有许多不同的模式匹配算法可供选择。
其中,最常见的包括朴素匹配算法、KMP算法、Boyer-Moore算法、Rabin-Karp 算法等。
每种算法都有其独特的优缺点,以适应不同的应用场景。
朴素匹配算法是一种简单直观的算法,它从文本串的每一个位置开始和模式串进行匹配,直到找到匹配或者遍历完整个文本串为止。
这种算法的优点是实现简单,但是对于大规模文本串和模式串来说效率较低。
KMP算法是一种高效的模式匹配算法,它利用了模式串自身的特点来快速匹配文本串。
通过构建部分匹配表,KMP算法可以在匹配过程中跳过一些已经匹配过的位置,从而提高匹配的效率。
其主要缺点是需要额外的空间来存储部分匹配表,因此在内存有限的场景下可能不适用。
Boyer-Moore算法是另一种经典的模式匹配算法,它通过利用模式串和文本串之间的信息来跳过一些不可能匹配的位置,从而减少比较次数。
这使得Boyer-Moore算法在最坏情况下的时间复杂度较低,适用于大规模文本串和模式串的匹配。
一种基于DFA_的短文本信息过滤算法

第 22卷第 4期2023年 4月Vol.22 No.4Apr.2023软件导刊Software Guide一种基于DFA的短文本信息过滤算法关兴义,赵敏,伍文昌(陆军工程大学指挥控制工程学院,江苏南京 210007)摘要:有关信息过滤的算法应用广泛,随着微信、微博等社交平台的迅速发展,短文本信息在网络通信中占据了主流,针对短文本信息的过滤也越来越重要。
通过比较BF算法、KMP算法、AC算法等经典模式匹配算法的优缺点,选择更适合短文本过滤的DFA算法。
介绍DFA算法基本原理,提出一种基于DFA的改进算法,改进后的算法通过敏感词预处理和过滤过程优化来提高检测率。
实验结果表明,相比于SWDT-IFA算法,改进后的算法对中文对话数据集检测的查准率提高了3%,误报率降低了0.87%,具有较高的应用价值。
关键词:短文本;信息过滤;DFA;模式匹配;Trie树DOI:10.11907/rjdk.221764开放科学(资源服务)标识码(OSID):中图分类号:TP391.1 文献标识码:A文章编号:1672-7800(2023)004-0103-06A Short Text Message Filtering Algorithm Based on DFAGUAN Xing-yi, ZHAO Min, WU Wen-chang(Command and Control Engineering College, Army Engineering University of PLA, Nanjing 210007, China)Abstract:The filtering algorithm of text is widely used, with the rapid development of social platforms such as WeChat and Weibo, short text messages occupy the mainstream in network communication, and the filtering of short text messages is becoming more and more important. By comparing the advantages and disadvantages of classic pattern matching algorithms such as BF algorithm,KMP algorithm,AC algorithm,etc. , this paper selects the DFA algorithm that is more suitable for short text filtering, introduces the basic principles of DFA algorithm, and proposes an improved algorithm based on DFA, which improves the detection rate through sensitive word preprocessing and filtering process optimization. Experimental results show that the improved algorithm improves the accuracy of Chinese dialogue dataset detection by 3% and re‐duces the false alarm rate by 0.87%, which has high application value.Key Words:short text; message filtering; DFA; pattern matching; Trie tree0 引言随着信息技术的不断发展和智能手机的普及,移动互联网已逐步渗透至人们工作、生活的方方面面,大量的聊天消息、评论、新闻等碎片化信息在网络中传播,且数量呈上升趋势,这类信息通常以短文本为主[1]。
一种基于硬件的高速低功耗多模式匹配算法

一种基于硬件的高速低功耗多模式匹配算法
夏军波;杨绪华;刘东;庞志兵
【期刊名称】《信息工程大学学报》
【年(卷),期】2010(011)001
【摘要】介绍了一种基于硬件的多匹配分类引擎,克服了传统的包分类引擎只能够找到一个给定数据包的最优匹配的局限性.同时提出了一种新的TCAM节能方法,在满足骨干链路速率的基础上,其硬件功耗较现有算法分别节省72.25%和87.29%.【总页数】5页(P67-70,87)
【作者】夏军波;杨绪华;刘东;庞志兵
【作者单位】信息工程大学,信息工程学院,河南,郑州,450002;防空兵指挥学院,河南,郑州,450052;信息工程大学,科研部,河南,郑州,450002;防空兵指挥学院,河南,郑州,450052;防空兵指挥学院,河南,郑州,450052
【正文语种】中文
【中图分类】TP393
【相关文献】
1.一种基于USB的高速数据采集系统硬件设计 [J], 花春飞;宁蕴绯
2.一种基于FPGA的低功耗高速解码器设计 [J], 周松江;李圣辰;刘明
3.一种基于预比较的低功耗高速缓存设计 [J], 彭瑞华;付宇卓
4.一种基于FPGA+ARM的高速电力谐波检测仪硬件的设计与实现 [J], 龚仁喜;刘丰;黄阳;孟小碧;谢玲玲;龚文英
5.一种基于CORDIC算法改进的高速低功耗DCT协处理器设计 [J], 黄新星;王小力
因版权原因,仅展示原文概要,查看原文内容请购买。
一种适合中文的多模式匹配算法

C h i n e s e n a me d A C S C wa s p r o p o s e d . T h e a l g o i r t h m u s e s a d j a c e n c y - l i s t t O s Or t e t h e f i n i t e s t a t e a u t o ma t a t o s o l v e t h e
c l i n e s h a r p l y . F o r t h i s p r o b l e m, t h e s t o r a g e s t r u c t u r e o f AC a l g o r i t h m wa s i mp r o v e d a n d a mu l t i - p a t t e r n a l g o i r t m h f o r
p r o b l e m o f t h e s mr a g e s p a c e r a p i d e x p a n s i o n . es B i d e s , he t l o n g l i n k e d l i s t o f t h e s t a t e‘ 0 ’i s c h a n g e d i n t o a Ha s h l i n k e d t a b l e t o i mp r o v e t h e ma t c h i n g e f i f c i e n t .E x p e r i me n t a l r e s u l t s s h o w t h a t AC S C h a s b e t t e r t i me a n d s p a c e p e r f o r ma n c e s .
一种改进的多模式匹配算法

一种改进的多模式匹配算法
褚衍杰;李云照;魏强
【期刊名称】《西安电子科技大学学报(自然科学版)》
【年(卷),期】2014(000)006
【摘要】针对 WM算法在模式集规模大且最短模式长度小的情况下性能较低的问题,分析了 WM算法及其改进的快速 WM(QWM)算法的优缺点,在此基础上提出了模式分集思想,并优化了跳跃和确认机制,设计了子集 WM(SWM)算法;然后针对
该算法在域名过滤中的应用,对 hash 函数、匹配顺序等进行进一步优化.针对域名
过滤的实验结果表明,当模式数量超过10000条时,SWM算法匹配时间是 WM算
法的8.9%~11.6%,说明 SWM算法在模式集规模较大时,匹配速度能显著提高.
【总页数】7页(P174-180)
【作者】褚衍杰;李云照;魏强
【作者单位】盲信号处理重点实验室,四川成都610041;盲信号处理重点实验室,四川成都 610041;盲信号处理重点实验室,四川成都 610041
【正文语种】中文
【中图分类】TP393.08
【相关文献】
1.一种改进的单模式匹配算法在DNA检测中的应用 [J], 章胤;庞绪琳;袁帅;肖静;
李春凯
2.一种改进的AC多模式匹配算法 [J], 刘春晖;黄宇;宋琦
3.一种改进的BMHS模式匹配算法 [J], 张欢;胡勇
4.一种改进的单模式匹配算法 [J], 马绍龙;刘海砚;李吕骏
5.一种基于Aho-Corasick算法改进的\r多模式匹配算法 [J], CHEN Yongjie;Wushour Silamu;YU Qing
因版权原因,仅展示原文概要,查看原文内容请购买。
BM模式匹配算法的研究和改进

BM模式匹配算法的研究和改进揣锦华;郑景;关锐【摘要】Pattern matching algorithms are widely used in digital communications, intrusion detection and other areas. BM algorithm is one of the most widely used pattern matching algorithm for its excellent efficiency. However, the efficiency of BM algorithm can be improved. Based on BM, BMH and BMHS algorithm, and through integrating and improving, the paper proposed IBMH algorithm which is a new improved algorithm. After the analysis of the algorithms complexity, the paper made an experimental test. And the results show that the IBMH algorithm is much better than BM, BMH and BMHS algorithm in comparisons times, running time and stability.%模式匹配算法在数字通信、入侵检测等多种领域都有着广泛的应用,BM算法以其高效的匹配过程成为模式匹配算法中应用最为广泛的算法之一。
尽管如此,BM算法的效率还是可以再提高的。
本文在介绍经典BM 算法及其改进的BMH、BMHS算法的基础上,通过整合、改进后,提出了一种新的改进的IBMH算法。
在对以上算法进行复杂度分析以后。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一种节约内存的中文多模式匹配算法
侯整风;杨波;朱晓玲
【期刊名称】《微型机与应用》
【年(卷),期】2013(032)013
【摘要】AC及其改进算法基于有限状态自动机,随着中文模式串数目增加,完全Hash表和状态表矩阵存储方式会导致存储空间快速膨胀,状态转移函数计算量大,Cache命中率下降,算法的时空性能急剧下降.提出以邻接链表方式存储有限状态自动机,并将状态“O”的链表转化为线性表,以提高算法的时空效率.在此基础上,设计了一种适合中文的多模式匹配算法,该算法所需存储空间仅为完全Hash表方式的10%,约为状态表矩阵方式的20%.
【总页数】5页(P53-57)
【作者】侯整风;杨波;朱晓玲
【作者单位】合肥工业大学计算机与信息学院,安徽合肥 230009;合肥工业大学计算机与信息学院,安徽合肥 230009;合肥工业大学计算机与信息学院,安徽合肥230009
【正文语种】中文
【中图分类】TP393.08
【相关文献】
1.入侵检测中一种节约内存的多模式匹配算法 [J], 高朝勤;陈元琰;黎芸
2.一种适合中文的多模式匹配算法 [J], 侯整风;杨波;朱晓玲
3.一种快速且节约存储器的多模式匹配算法 [J], 张国军;林南晖
4.一种面向中文的快速字串多模式匹配算法 [J], 沈洲;王永成;许一震
5.一种基于汉字编码特征的中文多模式匹配算法 [J], 黄宇;侯整风;余虎;刘春晖因版权原因,仅展示原文概要,查看原文内容请购买。