基于字符频率的字符串模式匹配算法的研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

收稿日期:2 0 1 3 -0 4 -1 7 基金项目:国家十二五科技支撑计划项 目 ( 2 0 1 2 B A H2 7 F 0 5 );广东省 自然 科学 基金项 目 ( ¥ 2 0 1 2 0 2 0 0 1 1 0 7 1 );广东省 战略性新兴产业核心技术攻关项 目 ( 2 0 1 2 A 0 1 0 7 0 1 0 0 4 ) 作者简介:巫喜 红 ( 1 9 7 5一 ),女,广东丰顺人 ,副教授 ,硕士 ,主要从事算法理 论和信息安全 等工作 。 [ 1 0 1 第3 5 卷 第9 期 2 0 1 3 - 0 9 ( 上)
( 1 . 嘉应学院 计算机学 院,梅州 5 1 4 0 1 5 ;2 . 广东工业大 学 计算机学院,广州 5 1 0 0 9 0 )

要 :本文分析 了经典 的I B M 算法E 1 ] S u n d a y 算法 ,根据字符频率的特点提出 了一种新的模式匹配算法 C F P M 。C F P M 算法确定 模式串中字符频率最低的关键字符后 ,扫 描文本串中该关键字符的位 置并存储 ,最后根据 这些位置信 息进行快速 地匹配 ,匹配方 式是以关键 字符为始点 先匹配左 部分再匹配右部分。为了验证O F P M 算法的性能 ,在相 同的文本串和模式串情况下 ,从匹配移 动次数和 匹配 的字符个 数两 方面对O F P M算法进行 实验 。实验结 果证明 ,由于C F P M算法能够 很大 限度 地跳过坏字 符 ,大大减 少了匹 配次 数和字符 比较个 数 ,有效 地加 快了 匹配速度 ,其 效率优于I B M、S u n d a y 等算法 。
0 引言
网 络 带给 人 们 方便 的 同时 也 存 在 安 全 隐 患 , 而入 侵 检 测 系统 ( I DS ) 也 越 来越 广 泛地 应 用到 网络 系 统 中 , 因 为 它是 提 高 网络 系统 安全 性 的重 要 技 术之 一 。 目前 ,许 多I DS 都 是 依靠 模式 匹配 技 术来 进 行 入 侵 检 测 的 ,但 是 ,在 进 行 入 侵 检 测时 ,花 费 在模 式 匹配 上 的时 间 占到 整 个I DS 总处理 时 间 的 3 0 %,对于 密 集 型 的流量 ,这 一消 耗 达到 8 0 % 。
串 ,各 种 算 法 各 显 神通 ,各 有 各 的 寻 找 方法 ,在 此简要 介绍4 种经 典匹 配算 法 。 B F 算 法 是 效 率 最 低 的 算 法 ,从 左 到右 进 行
匹配 。 首 先 将T[ 1 】 与P [ 1 】 进 行 比较 ,若 不 同 , 就 将T 【 2 】 与P 【 l 1 进 行 比较 ,… … ,否 则从T[ 2 1 开 始 与
P 【 1 ] 进 行 比较 ,继续 开始 下一 趟 的比较 ,重 复上 述
过程 。
利 用字 符 统 计 特 征 的 算法 ,在 扫 描 过 程 中利 用 某
个 频 率 字 符 去 进 行 匹 配 ,跳 过 了一 系列 无 用 的 字 符 ,从 而提 高匹 配速 度 。
K MP 算 法 是 由B F 改进 后不 产 生 回溯 的一 种 算 法 ,每 当 匹配 过 程 中 出现 字 符 串 比较 不 等 时 ,不
术 。 目前 ,国 内 外对 于模 式 匹 配 算 法 已 有不 少 的 研 究 成 果 ,比如 典 型 的单 模 式 算法 有 B r u t e F o r c e 算 法 、Kn u t h — Mo r r i s — P r a t t ( K MP ) 算 法 、B y o e r — Mo o r e ( B M) 算法 、S u n d a y 算法 ,多模式 算法主 要 有Ah o _ C o r a s i c k ( A C ) 算法 、Wu _ Ma n d e r 算法 。这 些 算 法 在 实 际 应 用 中 忽 略 了字 符 串的 特 征 ,没 有 实 际考 虑 到 字 符 的 频 率 情 况 ,为 此 ,本 文 提 出 了
因此 ,模式 匹配 性 能 的提 高成 为解 决I DS 的关 键技
1 几种经 典的模式 匹配算法
设 文 本 串 T= T。 ……T , n为 文 本 串 的 长 度 ;模 式 串P = P 。 … …P . . ,m为 模 式 串 的 长 度 , ( n > > m) ;T和 P 都 建 立 在 有 限 字 符 集 上 , 大 小 为
关键词 :字符频率 ;模式匹配 ;I B M 算法 ;S u n d a y 算法 中图分类号 :T P 3 9 3 文献标识码 :A 文章编号 :1 0 0 9 — 0 1 3 4 ( 2 o l 3 ) 0 9 ( 上) 一 0 0 1 0 -0 5
D o i :1 0 . 3 9 6 9 / J . i s s n . 1 0 0 9 - 0 1 3 4 . 2 0 1 3 . 0 9 (I - ) . 0 3
O 。
对 于 文本 串T和模 式 串P ,在T中寻 找 等于 P 的
子 串 ,如 果在T中存 在 等于P 的 子 串 ,则 称 匹配 成
功 ,函数 值返 回为P 中第一 个 字符 相 等的 字符 在主
串T中 的 序 号 ,否 则 称 为 匹配 失 败 ,这 个 搜 索 过
程 就 是 模 式 匹配 。至 于如 何 在T中寻 找 等 于P 的子

勺 化


巫 喜红 ,凌
WU Xi — h o n g。 .L I NG J i ewk.baidu.com
基于字符频率 的字符 串模式匹配算法 的研究
Res ear ch o f t he s t r i ng pat t er n m at chi ng al gor i t hm ba sed on char act er s f r equ ency
相关文档
最新文档