基于字符串近似匹配的模式生成算法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
的信 息 总 量 以爆 炸 式 的 速 度 增 长 .人 们 正 在 处 理 越 来 越 多 的 数 对 于 匹 配 的 地 方 , 留原 字 符 , 于 不 匹 配 的 地 方 , 保 对 根据 类 据 。在 这 些数 据 中 , 有些 是 结构 化或 者半 结构 化 的 文本 数据 . 型 . 用 如 下 规 则 泛 化 : 比 采 如X ML文 档 . T H ML网页 。 有一 些 是非 结 构 化 自由 文 本 . 还 比如 8(,)泛 化为 ( ? sa , a。 ) 各 种 各样 的 L g 据 这 些 数 据是 针 对 人 类 的 . 算 机 难 以理 解 o数 计 8(, ) 泛化 为 ( ? a s, a 。 )
.
当模 式 中 的 字 符 达 到 一 定 的 泛 化 条 件 . 则使 用 相 应 的 泛
用 正 规式 作 为 模 式 化规则泛化 . 比如 ( I C, 泛 化 为f ) a I )可 b \。 w 算 法 的 思 想来 源 于一 个 很 朴 素 而 又 新 颖 的 想 法 : 比较 两 个 22 相 关 研 究 .. 样 本 字符 串 . 出 这两 个 字 符 串 的所 有 不 同之 处 . 后 通 过 预 先 找 然 研 究 本 算 法 的 主要 动力 来 自于数 据 抽 取 技 术 .数据 抽 取 或 定 义 的规 则 . 这些 不 同之 处 一 个 一 个 泛 化 , 而 得 出模 式 。 很 信 息 抽取 技 术 中产 生 模 板 的 研 究 很 多 . 分 为人 工 干 预 的模 板 和 把 从 显 然 , 化 后 的 模式 能 同时 匹配 这 2个 样 本 字 符 串 . 而 产 生 出 全 自动 模 板 抽 取 , 献『1 信 息 抽 取 领 域 现 有 的几 个典 型系 统 泛 从 文 7对 了模 板 , 代 使 用本 算 法 , 到 模式 收 敛 。 个 简单 的例 子 如 图 迭 直 一
・
-
和 处理 人 们 希 望 从 这些 海 量 的数 据 中提 取 知 识 或从 中挖 掘 有 意 义 的信 息 . 凶此 数 据 抽 取 技 术 就 被 提 了 出来
8(, ) 化 为 ( I ) a b,泛 a 。 b 3 迭代 输 入 样 本 . 到 模式 收敛 1 直
・
数据 抽取 中一种重 要 的方法 就是 开发一 个封装 器f a。 WrD
.
很 好 的 泛 化能 力 . 过其 也 能很 方 便 抽 取 数 据 . 以大 部 分 现 有 作 , 化 为 ( 8 ; 当 前 执 行 替换 操 作 , 泛 化 为( I c; 通 所 泛 a bI )若 t 则 a I) b 的 系 统 中 . 使 用 正 规表 达 式 作 为其 模 式 的表 示 方 式 . 文 也 使 都 本
21 0 0年第 2期
福
建 电
脑
5 9
基 于字符 串近似 匹配 的模 式生成算 法
孙 进 .龚沛 曾
(同济 大 学 上 海 2 0 9 0 0 2)
【 要】 摘 :本文提 出一种 字符 串之 间的模 式产生算法。算法的思想来源 于一个新颖的 想法: 通过比较两个字符 串, 得到 两 个 字符 串的不 同之 处 , 采 用 一 套 事 先 定 义 的规 则 来 泛 化 这 些 不 同 之 处 , 而得 到 一 个 能 够 同时 匹 配 这 两个 字符 串的 模 并 从 式 , 们 使 用正 规 表 达 式 来 表 示 这 个模 式 。 为 了计 算 两 个 字 符 串的 不 同之 处 , 文 使 用 了字 符 串近 似 匹 配 的 方 法 , 我 本 并提 出 了 种基于动态规划的改进算法 , 降低 了 已有 算 法 的 时 空复 杂度 。 【 关键 词 】 模 式 生成 , 符 串近 似 匹配 , 据 抽 取 : 字 数
使 用 字 符 串 匹配 算 法 计 算 当前 模 式 和 输 入 样 本 的 异 同 . 由
pr 早 期 的 封 装 器 大 部 分 是 手 工 或 者 手 工 的 。 往 往 需 要 领 于 当前 的模 式 中不 仅 是 普 通 字 符 . 有 已经 泛 化 了 的 字符 . 当 e1 , 这 还 对 域 知识 . 常 费 时费 力 而 且 不 容 易 维 护 . 以我 们就 需 要 一 种 能 前模 式 的不 同 字 符 类 型 . 化 规 则 如 下 : 非 所 泛 够 自动推 导 出 封 装 器 的算 法
.
若 模 式 中 被 操 作 的 字 符 是 普 通 字 符 . 按 照 2的 方式 泛 则 1
本 文 提 出一 种 模 式 产 生 算 法 .在 不需 要 人 工干 预 的情 况 下 化 。 根据 样 本 的 本 身 的特 点 推 导 出模 式 .这 个 算 法 可 以 用 于 i 规 表 F 插 人 一 个 字 符 的 操 作 不 涉 及 现有 模 式 中 的 字 符 .所 以也 达式 的 自动 产 生 . 为 数 据 抽 取 中 的 封 装 器 算 法 . 后 续 的数 据 按 照 2 中规 则 泛 化 作 为 1
.
处 理 提 供 基 础 符 格 式 为 f 7 a .若 当执 行 删 除操 作 )
2 算 法概 述 . 时 , 做 动 作 ; 当 前执 行 替 换 操 作 , a ' )泛 化 为 ( 『 。 不 若 8(? b, ab ?) 本 文 的主 要 目的是 为 了产 生 出一 个 模 式 ,正 规 表 达 式 具 有 若 模 式 中 被 操作 的 字 符 格 式 为f I) 若 当 前 执 行 删 除 操 a 1 1.
一
1 问 题 的提 出 .
.
替 换一 个 符 号 :(, )把 样 本 中 符 号 a 换 成 符 号 b 8a b, 替 :
信 息 技 术 日新 月 异 。 算 机 处 理 的 速 度越 来越 快 . 联 网 中 计 互
2 J 预 定 义 的 规 则泛 化不 匹配 之 处 1} } 4