有限状态机在中文文本分词中的应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

0 引

成有 限状 态机的第 一个状态结点 .再将 第一个 状态结
点 中 的字 符 串 数组 按 每个 词 首 字 的 不 同 再 次 划 分 成 若
中文分词是 中文 信息处 理的基 础 .例如机器 翻译 ( )语 音合成 、 MT 、 自动分类 、 自动摘要 、 自动校对 等 , 以
复 . 而 形 成 一 个 具 有 有 限个 状 态结 点 的状 态 图 . 文 从 本 称 之 为 有 限 状 态 机 。有 限状 态 机 创建 完成 之后 . 整个词 典 中每 个 不 同 的汉 字 便 以弧 权 值 的形 式 存 在 于 整个 有 限 状态 机 中 . 判 断某 个 汉字 串是否 是 “ ” , 当要 词 时 只要从 有 限状 态 机 的首 状态 结 点 依 次 进行 查 找 即可 ( 体算 法 具
干个不 同的子串以准备形成新的状态结点 .然后依次
将 准 备 形 成 新 结 点 的 状 态 标 识 集 ( 形 成 的 子 串 ) 过 新 通 构 造 成 的一 个 二分 查 找树 在 已 经 形 成 的 状 态 图 中进 行
查找 . 若该 状态结 点已经存 在 . 以这个子串集 原先的 则
实现 。 都需要综合不同的算 法。由于基于字符 串匹配 的
分 词 方 法 具 有 算 法 简 单 、 词效 率 高 的 特 点 。 此 常 常 分 因 综 合 运 用 于其 他 分 词 算 法 中 .这 类 算 法 是 按 照 一 定 的
弧 的权值创建一条 弧指 向新创建 的状态结点 如此反
2 算 法 的 具体 描 述
有 限状 态 机 的基 本 结 构 示 意 图 ( 图 1。 如 )
1 算 法 基本 思想
首先 将词典 中的每个词按 相应 的内码进行 排 序 .
然后将排好序 的词典构造成一个字符 串数组 .从 而形
收 稿 日期 :0 0 5 4 2 1 —0 —0 修 稿 日期 :0 0 6 4 2 1 —0 —0
基 于这 种 原 因 .本 文 提 出并 实 现 了一 种 快 速 查 询 词 典
和示例见下文 )若这个汉字串在有 限状态机中存在 . , 则
判定为词 , 否则不能为一个词。实践证 明, 该算法具有查
询 速度 快 的优 点
的算法——有 限状态机算法 .通过该算法可 以快 速地 对查询子 串进行“ ” 断 词 判
。 现 计 机 2106 代 算 0 o

图 1 有 限 状 态 数 据 结 构 示 意 图 f t iSr (od) r s otw rs SLt ; 序 ,
m a h n 一>sae c ie tt

, 对词典 的各个词条 按内码进 行排 木
tr 值 / ue的 w i (sig agts n tr+ n + ; hl *tn) re i a e = s g + e r t _g u
( ) 限状态机 的构建算法用类 C语言描述如下 : 1有
B i D A ca[w rs ul F ( hr od) , w rs为 由词 典 构 成 的 字 符 串 d ] 士 od
数 组 十 /
作 者 简介 : 火善 栋 (9 4 ) 男 , 士 , 师 , 究 方 向 为智 能 信 息 系统 17 - , 硕 讲 研
首 字 为弧 的权 值 创 建一 条 弧 并 指 向该 状 态 结 点 :若该
论 。总之 。 要达 到一个 较好 的分词效 果 , 对于任何一个
成 熟 的 分词 系 统 而 言 .不 可 能 单独 依靠 某 一 种 算 法 来
结点不存在 .则 以这个新形成 的子串为状 态标 识集创
建 一 个 新 的状 态 结 点 .并 以这 个 子 串集 原 先 的 首 字 为
有 限状态 机 在 中文 文本 分 词 中的应 用
火善栋
( 庆三峡学院 , 州 440 ) 重 万 00 0 摘 要 : 出并 实现 一 种 有 限 状 态机 算 法 . 方 法 结合 二 分 查 找 树 算 法 将 整 个 词 典 构 造 成 一 个 有 限 提 该
状 态机 。 而使 词 典 中 的每 个 不 同 的 汉 字 以 不 同 弧 权值 的 形 式 存 在 于有 限状 态机 中 。 3要 从 - "
t l[]a e w rs/ a e 也 为 s t t l a e .b l od; l l b 01 = b te a态 机 形 成 之 后 , 分 量 的 空 间 被 释 放 , 由 该
所 以 图 1 有 加 以表 示 / 没
ma h n 一> u sae =l c i e n m t ts ;
判 断 某 个 字符 串是 不 是 词 时 . 只 要 从 这 个有 限状 态机 的 第 一 个 状 态 结 点 依 次进 行 查 找 即 可。 实验 显 示 , 过 这 个 有 限 状 态机 词 典 可 以 实现 对 字符 串的 快 速 查 找 。 通 关 键 词 :中文信 息 处理 ;有 限 状 态机 ;汉语 分 词
策 略将待分析 的汉字 串与一 个“ 充分大的” 机器词典 中 的词条进行 匹配 。 在词典 中找到这个字符串 。 若 则匹配
成 功 ( 别 出一 个 词 ) 由于 这 类 算 法 中都 要 用 到 一 个 识 。 词典 . 因此 查 询 效 率 是 影 响这 类 算 法 的 一 个 关键 因 素
及 现 在 非 常 热 门 的搜 索 引 擎 都 需 要 用 到 分 词 现 有 的 分 词算 法 大致 可 分 为 三 大类 :基 于 字 符 串 匹 配 的 分 词 方法 、 于理 解 的 分 词 方 法 和基 于 统计 的分 词 方 法 。 基 到 底 哪种 分词 算 法 的 准 确度 更 高 、速 度 更 快 目前 并 无 定
_
i0 SriSz( gtlb1 f < t s i t e ae) ( L t ea _ r )
相关文档
最新文档