统计与词典相结合的领域自适应中文分词_张梅山
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
?! 引 言
中文分词是中文自然语言处理中最基本的一个 步 骤 !非 常 多 的 研 究 者 对 它 做 了 很 深 入 的 研 究 !也 因 此产生了很多不同 的 分 词 方 法!这 些 方 法 大 体 上 可 以分为两 类"基 于 词 典 匹 配 的 方 法 和 基 于 统 计 的 方法%
基于词典的方法 利 ($>!) 用词典作为主要 的 资 源! 这类方法不需要考 虑 领 域 自 适 应 性 的 问 题!它 只 需 要有相关领域的高 质 量 词 典 即 可!但 是 这 类 方 法 不 能很好的解决中文分词所面临的歧义性问题以及未 登录词问题%
表示该字符能独立的构成一个词#
)8,$<%是目前主 流 的 序 列 标 注 算 法"它 在 序 列
标注问题 上 取 得 了 很 大 的 成 功# 对 于 给 定 的 句 子
UbT$’T5 及其某个 分 词 标 注 结 果 为 VbV$’V5"其
中T4 为输入字符"V4#(6"K"I"J)*$(4(5+"我 们
基于统计的方法 是 (%>") 近年来主流的分 词 方 法! 它采用已经切分好 的 分 词 语 料 作 为 主 要 的 资 源!最 终形成一个统计模型来进行分词解码%基于统计的
收 稿 日 期 "!#$$>#<>!$! 定 稿 日 期 "!#$$>$!>!$ 基金项目"国 家 自 然 科 学 基 金 重 点 项 目 #"$$%%#$!$&国 家 自 然 科 学 基 金 资 助 项 目 #"#&#%#<%$&国 家 &"% 重 大 项 目 #!#$$FF#$F!#=$&核高基重大专项#!#$$[W#$#+!>##$>##$$&哈尔 滨 工 业 大 学 科 研 创 新 基 金 #’HLB(J8H,B!##<#"<$&中 央 高 校 基 本 科 研 业 务 费 专 项 资 金 #’HLB‘GD,B!#$##"+$ 作者简介"张梅山#$<&%’$!男!博士研究生!主要研究方向为自然语言处理&邓知龙#$<&&’$!男!硕 士 研 究 生!主 要 研 究 方 向 为 自 然 语 言 处 理 &车 万 翔 #$<&#’ $!男 !讲 师 !主 要 研 究 方 向 为 自 然 语 言 处 理 %
第 !" 卷 ! 第 ! 期 !#$! 年 % 月
中文信息学报 CDE8(FG!D,!)’H(IJI!H(,D8KFLHD(!A8D)IJJH(M
文 章 编 号 "$##%>##==#!#$!$#!>###&>#*
N23B!"!(2B! K.-B!!#$!
统计与词典相结合的领域自适应中文分词
张梅山!邓知龙!车万翔!刘 挺
给定 一 个 中 文 字 符"首 先 判 断 它 是 否 属 于 标 点
符 号 *AZ5T+-数 字 *S4Q41+-中 文 数 字 *)@45090>S4Q41+ 或者字母*G0110-+&如 果 不 属 于 其 中 的 任 何 一 类"则 统计该字符在训练语料中出现的时候所处在的词的
位置"仍用 6-K-I-J表示"如果 6 位置出现的频次 超过总次 数 的 <*e"则 判 定 该 字 符 属 于 A-0P4U 类 别"如果 I 位置 出 现 的 频 次 超 过 总 次 数 的 <*e"则 为 JZPP4U类别"同 理 J 位 置 对 应 于 J45Q30类 别"K 位置对应于 G25Q 类 别&如 果 还 未 找 到 该 字 符 的 类 别"则标记为 D1@0-类别#
可以用如下的方法表示V的概率!
5
* ) + A"*;K:+b
?*$:+0UR
",
"b$
!*("6$"(4":+
*$+
!!其中 [*U+为 一 个 归 一 化 因 子"!*V4>$"V4"U+为
特 征 向 量 函 数 "$为 特 征 权 重 向 量 #
@A?! 统 计 模 型 所 使 用 的 基 本 特 征
$#
中文信息学报
!#$! 年
!! 最 后 这 里 列 举 一 下 在 本 文 中 )8, 中 文 分 词 模 型 所 使 用 的 基 本 特 征 !如 表 ! 所 示 "
表 @!!IJ 中 文 分 词 模 型 中 所 使 用 的 基 本 特 征
表 ?! 字 符 类 别 定 义 以 及 示 例
字符类别
属!!性
J45Q30 A-0P4U
通常单独是一个词 通常作为词语的开始
JZPP4U
通常作为词语结束
G25Q
通常构成长词
AZ5T
标点符号
S4Q41
数字
)@45090>S4Q41
汉数字
G0110-
字母
D1@0-
其他
示例 的 -呢 违 -惆 虑 -胞 蒂 -弗 "-# $-! 一 -二 F-; 行 -练
!期
张 梅 山 等 !统 计 与 词 典 相 结 合 的 领 域 自 适 应 中 文 分 词
<
方法在分词性能方 面 有 了 很 大 的 提 高"但 是 在 跨 领 域方面都存在着很 大 的 不 足"它 们 需 要 针 对 不 同 的 领域训练不同的统计分词模型#这样导致在领域变 换 后 "必 须 为 它 们 提 供 相 应 领 域 的 分 词 训 练 语 料 "但 是分词训练语料的 获 得 是 需 要 大 量 人 工 参 与 的"代 价昂贵#而基于词典的方法却在领域自适应方面存 在 着 一 定 优 势 "当 目 标 分 词 领 域 改 变 时 "只 需 要 利 用 相应领域的词典即可#领域词典的获取相比训练语 料而言要容易很多#如果把这两种方法结合起来" 使得统计的方法能 够 合 理 应 用 词 典"则 可 实 现 中 文 分词的领域自适应性#
最 后 本 文 利 用 JHM’F(!):J!6F‘ID,, !##*中提供的 A‘E!T2-R2-.进行训练"训练过程中 采用通 用 词 典"训 练 得 到 的 统 计 分 词 模 型 分 别 在 A‘E!1091!T2-RZ9和人 工 标 注 的 金 融 领 域 语 料 上 进 行了测试#测试时"A‘E 语料所用的词典保持与训 练语料所用的词典 一 致"而 金 融 领 域 所 用 的 词 典 则 额外再加入了部分金融领域的专业词汇#最后的结 果显示"A‘E 语料 上 取 得 了 !e 的 ,>/0.9Z-0值 提 升&金融领域上取 得了 "e 的 ,>/0.9Z-0值提 升"最 终 达 到 <%B+e #
!,G<12120!&*4*16*1847!(,-)7!42-!518*1,24/;!.,/!5,G412!’-43*1,2!,. !+12)6)!H,/-!&)0G)2*4*1,2
[’F(M!K049@.5!SI(M![@4325Q!)’I!:.5U4.5Q!GHE!L45Q #8090.-T@!)0510-!P2-!J2T4.3!)2/RZ145Q!.5O!H5P2-/.1425!801-40\.3!
’.-;45!H59141Z10!2P!L0T@5232QV!’.-;45!’04325Q^4.5Q!$*###$!)@45.$
’<6*/48*"M050-.33V!91.14914T.3!/01@2O9!P2-!)@45090!:2-O!J0Q/051.1425!O25X1!@.\0!Q22O!O2/.45!.O.R1.;4341V!2a45Q 12!1@0!9R0T4P4T!1-.4545Q!T2-RZ9BH5!R-.T14T0!O2/.45!O4T1425.-409!.-0!/2-0!0.943V!.T@40\0O!1@.5!@Z/.53V!.5521.10O 90Q/051.1425!T2-RZ9!.5O!41!T251.459!R3051V!2P!O2/.45!45P2-/.1425B :0!R-2R290!.5!.RR-2.T@!a@4T@!4510Q-.109 O4T1425.-V!45P2-/.1425!4512!91.14914T.3!/2O039#4B0B!)8,!/2O03!45!1@49!R.R0-$12!-0.34?0!O2/.45!.O.R1425!P2-!)@45090 :2-O!J0Q/051.1425BIUR0-4/051.3!-09Z319!9@2a!1@.1!2Z-!.RR-2.T@!@.\0!Q22O!O2/.45!.O.R1425B:@05!1@0!1091!T2-RZ9 49!4O0514T.3!12!1@0!O2/.45!2P!1-.4545Q!T2-RZ9!1@0!,>/0.9Z-0!\.3Z0!45T-0.909!!e &a@05!1091!T2-RZ9!49!45!.!O4PP0-051 O2/.45!2P!1@0!1-.4545Q!T2-RZ9!1@0!,>/0.9Z-0!\.3Z0!45T-0.909!"e B =);!>,/-6")@45090!a2-O!90Q/051.1425&)8,&O2/.45!.O.R1425
本文组织内 容 为!第 二 部 分 介 绍 )8, 中 文 分 词 &第 三 部 分 介 绍 领 域 自 适 应 性 的 实 现 &第 四 部 分 为 实 验 部 分 &第 五 部 分 为 结 论 及 进 一 步 工 作 #
@!!IJ 中 文 分 词
薛念文$%%等人 !##% 年 提 出 将 中 文 分 词 问 题 看 成序列标注问题#句子中每个字根据它在词中的位 置进行分类"共 分 为 6"K"I"J 四 类# 其 中 6 代 表 该字符是每个词的开始"K 表 示 该 字 符 在 某 个 词 的 中间位置"I 表 示 该 字 符 是 某 个 词 的 结 束 位 置 而 J
对于 )8, 模型"特征的选择尤为重要#本文首 先使用了三类基本特征!字符 5>Q-./ 特征"字符重 复信息特 征 和 字 符 类 别 特 征# 这 三 类 特 征 和 论 文 L905Q$+%中提到 的 特 征 类 似"这 里 对 字 形 态 特 征 做 了 一 定 的 扩 展"将 输 入 字 符 分 为 九 类!J45Q30" A-0P4U"JZPP4U"G25Q"AZ5T"S4Q41")@45090>S4Q41" G0110-以及 D1@0-#本文中 所 使 用 的 字 符 类 别 的 定 义以及相关例子如表$所示#
#哈尔滨工业大学 计算机学院 社会计算与信息检索研究中心!黑龙江 哈尔滨 $*###$$
摘 ! 要 "基 于 统 计 的 中 文 分 词 方 法 由 于 训 练 语 料 领 域 的 限 制 !导 致 其 领 域 自 适 应 性 能 力 较 差 % 相 比 分 词 训 练 语 料 ! 领域词典的获取要容易许多!而且能为分词提供丰富的领域信息%该文通过将词 典 信 息 以 特 征 的 方 式 融 入 到 统 计 分词模型#该文使用 )8, 统计模型$中来实现 领 域 自 适 应 性% 实 验 表 明!这 种 方 法 显 著 提 高 了 统 计 中 文 分 词 的 领 域自适应能力%当测试领域和训练领域相同时!分 词 的 ,>/0.9Z-0值 提 升 了 !e&当 测 试 领 域 和 训 练 领 域 不 同 时! 分词的 ,>/0.9Z-0值提升了"e% 关 键 词 "中 文 分 词 &)8,&领 域 自 适 应 中 图 分 类 号 "LA%<$! ! ! ! 文 献 标 识 码 "F
赵海等人 以 $=% 及张碧娟等人 都 $&% 曾提出 将 词 典 信息融入统计分词模型中大大改善了分词的性能# 但是他们实际上都始终把词典当作一种内部资源" 训练和解码都使用 同 样 的 词 典"并 没 有 应 用 到 解 决 中文 分 词 领 域 自 适 应 性 的 问 题 中#本 文 借 鉴 在 )8,$<%模型中融入词典特征信息的方法来解 决 中 文 分词的领域自 适 应 性 问 题# 在 训 练 )8, 分 词 模 型 时 "使 用 通 用 词 典 &而 分 词 阶 段 通 过 额 外 再 加 入 领 域 词典来实现领域 自 适 应 性# 当 分 词 领 域 改 变 时"只 需要在原有词典的基础上再添加相应领域的词典" 而且不需要改变原有已经训练得到的统计中文分词 模 型 "就 可 以 大 大 改 善 该 领 域 的 分 词 准 确 率 #