统计与词典相结合的领域自适应中文分词_张梅山

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

?! 引言
中文分词是中文自然语言处理中最基本的一个步骤 !非常多的研究者对它做了很深入的研究 !也因此产生了很多不同的分词方法!这些方法大体上可以分为两类"基于词典匹配的方法和基于统计的方法%
基于词典的方法利 ($>!) 用词典作为主要的资源! 这类方法不需要考虑领域自适应性的问题!它只需要有相关领域的高质量词典即可!但是这类方法不能很好的解决中文分词所面临的歧义性问题以及未登录词问题%
表示该字符能独立的构成一个词#
)8,$<%是目前主流的序列标注算法"它在序列
标注问题上取得了很大的成功# 对于给定的句子
UbT$’T5 及其某个分词标注结果为 VbV$’V5"其
中T4 为输入字符"V4#(6"K"I"J)*$(4(5+"我们
基于统计的方法是 (%>") 近年来主流的分词方法! 它采用已经切分好的分词语料作为主要的资源!最终形成一个统计模型来进行分词解码%基于统计的
收稿日期 "!#$$>#<>!$! 定稿日期 "!#$$>$!>!$ 基金项目"国家自然科学基金重点项目 #"$$%%#$!$&国家自然科学基金资助项目 #"#&#%#<%$&国家 &"% 重大项目 #!#$$FF#$F!#=$&核高基重大专项#!#$$[W#$#+!>##$>##$$&哈尔滨工业大学科研创新基金 #’HLB(J8H,B!##<#"<$&中央高校基本科研业务费专项资金 #’HLB‘GD,B!#$##"+$ 作者简介"张梅山#$<&%’$!男!博士研究生!主要研究方向为自然语言处理&邓知龙#$<&&’$!男!硕士研究生!主要研究方向为自然语言处理 &车万翔 #$<&#’ $!男 !讲师 !主要研究方向为自然语言处理 %
第 !" 卷 ! 第 ! 期 !#$! 年 % 月
中文信息学报 CDE8(FG!D,!)’H(IJI!H(,D8KFLHD(!A8D)IJJH(M
文章编号 "$##%>##==#!#$!$#!>###&>#*
N23B!"!(2B! K.-B!!#$!
统计与词典相结合的领域自适应中文分词
张梅山!邓知龙!车万翔!刘挺
给定一个中文字符"首先判断它是否属于标点
符号 *AZ5T+-数字 *S4Q41+-中文数字 *)@45090>S4Q41+ 或者字母*G0110-+&如果不属于其中的任何一类"则统计该字符在训练语料中出现的时候所处在的词的
位置"仍用 6-K-I-J表示"如果 6 位置出现的频次超过总次数的 <*e"则判定该字符属于 A-0P4U 类别"如果 I 位置出现的频次超过总次数的 <*e"则为 JZPP4U类别"同理 J 位置对应于 J45Q30类别"K 位置对应于 G25Q 类别&如果还未找到该字符的类别"则标记为 D1@0-类别#
可以用如下的方法表示V的概率!
5
* ) + A"*;K:+b
?*$:+0UR
",
"b$
!*("6$"(4":+
*$+
!!其中 [*U+为一个归一化因子"!*V4>$"V4"U+为
特征向量函数 "$为特征权重向量 #
@A?! 统计模型所使用的基本特征
$#
中文信息学报
!#$! 年
!! 最后这里列举一下在本文中 )8, 中文分词模型所使用的基本特征 !如表 ! 所示 "
表 @!!IJ 中文分词模型中所使用的基本特征
表 ?! 字符类别定义以及示例
字符类别
属!!性
J45Q30 A-0P4U
通常单独是一个词通常作为词语的开始
JZPP4U
通常作为词语结束
G25Q
通常构成长词
AZ5T
标点符号
S4Q41
数字
)@45090>S4Q41
汉数字
G0110-
字母
D1@0-
其他
示例的 -呢违 -惆虑 -胞蒂 -弗 "-# $-! 一 -二 F-; 行 -练
!期
张梅山等 !统计与词典相结合的领域自适应中文分词
<
方法在分词性能方面有了很大的提高"但是在跨领域方面都存在着很大的不足"它们需要针对不同的领域训练不同的统计分词模型#这样导致在领域变换后 "必须为它们提供相应领域的分词训练语料 "但是分词训练语料的获得是需要大量人工参与的"代价昂贵#而基于词典的方法却在领域自适应方面存在着一定优势 "当目标分词领域改变时 "只需要利用相应领域的词典即可#领域词典的获取相比训练语料而言要容易很多#如果把这两种方法结合起来" 使得统计的方法能够合理应用词典"则可实现中文分词的领域自适应性#
最后本文利用 JHM’F(!):J!6F‘ID,, !##*中提供的 A‘E!T2-R2-.进行训练"训练过程中采用通用词典"训练得到的统计分词模型分别在 A‘E!1091!T2-RZ9和人工标注的金融领域语料上进行了测试#测试时"A‘E 语料所用的词典保持与训练语料所用的词典一致"而金融领域所用的词典则额外再加入了部分金融领域的专业词汇#最后的结果显示"A‘E 语料上取得了 !e 的 ,>/0.9Z-0值提升&金融领域上取得了 "e 的 ,>/0.9Z-0值提升"最终达到 <%B+e #
!,G<12120!&*4*16*1847!(,-)7!42-!518*1,24/;!.,/!5,G412!’-43*1,2!,. !+12)6)!H,/-!&)0G)2*4*1,2
[’F(M!K049@.5!SI(M![@4325Q!)’I!:.5U4.5Q!GHE!L45Q #8090.-T@!)0510-!P2-!J2T4.3!)2/RZ145Q!.5O!H5P2-/.1425!801-40\.3!
’.-;45!H59141Z10!2P!L0T@5232QV!’.-;45!’04325Q^4.5Q!$*###$!)@45.$
’<6*/48*"M050-.33V!91.14914T.3!/01@2O9!P2-!)@45090!:2-O!J0Q/051.1425!O25X1!@.\0!Q22O!O2/.45!.O.R1.;4341V!2a45Q 12!1@0!9R0T4P4T!1-.4545Q!T2-RZ9BH5!R-.T14T0!O2/.45!O4T1425.-409!.-0!/2-0!0.943V!.T@40\0O!1@.5!@Z/.53V!.5521.10O 90Q/051.1425!T2-RZ9!.5O!41!T251.459!R3051V!2P!O2/.45!45P2-/.1425B :0!R-2R290!.5!.RR-2.T@!a@4T@!4510Q-.109 O4T1425.-V!45P2-/.1425!4512!91.14914T.3!/2O039#4B0B!)8,!/2O03!45!1@49!R.R0-$12!-0.34?0!O2/.45!.O.R1425!P2-!)@45090 :2-O!J0Q/051.1425BIUR0-4/051.3!-09Z319!9@2a!1@.1!2Z-!.RR-2.T@!@.\0!Q22O!O2/.45!.O.R1425B:@05!1@0!1091!T2-RZ9 49!4O0514T.3!12!1@0!O2/.45!2P!1-.4545Q!T2-RZ9!1@0!,>/0.9Z-0!\.3Z0!45T-0.909!!e &a@05!1091!T2-RZ9!49!45!.!O4PP0-051 O2/.45!2P!1@0!1-.4545Q!T2-RZ9!1@0!,>/0.9Z-0!\.3Z0!45T-0.909!"e B =);!>,/-6")@45090!a2-O!90Q/051.1425&)8,&O2/.45!.O.R1425
本文组织内容为!第二部分介绍 )8, 中文分词 &第三部分介绍领域自适应性的实现 &第四部分为实验部分 &第五部分为结论及进一步工作 #
@!!IJ 中文分词
薛念文$%%等人 !##% 年提出将中文分词问题看成序列标注问题#句子中每个字根据它在词中的位置进行分类"共分为 6"K"I"J 四类# 其中 6 代表该字符是每个词的开始"K 表示该字符在某个词的中间位置"I 表示该字符是某个词的结束位置而 J
对于 )8, 模型"特征的选择尤为重要#本文首先使用了三类基本特征!字符 5>Q-./ 特征"字符重复信息特征和字符类别特征# 这三类特征和论文 L905Q$+%中提到的特征类似"这里对字形态特征做了一定的扩展"将输入字符分为九类!J45Q30" A-0P4U"JZPP4U"G25Q"AZ5T"S4Q41")@45090>S4Q41" G0110-以及 D1@0-#本文中所使用的字符类别的定义以及相关例子如表$所示#
#哈尔滨工业大学计算机学院社会计算与信息检索研究中心!黑龙江哈尔滨 $*###$$
摘 ! 要 "基于统计的中文分词方法由于训练语料领域的限制 !导致其领域自适应性能力较差 % 相比分词训练语料 ! 领域词典的获取要容易许多!而且能为分词提供丰富的领域信息%该文通过将词典信息以特征的方式融入到统计分词模型#该文使用 )8, 统计模型$中来实现领域自适应性% 实验表明!这种方法显著提高了统计中文分词的领域自适应能力%当测试领域和训练领域相同时!分词的 ,>/0.9Z-0值提升了 !e&当测试领域和训练领域不同时! 分词的 ,>/0.9Z-0值提升了"e% 关键词 "中文分词 &)8,&领域自适应中图分类号 "LA%<$! ! ! ! 文献标识码 "F
赵海等人以 $=% 及张碧娟等人都 $&% 曾提出将词典信息融入统计分词模型中大大改善了分词的性能# 但是他们实际上都始终把词典当作一种内部资源" 训练和解码都使用同样的词典"并没有应用到解决中文分词领域自适应性的问题中#本文借鉴在 )8,$<%模型中融入词典特征信息的方法来解决中文分词的领域自适应性问题# 在训练 )8, 分词模型时 "使用通用词典 &而分词阶段通过额外再加入领域词典来实现领域自适应性# 当分词领域改变时"只需要在原有词典的基础上再添加相应领域的词典" 而且不需要改变原有已经训练得到的统计中文分词模型 "就可以大大改善该领域的分词准确率 #