汉语语料库词性标注自动校对方法研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4,2 4 4 4
语料中的多标记词性: !、 "#、 "、 $ 错例: 比 % & 以往 % ’ 高 % " 出 % ! 许多 % ( 。 % )& 校正词性: !
计算机应用
词性标记序列是: (" $ 0 " $ ; ! )
*++7 年
设: 词性标记集为: {$ ! " ; 0 & 3 ( # < ) = > 1 ’ ? @ A B C D E F G H} “ 高” 的词性属性矩阵:
! ! 收稿日期: "##$ % #& % ’( ; 修订日期: "##$ % ’’ % ")! ! 基金项目: 国家 *&+ 计划资助项目 ( "##’,,$#+’ ) ! ! 作者简介: 张虎 ( ’-)- % ) , 男, 山西大同人, 硕士研究生, 主要研究方向: 中文信息处理; ! 郑家恒 ( ’-$* % ) , 女, 山西太原人, 教授, 主要研究 万方数据 ! 刘江 ( ’-*# % ) , 男, 山西太原人, 硕士研究生, 主要研究方向: 中文信息处理. 方向: 中文信息处理;
[&]
确性检查的有效性约为 )&] , 准确率约为 *+] , 自动校对的 准确率约为 )#] , 对词性标注的准确率可以提高 " ^ + 个百 分点。
’! 词性错标现象分析
语料库中已标注词性的词语有两种标注结果: 单标记词 语和多标记词语。所谓单标记词语, 即在语料库中只有一种 词性标记的词语; 多标记词语则为在语料库中标有两种或两 种以上词性的词语。我们所做的正确性检查是针对多标记词 语而言的。经分析, 这些多标记词语包括两种情况: ’ )词表中是单标记词语, 但在语料中标了不同的词性, 出现了词性标注的不正确。 词条: 量化 语料中的多标记词性: _、 Y 错例: 所 ‘ 2 获得 ‘ Y 的 ‘ 2 部分 ‘ ; 集体 ‘ ; 量化 ‘ _ 资产 ‘ ; 不 ‘ O 允许 ‘ Y2 转让 ‘ Y 校正词性: Y 分析: “ 量化” 这一词是非兼类词, 在词表中只有 Y 这一 唯一词性, 没有标注 _ 的词性。 " )词表中是兼类词, 即有不同标记的词语, 这部分词语 可能存在词性标注错误, 即: 在相同的语境中出现了不同的词 性。 词条: 高
表 ,4 词性标记序列表 词 前三词 前两词 前一词 兼类词 后一词 后两词 后三词
向量模型的算法既考虑词性标记序列的位置属性, 也考 虑词性属性。对每个含兼类词的词性标记序列进行向量化表 示, 然后求出任何两个向量之间的相似度。 采用马氏距离计算方法定义向量模型词性标记序列的相 似度公式:
, ! ",# $ ( % " ,& " ) ’( )( % " ,& " )
JA< : L , % **M , % ,,M * % ,,M . % ,,M * % ,,M , % ,,M , % **N K I : L 6 % ,,M , % **M O % **M , % ,,M * % ,,M +M + PN
*4 词性标注正确性检查
兼类词词性标注是否正确, 是按照其语境来判断的, 所以 我们以每个兼类词及其上下文语境所形成词性标记序列作为 研究对象。首先对范例进行聚类并求出阈值, 然后根据聚类 结果对标注语料进行词性标注的正确性检查。 *5 ,4 向量模型 为了描述兼类词的语境, 我们建立含有兼类词的词性标 记序列表:
第 "( 卷第 ’ 期 ! "##( 年 ’ 月
文章编号: ’##’ % -#*’ ( "##( ) #’ % ##’) % #+
计算机应用 a1>N2583 ,NNQ6=<561;:
!源自文库
b1Q. "( D1. ’ H<;. "##(
汉语语料库词性标注自动校对方法研究
张! 虎, 郑家恒, 刘! 江 ( 山西大学 计算机与信息技术学院, 山西 太原 #+###& ) / 01234567839 :6;<. =1>. =;? 摘! 要: 从聚类和分类的角度入手, 对大规模语料库中的词性标注的自动校对问题作了分析, 提 出了语料库词性标注正确性检查和自动校对的新方法。该方法利用聚类和分类的思想, 对范例进行 聚类并求出阈值, 根据阈值, 判定词性标注的正误; 对标注错误的词性, 按靠近各词性类别重心的原则 归类, 给出一个校对词性, 进而提高汉语语料库词性标注的准确率。 关键词: 聚类; 词性标注; 自动校对 中图分类号:@A+-’! ! 文献标识码: ,
#! 引言
随着语料库语言学研究的兴起, 建设高质量的大规模语 料库已成为首要任务。语料库作为研究资源其价值是通过对 语料的标注来体现的, 对语料库标注得越准确, 语料库的价值 就越高。 近年来国内外对词性标注的研究有很多, 大多是采用基 于规 则 和 基 于 统 计 的 方 法, 标 注 正 确 率 分 别 达 到 *-] 和 -&][(]。对错误标注结果进行分析, 可以看出, 无论哪种标注 算法都有其固有缺陷: 概率标注方法总会抑制小概率事件的 发生, 而规则方法本质上说是一种确定性的演绎推理方法, 因 此它们很难对词性标注的准确率进行进一步的提高。显然, 这样的准确率仍然严重影响语料库的加工质量。 要对标注错误的词性进行自动校对, 一个首要问题是词 性标注的正确性检查。受一些文献的启发
词性标注 词性 , 词性 * 词性 6 词性 . 词性 7 词性 8 词性 / 4 4 注: 其中 “前 ( 后) 几词” 指从所要考查的兼类词数起前 ( 后) 边的第几个词。
4 4 定义 , : 位置属性 兼类词词性标记序列的前、 后词的词性由于离兼类词的 距离不同, 对兼类词的词性影响程度也不同, 称之为位置属 性。用向量 9 : { ( , % ** ) , ( , % ,, ) , ( * % ,, ) , ( . % ,, ) , (* % ,, ) , ( , % ,, ) , ( , % ** ) } 表示。 , % ** : 前 ( 后) 第三个词的位置属性值。 , % ,, : 前 ( 后) 第二个词的位置属性值。 * % ,, : 前 ( 后) 第一个词的位置属性值。 . % ,, : 兼类词的位置属性值。 定义 * : 词性属性 兼类词词性标记序列前、 后词的词性和词性标记的位置, 对确定兼类词的词性影响程度不同, 称之为词性属性。用一 个 / 行 ( 列的二维矩阵来描述。其中: 行表示兼类词词性标 记序列前、 后三个词及兼类词本身; 列表示语料库所采用的词 性标记集的标记。 例如: “ 高”缀 % ! 满 % " 彩灯 % $ 的 % 0 高 % " 塔 % $ 直 % ; 插 % !
,本文提出了基
于聚类和分类的词性标注自动校对的方法。该方法首先随机 抽出一些含有兼类词的句子, 经人工校对后, 将含有相同兼类 词的词性序列进行聚类并求出阈值; 然后根据阈值对每个含 有兼类词的词性序列进行逐一分类; 通过计算相似度, 找出标 有该类的词性但相似度不在该类的阈值范围之内的序列, 这 些序列就被认为是词性标注不正确的; 对词性标注错误的词 性, 按靠近各词性类别重心的原则归类, 给出一个校对词性。 我们对网上下载的中文核心期刊中的 (# 万语料进行实验, 正
(,)
其中: % " 和 & " 是两个任意的词性标记序列向量 ( $ , ( %" ) % ) ( %" ) % ) ’ 5 5 * ) ,& " $,
*
例如: “ 高” " )缀 % ! 满 % " 彩灯 % $ 的 % 0 高 % " 塔 % $ 直 % ; 插 % ! 夜空 % $, % )& ?)这 % 3 是 % ! 一 % ( 项 % # 高 % " 科技 % $ 的 % 0 硬仗 % $, % )& 对例句可以生成下边特征向量: ") ( 6 % ,, , , % ** , O % ** , , % ,, , * % ,, , +, + …) ?) ( 7 % ** , , % ,, , . % ,, , +, , % ,, , +, +, , % ,, , * % ,, , + …) 按照公式 (,) 可以求出上边两个词性标记序列的相似度 约是 +5 *68 。 *5 *4 聚类和阈值计算 聚类是把某些对象按其相似性加以分组的一种数据划 分。它是通过较为少数的聚类簇去表现大量的数据, 每个聚 类簇都有自己的特征。本文采用的是基于重心的聚类方法。 词性标记序列向量集合中任一向量 % " 与重心向量 % # 间的 距离 + "# 满足: , + ), ) , & "# 称集合对于 - 组成一类。 其中: , 为集合中元素个数, - 为阈值。 - 值是通过训练范例求得的, 具体步骤如下: Q’A&, : 随机选取一些含有兼类词的句子, 进行人工校正, 分别计算含有同一兼类词且其词性相同的所有词性标记序列 的向量的平均值 ( . , 这个平均值就是该词的这个词性类的重 (*)
+ , + I : + , + +
+ + + + + + ,
, + + , + + +
+ + + + + , +
+ + , + + + +
… … … …
…
…
…
注: 当词性词性标记序列不完整时, 即某个位置没有词 性, 则该位置所对应的行都标为 + 。 定义 6 : 词性标记序列向量 位置属性向量与词性属性矩阵的乘积定义为词性标记序 列向量。即:JA< : 9 K I 例句 “ 缀 % ! 满 % " 彩灯 % $ 的 % 0 高 % " 塔 % $ 直 % ; 插 % ! 夜 空 % $, % )&” 的词性标记序列向量如下:
!"#$% &’ (#"&)*+&&,+-($.’/ 0-"1&$ ,&+ 23! "(//.’/ &, 41.’-5- 6&+*#5
BC,DE C2F BCGDE H6<IJ8;7F KLM H6<;7
! "#$$%&% #’ "#()*+%, - ./’#,(0+1#/ 2%34/#$#&56 740/81 9/1:%,;1+56 2015*0/ 740/81 #+###& 6 "41/0< 785"+(6"9 @J8 <251IN311038<O6;7 N31PQ8> 6; 5J8 Q<378I:=<Q8 =13N2: R<: <;<QST8OF <;O < ;8R >85J1O 6;:N8=56;7 5J8 =1338=5;8:: 10 AUV 5<776;7 <;O <; <251IN311038<O6;7 >85J1O P<:8O 1; =Q2:5836;7 <;O =Q<::60S6;7 R838 N25 013R<3O. M:6;7 =Q2:5836;7 <;O =Q<::60S6;7F 5J8 >85J1O 063:5QS =Q<::6068O 5J8 :8W28;=8: 10 N<35 10 :N88=J 10 5J8 8X<>NQ8 <;O 715 5J8 5J38:J1QO Y<Q28. @J8; <==13O6;7 51 5J8 5J38:J1QO Y<Q28F 65 =Q<::6068O 5J8 58:5 :8W28;=8: 51 Z2O78 65: =1338=5;8::F <;O 7<Y8 125 < N311038<O6;7 AUV 51 5J8 R31;7 AUV @<776;7. [235J83>138F 65 8;J<;=8O 5J8 =1338=5;8:: 3<561 10 5J8 N<35 10 :N88=J 5<776;7 1; Q<378I:=<Q8 =13N2:. :-% ;&+$59 =Q2:5836;7\ AUV @<776;7\ <251IN311038<O6;7
分析: “ 高” 有 四 种 词 性, 例句中的词性显然应为动词 ( !) 。 对于第一种情况的不正确, 如果词表中的词比较全的话, 这种不正确比较容易解决, 只要把标注错误的词条与词表比 较后, 改正即可。 我们对网上下载的中文核心期刊中的 *++ 万汉字语料进 行了统计, 在 *++ 万汉字的语料库中兼类词占到 ,,- , 但兼 类词的词次却占到了 ./- 。面对大规模语料库, 如何判断在 相同的语言环境下兼类词出现的错标现象就成为一个重要的 问题。如: “ 高” 句!: 比 % & 获 得 % ! 亚 军 % $ 的 % 0 德 国 % $1 选 手 % $ 高 % " 出 % ! ,2 % ( 分 % # 多 % ( 。 % )& 句": 比 % & 其他 % 3 农户 % $ 高 % ! 出 % ! , +++ % ( 多 % ( 元 % # 。 % )& 显然上边两句话 “ 高” 字的语言环境类似, 但句 ! 中它标 了 ", 句"中却标为 !。