分词规范亟需补充的三方面内容
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分词规范亟需补充的三方面内容
李玉梅1 ,陈 晓1 ,姜自霞1 ,易江燕1 ,靳光瑾1 ,黄昌宁2
(1. 教育部语言文字应用研究所 ,北京 100010 ; 2. 微软亚洲研究院 ,北京 100080)
摘 要 : 本文认为 ,为提高语料库的分词标注质量应在分词规范中补充三个内容 : ①命名实体 (人名 、地名 、机构 名) 标注细则 ; ②表义字串 (日期 、时间 、百分数等) 标注细则 ; ③歧义字串的消解细则 。因为一方面命名实体和表义 字串已被不少分词语料库视为分词单位 ,另一方面在以往的分词规范中几乎从不谈及歧义消解问题 。其实人们对 歧义字串的语感往往是不同的 。因此有必要在规范中对典型的歧义字串予以说明 。实践表明 ,在规范中交待清楚 以上三方面内容 ,就可以在很大程度上避免标注的错误和不一致性 。 关键词 : 计算机应用 ;中文信息处理 ;语料库 ;分词规范 ;分词歧义消解 中图分类号 : TP391 文献标识码 : A
2. 2c. 我国/ n 的/ u 北京/ ns 图书馆/ n 、/ w 北京大学/ ni 图书馆/ n % %我国/ n 的/ u 北京图书馆/ ns 、/ w 北京大学图书馆/ ns
2. 2d. 巴黎/ ns 艾菲尔铁塔/ n 破例/ v 熄灯/ v 一会儿/ nt 又/ d 重放/ v 光明/ n % %巴 黎/ ns 艾 菲 尔 铁 塔/ ns 破 例/ v 熄灯/ v 一 会 儿/ nt 又/ d 重 放/ v 光 明/ n
4
中文信息学报
2007 年
பைடு நூலகம்
1 引言
近年来中文分词技术有了可喜的进步 ,原因之 一是中文词语在真实文本中有了越来越严格的定 义 。我们欣慰地看到 ,多年来国内外同行在编制分 词规范[1~3] 上所倾注的心血终于结出了丰硕的果 实 。本文认为 ,要构建高质量的分词语料库当前亟 需在以往的分词规范中补充以下三方面的内容 : ①命名实体 (人名 、地名 、机构名) 标注细则 ; ②表义 字串 (数字 、时间 、日期 、电子邮箱等) 标注细则 ; ③歧 义字串消解细则 。这是因为命名实体和表义字串已 被不少分词规范和历届 Bakeoff (国际中文分词评 测) 提供的大多数分词语料库视为一个分词单位 。 据 Ho ngqiao Li[4] 对 Bakeoff2003 北京大学语料库 ( P KU) 的统计 ,它们占到测试文本中未登录词总词 次数的三分之二左右 。因此 ,如果能在分词规范中 把命名实体和表义字串的标注细则进一步描述清 楚 ,就可以在很大程度上避免分词标注的错误和不 一致性 。此外 ,在以往的分词规范中歧义字串的消 歧问题很少得到说明 ,以为这是不言自明的 。其实 不然 ,人们对歧义字串的语感往往是不同的 ,尤其是 组合歧义 。因此 ,在规范中对典型的歧义字串予以 说明实属必要 。而且由于歧义现象是词语在使用过 程中动态产生的 ,数量极大 。Mu Li[5] 曾使用正 、反 向最大匹配 (MM) 算法在 6. 5 亿字《人民日报》语料 上抽取到 73 万种交集型歧义字串 ( OA S) 。它们既 不能在词表中一一说明 ,又极难归纳出一般化的消 歧规则 。我们的经验是 ,如果能在分词规范中根据 上下文对高频的典型歧义字串给出正确切分的示 例 ,就会帮助审校人员提高对歧义字串的鉴别能力 , 进一步改善分词语料库的标注质量 。
2. 1 地名一律从短不长分别标注
对于连续的具有上下位关系的地名一律从短不 长分别标注 。即地理 (行政) 单位范畴 : 省 、市 、区 、 县 、乡 、镇 、街 、路 、街道 、社区 、小区 、边区 、公寓 、店 、 庙 、沟 、屯 、坟 、崖 、海洋 、河 、川 、江 、峡谷 、海湾 、丘陵 、 湖 、半岛 、三角洲 、山脉 、盆地 、平原等地理名称一律 视为一个独立的地名标注 ,如楼号 、门牌号用“ # ”代 替的与数字整体标注 。如 :
从 2006 年 10 月起国家语料库启动了新一轮的 分词和词性标注的人工审定工作 。本文以这项任务 的实践为基础 ,在命名实体 、表义字串和分词歧义字 串等三方面对原有分词规范进行补充 ,以期切实提 高分词语料库的标注质量 。本文并不涉及词性标注 问题 ,只是由于文中引用的实例主要来自国家语料 库[6] ,所以例子中的每个词语都伴有词性 (有关词类 标记的符号说明请参阅文献[ 7 ]) 。
2. 1a. 在/ p 中国河南省郑州市中原路 93 号/ ns 举行/ v % %在/ p 中国/ ns 河南省/ ns 郑州市/ ns 中原路/ ns 93/ m 号/ q 举行/ v
2. 1b. 北京市海淀区东北旺夏霖园小区 8 # 楼 1 # 601 # / ns % % 北京市/ ns 海淀区/ ns 东北旺/ ns 夏霖园小区/ ns 8 # / m 楼/ n 1 # / m 601 #/ m
这些论文从若干侧面及时反映了我国以中文为核心的内容计算研究与应用的最新前沿进展分词规范亟需补充的三方面内容李玉梅教育部语言文字应用研究所北京100010微软亚洲研究院北京100080本文认为为提高语料库的分词标注质量应在分词规范中补充三个内容命名实体人名地名机构表义字串日期时间百分数等标注细则歧义字串的消解细则
第 21 卷 第 5 期 2007 年 9 月
中文信息学报 J OU RNAL O F C H IN ESE IN FO RMA TION PROCESSIN G
Vol. 21 , No . 5 Sep . , 2007
文章编号 : 100320077 (2007) 0520003205
编者按 : 由中国中文信息学会主办的“第九届全国计算语言学学术会议”(9t h Chinese Natio nal Co nference o n Co mp utatio nal Linguistics , CNCCL22007) 于 2007 年 8 月 6 日~8 月 8 日在大连理 工大学 举 行 ( 注 : 该 系 列 会 议 原 名“全 国 计 算 语 言 学 联 合 学 术 会 议 ”, Joint Sympo sium o n Co mp utatio nal Linguistics , 英文缩写为 J SCL , 从今年起名称调整为 CNCCL ) 。本届会议共征集 到论文 178 篇 ,经大会程序委员会认真评审 ,录用 104 篇 。程序委员会进一步从录用的论文中 ,精 选出评审得分排在最前面的 24 篇论文 ,推荐到《中文信息学报》,经作者修改后 , 以最快的速度发 表 ,形成了本期专辑 。这些论文从若干侧面及时反映了我国以中文为核心的内容计算研究与应用 的最新前沿进展 , 希望能对广大读者有所裨益 。
Abstract : Three complement s are p ropo sed in t his paper to make better guideline of Chinese word segmentatio n , which are essential fo r building high quality Chinese segmented co rpo ra. They are named entity (perso n name , locatio n name and organization name) tagging rules , factoid ( date , time , percentage , etc. ) tagging rules and disambiguatio n rules. Because named entities and factoids are considered as segmentation unit s in many corpora , and t he disambiguatio n p roblem is seldom defined in former segmentation guidelines. Act ually , people always have different int uitions of ambiguity st rings , so it is necessary to explain t hem in segmentation guidelines. Our p ractices have shown t hat specif ying particular segmentatio n rules can help to decrease erro rs and inconsistencies in annotated co rp us. Key words : comp uter application ; Chinese information p rocessing ; corp us ; guideline of Chinese wo rd segmentatio n ; word segmentation disambiguatio n
5
厅 (堂) 、大会堂 、教堂 、寺庙 、展览馆 、图书馆 、大厦 (楼) 等 。如 :
2. 2a. 坐落/ v 于/ p 哈尔滨/ ns 火车站/ n 站前/ nl 广场/ n 西北部/ n % %坐 落/ v 于/ p 哈尔滨火车站/ ns 站前/ nl 广场/ n 西北部/ nl
2. 2b. 12/ m 日/ nt 在/ p 龙潭湖/ ns 公园/ n 隆重/ a 推出/ v 。 % %12/ m 日/ nt 在/ p 龙潭湖公园/ ns 隆重/ a 推出/ v 。
2. 2 城市公共设施及地标性建筑物的标注
城市公共设施及地标性建筑物的标注也标注为 地名 ,如广场 、公园 、动 (植) 物园 、火车站 、机场 、体育 场 (馆) 、游泳馆 (池) 、赛车场 、天文馆 、观测站 、气象 台 、天文台 、商店 、超市 、商场 (厦) 、书店 、剧院 、音乐
5期
李玉梅等 : 分词规范亟需补充的三方面内容
因命名实体涉及的问题类型很多 ,在此不能逐 个细说 ,下面以地名为例稍加说明 。例句前面注有 双百分号 ( % %) 表示更正后的正确标注 。
地名作为一种专有名词似乎不言自明 ,但在真 实语料的标注中问题不少 。例如“喜马拉雅山”是一 个无可争辩的地名 ,但“喜马拉雅山脉”、“喜马拉雅 山北麓”算不算是地名 ?“北京市海淀区东北旺”是 一个地名 ,还是三个地名 ?“北京西站”、“香港亚洲 大酒店”算不算地名 ? 凡此种种都需要在规范中有 一个清晰的界定 。下面是几条地名标注细则的样 例。
Three Complements to Make Better Guideline of Chinese Word Segmentation
L I Yu2mei1 , C H EN Xiao1 , J IAN G Zi2xia1 , YI Jiang2yan1 , J IN Guang2jin1 , HUAN G Chang2ning2
(1. Instit ute of Applied Linguisitics , Minist ry of Educatio n , P. R. C , Beijing 100010 , China ; 2. Micro soft Research Asia , Beijing 100080 , China)
收稿日期 : 2007204210 定稿日期 : 2007206229 基金项目 : 国家重点基础研究发展规划 (973 计划) 项目资助 ;国家语委“十五”科研重大项目资助 ( ZDA10544) 作者简介 : 李玉梅 (1967 —) ,女 ,语料库校审员 ,主要研究方向为语料库语言学 ;陈晓 (1981 —) ,男 ,硕士生 ,主要研究方向 是计算语言学 ;姜自霞 (1980 —) ,女 ,硕士生 ,编辑 ,主要研究方向是词汇语义学 。
2 命名实体的标注
命名实体指文本中的人名 、地名和机构名 ,它们
被视为一个分词单位 。在现有分词规范中人名 、地 名 、机构名的标注虽已得到说明 ,但还不够详细 。如 虚构的人物名称要不要标注为人名 ? 人的尊称 、职 位是不是人名的一部分 ?“国家教育部”、“清华大 学”是一个确指的机构名 ,但“国家教育部语言文字 研究所”“、清华大学计算机系智能技术与系统国家 重点实验室”是一个机构名还是两个或三个机构名 ? 这类问题都必须在标注规则中加以详述 ,否则就会 出现语料标注的不一致 。