“现代汉语语义词典”的结构及应用精
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
“现代汉语语义词典”的结构及应用(精)
————————————————————————————————作者:————————————————————————————————日期:
[收稿日期]2003-10-20
[作者简介]王惠,新加坡国立大学助教,博士,主要研究汉语词汇学、语义学和计算语言学;詹卫东,北京
大学副教授,博士,主要研究汉语语法、语义和计算语言学;俞士汶,北京大学教授,主要研究计算语言学。
3本研究得到国家973重点基础研究项目(G 199803050724和(G 199803050721资助,研究还得到北京大学陆俭明教授的大力支持,在此一并致谢。
“现代汉语语义词典”的结构及应用
3
王惠1
詹卫东2
俞士汶
2
(1.新加坡国立大学中文系新加坡117570;2.北京大学北京100871
[摘要]“现代汉语语义词典(SK
CC ”是一个面向汉英机器翻译的大规模汉语语
义知识库,它以数据库文件形式收录616万余实词,不仅给出每个词语所属的词类、语义类,而且以义项为单位详细描述了它们的各种语义搭配限制。目的是为计算机语义自动分析、词义消歧等任务提供强有力的支持。本文介绍这部语义词典的结构、内容,并以实例说明这部词典可有效地解决翻译系统中的词汇歧义(WS D
问题。
[关键词]语义词典;词义消歧;词汇语义学;自然语言处理;中文
[中图分类号]H08[文献标识码]A[文章编号]100325397(20060120134208
Structure and Application of
The Semantic Knowledge 2base of Modern Chinese
Wang Hui ,Zhan Weidong ,Yu Shiwen
Abstract :The Semantic Knowledge 2base o f Modern Chinese (SK MC is a large scale bilingual semantic res ource.It provides a large am ount of semantic information such as semantic hierarchy and collocation features for 66539Chinese w ords and their English counterparts.Its POS and semantic classification represent the latest progress in Chinese language engineering.
The descriptions of semantic attributes are fairly thorough and
com prehensive.The main w ork in this paper is to introduce the outline of SK
MC ,and establish a multi 2level W ord Sense Disambiguation (WS D m odel based on it.The results indicate that the SK MC is effective for w ord sense disambiguation in Chinese and are likely to be im portant for general Chinese Natural Language Processing (N LP .
K ey w ords :Semantic K nowledge 2base ;WS D ;Lexical semantics ;N LP ;Chinese
2006年2月第1期语言文字应用Applied Linguistics Feb.,2006N o.1
一前言
在机器翻译系统及其他自然语言处理系统中,通常都有一部包括语义信息的电子词典。
为了给计算机自动分析提供更全面、深入的语义信息,我们应充分吸收现有的研究成果,在语法知识库的基础上构建语义知识库。不仅要进行系统的语义分类,而且要对词义组合信息加以全面描述,进一步加强动态的语义组合知识的研究和总结,建立一个与语言工程应用紧密配合的、合理的语义知识描述框架。
北京大学与中科院计算所自1994年联合开发“汉英机器翻译模型系统”开始,就着手研制为汉英机器翻译服务的“现代汉语语义词典”,目的是在语法分析的基础上,为计算机提供更深入的语义信息。1996年至1998年,双方共同承担了国家863高科技项目“通用机器翻译开发平台和汉英机器翻译系统”课题(项目编号:863230620320622。作为该课题的一个重要组成部分,“现代汉语语义词典”进入到大规模开发阶段,并取得了重要的阶段性成果,完成419万名词、动词、形容词的语义分类,并在配价理论的基础上,简要描述了其语义搭配限制(王惠等,1998。从2001年开始,“现代汉语语义词典”的再开发受到国家973重点基础研究发展规划项目的支持,对词语的语义分类以及配价属性描述重新进行填写或修订。
表1 语义词典规模
库名
词条
属性字段
名词3752215时间词56715处所词18515方位词20415代词23615动
词2114216形容词382715区别词75315状态词99715副词99711数词10911总库
66539
8
二内容概要
(一规模与结构
“现代汉语语义词典”收录了66539个通用领域内的实词,采用F oxpro
810实现,共有12个数据库,其中包含全部词语的总库1个,每类词语各建一库,计11个。每个库文件都详细刻画了词语及其语义属性的二维关系。总库中包括词语、拼音、同形、义项、语义类、词类、子类、兼类等8个字段。每类词的特有属性填在各类词库中,如名词库设15个属性字段,动词库设16个属性字段,如此等等。
表2 名词库部分属性字段
词语词类
同形义项语义类配价数
参照体对象W ORD EC AT 老虎n 动物0tiger
N 腿n 11生物构件1人Π动物leg N 腿n 22非生物构件
1用具leg N 意见n 11认知2人实体|抽象物view N 意见
n
2
2
认知
2
人
人|事件
objection
N