“现代汉语语义词典”的结构及应用精

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

“现代汉语语义词典”的结构及应用(精)

————————————————————————————————作者:————————————————————————————————日期:

[收稿日期]2003-10-20

[作者简介]王惠,新加坡国立大学助教,博士,主要研究汉语词汇学、语义学和计算语言学;詹卫东,北京

大学副教授,博士,主要研究汉语语法、语义和计算语言学;俞士汶,北京大学教授,主要研究计算语言学。

3本研究得到国家973重点基础研究项目(G 199803050724和(G 199803050721资助,研究还得到北京大学陆俭明教授的大力支持,在此一并致谢。

“现代汉语语义词典”的结构及应用

3

王惠1

詹卫东2

俞士汶

2

(1.新加坡国立大学中文系新加坡117570;2.北京大学北京100871

[摘要]“现代汉语语义词典(SK

CC ”是一个面向汉英机器翻译的大规模汉语语

义知识库,它以数据库文件形式收录616万余实词,不仅给出每个词语所属的词类、语义类,而且以义项为单位详细描述了它们的各种语义搭配限制。目的是为计算机语义自动分析、词义消歧等任务提供强有力的支持。本文介绍这部语义词典的结构、内容,并以实例说明这部词典可有效地解决翻译系统中的词汇歧义(WS D

问题。

[关键词]语义词典;词义消歧;词汇语义学;自然语言处理;中文

[中图分类号]H08[文献标识码]A[文章编号]100325397(20060120134208

Structure and Application of

The Semantic Knowledge 2base of Modern Chinese

Wang Hui ,Zhan Weidong ,Yu Shiwen

Abstract :The Semantic Knowledge 2base o f Modern Chinese (SK MC is a large scale bilingual semantic res ource.It provides a large am ount of semantic information such as semantic hierarchy and collocation features for 66539Chinese w ords and their English counterparts.Its POS and semantic classification represent the latest progress in Chinese language engineering.

The descriptions of semantic attributes are fairly thorough and

com prehensive.The main w ork in this paper is to introduce the outline of SK

MC ,and establish a multi 2level W ord Sense Disambiguation (WS D m odel based on it.The results indicate that the SK MC is effective for w ord sense disambiguation in Chinese and are likely to be im portant for general Chinese Natural Language Processing (N LP .

K ey w ords :Semantic K nowledge 2base ;WS D ;Lexical semantics ;N LP ;Chinese

2006年2月第1期语言文字应用Applied Linguistics Feb.,2006N o.1

一前言

在机器翻译系统及其他自然语言处理系统中,通常都有一部包括语义信息的电子词典。

为了给计算机自动分析提供更全面、深入的语义信息,我们应充分吸收现有的研究成果,在语法知识库的基础上构建语义知识库。不仅要进行系统的语义分类,而且要对词义组合信息加以全面描述,进一步加强动态的语义组合知识的研究和总结,建立一个与语言工程应用紧密配合的、合理的语义知识描述框架。

北京大学与中科院计算所自1994年联合开发“汉英机器翻译模型系统”开始,就着手研制为汉英机器翻译服务的“现代汉语语义词典”,目的是在语法分析的基础上,为计算机提供更深入的语义信息。1996年至1998年,双方共同承担了国家863高科技项目“通用机器翻译开发平台和汉英机器翻译系统”课题(项目编号:863230620320622。作为该课题的一个重要组成部分,“现代汉语语义词典”进入到大规模开发阶段,并取得了重要的阶段性成果,完成419万名词、动词、形容词的语义分类,并在配价理论的基础上,简要描述了其语义搭配限制(王惠等,1998。从2001年开始,“现代汉语语义词典”的再开发受到国家973重点基础研究发展规划项目的支持,对词语的语义分类以及配价属性描述重新进行填写或修订。

表1 语义词典规模

库名

词条

属性字段

名词3752215时间词56715处所词18515方位词20415代词23615动

词2114216形容词382715区别词75315状态词99715副词99711数词10911总库

66539

8

二内容概要

(一规模与结构

“现代汉语语义词典”收录了66539个通用领域内的实词,采用F oxpro

810实现,共有12个数据库,其中包含全部词语的总库1个,每类词语各建一库,计11个。每个库文件都详细刻画了词语及其语义属性的二维关系。总库中包括词语、拼音、同形、义项、语义类、词类、子类、兼类等8个字段。每类词的特有属性填在各类词库中,如名词库设15个属性字段,动词库设16个属性字段,如此等等。

表2 名词库部分属性字段

词语词类

同形义项语义类配价数

参照体对象W ORD EC AT 老虎n 动物0tiger

N 腿n 11生物构件1人Π动物leg N 腿n 22非生物构件

1用具leg N 意见n 11认知2人实体|抽象物view N 意见

n

2

2

认知

2

人|事件

objection

N

相关文档
最新文档