现代汉语语义词典规范

现代汉语语义词典规范
现代汉语语义词典规范

现代汉语语义词典规范1

王惠

Email: whui@https://www.360docs.net/doc/9a12683639.html,

摘要:“现代汉语语义词典”(SKCC)是一部面向自然语言信息处理的语义知识库,它以数据库文件形式收录了6.6万余条汉语实词,不仅给出了每个词语所属的词类、语义类,而且以义项为单位详细描述了它们的配价信息和多种语义组合限制,可以为包括机器翻译在内的多种中文信息处理系统中的语义自动分析提供强有力的支持,同时,对于汉语词汇语义学和计算词典学研究也具有重要的意义。本文概要介绍这部语义词典的结构、内容,以及语义属性项目的填写规范。

关键词:语义知识库语义类配价信息计算词典学中文信息处理

The Specification of

The Semantic Knowledge-base of Contemporary Chinese

Wang Hu i1, Yu Shiwen1, Zhan Weidong2

1(Institute of Computational Linguistics, Peking University, Beijing 100871, China)

2(Dept. of Chinese Language & Literature, Peking University, Beijing 100871, China)

whui@https://www.360docs.net/doc/9a12683639.html,; yusw@https://www.360docs.net/doc/9a12683639.html,; zwd@https://www.360docs.net/doc/9a12683639.html,

Abstract: The Semantic Knowledge-base of Contemporary Chinese(SKCC) is a large machine-readable dictionary developed by the Institute of Computational Linguistics and Chinese Department of Peking University. It can provide a large amount of semantic information such as semantic hierarchy and collocation features of 66,539 Chinese words. Its semantic classification system represents the latest progress in Chinese linguistics and language engineering. The descriptions of semantic attributes are fairly thorough, comprehensive and authoritative. The paper introduces the outline and specification of SKCC, and indicates that, as a large scale fundamental semantic resource of Chinese,SKCC will not only provide valuable semantic knowledge for Chinese language processing, but also play an important role in Chinese lexical semantics and computational lexicography research.

Key words:Semantic knowledge-base, lexical semantic, computational lexicography, semantic hierarchy, valence information, Chinese language processing

1本研究得到国家973重点基础研究项目“面向新闻领域的汉英机器翻译系统”(项目号:G1998030507-4)

与“面向中文信息处理的现代汉语动词论旨结构系统和汉语词语语义分类层级系统研究”(项目号:

G1998030507-1)的支持。

1 引言

在自然语言处理中,语义分析占有很重要的位置。北京大学计算语言学研究所与中科院计算所自1994年联合开发“汉英机器翻译模型系统”开始,就着手研制面向汉英机器翻译的“现代汉语语义词典”(SKCC),目的是在语法分析的基础上,为计算机自动分析汉语句子和生成英语句子提供更深入的语义信息。1996年至1998年,双方共同承担了国家863高科技项目“通用机器翻译开发平台和汉英机器翻译系统”课题(项目编号: 863-306-03-06-2)。作为该课题的一个重要组成部分,“现代汉语语义词典”进入到大规模开发阶段,并取得阶段性成果,完成了4.9万汉语常用实词(名词、动词、形容词) 及部分成语、习用语的语义分类和搭配信息描述[1]。IBM、Intel、Fujitsu, Toshiba, NTT, Canon, Sail-labs等20多家公司与大学先后从北大购买了该词典的许可使用权。

4年多来,北京大学计算语言学研究所在积极应用、推广该词典的同时,仍不断地投入力量进行词典本身的发展。从2001年11月开始,“现代汉语语义词典”的二期开发工作受到了国家973重点基础研究项目“面向新闻领域的汉英机器翻译系统”和“面向中文信息处理的现代汉语动词论旨结构系统和汉语词语语义分类层级系统研究”的支持,由计算语言学研究所和中文系联合承担,对词典规模进行较大幅度的扩充,并对全部词语的语义分类及属性描述进行全面修订。在双方的积极努力下,项目进展得非常顺利。目前,词典规模已达到6.6万余词条,同时语义属性描写质量有了显著提高。在一个汉英机器翻译系统中的实际应用表明,新版本的SKCC可以为句义分析、词汇歧义消解提供更全面的语义知识,有效地提高翻译精度。

2 现代汉语语义词典的内容概要

2 .1规模与结构

语义词典(SKCC)原有词条48,835个,它们全部来自于北大计算语言学研究所开发的《现代汉语语法信息词典》(5万词版)。但1999年,后者的规模已由5万词扩充到了7万词[2],此后的继续改进又使得属性信息的质量有了很大提高[2]。相比之下,语义词典却仍然停留在原来的水平上,无论数量还是质量上,二者都已不太协调,不能满足与语法词典配套使用的实际需要。

SKCC的二期工程及时吸收了语法信息词典的最新成果,对原有的“词语”、“词类”、“同形”、“拼音”、“兼类”、“备注”等字段进行了统一检查、修订,而且增加了14,663个名词、动词、形容词,以及1993个区别词、时间词、处所词、方位词、副词、数词。现在语义词典SKCC的规模比原来增加了1.8万词语,达到了6.6万余条2。

词典采用Microsoft Forxpro中文版6.0数据库实现,其中包含全部词语的总库1个,每类词语(实词)各建一库,计11个。每个库文件都详细刻画了词语及其语义属性的二维关系。比如,总库中包括词语、拼音、同形、义项、释义、语义类、词类、子类、兼类等8个属性字段。名词库设15个属性字段,动词库设16个属性字段,如此等等(见表1)。

2它们均是从北京大学计算语言学研究所开发的《现代汉语语法信息词典》(2002版)[3]中直接继承而来。这不仅保证了语义词典收词的规范性、注音与词性标注的准确性,而且也使得它可通过“词语、词类、同形”3个关键字段与语法信息词典进行链接,相互配合使用,从而使计算机获得更完备的语法、语义信息。

表1 语义词典SKCC的规模

所有的库都可以通过“词语、词类、同形、义项”这4个关键字段进行链接。这样,12个库文件构成有上下位继承关系的“树”,子结点继承父结点的全部信息,如图1。

2 .2 词语的语义分类

本词典语义分类的一个基本原则是,分类的深度与广度取决于语法分析的需要,应用语义知识应着重于解决那些仅靠语法规则难以解决的问题。因而语义分类是在词的语法分类基础上进行的,并且只对名词、动词、形容词等实词进行语义分类描述,而那些带有明显标志的、通常用句法形式就可以表示的语义关系,如各类虚词,则不作为语义分类研究的对象。

具体分类如下:

(1)名词分类

1 具体事物(entity)

1.1生物(organism)

1.1.1人(person)

1.1.1.1个人(individual)

1.1.1.1.1职业(profession):教师秘书会计医生

1.1.1.1.2身份(identity):华侨外行健将模范

1.1.1.1.3关系(relation):父亲阿姨长辈朋友

1.1.1.2团体(group)

1.1.1.1.1机构(organization):工厂医院商店剧团

1.1.1.1.2人群(society):人民委员会少先队团伙

1.1.2动物(animal)

1.1.

2.1 兽(beast):狗猪牛羊老虎豹子狐狸

1.1.

2.2 鸟(bird):鸡鸭麻雀杜鹃

1.1.

2.3 鱼(fish):鲤鱼河豚鲸泥鳅

1.1.

2.4 昆虫(insect):蚯蚓知了蟑螂

1.1.

2.5 爬行动物(reptile):青蛙乌龟甲鱼蛇

1.1.3植物(plant):树花草牡丹芍药

1.1.3.1 树(tree):白杨水杉芭蕉

1.1.3.2 草(grass): 狗尾巴草含羞草蒲公英

1.1.3.3 花(flower):牡丹芍药杜鹃映山红

1.1.3.4 庄稼(crop):蔬菜小麦高粱棉花

1.1.4微生物(microbe):细菌病毒霉菌

1.2 非生物(object)

1.2.1 人工物(artifact)

1.2.1.1建筑物(building):别墅礼堂会议室水库庙

1.2.1.2衣物(clothes):服装外套衬衫裙子帽子

1.2.1.3食物(food):面包牛奶菜米饭饮料

1.2.1.4药物(drug):药片阿斯匹林酒精镇定剂

1.2.1.5创作物(works):论文书杂志文章油画电影

1.2.1.6计算机软件(s oftware):操作系统数据库程序软件

1.2.1.7钱财(asset):财产钱资金报酬罚款美元利息

1.2.1.9票据(bill):发票单据汇票支票包裹单

1.2.1.10证书(certificate):结婚证执照毕业证驾驶证

1.2.1.11符号(symbol):签名路标箭头句号

1.2.1.12材料(material):木材钢铁煤炭玻璃水泥

1.2.1.13器具(instrument)

1.2.1.13.1用具(tool):剪子刀子钉子拖把改锥

1.2.1.13.2交通工具(vehicle):车船飞机自行车

1.2.1.13.3武器(weapon):大炮机关枪鱼雷

1.2.1.13.4家具(furniture):桌子椅子沙发

1.2.1.13.5乐器(musical-instrument):钢琴吉他鼓

1.2.1.13.6电器(electricity):电视空调电冰箱

1.2.1.13.7文具(stationery):钢笔橡皮尺子

1.2.1.13.8运动器械(sports- instrument):足球单杠

1.2.2自然物(natural object)

1.2.2.1天体(celestial body): 太阳月亮流星星星

1.2.2.2气象(weather): 云彩虹晚霞

1.2.2.3地理(geography)

1.2.2.3.1 地表物(land):原野沙漠山山洞陆地

1.2.2.3.2 水域物(water): 江河湖海河流

1.1.

2.2.4 矿物(mineral):煤矿原油铁矿

1.1.

2.2.5 元素(element):金银铜铁

1.1.

2.2.6 基本物质(substance):水土灰

1.2.3 排泄物(excrement):汗尿粪便奶水眼泪

1.2.4 外形(shape): 粉末长方形圆窟窿孔洞泡

1.3 构件(part)

1.3.1 身体构件(body-part):头脸鼻子嘴耳朵头发血液骨头

1.3.2 非生物构件(object-part):梁屋檐车闸车筐

2 抽象事物(abstraction)

2.1属性(attribute)

2.1.1量化属性(measurable): 体积面积重量质量价格

2.1.2模糊属性

2.1.2.1 人性(property_of_human):胆量勇气脾气作风

2.1.2.2 事性(description_of_event):境况形势状态环节

2.1.2.3 物性(property_of_object):性能效用品种式样

2.1.3 颜色(color): 黑色白色浅色素色

2.2信息(information):话言语信件口信密码声明借口

2.3领域 (field ):社会经济法律科学艺术

2.4法规(rule):法律条约协议制度规章合同协议条文

2.5生理(physiological_state):瘟疫疾病炎症艾滋病

2.5心理特征(psychol feature)

2.5.1情感(feelings):态度感情爱情

2.5.2意识(cognition):意图幻想兴趣主意见解

2.6动机(motivation):目的原因理由

3 过程(process)

3.1事件(event):学潮球赛晚会课早餐战争火灾

3.2自然现象(natural phenomenon)

3.2.1 可视现象(visible phenomenon):火电光风雨

3.2.2 可听现象(audible phenomenon):声音雷鸣风暴

4 时间(time)

4.1 绝对时间(specific time):宋朝三国清代

4.2 相对时间(relative time):昨天当代古代今天

5 空间(space)

5.1处所(location):浙江西湖黄山中国亚洲

5.2方位(direction):东南前面之间途中高空

(2)形容词分类

1 事性值:紧急突然困难容易错误费时

2 物性值

2.1 量化属性值(measurable value):

2.1.1 浓度(concentration):浓稀薄

2.1.2 温度(temperature):热冷凉爽

2.1.3 速度(speed):快慢

2.1.4 长度(length):长短

2.1.5 高度(height):高矮低

2.1.6 宽度(width):宽窄

2.1.7 深度(depth):深浅

2.1.8 厚度(thickness):厚薄

2.1.9 硬度(rigidity):硬软

2.1.10湿度(humidity):潮湿湿润干燥

2.1.11粗细(degree of finish):粗细

2.1.12松紧(degree of tightness):松紧

2.1.13大小(size):大中小

2.1.14价值(value):贵便宜

2.2 模糊属性值(unmeasurable value)

2.2.1视感(vision):亮醒目清晰混浊

2.2.2触感(tactility):紧松粗糙滑柔

2.2.3音质(tone): 响亮低沉刺耳

2.2.4味道(taste):酸甜苦辣可口

2.2.5 性质(quality):新旧真假好坏强弱

2.2.6内容(content):空洞晦涩清楚浅显

2.2.7外形(shape):方圆尖

2.3颜色(color):红黄蓝绿鲜艳

3 人性值

3.1 年龄(age):年轻幼小老

3.2品格(character):善良博学幼稚优雅

3.3 关系(relation):亲密疏远热情冷淡

3.4境况(condition):繁忙贫穷危险疲劳

4 空间值

4.1 一维值:远近

4.2 二维值:平斜弯

4.2 三维值:拥挤杂乱整齐满壮阔

5 时间值:古老久远短暂早晚

(3)动词分类

1 静态关系(state):是有等于包括

2心理活动(emotion/ cognition):喜欢尊敬反对同意怀疑思考判断

3动态行为(event)

3.1 变化(change):死病下降长高缩小变暗

3.2 气象(weather):下雨刮风打雷起雾

3.3 身体活动(bodily care and functions):蹬跳推笑咳嗽游泳

3.4 五官感觉(perception):看见听到闻着品尝

3.5 消耗(consumption):吃喝饮

3.6 位移(motion):跑走散步飞过来回去拉来

3.7 创造(creation):制作画炒写创建修筑

3.8 接触(contact):触摸撞击打中系挖掘

3.9 领属转移(possession):买卖赠送给转让借

3.10信息交流(communication):告诉询问请求转达叮嘱说

3.11比赛(competition):竞赛赛跑打仗摔跤辩论

3.12社会活动(social behavior):改革调价开会联欢

3.13 其他行为(other event)

(4)副词分类

1程度(degree):很挺太顶更最极十分非常稍稍微略微

2范围(range):都也总共一共总共统统只就光仅仅仅

3时间(time):正刚刚就先曾经已经终于立刻马上永远

4处所(location):到处处处暗中当场当面

5频度(frequency):常常常时常又再还重新重

6方式(manner): 渐渐逐渐挨次挨个逆时针慢慢

7否定(negation):不没有没未莫休勿别

8 语气(modality):却可倒竟也就偏偏偏都简直索性幸亏难道到底

究竟也许或许大约大概

(5)数词分类

1基数(cardinal number)

1.1系数:一二两三五六七八九几

1.2位数:十、百、千、万、亿、万万

1.3概数:多半多少若干很多许多好多好几好些无数

2序数(ordinal number):第一第二第十

3数量(amount):一切许多很多不少大量部分全部所有俩

2 .

3 词语的语义属性描写

分类法刻画事物固然简洁、清晰、反映了词语最基本的语义信息,但信息颗粒度较大,属于同一语义类的词语仍可能各具特点。如:表示“动态事件”的动词,其动作的发出者(主体)则可能完全不同,“唱戏”的主体是“人”,“产卵”的主体是“动物”,“抽穗”的主体是“植物”,“涨潮”的主体是“自然物”。又如“害羞、繁茂、肥沃、甘甜”虽然都是“性质”类形容词,但其所能修饰的名词性成分也是不同的:“害羞”用于指“人”,“繁茂”指“植物”,“肥沃”指“自然物”,“甘甜”指“可食物”。因此,为了进一步提高机器翻译系统或其他自然语言处理系统的性能,语义词典还要在分类的基础上,依靠属性描述来刻画每一个词语与周围名词性成分所发生的语义组合关系。

3 各类词库的共同字段

以下说明中,左边的一列楷体汉字代表字段名,中间的一列数字表示各个字段所占的字节数。右边的词语则是对字段值的说明。

词语8 暂收1-4个字的词语

同形 2 词典中同形词(即汉字相同的词)的情况是很复杂:

不同词条:抄写的“抄”,抄近道的“抄”。

同类

同一词条的不同义项:“去北京”的“去”,“去果皮”的“去”。

同音

不同类:属连词的“和”与属介词的“和”是不同的词,动词的“锁”与名词的“锁”也

是两个意义有联系的不同的词;属广义兼类现象。“同等”兼属区别词与副词,仅

因同字为语法功能不同,两者的意义并无区别,这是狭义兼类现象。

同类:和稀泥的“和”(huo4),和一盘棋的“和”(he2)。表示加在一起的“合计”(he2ji4),

有磋商、盘算意思的“合计”(he2ji5)。

不同音

(he2),与属动词的和稀泥的“和”(huo4)。

在词典中,除了“同字同音同类”的情况外,上图中同形词的其他情况均作

为不同记录收入词典。为了进一步区分同字同音同类的情况,专设了一个“同

形”字段。对于同字、同音、同类但是应算不同词项的情况,在“同形”字

段中填上字母A,B,C等。对于同字、同音、同类、同一个词的不同义项的

情况,在“同形”字段中填上数字1,2,3等。

为了提高同形词的处理效率,在“同形”字段中也用A,B,C等标识同字同

类不同音的情况。总之,“同形”中的A,B,C等表示不同的词,数字1,2,

3等表示同一个词的不同义项。当需要字母与数字并存时,则将字母置于数

字之前,如 A1,A2,B1,B2等。

拼音 24 填每个词语的汉语拼音,声调用“1,2,3,4,5”表示,其中“5”表示轻声。如:“常识”的全拼音是“chang2shi2”,“尺子”的全拼音是“chi3zi5”。词类 2 填词语所属词类的代码。如:名词填“n”,动词填“v”,形容词填“a”。

子类 2 填词语所属词类的子类代码。如:名词性成语填“IN”,动词性习用语填“LV”。兼类 4 填该词语兼属的词类代码,如:名词“锁”的兼类填“v”,动词“锁”的兼类填“n”。

义项编码2对“同形”字段相同的词条进一步加以区分,填上不同的义项编码,如“菜做得很清淡”中的“清淡”在本字段填“1”,“生意清淡”中的“清淡”则填

“2”。

义项 10 填写该词语的简明释义,如:词典中收录了两个“天才”,为了让人更为方便地将其区分开,就分别在本字段填上“人”和“智慧”。即前一个“天才”指

人,比如可以说“他是一位数学天才”,后一个“天才”指“智慧”,可以说

“他在数学方面很有天才”。

语义类20 填写该词语的语义类别名称。意义明确的尽量填低层的小类;意义难以把握的可酌情填上层语义类。可以不止填一个类别名称,不同的名称之间用“/”

隔开。如“校长”填“身份”,“刀”填“用具”,“青菜”填“植物/食物”;

“是”填“静态关系”,“喜欢”填“心理活动”,“打雷”填“气象”。WORD 40 填该词语对应的英语译词或短语,如:“安静”在本字段填“quiet”,“脏乱”

填“dirty and messy”。

Ecat 40 填该词语的英语译词的词性代码,或短语组成结构,如:“安静”在本字段填“A”,“脏乱”则填“!A+C+!A”(!表示中心词)。

备注 20 填写词语某些用法的简明示例或说明,用“~”代替该词,各示例之间用斜道“/”隔开。

注:除了“语义类、义项编码、WORD、 Ecat”4个字段外,上述其他字段均直接从北京大学计算语言学研究所的《现代汉语语法信息词典》中直接继承而来。

4 名词库字段

(时间词、处所词,以及名词性的成语、习用语、简称略语等库与此相同)

配价数 2 一价名词填“1”,二价名词填“2”,零价名词不填。

名词的配价表现为支配性名词要求语义上受其支配的从属名词与之共现。要求

一个从属名词与之共现,配价数为1。如“老李的女儿回来了/ 小坡的爸爸病

了”着两句话中的“女儿、爸爸”都是一价名词。因为,从意义上看,它们在

表示某事物的同时,还隐含了该事物跟另一个事物之间的某种依存关系。当它

在语句中出现时,它要求支配其配价成分。这也就是说,一价名词“女儿、爸

爸”不仅是句法上的中心词,而且是语义上的支点,因而在句子中不能省略。

如:“老李的女儿——*老李的”、“小坡的爸爸——*小坡的”。

而一般名词(零价名词)则可以省略,如:

老李的拐杖——老李的

小坡的书包——小坡的

要求两个名词性成分与之共现,配价数为2。如:“这件事老李有意见/ 他对

刘刚一直没有好感”,这里的“意见、好感”都是二价名词。从语义上看,“意

见、好感”一般是某人针对某人或某物的,涉及到两个个体。因而,在句子中

要求两个配项与之共现,如果其中一个配项不出现,那么句子的语义就不完整,

如:“老李有意见 / 他一直没有好感”。

汉语中绝大多数名词并不一定要求有任何配项与之共现,如“天下雨了/ 桌子

坏了”,“天”和“桌子”就都是零价名词,它们在本字段均不填。

参照体20 填写一价和二价名词的参照体的语义类名称。零价名词在本字段不填。

如“女儿”、“看法”的本字段填“人类”,“桌子”则不填。

对象20 填写二价名词的对象的语义类名称。如“意见”在本字段填上“人类/事件”。

一价和零价名词本字段不填。

在句子中,名词的对象一般可以用“对、对于”等介词标记出来,如“群众对

他的意见很大”中的“他”。

直接上位 20 填写该名词的直接上位概念。如“雨鞋”、“皮鞋”在该字段均填“鞋”;“轿车”

在本字段填“车”。

5 动词库字段

(动词性的成语、习用语、简称略语等库与此相同)

配价数 2 一价动词填“1”,二价动词填“2”,三价动词填“3”。

本词典引进“配价”概念来说明一个动词能支配多少名词性成分。从理论上说,

在一个句子中,直接受谓语动词支配的名词性成分不得超过3个:主语、宾语

1、宾语2。动词能支配几个名词性成分,它就是几价动词。如果能支配1个

名词性成分,则为一价动词(如“奔跑、出差、劳动、前进、病、失败”等);

如果能支配两个名词性成分,则为二价动词(如“搬、穿、发明、制定、听见、

遗失、是”等);如果能支配3个名词性成分,则为三价动词(如“给、给予、

问、回答、借、送给”等)。配价是从静态的角度依据动词的词汇意义确定的,

因此,就某个具体的动词而言,其配价是相对稳定的。

此外,动词同配价成分之间的组合应该是有意义的、可理解的。在“他跑了一

身汗”这个句子中,“跑汗”是无意义的。因而就可以判断出“汗”不是“跑”

的配价成分,“跑”(义为“快速前进”)的配价成分只是主语“他”,是1价动

词。因此,“跑”的本字段填“1”。

需要特别说明的是,汉语中有些动词可以看作没有配价成分,像“例如、可见、

天亮”。它们的配价数定为0,本字段不填。

主体20填写动词的主体所属的语义类名称。如“逃跑”在本字段填“人类/动物”,“刮倒”填“气象”,“死”填“生物”。

主体(agent)是动词的配价成分承担的一种语义角色,指动作行为(或状态)

或自然现象的发出者。如:“敌人逃跑了 / 风刮倒了大树”中的“敌人、风”。

在句子中,主体一般占据主语位置,但有时也可处于宾语位置,如“死了一只

兔子”值的“兔子”。

为了尽可能详细地描述主体的语义限制,本字段还引入了以下几种符号3:“/”

表示“或”,如“叙述”的主体填“人类/作品”;“~”表示“非”,如“越冬”

的主体填“生物~人类”;“”(双引号)表示具体词,引号中的“*”表示任意

汉字串,如“晒”在本字段填“太阳”,“吹拂”填“*风”。

客体20填写二价和三价动词的客体语义类名称。如“擦”在本字段填“人为事物/构件”,“画”填“作品”,“丧失”填“抽象事物”。

客体(object)也是动词的配价成分承担的一种语义角色,指动作行为或变化

所涉及的直接对象。如“擦玻璃 / 画了一幅画儿”中的“玻璃、画”。在句子

中,客体一般占据宾语位置,但在受事主语句或被动句中则处于主语位置,如

“玻璃被擦过了 / 画儿画好了”。

与事20填写三价动词的与事所属的语义类名称。如“给”在本字段填“人类”,“送”

也填“人类”。

与事,指事件中有利害关系的间接客体,如受益者或受损者。如“给他一本书

/ 送我30元钱”中的“他、我”。在句子中,邻体一般占据间接宾语位置,但

在主谓谓语句、受事主语句或被动句中则处于一般宾语位置,如“那本书小李

给他了/ 那本书给他了/ 那本书叫小李给他了”。

6 形容词库字段

(状态词、区别词,以及形容词性的成语、习用语、简称略语等库与此相同)

配价数 2 一价形容词填“1”,二价形容词填“2”。

在句子中,只要求一个名词性成分与之共现,配价数为1,如“大雨/ 花很红”

中的“大、红”;要求两个名词性成分与之共现,配价数为2,如“小李对人

很热情/ 他对象棋的兴趣淡薄”中的“热情、淡薄”。

汉语形容词绝大多数都是一价的,二价形容词不多,在词义上主要是表示态度、

效用及熟悉程度的,如“淡薄、淡漠、冷淡、恭敬、亲热、忠诚、耳熟、陌生、

熟、有用、无益、面熟、友好、亲密、忠实”等。

主体20 填写形容词的主体的语义类名称。如“红(一种颜色)”在本字段填“具体事物”,

3这4种符号的定义同样适用于本词典动词库中的“客体、与事”字段以及名词库和形容词库中的“参照体”、“对象”及“主体”等字段。

“友好(亲近和睦)”填“人类/动物”。

主体指性状的承当者,如:“花儿红了/ 她对兔子很友好”中的“花、她、兔

子”。在句子中,主体一般占据主语位置。一价形容词的主体也可以处于偏正

结构的中心语位置,如“红花儿 / 大雨”中的“花儿、雨”。

对象20填写二价形容词的关涉对象的语义类名称。如“眼熟”在本字段填“具体事物”,“有利”填“人类/抽象事物”。

在句子中,形容词的对象一般可以用“对、对于”等介词标记出来,如“这份

合同对甲方有利 / (对)这个人我有点眼熟”。

7 数词、副词库项目

同§3“各类词库的共同字段”。

参考文献

参考文献

[1] 王惠, 詹卫东, 刘群. “现代汉语语义词典的设计与概要”.《1998中文信息处理国际会议

论文集》. 清华大学出版社. 1998. pp 361-367.

[2]俞士汶,朱学锋,王惠.“《现代汉语语法信息词典》的新进展”.《中文信息学报》2001

年第1期.

[3] 俞士汶, 朱学锋, 王惠, 张化瑞等. 《现代汉语语法信息词典详解(第2版)》.清华大学

出版社. 2002

[4] Christiane Fellbaum. ed.. WordNet: an electronic lexical database. Mass: MIT Press. 1998

[5] 于江生, 俞士汶. “CCD的结构与设计思想”.《中文信息学报》. 2002, 16 (4). pp 12-20.

[6] 董振东, 董强. “知网”(Hownet).

http:// https://www.360docs.net/doc/9a12683639.html,.

[7] 陆俭明. 《现代汉语配价语法研究 序》, 北京大学出版社1995. pp1-7.

[8] 袁毓林. “一价名词的认知研究”, 《中国语文》1994第4期

[9] 袁毓林. “现代汉语二价名词研究”. 《现代汉语配价语法研究》,北京大学出版社1995.

pp29-58..

附录:填写样例(1)名词库

(2)动词库

(3)形容词库

现代汉语词典第六版新增3091词语

【A】【挨班儿】【矮化】【矮行星】【爱搭不理】【爱克斯刀】【爱理不理】【碍于】【安监】【安拉】【安慰剂】【安于】【氨纶】【暗地】【暗河】【暗下里】【黯然神伤】【凹镜】 【B】【八音】【霸王条款】【白板】【白道1】【白脸】【白名单】【白杆】【白寿】【白昼见鬼】【百搭】【百废待举】【百废俱兴】【百分百】【百战百胜】【百折不回】【摆渡车】【摆擂】【摆样子】【拜金主义】【拜票】【版权法】【板儿寸】【办结】【半决赛】【半路夫妻】【半日制】 【半数】 【扮靓】 【傍大款】 【保鲜膜】 【保险单】 【保险套】 【褓姆】 【报备】 【抱枕】 【保质期】 【豹子胆】 【暴堵】 【暴狱】 【暴走】 【爆仓】 【爆炒】1 【爆粗】 【爆粗口】 【卑鄙龌龊】 【背包客】 【背囊】 【背囊客】 【北京人】 【北漂】 【贝司】 【贝斯】 【背地】 【背投】 【被动吸烟】 【被告人】 【被叫】 【被迫】 【奔儿头】 【本邦菜】 【本着】 【绷弓】 【必将】 【逼供信】 【闭庭】 【闭眼】 【闭嘴】 【贲临】 【碧玺】 【觱栗】 【壁葬】 【边检】 【编委】 【编舞】 【鞭辟近里】 【变形金刚】 【便当】 【便宜从事】 【辩证施治】 【标本兼治】 【标间】 【标识】 【标准工资】 【标准间】 【标准像】 【飙高】 【飙歌】 【飙戏】 【别看】 【别说是】 【冰场】 【兵役制】 【饼屋】 【并称】 【并非】 【病急乱投医】 【病媒】 【病险】 【播客】 【播迁】 【舶来】 【博客】 【博文】 【博弈论】 【跛脚鸭】 【补编1】 【补编2】 【补气】 【补阙】 【捕快】 【不带】 【不得(de)】 【不敌】 【不点儿】 【不贰】 【不复】1 【不复】2 【不干胶】 【不敢】 【不攻自破】 【不关】 【不归路】 【不果】 【不教而诛】 【不觉】 【不开眼】 【不可或缺】 【不可胜数】 【不名一钱】 【不期而然】 【不求有功, 但求无过】 【不疼不痒】 【不痛不痒】 【不枉】 【不温不火】 【不瘟不火】 【不虚此行】 【不粘锅】 【步测】 【C】 【才赋】 【才俊】 【才貌】 【财产税】 【财神爷】 【彩点】 【彩调】 【彩铃】 【彩屏】 【采邑】 【菜鸟】 【菜籽】 【菜籽油】 【参事】 【餐券】 【餐叙】 【残奥会】 【残旧】 【残片】 【残渣】 【蚕蛹】 【灿灿】 【苍哑】 【草根】 【草就】 【插播1】 【茶道】 【茶寿】 【茶歇】 【茶叙】 【茶余酒后】 【查结】 【差一点儿】 【拆封】 【掺沙子】 【馋虫】 【产床】 【产能】 【产权证】 【产业链】 【颤颤巍巍】 【颤颤悠悠】 【颤悠悠】 【刬除】 【长存】 【长鸣】 【长三角】 【长蛇阵】 【长谈】 【长效】 【长痛不如短 痛】 【肠梗阻】 【常时】 【惝恍】 【唱多】 【唱空】 【唱衰】 【抄底】 【超尘出俗】

0409_19_王惠_现代汉语语义词典的结构及应用

“现代汉语语义词典”的结构及应用? 王惠 俞士汶詹卫东 (北京大学计算语言学研究所)(北京大学中文系) whui@https://www.360docs.net/doc/9a12683639.html,; yusw@https://www.360docs.net/doc/9a12683639.html,; zwd@https://www.360docs.net/doc/9a12683639.html, 摘要:“现代汉语语义词典”是一部面向汉英机器翻译的语言知识库,它以数据库文件形式收录了6.8万余条现代汉语的实词,不仅给出了每个词语所属的词类、语义类,而且以义项为单位详细描述了它们的各种语义搭配限制。目的是为计算机语义自动分析,词义消歧等任务提供强有力的支持。本文介绍这部语义词典的结构、内容,并且以实例说明这部词典可有效地解决翻译系统中的词汇歧义问题。 关键词:语义词典 语义类 词义消歧 计算词典学 中文信息处理 The Semantic Knowledge-base of Contemporary Chinese and its Applications in MT Wang Hu i1, Yu Shiwen1, Zhan Weidong2 1(Institute of Computational Linguistics, Peking University, Beijing 100871, China) 2(Dept. of Chinese Language and Literature, Peking University, Beijing 100871, China) whui@https://www.360docs.net/doc/9a12683639.html,; yusw@https://www.360docs.net/doc/9a12683639.html,; zwd@https://www.360docs.net/doc/9a12683639.html, Abstract The Semantic Knowledge-base of Contemporary Chinese (SKCC) is a machine-readable dictionary, which provides rich semantic information such as a thesaurus, semantic collocation, and parts-of-speech (POS) of 68,000 Chinese words. The paper introduces the outline of SKCC, and indicates that it is effective for word sense disambiguation in MT system and is likely to be important for general Chinese NLP. Key words:Semantic knowledge-base, Chinese thesaurus, computational lexicography, word sense disambiguation(WSD), Chinese language information processing ?本研究得到国家973重点基础研究项目“面向新闻领域的汉英机器翻译系统”(项目号:G1998030507-4) 与“面向中文信息处理的现代汉语动词论旨结构系统和汉语词语语义分类层级系统研究”(项目号: G1998030507-1)的支持。

商务印书馆《现代汉语词典》(第6版)

商务印书馆版《现代汉语词典》(第6版)首选词集锦 整理者:张华豹 商务印书馆版《现代汉语词典》在1978年为初版,1983年和1996年曾出版过两部修订本,2002年出版增补本,2005年出版第5版,2012年出版第6版。由此看来,修订的时间间隔多则十几年,少则五六年。商务印书馆版《现代汉语词典》历来都被传媒界奉为圭臬。鉴于此,本人利用大量业余时间整理出首选词部分,谨此以方便业界同人及研究者。 望转发的童靴注明出处和链接,谨此致谢!!! ※红色的部分是比第5版多出(或与第5版有出入)的词(组合字除外)。 ※蓝色的部分在本版不作为首选词处理,但在第5版时又作为首选词处理的词。 1.哀号(首选):悲哀地号哭。也作哀嚎。 2.艾窝窝(首选),也作爱窝窝。 3.爱答不理(首选),也作爱搭不理。 4.按捺(按纳)。 5.按语(案语)。 6.巴儿狗(首选),也作叭儿狗。 7.疤瘌(首选),也作疤拉。 8.疤瘌眼儿(首选),也作疤拉眼儿。 9.跋前疐后(首选),也作跋前踬后。 10.把式(首选),也作把势。 11.白茬儿(首选):未经油漆的(木制器 物):~大门。也作白槎儿、白碴儿。12.白茬(首选):未用布、绸等缝制面的(皮 衣):~老羊皮袄。也作白楂儿。 13.百废俱兴(百废具兴)。 14.百叶窗(百页窗)。 15.般配(首选),也作班配。 16.斑白(班白、颁白)。 17.斑驳(班驳)。 18.斑斓(首选),也作斒斓。 19.板型(首选),也作版型。 20.版筑(首选),也作板筑。 21.苞谷(首选),也作包谷。 22.苞米(首选),也作包米。 23.孢子(胞子)。 24.保镖(保镳)。 25.保姆(①保母②褓姆):①受雇为人照管 儿童、老人、病人或为人从事家务劳动 的妇女。②保育员的旧称。 26.曝光(首选),也作暴光。 27.卑辞(首选),也作卑词。 28.贝多(首选),也作梖多。(“梖”用简体。)29.贝斯(首选),也作贝司。 30.备不住(首选),也作背不住。 31.背搭子(首选),也作被褡子。 32.背时(首选),也作悖时。 33.悖晦(首选),也作背晦。 34.悖理(首选),也作背理。 35.悖谬(首选),也作背谬。 36.比画(首选),也作比划。 37.笔画(笔划)。 38.笔芯(首选),也作笔心。 39.毕恭毕敬(必恭必敬)。 40.筚路蓝缕(首选),也作荜路蓝缕。 41.愊忆(首选),也作腷臆。 42.觱篥(首选),也作觱栗、( +觱[上下 结构])篥、筚篥。 43.编者按(编者案)。 44.扁豆(萹豆、稨豆、藊豆)。 45.辨正:辨明是非,改正错误。也作辩正。 46.辨证:辨别症候。也作辨症。 47.辩白(首选),也作辨白。 48.辩词(首选),也作辩辞。 49.辩证:辨析考证:反复~。也作辨证。 50.标志(标识)biāozhì。 51.鬓角(鬓脚)。 52.秉承(禀承)。 53.拨浪鼓(首选),也作波浪鼓。 54.波罗蜜(首选),也作菠萝蜜。 55.勃谿(首选),也作勃豀。 56.脖颈儿(首选),也作脖梗儿。 57.擘画(首选),也作擘划。 58.峬峭(首选),也作庯峭、逋峭。 59.补丁(补钉、补靪)。

现代汉语参考文献

“第一章语音”参考文献 1、林焘、王理嘉《语音学教程》(北京大学出版社2004年版) 2、王理嘉《音系学基础》(语文出版社1991年版) 3、徐世荣《普通话语音知识》(文字改革出版社1980年版) 4、马琳《普通话语音教程》(西南师范大学出版社1998年版) 5、罗常培、王均《普通语音学纲要》(商务印书馆1981年版) 6、伊·克拉姆斯基(捷)《音位学概论》(上海译文出版社1993年版) 7、郭锦桴著《汉语声调语调阐要与探索》(北京语言学院出版社1993年版) 8、徐世荣《普通话正音手册》(语文出版社版) 9、侯玉茹《普通话异读词汇编》(语文出版社1992年版) 10、周殿福《国际音标自学手册》(商务印书馆1985年版) “第二章文字”参考文献 1、苏培成《二十世纪的现代汉字研究》(书海出版社2001年版) 2、高更生《现行汉字规范问题》(商务印书馆2002年版) 3、梁东汉《汉字的结构及其流变》(上海教育出版社1959年版) 4、许嘉璐《语言文字学及其应用研究》(广东教育出版社2001年版) 5、裘锡圭《文字学概要》(商务印书馆版) 6、周行健《汉字简繁体字及通用异体字对照手册》(商务印书馆1998年版) 7、胡朴安《中国文字学史》(商务印书馆1998年版) 8、董琨《中国汉字源流》(商务印书馆1999年版) 9、陈伟湛《汉字古今谈》(语文出版社版) 10、张书言《简化字溯源》(语文出版社版) 11、苏培成《现代汉字规范化问题》(语文出版社1998年版) 12、苏培成《现代汉字学纲要》(北京大学出版社2001年版) 13、曹先擢《汉字形义分析字典》(北京大学出版社版) 14、刘志成《文化汉字学》(巴蜀书社2003年版) 15、张桂光《汉字学简论》(广东高等教育出版社2004年版) 16、王玉新《汉字认知研究》(山东大学出版社2004年版) 17、周有光《世界文字发展史》(上海教育出版社1997年版) 18、冯寿忠魏进路等《汉字规范化教程》(中国书籍出版社1997年版) 19、古代汉语常用字字典(商务印书馆1986年版) 20、汉语大字典(四川辞书出版社、湖北辞书出版社1993年版) “第三章词汇”参考文献 1、周祖谟《汉语词汇讲话》(人民教育出版社1959年版) 2、朱星《汉语词义简析》(湖北人民出版社1981年版) 3、任学良《汉语造词法》(中国社会科学出版社1981年版) 4、张永言《词汇学简论》(华中工学院出版社1982年版) 5、周荐《同义词语的研究》(天津人民出版社1991年版) 6、周荐《词语的意义和结构》(天津古籍出版社1994年版) 7、周荐(周祖谟)《汉语词汇研究史纲》(语文出版社1995年版)

现代汉语词典

《现代汉语词典》第5版和第6版 字音、字形、词义上的部分区别 浅析《现代汉语词典》第6版的注音变化 一、增改外来词读音 1.的士 “的士”和“打的”中的“的”,《现汉》第5版注音为dí,《现汉》第6版尊重语言事实,把dí直接改为dī(278页)。 2.拜拜 “拜”在《现汉》第5版中只有一个读音bài,《现汉》第6版为“拜拜”的“拜”设立了字头,音bái,“拜拜”注音改为báibái(28页),更符合大众的语言习惯。 3.戛纳 “戛”在《现汉》第5版中只有一个读音jiá(656页),那么我们熟悉的戛纳(法Cannes)电影节该怎么念?是jiánà还是gānà?《现汉》第6版规范了“戛纳”的读音,为这个法国地名设立了字头“戛”,音ɡā(414页)。 4.啫喱 《现汉》第6版为“啫喱”的“啫”设立字头,音zhě,“啫喱”注音为zhě?lí(1649页)。顺带说说“咖喱”的读音,《现汉》第5版、第6版都注音为ɡālí,可日常生活中“喱”往往轻读,建议《现汉》将来修订时把注音改为ɡā?lí或者ɡā?li。 二、调整古语词读音 1.跂① 《现汉》第5版注音为qì(1081页)。《现汉》第6版改为上声qǐ(1025页)2.倩 《现汉》第5版收有两个“倩”,都读qiàn,“倩1”意为“美丽”,“倩2”意为“请”(1093页)。《现汉》第6版仍收两个“倩”,但读音不同,“美丽”义仍读qiàn(1039页),“请”义改读qìnɡ(1064页)。宋代大词人辛弃疾的名篇《水龙吟?登建康赏心亭》最后一句是:“倩何人、唤取红巾翠袖,揾英雄泪?”句中的“倩”就是“请”的意思。《汉语大字典》《汉语大词典》《辞海》在这个意义上都注音为qìnɡ。 3.柷 《现汉》第5版只有一个读音chù,古代乐器(205页)。《现汉》第6版改为两个读音:一音chù,用于人名,李柷,唐哀帝(197页);二音zhù,古代乐器(1704页)。 4.唯。“唯唯诺诺”的“唯”,《现汉》第5版注音为wěi(1421页),第6版改为“wéi(旧读wěi)”(1353页) 三、删改方言词读音 1.虎不拉② 《现汉》第5版“虎”有hù音,收方言词“虎不拉”,音hù?bulǎ,指伯劳鸟(579页)。《现汉》第6版删“虎不拉”,“虎”只有一个读音hǔ(549页)。

“现代汉语语义词典”的结构及应用精

“现代汉语语义词典”的结构及应用(精)

————————————————————————————————作者:————————————————————————————————日期:

[收稿日期]2003-10-20 [作者简介]王惠,新加坡国立大学助教,博士,主要研究汉语词汇学、语义学和计算语言学;詹卫东,北京 大学副教授,博士,主要研究汉语语法、语义和计算语言学;俞士汶,北京大学教授,主要研究计算语言学。 3本研究得到国家973重点基础研究项目(G 199803050724和(G 199803050721资助,研究还得到北京大学陆俭明教授的大力支持,在此一并致谢。 “现代汉语语义词典”的结构及应用 3 王惠1 詹卫东2 俞士汶 2 (1.新加坡国立大学中文系新加坡117570;2.北京大学北京100871 [摘要]“现代汉语语义词典(SK CC ”是一个面向汉英机器翻译的大规模汉语语 义知识库,它以数据库文件形式收录616万余实词,不仅给出每个词语所属的词类、语义类,而且以义项为单位详细描述了它们的各种语义搭配限制。目的是为计算机语义自动分析、词义消歧等任务提供强有力的支持。本文介绍这部语义词典的结构、内容,并以实例说明这部词典可有效地解决翻译系统中的词汇歧义(WS D 问题。

[关键词]语义词典;词义消歧;词汇语义学;自然语言处理;中文 [中图分类号]H08[文献标识码]A[文章编号]100325397(20060120134208 Structure and Application of The Semantic Knowledge 2base of Modern Chinese Wang Hui ,Zhan Weidong ,Yu Shiwen Abstract :The Semantic Knowledge 2base o f Modern Chinese (SK MC is a large scale bilingual semantic res ource.It provides a large am ount of semantic information such as semantic hierarchy and collocation features for 66539Chinese w ords and their English counterparts.Its POS and semantic classification represent the latest progress in Chinese language engineering. The descriptions of semantic attributes are fairly thorough and com prehensive.The main w ork in this paper is to introduce the outline of SK MC ,and establish a multi 2level W ord Sense Disambiguation (WS D m odel based on it.The results indicate that the SK MC is effective for w ord sense disambiguation in Chinese and are likely to be im portant for general Chinese Natural Language Processing (N LP . K ey w ords :Semantic K nowledge 2base ;WS D ;Lexical semantics ;N LP ;Chinese 2006年2月第1期语言文字应用Applied Linguistics Feb.,2006N o.1 一前言 在机器翻译系统及其他自然语言处理系统中,通常都有一部包括语义信息的电子词典。

现代汉语词典

引言 《现代汉语词典》(下简称《现汉》)是人们日常生活中最常使用的一部工具书,具有极广的流传面和极高的权威性。它所收纳的词条在很大程度上反映着现代汉语的词汇构成与概貌。但是,词汇是语言系统中最为灵活的一个部分,它活跃于社会的各个领域和层面,总是处于不断的发展之中。作为一部收词具有全面性、选择性,编纂具有规范性的语文性辞典,《现汉》在规范词汇的同时,必须呈现出不断的变化,与时代和环境相契合,引导人们正确地认识和使用语言文字。音译外来词作为其中一大板块,对整部词典有着不可或缺的重要意义,随着时代的发展,与西方民族接触的增多,“从20世纪80年代开始,汉语借用外来词呈现出新趋势”。①《现汉》作为目前影响最大的、读者覆盖面最广的、享有最高声誉的中型汉语语文词典,它在收录音译外来词方面的规范性、实用性和时代性不容置疑。尽管外来词问题早已受到学术界的重视,迄今也有了不少高质量的研究成果,比较重要的论文有刘中富先生的《关于<现代汉语词典>收释外来词的几个问题》和许建中先生的《<现代汉语词典>中的音译外来词》,以及孙国秀的《05版<现代汉语词典>与02版<现代汉语词典>外来词对比分析》,针对5版的音译外来词问题的论著并不多见。 但是,对5版《现汉》中的音译外来词的研究,有利于加强和促进现代汉语音译外来词的规范化,进一步了解其收释外来词的基本原则,肯定成绩,找出不足,使其在收释音译外来词方面更加趋于完善。为此我们对比了《现汉》第5版(下简称5版)与第4版(指《现汉》2002年增补版,下简称4版),以计量的方式从词条、释义、词源的增删和修改的角度探讨了《现汉》在音译外来词方面的修订所取得的成绩和存在的不足。 本文研究的区域是《现汉》的第4、第5两个版本的A—Z部,“音译的外来语一般附注外文,如:【沙发】…[英sofa];【蒙太奇】…[法montage]。“英、法”等字,表示语别。【鶆】…[新拉Rhea],“新拉”表示是新拉丁文。从我国少数民族来的词只附注民族名称,如【萨其马】条附注[满]”。 ②本文所分析统计的外来词为词典中有标记的,即词条末附注语源的词条,得出的计量结果:5版共增加词条35个,删减词条25个,修改词条136个,另外还有“爱克斯射线”、“白金汉宫”、“贝塔粒子”、“伽马射线”、“互联网”、“来复枪”、“米制”、“拍档”、“檀越”等9个词条在4版中未标注语源,但在5版中进行了标注,以及“分贝”和“胲”两个词条在4版中标注了语源,但在5版中未进行标注。 一﹑词条的增减 ①韩淑红、吴远庆:《现代汉语词典》一、五版外来词语源对比考察[J].语文学刊.2008,第1期,第104页。 ②《现代汉语词典》[M].北京:商务印书馆,2005,凡例第6页。

《现代汉语词典》第6版变化(整理版)

《现代汉语词典》第6版(与第5版比较)变化(整理版) 一、字音变化 。 【拜拜】第5 版注音bài bài ,第6版注音báibái 【的士】的“的”,第5 版注音dí,第6版注音dī。 【戛纳】“戛”第5版中只有一个读音jiá,第6版增加ɡā,“戛纳”读音gānà  【啫】【啫喱】第5版未收条,第6版收条,“啫”注音为zhě,“啫喱”注音为zhě?lí 【粿】第5版未收条,第6版收条,“粿”注音为guǒ。 ·lei ·lěi,第6版注音lián 【连累】第5版注音lián 【妥当】第5版注音tuǒ dang,第6版注音tuǒ dàng 【标识】第5版注音biāozhì (“标志”的异形词)和 (“标志”的异形词),第6版则有biāozhì (独立词条,有两个义项:①标示识别,②用来识别的记号。) biāoshí 【神父】第5版注音shén fu,第6版注音sh?n fù 【枇杷】第5版注音pí?pá,第6版注音pí?pɑ 【琵琶】第5版注音pí?pá,第6版注音pí?pɑ 【正经】第5版注音zhèng jing,第6版注音zhèng jing(口语中也读zhèng jǐng) 【一本正经】第5版注音yīběnzhangjīng,第6版注音yīběn—zh a ngjīng(口语中也读yīběn —zh a ngjǐng),成语分词连写,中间加短横。 ,第6版注音yī huì r (口语中也读yī huǐ r)。 【一会儿】第5版注音yī huì r ) (口语中也读èr liū zi ,第6版注音èr liú zi 【二流子】第5版注音èr liú zi 【主意】第5版注音zhǔ?yi,第6版注音zhǔ?yi(口语中也读zhú?yi) 【好好】第5版注音hǎo hāo r,第6版注音hǎo hǎo(口语中多儿化,读hǎo hāo r)。 【早早】第5版词条“早早儿”,注音为zǎozāor。第6版将“早早儿”更换为“早早”,注音 为“zǎozǎo(口语中多儿化,读zǎozāor)”。 注意:根据音变规律,单音节形容词重叠儿化(aa儿)时,后面的a往往变读阴平。词 典注音一般不注变调。《凡例》中指出,abb式形容词注音,一种情况是:bb注本调,在注音 后面的括号内注明口语中变读阴平,如【热腾腾】r a t?ng t?ng(口语中也读r a tēng tēng)。【跂】第5版注音qì,第6版注音qǐ 【倩】第5版收有两个“倩”,都读qiàn,“倩1”意为“美丽”,“倩2”意为“请”。第6版仍 收两个“倩”,但读音不同,“美丽”义仍读qiàn,“请”义改读qìng。 【柷】第5版只有一个读音chù,古代乐器。第6版改为两个读音:一音chù,用于人名,李 柷,唐哀帝;二音zhù,古代乐器。 (旧读dān sì hú jiāng )。 ,第6版注音dān shí hú jiāng 【箪食壶浆】第5版注音dān sì hú jiāng ,第6版注音wéi wéi nuò nuò  (旧读wěi wěi n uò nuò)。【唯唯诺诺】第5版注音wěi wěi nuò nuò 【虎不拉】第5版注音hù?b u lǎ,指伯劳鸟,第6版删“虎不拉”,“虎”只有一个读音hǔ。 【猫腰】第5版注音máo yāo,第6版“猫”只有一个读音māo,“猫腰”māo yāo,增加< 方>标记表示方言词,删“毛腰”。 【屎壳郎】第5版注音shǐ?ke làng,第6版注音shǐ?ke láng(口语里多读shǐ?ke làng)”。

现代汉语情感词语表达系统研究 现代汉语频率词典

现代汉语情感词语表达系统研究现代汉语频率词典现代汉语情感词语表达系统研究现代 汉语频率词典 话题:现代汉语频率词典心理活动抑郁寡欢词语 摘要:不同情感词语之间存在着诸多差异,如果不加选择地以情感词语为基础考察情感词语的语法模式和语义特征,会影响研究结果的有效性。通过分析从9种语义分类词典中选择的情感词语,发现它们至少在语体、音节、构词方式、词性、级差、极性和释解方式7个维度上存在差异。这些词语以这7个维度为基础可以构成一个情感意义的词语表达系统;该系统能够为情感词语选择提供理论框架。关键词:情感意义情感词语表达系统情感词语选择情感意义是一个基本的语义范畴;与此对应,情感词语也是一个基本的词语类别。根据Whorf(1956、1998)的隐形范畴理论和功能语言学的语法理论(如Halliday & Matthiessen,1999:26,27),同一语义域的词语应当具有相同的语法表现,同一语义域词语的语义特征可以由语法特征抽象而来。目前的研究大多以此为理论指导,以情感词语为出发点,通过分析情感词语的 搭配,归纳情感词语的语法模式(如赵春利,2007),总结情感意义的语义特征(如Shaver,Wu & Schwartz,1992;赵家新,2006);但是他们在选择作为研究起点的情感词语时很少考虑所选词语之间存在的差异。而正如郭锐(2002:24,25)所说,词语的结构、语体等因素影响词语的语法体现;因而情感词语的筛选是以情感词语的语法分析为基础的研究的先决条件。本文以从9个版本现代汉语语义词典中选出的情感词语为基础,结合前人的研究,分析现代汉语情感意义的词语表达系统,为情感词语的选择提供理论指导。一、情感词汇的选取语义分类词典是根据意义编排,以建立词汇系统为目的的工具书(董大年,2007)。虽然目前国内出版的此类词

现代汉语词典第六版

《现代汉语词典》第5版和第6版字音、字形、词义上的部分区别 一、增改外来词读音 1.的士 “的士”和“打的”中的“的”,《现汉》第5版注音为dí,《现汉》第6版尊重语言事实,把dí直接改为dī(278页)。 2.拜拜 “拜”在《现汉》第5版中只有一个读音bài,《现汉》第6版为“拜拜”的“拜”设立了字头,音bái,“拜拜”注音改为báibái(28页),更符合大众的语言习惯。 3.戛纳 “戛”在《现汉》第5版中只有一个读音jiá(656页),那么我们熟悉的戛纳(法Cannes)电影节该怎么念?是jiánà还是gānà?《现汉》第6版规范了“戛纳”的读音,为这个法国地名设立了字头“戛”,音ɡā(414页)。 4.啫喱 《现汉》第6版为“啫喱”的“啫”设立字头,音zhě,“啫喱”注音为zhě?lí(1649页)。顺带说说“咖喱”的读音,《现汉》第5版、第6版都注音为ɡālí,可日常生活中“喱”往往轻读,建议《现汉》将来修订时把注音改为ɡā?lí或者ɡā?li。 二、调整古语词读音 1.跂① 《现汉》第5版注音为qì(1081页)。《现汉》第6版改为上声qǐ

(1025页) 2.倩 《现汉》第5版收有两个“倩”,都读qiàn,“倩1”意为“美丽”,“倩2”意为“请”(1093页)。《现汉》第6版仍收两个“倩”,但读音不同,“美丽”义仍读qiàn(1039页),“请”义改读qìnɡ(1064页)。宋代大词人辛弃疾的名篇《水龙吟?登建康赏心亭》最后一句是:“倩何人、唤取红巾翠袖,揾英雄泪?”句中的“倩”就是“请”的意思。《汉语大字典》《汉语大词典》《辞海》在这个意义上都注音为qìnɡ。 3.柷 《现汉》第5版只有一个读音chù,古代乐器(205页)。《现汉》第6版改为两个读音:一音chù,用于人名,李柷,唐哀帝(197页);二音zhù,古代乐器(1704页)。 4.唯。“唯唯诺诺”的“唯”,《现汉》第5版注音为wěi(1421页),第6版改为“wéi(旧读wěi)”(1353页) 三、删改方言词读音 1.虎不拉② 《现汉》第5版“虎”有hù音,收方言词“虎不拉”,音hù?bulǎ,指伯劳鸟(579页)。《现汉》第6版删“虎不拉”,“虎”只有一个读音hǔ(549页)。 2.猫腰 《现汉》第5版“猫”有máo音,收词“猫腰”,音máoyāo,《现汉》第6版删“毛腰”,“猫”只有一个读音māo,“猫腰”音māoyāo,并增

13-真的读完整本《现代汉语词典》

宁波高考复习会讲稿 各位同行:大家好。 每次到宁波,都大开眼界,大有收获。 我来自台州玉环,我要和大家分享的故事,可以从两个真实的传言开始。高三离不开做题,其实很多模拟题是抄来抄去的。但是,2012年的高考第一题中的“质量”和2015年的样卷第一题中的“腈纶”两个字,传说都是命题的老师在自己的生活中亲身遇见过的。 我认为语文学习的外延和生活的外延相等这句话无比正确。语文学习不能把语文当作外在的对象学习,还应该和师生的生活融为一体。如果有一本最能代表汉语的书,和学生朝夕相处,相伴三年。那么语文就可能真的成为学生生活的一部分。 具体做法是全年级统一进度,学生人手一本《现代汉语词典》,每周25页,早晚读通读识记,每周自我检测循环往复,历时两年,69周。 当我们从2012年的高一开始这一行动的时候,并不知道,真的读完了整本《现代汉语词典》的每一页。这就是我想和大家分享的故事。 为了让学生动眼又动手,也为了让学生付出的努力不至于化为一、片片飞走的纸张,编制印发了《语基积累本》,每一学年人手一本,三年三本。《语基积累本》由三部分组成:一是使用说明介绍,明确使用方法。二是语基积累单,用于每周的《现代汉语词典》的摘记。三是个性积累单,用于平时的阅读、练习中自己觉得重要或易错内容的整理。 学生利用早晚读逐页翻阅《现代汉语词典》,标注出自己认为读音、字形或词义比较重要而自己又不熟悉的内容,课后将它们摘录到自己的《语基积累本》上,每周的阅读量为25页。

学生在最初阶段的积累时往往抓不住重点,会关注一些很生僻的字词。因此在起始阶段,教师一定要带着学生一起读词典,一起划出重要的内容,并说明理由,慢慢培养他们对语言筛选的敏感。 每个学生在具体摘录的方式上可以选自己喜欢的方式,有的是按页码顺序摘录的,有的把字音、字形、成语分开摘录,有的又特别把多音字整理在一起。 其实这样的故事每天都发生在大家的校园里,我这里重点分享几个细节。我用“团结·紧张·严肃·活泼”八个字概括。这八个字是毛泽东为抗日军政大学题写的校训首先是“团结”。读完一本词典不是容易的事,坚持需要相互鼓励。玉环是一个小城市,成规模的普通高中只有三所,而且好多教师都是相互流动的。我们以校内合作为基础,三校联动,资源共享,也有利于相互提醒相互鼓励。 “紧张”就是学生自己目标明确、任务清楚、每周25页,每天5页,持之以恒,不放一天溜走。虽然检测不是万能的,但是没有检测也是不能的。我们更在意的是把检测渗透在其他必不可少的检测中。 功不唐捐,69周以后,仅仅是每周的检测,就汇集成一本书。下一轮学生有了更好的学习工具。 对学生来说,在完成一轮字典自学后,也就到了高三,就可以根据自己整理的资料,缩小范围,重新梳理出读音、字形和成语释义三个方面资料供自己识记。 第三,无论是怎样的学习,都应该是严肃的。停留在每天的翻阅接触到的还是词典的皮毛,我们还设想了“规律引领”“条块识记”“自主整理”“高频不漏”四个环节。这里举两个细节。在刚开始的时候,我们分20次,每次5分钟,给学生讲解词典的凡例,结合讲授汉语词汇知识。后来这个部分,我们制作成了微课程《玩电脑·读词典·学语言》,被评为省精品课程。

现代汉语词典上的定义是

现代汉语词典上的定义是:写在纸上、布上或刻在竹子上、木头上、柱子上的对偶语 句。 对联又称楹联,是一种对偶文学,起源于桃符,也要押韵。对联大致可分诗对联,以及散文对联,严格区分大小词类相对,可见称“对联起源律诗”是根本的错误。传统 对联的对仗要比所谓的诗对联工整。 随着唐朝诗歌兴起,散文对联被排斥在外。散文对联一般不拘平仄,不避重字, 不过分强调词性相当,又不失对仗。 上联:闲人免进贤人进。 原对:盗者莫来道者来。 新联:捞者莫来劳者来。 吾联:罪客勿来醉客来。 此联为【明】担山和尚所作。 上联:理想莫享醴。 下联:前途弗图钱。 上联:独览梅花扫腊雪. 下联:细睨山势舞流溪. 此联的妙处在于上联急读如音阶:…多来米发索拉西?。下联为方言读数字:…一二三四五六七?。 上联:暑鼠凉梁,提笔描猫惊暑鼠。 原对:饥鸡盗稻,呼童拾石打饥鸡。 古对:渴鹤汲漈,令奴响枪击渴鹤。 此联又作…暑鼠量梁?。 上联:暑鼠凉梁,笔璧描猫暑鼠惊竟沿檐,撞桩斯死,老猫食尸。 原对:缺! 吾对:饥鸡盗稻,同童拾石饥鸡逸亦飞扉,碰棚彼毙,矢石落箩。 此联为网友改上联而出之新联,余勉而对矣。 上联:鸡饥争豆斗。 下联:鼠暑上梁凉。 上联:溪西犀喜戏。 下联:囿右鼬悠游。 上联:今宵消夏。 下联:明晌赏花。 上联:士农工(宫)商角徴羽。 下联:寒热温凉(良)恭俭让。 吾联:铝铜金钼(木)水火土。 此联也是一奇联。上联分两部分:士农工商;宫商角徴羽。前为四业,后为 五音,而有一个字重复,一个字谐音。原对寒热温凉为四觉,温良恭俭让为君子的五 种德 2.听错了

一个外地口音的人拿一张50圆的票子,在售票员面前晃着:见过没?见过没?…… 买票的看了气不打一处来,干脆拿出一张100的秀了一下:你见过么? 最后才搞明白,那人是想去“建国门!” 4.小偷 某君乘公车常掉钱包,一天上车前,某君把厚厚的一叠纸折好放进信封,下车后发现信封被偷。第二天,某君刚上车不久,觉得腰间有一硬物,摸来一看,是昨天的那个信封,信封上写着:请不要开这样的玩笑,影响正常工作,谢谢!! 5.追车 早上赶公共汽车,到站台的时候,汽车已经启动了。于是我只好边追边喊:“师傅,等等我!师傅,等等我呀!“ 这时一乘客从车窗探出头来冲我说了一句:“悟空你就别追了。” 6.下车 公交车在等红灯时,一男子叫道:“司机,开一下门,我要下车。 “这里是站牌吗?”司机怒道。 “就因为这里不是站牌我才给你说一声。“ 司机无语。 7.座位 有一个漂亮小姐,上公交车后从包里拿出纸巾使劲的擦了擦座位,正要坐下时,放了一个屁,旁边的一个先生听到了,打趣地说:小姐真是爱卫生,擦了那么久,还要吹一下! 8.拉环 一个很胖的女人上了公交车,找不到座位,只能拉着车上的拉环,不料司机一个急刹车,胖女人把拉环拉断了,并一下子扑到了司机面前,司机看着她和她手上的拉环,没好气的说:”集满三个,送司机签名照一张!

《现代汉语规范词典》和《现代汉语词典》

《现代汉语规范词典》和《现代汉语词典》 对“多”字注释之比较 摘要:本论文通过将《现代汉语规范词典》(第2版)和《现代汉语词典》(第6版)对“多”字在注音、释义、词条等方面情况进行注释的特点进行分析和研究,继而比较两部词典在释义等方面的异同。旨在研究两部词典各自的不同特点,并分析其中存在的原因。同时发现注释过程中出现的某些现象,并就其提出意见和建议,期望能对今后的词典编纂工作和语言文字学研究产生积极的推动作用。 关键词:现代汉语规范词典现代汉语词典多注释比较

引言 人们常常将词典称为“无声的老师”。在现代社会里,词典已然成为人们获取各类知识的重要工具,一部好的词典可使广大语言文字学习者受益良多,尤其是语文词典对于现代人们学习新知、掌握语言具有基础而重要的作用。《现代汉语规范词典》和《现代汉语词典》作为我国现代普通中型词典,收录了以普通话词汇为主的词语,对于促进语言理解和运用的规范化,进行语言文字研究以及广泛推广普通话等方面都做出了突出贡献。认真对比两部词典的内容会发现,两部词典在字音、释义、词条等方面存在着一定差异。在本文中笔者将通过分析两部词典对“多”字的注释情况的异同,研究其中产生异同的原因,期望能对促进两部词典编纂的规范性及实用性产生一定的价值和意义。 一、叙述两词典对“多”的音、义的注释 “多”字读音为“duō”。《现代汉语规范词典》中分别以10个义项对“多”字进行解释,其中形容词义项有3个,动词义项有2个,数词义项1个,副词义项3个;《现代汉语词典》中分别以9个义项对“多”字进行解释,其中形容词义项2个,动词义项1个,数词义项1个,代词义项1个,副词义项2个。(见附录)此外,两部词典的最后一个义项都将“多”字解释为姓氏的一种,词性标注为名词。 (一)从词性的角度分述两词典对“多”字释义的异同 1、“多”字作为形容词的释义 《现代汉语规范词典》中“多”标注为形容词性质的义项有①、③、⑥,《现代汉语词典》中标注为形容词性质的义项有①、⑤。其中《现代汉语规范词典》中的①、⑥分别与《现代汉语词典》中的①、⑤相对应,《现代汉语规范词典》中的③与《现代汉语词典》中的③在释义内容上(词性除外)基本相同。 《现代汉语规范词典》中的①与《现代汉语词典》中的①对应,《现代汉语词典》释义为“数量大(跟‘少’相对)”,《现代汉语规范词典》释义为“数量比较大”,多了“比较”二字;《现代汉语规范词典》的⑥与《现代汉语词典》的⑤对应,后者释义中强调了“相差的‘程度’大”。由此看来,两部词典都在尽力完善“多”的确切释义,追求释义的科学与规范。

现代汉语语义词典规范

现代汉语语义词典规范1 王惠 Email: whui@https://www.360docs.net/doc/9a12683639.html, 摘要:“现代汉语语义词典”(SKCC)是一部面向自然语言信息处理的语义知识库,它以数据库文件形式收录了6.6万余条汉语实词,不仅给出了每个词语所属的词类、语义类,而且以义项为单位详细描述了它们的配价信息和多种语义组合限制,可以为包括机器翻译在内的多种中文信息处理系统中的语义自动分析提供强有力的支持,同时,对于汉语词汇语义学和计算词典学研究也具有重要的意义。本文概要介绍这部语义词典的结构、内容,以及语义属性项目的填写规范。 关键词:语义知识库语义类配价信息计算词典学中文信息处理 The Specification of The Semantic Knowledge-base of Contemporary Chinese Wang Hu i1, Yu Shiwen1, Zhan Weidong2 1(Institute of Computational Linguistics, Peking University, Beijing 100871, China) 2(Dept. of Chinese Language & Literature, Peking University, Beijing 100871, China) whui@https://www.360docs.net/doc/9a12683639.html,; yusw@https://www.360docs.net/doc/9a12683639.html,; zwd@https://www.360docs.net/doc/9a12683639.html, Abstract: The Semantic Knowledge-base of Contemporary Chinese(SKCC) is a large machine-readable dictionary developed by the Institute of Computational Linguistics and Chinese Department of Peking University. It can provide a large amount of semantic information such as semantic hierarchy and collocation features of 66,539 Chinese words. Its semantic classification system represents the latest progress in Chinese linguistics and language engineering. The descriptions of semantic attributes are fairly thorough, comprehensive and authoritative. The paper introduces the outline and specification of SKCC, and indicates that, as a large scale fundamental semantic resource of Chinese,SKCC will not only provide valuable semantic knowledge for Chinese language processing, but also play an important role in Chinese lexical semantics and computational lexicography research. Key words:Semantic knowledge-base, lexical semantic, computational lexicography, semantic hierarchy, valence information, Chinese language processing 1本研究得到国家973重点基础研究项目“面向新闻领域的汉英机器翻译系统”(项目号:G1998030507-4) 与“面向中文信息处理的现代汉语动词论旨结构系统和汉语词语语义分类层级系统研究”(项目号: G1998030507-1)的支持。

现代汉语(1)(2)

一、单项选择题(在每小题的四个备选答案中,选出一个正确的答案,并将其号码填在题干的括号内。每小题1分,共30分) 1、汉民族共同语在明代称为()。 A.雅言 B.通语 C.国语 D.官话 2、下列各字跟“删”的声母相同的是()。 A.嫂 B.僧 C.耍 D.嗽 3、跟“濒”的声母发音方法完全相同的是()。 A.刽 B.揪 C.傀 D.频 4、下列各组字其韵母跟“凝”完全相同的是()。 A.宜、疑 B.井、杏 C.进、拎 D.邻、平 5、下列双音节词,两个音节的韵母都是合口呼的是()。 A.作对 B.内部 C.舞曲 D.虚幻 6、下列各字跟“索”的声调相同的是()。 A.国 B.谁 C.复 D.乞 7、第一个音节全都变读为211调的是()。 A.毁灭朴素亚洲 B.伪劣请假奶奶 C.柳树有趣舞蹈 D.演示使命广场 8、下列各词中,两个音节的结构方式完全相同的是()。 A.三峡 B.问卷 C.闻名 D.秀美 9、象形、指事、会意、形声都有的一组字是()。 A.益盂戌朱 B.涉伐豕疫 C.布刃取囤 D.易甘贼旗 10、将繁体字“淚”简化为“泪”,使用的方法是()。 A.简化偏旁 B.同音代替 C.换用简单符号 D.构成新的会意字 11、下列短语,没有错别字的是()。 A.戮力同心 B.精神涣发 C.随声附合 D.直接了当

12、都含三个语素的一组词语是()。 A.石榴花儿小孩儿 B.光脚丫儿玻璃瓶儿 C.婴幼儿没有准儿 D.萝卜干儿羊肉串儿 13、全部属于主谓型合成词的一组词是()。 A.眼红火红 B.狐疑笔直 C.胆怯眼热 D.瓦解冰释 14、加下划线的词在句中使用比喻义的是()。 A.他为此费尽了心血 B.阴谋宣告破产 C.月光如水 D.像金刚石一样坚硬 15、从语义场的种类来看,属于关系义场的一组词是()。 A.买—卖 B.工业—农业 C.站—坐 D.会计—出纳 16、下列各组短语中,加下划线的词不属于多义词的是()。 A.背心上长疮了买了一件背心 B.谷底有条河二月卖新丝,五月粜新谷 C.给年青干部加担子农民挑着担子赶集 D.讲讲文章的大意你太大意了 17、属于互补(绝对)反义义场的一组词是()。 A.前进—后退 B.好—坏 C.崇高—渺小 D.运动—静止 18、跟“野生”词性相同的是()。 A.女式 B.男士 C.出生 D.野游 19、“秘密让他发现了”“让他先发言”,其中的“让”()。 A.都是动词 B.都是介词 C.前一个是动词,后一个是介词 D.前一个是介词,后一个是动词 20、下列句子中,疑问代词表示任指的是()。 A.你想说什么? B.你确实什么也没有说过吗? C.他可能有什么心事。 D.我知道他想说什么。

相关文档
最新文档