合成词结构数据库

合集下载

合成词词性合成规律

合成词词性合成规律

合成词词性合成规律

合成名词的主要构成方式

名词+名词:class-room 教室,news-paper 报纸,school-boy 男生

形容词+名词:green-house 温室,black-list黑名单,sick-bed 病床

动词+名词:break-water 防波堤,scare-crow 稻草人,written English 英语书面语

副词+名词:out-break 爆发,over-coat 外套大衣,inside 内部

名词+介词短语:son-in-law 女婿,editor-in-chief 总编辑,man-about-town 花花公子

二、合成形容词的主要构成方式

名词、形容词或副词+ 形容词:snow-white 雪白的,red-hot 炽热的,ever-green 四季常青的

名词、形容词或副词+分词:hand-made 手工的,good-looking 好看的,well-informed 消息灵通的

形容词+名词:first-rate 第一流的,bare-foot 赤脚的

形容词或名词+名词+ed:open-minded 胸怀宽广的,white-haired 白发的;iron-willed 意志坚强的

三、合成形容词的主要构成方式

副词+动词:overcome 克服,uphold 支持,outgrow长得比...快(大)

名词+动词:sun-bathe晒日光浴,water-cool 用水冷却,face-lift 翻新门面/作整形手术

四、合成副词的主要构成方式

名词+名词:sideways 横着,upward 向上的

三音节合成词新词语语义构词规则研究

三音节合成词新词语语义构词规则研究

【摘要】学者们针对语素义之间的语义关系的研究,取得了突出的成就,但并没有面向计算机。随着信息技术的兴起,给计算机制定一套理解和识别词语的规则就成了一项新课题

【关键词】语素义;语义关系;计算机

一、引言

1、研究综述

关于构词法,早在1898年出版的《马氏文通》就有涉及,而后胡以鲁、吕叔湘等先生对语法构词进行了研究。张志公、陆志韦、孙常叙等也对语法构词提出了自己的见解。在经过诸家的研究以后,达成一个共识,语法构词分为:联合、偏正、动宾等。上世纪80年代,学者们认识到构词法不仅和语法有关,还和语义有关。于是开始探讨构成词的语素意义是如何结合成词,语素义和词义的具体关系问题等。

学者们针对语素义之间的语义关系的研究,取得了突出的成就,但并没有面向计算机。随着信息技术的兴起,给计算机制定一套理解和识别词语的规则就成了一项新课题了。在大规模语料库的基础上,根据义位与语素义之间的语义关系,来统计研究语义构词规则仍处于探索阶段。目前面向计算机的构词研究已经有了一些成果,主要是在语素资源建设及构词规律的统计方面,并没有将语素构词方式的统计研究中所得到的统计规律在工程实践中应用。本文从义类的角度出发,在广泛吸收已有成果,深入分析总结新词语语义构词规则,找出三音合成词的语义组合规律。对其语义构词规则的探索,有助于语义构词法研究的深入和发展,丰富和完善汉语词汇语义学理论。

2、语义构词规则研究的方法

(1)采用语料库的方法。选取一定数量的三音节合成词新词语,利用“汉字义类信息库”对构成三音节合成词新词语的每个字进行语义标注,建成大型的《汉语语义构词数据库》并进行统计归纳。

基于《汉语语义构词数据库》的D+A双音合成词研究

基于《汉语语义构词数据库》的D+A双音合成词研究

词 性 上 , 则 由原 来 的 不 及 物 动 词 逐 渐 发 展 为及 物 动 词 , 并 且 义 项 不 断 增 加 。 “ 力 ”一 词 发 展 变 化 的旅 程 还 没有 结 给
S c i 1 n ” 没 有 按 照 所 表 达 的意 思 归 化 翻 译 成 英 文 , ek 1 ig


语 语 法 学 较 关 注 的 问 题 。 随着 中 文 信 息 处 理 的 发 展 , 为 使 为基 础 , 结合 《 代 汉 语 词 典 》 和 《 词 语 大 词 典 》 ,从 现 新 计 算 机 更 好 地 处 理 中 文信 息 , 人 们 对 汉 语 构 词 法 的 研 究 又 中 选 取 了 5 3 6 双 音 合 成 词 , 用 计 算 机 结 合 《 字 义 类 26个 汉 有 了 更 多 需 求 , 也 取 得 了 许 多研 究 成 果 。 总 的看 来 ,学 者 信 息 库 》 的 信 息 给 所 选 词 的每 个 字 标 注 义 类 标 记 和 简 单 释 汉 们 多着 眼 于 语 法 形 式 研 究 构 词 法 ,揭 示 词 的结 构 类 型 、 构 义 ; 最 后 , 经 人 工 校 对 ,建 成 了 《 语 语 义 构 词 数 据 库 》 词 的 语 素类 型 与词 性 之 间的 关 系 等 。而 基 于 语 义 的 汉 语 构 词 ( 下 称 数 据 库 ) 。 数 据 库 采 用 以下 语 义 类 标 记 大 类 : 以 . . . . . . 法 研 究 近 年来 刚起 步 ,虽 然 也 取 得 了 一些 成 果 ,但 总 的 说 这 A 人 、B 物 、C 时 间 与 空 间 、 D 抽 象 事 物 、E 特 征 、F 动 些 成 果 还 不够 细致 。 因此 ,面 向信 息 处理 的 以大 规 模 标 注 语 作 、 G 心 理 活 动 、H 活 动 、 I 现 象 与 状 态 、 J 关 联 、 K 助 . . . . . 料 库 为基 础 的汉 语 语 义 构词 规 则 的研 究 和 总 结 势在 必 行 。 语 、 L 敬 语 。在 此 工 作 的 基 础 上 再 归 纳 ,总 结 出 了汉 语 双 .

2017高考考纲合成词汇总

2017高考考纲合成词汇总

Module Six Book One Period Three Grammar

全国高考考纲词汇合成词汇总(270)

afternoon n. 下午; 后期, 后部

aircraft n. 飞机, 航空器

airline n. 航空公司; 航线

airplane n. 飞机

airport n. 机场; 航空站

alongside prep. / adv. 在…的侧面; 在…旁边; 与…并排anyhow adv. 无论如何; 总之; 不管怎样; 随随便便background n. 背景; 底色; 背景资料; 配乐ballpen n. 圆珠笔

basketball n. 篮球

bathroom n. 浴室; 卫生间; 盥洗室

beforehand adv. 提前; 事先, 预先

blackboard n. 黑板

blackmail n. 敲诈, 勒索

blacksmith n. 铁匠, 锻工; 打铁工人

blueprint n. 蓝图, 设计图; 计划大纲; 原本breakdown n. 分解; 崩溃, 倒塌; 损坏, 故障breakfast n. 早餐, 早饭; 早餐食物

breakthrough n. 突破; 穿透; 重要技术成就briefcase n. 公文包; 公事包; 手提箱; 手提包broadcast vt. 广播; 播放; 使广为人知

butterfly n. 蝴蝶; 蝶泳; 轻浮的人; 游手好闲的人bypass n. 旁道, 支路; 迂回管道

cardboard n. 硬纸板; 纸板箱; 卡(片)纸板caretaker n. 看门人; 守护者; 暂时代理的chairman n. 主席; 委员长; 委员长; 董事长classmate n. (同班) 同学; 级友

高中英语2024届高考复习合成词构成汇总(共四大类)

高中英语2024届高考复习合成词构成汇总(共四大类)

高考英语合成词构成汇总

一、合成名词

1.名词+名词

Suit套装+case箱=suitcase手提箱/衣箱

earth地球+quake地震+earthquake地震

head头+line线+headline报刊大致标题

man人+kind种类=mankind人类

egg鸡蛋+plant植物=eggplant茄子

2.形容词+名词

green绿色+house房子=greenhouse温室

high高的+way路=highway高速公路

short短的+hand手=shorthand速记

3.名词+动词ing形式

sun太阳+bathing洗浴=sun-bathing日光浴

tape磁带+recording唱片=tape-recording磁带录音

4.动词+名词

scare惊吓+crow乌鸦=scarecrow稻草人

break打破+water水=breakwater防波堤

pick挑选+pocket口袋=pickpocket扒手

5.副词+名词

in里面+land陆地=inland内陆

over超过+coat外套=大衣

6.代词+名词

he他+goat公山羊=he-goat公山羊

she她+wolf母狼=she-wolf母狼

7.动词+副词

get得到+together共同=联欢会

break打破+down下=breakdown崩溃

break打破+through穿过=breakthrough突破

8.动词ing形式+名词

dining吃饭+car车=dining car餐车

waiting等待+room房间=waiting room候诊室

_汉语水平_词汇等级大纲_双音合成词语素统计分析[1]

_汉语水平_词汇等级大纲_双音合成词语素统计分析[1]

《(汉语水平)词汇等级大纲》

双音合成词语素统计分析3

邢红兵

提要 本研究首先建立了《(汉语水平)词汇等级大纲》中全部双音节词数据库,并对双音节词的语素按义项进行了标注,进而建立了语素数据库。文章对语素数据库中语素的类型、语素的独立成词能力、语素的构词能力、语素的多义性等属性进行了统计和分析。本文认为汉语语素系统是一个非常复杂的意义系统,汉语作为第二语言学习者的语素系统的形成可能会受到语素自身特点的影响。语素教学有优势也有局限,这和语素自身的特点有关,因此,语素教学要有针对性。

关键词 双音合成词语素数据库词汇教学词汇获得

一引言

在现行的对外汉语教学语法体系中,语素一般不独立作为教学的基本单位。而对于语素在词汇习得中的作用,一直存在不同看法:一种观点是强调语素在复合词习得过程中的作用,提倡利用语素进行教学;另一种观点是强调整词的作用,不强调利用语素进行词汇教学。

大部分学者持前一种观点,也进行了相关的研究。在教学中得到体现的是汉语词汇教学中的“字本位”方法,其中以白乐桑和张朋朋(1997)、张朋朋(2002)为代表。王又民(1994)以数据库为基础,对现代汉语常用的3000词进行了词类、语素结合情况、构词方式、识词方式等方面的统计分析,提出“初级汉语词汇采用‘单音词(汉字)———语法(构词法)———复合词’一体化方法”。张凯(1997)建立了3500常用字和次常用字字库以及由70743词构成的词库,通过计算机对库中汉字的构词等级、构词率、累计构词率、完全构词、累计完全构词等信息进行统计,将3500汉字划分为五个等级,确定汉语构词基本字,提出对外汉语教学词汇量的限度。吕文华(2000)在对《(汉语水平)词汇等级大纲》语素分析的基础上构想语素教学的方案,分析了语素构词方法和功能、语素义和词义、结构义等,根据导出

合成词

合成词
汉语合成词主要有复合式、附加式、重叠式三种构词方式。
联合型(并列型): AB:A、B并列,A、B的语义关系。 由两个意义相同、相近、相关或相反的词根并列组合而成的,这两个词根的前后顺序一般不能随意调换,如 “买卖”不能说成“卖买”,也有少量可对调的,如“互相”也可说成“相互”。 举例: 偏正型: AB:前偏后正,A修饰B。 前一词根对后一根起修饰限制作用。如: 高山小说汉字公牛红色倾销飞奔 补充型: 后一词根补充说明前一词根。
26、副词+名词:构成形容词adj.或者副词adv.。例如:upstairs,downstairs,这些既可做形容词也可作 副词。
27、副词+动词:一般用来构成动词。例如:download。 28、名词+形容词:构成形容词。例如world-famous,homesick。
感谢观看
由词根和词缀构成,词缀在前的称前缀,词缀在后的称后缀。例如: 前加式(前缀加词根): 老-老乡老师老鼠老爸 第-第一第十第五 阿-阿公阿婕阿毛 后加式(词根加后缀): -子瓶子胖子孩子刀子 -头石头个头木头山头活头 -儿鸟儿花儿个儿歌儿 -性弹性硬性创造性 -的好的对的红通通的真诚的
由相同的语素所组成,可分为完全重叠式和不完全重叠式两种。 完全重叠式: 天天刚刚仅仅轻轻姐姐 其重叠的合成词和单一语素的意义相同,如“姐姐”和“姐”的意义相同。而如“猩猩”一词则不属于此类 合成词,因为“猩”单字无意,故“猩猩”是单纯词,而非合成词。 形形色色林林总总生生世世三三两两 其中的“形、色、林、总、生、世、三、两”都是语素,但“形色”、“林总”、“生世”、“三两”等不 重叠的形式则不会是词。这和大部份形容词的重叠形式,如“清清白白”、“简简单单”不同。 不完全重叠式: 毛毛雨毛毛虫泡泡糖娘娘腔等,这些词语整体一般被视为偏正型,即把重叠部分视为修饰成分。 雄赳赳醉醺醺光溜溜绿油油等,这些词语被视为后附加式,即把重叠部分视为后缀。

基于《汉语语义构词数据库》的D+A双音合成词研究

基于《汉语语义构词数据库》的D+A双音合成词研究

基于《汉语语义构词数据库》的D+A双音合成词研究

以《汉语语义构词数据库》为基础,采用定性和定量相结合及演绎与归纳相结合的方法,对数据库中语义类为D类和A类的字位所构成的双音合成词进行研究,得出D+A构成的双音合成词的义类分布情况、特点及形成这种特点的原因,以期有助于进一步研究汉语语义构词规律。

标签:字位词义义类语义构词

一、前言

汉语构词法研究是汉语词汇学研究的一部分,也是汉语语法学较关注的问题。随着中文信息处理的发展,为使计算机更好地处理中文信息,人们对汉语构词法的研究又有了更多需求,也取得了许多研究成果。总的看来,学者们多着眼于语法形式研究构词法,揭示词的结构类型、构词的语素类型与词性之间的关系等。而基于语义的汉语构词法研究近年来刚起步,虽然也取得了一些成果,但总的说这些成果还不够细致。因此,面向信息处理的以大规模标注语料库为基础的汉语语义构词规则的研究和总结势在必行。

基于此形势,亢世勇教授首先按《同义词词林》的语义分类体系给“国标GB2312”定义的6763个汉字衍生出的17430个字位(所谓“字位”就是最小的语义构词单位,即形音义一体化的字,每个字位一形、一音、一义)分类,录入数据库,建成了《汉字义类信息库》;通过统计说明字、词语义分布情况及其对应关系;又以《同义词词林》为基础,结合《现代汉语词典》和《新词语大词典》,从中选取了52366个双音合成词,用计算机结合《汉字义类信息库》的信息给所选词的每个字标注义类标记和简单释义;最后,经人工校对,建成了《汉语语义构词数据库》(以下称数据库)。数据库采用以下语义类标记大类:A.人、B.物、C.时间与空间、D.抽象事物、E.特征、F.动作、G.心理活动、H.活动、I.现象与状态、J.关联、K.助语、L.敬语。在此工作的基础上再归纳,总结出了汉语双音合成词语义构词的具体规则,即同类规则、后向型规则、前向型规则和无向型规则。

常见合成词构成法总结

常见合成词构成法总结

常见合成词构成法总结

常见合成词构成法总结

英语中很多单词是通过合成的方式来构成的,他们叫做合成词,常见合成词有合成名词、合成动词、合成形容词等几种类型。

1.合成名词

名词+名词: football足球

名词+动词: snowfall 下雪

名词+动词-ing : horse-riding骑马

名词+介词+名词: daughter-in-law儿媳

动词-ing+名词: waiting-room候车室

形容词+名词: greenhouse温室

副词+名词: income收入

介词+名词: afternoon下午

过去分词+副词: grown-up成年人

2.合成动词

名词+动词: water-cool用水冷却

形容词+动词: quick-charge快速充电

副词+动词: outact行动上胜过

3.合成形容词

名词+形容词: world-famous世界文明的

名词+动词-ing : peace-loving热爱和平的

名词+过去分词: heart-broken伤心的

动词+副词: takeaway外卖的

形容词+名词: long-distance长途的

形容词+形容词: dark-blue深蓝色的

形容词+过去分词: new-born新出生的

副词+形容词: color-blind色盲的

副词+动词-ing : hard-working勤劳的

副词+过去分词: well-known著名的

数词+名词: first-class头等的

数词+名词+形容词: ten-year-old十岁大的

数词+名词+ed : three-cornered三角的

高中英语词汇·合成词

高中英语词汇·合成词

北师大版所有高中词汇合成词

一合成词

aircraft飞机,航空器Airline航空公司,airmail 航空邮政air hostess 空姐

Lifestyle生活方式hairstyle发型Haircut理发barbershop 理发店

Paperwork日常文书,工作

Otherwise否则,要不然

Superhero超级英雄superman超人

Scholarship 奖学金ownership所有权

Sunshine阳光sunglasses太阳镜sunburnt晒黑的sunlight阳光,日光

Throughout遍及,贯穿

ballroom舞池breakdance霹雳舞breakthrough tap dancing踢踏舞

Eyesight视力sightseeing 观光,游览Eyebrow眉毛

Fairytale通话

Washroom盥洗室

Landlord房东landslide滑坡,山崩n.

Bathtub浴缸

Downtown 在市区,在市区的download下载Update更新Database数据库Windsurfing风帆冲浪white-water-rafting激流漂流bungee jumping蹦极snowboarding单板滑雪snowrafting动力雪橇滑降

Shopkeeper店主shoplifting在商店盗窃

Footprint脚印Fingernail手指甲

Northwest西北(方)northeast 东北southwest 在西南方southeast东南(方)

Somehow以某种方式anyhow总之,反正,不管怎样

构词法—-合成词

构词法—-合成词

high-school Englishman midnight
darkroom
loudspeaker 扬声器
Guess the meaning
freeway short-wave mainland
高速公路 短波 大陆
hard-seat
硬座
3. adv./ prep. + noun afternoon income 收入 outbreak 爆发 downfall 垮台,暴雨
A: sunbathe guidebook letter-box blackboard nobody sleeping-bag sky-blue balloon anyplace stomachache
B 天蓝色的 黑板 日光浴 气球 信箱 旅游指南 胃痛 没有人 睡袋 任何地方
A: anybody volleyball blue-sky notebook backache airport bookshelf snowball open-air textbook
深蓝的
长发的 一流的 手工的
snow-white 雪白的
five-year-old 五岁的
life-long
终身的
fun-loving 爱开玩笑的
III. adv. / preposition compounds
inside outside indoors outdoors upstairs downstairs

高中英语高考合成词汇总(共十五类)

高中英语高考合成词汇总(共十五类)

高考英语合成词一、名词+名词—名词

airline 航空公司;航空系统airmail 航空邮件

airport 航空站,飞机场airspace 领空,(某国的)空域background 背景

barbershop 理发店

baseball 棒球

basketball 篮球

bathroom 浴室

bathtub 澡盆

bean curd 豆腐

bedroom 寝室,卧室

birthday 生日

birthplace 出生地,故乡classroom 教室

countryside 乡下,农村cupboard 碗柜,橱柜

database 资料库,数据库doorbell 门铃

dustbin 垃圾箱

eggplant 茄子

eyesight 视力,视觉

farmland 农田

fingernail 指甲

fireworks 焰火

flashlight 手电筒

football 足球,橄榄球framework (建筑物)框架,结构greengrocer 蔬菜水果商handbag 女用皮包,手提包headline (报刊的)大字标题homeland 祖国

hometown 故乡

homework 家庭作业

housewife 家庭主妇

housework 家务劳动

human being 人,人类

ice-cream 冰激凌

keyboard 键盘

mailbox 邮筒,邮箱

mankind 人类,(总称)人motherland 祖国

motorbike (轻型)摩托车necklace 项链

network 网络,网状系统newspaper 报纸

northeast 东北

百词斩 数据库结构

百词斩 数据库结构

百词斩数据库结构

现代社会中,数据量的急剧增长催生了数据库的重要性。数据库

是一个存储和管理数据的系统,它具有特定的结构以及与之对应的操

作和管理方法。数据库结构是指数据库中各个数据元素之间的逻辑关

系和组织形式,这一结构对于数据库的性能、安全性和可维护性影响

深远。

首先,数据库结构决定了数据的组织方式。一个良好的数据库结

构应该能够将数据按照一定的规则和要求进行组织和分类。常见的数

据库结构有层次结构、网络结构、关系结构等。其中,关系结构最为

常用,它以表格的形式存储数据,并通过主键与外键的关系来进行数

据的连接和关联,使得数据之间的关系更加清晰明了。

其次,数据库结构影响了数据库的性能。一个合理的数据库结构

应该能够优化数据的存储和检索操作,提高数据库的响应速度。例如,通过将频繁被查询的数据放在一个表中,将不经常被使用的数据放在

另一个表中,可以减少查询的时间和成本。此外,通过建立索引和合

理的物理存储结构,也能够进一步提高数据库的性能和效率。

此外,数据库结构也对数据库的安全性产生影响。一个健全的数

据库结构能够提高数据库的安全性,防止数据的丢失和被非法获取。

例如,通过设定用户权限和访问控制,可以限制不同用户的数据库访

问权限,保护数据的隐私和完整性。同时,合理的备份和恢复策略也

是保证数据库安全性的重要手段,确保数据能够及时恢复和备份。

最后,数据库结构对数据库的可维护性至关重要。一个良好的数

据库结构能够简化数据库的维护工作,减少维护成本。通过灵活布局

和模块化设计,可以降低系统的复杂性,提高系统的可扩展性和可维

1词的构成(单纯词、合成词)

1词的构成(单纯词、合成词)

重叠式
妈妈 哥哥 刚刚 偏偏 仅仅 爸爸 姐姐 常常 尝尝 稍稍 叔 叔 宝宝 星星
! 注意叠音词和重叠式合成词的区别
叠音词是由一个语素构成的,不能单用。 重叠式合成词是由两个相同的语素重叠而成的,可以单用。
2020/3/20
19
6、附加式:组合成词的两个语素中,有一个表示实 在意义(词根);另一个不表示实在意义(词缀) 只作为辅助成分,附加在表示实在意义的语素的前 头或后头。
• 如:烂漫、从容、彷徨、窈窕、逍遥、哆嗦、
翩跹、叮咛
• 其202他0/3:/20 非双声、叠韵的连绵词。
7
• 如:芙蓉、蝴蝶、蝙蝠、蛤蚧
• (2)音译外来词: • 如:咖啡、沙发、巧克力、安乃近、
白兰地、葡萄、奥林匹克、迪斯 科、布尔什维克
• (3)叠音词:由两个相同的音节相叠 而成。(注意:相叠后还是一个语素, 不能拆开)
④ 二、用横线画出下列句子中的语素 1、奥林匹克运动会。 2、我很爱吃巧克力。 3、园中的葡萄熟了。 4、学生在山上植树。
2020/3/20
4
二、词的构成
• 一般而言,从意义形式上看,词由语素构成。
• 两种标准,不同分类。
•词
•单纯词:由一个语素构成 的词。
(按意义形式分)
•合成词:由两个或两个以 上语素构成的词。
2
1.语素有两个特点:一是最小的,不能再分割的; 二是有意义的。

合成词的类型

合成词的类型

合成词的类型

合成词类型结构:主谓结构、述宾结构、述补结构、偏正结构、联合结构。合成词是两个或两个以上的词素构成的词。由词根和词根合成的叫复合词,如:朋友、火车、立正、照相机;由词根加词缀合成的叫派生词,如:桌子、花儿、木头、阿姨。

合成词类型结构介绍

1、主谓结构:是实词和实词组合的短语,这种短语主要按照短语内部各组成成分之间的语法关系,兼顾词性和语序构成。

2、述宾结构:述宾结构又称为动宾结构。所谓“宾”是指宾语,即是该结构中后面的成分,这个成分受到结构中的第一个成分所支配或关涉;而“动”或“述”就是指该结构中,前面的那个成分,它所提及的动作或现象支配了或关涉到其后的宾语。

3、述补结构:述补结构是短语的结构分类之一,它的前后两个组成部分称为述语和补语。述补短语又称为动补短语、中补短语、后补短语、谓补短语。补语是用来补充说明述语的动作行为的情况、结果、处所、数量、时间等。

4、偏正结构:一般指偏正短语,指由修饰语和中心语组成的、结构成分之间有修饰与被修饰关系的短语。如:老年(形容词+名词)、晚霞(形容词+名词)、慢走(副词+动词)、大器晚成(名词短语+动词短语)。

5、联合结构:联合结构的构成成份在语法上是平等的。

合成词短语和句子结构

合成词短语和句子结构

第五章汉语语法(二)

──合成词、短语和句子结构

第一节合成词的构成方式

古代汉语以单音节为主,合成词极少。这一节所说的合成词,主要是指现代汉语的合成词。绝大多数现代汉语合成词由两个语素构成,这两个语素之间存在着一定的关系。由三个或三个以上语素构成的合成词的内部存在着两层以上的关系。

在构词中体现基本意义的语素(成词实素或不成词实素)叫做词根,粘附在词根的前后表示附加意义的语素(不成词虚素)叫做词缀。根据词根、词缀的结合情况,合成词的结构方式分为复合式、附加式、重叠式等三种类型。

一、复合式

复合式合成词由不同的词根结合而成。这是汉语构词中最重要、最能产的结构类型。从词根与词根的关系来看,又有以下五种类型。

⒈联合式由两个意义相同、相近、相关或相对、相反的词根并列组合而成。例如:

⑴朋友模范海洋功劳

离别爱护吹嘘追逐

戏弄富饶懒惰俭省

⑵医药风沙身心手足

粮草笔墨领袖江山

廉耻情景灯火势利

户酒肉水土忠义

⑶开头东西早晚始终

甘苦左右是非褒贬

收发出纳买卖呼吸

彼此雌雄利害轻重

⑷国家窗户动静好歹

构成⑴组合成词的两个词根意义相同或相近;构成⑵组合成词的两个词根意义相关,都属于同一类的事物;构成⑶组合成词的两个词根意义相对或相反。⑷组的合成词只有一个词根的意义起作用,通常叫做偏义词。

⒉偏正式前一个词根修饰、限制后一个词根,以后一个词根的意义为中心构成词义。

⑴火车紫菜梁桥鸡蛋

忠告丰收公审复印

闷热鲜红高级大型

⑵跳棋跑鞋弃儿煎饼

飞机存款宿舍舞场

⑶冰释鼎立响应瓦解

龟缩蜂拥蛇行蚕食

⑷笔直冰冷火热肤浅

草绿雪白枣红银灰

构成2组合成词的两个词根是修饰与被修饰的关系,而不是支配与被支配的关系。“跳棋”与“象棋”、“围棋”、“军棋”结构相同,而与“跳舞”、“跳水”、“跳伞”结构不同。“跑鞋”与“皮鞋”、“球鞋”、“冰鞋”结构相同,而与“跑步”、“跑外”、“跑面”结构不同。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

现代汉语合成词结构数据库

刘云俞士汶朱学锋

摘要本文主要介绍了北京大学计算语言学研究所开发的现代汉语合成词结构数据库,并从未登录词的识别和为对外汉语教学研究提供依据这两个方面探讨了现代汉语合成词结构数据库的应用。

关键词现代汉语合成词结构数据库

Construction of the Contemporary Chinese Compound Words Database and its Application

Abstract In this paper the authors offer an introduction to the contents and use of the compound words database of contemporary Chinese constructed at Peking University.The paper also includes an introduction to the application of the word formation database.

KEYWORD Contemporary Chinese,Compound Words, Construction,Database

1.引言

为研究现代汉语复合词的构造规律和未登录词的识别,北京大学计算语言学研究所针对《现代汉语语法信息词典》中的所有双音节和三音节词,开发了一个现代汉语合成词结构数据库。这项工作与《现代汉语语素库》都是对《现代汉语语法信息词典》的补充。自1986年以来,北京大学计算语言学研究所和中文系合作,历时十余载,于1995年底研制出了《现代汉语语法信息词典》,其规格说明书全文发表在1996年第2期《中文信息学报》上,更详细介绍这部词典的专著《现代汉语语法信息词典详解》于1998年4月由清华大学出版社出版。(俞士汶等1998)并于1998年研制出《现代汉语语素库》,这些都在汉语信息处理领域发挥了重要的作用。(俞士汶等1999)

《现代汉语语法信息词典》共收入51696个词语,其中单音节词3803个,双音节词32711个,三音节词7926个,四音节词7220个。由于单音节词没有内部结构,四音节词暂时还没有考虑,所以数据库的登录项实际上是在《现代汉语语法信息词典》中的40637个双音节词和三音节词中选择的。由于单纯词(460个)是一个整体无法再进行结构分析,人名(75个)、地名(462个)对研究现代汉语汉语的构词规律作用不大,所以该数据库把这三类词排除在外。这样现代汉语合成词结构数据库实际登录的词共有39370个。(为称说方便,以下简称构词库)本文将介绍这个构词库的主要内容及其应用。

2.合成词构造的属性描述

对于一个词语可从两个方面考察,如果从这个词语的整体而言,则可考察其外部功能;如果从这个词语的局部而言,则可考察其内部构造。就现有的研究成果来看,学者们把目光更多地投向了外部功能,诸如词语的词性考察,句法功能的考察等等。对于词语的内部构成的考察则显得门庭冷落。难怪张旺熹、崔永华两位先生在总结了对外汉语教学语法研究所取得的成就之后,指出了尚存的不足,其中的第一个方面就是“语素、构词及语段研究严重缺乏”,并指出“加强汉语语素和构词研究是推动对外汉语教学发展的需要”。(张旺熹、崔永华1999)由此可见,不仅中文信息处理界对语素和构词研究极为重视,对外汉语教学界对语素和构词研究也极为关注。但自从陆志韦等著的《汉语的构词法》出版后,语言学界对词语的构造始终未能给予足够的关注,尚没有更大规模、更深入的研究成果问世。值得欣慰的是,清华大学计算机系建立了一个大规模的汉语语素数据库,并且在汉语语素库的基础上建

立了汉语构词知识库。(苑春法、黄昌宁1998)这是一种从下往上的研究方式,我们采取的是一种从上往下的研究方式。我们是在已有的《现代汉语语法信息词典》的基础上,采用相应的标记集对汉语的构词方式进行研究,而且还对构词的层次进行了分析。

要完整地描述词语的构造,就需标出整个词语的结构性质和词语组成部分的性质。如对于定中式的名词而言,可以是“名+名”(如“铁路”“信纸”)、“形+名”(如“温泉”“红旗”)、“动+名”(如“燃料”“刊物”)、“数+名”(如“八股”“千金”)、“代+名”(如“他人”“何处”)等,如果不标出词语组成部分的性质,那么这种描述就不够精细。同样对于“动+动”结构而言,可以是联合式(如“斗争”“转折”)、述宾式(如“罢教”“挨打”)、连动式(如“听写”“截获”),也可以是状中式(如“迁就”“捐助”)、述补式(如“推翻”“打倒”),可见如果不标明整个词语的结构性质,那么这种描述也是不够精细的。所以构词库对每个词语组成部分的性质和词语的结构性质都作了详尽的标注。

对于词语组成部分的性质,我们主要是依据组成部分的语素在合成词中的作用来标明语素的语素类。如读“song1”的“松”在“松树”中,是树的名称,起名词性作用;“松”在“疏松”、“松软”等词语中是“松散”义,起形容词性作用。语素在复合词中的作用可用“替换法”进行检测。之所以说“松”在“松树”中起名词性作用,是因为“松”可用“桃”替换,得到的“桃树”与“松树”都是树,属于同一语义范畴,“桃”是名词,故可推断这里的语素“松”也是名词。又之所以说“松”在“疏松”、“松快”等词语中起形容词性的作用,是因为“疏松”中的“松”可用“软”替换,“松快”的“松”可用“轻”替换,词义基本不变,而“软”“轻”都是形容词性的,故可推断“松”起形容词性作用。这样就可以给合成词中的语素分类,起名词性作用的就叫“名语素”,在“前字”和“后字”字段中就填为“n”;起动词性作用的就叫“动语素”,在“前字”和“后字”字段中就填为“v”,如此等等。(可参见俞士汶等1999)

对于整个词语的结构性质,我们首先把合成词分为附加式、复合式、重叠式和简称四大类,然后在每个大类下面再细分成各种小类。附加式分为前接式、后接式两小类;复合式分为联合式、连动式、定中式、状中式、述宾式、述补式、补充式、主谓式等八小类;简称可分为缩减式和标数式两小类。为填写方便,一律使用简称。“前”代表“前接式”,“后”代表“后接式”,“联”代表“联合式”,“连”代表“连动式”,“定”代表偏正式的“定中结构”,“状”代表偏正式的“状中结构”,“述”代表“述宾式”,“补”代表“述补式”,“充”代表“补充式”,“主”代表“主谓式”,“重”代表“重叠式”,“缩”代表“缩减式”,“数”代表“标数式”。

此外,对于三音节合成词还进行构词层次上的分析。可分为三种情况。第一种是1+2模式,如多媒体、单音节等;第二种是2+1模式,如消费品、救济粮等,这种模式还包括一种比较特殊的情况,即前两个字分别修饰第三个字,如“白矮星”中的“白”和“矮”分别修饰“星”,“左右手”中的“左”和“右”分别修饰“手”,在层次上也看作“2+1”模式;第三种是1+1+1模式,如短平快、高精尖等,这种模式还包括三个字之间的关系不容易确定的情况,如“安理会”是“安全理事会”的简称,简称后“安”与“理”不能组合,同样“理”与“会”也不能组合(这与动词性的“理会”不同),这种情况在层次上也看作“1+1+1”模式。双音节合成词的儿化不作为三音节词,如“挨个儿”是“挨个”的儿化,所以对这类词不进行层次分析。当然,如果三字词中的“儿”不是用来儿化的,还是应当分析其层次,如名词性的“早产儿”等。同样三音节词的儿化仍作为三音节词,如“疤瘌眼儿”仍需进行层次分析。

按理说,四字词也应进行整体结构性质、组成部分的性质和层次的标注,但考虑到本项研究主要是针对中文信息处理中的未登录词的识别和复合词的构造规律,所以暂时没有对四字词进行进一步的标注。

相关文档
最新文档