现代汉语类词缀的定量与定性研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
现代汉语类词缀的定量与定性研究
【作者】曾立英
【作者简介】曾立英,女,现为中央民族大学国际教育学院教师,2006年毕业于北京大学中文系,获博士学位,2008年7月于北京大学计算语言学研究所博士后出站,主要研究领域为词汇学、句法学、对外汉语教学和计算语言学(中央民族大学国际教育学院100081)。
一、引言
随着越来越多的新词语的出现,如“先导型、瑜伽热、舒适度、上班族、里程碑式”等,引导我们思索现代汉语构词的规律。像“型、热、度、族、式”这一类的语素构词很有规律,构成的词数量也多,构成的词语不可能都收入词典,比如1998年和2000年《人民日报》语料中有340个“XX型”的词语出现,如“技能型、搬运型、板块型、闭合型、便捷型、标准型、参与型、成年型、城郊型”等等。为了解释现代汉语构词法中的这一类现象,我们有必要引入语言学中的“类词缀”的概念。
关于“类词缀”的定义、性质、范围和分类的探讨,语言学界主要有赵元任(1968)、吕叔湘(1979)、汤廷池(1992)、陈光磊(1994)、马庆株(1995)、朱亚军(2001)、富丽(2001)、王洪君、富丽(2005)、冯敏萱等(2006)等。在汉语构词法著作和论文中,对于词缀或类词缀,一般只是列举性的说明,少有穷尽性的研究,本文基于北京大学计算语言学研究所的《现代汉语语法信息词典》8万词的词库,对每一个词的构成进行分析,穷尽性地考察类词缀。
中文信息处理学界对于“词缀”和“类词缀”,主要是从应用的角度去制订分词规则和词表,如刘源等(1994)、中央研究院的中文词知识库小组(1996)、吴赣(1998)、孙茂松等(2001)都谈到了对“词缀”“接头词”“接尾词”的处理,但是各家所列的类词缀的范围都不一致,需要进一步探讨类词缀的确立标准,以期更加深入地了解其构词规律。
二、类词缀的定量研究
关于类词缀的范围,各家确立的内容都不一样。如吕叔湘(1979)针对“汉语里地道的语缀不很多”的现象,提出了“类语缀”一说,并列举了“可—、好—、难—、准—、类—、亚—、次—、超—”等18个类前缀和“—员、—家、—人、—民、—界、—物、—品、—度”等23个类后缀。汤廷池(1992)则列出了“阿、老、小、打、见、可、难、好、而、以、第、初、不、非、反”等15个词首以及“人、师、员、士、生、手、派、性、度”等48个词尾。朱亚军(2001)所列的词缀,包括前缀22个,指“阿、半、本、不、超、初、打、单、第、多、反、泛、非、分、副、该、可、见、老、所、总、准”;后缀39个,指“巴、处、达、得、度、儿、法、分子、鬼、汉、化、件、家、匠、角、界、具、率、论、迷、派、品、气、然、热、师、士、式、手、坛、腾、头、性、学、员、者、子、族、主义”。
刘源等(1994)有“完全虚化的前后加成分”“部分虚化的前后加成分”以及“接头词和接尾词、不虚化或基本不虚化”之别,采取了一种分层处理的方式,共列了15个前加成分和22个接头词、32个后加成分和98个接尾词。台湾中研院则列举出了9个前缀和41个接头词、20个后缀和441个接尾词。《现代汉语语法信息词典》(以下简称《语法信息词典》)收录了前接成分11个,后接成分43个,前缀包括“阿、超、非、过、老、微、伪、小、以、之、准”等11个,后缀包括“赛、办、式、边、长(zhǎng)、场、单、度、堆、儿、方、感、观、乎、化、机、计、家A、家B、界、老、狂、率、论、们、面、品、器、然、生、手、体、头、型、性、学、炎、业、仪、员、者、制、子”等43个。
本文对于类词缀的研究是建立在定量研究的基础上,定量研究选取的词库是北京大学计算语言学研究所开发的《现代汉语语法信息词典》数据库。《语法信息词典》1998年第1版
收录了现代汉语词语5万多条,2003年第2版增加至7.3万余条(参见俞士汶等,2003),到目前增加至8万条。该词典采用关系数据库的文件格式。本文就是基于这个丰富的词库,并结合1998年全年《人民日报》语料库,对类词缀首先进行定量研究;所以本文对类词缀的研究不是凭经验、凭语感的选取,而是基于对语料库的统计和分析而得出的。
按照王洪君、富丽(2005),在体词性的范围内,词缀的核心搭配范围在单音字,延展到了一部分双音词;类词缀与单音字的搭配已不太自由,其核心搭配已转移到了双音词,并延展到了多音节词和类词。于是我们选取了词库中的三字词来穷尽性的调查类词缀。本文首先对《语法信息词典》80685个词进行切分分析,切分过程中有一条原则就是对二字词不切分,发现有很多三字词可以切分,我们于是在80685词中抽取出13778个三字词,并抽取出《人民日报》1998年上半年语料库中的17848个三字词作为参照。
我们考察三字词中的类后缀的工作流程如下:对8万词库中的13778个三字词的位于词末的语素进行再抽取,共有1539个字,把这1539个单字在数据库中按照构词频率排列,词频高的前50位分别是:子、性、机、器、学、人、员、化、会、品、者、儿、率、法、费、家、病、部、表、剂、线、权、车、力、量、站、队、式、室、花、片、物、纸、生、业、体、石、头、词、面、期、书、场、油、图、素、炎、点、虫、院,这前50个字的构词频率都在53次以上。词频低的后50位分别是:妻、浅、签、千、传、汽、喘、棋、脐、喷、凄、抢、谱、浦、泼、坪、频、篇、屁、春、皖、戚、卿、染、犬、醛、丑、趣、渠、黢、屈、出、欠、囚、川、沁、勤、储、怯、俏、瞧、黜、蟆、跑、除、曼、朦、氓、闷、搭。词频低的后50位根本没有可能成为类词缀,词频高的前50位有潜能成为类词缀,最后的定性还要结合别的因素加以考虑,后文将加以论述。
我们按照上一段同样的方法抽取类前缀,得到词频由高到低的前10个汉字是:大、电、小、老、水、打、中、地、白、保。这些语素是否以“类前缀”的方式构词,都有待于后面有关类词缀的定性的验证。
三、类词缀构词的特征
关于类词缀构词特征的探讨,前贤已经讨论得很多,如对类词缀虚化、定位性、构词的能产性、结构的粘附性、语音的弱化性等多有探讨。这里要强调的是我们讨论类词缀的特征是采取一种实证式的考察,比如考察类词缀的能产性,不是举几个构词能力强的类词缀的例子;而是在数据库中全面系统地考察单音节语素,列出每个类词缀在词库中的构词词频;考察类词缀的定位性,就对每个类词缀在词中的位置加以统计说明;考察类词缀的虚化义,就对每个类词缀是在哪个义项上虚化加以说明。因此,本研究是一种实证式研究,有统计的方法,也有定性的逐一考察。考察的类词缀的构词特征拟从能产性、定位性、意义虚化与否及成词与否等四个方面加以说明。
3.1能产性
类词缀的构词能力强,它在现代汉语构词和中文信息处理的分词中起着重要作用,是现代汉语词汇中的构词部件,所以我们需要把类词缀从语素库中提取出来。
《语法信息词典》收词规模属于中型,目前收录了8万多词,收词是很精炼的,对于有一些能用规则控制的词,8万词是不会穷尽性地收录的。即便如此,有些语素在词库中构词频度非常高,我们采取统计的方法排查出了一些能产性非常强的语素。
前面提到我们对《语法信息词典》三字词中的位于词末的语素进行过抽取,按构词频率由高到低排列的前11位语素分别是:子、性、机、器、学、人、员、化、会、品、者。这前11个语素中,“子”为真词缀,“性、学、员、化、品、者”这几个语素我们列为类词缀,是基于它们的能产性、定位性和虚化义来考虑的。我们把“机、器”列为类词缀的原因是基于“机、器”的构词频度高,这两个不成词语素在8万词库中的13778个三字词中的构词词频高达238次和215次,形成了各种各样的“XX机”和“XX器”结构,如“电报机、锁边