三音节合成词新词语语义构词规则研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【摘要】学者们针对语素义之间的语义关系的研究,取得了突出的成就,但并没有面向计算机。随着信息技术的兴起,给计算机制定一套理解和识别词语的规则就成了一项新课题
【关键词】语素义;语义关系;计算机
一、引言
1、研究综述
关于构词法,早在1898年出版的《马氏文通》就有涉及,而后胡以鲁、吕叔湘等先生对语法构词进行了研究。张志公、陆志韦、孙常叙等也对语法构词提出了自己的见解。在经过诸家的研究以后,达成一个共识,语法构词分为:联合、偏正、动宾等。上世纪80年代,学者们认识到构词法不仅和语法有关,还和语义有关。于是开始探讨构成词的语素意义是如何结合成词,语素义和词义的具体关系问题等。
学者们针对语素义之间的语义关系的研究,取得了突出的成就,但并没有面向计算机。随着信息技术的兴起,给计算机制定一套理解和识别词语的规则就成了一项新课题了。在大规模语料库的基础上,根据义位与语素义之间的语义关系,来统计研究语义构词规则仍处于探索阶段。目前面向计算机的构词研究已经有了一些成果,主要是在语素资源建设及构词规律的统计方面,并没有将语素构词方式的统计研究中所得到的统计规律在工程实践中应用。本文从义类的角度出发,在广泛吸收已有成果,深入分析总结新词语语义构词规则,找出三音合成词的语义组合规律。对其语义构词规则的探索,有助于语义构词法研究的深入和发展,丰富和完善汉语词汇语义学理论。
2、语义构词规则研究的方法
(1)采用语料库的方法。选取一定数量的三音节合成词新词语,利用“汉字义类信息库”对构成三音节合成词新词语的每个字进行语义标注,建成大型的《汉语语义构词数据库》并进行统计归纳。
(2)定量与定性相结合的方法。在大规模语料库的基础上,增加新的三音合成词,这是量的准备。在标注《汉语语义构词数据库》时,前人归纳的规则,同样适用于三音合成词,对其的语义构词规则进行定性分析。
(3)人际互助的方法。通过技术深入挖掘数据,最终实现自动提取语义构词的规则。
二、新词语语义构词数据库的建构与实现
1、新词语数据库收词
本文以《现代汉语字典》、《新词语大辞典》为基础,从1978年以来出现的新词语中选取了7709个三音合成词,用《汉字义类信息库》对这些三音节词的各个字进行了义类标记,并进行人工校对。由于篇幅有限,本文只研究a+b+c=(a+b)+c类,共计3451个三音节合成词。收词原则为适用性原则、规范性原则、稳定性原则。
2、数据库中的义类体系标记及标注
(1)数据库中的义类体系标记
采用梅家驹《同义词词林》的义类标注体系,分为12个大类,94个中类,1428个小类。如: a人:aa泛称、b物:ba统称、c时间与空间:ca时间、d抽象事物:da事情、e特征:ea外形、f动作:fa上肢动作、g心理活动:ga心理状态、h活动:ha政治活动、i现象与状态:ia自然现象、j关联:ja联系、k助语:ka疏状、l敬语。
(2)数据库中的义类体系标注
本文的标注方式为:以梅家驹先生《同义词词林》的义类标注体系为基础,对三音节合成词新词语进行人工语义标注。而后计算机以“汉字义类信息库”为基础,根据九类规则对三音节合成词新词语的词或语素进行语义标注。最后,由人工进行辅助校对,通过access 软件进行数据提取并得出相关数据。本文只研究类型一。
3.新词语语义构词数据库样例
三、a+b+c=(a+b)+c类型语义构词规则研究
1、词的义类情况
(1)义类为a类的词语
词的义类为a的词语共389个,占11.3?。构成a类词的方式有a+x[2]=a、b+x=a、c+x=a、d+x=a、e+x=a、f+x=a、g+x=a、h+x=a、i+x=a、j+x=a、k+x=a、l+x=a。其中,h+x=a为134个,占34.4?。而h+x=a中存在四种类型。即h+a=a、h+b=a、h+d=a、h+k=a。其中,h+a=a 为111个,占82.8?。由此可见,h类“活动”的双音合成词加上a类“人”的词语,在义类为a的词语中占优势,如:服务员。说明在构成a类的三音合成词时的构词倾向为“活动”加“人”。
(2)义类为b类的词语
词的义类为b的词语共计1128个,占32.7?。构成b类词的方式有a+x=b、b+x= b、c+x= b、d+x= b、e+x= b、f+x= b、g+x= b、h+x= b、i+x= b、j+x= b、k+x= b、l+x= b。其中,b+x= b为294个,占26?。而b+x=b中存在八种类型。即b+a=b、b+b=b、b+c=b、b+d=b、b+e=b、b+g=b、b+h=b、b+i=b。其中,b+b=b为237个,占80.6?。通过分析可知, b+b=b,在其中占比最大,如:煤气罐。由此看出,词义为b 的三音合成词的组成部分多为为b类。
(3)义类为c类的词语
词的义类为c的词语共计241个,占6.98?。构成c类词的方式有a+x=c、b+x=c、c+x=c、d+x=c、e+x=c、f+x=c、g+x=c、h+x=c、i+x=c、j+x=c、k+x=c、l+x=c。其中,d+x=c为63个,占26.1?。而d+x=c中存在五种类型。即d+b=c、d+c=c、d+d=c、d+e=c、d+h=c。其中,d+c=c为41个,占65.1?。以上数据表明,语义为c的三音合成词多是由d“抽象事物”加c “时间与空间”组成的。如:英语角。
(4)义类为d类的词语
词的义类为d的词语共计1455个,占42.2?。构成d类词的方式有a+x=d、b+x=d、c+x=d、d+x=d、e+x=d、f+x=d、g+x=d、h+x=d、i+x=d、j+x=d、k+x=d、l+x=d。其中,d+x=d为417个,占28.7?。而d+x=c中存在十种类型。即d+a=d、d+b=d、d+c=d、d+d=d、d+e=d、d+f=d、d+g=d、d+h=d、d+i=d、d+k=d。其中,d+d=d为367个,占87.8?。如:心理战、刑侦学、妇产科等。由此看出,构词d类语义的三音合成词多由相同义类的双音合成词加语素构成。如:心理战。(5)义类为e类的词语
词的义类为e的词语共计23个,占0.67?。构成e类词的方式有b+x=e、c+x=e、d+x=e、e+x=e、h+x=e、i+x=e、k+x=e。其中,d+x=e为11个,占47.8?。而d+x=e中存在四种类型。即d+d=e、d+e=e、d+g=e、d+i=e。其中,d+g=e为6个,占54.5?。d+g=e在词义为e类的三音合成词中的占比过半。这说明表“特征”的词往往是有表“抽象事物”词和表“心理活动”的语素组成。如:科学美。
(6)义类为f类的词语
词的义类为f的词语共计11个,占0.32?。构成f类词的方式有a+x=f、b+x=f、c+x=f、d+x=f、e+x=f。其中,b+x=f为5个,占45?。而b+x=f中存在一种类型。即b+f=f。b+f=f 在词义为e的三音合成词中占比最大,如:日光浴。由此得出,表示“物”的词语与表示“动作”的语素最易结合成表示成表示“动作”的三音合成词。
(7)义类为g类的词语
词的义类为g的词语共计4个,占0.116?。构成g类词的方式有c+x=g、d+x=g、e+x=g。其中,e+x=g为2个,占50?。而e+x=g中存在二种类型。即e+d=g如:窝囊气、e+g=g 如:冰凉感。义类为g的三音合成词数量较少。其组成形式有:e+d=g、e+g=g为、d+g=g、d+g=g。由此看出,在词义为g的三音合成词中,x+g=g的形式占比最大。说明三音合成词的词义与