面向中文信息处理的“N+V”结构的句法语义研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
面向中文信息处理的“N+V”结构的句法语义研究
————————————————————————————————作者:————————————————————————————————日期:
面向中文信息处理的“N+V”结构的句法语义研究-汉语言
文学
面向中文信息处理的“N+V”结构的句法语义研究
摘要:立足于面向计算机的语言本体研究,从切分语料中选择数条N+V 结构,从句法、语义和语用特征的角度探索该结构形成歧义的原因,找寻搭配两个成分的搭配规则,并将之形式化,进而制定相应的机用识别策略,从而提升计算机对该结构进行分析的能力。
关键词:中文信息处理“N+V”结构自动消歧
“N+V”格式是一种比较常见的同形异构结构,虽然表层形式简洁,从层次划分上不存在困难,但是内部可能存在不同的语法关系、语义关系。
一、“N+V”结构本体分析
(一)“N+V”结构的语法关系
本文所指“N+V”结构是指可以自足的、无其他成分或标记的合法语言单位,不包括“把N+V了”“N的V”等结构形式。
根据冯志伟先生的潜在歧义理论,我们将这种结构底层存在的语法关系区分如下:
主谓关系,其中“N”作主语,“V”作谓语,二者之间是陈述与被陈述的关系,如:粮食丰收、妈妈做饭、小二黑结婚;
偏正关系,其中“N”为修饰语,“V”是中心语,如:口头创作、直线上升、文艺演出、汽车制造、语言研究、核试验;
既可以分析成主谓关系也可以分析成偏正关系,这种结构在没有给定语境时会产生理解上的歧义,如:机器生产、专业人员培训。
其中,前两种属于“格式真歧义短语”,它们具有相同的表层类型形式,但是
对应着两种句法功能结构,计算机在处理时不能判断采取哪种句法结构,就会产生两种结果,而这种歧义对人来说是不存在的;最后一种属于“实例真歧义短语”,即实例化后产生的短语对应至少两种句法结构,这种歧义对人和计算机都是存在的。
除此之外,由于已经给定短语格式,其中成分的词类已经确定,不会作为结构歧义的产生原因;另一方面,只涉及两个成分的“N+V”结构,词与词搭配时不会产生不同的结构层次,也就不会成为结构歧义的产生原因。
(二)“N+V”结构的语义、语用关系
“N”和“V”之间的语义关系不止一种,“N”既可以作为施事支配“V”,又可以作为“V”的受事受到“V”的支配,还可以作为状语修饰“V”,当同一个结构能够分析出不同关系时就会产生歧义。
如“机器”既可以作为“生产”动作的对象,又可以作为“生产”动作的施行者,就会产生歧义。
因此,我们可以认为,不及物动词只能构成主谓结构和部分状中结构,而不会产生歧义,只有“V”可以带宾语并且能带体词性宾语时,才会反过来支配前面的“N”,才会产生理解上的区别。
如“专业人员培训”中的“培训”是及物动词,“专业人员”既可以作为状语,表示“培训”动作的执行者,又可以作为宾语,表示“培训”动作的对象。
当进入结构的“N”和“V”之间构成动作与受事、对象关系时,有可能构成定中结构。
当进入结构的“N”和“V”之间构成施事主体与动作关系时可能构成主谓结构。
当这两种关系同时存在时,就会构成歧义结构,这也是歧义格式中最常见的双重歧义关系,还有一些歧义结构的语义关系比较特殊,如:西部开发(“N”既是客体又是地点)、每个人都给一本书(“N”既是主体又是与事)。
而当这两种关系都不存在时,“N”通常表示“V”的某种方式、手段,或是动作的时间、原因、范围等,此时构成偏正结构中的另一种——状中结构。
名词性的“N+V”结构还具有一种特殊的语篇特征,即“N”失去话题性,不能被回指,而“V”失去谓词性,得到指称意义,有时可以被数量词修饰,如:一项季度考核、一份会议记录。
据此,整个结构就产生指称的语义效果,具有类别义和概念性的倾向,伴随着“N”的改变,类别也会发生变化。
根据现有“N+V”结构的研究成果来看,学者们对定中式的研究比较多,其讨论主要集中在此结构的性质、产生机制和限制条件方面。
对于进入定中结构的“N”的限制条件,李晋霞提出高生命度、高个体度的名词不易进入;缺省宾语不能进入;区别性的下位名词更易进入;概念信息非常具体的“N”不易进入。
耿国锋则提出语义抽象、泛化,分布上失去名词形态特征的名词比较容易进入,还有抽象名词、集合名词较容易进入。
对于“V”的限制条件,马真、陆俭明《“名词+动词”词语串浅析》中提出四类排斥进入主谓结构的动词:企图类、成为类、“使”类和“着想”类;并提出进入偏正结构的动词必须是名动词。
李晋霞则提出:强动作动词、特征动词、口语动词、黏着动词、不及物动词不易进入,但可以举出很多反例。
耿国锋提出,动作具有无界性的动词、非完成性和非瞬时性的动词、及物性降低的动词比较容易进入,且进入后失去动词的典型句法功能。
但是,名词性“N+V”结构处在不稳定的发展变化中,许多曾经排斥的情况已经有为数不少的用例,需要重新考虑相应的规则。
这些限制条件具有启发价值,但其中某些概念比较模糊,有些对音节的限制几乎只是现象描写,还有一些从词类角度总结的限制条件更是琐碎而充满例外,不适合直接作为计算机消歧的策略。
二、歧义成因与识别方法
计算机处理自然语言时,是以词类标记序列为对象的,除了需要切分和了解各个词的词类、意义之外,还需要知道搭配规则与结果。
根据冯志伟先生的潜在歧义理论,抽象的歧义格式所包含的歧义在代入具体成分时可能消除或保留。
这里我们将“N+V”歧义格式分化为单义结构分别进行歧义成因和消解的讨论。
(一)主谓结构
在主谓结构中,“N”担任施事或感事,是动作行为的发出者或主体。
参照知网的信息结构库,我们将典型的主谓结构的模式总结为以下几类:
N→V=[施事](个人名词/团体名词)→(事件,行动)
N→V=[施事](动物)→(事件,行动/状态)
N→V=[感事](表人名词/表物名词)→(事件,关系/状态)
通常来说,人或动物更容易发出动作,作为施事构成主谓结构,比较常见;而没有生命的物体也可以进入这种结构,如:长江奔腾、工程竣工,它们可以作为动作的感事进入结构,所以我们可以制定这样的规则,其中zwp表示主谓结构:R1 IF N∈ V的主体语义类(即N的语义类为V的主体语义类或其子集)AND V[+单独作谓语]
THEN N+V≌zwp
END IF
此条件的实现方法在于建立以动词为中心的词汇网络,针对动词的每个论元关系建立词库,再作为外部调用。
高生命度的名词容易将N+V语符串通过心理加工构成主谓结构,当听到这类名词时听众容易产生“怎么样?”的语义期待,这也是这类名词不易构成偏正结构的原因。
而“N”为人所共知的著名人物时,容
易产生歧义,例如:鲁迅研究。
“N+V”形式的独立的主谓结构单独成句时往往受到语义上的很大限制,通常只能用于祈使句、表示对比或在口语中提问与回答,比较容易识别。
如:
你说。
——谁去?——小明去。
我忘了,他记得。
(二)偏正结构
在偏正状中结构中,“N”描述“V”具有的某种特性,往往表示非常态的情况。
其中有一种是由“N”作状语与某种不及物动词共同构成的,如:直线上升、五点出发、火线入党等,区分度比较明显,可以制定这样的规则,其中zzp表示状中结构:
R2 IF V[+自身动作] or V [+趋向动词]
AND N∈ V的主体语义类①
THEN N+V≌zzp
END IF
对于其他偏正状中结构来说,语义具有如下几种模式:
“N”表示范围。
这种模式中的“V”在语义上一定存在一个域外的施事论元,如:局部调整、全线出击、侧面打听。
“N”表示时间、处所、方式、工具。
这几种模式都是状语的常见用法,如:电话报名、网上缴费、乡村支教。
这种名词作为状语直接修饰动词的现象,简洁便当且鲜明直观,在古代汉语中就已经存在,如:风驰电掣、天翻地覆、灰飞烟灭等,在成语中仍有许多保留。
另外,许多“N单+V单”的偏正结构已经被看作双音节动词收入了词典,如“龟缩、云集、瓜分”等。
这些词数量有限且稳定封闭,用建立词库的方法进行标记就可以实现计算机对它们的自动识别。
在偏正定中结构中,“V”是中心语,具有动名兼类的性质,动词性减弱,名词性增强;“N”从自己的语义出发对“V”的类别进行限定,与“V”间是属性关系。
有些结构中的“V”本身就与相关意义的“N”同形,如:合唱指挥、语文测验、学历证明。
有些结构中的“V”则是在语境中获得名词性,如:政策调整、干部提拔等,其中的“V”指的是“V”所代表的动作事件。
定中结构作宾语时,前面的谓语往往是既可以带体词性宾语又可以带谓词性宾语的,如表示判断、变化、心理态度等意义的动词。
定中结构主要有如下几种模式:
N→V = [受事](具体名词)→(事件,行动)
其中“N”是“V”的宾语,可以进入“把”字结构,这种情况在所有偏正式结构中所占比例最大,如“身体检查、日程安排、罪犯抓捕”。
值得注意的是,“V”的缺省宾语一般不能构成这种结构,如“*学生教育”,因为“教育”的客体必然是学生,通常不这样说,而“学生”的下位概念则比较容易进入。
如:小学生教育。
N→V = [结果](具体名词)→(事件,行动)
“N”的实体在“V”的影响下产生、改变或消失,可以用“出来”“成”检验。
如:产品开发、服装剪裁、文件起草。
这两种结构中,“V”一般都是及物动词,“N”是“V”的宾语,有相应的“N+V”格式。
对于这两种格式,我们制定这样的规则,其中dzp表示定中结
构:
R3 IF N∈ V的客体语义类②
AND V[+过程性]
THEN N+V≌dzp
END IF
其它结构还包括“N”表示对象、目的,有时还包括表示处所、方式、工具等,这些情况下一般没有对应的“N+V”格式或变换后语义上发生改变。
如:
对象:质量保证、会场布置、难民补助、社区服务
目的:会议筹备、主席选举、毒品搜查
工具:粮食救济、津贴补助、金钱奖励
方式:网络服务、行政干预、电话采访
处所:西部开发、地下工作、异地就业
对于这些格式,我们制定这样的规则:
R4 IF N∈ V的状况语义类∪V的时空语义类∪V的目的语义类③
AND V[+过程性]
THEN N+V≌dzp
END IF
其中有些“N”的意义与状中结构难以区分,有时状中结构也能充当名词性成分。
为了对其进行区分,我们考虑这样的情况:偏正结构都是向心结构,整体性质由中心词的性质决定,状语修饰谓词而定语修饰体词,定中结构中的“V”呈现出明显的名词化。
齐沪扬在《偏正式“N+V”短语研究》一文中将偏正式“N+V”结构的名词性和动词性连续情况绘制如下图④:
因此我们制定这样的补充规则:
R5 在句中作为谓语的一定是状中结构,作为主语、宾语、定中结构中心语和定语的一定是定中结构。
如:
记者电话采访了张先生。
(作谓语)
电话采访是一种调查手段。
(作主语)
张先生接受了电话采访。
(作宾语)
电话采访的内容无可奉告。
(作定语)
(三)歧义结构
上文所述皆是基于约束法的消歧策略,但是不管语料的规模多大也无法概括语言的全貌,这些规则是根据现有语料制定的,难免挂一漏万。
且有一种无法处理的情况,即:当“N”既属于“V”的主体语义类又属于“V”的客体语义类时构成歧义结构,无法以形式化的规则判断。
好在语言自有其整体性,各个部分间能够相互影响,可以将其放到具体语境中,根据上下文信息,基于优选法,从若干备选语义中选择最优方案。
没有上下文的、独立成句的情况,上文已经讨论过,一般都出现在对话中,也可以根据语境区分。
例如,“理事会审查”原本是个歧义结构,但在下列语境中可以轻易区分:
XX公司的理事会审查工作已近尾声。
理事会审查通过了这项提案。
对此,基于现有语料,我们提出几个假设性质的规则:
R6 当句中出现了“V”的其他客体时,就可以认为这个“N+V”是主谓关
系。
例如:
在与中方新闻界交流、座谈的过程中,非洲朋友介绍了各自国家的新闻体制及运作情况。
蒙古教官培训阿富汗军队的费用大部分是由美国提供的。
鸡吃了混合食物比牛更能转化蛋白质。
R7 将“N+V”结构的左端记为Wi,若Wi-1为“由”“用”等介词,则可以认为这个“N+V”是主谓关系。
这种情况已经不是前述的自足结构,“N”由介词引入,语义上支配动词。
例如:
我是公司的法人代表,是由任局长任命的。
这些工具大部分仍然由手工业或工场手工业方式生产,然后才装到由机器生产的工作机的机体上。
即将派往伊拉克的军人是根据美格“训练与装备”计划由美国教官培训的。
通过对这两个假设规则的分析,我们发现不能独立成句、必须作为句子成分才能出现的“N+V”结构已经上升到句子层面的语言形式了,本文不再讨论。
(本文得到国家“973”重大基础理论研究项目子课题“语言计算模型与理论:面向网络语言的句法和语义分析的理论模型[项目编号:2014CB340500]”的支持。
)
本文写作过程中得到南京大学文学院沈阳教授、钟叡逸老师的具体指导;本文在解放军外国语学院作报告时,李宗江教授提供了宝贵意见。
特此致谢!
注释:
①主体语义类包括:施事(agent)、当事(relevant)、感事(experiencer)、
领事(possessor)
②客体语义类包括:受事(patient)、内容(content)、结果(resultevent)、致事(beneficiary)
③状况语义类包括:方式(manner)、工具(instrument)、材料(material)时空语义类包括:时间(time)、空间(location)
④转引自:章婧.现代汉语定中N+V结构研究[D].北京,中国人民大学,2008.
参考文献:
[1]俞士汶.计算语言学概论[M].北京:商务印书馆,2007.
[2]章婧.现代汉语定中N+V结构研究[D].北京:中国人民大学,2008.
[3]冯志伟.论歧义结构的潜在性[J].中文信息学报,1995,(4):14~24.
[4]李晋霞.定中“N宾+V”结构构成因素的考察[D].北京:教育部语言文字应用研究所,2003.
[5]马真,陆俭明.“名词+动词”词语串浅析[J].中国语文,1996,(3):183~188.
[6]耿国锋.名词性“N+V”短语分析[D].开封:河南大学,2008.
[7]詹卫东.面向中文信息处理的现代汉语短语结构规则研究[D].北京:北京大学,1999.
[8]杨泉,冯志伟.面向中文信息处理的现代汉语“V+V”结构歧义问题研究[J].语言文字应用,2005,(1):123~129.
[9]王锦,陈群秀.现代汉语语义资源用于短语歧义模式消歧研究[J].中文信息学报,2007,(5):80~86.
[10]袁毓林.语义角色的精细等级及其在信息处理中的应用[J].中文信息学报,
2007,(4):10~20.
(刘安然江苏南京南京大学文学院210023)。