的 字结构为核心的最长名词短语识别研究
生成语法学中的“的”字结构
每个结构 ( 最多) 只有两个直接成分 ;核心 ( 畴)不 是原子成 分 ,而是特征 集 的复 合体 ;每 范
个结构都有可能被另一核心进行扩展 ,成为另一 核心 的补 足语等 。本 文根据该 理论 和 “ 的” 字 结构的句法语义行 为 ,论证 了 “ 的”为名词性功能范畴 ,并成为句 法核心的可能性。 [ 中图分类号 ]H g [ o 文献标识码]A [ 文章编号 ]17 —50 (0 6 4—04 0 6 1 3 6 20 )0 0 9~ 9
维普资讯
暨南大学华文学院学报 20 年第 4 06 期
生成 语 法 学 中的 “ ’字 结构 ① 的’
熊仲 儒
( 安徽师范大学文学 院,安徽 ,芜湖 2 10 ) 4 0 0
[ 关键词 ]生成语法学 ;短语 结构理论 ;向心性 ;的字结构 [ 摘 要 ]生成语 法学 中的短 语结构理 论认为 每个句 法结构都有 核心 ,而且 只有一 个核心 ;
t n ,t i a e r vd s e ie c s t rv ’ p s i l h a tt sa d i o n l e tr . i s h sp p rp o ie vd n e o p o e d S o sb e e d s u t n mi a au e o e a n s f
另一核 心 的补 足语 ;等 等 。本文 将 根据 生 成语 法 学 中的 短语 结 构 理 论探 讨汉 语 “ ” 的句 的
法地位 。文章分 4 个部分来写 ,第一部分从 “ 可能的短语结构规则” 的角度将 “ 的”确定 为核心 ,并从特征继承的角度将 “ 的”确认为名词性的功能范畴;第二部分从结构 的双分 枝的角度论证了 “ 的”为功能性核心成分 ;第三部分从句法核心的多功能性论证了 “ 的”
朱德熙先生:一个小小的“的”字,牵动着汉语语法的全局,耗尽了先生毕生的心血
朱德熙先生:一个小小的“的”字,牵动着汉语语法的全局,耗尽了先生毕生的心血袁毓林:朱德熙先生评传语言学微刊编者按:本文为朱德熙先生弟子、北京大学中文系教授袁毓林先生所作,概要而又全面地总结、评述了朱先生的学术观点和学术贡献。
文章原为《朱德熙选集》(“20世纪现代汉语语法八大家”丛书,季羡林主编,东北师范大学出版社,2001年)一书的序言,后改写作为《朱德熙文选》(袁毓林、郭锐编选,北京大学出版社,2010年)一书的前言。
本次刊发,采用《朱德熙文选》中的版本。
来源:语言学微刊(微信公号)一、艰难时世多彩人生①朱德熙先生,1920年12月3日生,江苏省苏州人。
1939年,朱先生考取昆明西南联合大学物理系,第二年转入中文系学习。
受到了罗常培、唐兰、陈梦家等教授的教导和赏识,学问进步很快。
期间休学两年,延至1945年毕业。
毕业后,先生曾在昆明中法大学中文系任教,并加入了中国民主同盟。
1946年由闻一多先生延揽,去清华大学中文系任教。
1952年,因院系调整,先生入北京大学中文系工作,并应邀赴保加利亚索菲亚大学任教,1955年回国,此后他一直在北京大学中文系工作,并于1979年晋升为教授。
朱德熙先生先后担任过北京大学中文系副主任,北京大学计算语言学研究所所长,北京大学副校长兼研究生院院长,中国语言学会副会长、会长,世界汉语教学学会会长兼《世界汉语教学》主编,中国古文字研究会理事,国务院学位委员会委员,国家语言文字工作委员会委员,国务院古籍整理规划小组顾问,《中国大百科全书》总编辑委员会委员,第五、六届中国民主同盟中央委员会委员,第六、七届全国人民代表大会代表,第七届全国人民代表大会常务委员会委员、文教委员会委员等职。
朱德熙先生以其精湛的汉语语法和古文字方面的研究成果而蜚声于国内外的汉语语言学界,除了保加利亚之外,还先后赴美国、法国、泰国、印度、埃及、香港、新加坡、澳大利亚等国家和地区讲学、合作研究或出席国际会议。
_的_和_的_字结构
将“的 ”一分为三的做法从一开始就极具争议 , 支持的和反对的都大有人在 (吕叔湘 1962; 陆俭明 1963; 言一兵 1965; 季永兴 1965; 石毓智 2000; 陆丙甫 2003) 。朱德熙则 坚持自己的观点 , 并且不断地完善提高这一分析 (朱德熙 1966) , 进一步将由谓词性成分构 成的那些“的 ”字结构一分为二 (朱德熙 1983) 。一种像例 ( 2)中“吃的 、穿的 ”那样 , 可以独 立使用 , 而且表示一种事物 , 是表示“转指 ”的 ; 还有一种像“开车的 (技术 ) ”那样 , 不能独 立用来表示事物 , 只能表示动作 , 用来修饰名词 , 也就是所谓的表示“自指 ”。
核心是生成语法常用的概念 , 与通常所说的中心语有些相似 , 但两者的句法地位不完全 相同 , 所涵盖的成分也不尽相同 。传统意义上的中心语是个广义的概念 , 可以是任何句法成 分 。在“白蚁 ”之类的定中复合词里 , 中心语是个黏着语素 ; 在“白菜 ”这种复合词里 , 中心 语则是个词 ; 而在“我昨天买的那棵大白菜 ”这样的定中短语里 , 中心语则是个名词性短语 。 在形式句法的框架里 , 例 (4a)中短语的核心是个狭义的概念 , 一定具有相当于词的句法地 位 , 也就是生成句法里的 X0 。当然 , 生成句法中的 X0并不限于传统意义上的词 , 还可以是 句法结构中一些具有类似地位的成分 , 即所谓的功能性成分 , 如体貌 、时态 、语态等 。核心 是短语中最重要的部分 , 整个短语的句法地位取决于核心的性质 , 以动词 V 为核心的是动 词短语 VP, 以名词 N 为核心的是名词短语 NP。核心也可以是虚词 , 因此以介词 P为核心的 就是介词短语 PP。核心还可以是所谓的功能性成分 , 如以体貌为核心的体貌短语 A spP等 。
汉语最长名词短语的自动识别
汉语最长名词短语的自动识别*周强孙茂松黄昌宁智能技术与系统国家重点实验室清华大学计算机科学与技术系,北京100084摘要:本文通过对包含5573个汉语句子的语料文本中的最长名词短语的分布特点的统计分析,提出了两种有效的汉语最长名词短语自动识别算法:基于边界分布概率的识别算法(算法1)和基于内部结构组合的识别算法(算法2)。
实验结果显示,算法2的识别正确率和召回率分别达到了85.4%和82.3%,取得了较好的自动识别效果。
关键词:最长名词短语,边界识别,句法分析。
1 引言在自然语言句子的理解过程中,能否准确地识别其中的名词短语(np)起了很重要的作用。
按照认知科学的观点,人类必须首先识别、学习和理解文本中的实体(entity)或者概念(具体的或抽象的),才能很好地理解自然语言文本,而这些实体和概念大都是由文本句子中的名词短语所描述的。
因此,如果我们掌握了文本中的名词短语,就可以在很大程度上把握文本所表达的主要意思。
从组成结构上看,句子中的名词短语可分为以下三类:1) 最短名词短语(mNP):即不包含其他任何名词短语的名词短语;2) 最长名词短语(MNP):即不被其他任何名词短语所包含的名词短语;3) 一般名词短语(GNP):所有不是mNP和MNP的名词短语。
从mNP到GNP再到MNP,自动识别的难度是在不断增加的。
而在自然语言处理领域,MNP的自动识别具有更为重要的意义。
因为我们一旦很好地识别出了句子中所有的MNP,就可以很方便地把握句子的整体结构框架,从而很快构建出句子的完整句法树(森林)。
正是认识到了这一点,近几年来,许多研究人员在MNP的自动识别方面进行了许多有益的探索,提出了一些行之有效的识别方法。
在英语方面的工作主要有:1) Church的简单名词短语抽取器[1],利用概率矩阵信息来确定句子中np的起始和终止位置。
2) Bourigault的术语抽取器LEXTER[2],通过构造两个阶段的自动分析器发现文本中的术语(即部分MNP)3) Voutilainen的MNP获取工具:NPTool[3],利用两种有限状态分析机制(NP_否定机制和NP_肯定机制)来发现文本中可能的MNP。
以“的”字结构为核心的最长名词短语识别研究
n w s b u t n t h a k o i e e MNP r c g i o . e p p r frt a ay e h i r u i n a d t e sr cu e f au e o h e u s mp i o t e ts f Ch n s o e o n t nTh a e s n lz s t e d si t n h t t r e t r f t e i i tb o u
摘
要: 的” 以“ 字结构为核 心的最长名词短语是 汉语最长名词短语 的一个特殊子类。以该短语 的 自动识别为基础 重新分化 了汉语
MN P的识别任务。在 考察其结构和分布特征 的基础 上 , 出“ 提 先识 别右 边界 , 识别成果参与左边界识别” 的策略 , 并使 用边界 分布
概率模 型分治 了左右边界。实验基 于 8 5万字的新 闻语料 上进行训练 , 并在 4 2万字的同质语料上进行 了开放测试 , 取得 了 8 . % 06 3
meh d “ o n ay Dit b t n Po a it” t rcg i h h aeA c ru (b u .5 miin hn s C aa tr )o e s s to B u d r s iui rb bly o e o nz te p rs . op s a o t0 8 lo C ie e h rce r o i e l s f n w i
E- al q efyng 1 .o m i: i r i @ 63c n l
QI N io fi e o nt n o A X a - e. c g i o fMNP t “ e P r s ”c r . o ue n i e r g a d A pia o s 2 1 , 6 1 )1 8 1 1 R i h D - h a e o e mp tr E gn e i n p l t n , 0 0 4 ( 8 :3 - 4 . C n ci
基于规则的英语名词短语结构自动识别研究
Re s e a r c h o n Aut o ma t i c Re c o g n i t i o n o f No u n Phr a s e S t r uc t u r e Ba s e d o n Ru l e s
Ke y wo r ds: ul r e s;Eng l i s h no u n p h r a s e s ;p hr a s e s t uc r t u r e;a u t o ma t i c r e c o g ni t i o n;c o r p u s
名 词短 语 是 英 语 句子 的核 心组 成 部 分 , 然 而 不 同名词 短语类 型 的结构 用法 及其 在 句子 中所作 成 分 的复杂 性一 直 困扰 着英 语 的机 器识 别 技术 。基本 名
作者简介 : 章忠宪( 1 9 6 3 一 ) , 男, 安徽安庆人 , 漳州职业技术学院计 算机工程 系副教授 , 硕士 , 主要从事人工智 能研究 。
第2 9卷 第 7期
章 忠宪 : 基于 规则 的英语 名 词短 语结 构 自动识 别研 究
・ 7 1・
串在逻 辑上 可 能发生 的各种 情 况 , 即 改变 、 减 少 和 增 加, 总之都是 一种变 化。同化规则 属于转 换规则 。
s e ma nt i c c o l l o c a t i o n,r e v e a l s t he r e l a t i o n s h i p b e t we e n t h e n o u n p h r a s e t y p e a n d i t s c o mp o s i t i o n i n t he s e n t e n c e,o b v i o us l y i mp r o v e s t h e a c c u r a c y o f n o u n p h r a s e r e c o g n i t i o n .
“的”字短语的界定及其主要特点
(11) 他和骆驼都是·逃·出·来·的。 (老舍《骆驼祥子》)
( 12) 这儿·有·的是二十世纪的技术、机械、体 制和对这种体制忠实服役的十六世纪封建制度
“的”在“的”字短语中也是一种标志[ 4 ]。《提要》等“省
上后反而显得不简洁。例如 (例中[ ]里的内容为“添 “的”字短语不是“省去名词”的问题, 而是没有必要用
补”上的名词中心语) :
上名词 (中心词)。
( 8) ·他·满·意的[ 原因 ]是我居然告饶, 承认了 国 民党, 而·我·要·当·众·宣·布·的 [ 原因 ]却是“没领过 党证”这一事实。
(6) ·做·夜·班·的有·做·夜·班·的难处。 (引自张斌主编《现代汉语精解》)
编的《现代汉语》, 吕冀平 (1993 年) 主编的《汉语语法 基础》, 吴桂海、鲍庆林 (1992 年) 主编的《语法修辞新
(7) 那孩子·老·王·家·的, 这孩子·老·李·家·的。 例 (1) 的“莲灰色”是名词, 例 (2) 的“干”是动词,
的”(其中的“×”可以是名词、动词、形容词、人称代词 “的、底、地、得”的分合》中就指出:“我以为, 与其说
或短语) , 相当于一个名词,“具有称代人或事物名称 ‘的’是代名词, 来多建一条文法上的规则, 倒不如看
的作用”[1]。 在具体使用中, 它具有名词的语法功能, 主要用作句子的主语、宾语, 也可作定语、状语或谓 语。对“的”字短语的探讨, 虽始于 30 年代, 但由于 “的”字短语本身的复杂性, 所以几十年来各种语法著 作和各类现代汉语教材对“的”字短语所作的解释很
点。如: 胡裕树 (1981 年) 主编的《现代汉语》这样解 释:“助词‘的’也可以附着在词或词组后边, 合起来成
基于归约的汉语最长名词短语识别方法
模 型 观 察 窗 口受 限 的 矛盾 。 开放 测 试 取 得 了 8 8 . 6 8 的正 确率和 8 9 . 2 1 的 召回率 ; 归 约 方 法 全 面提 升 了识 别 性
能, 特 别是 将 多词 结 构 的 调 和 平 均 值提 高 1 , 优化幅度达 6 以上 , 并且 对 长距 离 复 杂 结 构 有 着 更好 的识 别 效 果 。
wi n d o ws i o d e l s .Th e e x p e r i me n t i n d i c a t e s a g o o d p r e c i s i o n o f 8 8 . 6 8 % a n d a r e c a l l o f 8 9 . 2 1 .Th e r e —
关 键 词 :最 长 名 词 短 语 ; 识 别; 归约 ; 基 本 名 词 短 语
中 图分 类 号 :TP 3 9 1 文 献 标 识 码 :A
C h i ne s e Ma x i ma l No u n Ph r a s e Re c o g n i t i o n Ba s e d o n Re d u c t i o n
duc t i o n me t h od c om p r e h e ns i v e l y i mp r ove s s ys t e m pe r f or ma nc e,e s pe c i a l l y i t i mp r ov e s F1 一 s c o r e b y 1
汉语论文《“字”和汉语研究的方法论【汉语言文学论文】
汉语论文《“字”和汉语研究的方法论【汉语言文学论文】汉语论文《“字”和汉语研究的方法论语义型语言和语法型语言在结构原则上的差异,我们曾进行过一些具体的讨论(徐通锵,1991),但要真正弄清楚每一种类型的语言结构,还需要弄清楚语言结构单位的性质,因为它凝聚着语言结构的基本特点。
汉语是语义型语言,它的基本结构单位是“字";印欧系语言是语法型语言,它的基本结构单位是“词"。
不同语言之间虽然可以找出一些共同的普遍特征,但基本结构单位不能“张冠李戴"。
近百年来的汉语研究,特别是其中的语法研究,把“字"逐出语言而代之以词和语素,这在方法论上无异于“张冠李戴",使汉语的研究出现了一种特有的“印欧语的眼光"。
要摆脱这种“眼光"的束缚,还得从“字"开始,研究它与语言结构的关系,就汉语论汉语,从中总结相应的理论和方法,以便为汉语的研究探索一条新的途径。
一、“字"和汉语结构的基础语言是现实的编码体系。
一种语言如何将现实编成“码",使之成为语言的基本结构单位,这与该语言社团的思维方式有关。
印欧语社团的思维的基本形式是概念、判断和推理,它的基本精神是抽象和推导,采用下定义的方法把一个个概念说清楚。
印欧系语言的结构基础与这种思维方式有密切的关系,大体的情况是:词对应于概念,句子对应于判断;概念要接受判断规则的支配,与之相应,词的结构要受特定句法规则的制约,具有能机械地适应句法位置的变化而变化的机制,即有特定的形式标志去表示结构单位之间的横向联系。
推理由于是由一个或几个已知的判断(前提)推出新判断(结论)的过程,语言编码的规则可能与它的关系远一点,而篇章结构的特点则与它的关系较为密切。
把印欧语的结构基础与概念、判断、推理的思维形式联系起来考察,人们可能不以为然,但只要看一看印欧系语言的语法理论的诞生和发展就可以清楚地了解这一论断的根据。
“的”字短语的界定及其主要特点
点。如: 胡裕树 (1981 年) 主编的《现代汉语》这样解 释:“助词‘的’也可以附着在词或词组后边, 合起来成
(3) 战士们怀着深切的爱, 把廊柱染成·红·的。 (魏巍《依依惜别的深情》)
为具有名词功能的‘的’字结构。”朱德熙 (1982 年) 说,“在现代汉语里, 谓词性成分转化为体词性成分的
语 法系统提要》(1984) (以下简称《提要》) , 提出些讨 不变。”《提要》更对“的”字短语作了比较详细的解释:
论意见, 以期引起人们深入讨论。
的字短语, 可以带助词“的”作名词的定语的
一、语法学界对“的”字短语的解说
各种词语, 很多可以省去名词, 构成的字短语, 用 来代替名词。
1. 关于什么是“的”字短语, 在语法学界主要有三 种 看法: 一是“省略说”, 二是“指 称 说”, 三 是“附 着 说”。“省略说”着眼于“的”字短语的来源,“指称说”着 眼于其功用,“附着说”着眼于助词“的”的使用特点。
[ 关键词 ] “的”字短语; 界定; 主要特点 [ 中图分类号 ] H 314 [ 文献标识码 ] A [ 文章编号 ] 100127623 (1999) 0320042206
“的”字短语 (又称“的”字词组,“的”字结构) 是现
2.“省略说”(又称“替代说”、“添补说”)。 这种说
代汉语所特有的一种常用短语。 其构成形式是“×+ 法可算是最早的说法。史存直早在 1937 年的论文《论
化为表示指称 (designation) 的 V P 了。 姚振武 (1996 的机械组合, 而是产生新义的似于化学反应的效果”。
年) 说,“的”字的使用, 使陈述转化为指称有了非常大 就语法功能说,“的”字短语相当于名词, 一般作主语
“的”字短语句法结构和“的”的句法功能研究
的 字短语句法结构和 的 的句法功能研究范晓倩(天津大学国际教育学院ꎬ天津300072)摘㊀要:文章分析了三例经典 的 字短语句法结构的利弊ꎬ并根据其中存在的问题深入研究 的 字短语结构ꎮ首先论证了 的 字短语句法核心是 的 后成分ꎻ然后推论出 的 的句法位置是附加于核心的详指位置(Spec)ꎬ揭示了 的 具有名词性探针选择功能ꎬ 的 的这一句法功能是语义上的名物化在句法上的体现ꎬ是语义与句法的完美接口ꎮ关键词: 的 ꎻ句法结构ꎻ句法功能中图分类号:H043㊀㊀文献标志码:A㊀㊀文章编号:1008 ̄4339(2019)06 ̄549 ̄07收稿日期:2018 ̄12 ̄06.基金项目:2018年度天津大学自主创新基金社会影响力项目(2018XSC ̄0052).作者简介:范晓倩(1983 ㊀)ꎬ女ꎬ讲师.通讯作者:范晓倩ꎬfanxiaoqian@tju.edu.cn.㊀㊀ 的 字短语句法结构理论纷繁复杂ꎬ纵观语言学界ꎬ不同学者对此都有不同的观点ꎬ至今未能达成统一ꎬ没能形成很好的理论来解释 的 字短语中存在的语言现象ꎮ围绕 的 字短语句法结构这一难题展开讨论ꎬ探索较为统一的句法理论ꎬ揭开句法与语义接口的谜题是本文研究的最终目的ꎮ一㊁ 的 字短语句法结构理论的争论背景的 的词类归属问题以及由 的 引出的句法结构分析一直是语言学界关注的焦点ꎮ从上世纪80年代直至现在仍无定论ꎬ究其原因在于汉语无形态标记的语言特点使隐藏在 的 后的句法功能和句法结构无法得到统一的认知和论证ꎮ纵观 的 字短语的句法结构理论ꎬ争论的焦点主要集中在3个方面ꎮ一是 的 字短语的句法属性ꎮ虽然学者们普遍将 的 字短语视为名词性短语ꎬ但对 的 字短语在句法中的属性却众说纷纭ꎮ有学者认为 的 字短语是以名词为核心的名词短语NP[1 ̄2]ꎻ有学者认为 的 字短语是以限定词为核心的限定词短语DP[3]ꎻ还有学者认为 的 字短语既可以是名词短语NPꎬ也可以是限定词短语DP[4]ꎻ有的学者甚至创造了一种句法短语DePꎬ显示了汉语中 的 字短语独立的句法特性[5]ꎮ争论的另一焦点是 的 字短语的核心ꎮ本文所提的核心是指短语句法结构的核心ꎬ与定中结构语义上的中心语不同ꎮ司富珍[5]㊁熊仲儒[3]认为 的 字短语的核心就是 的 ꎬ 的 后成分是核心 的 的补足语ꎻChiu[2]㊁石定栩[4]㊁完权[6]认为 的 字短语的核心是 的 后成分ꎬ属于核心后置ꎮ第三个争议的焦点是在承认 的 后成分为整个的 字短语核心的前提下ꎬ学者们对 的 与 的 前成分构成的附加短语的句法属性以及 的 的句法属性各执一词ꎮChiu认为 的 与 的 前成分构成关系小句CPꎬ 的 为小句短语CP的核心C[2]ꎻ石定栩认为 的 与 的 前成分构成了以De(的)为核心的附加短语DeP[4]ꎻ完权将 的 分析为后置介词ꎬ 的 与 的 前成分构成了以后置介词Pos(的)为核心的后置介词短语PosP[6]ꎮ上述学者对 的 的研究都是值得肯定的ꎬ这些争议也无疑将我们推向 的 背后更深层的语言本质ꎬ因为只有从不同的角度论证才有可能看清真相ꎬ至于如何才能揭开这层面纱去看清 的 这一语言现象背后真正的句法结构是发人深省的ꎮ笔者认为最接近 的 本质的句法结构分析应该是能够统一 的 的一种分析ꎬ也就是对 的 的高度统一的分析ꎮ一种 的 字短语句法结构的分析对与 的 有关的语言现象越统一ꎬ这种分析就越接近 的 的句法本质ꎮ笔者在下文将本着这一思路对 的 的句法功能和句法结构展㊀ 550㊀ 天㊀津㊀大㊀学㊀学㊀报㊀(社会科学版)2019年11月㊀开研究ꎬ通过对比司富珍[5]㊁石定栩[4]和完权[6]这三位学者的 的 字结构分析ꎬ讨论其中存在的问题ꎬ探索出一种高度统一的 的 字短语句法结构分析ꎮ最后理论结合实际ꎬ笔者利用本文提出的 的 的句法结构解释与 的 有关的语言现象ꎬ以此来检验该句法结构的合理性和现实意义ꎮ二㊁ 的 字短语的句法核心关于 的 字短语的核心有两类代表性的观点ꎬ一派是以司富珍为代表的ꎬ认为 的 就是 的字短语的句法核心ꎬ另一派认为 的 后成分是 的 字短语的句法核心ꎮ首先来回顾一下司富珍[5]关于 的 字短语的句法结构ꎬ见图1ꎮ图1㊀司富珍 的 字短语句法结构司富珍认为采用 的 为短语句法核心的观点可以使 的 字短语的所有情况都在布龙菲尔德向心结构理论的框架之内得到圆满解答[5]ꎮ但司富珍要想证实自己的理论ꎬ就得回答周国光提出的质疑ꎬ即为何采用该理论分析的 的 字短语违反正常语感ꎬ而且还得解释作为功能性成分的 的 是如何承载整个 的字短语的核心内容并对其后成分ZP完成支配的[7]ꎮ例如ꎬ在 我的远大的理想 中如何将中心语认定为 的 而不是 理想 ꎮ正如邓思颖指出的那样ꎬ如果要将 的 分析为短语句法核心ꎬ就需要证明 的 有一定的语义内容[8]ꎮ而 的 是否能像实词一样具有语义内容至今无人论证过ꎬ该观点也不被主流学者认同ꎬ学界的主流观点认为 的 是虚词ꎮ此外该句法结构还要直面石定栩提出的挑战ꎬ即生成句法结构得表示各成分之间的句法关系和语义内容[4]ꎬ而在司富珍的DeP句法结构图中ꎬ 的 与 的 前成分割裂开ꎬ只是间接关系ꎬ无法体现定中修饰关系所代表的语义内容ꎮ可见ꎬ以 的 为整个 的 字短语的核心ꎬ 的 后成分作为 的 的补足语说面临着句法层与语义层相悖的矛盾ꎮ石定栩[4]提出了一个以 的 后成分为 的 字短语句法核心ꎬ 的 和 的 前成分构成了以 的 为核心的DeP短语ꎬ该DeP短语作为 的字短语核心成分的附加成分ꎬ见图2ꎮ笔者赞成石定栩的观点ꎬ句法结构要体现句法关系和语义内容的对应性ꎮ 的 后成分既是语义上的中心语ꎬ也是句法上的核心ꎬ 的 与 的 前成分在句图2㊀石定栩 的 字短语句法结构法上的组合关系与组合后的成分附加在核心上的句法关系显示出语义层面定语对中心语的修饰关系ꎮ但石定栩提出的这种广义 的 字结构也存在一定的问题ꎮ按照石定栩的分析ꎬ 的 后成分YP可以是名词短语NP或者限定词短语DPꎬ根据布龙菲尔德理论ꎬ 的 字短语要与核心成分形类相同ꎬ所以 的 字短语既可以是名词短语ꎬ也可以是限定词短语ꎬ这就给整个 的 字短语句法地位带来了困惑ꎬ这种不唯一的句法属性是否违反了最简原则ꎮ虽然NP和DP都是名词性的ꎬ但 的 字短语的整体句法属性㊁句法结构分析应该要体现出句法上的同一性ꎮ因此ꎬ笔者认为这一核心成分的句法结构有待商榷ꎮ再者ꎬ虽然 的 与 的 前成分直接相关构成DePꎬ但是这一结构切断了 的 前成分和 的 以及 的 后成分的关系ꎬ无法像Chiu[2]的关系小句说那样能通过移位建立 的 前成分和 的 后成分的句法空位关系ꎬ所以他的句法结构图也不能完全按照自己所主张的那样让句法结构体现出句法和语义的相互映照ꎮ最后ꎬ石定栩想通过名物化来解释 的 后成分是动词短语或形容词短语的情况ꎮ但动词短语或形容词短语如何带上了一个名词短语的外壳ꎬ这种名物化现象可否体现在句法层而不只是语义层ꎬ这些都是值得进一步思考的问题ꎮ总之ꎬ石定栩提出的 的 字结构一是没能给 的 字短语一个清晰的句法定位ꎬ造成了 的 字短语属于NP和DP两种句法成分的可能性ꎬ二是切断了 的 前成分与 的 和 的 后成分的句法相关性ꎬ没能建立 的 后成分与 的 前成分的句法结构关系ꎬ三是名物化对 的 后成分为动词短语或形容词短语的解释没能上升到句法层面ꎬ名物化的解释没能在句法层面让 的 字结构的各个句法成分体现出结构关系ꎮ完权[6]也支持 的 后成分是 的字短语的核心ꎬ但他给 的 与 的 前成分的组合赋予了一个新的句法地位ꎬ即后置介词短语ꎮ他认为 的 是后置介词ꎬ可作为后置介词短语的功能核心ꎬ见图3ꎮ图3㊀完权 的 字短语句法结构第21卷第6期范晓倩: 的 字短语句法结构和 的 的句法功能研究 551㊀ ㊀笔者认为完权的 的 字短语句法结构一大优点就是给 的 赋予了一个词类ꎬ给以 的 为核心的短语一个句法地位ꎬ不再采用一个命名的成分DePꎮ另一优点是通过 的 的赋格作用建立了 的 前成分与的 后成分的关系ꎮ该理论还有一个优点ꎬ就是反对汉语名词化理论ꎬ完权认为 的 前后成分的动词或形容词本来就包含于名词中ꎬ具有名词特征ꎬ所以不算词类转变[6]ꎮ但是后置介词说违反了语义的递归性ꎬ使句法结构与语义内容无法相互照应ꎬ而且也不能统一说明 的 赋予名词什么格ꎬ也不能将 的 前后成分的关系在句法层面中有机地联系在一起ꎮ例(1)a.[NP马的奔跑]b.[NP放养的马](完权ꎬ2015)如完权所述ꎬ因为有介词 的 ꎬ所以名词性的 马 在例(1)a中不能被动词赋予主格ꎬ在例(1)b中也不能被动词赋予宾格ꎬ那么 的 给名词性的 马 赋了什么格呢?如果按照完权所述 的 给 马 赋的是领格的话ꎬ例(1)a能解释得通ꎬ那例(1)b如何解释? 的 跟动词 放养 相连ꎬ还起赋格作用吗? 的 给 的 后成分 马 赋格吗?又如例(2)所示:例(2)大卫买的书ꎮ像在例(2)这种句子里ꎬ 的 与专有名词 大卫 不直接相邻ꎬ又如何给 大卫 赋格呢?如果是动词 买 给 大卫 赋格ꎬ那 的 就可以不起作用了ꎮ如果是这样ꎬ 的 的赋格作用在句法层中无法表现出一致性ꎬ呈现出时有时无的特点ꎮ因此ꎬ完权提出的 的 作为后置介词说不能统一解释 的 的赋格作用ꎬ其在句法层对 的 字结构的阐释也无法将 的 前后成分的结构关系有机联系在一起ꎮ综上所述ꎬ司富珍㊁石定栩和完权的 的 字短语句法结构都各有利弊ꎬ每位学者的理论都对前人的有所突破ꎬ但也都有各自要面对的句法难题ꎮ以 的 为 的 字短语核心的句法理论可以解释所有 的 字短语情况ꎬ甚至包括 的 后成分无法补出的情况ꎬ如 生活是美好的 ꎬ但会受到语感和句法-语义相悖的质疑ꎮ以 的 后成分为 的 字短语核心的句法理论就无法统一所有带 的 字的句法结构ꎮ因为像上面 的 后成分缺失的情况就等于 的 字短语句法核心缺失ꎬ没有核心的 的 字短语句法结构就如同散了架一样ꎬ失去了其句法属性ꎮ那在这两类 的 字短语句法核心的观点中ꎬ到底哪一个最接近语言的本质呢?笔者将通过汉语中一个真实的语言现象来论证 的 后成分为整个 的 字短语的核心ꎮ例(3)她是生的男孩ꎮ(完权[9]ꎬ2013)在例(3)中 是 是焦点标记ꎬ可标记其后成分 生 为焦点ꎬ但句中有焦点重音表现的是 的 后成分 男孩 ꎬ而不是与 是 相连的 的 前成分 生 ꎮ这一非常规焦点标记现象从一个侧面可以说明 的 后成分是 的 字短语的核心ꎮ为了证明此观点ꎬ笔者先介绍袁毓林关于Selkirk的一条焦点投射规则ꎮ例(4) 给一个中心语的内在论元加上焦点标记就允准给这个中心语①加上焦点标记 [10]ꎮ袁毓林指出该理论研究思路是正确的ꎬ因为这是基于句法结构来研究焦点语义[10]ꎮ笔者认为这种研究思路正好符合石定栩的观点ꎬ即句法结构要体现语义内容[4]ꎮ虽然Selkirk的理论不完善ꎬ但不能就此否定该理论关于句法中心语㊁内在论元与焦点标记呈现出的规律性ꎬ因此ꎬ不妨通过焦点语义来反推句法结构ꎮ其实Selkirk提出的句法中心语和内在论元是动词短语VP结构中的动词和名词短语ꎬ当动词短语 生男孩 之间插入 的 就无法体现出动词短语句法中心语 生 与内在论元 男孩 的句法结构ꎬ但短语 生的男孩 的语义与动词短语 生男孩 有相关性ꎬ基于句法结构研究焦点语义的思路可以对Selkirk的焦点投射规则稍作改动ꎬ变成例(5)ꎮ例(5)给一个中心语的内在成分加上焦点标记就允准给这个中心语加上焦点标记ꎮ在例(3)中ꎬ 是 给 生 加焦点标记ꎬ 男孩 却获得了焦点语义ꎬ具有重音表现ꎮ套用上面改动后的规则ꎬ 的 字短语的内在成分是 生 ꎬ于是可以反推出 的 字短语的句法中心语是 男孩 ꎬ即 的 后成分ꎮ由此可推论 的 后成分就是 的 字短语的句法核心ꎮ再如例(6)例(6)a.他是去的北京ꎮb.他是去北京ꎮ在例(6)a中ꎬ 是 给 的 前成分 去 加焦点标记ꎬ但 的 后成分 北京 具有重音表现ꎬ获得了焦点语义ꎮ笔者发现在 是+V+的+O 这一结构普遍呈现出这种非常规焦点标记现象ꎬ而且 的 后成分是这种焦点结构唯一可能的焦点ꎮ例(6)b有两种焦点解释ꎬ第一种 是 呈现焦点重音ꎬ 是 本身就是焦点ꎬ传达承认后边动词短语 去北京 这件事ꎮ在这种焦点解释中ꎬ笔者认为 是去北京 是一个句法短语ꎬ 是 是这个短语的中心语ꎬ根据袁毓林关于Selkirk的另一条焦点投射规则ꎮ例(7) 给一个短语的中心语加上焦点标记就允准给这个短语加上焦点标记 [10]ꎮ正是因为 是 使得 是去北京 在句中整个被标记为焦点短语ꎬ才有承认 去北京 这件事的语义内㊀ 552㊀ 天㊀津㊀大㊀学㊀学㊀报㊀(社会科学版)2019年11月㊀容ꎮ例(6)b的第二种焦点解释为动词短语中的内在论元 北京 被标记为焦点ꎮ这种焦点是在语用作用下产生的对比焦点ꎬ是上下文中为了区别目的地 北京 的需要ꎮ上文可能存在问题 他是去上海吗? ꎬ下文的回答是 不是ꎬ他是去北京 ꎮ通过例(6)a和b的对比ꎬ可推断 是+V+的+O 这一结构中的唯一焦点表达就是基于句法结构的焦点语义表达ꎬ于是就可以根据稍作修改的焦点投射规则(5)来反推出 的 后成分就是 的 字短语的句法核心ꎮ除了上述论证以外ꎬ笔者根据石定栩[4]的观点认为 的 后成分是 的 字短语的核心有句法结构和语义关系的支撑ꎮ将 的 前成分与 的 作为附加结构附属在 的 后核心成分之上可以充分体现修饰语对中心语的修饰功能和定语修饰中心语的语义内涵ꎮ这是将 的 作为整个 的 字短语的句法核心所无法表达的语义关系ꎬ那样的句法结构和语义关系不匹配ꎬ不能实现句法层面和语义层面之间的相互照应ꎮ而且ꎬ的 前成分与 的 在韵律层面上联系得更紧密ꎬ 的 后成分在韵律上更为独立ꎬ因为韵律与句法构造有一定的交互性ꎬ所以从这一点上来说ꎬ 的 与 的 前成分更容易在句法结构上形成一个附加成分ꎬ共同附属在 的 后核心成分之上ꎮ综上所述ꎬ把 的 后成分作为 的 字短语的句法核心更为合理ꎮ三㊁ 的 的句法位置和句法功能经过上文论证 的 字短语的句法核心就是 的 后成分ꎮ由于 的 字短语的名词性被学者们所公认ꎬ因此 的 后成分应该体现名词短语的特性ꎬ在句法结构中可以确定为名词短语NPꎬ整个 的 字短语也确定为名词短语NPꎬ至于 的 后位置由形容词短语AP㊁动词短语VP或者限定词短语DP占据时该如何体现出名词短语的特性仍需进一步讨论ꎬ在此之前ꎬ先对 的 的句法位置进行论证分析ꎮ1. 的 的句法位置熊仲儒[11]和曾美燕㊁石毓智[12]认为 的 与指示代词 那/这 存在某种语法共性ꎬ如例(8)所示ꎮ例(8)a.我这本书b.你那本书在例(8)中ꎬ有指示代词 这/那 出现ꎬ 的 可不出现ꎬ不必说 我的这本书 或 你的那本书 ꎮ这说明 的 的句法功能与指示代词 这/那 重合ꎬ即存在语法共性ꎬ 的 可省去ꎮ笔者认为这种语法共性也可体现在句法位置上ꎬ也就是说指示代词 这/那 的句法位置与 的 的句法位置存在共性ꎮ据此ꎬ可由 这/那 的句法位置来推断的 的句法位置ꎮ汉语学界普遍采用西方语言学句法理论ꎬ把指示代词 这/那 与名词构成的短语分析成限定词短语DPꎬ把指示代词这/那 分析成限定词Dꎬ见图4ꎮ图4㊀限定词短语DP中英文句法结构与图4不同ꎬ李亚非[13]把汉语名词短语分析成核心后置结构ꎬ从跨语言的角度说明了指示代词 这/那 不在核心Dꎬ而是在限定词短语DP的详指位置(Spec)DP1ꎬ见图5ꎮ图5㊀李亚非汉语名词短语句法结构根据上述两种理论的分析ꎬ无论把汉语中限定词短语DP分析成限定词D核心前置还是后置ꎬ指示代词 这/那 都占据DP短语的左侧位置ꎮ由于指示代词 这/那 的句法位置与 的 的句法位置存在共性ꎬ而且上文已经论证了 的 字短语的核心是 的 后成分ꎬ那 的 就不能像图4一样作为句法核心支配右侧的补足语ꎬ所以可以推断 的 与图5中指示代词 这/那 一样占据 的 字短语的左侧详指位置(Spec)ꎮ至此ꎬ 的 字短语的句法结构就论证出来了ꎬ 的 后成分为核心后置ꎬ 的 与 的 前成分占据详指位置(Spec)并附加在核心成分上ꎬ这一 的 字短语的句法结构体现了 的 前成分对 的 后成分的修饰关系ꎬ正与石定栩[4]提出的广义句法结构相吻合ꎮ现在明确了 的 与 的 前成分占据详指位置(Spec)ꎬ但问题是 的 与 的 前成分可以构成什么类型的短语ꎬ用DeP来命名显然无法体现 的 的句法地位和功能ꎮ邓思颖指出 的 属于功能词[8]ꎮ郭戈㊁李京廉在评介John的«论元即关系»一文中提到 派生名物化结构中的高位功能语类D和Nom可为名词提供上移位置 [14]ꎮ笔者认为 的 可分析为功能语类Nomꎬ 的 与 的 前成分可构成功能短语NomPꎬ而将 的 分析为功能语类D的做法是有一定问题的ꎬ下文将做论述ꎮ将名物化结构引入句法形态实现了句法层和语义层的结合ꎬ 的 字短语也有名物化的情况ꎬ比如:这本书的出版㊁长城的伟大ꎮ所以将 的 字短语第21卷第6期范晓倩: 的 字短语句法结构和 的 的句法功能研究 553㊀ ㊀与派生名物化结构相连有一定的合理性ꎮ在派生名物化结构中Nom是高位功能语类ꎬ而 的 被大部分学者认定为结构助词ꎬ 的 是虚词ꎬ在句法层面中也可以对应为功能语类Nomꎮ此外ꎬ 的 作为 的 字短语的关键成分ꎬ连接前后句法成分ꎬ使整个 的 字短语呈现名词性ꎬ将 的 分析为Nom语类是有一定句法价值的ꎬ这对 的 前后句法成分名词性特征的选择ꎬ以及名物化在句法中的转化起到了积极的作用ꎮ2. 的 的句法功能的 的功能语类有别于指示代词 这/那 的功能语类ꎮ虽然二者之间存在语法共性ꎬ但并不代表完全相同ꎮ指示代词 这/那 具有指示功能ꎬ有限定义ꎬ可以归为功能语类Dꎮ而 的 作为连接 的 前成分与 的 后成分的词ꎬ在句法上也一定会体现出 的 与其前后成分的关联性ꎬ又因为 的 可以与 这/那 共现ꎬ如 你的那个漂亮的姐姐 ꎬ所以 的 与指示代词 这/那 不同ꎬ不属于功能语类Dꎮ 的 字短语被汉语学界公认为名词性的短语ꎬ 的 字短语若要保持这种名词性ꎬ其内部各成分也应该体现出名词性ꎬ但 的 前后成分可以是动词㊁形容词或者谓词小句ꎬ如例(9)所示ꎮ例(9)a.长城的伟大(陆俭明[15]ꎬ2003)b.这本书的出版(陆俭明[15]ꎬ2003)c.这本书的不出版(任鹰[16]ꎬ2008)d.我买的书e.幽默的故事石定栩[4]把 的 后非名词成分解释为名物化ꎮ根据郭戈㊁李京廉[14]对于派生名物化结构的论述ꎬ笔者认为 的 字短语的这种名物化过程可以体现在句法层面上ꎬ语义上的名物化可以在句法层中体现出来ꎮ上述语义与句法接口的关键就是 的 的句法功能ꎬ位于详指位置(Spec)的 的 可以指示 的 前成分和 的 后成分选择名词性ꎮ那动词㊁形容词或者谓词小句怎么会有名词性ꎬ又如何选择名词性呢?沈家煊提出了 名动包含 说ꎬ指出动词具有名词性[17]ꎻ完权指出除了词类的名动包含外ꎬ事件句可表达事态ꎬ具有名词性[9]ꎮ石定栩认为词在词库中带着句法信息ꎬ当进入句法层后ꎬ通过句法手段执行该词携带的句法信息[18]ꎮ笔者认为汉语动词㊁形容词在词库中各自携带了动词性㊁形容词性ꎬ与此同时它们也携带了名词性特征ꎬ正如沈家煊[17]指出汉语动词通过本体隐喻可以从陈述一个抽象的活动到指称一个具体的事物ꎬ比如:这本书的出版ꎻ汉语形容词也可以通过表达一个事物的性质特点到指称事物的状态ꎬ比如:长城的伟大ꎮ汉语谓词小句也是如此ꎬ除表示行为事件的动态意义外ꎬ也具有指称事件状态或属性的静态特征ꎬ即名词性特征ꎮ因此汉语在句法层中需要通过其他句法手段来执行动词㊁形容词或者谓词小句的名词性特征ꎬ处在详指位置(Spec)的 的 的句法功能就是选择名词性的句法手段ꎮ完权指出的 是由后置方位名词 底(下) 演变发展而来[6]ꎬ这说明 的 与名词的渊源很深ꎬ更进一步说明 的 在句法层面有名词性探针选择功能ꎮ而且 的 是连接 的 前后成分的纽带ꎬ通过 的 连接后的 的 字短语呈现名词性特征是语言学界不争的事实ꎬ这种连接体现出的句法功能性ꎬ其实就是通过 的 的名词性探针选择功能来连接 的 前后的语法成分ꎮ此外ꎬ 的 后成分可以省略转指事物ꎬ这就使得 的 的名词性探针功能更为凸显ꎬ省略了中心语的 的 字短语所具有的名词性特征是由 的 的名词性探针功能实现的ꎬ位于详指位置的 的 使得 的 前成分选择名词性特征ꎬ同时使得整个 的 字短语具有名词性特征ꎮ总之ꎬ 的 使 的 前成分与 的 后成分中的动词㊁形容词或者词语组合生成的谓词小句选择名词性ꎬ从而使 的 前后成分与 的 相关联ꎬ保证了整个 的 字短语的名词性ꎮ根据李亚非[13]的 详指-核心一致性原则 ꎬ可以推断 的 ㊁ 的 前成分以及 的 后非名词成分的句法位置ꎮ 的 若要指示 的 前成分与 的 后非名词成分的名词性ꎬ就得占据详指位置(Spec)的核心ꎬ 的 前成分与 的 后非名词成分则分别占据各自小短语中的详指位置(Spec)ꎬ见图6ꎮ图6 的 后非名词成分 的 字短语句法结构在例(9)a㊁(9)b和(9)c中 的 后成分形容词 伟大 ㊁动词 出版 和谓词小句 不出版 都是非名词成分ꎬ当它们进入到句法结构中会占据详指YP位置ꎬ通过详指-核心一致性(Spec ̄headagreement)原则ꎬ 的 开启名词性探针选择功能ꎬ指示 的 后非名词成分选择它们自身携带的名词性ꎬYP可以是动词短语VP㊁形容词短语AP㊁谓词小句IP㊁限定词短语DPꎮ也就是说当 的 位于NP详指位置的核心Nom时可以通过详指-核心一致性原则的理论使NP中的空核心N具有名词性特征ꎬ然后NP中的空核心N再通过详指-核心一致性原则的理论使位于NP中的详指位置的YP选择它们自身携带的名词性ꎬ这样 的 的名。
中文最长名词短语识别研究
本文还将最长名词短语识别应用到了面向特定任务的指代消解中。中文 最长名词短语包含了最长名词短语中的中心名词的修饰成分,这修饰成分中 会包括中心名词的性别、颜色、数量、日期、方位等类型的描述信息。指代 消解所需要则是上述一系列描述信息中的数量信息和性别等信息,因此可以 使用最长名词短语识别,从文本中提取出相应的信息,帮助指代消解的工 作。
Wang Yueying Prof. Zhao Tiejun Master of Engineering Computer Science and Technology School of Computer Science and Technology July, 2007 Harbin Institute of Technology
哈尔滨工业大学工学好的识别出名词短语可以很大程度 上帮助把握文章所表达的主要意思。而中文最长名词短语亦是如此。中文最 长名词短语应用于诸多自然语言处理任务中,如信息检索、文本分类、自动 文摘、指代消解等,因此对于中文最长名词短语的研究是有必要的。本文对 中文最长名词短语的识别作专门的研究,分别使用了隐马尔可夫模型和条件 随机域模型对中文最长名词短语进行识别。
关键词 名词短语;最长名词短语识别;隐马尔可夫模型;条件随机 域模型
- I-
浅谈“的”字结构
浅谈“的”字结构摘要:“的”是现代汉语中出现频率非常高的一个词,也是各种虚词中被研究的最为彻底的。
“的”字结构不但可以充当修饰一个名词性成分的定语,而且还可以不依附于任何成分独立充当名词性成分。
本文首先列举了几种学术界目前对“的”字结构的看法,进而简要分析“的”字结构的性质、作用以及特点,便于我们更全面的理解“的”字结构。
关键词:“的”字结构;名词性;特点“的”是现代汉语中使用频率非常高的一个词,“的”字结构是现代汉语中比较常见、使用频率也很高的一种短语类型。
它们是语法中非常热门的语言现象,各位学者也从未停止过对它们的研究。
一、学术界对“的”字结构的不同看法现代汉语语法意义上的深入研究,始于朱德熙在1961年发表的论文《说“的”》。
他将“的”分为三种:一是副词性语法单位的后附成分,二是形容词语法单位的后附成分,三是名词性语法单位的后附成分。
朱德熙先生所说的“的”字结构包括两种:一种是用“的”连接定中短语的修饰语,“的”后是定中短语的中心语,例如“白色的布”;另一种是“词或短语+的”构成的指代名词的结构,用来指人或者指物,例如“这匹布是白色的。
”吕叔湘在《现代汉语八百词》中说道:“‘的’字短语可修饰名词,除连词、助词、叹词外,各种词语都可构成‘的’字短语修饰名词。
”吕叔湘在《汉语语法分析问题》中也将“的”字短语分成了两种,文中称为D1短语和D2短语。
D1短语如“我的”,“买的”,“找你的”等;D2短语如“高高的”,“亮亮堂堂的”等。
《现代汉语常用虚词词典》指出:“用在词或词组的后边,合起来表示人或事物的名称的作用。
这样的词组叫‘的’字词组。
‘的’字词组相当于一个名词,一般以名词的性质在句中实现其相应的句法功能”。
沈家煊的《有界与无界》从人类在认知上形成的“有界”和“无界”的对立语法结构中的具体反映这一角度出发,提出“的”跟数量词相似,“具有使无界变为有界的功能”。
例如:“干干净净衣服”是不能成立的,因为“干干净净”是有界的,而衣服是无界的,有界和无界在语义上不能搭配,只有加上“的”或数量词才可以使“衣服”从无界变为有界,才可以成立。
的字短语 的字结构
的字短语
的字短语是汉语中常见的一种语法结构,其主要包含以下几类成分:
1. 修饰语
修饰语是用来修饰名词或名词短语的词语,其包括形容词、副词、名词、代词等。
例如,“美丽的花朵”、“非常喜欢这本书”。
2. 名词中心语
名词中心语是字短语的核心成分,通常由一个名词或名词短语构成,表示人、物、事件等实体。
例如,“书的作者是谁?”中的“书”。
3. 领属语
领属语通常由一个名词或代词构成,表示名词的所有者或归属者。
例如,“我的书”、“他的自行车”。
4. 受事语
受事语通常由一个名词或名词短语构成,表示动作行为直接的承受者。
例如,“他在看书”、“我们喜欢吃的食物”。
5. 方位语
方位语通常由一个表示方位的词语构成,例如“在桌子上”、“在公园里”。
其可以用来表示名词或名词短语的所在位置。
的字结构
的字结构是由“的”字连接两个名词或名词短语,表示“所属关系”的一种语法结构。
例如:“我的书”、“他的自行车”。
其特点在于前面的名词通常表示所有者或者归属者,后面的名词表示所拥有的事物或者物品。
这种结构通常用于表达所属关系或者领属关系。
从认知语法角度研究汉语“的”字结构
从认知语法角度研究汉语“的”字结构本文运用认知语法参照点结构理论研究汉语“的”字结构(即:“名词短语/动词短语/形容词短语+的”结构),分析并发现了汉语“的”字结构是一种典型的参照点结构,作为该结构中唯一不变的成分,“的”字的模式义是凸显参照点关系。
这一抽象的模式义在动词“的”字结构和形容词“的”字结构中体现为整体与部分的关系;在名词“的”字结构中体现为所有关系。
这些关系构成了“的”字在汉语“的”字结构中的典型义。
标签:“的”字结构参照点结构理论一、引言对于汉语“的”字结构(即“名词短语/动词短语/形容词短语+的”结构)和“名词短语/动词短语/形容词短语+的+名词”结构的关系,过去主要有两种观点:1.前者由后者省略中心名词转化而来;2.前者有其自身的结构原则,是一种独立的语言结构。
有语言学家(黄国营1982;裴荣堂1992)指出“名词短语/动词短语/形容词短语+的”结构同“名词短语/动词短语/形容词短语+的+名词”结构并不构成一一对应关系。
郭锐(2000:37)则举了下面这个例子:(1)操作这台机器的(……)不是人,而是一架计算机。
由于例(1)补不出中心名词,因此不存在省略现象。
本文从认知语法参照点结构理论出发,认为汉语“的”字结构有其内在的构建机制,是一种独立的语言结构。
对于“的”字的意义,相关文献研究表明,多数语言学家认为“的”字在汉语“的”字结构和“名词短语/动词短语/形容词短语+的+名词”结构中具有相同的意义,但对于该意义究竟是什么一直存在争议。
部分语言学家(朱德熙1966;陆俭明1991;胡裕树1994;袁毓林1995)将“的”字分析为名词化标记(a nominalization marker)。
这一分析对汉语“的”结构具有较强的解释力,但如郭锐(2000:37)所指出的,除汉语“的”字结构外,“的”字出现在很多其它结构中,譬如“名词短语/动词短语/形容词短语+的+名词”结构,“的”字在这些结构中的作用是连接修饰语与中心词。
最长名词短语识别研究
一
、
引言
模 仿 / 是 / C 更 为/ D 巧妙 / 的/ 一 / 位 / N 艺 术家 v v d a u m q
( )[ 2 电荷 / 周 围/ ] 有 / [ 场 / ] n s伴 v 电 n ,/ [ , 电场
最 长 名 词 短 语 识 别 研 究
口钱 小飞
摘 要 :本 文分 析 了最 长 名 词短 语 的 内部 构 成 特征 ,提 出 了一种 基 于基 本 名 词 短语 中心 归约 的最 长 名词 短 语
识别方法,并使用条件 随机场模型识别 了最长名词短语 实验取得 了8. 8 的正确率和8 . 1的召回率 。 7 5% 83%
{ ”
汉 语 最 长 名词 短语 的识 别 效 果 逐 步 提 高 , 但 由于M P自身 构 / 已/ 发 布 / 在 / 先 / 者 / ],/ N d d v p f k ,N/ 尽行 / 削 c d 造 的 复 杂 性 ,M P 别 问题 还 有 待 进 一 步 的研 究 。在 前 人 研 芸 N识
造 概 率模 型识  ̄ M P 周 强 、孙 茂 松 等 ( 0 0 IN ; J 2 0 )提 出两 种 不 展 / N 与 / 联 机/ 情 报/ 系 统/ 的 / 建 立/ N 为 /C v c b n n u v v
同的 识 别 算法 , 其 中基 于 内 部 结 构 组 合 的算 法 通 过 基 本 组 特 征 / 的/ ] 。/ n u 。
最长 名词 短 语 (N )的 识 别 能够 显 著 地 改 善 句 法 分 析 / ”/ 的 / 评 说/ N 。/ MP n ” u v] 。 等 系 统 的 性 能 。如 对 于 句 法 分 析 而 言 , 最 长 名 词 短 语 在 句 识 别 出这 些 结 构 , 可 以大 大 降低 句 法 分 析 过 程 中 的 浅层 歧
浅析“的”字短语
浅析“的”字短语“的”字短语是指以“的”字为核心的短语。
在中文语言中,“的”字短语是一种非常常见的语言现象,几乎遍布中文的各个领域中,具有非常重要的作用。
本文将从以下几个方面进行浅析“的”字短语。
一、概念和组成“的”字短语是由“的”字作为核心的一种短语,通常包括修饰语和被修饰语两部分。
例如:“红色的花”中,“红色”的是修饰语,“花”是被修饰语。
二、作用和功能1. 修饰名词“的”字短语最常见的作用就是修饰名词。
通过“的”字短语的修饰,可以使名词的含义更加准确、具体、生动。
例如:“美丽的风景”、“奇特的建筑”,就比单单的“风景”、“建筑”更具表现力。
2. 强调属性在“的”字短语中,修饰语通常也是名词,用于形容被修饰名词的属性。
如果这个属性很关键,需要强调,就可以通过“的”字短语来实现。
例如:“金属的手环”中,“金属”的属性是很关键的,强调了手环的材质。
3. 表达关系“的”字短语也可以用以表达关系,常常出现在表示“属于”、“拥有”、“从属”等概念的场合。
例如:“他的书”、“公司的利润”,都是通过“的”字短语来表达一个属于关系。
4. 替代动词或形容词在某些情况下,我们可以使用“的”字短语来替代动词或形容词,从而达到简洁、生动、具体的表达效果。
例如:“跳跃的心情”中,“跳跃”的意思相当于“兴奋”的意思。
三、注意事项在“的”字短语中,修饰语通常在前,被修饰名词在后,这是中文语言的习惯规则。
例如:“漂亮的衣服”正确,“衣服漂亮的”不正确。
2. 省略“的”字在口语中,有时候可以省略“的”字短语中的“的”字,这种现象称为“的”字的舌尖音变。
例如:“好看衣服”,“我家房子”。
综上所述,“的”字短语是中文语言中的一个重要特点,具有修饰、强调、表达关系和替代动词形容词的功能。
在使用时,我们需要注意修饰语和被修饰名词的顺序、不能滥用省略“的”字等问题。
汉语法律条文“的”字结构的特点及句法分析
2IOS0vSe1Nr9s1e年0a0s95E-月n5g0l3is9h 海 外 英 语
编号:KY2017006) 作者简介:蒋舒(1981—),女,四川资中人,四川外国语大学重庆南方翻译学院讲师,硕士,研究方向为翻译理论与实践、教学法。
本栏目责任编辑:谢媛媛
语言学研究 195
Overseas English 海 外 英 语
2019 年 5 月
能被形容词性词语修饰并作主语或宾语的名词、数词、量词、方 位词、时间词等[9]。“体词性短语+的”(NP+的)一般包括“名+的” 或“代+的”。谓词是指能受谓词性词语的修饰并能做谓语的动 词 和 形 容 词[9]。“ 谓 词 性 短 语 + 的 ”(VP + 的)可 分 为“ 动 + 的 ”和 “形+的”。在法律条文中,“的”字结构一般为“谓词性短语+ 的”,即“动+的”和“形+的”。例如:请求人申请扣船的,时效自 申请扣船之日起中断(动+的)。又如:情节严重的,由县级以上 人民政府经济综合主管部门提出意见,报请同级人民政府按照 国务院规定的权限责令停业、关闭。(形+的)。
鉴于法律条文中“的”字短语以独立的形式,即以逗号紧随 “的”字的形式出现,内容复杂且长短不一,因此,我们也可对 “的”字短语定义为“的”字短语是实词或词组附着结尾词“的”
字构成的名词性短语。“的”字后紧跟逗号,表达更准确、规范, 且话题明确。
“的”字短语语用分析
“的”字短语语用分析“的”字短语的结构特点决定了它的语用功能:话语的经济性、修辞的突出性、停顿的标志性,这些功能形成的根本原因是“的”字短语后面相应的中心词的省略和整体结构的相似性。
标签:“的”字短语语用功能“的”字短语是现代汉语中一类独特的短语,前人对“的”字短语的评述主要集中于语法方面。
在语用上,“的”字短语形式短小精悍、修辞效果明显、语气舒缓,符合语言交流的目的性,在语用学上极具分析价值。
一、“的”字短语的结构(一)实词加“的”实词加“的”又可分为名词加”的”和谓词性词语加“的”两种。
1.名词加“的”(1)“自己人!侦察排的!”(路翎《洼地上的战役》)“侦察排”为名词,形成名词加“的”的结构。
2.谓词性词语加“的”谓词性词语加“的”又可分为:动词加“的”和形容词加“的”。
1)动词加“的”(2)你切什么切啊,说的是真的,你来这哥给你报销还不成?(网络小说《飘在云里的日子》)例(2)中,“说”为动词,形成动词加“的”的结构。
2)形容词加“的”(3)奇怪的是,我从没见他回头看我一次。
(茹志娟《百合花》)例(3)中,“奇怪”为形容词,形成形容词加“的”的结构。
(二)短语加“的”短语加“的”又可分为名词性短语加“的”和谓词性短语加“的”。
1.名词性短语加“的”名词性短语加“的”主要是定中结构加“的”。
(4)“这小子真他娘的能说会道。
”(余华《活着》)例(4)中,“他娘”为偏正短语,形成偏正短语加“的”的结构。
2.谓词性短语加“的”谓词性短语加“的”主要是主谓结构加“的”,动宾结构加“的”,动补结构加“的”,状中结构加“的”,连谓结构加“的”,兼语结构加“的”。
如:(5)“我讲的是猴子,又不是你。
”(陈映真《将军族》)(6)回答他的是扑面而来的洋溢在屋里的湿浊的气息。
(迟子建《清水洗尘》)(7)也许是地藏王菩萨爱看这个,但真正因此快乐起来的是人,尤其是妇女。
(汪曾祺《受戒》)(8)二十岁的青年是美丽的,有热烈欢呼的,有执着追求的,有奋勇拼搏的,他们用欢笑和泪水,编织着希望和梦想!(9)天天来报到的这起大头里,少说也有一半是我的老相识。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 引言
最长名词短语(MNP)是指句子中不被其他名词短语直接 包含的名词短语。它的识别能够为自动句法分析、机器翻译系 统提供有力的支持。如对于句法分析而言,最长名词短语内部 结构比较复杂,几乎涉及了汉语所有的词类和句法结构,如果 能够识别出句子中所有的最长名词短语,那么计算机就能较好 地构建出句子的句法树或森林。以往的研究表明,最长名词短 语识别对于结构长度较为敏感,长度大于等于 5 的复杂最长名 词短语的识别精度一般要比简单最长名词短语低 16 个百分 点;并且复杂定语规定的左边界识别难度远远大于右边界[1]。
dePMNP 的下文特征的分布规律与上文有所不同,不仅表 现在邻接关系中,在与局部下文的共现关系上也有所体现。前 者如“是”等动词经常出现在 dePMNP 下文一元邻接词位置 R1 上;后者如“是”之前有时会加上一些副词,表达程度的不同或 委婉的语气等,使得“是”后退到下文二项共现词位置 RC2 上, 如“最令人喜爱的还是”。造成这种情况的有两种因素:(1) dePMNP 常位于主语位置上,R1 位置上也常常出现动词;(2)汉 语中存在一条语法规则:动词可以受副词等语言成分修饰。下 面就从下文一元邻接词集合 R1Set、二项共现词集合 RC2Set 及 位于前的修饰词三个方面讨论 dePMNP 的下文特征。
文献[2]将“的”划分为副词性语法单位的后附成分“的 1”,形 容词性语法单位的后附成分“的 2”,名词性语法单位的后附成分 “的 3”。然而“,的 2”和“的 3”的区分有时并不十分明晰。如“更+A+ 的”中“的”应该是“的 2”,但有的形式却能出现在主语或宾语的 位置上指称事物,如“我要更好的。”文献[3]区分了表述功能的词 汇层面和句法层面,在此基础上把“的”看成是词汇层面的“饰词 标记”,上述“更好的”则是该短语在句法层面的指称化。
从标注了 dePMNP 的训练语料中提取出 dePMNP 的邻接 成分及共现成分,形成各自的成分集合,进行统计分析,发掘 dePMNP 的上下文特征,从而制定合理的识别方案。 3.2.1 上文特征
上文特征主要研究某一语言成分的上文(左部)线性关系, 以期寻找到该成分的边界区分条件。从词语和语义两个角度观 察边界词内部的分布比例。L1Set 中共出现 80 个词型和 734 个 词例,词型的频次分布相当集中,出现频次排在 L1Set 集合前两 位的是“是”,“#”,其中“是”出现 344 次,句首标记词“#”出现 248 次,两者占据了 80%以上的比例。
相对于 R1,特征项在 RC2 上的分布要稀疏得多,主要表现 为一些谓词性的语言成分(词语)。把这些能够同时出现在 R1 和 RC2 位置上的边界特征称之为强特征 f,f 主要由动词,以及 形容词充当,主要有:是,有。
从语义上看,L1Set 的语义频次分布更为集中。充当 dePMNP 边界词的主要有“是非类”“,像如类”以及连接词类、句首标记词等:
“是非”类:是,正是,总是,说是,而是,乃是,但是,并非, 非,凡,所谓
“像如”类:像,如,正如,有如,不如 由此,在识别 dePMNP 的左边界过程中可以有两种选择: (1)利用词型参与统计;(2)利用词型的语义类参与统计。该文 选择前者,因为同一个语义类中的不同词型作为边界时也有分 布概率上的差别,利用词型参与统计有利于分辨这一点。 从边界词的概率分布来看,L1 位置上的边界词概率分布极 不均匀,“是非”类“,像如”类等语义类都有较高的分布水平。但
是,大多数其他类别的边界词都处于较低的分布水平,这为左 边界的识别带来了一定的难度。
以上的分析和讨论建立在能够判别当前位置上存在一个 dePMNP 或不存在 dePMNP 的基础上。然而在语料中,dePMNP 与含“的”字偏正结构的最长名词短语(deSMNP)的形式区分是 模糊的,都以 de 为标志。如何区分 dePMNP 与 deSMNP,希望在 右边界处找到答案,因为 dePMNP 与 deSMNP 右边界必然是不 一致的,识别出 dePMNP 的右边界 de,也就等于判定了当前位 置存在一个 dePMNP。 3.2.2 下文特征
摘 要:以“的”字结构为核心的最长名词短语是汉语最长名词短语的一个特殊子类。以该短语的自动识别为基础重新分化了汉语 MNP 的识别任务。在考察其结构和分布特征的基础上,提出“先识别右边界,识别成果参与左边界识别”的策略,并使用边界分布 概率模型分治了左右边界。实验基于 85 万字的新闻语料上进行训练,并在 42 万字的同质语料上进行了开放测试,取得了 80.63% 的正确率和 75.68%的召回率。 关键词:最长名词短语;“的”字结构;识别;浅层句法分析 DOI:10.3778/j.issn.1002-8331.2010.18.044 文章编号:1002-8331(2010)18-0138-04 文献标识码:A 中图分类号:TP391
“的”字结构的参与方式有两种,一种是参与最长名词短语 修饰语的构成,一种是参与最长名词短语句法核心的构成。该 文将研究第二类最长名词短语的识别问题。
2 以“的”字结构为核心的最长名词短语的界定
以“的”字结构为核心的最长名词短语(deP最长名词短语。 “的”字结构(deP)的定义是界定该短语的关键。
复杂最长名词短语识别精度较低的原因值得进一步考虑, 从语法上说,复杂最长名词短语之所以复杂是因为:(1)汉语缺 乏形态标记,词类和句法成分不是一一对应的,如动词既能作 述语,又能作定语,可造成动词宾语位上的最长名词短语左边 界模糊;(2)语法递归性,如定语可以由复杂句法结构充当。两 者的合力使问题更为突出,特别是“的”字短语参与构成的最长 名词短语,几乎容纳了所有的词类和句法结构,而这部分最长 名词短语的长度也是较大的。
138 2010,46(18)
Computer Engineering and Applications 计算机工程与应用
以“的”字结构为核心的最长名词短语识别研究
钱小飞 QIAN Xiao-fei
中国传媒大学 文学院,北京 100024 School of Chinese Language and Literature,Communication University of China,Beijing 100024,China E-mail:qierflying@
QIAN Xiao-fei.Recognition of MNP with“De-Phrase”puter Engineering and Applications,2010,46(18):138-141.
Abstract:The MNP with “De-Phrase”core is a special subclass of MNP.The identification of the phrase in this paper gives a new subsumption to the task of Chinese MNP recognition.The paper first analyzes the distribution and the structure feature of the phrase,then it advances a strategy of “Identify the right boundary first,then identify the left one”.Furthermore,it adopts the method“Boundary Distribution Probability”to recognize the phrase.A corpus(about 0.85 million Chinese Characters) of news is used for the automatic identification training and anothe(r about 0.42 million Chinese Characters) is used for test,and the experi- ment achieves 80.63% in precision and 75.68% in recall. Key words:Maximal Noun Phrase(MNP);De-Phrase;identification;shallow parsing
表 1 句法分布考察框架
结构名称 主谓结构 动宾结构 介宾结构 述补结构 述“得”补结构
直接成分 1 主语 述语 1 述语 3 述语 2 述语 2
直接成分 2 谓语 宾语 1 宾语 2 补语 1 补语 2
结构名称 定中结构 定“的”中结构 状中结构 状“地”中结构
-
直接成分 1 定语 1 定语 2 状语 1 状语 2 -
直接成分 2 中心语 1 中心语 1 中心语 2 中心语 2
-
依据这个标准考察发现,dePMNP 主要出现在主语和宾语 1 的位置上,而在述补结构,状“地”中结构等结构中的出现概 率几乎为零见表 2。
表 2 dePMNP 句法分布考察
统计指标
频次/例 比例(/ %)
主语 41
39.05
句法位置
宾语 1 宾语 2 定语 1
句法分布以短语所在的句法结构作为考察其句法功能的 依据,提供了从外部观察短语特征的窗口。文献[4]为实词分类
作者简介:钱小飞(1981-),男,博士研究生,主要研究领域为计算语言学、汉语语法学。 收稿日期:2008-12-23 修回日期:2009-03-13
钱小飞:以“的”字结构为核心的最长名词短语识别研究
R1 作为下文特征的典型分布位置,可以在熵值中得到验 证,R1 上的信息熵为 3.25,远小于 RC2 上的 6.30。R1 上的这种 确定性同样只能解释为受到某种句法因素的影响,其中包含了 更多的特征项。出现频次排在 R1Set 集合前三位的是“。”, “,”, “是”。其中“。”出现 235 次, “,”出现 201 次,“是”出现 118 次, 三者占据了 75%以上的比例。