第四章 现代汉语短语结构歧义类型分析及分布统计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
§4.3 外显型歧义格式与内含型歧义格式
从一个格式不同的结构定界方式对外部环境的影响或受外部环境的制约这个角度,可以 区分出外显型歧义格式和内含型歧义格式两类不同的歧义类型3。下面分别说明。
(一)外显型歧义格式 看一个歧义格式的例子。(5)vp np u<的> np 这个歧义格式的两种组合方式:5a.[vp [np u<的> np]; 5b.[[vp np u<的>] np] 分别都可以找到具体的实例:5A. [修 [老王 的 自行车];
假定 A、B、C 为三个任意的符号标记,“ABC”即是一个由这三个标记排列形成的格式。就组
合情况来讲,这个格式存在以下六种可能性:
(1)AB+C; 如:[[缺 水] 地区]
[[办 完] 手续]
(2)A+BC; 如:[许多 [职业 军人]] [打击 [走私 活动]]
(3)ABC; 如:[美女 和 野兽]
个格式抽象还是具体,是相对而言的。在面对人的歧义研究中,比较关注由具体的词语符号
排列造成的歧义,如“咬死猎人的狗”这样的歧义例子。而面对计算机的歧义研究,则除了
注意这种具体的歧义例子外,更重视像“vp np 的 np”这样抽象的歧义格式的研究。通过
对抽象的歧义格式的研究,可以对所有具体的歧义例子进行全面系统地归类整理。从计算机
也就是短语结构的层次切分歧义。层次切分歧义通常会伴随着结构关系歧义。而所谓结构关
系歧义,则是指两个成分发生组合,能以不同的关系形成一个组合体。实际中发生的短语结
构歧义几乎总是同时包含这两个方面。
要发生短语结构的定界歧义,一定是发生在三个以上的成分之间。考虑最简单的情形,
我们以三个符号形成的线性序列为考察对象,分析可能造成短语结构定界歧义的排列格式。
[激动 得 流泪]
(4)AB C; 如:[监狱 看守] 和
[香港 特区] 最
(5)A BC; 如:的 [幸福 家庭]
了 [计算机 科学]
(6)A B C; 如:在 了 屋顶
完饭看
前三种是 A、B、C 三者之间可能发生结构组合关系构成一个结构整体的情况。后三种是
A、B、C 三者之间或者只能局部构成结构体,或者干脆互不相干,总之是不能构成一个结构
从逻辑上讲,外显型歧义格式内部可以有局部内含型歧义的情况4。像例(5)这个歧义 格式,内部没有内含型歧义的情况,可以称为简单外显型歧义格式。而像下文统计中提到的 “vp vp vp”这个外显型歧义排列格式,内部还有内含型歧义的情况,可以称为复杂外显型 歧义格式。
面向中文信息处理的现代汉语短语结构规则研究
第四章 现代汉语短语结构歧义类型分析及分布统计
§4.1 从计算机处理的角度看现代汉语短语结构歧义
在上一章对短语结构组合规则的具体分析中,为说明一些规则约束条件的用意,我们已
经举了不少计算机分析汉语短语结构时碰到的歧义例子。这样的歧义问题都是计算机分析汉
语的结构必须面对的困难,有效的解决歧义问题无疑对中文信息处理有重要的理论和实际意
跟(1)、(2)不同,(3)、(4)中都不含终结符。不过这两个排列格式也都是有边界歧
义的。它们都至少有下面这两种组合方式:
3a. [np [np np]];
4a. [np [vp np]]
3b. [[np np] np];
4b. [[np vp] np]
上述不同的组合方式,也都可以在汉语中找到语言实例来体、造成问题的原因、以及问题的难度到底有多大,事先
有个清晰的认识,显然是必要的。尤其值得注意的是,从计算机处理的角度考虑歧义问题,
跟从人的角度考虑歧义问题1,有很大不同。本章就在已有的短语结构规则基础上,以计算
机处理为背景,对汉语短语结构歧义做更为全面系统地分析整理。
目前我们主要是从定界歧义和结构关系歧义两方面来看短语结构歧义2。所谓定界歧义,
在对计算机分析短语结构时面临的两方面歧义问题有了概括的认识后,下面我们对现代 汉语短语结构的定界歧义和结构关系判定歧义做系统的考察。考察对象主要是抽象的歧义格 式,同时也兼顾具体的歧义实例。对任何一个抽象的歧义格式,都举例来说明歧义的性质。 我们选择了这样三个考察角度。
(I)考察歧义格式中组成成分有何特征; (II)考察不同的结构定界方式造成的对外影响; (III)考察抽象的格式歧义和具体的实例歧义的对应关系; 下面分别讨论从这三个角度出发区分出的不同歧义类型。
分析自然语言的方式来讲,也是以对抽象的规则进行操作为中介,来控制对具体的语词符号
进行分析的。显然,在比具体的歧义例子更抽象的模式歧义层面分析短语结构的歧义格式,
96
第四章 现代汉语短语结构歧义类型分析及分布统计
对计算机而言,具有更重要的意义。此外还有一点需要强调,就是面对人分析歧义,往往是 指出有歧义就达到目的了,因为指出歧义后,人可以通过诸多知识来判断实际使用中应该如 何来准确地理解或者表达。但计算机却不一样,指出歧义只是解决实际问题的起点而不是终 点。必须找到切实的可以用来排除歧义的因素,并形成一定的范畴,以一定的规则表达成形 式化知识,计算机才能以它作为判断依据,来解决一个具体的例子是否有歧义的问题。
整体的情况。广义而言,上述六种情况都可以称为对于“ABC”这个序列的解释。换句话说,
也就是 ABC 这个抽象的形式有六种可能的解释方式(意思)。而对一个具体的“ABC”序列,
通常是以其中的一种或几种方式来进行解释,如果只能以一种方式进行解释,则该序列是无
歧义的,如果可以有一种以上的方式来解释,则该序列是有歧义的。
短语组合的结构关系歧义的模式很简单,即任意两个成分如果能形成结构,它们之间可 以选择多种结构关系,就存在关系歧义,如果只能选择一种结构关系,就没有关系歧义。比 如 vp 跟 np 发生组合,可能形成述宾、定中两种结构关系。这两个抽象的短语类之间就存在 结构关系歧义。当然,一个具体的 vp 加上一个具体的 np 可能没有歧义,比如“参加了大会” 只能是述宾结构。也可能真的有歧义,如“复印资料”。而 dp 跟 vp 发生组合,只能形成“状 中”结构关系,这两个抽象的短语类之间就没有结构关系歧义,即任何一个具体的 dp 加上 任何一个具体的 vp,永远都不会有歧义(参见上一章有关规则)。
3A. [公司 [项目 经理]]; 4A. [老师 [辅导 学生]]
3B. [[羊皮 领子] 大衣]; 4B. [[电器 修理] 教材]
包含终结符还是不含终结符,只是在考察有结构边界歧义的排列格式的组成成分特征
97
面向中文信息处理的现代汉语短语结构规则研究
时,得到的一种区分结果。从这个角度考察歧义格式,也可考虑其他的区分标准,比如以排 列式中包含 np 还是不含 np 来作区分。这也可以作为二级分类标准进一步把上面两类歧义格 式区分出更多的小类来。本文以是否包含终结符作为首要区分标准,主要有两方面的考虑, 一是认为形式上非常明显。跟汉语的“的”、“和”等特定虚词相关的结构边界歧义问题一向 很突出(常有人跟英语的 pp-attachment 歧义相提并论),特别强调一下也不为过。至少可 以促使对短语结构定界歧义的研究目标相对更集中一些。二是一般有“的”、“和”这样的终 结符参与造成的定界歧义,通常都要针对三项以上的排列格式(比如上面例 1、2,歧义格 式内部分别包含了四项和五项成分),才容易显出歧义来。而仅由非终结符参与形成的歧义, 三项以内就可以清楚地显示出定界歧义问题了(见下文例子)。
这两个排列式的组成成分中都含有终结符,如“的”、“和”(本文所说的终结符指汉语
中的词),同时这两个格式的结构边界都是有歧义的,即(1)、(2)都可以有两种组合方式:
1a. [mp [np u<的> np]] ; 2a. [vp 的 [np 和 np]]
1b. [[mp np u<的>] np]; 2b. [[vp 的 np] 和 np]
而且,这两种组合方式在汉语中都能找到语言实例来体现。如:
1A. [一张 [电影院 的 海报]] ; 2A. [捐赠 的 [时间 和 地点]
1B. [[一家 电影院 的] 经理] ; 2B. [[倒塌 的 房子] 和 难民]
(二)不包含终结符的歧义格式
看两个歧义格式的例子。(3)np np np; (4)np vp np
5B. [[修 自行车 的] 扳手] 对这个歧义格式,两种不同的定界方式造成的后果是有显著差异的。所谓显著差异,是 指不同的定界形成的结构整体功能类不同。按 5a 切分,结构整体功能类是 vp,内部结构关 系是述宾结构;按 5b 切分,结构整体功能类是 np,内部结构关系是定中结构。这一差异可 以显著地在结构整体参与组合时体现出来。比如“修老王的自行车”可以作谓语(“他修老 王的自行车”),可以受状语成分的修饰(“正在修老王的自行车”),不能受数量结构的修饰 等等;而“修自行车的扳手”,可以受数量结构的修饰(“两把修自行车的扳手”),不能受状 语成分的修饰,不能作谓语等等。 (二)内含型歧义格式 看一个歧义格式的例子。(6) ap np np 这个歧义格式的两种组合方式: 6a. [ap [np np]]; 6b. [[ap np] np] 可以分别对应实例: 6A. [大 [钢铁 公司]]; 6B. [[大 眼睛] 姑娘] 对这个歧义格式,两种不同的定界方式并不造成结构整体有显著的功能差异。在这两种 定界方式下,结构整体功能类都是 np。这也就意味着,就句法条件而言,这两种不同的定 界方式对应的结构整体对外差不多有相同的组合能力。比如都可以作主语(“大钢铁公司容 易造成垄断”,“大眼睛姑娘最讨人喜欢”),都可以受数量成分修饰(“一家大钢铁公司”、“一 个大眼睛姑娘”)等等。 不难看出,从上面的角度对歧义格式作区分,直接的意义是有助于正确地考虑排歧的策 略。像(5)那样的歧义格式的实例,在一定的上下文环境中不同的结构定界会受到显著的 制约。比如对经典的歧义例子“咬死了猎人的狗”,如果这个表达式出现在“那只狼咬死了 猎人的狗”中,毫无疑问,它得按 5a 的方式进行组合。因为这时在它所处的位置上,需要 的是 vp,而不是 np。这就排除了以 5b 的方式组合的可能性。换句话说,对这样的外显型歧 义格式,我们更需要关注它的外部限制条件。这样对寻找排除歧义的规则可能会更有效一些。 而对(6)那样的歧义格式,不同的结构定界通常并不显著地受外部环境的制约。或者更准 确的说,是受外部环境制约的条件更不确定一些,而常常是由内在的组成成分之间的制约关 系来决定整个排列式该以何种方式进行组合。比如,“大”不大能跟“钢铁”组合,但可以
需要特别说明的是,所谓一个具体的“ABC”序列,可以指上面像“缺水地区”这样的
三个词排列形成的具体的短语,也可以指像“ap np np”这样的由抽象的短语功能类排列形
成的格式(只不过比起“ABC”来说,“np np vp”显得更“具体”一些),还可以指像“vp np
的”这样的既包含抽象的短语功能类标记,又包含具体的汉语词形成的格式。不难看出,一
98
第四章 现代汉语短语结构歧义类型分析及分布统计
跟“公司”组合。所以“大钢铁公司”得按 6a 的方式组合。因此,对这类内含型歧义格式, 我们就更需要关注它的内部组成成分之间的组合限制。
当然,我们只是说在考虑这些歧义格式的消歧策略时可以有所侧重,并不是提倡偏废一 方,对任何一个有边界歧义的排列式,向外考察其可能的上下文环境制约,向内探求其组成 成分之间的搭配约束关系,都是不可或缺的。
此外还有一点值得一提,那就是这两种歧义情况对整句分析的影响程度也明显不同,如 果是(5)那样的歧义情况,局部的歧义分析出错对整句的分析会造成很大的影响。而如果 是(6)那样的歧义情况,局部的歧义分析出错对整句分析则影响较小,错误基本会局限在 歧义语段内部,不大会因为局部歧义的分析错误造成对整句格局的破坏。就这点而言,做句 法分析系统时,应该首先在(5)这类歧义格式多下些工夫。
§4.2 包含终结符的歧义格式与不包含终结符的歧义格式
从歧义格式中组成成分的特征看,歧义格式可以简单地区分为两种,即包含终结符的歧
义格式和不包含终结符的歧义格式。以下分别说明。
(一)包含终结符的歧义格式
看两个歧义格式的例子。(1)mp np u<的> np;(2)vp u<的> np c<和> np
相关文档
最新文档