基于树库的现代汉语动词句法功能的计量研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
% 我们如何 才 能打破世俗观念 , 活 出人生最佳状态。
用庄子的比喻来讲 , 好像是 一匹 白马。 我们 首先 要有一种豁达的态度 , 心态决定人的状态。 不务就是不去追求 , 也就是不去追 求不以为是的东西。 我听朋友讲 , 董月玲出书了。 这些熟悉的字眼第一次集体地出现 在眼前。 于是 我找到了他 , 请他讲述那些 令他感动的故事。 我们总 觉得下个世纪 离我们很远 , 突然一下子来临。 那个时间也 能 出书。 那时我大概 写 了五十万字。 甘肃张县是当年红军 长征 走过的地方。 仅仅把新闻 的 传递当成他的天职。 我认为没价值我还追求 吗 ? 请 列御寇 上来 , 在这里射箭。 经常会有 山里的一种 猴子跑到农田里去祸害庄稼。 这个口碑传着 传着就传到国君那里了。 资源紧张的 国情 , 我们更 无理由 奢侈挥霍。 比如说 , 我们 有天然气化工 , 但我们没有石油化工。 人去楼空依旧灯火通明 , 电脑不关 , 空调照 转 等。 如果是淤泥和小石头 , 我们把 它 弄了以后就快。 陕西省目前要求被 拆除的钢铁设备必须解体。
自动分词和词性标注用的是中国传媒大学分词标注系统 , 标注结果由中国传媒大学应用语言学研究所胡凤国老师提供。
∀ 106∀
2010 年 10 月 第 5期
汉语学习 Chinese L anguage L earn ing
O ct . , 2010 No . 5
系, 能得出动词可以带什么成分, 受什么词修饰; 支配词支配动词形成的依存关系, 能得出动词 在句中作什么成分。分析这两种依存关系能得出汉语动词具有的句法功能分布。 二、 结果与分析 2 . 1 动词的句法功能分布 我们首先统计了动词为支配词时, 它与从属词所形成的支配关系, 包括支配关系标记、 这种支 配关系出现的次数以及每种支配关系占动词做支配词所形成的所有支配关系的比例。见下表 1 。
2010 年 10 月 第 5期
汉语学习 Chinese L anguage L earn ing
O ct . , 2010 No . 5
基于树库的现代汉语动词句法功能的计量研究
高
[摘
松
1
2
颜 伟
2
刘海涛
3
3
( 1 中国传媒大学 , 北京 100024;
北京语言大学 , 北京 100083;
浙江大学 , 杭 州 310058)
∀ 107∀
Leabharlann Baidu
2010 年 10 月 第 5期
基于树库的现代 汉语动词句法功能的计量研究
O ct . , 2010 No . 5
带关系 csr 、 时态附加语 ta 等。其中, 动词能带状语的比例在动词带所有说明语的比例中是最 高的 , 占 23 . 48 % 。其次是带复句谓语 cr , 占 11 . 57 % 。然后是带连带关系 csr ,占 3 . 30 % 。接 下来是带时态附加语 ta 、 形成连动关系 va 、 带定语 atr 、 带句末附加语 esa 、 形成并列关系 coor 、 带主题 top 、 带插入语 in a 、 带助词附加语 aux r 。 ( 3)语言学家们提出动词能带宾语、 补语、 状语、 后面还能加时态助词 着 !、 了 !、 过 !。我们统计出来的动词带宾语 ( 如 有理想 ! ) 、 带补语 ( 如 想明白 ! ) 、 带状语 ( 如 不追求 ! ) 、 带时态助词 着 !、 了 !、 过 ! ( 如 放着 !、 决定了 !、 去过 ! ), 验证了这些结论的正确性。 ( 4) 从统计数据来 看, 动词支 配说明语的比 例是 49 . 42 % , 支配补足语的比例是 46 . 19% 。研究者们基于传统的配价理论, 考虑动词带补足语的情 况很多, 对动词带说明语的关注度不高。本文的统计数据显示: 动词支配说明语的比例略高于 补足语。这说明我们应该加大对动词支配说明语的考察力度。 动词做从属词时, 支配词支配动词所形成的动词从属关系, 包括从属关系标记、 从属关系 出现的次数以及每种从属关系占动词做从属词所形成的所有从属关系的比例。见下表 2 。
依存关系标记是根据相应英语单词缩写的 , 如 sub j是 sub ject的缩写 , 表示主语 ; ob j是 ob ject的缩写 , 表示宾语。
% & ∋
例句中划波浪线的词为支配词 , 单下划线标注的词为从属词。下表同。 考虑到句法结构的完整性 , 给每个标点符号以相应的支配词。 连带关系指的是在一个复句中 , 从属连词和其所在分句谓词之间的关系。
要 ] 现代汉语自动句 法分析需要词类 句法功能 的量化信息。本 文基于概率 配价模式理
论 , 利用汉语依存树库, 对现代汉语动词的句法功能进行计量研究。把动词各句法功能 , 按其出现频 率的高低区分出主要功能、 次要功能和局部功能。从定量分析 的角度 , 对前人 的研究结论进行验证 和补充 , 有助于更清晰地认识动词的句法功能。本文也是对概率配价模式理论的进一步发展。 [ 关键词 ] 依存树 库 ; 动词 ; 句法功能 ; 计量 [ 中图分类号 ] H 146 . 3 [ 文 献标识码 ] A [ 文章编号 ] 1003- 7365( 2010) 05- 0105- 08
基于树库的现代 汉语动词句法功能的计量研究
O ct . , 2010 No . 5
分析 , 统计出动词的句法功能 , 有助于更清晰地认识动词的句法功能。刘海涛、 冯志伟 ( 2007) 提出了概率配价模式理论 ( P robab ilistic Va lency Pattern T heory , 简称 PVP) 。该理论是对传统配 价理论的发展 , 吸收了配价理论的优点 , 将配价理论和依存语法很好地结合起来, 形成了一种 较完整的自然语言分析和理解理论。我们从真实语料出发 , 构建依存树库 , 从树库中提取词类 的配价模式, 并提供精确的数据来表示词类结合力的大小。 本文利用依存树库统计出动词作为支配词时, 它支配从属词所形成的支配关系和这种支 配关系出现的频次 ; 动词作为从属词时 , 支配词支配动词所形成的动词从属关系和这种从属关 系出现的频次 , 由此总结出动词所具有的句法功能。我们也将统计结果与前人的研究结果进 行对比, 验证和补充以前的研究结论, 并按照动词各句法功能出现频率的高低区分出主要、 次 要和局部功能 , 以此来重新审视汉语词类的多功能性问题。 一、 研究的基础 、 资源与方法 1 . 1 理论基础 1959 年, 法国语言学家特思尼耶尔的 #结构句法基础 ∃一书问世。此后, 他所提出的配价 理论与依存语法引起了世界各国语言学界的广泛关注。在语法研究、 语言教学、 自然语言处理 中, 配价理论都得到了广泛的应用。这体现出配价理论是一种面向实用的语言学理论。 刘海涛、 冯志伟 ( 2007) 认为 , 配价是对词汇的一种静态描述, 它是词与其他词结合的潜在 能力。在词典中, 词的配价有多种可能。但当词进入到具体的语境中 , 它与其他词结合的潜在 能力得以实现 , 多种可能的配价变为一种, 这也就形成了依存关系 , 依存关系是一种实现了的 配价。配价是一个词的结合力 , 这种结合力可分为向心力和离心力。力有大小 , 我们可以用一 个词类支配或被支配的依存关系在数量上的不同来描述力的大小 , 可以通过依存树库来获得 精确的定量描述。这就是概率配价模式理论。它就是在描述一个词或词类的配价模式时, 不 仅用定性的方式来描述它可支配什么样的依存关系, 可受什么样的依存关系的支配 , 还用定量 的方式给出这些依存关系的权重或概率分布。 1 . 2 语料资源 本文使用的树库是中国传媒大学应用语言学研究所的汉语依存树库 ( I AL CUC CDT ), 它是面 向有声媒体语言的汉语依存树库。选取的语料为 2007年电视台和广播电台 31档节目的转写文本。 电视节目如 新闻联播 !、实话实说 !、鲁豫有约 !、百家讲坛 !等; 广播节目如 新闻和报纸摘要 !、 今日论坛 !、海峡时评 ! 、中国之窗 !等。选取的语料既包含新闻播报类又包含访谈会话类, 涉及 的范围和内容比较广泛。语体上, 既有书面语体又有口语体。语料中共有 3600个句子, 98236个词 次。文本进行了自动分词和词性标注 , 并采用依存语法对其进行了句法标注。为确保标注的 一致性, 对汉语的某些特殊结构 , 给出了统一的标注方法。 ( 关润池、 赵怿怡 2007 ; 高松、 赵怿 怡、 刘海涛 2009) 所有的标注结果都经过了人工和工具的核对校正。 1 . 3 研究方法 我们统计 从属词词性 !、 支配词词性 !与 依存类型 !之间的关系, 得到汉语动词通过哪 些依存关系支配从属词 , 支配词通过哪些依存关系支配动词。动词支配从属词形成的依存关
图 1
这是一本书。 !的依存语法结构图
图 1中带箭头的弧的起点为支配词, 箭头指向从属词, 弧上标记为依存关系标记。动词 是 ! 是 句子的谓语, 支配主语 这 !和宾语 书 !。 是 ! 是支配词, 这 !和 书 !是从属词, s! 、 subj! 、 obj! 是依存关系标记。数词 一 !作量词 本 !的量词补足语, 本 !是支配词, 一 !是从属词, qc!是依存 关系标记。 一本 ! 作名词 书 ! 的定语, 名词 书 ! 支配量词 本 ! , atr!是依存关系标记。 动词是现代汉语词类中的重要成员 , 是三大类实词之一 , 是句法结构的核心。在语言学本 体研究中 , 对动词的研究相当深入 , 但这些研究大多是对动词的定性分析。而很多的中文信息 处理系统在进行现代汉语自动句法分析时, 都需要量化的研究成果, 特别是需要词的各种句法 功能的量化描写。同时 , 量化的信息也有助于语言教学与语言的本体研究。在对外汉语教学 中, 对词类的句法功能, 可以按照各功能出现频率的高低和主、 次要程度来分阶段教学。从定 性分析的角度 , 语言学家们对动词句法功能的研究已经得到了一些有共识的结论。通过定量
从表 1 中, 可以得出如下结论: ( 1) 动词支配补足语可以形成的依存关系有: 宾语 ob 、 j 主语 sub 、 j 补语 com p 、 小句宾语 sentobj 、 能愿动词宾语 obja 等。其中 , 动词能带宾语的比例在动词带 所有补足语的比例中是最高的, 占 17 . 90 % 。其次是带主语 , 占 16 . 12 % 。然后是带补语, 占 3 . 71 % 。接下来是小句宾语 sentobj 、 能愿动词宾语 obja 、 兼语补语 soc 、 兼语 subob 、 j 把 !字宾语 baob 、 j 被 !字句 beis。 ( 2) 动词支配说明语可以形成的依存关系有 : 状语 adva 、 复句谓语 cr 、 连
[基金项目 ]本研究得到国家社科基金项目 汉语复杂网络研究 ! ( 项目编号 : 09BYY 024) 和中国传媒大学 211工程 !三期重 点学科建设项目 汉语有声媒体语言依存语法树库构建与应用研究 ! ( 项目编号 : 21103010101) 的资助。
∀ 105∀
2010 年 10 月 第 5期
连带关系 csr∋ 小句宾语 sentob j 能愿动词宾语 ob ja 时态附加语 ta 连动句 va 定语 atr 句末附加语 esa 兼语补语 soc 兼语 subob j 并列关系 coo r 主题 top 插入语 ina 助词附着语 auxr 把 !字句宾语 baob j 被字句 be is 合 计
零、 引言 语料库的句法标注是语料库语言学研究的前沿课题之一 , 其目标是对语料文本进行句法分 析和标注, 形成树库。树库是指在词性标注的基础上, 再对每个句子加注句法关系的语料库。近 年来, 树库作为获得句法结构的知识源和评价句法分析结果的工具, 越来越受到研究者们的重 视。 ( Abe ill 2003) 树库中含有的大量句法分布信息可为句法研究提供坚实的基础。 ( 刘海涛 2009) 依存树库通过建立词语之间的联系来描述句法的结构, 它以依存关系为基础。例如:
表 1 动词为支配词支配从属词所形成的依存关系、 依存关 系出现的频次、 比例和例句 支配关系 状语 adva 宾语 ob j 主语 sub j 复句关系 cr 标点符号 补语 co mp punct& 频次 11273 8593 7738 5555 2110 1782 1585 1389 1382 1279 1116 1051 908 492 479 274 259 224 197 184 140 48010 百分比 23. 48 17. 90 16. 12 11. 57 4. 39 3. 71 3. 30 2. 89 2. 88 2. 67 2. 33 2. 19 1. 89 1. 02 1. 00 0. 57 0. 54 0. 47 0. 41 0. 38 0. 29 100 例句
用庄子的比喻来讲 , 好像是 一匹 白马。 我们 首先 要有一种豁达的态度 , 心态决定人的状态。 不务就是不去追求 , 也就是不去追 求不以为是的东西。 我听朋友讲 , 董月玲出书了。 这些熟悉的字眼第一次集体地出现 在眼前。 于是 我找到了他 , 请他讲述那些 令他感动的故事。 我们总 觉得下个世纪 离我们很远 , 突然一下子来临。 那个时间也 能 出书。 那时我大概 写 了五十万字。 甘肃张县是当年红军 长征 走过的地方。 仅仅把新闻 的 传递当成他的天职。 我认为没价值我还追求 吗 ? 请 列御寇 上来 , 在这里射箭。 经常会有 山里的一种 猴子跑到农田里去祸害庄稼。 这个口碑传着 传着就传到国君那里了。 资源紧张的 国情 , 我们更 无理由 奢侈挥霍。 比如说 , 我们 有天然气化工 , 但我们没有石油化工。 人去楼空依旧灯火通明 , 电脑不关 , 空调照 转 等。 如果是淤泥和小石头 , 我们把 它 弄了以后就快。 陕西省目前要求被 拆除的钢铁设备必须解体。
自动分词和词性标注用的是中国传媒大学分词标注系统 , 标注结果由中国传媒大学应用语言学研究所胡凤国老师提供。
∀ 106∀
2010 年 10 月 第 5期
汉语学习 Chinese L anguage L earn ing
O ct . , 2010 No . 5
系, 能得出动词可以带什么成分, 受什么词修饰; 支配词支配动词形成的依存关系, 能得出动词 在句中作什么成分。分析这两种依存关系能得出汉语动词具有的句法功能分布。 二、 结果与分析 2 . 1 动词的句法功能分布 我们首先统计了动词为支配词时, 它与从属词所形成的支配关系, 包括支配关系标记、 这种支 配关系出现的次数以及每种支配关系占动词做支配词所形成的所有支配关系的比例。见下表 1 。
2010 年 10 月 第 5期
汉语学习 Chinese L anguage L earn ing
O ct . , 2010 No . 5
基于树库的现代汉语动词句法功能的计量研究
高
[摘
松
1
2
颜 伟
2
刘海涛
3
3
( 1 中国传媒大学 , 北京 100024;
北京语言大学 , 北京 100083;
浙江大学 , 杭 州 310058)
∀ 107∀
Leabharlann Baidu
2010 年 10 月 第 5期
基于树库的现代 汉语动词句法功能的计量研究
O ct . , 2010 No . 5
带关系 csr 、 时态附加语 ta 等。其中, 动词能带状语的比例在动词带所有说明语的比例中是最 高的 , 占 23 . 48 % 。其次是带复句谓语 cr , 占 11 . 57 % 。然后是带连带关系 csr ,占 3 . 30 % 。接 下来是带时态附加语 ta 、 形成连动关系 va 、 带定语 atr 、 带句末附加语 esa 、 形成并列关系 coor 、 带主题 top 、 带插入语 in a 、 带助词附加语 aux r 。 ( 3)语言学家们提出动词能带宾语、 补语、 状语、 后面还能加时态助词 着 !、 了 !、 过 !。我们统计出来的动词带宾语 ( 如 有理想 ! ) 、 带补语 ( 如 想明白 ! ) 、 带状语 ( 如 不追求 ! ) 、 带时态助词 着 !、 了 !、 过 ! ( 如 放着 !、 决定了 !、 去过 ! ), 验证了这些结论的正确性。 ( 4) 从统计数据来 看, 动词支 配说明语的比 例是 49 . 42 % , 支配补足语的比例是 46 . 19% 。研究者们基于传统的配价理论, 考虑动词带补足语的情 况很多, 对动词带说明语的关注度不高。本文的统计数据显示: 动词支配说明语的比例略高于 补足语。这说明我们应该加大对动词支配说明语的考察力度。 动词做从属词时, 支配词支配动词所形成的动词从属关系, 包括从属关系标记、 从属关系 出现的次数以及每种从属关系占动词做从属词所形成的所有从属关系的比例。见下表 2 。
依存关系标记是根据相应英语单词缩写的 , 如 sub j是 sub ject的缩写 , 表示主语 ; ob j是 ob ject的缩写 , 表示宾语。
% & ∋
例句中划波浪线的词为支配词 , 单下划线标注的词为从属词。下表同。 考虑到句法结构的完整性 , 给每个标点符号以相应的支配词。 连带关系指的是在一个复句中 , 从属连词和其所在分句谓词之间的关系。
要 ] 现代汉语自动句 法分析需要词类 句法功能 的量化信息。本 文基于概率 配价模式理
论 , 利用汉语依存树库, 对现代汉语动词的句法功能进行计量研究。把动词各句法功能 , 按其出现频 率的高低区分出主要功能、 次要功能和局部功能。从定量分析 的角度 , 对前人 的研究结论进行验证 和补充 , 有助于更清晰地认识动词的句法功能。本文也是对概率配价模式理论的进一步发展。 [ 关键词 ] 依存树 库 ; 动词 ; 句法功能 ; 计量 [ 中图分类号 ] H 146 . 3 [ 文 献标识码 ] A [ 文章编号 ] 1003- 7365( 2010) 05- 0105- 08
基于树库的现代 汉语动词句法功能的计量研究
O ct . , 2010 No . 5
分析 , 统计出动词的句法功能 , 有助于更清晰地认识动词的句法功能。刘海涛、 冯志伟 ( 2007) 提出了概率配价模式理论 ( P robab ilistic Va lency Pattern T heory , 简称 PVP) 。该理论是对传统配 价理论的发展 , 吸收了配价理论的优点 , 将配价理论和依存语法很好地结合起来, 形成了一种 较完整的自然语言分析和理解理论。我们从真实语料出发 , 构建依存树库 , 从树库中提取词类 的配价模式, 并提供精确的数据来表示词类结合力的大小。 本文利用依存树库统计出动词作为支配词时, 它支配从属词所形成的支配关系和这种支 配关系出现的频次 ; 动词作为从属词时 , 支配词支配动词所形成的动词从属关系和这种从属关 系出现的频次 , 由此总结出动词所具有的句法功能。我们也将统计结果与前人的研究结果进 行对比, 验证和补充以前的研究结论, 并按照动词各句法功能出现频率的高低区分出主要、 次 要和局部功能 , 以此来重新审视汉语词类的多功能性问题。 一、 研究的基础 、 资源与方法 1 . 1 理论基础 1959 年, 法国语言学家特思尼耶尔的 #结构句法基础 ∃一书问世。此后, 他所提出的配价 理论与依存语法引起了世界各国语言学界的广泛关注。在语法研究、 语言教学、 自然语言处理 中, 配价理论都得到了广泛的应用。这体现出配价理论是一种面向实用的语言学理论。 刘海涛、 冯志伟 ( 2007) 认为 , 配价是对词汇的一种静态描述, 它是词与其他词结合的潜在 能力。在词典中, 词的配价有多种可能。但当词进入到具体的语境中 , 它与其他词结合的潜在 能力得以实现 , 多种可能的配价变为一种, 这也就形成了依存关系 , 依存关系是一种实现了的 配价。配价是一个词的结合力 , 这种结合力可分为向心力和离心力。力有大小 , 我们可以用一 个词类支配或被支配的依存关系在数量上的不同来描述力的大小 , 可以通过依存树库来获得 精确的定量描述。这就是概率配价模式理论。它就是在描述一个词或词类的配价模式时, 不 仅用定性的方式来描述它可支配什么样的依存关系, 可受什么样的依存关系的支配 , 还用定量 的方式给出这些依存关系的权重或概率分布。 1 . 2 语料资源 本文使用的树库是中国传媒大学应用语言学研究所的汉语依存树库 ( I AL CUC CDT ), 它是面 向有声媒体语言的汉语依存树库。选取的语料为 2007年电视台和广播电台 31档节目的转写文本。 电视节目如 新闻联播 !、实话实说 !、鲁豫有约 !、百家讲坛 !等; 广播节目如 新闻和报纸摘要 !、 今日论坛 !、海峡时评 ! 、中国之窗 !等。选取的语料既包含新闻播报类又包含访谈会话类, 涉及 的范围和内容比较广泛。语体上, 既有书面语体又有口语体。语料中共有 3600个句子, 98236个词 次。文本进行了自动分词和词性标注 , 并采用依存语法对其进行了句法标注。为确保标注的 一致性, 对汉语的某些特殊结构 , 给出了统一的标注方法。 ( 关润池、 赵怿怡 2007 ; 高松、 赵怿 怡、 刘海涛 2009) 所有的标注结果都经过了人工和工具的核对校正。 1 . 3 研究方法 我们统计 从属词词性 !、 支配词词性 !与 依存类型 !之间的关系, 得到汉语动词通过哪 些依存关系支配从属词 , 支配词通过哪些依存关系支配动词。动词支配从属词形成的依存关
图 1
这是一本书。 !的依存语法结构图
图 1中带箭头的弧的起点为支配词, 箭头指向从属词, 弧上标记为依存关系标记。动词 是 ! 是 句子的谓语, 支配主语 这 !和宾语 书 !。 是 ! 是支配词, 这 !和 书 !是从属词, s! 、 subj! 、 obj! 是依存关系标记。数词 一 !作量词 本 !的量词补足语, 本 !是支配词, 一 !是从属词, qc!是依存 关系标记。 一本 ! 作名词 书 ! 的定语, 名词 书 ! 支配量词 本 ! , atr!是依存关系标记。 动词是现代汉语词类中的重要成员 , 是三大类实词之一 , 是句法结构的核心。在语言学本 体研究中 , 对动词的研究相当深入 , 但这些研究大多是对动词的定性分析。而很多的中文信息 处理系统在进行现代汉语自动句法分析时, 都需要量化的研究成果, 特别是需要词的各种句法 功能的量化描写。同时 , 量化的信息也有助于语言教学与语言的本体研究。在对外汉语教学 中, 对词类的句法功能, 可以按照各功能出现频率的高低和主、 次要程度来分阶段教学。从定 性分析的角度 , 语言学家们对动词句法功能的研究已经得到了一些有共识的结论。通过定量
从表 1 中, 可以得出如下结论: ( 1) 动词支配补足语可以形成的依存关系有: 宾语 ob 、 j 主语 sub 、 j 补语 com p 、 小句宾语 sentobj 、 能愿动词宾语 obja 等。其中 , 动词能带宾语的比例在动词带 所有补足语的比例中是最高的, 占 17 . 90 % 。其次是带主语 , 占 16 . 12 % 。然后是带补语, 占 3 . 71 % 。接下来是小句宾语 sentobj 、 能愿动词宾语 obja 、 兼语补语 soc 、 兼语 subob 、 j 把 !字宾语 baob 、 j 被 !字句 beis。 ( 2) 动词支配说明语可以形成的依存关系有 : 状语 adva 、 复句谓语 cr 、 连
[基金项目 ]本研究得到国家社科基金项目 汉语复杂网络研究 ! ( 项目编号 : 09BYY 024) 和中国传媒大学 211工程 !三期重 点学科建设项目 汉语有声媒体语言依存语法树库构建与应用研究 ! ( 项目编号 : 21103010101) 的资助。
∀ 105∀
2010 年 10 月 第 5期
连带关系 csr∋ 小句宾语 sentob j 能愿动词宾语 ob ja 时态附加语 ta 连动句 va 定语 atr 句末附加语 esa 兼语补语 soc 兼语 subob j 并列关系 coo r 主题 top 插入语 ina 助词附着语 auxr 把 !字句宾语 baob j 被字句 be is 合 计
零、 引言 语料库的句法标注是语料库语言学研究的前沿课题之一 , 其目标是对语料文本进行句法分 析和标注, 形成树库。树库是指在词性标注的基础上, 再对每个句子加注句法关系的语料库。近 年来, 树库作为获得句法结构的知识源和评价句法分析结果的工具, 越来越受到研究者们的重 视。 ( Abe ill 2003) 树库中含有的大量句法分布信息可为句法研究提供坚实的基础。 ( 刘海涛 2009) 依存树库通过建立词语之间的联系来描述句法的结构, 它以依存关系为基础。例如:
表 1 动词为支配词支配从属词所形成的依存关系、 依存关 系出现的频次、 比例和例句 支配关系 状语 adva 宾语 ob j 主语 sub j 复句关系 cr 标点符号 补语 co mp punct& 频次 11273 8593 7738 5555 2110 1782 1585 1389 1382 1279 1116 1051 908 492 479 274 259 224 197 184 140 48010 百分比 23. 48 17. 90 16. 12 11. 57 4. 39 3. 71 3. 30 2. 89 2. 88 2. 67 2. 33 2. 19 1. 89 1. 02 1. 00 0. 57 0. 54 0. 47 0. 41 0. 38 0. 29 100 例句