树库中的歧义组合考察
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
树 库 中 的歧义 组 合 考察
李 艳 娇 , 尔 弘 杨
( 京 语 言 大学 应 用 语 言学 研 究 所 , 京 1 0 8 ) 北 北 0 0 3 摘 要 : 语 树 库 是 汉语 信 息 处 理 的 宝 贵 资 源 , 中 包含 了丰 富 的 句子 结 构 及 成 分 组 合 信 息 , 树 库 中的 词 性 串组 汉 其 对
平台; 次 , 其 它能 为汉语 句法 学研 究提供 真实 文本 标 注 素材 , 于语言 学家从 中总结语 言规则 和规律 ; 便 第 三 , 是进一 步进 行 句 子 内部 的词 语 义 项 和语 义 关 它 系标 注 的基 础 。 J”
环 境 的句 法信 息作 用甚 小 。 《 语 短 语 结 构 定 界 歧 义 类 型 分 析 及 分 布 统 汉 计 》2 L 一文 在一 个 汉英 机 器 翻 译 系 统所 用 的 汉语 分 ] 析 规则 的基础 上 , 对汉 语 短 语 结构 的定 界 歧 义 做 了
62 O4 3 8 .
29 55 5 .7
1 01 . %
O O
v +n 4 2 1 O 6 0 +v 6 2 2 .
v n V 26 l 9 4 . + + 9 3 7 0
n n V 27 2 9 8 . + + 6 2 5 8
V— a— 丁 rn _ 26 1 8 3 .7
性 序列 组合 方式 的统 计 , 发现 汉 语 中的歧 义 组 合 很
收 稿 日期 :2 1 - 9 1 定 稿 日期 :2 1 — 2 2 0 10 — 5 0 11—8
基 金项 目 :“ 央高 校 基 本 科 研 业 务 费 专 项 资 金 ” 助 中 资
作 者 简 介 : 艳 娇 ( 9 6 ) 女 , 士 , 要 研 究 方 向为 语 言 信 息 处 理 ; 尔 弘 (9 5 ) 女 , 授 , 要 研 究 方 向 为 语 言 信 李 18 ~ , 硕 主 杨 16一 , 教 主
年 问完成 了 1 0万 词 的建 设 。本文所 使用 的语 料是 0 TC 中 经 过 人 _ 校 对 的 1 0个 文 件 , 70 3个 T T = 5 共 6
句子。 2 2 考 察 对 象 .
Vtn丁n 7 6 1 3 1 . — — 8 5 9 5 _ _
n+ V+ n 5 0 23 44 3 5 .3
关键 词 : 义组 合 ; 义 关 系; 库 歧 语 树 中图 分 类 号 : P 9 T 31 文献 标 识 码 :A
A t d fAm b g o sCo b na i nsi e b n Su yo i u u m i to n Tr e a k L nio IYa j ,YANG r o g a Ehn
3 2ห้องสมุดไป่ตู้4 0% 4 7 .
1 6 5 . % 5 2 7
3 1 . 8 42
2 96 08 .3
O O
1 03 .
O O
O O
名词 、 动词 、 容 词 是汉 语 的 三 大词 类 , 华 树 形 清 库 中名词 、 动词 、 容 词共 有 1 形 4种 不 同的标 记 符 号 ( 括小类 ) 包 。本文 主 要 考察 名 词 、 词 、 容 词 ( 动 形 包 括 小类 ) 连 续 线性 序 列 上 的组 合 情 况 , 2 ( 。 在 共 7 3) 种 。具 体方 法是 , 连 续 出现 的三 个 词 串 ( 词 n 将 名 、
全 面考察 , 从歧 义格 式 的组成 成分 , 义 对外造 成 的 歧 影 响 , 式歧 义和 实例 歧 义 的对应 关 系三 方 面 考察 模 了短语结 构 定界歧 义 的不 同类 型 , 并对 汉 语 短语 结
构 定界歧 义 的不 同类 型 进 行 了初 步 统 计 , 以期 对 汉 语 短语 结构 定界歧 义 问题做 清 晰化 的描 述 。至于 一
b scwo k f rt e e f ci e u e o r e a k i f r to .Th s p p r i v s i a e h mb g o s c mb n to n Ch — a i r o h fe tv s f e b n n o ma in t i a e n e t t st e a i u u o i a i n i i g n s e b n e e Tr e a k,r v ai g t a r e y r q ie e n i e t r O r s l et ea i u u o i a i n a d s r c u e e e l h ti l g l e u r ss ma tcf a u e t e o v h mb g o sc mb n to n tu t r n ta i i e e n a o e s l e i l y g a n Ch n s ,a d c n n tb o v d smp y b r mma ia e t r s ( u h a t l a u e s c sPOS i f r t n fwo d . c f o ma i )o r s n o Ke r s mb g o s c mb n t n ;s ma tc r lto s r e a k y wo d :a i u u o ia i s e n i ea in ;t e b n o
息 处理 。
2 4
中 文 信 息 学 报
词 连续 出现 , 若词 性 相 同 , 直 接组 合 成 一 个 整 体 、 则
2 基 于 树 库 的 考 察
2 1 语 料 说 明 .
构 成并 列成 分的 可能性 会更 大 。
表 1 十 种 模 式 的 组 合 情 况 不 同 的组 合 方 式 实 例 总 数 a EAB 3 b E B  ̄ cE 3 . E  ̄C . A E C ] . A B c 数 量 分 比 量 分 比 量 分 比 百 数 百 数 百
a n n + + 1 O l 3 6 . 8 2 8 3
v—- + V +V 1 42 1 3 9 .2
5 3 . 7 17
1 9 83 1 .8
0 O
1 O 7 .0
a+ V+ n l O 3
2 1 .2 1 6
1 83 O9 .8
据本 身的词 性 序列 是 可 以化 解 掉 的 , “ + v n 如 n + ”
是 / C E pD n — Z E pD v n — ZE pD n — Z我 /N 国/ r n]人 民/
n]E pD n — Z长期/ n的/ n — Z共 同/ ur pD a愿 望/ n]]
大 程度上 要靠 词语 内部 的语 义关 系 来 化解 , 下文 上
1 引 言
树 库作 为 包 含语 言 结 构信 息 的资 源 , 价 值 与 其 作 用得 到 了人 们 的肯定 。“ 先 , 首 它可 为基 于统计 的 自动句 法分 析器提 供必 要 的训 练 数据 和统一 的测 评
合进 行 考 察 , 有 效 利 用 树 库 信 息 的 基 础 工 作 。该 文 对 汉 语 树 库 中的 歧 义 组 合 进 行 考 察 , 现 汉 语 中 的 结 构 歧 义 是 发 很 大 程度 上要 靠 词 语 的 语 义 特征 来 消 解 , 仅 依 靠词 语 的 语 法特 征 ( 词 类 信 息 ) 无 法解 决 的 。 仅 如 是
n+ n+ n 91 7 5 61 4 96 . 3 35 45 .5 3 O 3.1
清 华 大 学 树 库 ( ig u hn s e—a k Ts h aC ieeTreb n , n
模 式
T T) 国 内第 一 个 大 规 模 汉 语 树 库 , 是 一 个 标 C 是 也 注信 息最 丰 富 的短 语 结 构 树 库_ 。1 9 3 9 8年 到 2 0 ] 02
O O
动 词 v 形 容词 a的任 意 组合 ) 取 出来 , 后 匹配 、 提 然
出三个词 直 接组合 在 一 起 的实 例 , 实 例 数 量排 在 将 前 十位 的模式 作为 本 文 的考 察 对 象 ( 文 一 些具 体 下
的标注符 号请 参见 相关规 范 4 。 刮)
2 3 考 察 结 果 与 分 析 .
该 文没 有 做 统 计 。而 本 文 是 在 大 规 模 树 库 的基 础
统 计 的训练模 型 主要利 用 的是一 种结构 在 特定环 境
中的概 率分 布知识 。本 文通 过对 树库语 料 中三元 词
上, 根据 具体 的实 例来 统计组 合歧 义模 式 , 同于 上 不
文 的角度 , 好形成 有 益 的补 充 。 正
会 出现 。
三个连 续 出现的词 串, 能组 合在 一起 , 可 能 可 也
不 组合 在一 起 , 如 , 回/ 例 收 v澳 门/ S , ,… … , , n / /
以上就 是十 种模式 的 总体情 况 。在后续 进一 步 的考察 中发 现 , 些情 况下 , 有 同种模 式 的不 同组合 根
第2卷 6
第 2 期
中文信 息学报
J OU RNAL OF CHI NES I ORM ATI E NF ON ROCES I P S NG
Vo . 2 1 6,NO 2 .
Ma. 2 2 r . O1
21 0 2年 3月
文 章 编 号 :1 0 -0 7 2 1 ) 20 2 —5 0 30 7 ( 0 2 0 —0 30
组合歧 义是 指一个 句法 结构 可 以对 应 多种组 合 方式 , 即对应 多棵 树 。对于计 算 机而 言 , 在多个 结 要
构 中选 择一 个合适 的句 法结 构 , 要各 种知 识 , 常 需 通
个 歧义 格式 跟具体 歧 义 实 例 的对 应 关 系 , 由于 要 跟 实 际语料 使 用相 印证 , 需要 大规模 树库 的支持 , 以 所
此外, 十种模 式 在不 同 的组 合方 式 上 也 有 不 同 的组合 倾 向 , n 如“ +n ” +v 更倾 向于 a式组合 ,v “ +a +n 更 倾 向于 b式 组合 , 式组 合 有 一定 的特 殊性 , ” C 需 要 的条件 较严格 , 只有 少 数 模 式 在特 定 情 况 下 才
(n tt t fAp l d Lig itc ,Be ig La g a ea d Cut r iest I siueo pi n usis e in n u g n lu eUnv r i i y,B in 0 0 3 ej g 1 0 8 ,Chn ) i ia
Ab t a t sr c :Chie e Tr e nk a nd ofv l a e r s n s e ba s a ki a u bl e our ei c n Chi s n or a i oc s i ncu s rc i f m a ne eI f m ton Pr e sng i lde ih n or — to n t e e e s r c ur nd t o tt in o he s nt nc t u t e a he c ns iune t c b n to n om i a i n. A t sudy on t e c b n ton o h om i a i fPOS t i s s t s rng i he