机器翻译难点所在_张政

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

MT 所 面 对 的 难 题 之 一 就 是 语 言 消 岐 ( disambiguit ion) 。自然语言在词汇、 句法、 语义、 语用等各个层面都充满歧义。冯志伟 ( 2001: 246 - 271) 给出了 22 种歧义结构 , 詹卫东等( 1999: 3) 也列举了大量的歧义格式。在词汇层面上, 词汇 的歧义主要是一 词多义, 如 英语单词 bank 可以 指 银行 、 储藏所 , 也可以指 河岸 、 沙洲 , t ear 既可表示 眼泪 , 也可表示 撕破 , 汉语中的 好 也是容易引起歧义的词, 无论是英语还是汉 语, 这种一词多义现象比比皆是。另一种情况是, 一个句子可以表示多个意思, 即句子本身是歧义 的。如 不需要进口小学生字典 , 没有上下文 , 可 以理解为 不需要进口( 进口作动词) 、不需要进 口的 ( 进口作名词 ) 、小学生的字典 、小的学生 字典 四种含义。英语中常见的结构歧义之一是 and ( 和) 结构, 如 t he y oung m en and w omen, 它 即可表示 年轻的男人和女人 , 也可表示 年轻的 男人和年轻的女人 。这种歧义结构看似简单, 机 器却无法识别, 有人戏谑地说 , 谁能克服这个难题 , 就应该获诺贝尔奖 , MT 消歧中的困难 , 由此可见 一斑。 中国和西方国家在生存条件和环境、 历史和 传统、 思想方式等方面都存在很大差异 , 这种差异 必然反映在中西语言上。王力先生在 中国语法 理论 一书 中提 出形 合和意 合两 个概 念, ( 王力 1954/ 2000: 310) , 指出 汉语里多用意合法, 联结 成分并非必要 ; 西方多用形合法, 联结成分在大多 数情况下是不可少的。 汉语句子的结构也可称为 并列 , 语义单位并列展开 , 表示关系的连接词、 介 词、 代词、 限定词或说明成分的定语和状语较之英 语用得很少。句子之间的衔接主要靠语义, 各语 义单位之间的关系通过结构内在的暗示 , 通过读 者的理解来贯穿联系。形式上较松散 , 灵活随意, 而又富于弹性。断句也没有严格明确的界限, 有 时一个段落为 一句。汉语的语 法成分界 定不明 确, 句子的形式化特征不明显。汉语的语法比西 洋语法更为复杂和隐蔽, 存在于隐性的语义关系 中( 荣晶 2000: 84) 。汉语里 , 意义上的关联就是 语词搭配起来的粘合剂, 结构类型并不取决于词 类的性质 , 而取决于语义的关联。所以, 汉语 M T 理论的研究不可能没有对语义的研究 , 但语义的 形式化描述更复杂、 更模糊。比如 动词+ 形容词 + 了 结构, 仅从语法的层面 , 很难分析下去 : 砍 光了 ( 语 义 上主 语 指 砍 的 受 事, 如 树砍 光 了 ) 、砍累了 ( 人砍累了 ) 、 砍钝了 ( 刀、 工 具砍钝了 ) 、 砍痛 了 ( 手砍痛了 ) 、 砍坏了 ( 受事的 东 西砍坏 了 ) 、 砍多 了 ( 东 西 砍多 了 ) 。由于补语的指向不同 , 句子暗含的意义不
同( 俞士汶 1996: 16) 。这种语义的形式化描述非 常困难, 至少在不远的将来很难有突破。 多义性( m ult imeaning) 是自然语言的特点之 一。多义识别一直是自然语言处理中最基本、 也 是最难解决的问题之一。它几乎表现在语言的各 个方面, 其中也包含由于语用因素造成的语句多 义或语句 模糊性 ( fuzziness) 。说话人可以用同 一句话表达不同的意思。反过来, 对于同一句话 , 不同的听话人也会有不同的反应。人与人用自然 语言进行交流是在一定的环境中进行的, 交流知 识背景一定有共同的部分 , 交流的目的大体上也 有预设。如 今天是星期六 , 可以表示丈夫提醒 妻子 今天不必上班 、 孩子 提醒父母 带他去 公 园 、 莘莘学子 希望睡个懒觉 , 还可以表示雇员 提醒老板 今天工作就是加班 等等。这种言外之 意及其背后的条件及语境 , 在目前情况下无法用 形式化的方法精确地描述出来 , 完全使用与上下 文无关的语法公式来描写语言 , 其数量是难以控 制的 , 而且使用句法树 ( g rammar t ree) 也无法充 分表达句子的逻辑语义。 汉英 M T 系统 做 这 类 分 析 时, 困难 更 大。 如: ( 1) 汉语缺乏印欧语言那样丰富的形态 ; ( 2) 汉语的语素、 单词和词组之间的界限很模糊; ( 3) 汉语的词类和句法成分之间没有明确的一一对应 关系 ; ( 4) 汉语中的虚词虽然有重要的句法功能 , 但在很多情况下又可以省略; ( 5) 汉语句子成分 和语义关系之间也没有明确的一一对应关系 ; ( 6) 汉语书面语没有分词连写 , 即字与字之间没有空 格, 按句连写的书面汉语丢失了较多的语言信息 , 所以汉语的计算机信息处理任务更加艰巨。 语言文字的熵( entropy) 是自然语言信息和知识 处理中极为关心的一个问题。它最早的概念来源于 热力学, 指热能的变化量除以温度所得的商, 表示热 量转化为功的程度, 后来香农把它用于信息论, 表示 信息传输中信息的量。汉字的熵为 9. 65 比特( 陈原 2003: 163) 。与拼音文字相比, 汉字的熵要高得多。 从信息论的角度看, 如此大的熵对于通讯技术和汉 字的信息处理都极为不利。 自然语言是人类最伟大的发明之一 , 极其复 杂。按照巴尔特 ( R. Bart hes) 的解释, 除人类 的 自然语言以外 , 我们至今还没有发现任何其他更 为复杂的符号系统( 丁尔苏 2000: 4) 。实际上 , 索 绪尔在他的 普通语言学教程 中早就指出: 语言 可以说是一种只有复杂项的代数 , 语言的实际 情况是我们无论从哪一方面去研究, 都找不到简 单的东西 ; 随时随地都是这种相互制约的各项要
真、 理性、 客观地分析 MT 发展的困境和难点, 有 必要深入地研究制约 MT 译文质量的瓶颈 , 以便 重新厘定 MT 未来的研究目标和努力方向。 2 难点分析 2 1 翻译本身的复杂性 人工翻译的过程是人工译者集理解、 分析、 选 择及再创造为一体的综合过程, 是大脑思维活动 的过程。人工译者可以结合原文 , 或者说原文给 定的语言意义, 根 据自己的双语知 识和文 化、 历 史、 地 理、 风俗 习惯 等背 景知识 进行 重 组 ( reassem bl e) , 或者按 法国著名 翻译理论 家塞莱 丝柯维奇 ( D. S lesko vit ch) 的观点, 还要注意对 传达内容起着积极作用的多种因素, 如语境因素、 语言 暗 含 因 素、 超 语 言 因 素 等 ( 许 钧、 袁筱一 1998: 100) 。在对原文进行了方方面面的考虑之 后, 译者可以对译文删减和添加, 也可以根据情况 酌情雕饰和润色, 总之, 他有相当的自由度。而机 器的工作原理是建立在串行二值逻辑的基础上, 即 非此即彼 , 二者必居其一 , 它没有思维、 判断、 推理能力 , 只能是在限定的范围内进行一对一的 选择 , 因此就不可避免地会出现令人费解的译文。 比如 , 人名 黄思绵 的翻译 , 有 4 个 M T 系统分别 译成了 ( 1) Yellow t hink o f silk f loss( 2) F ox ed sim ian( 3) t o t hink of t he silk f loss yellow ly 和 ( 4) H uang Si M ian, 从中不难看出这些译文的荒 唐费解程度, 而这种情况很有普遍性。早期英俄 M T 系统中的一个英语句子是 Out of sight , out of m ind( 眼不见, 心不烦 ) , 译成俄语就成了 看 不见的疯子 ( inv isible idio t ) 、 看不见的精神错 乱 ( invisible insane ) 、 隐 身 傻 瓜 ( invisible lunat ics) 、 隐身疯子 ( invisible and insane) 等, 再把它译回英语, 就面目全非了( H utchins 1986:
*
本文得到北京市优秀人才专项和北京市留学人 员科技活动项目择优资助。
59
16) 。英语成语翻译本身比较困难 , 但人工译者一 般不会闹出这样的笑话。机器出现这种情况并不 奇怪 , 因为即使在同属印欧语系的英、 法、 德语之 间单词互译, 让机器做出准确、 恰当的选择也非易 事。英 语 中 的 知 道 ( know ) , 对 应 的 法 语 是 conna t re 和 sav oir, 但两者的含义不同。英语中 的 墙 ( w all) , 译 成德语时首先要确定是 内墙 还是 外墙 。英语中一个 set, 对应的汉语译文有 上百种。与汉字 开 搭配的用法有 开工、 开河、 开灯、 开始、 开天辟地、 开诚布公、 开宗明义 等, 也 有一百多个, 对应的英语译文数目就可想而知了。 如何取舍 , 并不容易 , 更何况大多数情况下 , 翻译 根本不是简单的字比句次 , 人工翻译也不是一对 一的机械转 换。汉语 的 一箭双雕 译成英语 是 kill t wo birds w it h one st one( 一块石头打死两只 鸟) , 法语是 f air e d une pierre deux coups( 一块石 头打两处 ) , 俄语是 一枪打死两只兔子 , 而在德 语中则是 一拍打死两只苍蝇 , 不同语言表达的 基本含意相 同, 但形象 及表达形式却 迥然不同。 再如英语 w ear ( 穿、 戴 ) , w ear a t ie, 就不能译 成 穿领带 , 因此译文还受习惯表达的制约。要让 机器翻译通顺 , 就必须在机器的词典库里详细地 标注、 限定 , 这样的一部词典要尽可能包括详尽的 语言学知识, 如词法、 形态、 句法、 语义、 语用等, 甚 至还要包括必要的常识, 这些丰富的信息只有通 过适当的处理 , 才能为机 器所用, 或 者说让机 器 懂得 人类语言。而 巴 希莱尔 ( Bar H illel ) 认 为, 在机器内部建立一部通用的百科全书, 这纯属 空 想, 几 乎 不 值 得 进 一 步 考 虑 ( . . . ut t erly chimerical and hardly deserves any f urt her discussion) ( H ut chins 1986: 155) 。即 使有 了 这 样一部包罗万象的字典, 机器的选择仍然存在问 题。例 如 英 语 中 the appearance of t he m an under t he tr ee w it h a bro ken branch near t he edge of t he r oad in t he t ow n w ith a market 这个 短语的 排列 组 合有 429 种选 项 ( 冯 志伟 2001: 224) , 要让 机器挑出一个 正确的, 其 难度可想 而 知。 这些问题说明 , 我们还要对语言与思维、 文化、 翻译等之间的密切关系进行更深入的研究, 特别是 要注重语言的形式化描述, 在句法、 语义描述方面 要更细, 建立更丰富完善的知识库, 在词性标注、 词 汇语义标注、 句法标注、 语料库的规模和加工方面 多下工夫。 2 2 自然语言的复杂性 歧义 ( ambiguity ) 是自然语 言中普遍存在 的 现象 , 其实质是同一语言形式可能具有不同的意 义, 这也是自然语言与人工语言的不同之一, 所以 60
1 引言 世界上第一台电子计算机问世不久 , 美国科 学家韦弗 ( W. Weaver ) 和英 国工程 师布斯 ( A. D. Boo th) 就提出利用计算机进行语言自动翻译 的想法。 1954 年 , 美国进行了世界上第一次计算 机 翻 译 ( 通 常 称 作 机 器 翻 译, 即 M achine T ranslat ion, 简 称 M T , 或 者 F ully Aut omat ic H igh Q ualit y M achine T r anslat ion, 简 称 FAH QM T ) 系统的公开演示。该系统很小, 只有 250 条俄语词汇 , 6 条语法规则以及精心挑选 的 49 个俄语翻译例句, 但它向世人展示了 M T 的可 行性。这次试验有限的成功为人类的梦想插上了 翅膀 , 人们对 M T 的 未来充满乐观 , 似乎高质 量 的机器翻译近在咫尺。英国曾有报道说 : 操作员 坐在电子翻译器前, 从十几种语言中任选一种, 比 如法语, 他打字的速度有多快 , 翻译过来的匈牙利 语或 者俄 语 打 印 在 磁带 上 的 速 度 就有 多 快。 ( H ut chins 1986: 30) 这幅美好的前景激发了人们 对 MT 研 究的 热情 , 世 界各地 纷纷 斥巨 资进 行 MT 的研究。但时至今日, M T 的现实并不 像人 们所期待的那样美 好。国际上著 名的 MT 评 论 家哈钦斯先生不久前指出 : M T 译文质量至今并 没有取得实质性进展 , 很多 50 多年前未解决的问 题如今依然存 在。 ( 董振东 2000) 我国著名 学者 冯志伟先生也说 : 从已经推出 的实用化 M T 系 统的译文质量来看, 还不十分令人满意 , 对于一些 简单的句子, 译文一般不会有大问题, 但对于一些 稍长的句子, 或结构稍复杂的句子 , 译文质量就不 能令人 满 意, 有 时 简 直 是 不可 卒 读。 ( 冯 志 伟 2001: 55) 社会科学院刘倬研究员认为 M T 的译 文质量没有明显的提高。 ( 见黄河燕 2002: 1) 鉴于 M T 目前这 种尴 尬的 境地 , 有 必要 认
2005 年第 5 期 总第 93 期
外 语研究 F or eign L ang uages Research
2005, Seria l
5 93
机器翻译难点所在
张 政
*
( 北京工商大学外语系wenku.baidu.com, 北京 100037)
摘 要 : 机器翻译经 历了 50 多年的曲折历程 , 已取得了长足的进展 , 但困扰机器翻译译文 质量的瓶 颈依旧存
在。作者从语言学、 翻译学、 文化学、 计算机科学的角度分析、 论述了机器翻译中的难 点 , 指出提高机器翻译译 文质量的艰巨性、 复杂性和长期性 , 以及今后的研发思路。 关键词 : 机 器翻译 ; 难点 ; 形式语法 ; 语言学 中图分类号 : H059 文献标识码 : A 文章编号 : 1005- 7242( 2005) 05- 0059- 04
相关文档
最新文档