_统计机器翻译_述评_冯志伟

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第 二 部 分 讲 述 统 计 机 器 翻 译 的 核 心 方 法 ,包 括 基 于 词 的 翻 译 模 型 、基 于 短 语 的 翻 译 模 型 、解 码 、语 言 模 型 、评 测 等 。
第4章 “基于词的翻译模型”重点介绍了IBM 模型。IBM 模型1只使用了 词汇翻译概率,模型2增加了绝对对齐模型(absolute alignment model),模 型 3 增加了繁衍率模型(fertility model),模型4将 绝 对 对 齐 模 型 替 换 为 相 对 对 齐 模 型(relative alignment model),模型5修正了 模 型 中 的 缺 陷,将 概 率 值 分 配 给 那 些不可能的对齐。
第5章 “基于短语的翻译模型”介绍了基于短语的统计机器翻译模型,这种 模 型 把 短 语 作 为 翻 译 的 单 元 。 在 短 语 翻 译 表 中 ,短 语 之 间 是 一 一 映 射 的 ,也 可 能 存在调序。短语翻译表可以从 词 对 齐 中 通 过 机 器 学 习 而 自 动 得 到,与 词 对 齐 一 致的所有短语偶对都被添加到短语翻译表中。本章还介绍了一种可以直接从双 语平行语料中自动学习短语对齐的替代方法。在短语翻译表中可能存在调序, 因 此 ,本 章 还 介 绍 了 一 个 简 单 的 基 于 距 离 的 调 序 模 型 ,给 出 了 一 个 词 汇 化 的 调 序 模型,并使用对数线性模型 来 融 合 短 语 模 型 中 不 同 的 模 型 组 件。 在 扩 展 原 始 的 翻 译 模 型 时 ,可 以 引 入 额 外 的 模 型 组 件 ,这 些 组 件 包 括 :双 向 翻 译 概 率 、词 汇 化 加 权 、词 惩 罚 和 短 语 惩 罚 。
· 631 ·
2013 年 外 语 教 学 与 研 究 第 4 期
解 码 器 的 搜 索 图 转 换 为 词 格 (word lattice),就 可 抽 取 出 译 文 ;词 格 还 可 用 来 产 生 n-best的译文列 表。 统 计 机 器 翻 译 的 判 别 式 训 练 属 于 有 监 督 学 习 (supervised learning)。训练时需要 准 备 一 组 源 语 言 的 输 入 句 子 和 与 之 对 应 的 候 选 译 文 集 合,候选译文中至少有一个 被 标 记 为 正 确 的。 任 何 一 个 现 代 统 计 机 器 翻 译 系 统 在 训 练 时 都 包 含 参 数 调 节 过 程 ,用 来 为 重 要 的 系 统 参 数 设 置 最 优 值 ,尤 其 是 对 数 线性模型中的参数权重,用 于 对 相 关 子 模 型 的 分 布 建 模。 当 前 统 计 机 器 翻 译 中 一个富有挑战的研究课题是大规模判别式训练方法。在大规模判别式训练中, 概 率 估 计 完 全 被 特 征 和 特 征 值 替 代 ,因 而 在 这 样 的 模 型 中 ,使 用 的 特 征 数 目 达 数 百万之多。与判别 式 训 练 相 关 的 是 后 验 方 法 (posterior methods),这 种 后 验 方 法主要研究在 最 佳 候 选 译 文 样 本 集 上 的 概 率 分 布,使 用 最 小 贝 叶 斯 风 险 解 码 (minimum Bayes risk decoding),选 择 出 一 个 与 大 多 数 高 概 率 译 文 相 似 的 译 文 。
第8章 “评测”讲述如何评测机器翻译 系 统 的 性 能。 由 于 源 语 言 中 的 一 个 句子可能有很多不同的正确翻译,因此译文评测是个很困难的问题。 在评测时, 可以提供一些参考译文,但不 能 期 望 机 器 翻 译 系 统 精 确 地 将 机 器 译 文 与 参 考 译 文进行匹配。机器 翻 译 系 统 的 性 能 评 测 的 根 据 是 忠 实 度 (adequacy)和 流 利 度 (fluency)。忠实度用于评测译文中包 含 了 多 少 原 文 要 表 达 的 意 思,流 利 度 用 于 评测译文是否流利。不同的人工评测者在评分时会根据自己的标准给译文打 分 ,因 此 有 必 要 规 范 这 样 的 评 分 使 之 具 有 可 比 性 。 在 评 测 机 器 翻 译 系 统 时 ,除 了 考虑译文质量指标外,还 要 考 虑 翻 译 系 统 的 速 度、规 模、集 成 性 能、领 域 适 应 性 等。在使用人工评测方法对机器翻译系统的机器译文与参考译文进行对比时, 还应考虑单词的准确率和召回率。
2.内 容 简 介
本书 作 者 Philipp Koehn 是 英 国 爱 丁 堡 大 学 信 息 学 院 讲 师,他 是 欧 洲 EuroMatrix项目的协调人(EuroMatrix现已发展成 EuroMatrixPlus,Philipp Koehn也参加了这个 项 目 ),他 与 机 器 翻 译 领 域 的 知 名 公 司 如 Systran 和 Asia Online等从事过合作研究,有 十 多 年 的 统 计 机 器 翻 译 经 验,亲 自 见 证 了 统 计 机 器翻译的发展过程,他对于 统 计 机 器 翻 译 的 历 史 和 现 状 有 清 楚 的 了 解。 本 书 不 仅全面介绍了统计机器翻译的 基 础 知 识 和 核 心 方 法,还 探 讨 了 统 计 机 器 翻 译 中 的 一 些 前 沿 研 究 问 题 ,系 统 总 结 了 当 前 统 计 机 器 翻 译 发 展 的 最 新 成 果 ,是 一 本 学 习统计机器翻译的好书。
第2章 “词、句子和语料”介绍了 词 类、形 态 学、句 法、语 义、篇 章、语 料 库 等 基础知识,简要描述了齐夫定律、短语结构语法、依存语法、词汇功能语法、组 合 范畴语法等形 式 化 模 型,特 别 指 出 语 体 和 领 域 的 差 别 会 影 响 统 计 机 器 翻 译 的 效果。
第3章 “概率论”介绍了概率论的 基 本 概 念,如 均 值、方 差、二 项 分 布、正 态 分布、联合概率、条件概率、熵 等。 这 些 概 念 对 于 本 书 后 面 部 分 要 讲 述 的 统 计 机 器翻译非常重要。
第6章 “解码”介绍了统计机器翻译中的解码算法,对于一个给定的输入句
· 630 ·
冯 志 伟 《统 计 机 器 翻 译 》述 评
子使用解码算法进行搜索,就 可 以 找 到 最 有 可 能 的 翻 译 结 果。 由 于 搜 索 空 间 具 有指数级的算法复杂度,需 采 用 启 发 式 搜 索 方 法。 本 章 描 述 了 从 输 入 到 输 出 构 建 翻 译 的 过 程 ,并 将 其 作 为 搜 索 算 法 的 动 因 。 在 统 计 机 器 翻 译 中 ,对 于 给 定 的 输 入 句 子 ,必 须 处 理 很 多 翻 译 选 项 ;搜 索 是 建 立 在 一 连 串 的 翻 译 假 设 上 完 成 的 ,从 没 有 翻 译 任 何 单 词 的 空 假 设 开 始 ,进 行 假 设 扩 展 ,以 建 立 新 的 假 设 。 翻 译 假 设 重 组可以减少搜索空间。本章还 提 出 了 一 种 组 织 栈 解 码 的 启 发 式 方 法,根 据 已 经 翻译过的外语单词的数量在假设栈里对翻译假设进行组织。利用剪枝策略对栈 空间进行压缩,介绍了直方 图 剪 枝 和 阈 值 剪 枝 两 种 剪 枝 方 法。 本 章 还 介 绍 了 一 些其他启发式搜索算法,例如,基于覆盖栈的柱搜索算法、A* 搜索 算 法 和 贪 婪 爬 山解码算法。本章最后还介绍了有限状态转换机工具包。
· 629 ·
2013 年 外 语 教 学 与 研 究 第 4 期
全书分三大部分:第一部 分 包 括 1-3 章,讲 述 统 计 机 器 翻 译 的 基 础 知 识;第 二部分包括4-8章,讲述统计机器翻译 的 核 心 方 法;第 三 部 分 包 括 9-11章,讲 述 统 计 机 器 翻 译 的 前 沿 研 究 (advanced topics)。 内 容 简 介 如 下 :
2013 年 7 月
外 语 教 学 与 研 究 (外 国 语 文 双 月 刊 )
July 2013
第45卷 第4期 Foreign Language Teaching and Research (bimonthly) Vol.45No.4
《统计机器翻译》述评
杭州师范大学 冯志伟
Philipp Koehn.2009.Statistical Machine Translation.Cambridge:Cam- bridge University Press.xi+446pp.
第三部分讲述统计机器翻 译 的 前 沿 研 究,包 括 判 别 式 训 练 的 方 法 以 及 统 计 机器翻译中整合语言学信息的方法。
第9章 “判别式 训 练”介 绍 判 别 式 训 练 (discriminative training)以 及 对 翻 译 任 务 进 行 建 模 的 方 法 。 判 别 式 训 练 使 用 重 排 序 法 (re-ranking),首 先 利 用 基 线 模型产生候选译文,然后再 使 用 额 外 的 特 征 选 择 出 最 佳 译 文。 把 统 计 机 器 翻 译
第 一 部 分 讲 述 统 计 机 器 翻 译 的 基 础 知 识 ,介 绍 了 机 器 翻 译 的 历 史 、基 本 语 言 学 知 识 、概 率 论 知 识 等 。
第1章 “绪论”简要叙述了机器翻译发展的历史,特别说明了统计机器翻译 的 背 景 以 及 最 新 发 展 ,介 绍 了 统 计 机 器 翻 译 的 应 用 状 况 ,提 供 了 一 份 丰 富 的 语 言 资源清单。本章着重指出,机器 翻 译 技 术 的 应 用 价 值 将 随 着 翻 译 质 量 的 提 升 而 提 升 ,机 器 翻 译 并 不 要 求 译 文 的 完 美 ,粗 略 的 译 文 也 可 以 传 递 信 息 ,因 此 ,也 是 有 实用价值的。
Fra Baidu bibliotek1.引 言
目 前 ,统 计 机 器 翻 译 已 经 成 为 机 器 翻 译 研 究 的 主 流 。 越来越多的互联网和软件公司都推出了基于统计的在线的机器翻译系统。 例如,谷 歌 的 多 语 言 在 线 机 器 翻 译 系 统 Google Translator可 翻 译 的 语 言 有 58 种,翻译方向有58 × 57 = 3306个,也就是说,这个系统可以进行 3306 个语言 对的翻译工作,这样的工作 显 然 是 人 的 翻 译 所 难 以 胜 任 的。 如 果 用 户 不 知 道 文 本 的 语 言 是 哪 一 种 语 言 ,Google Translator系 统 还 可 帮 助 用 户 进 行 检 测 ,根 据 文 本中字母的同现概率 来 判 定 该 文 本 究 竟 属 于 哪 一 种 语 言,从 而 进 行 机 器 翻 译。 可 以 看 出 ,统 计 机 器 翻 译 目 前 已 经 取 得 了 可 喜 成 绩 ,值 得 我 们 关 注 。
第7章 “语言模型”介绍高效使用语言 模 型 的 方 法。 使 用 语 言 模 型 可 为 每 个给定的英语单词序列计算出 一 个 概 率,用 于 表 示 该 序 列 在 英 语 中 被 表 达 的 可 能性,从而帮助机器翻译系 统 产 出 流 利 的 译 文。 可 以 将 语 言 模 型 问 题 分 解 为 一 系列利用n元组的统计信息来预测单词的问题。这样的语言模型叫做马尔可夫 链。在马尔可夫链中,只有前面有限的 n-1个单词状态会影响当前单词的状态, n的大小 叫 做 语 言 模 型 的 阶;大 小 为 1、2 和 3 的 n 元 组 分 别 叫 做 一 元 组 (uni- grams)、二元组(bigrams)和三元组(trigrams)。由于在 有 限 的 训 练 语 料 中 无 法 观察到所有可能的 n元组,必须 处 理 数 据 稀 疏 的 问 题。 可 以 通 过 平 滑 经 验 计 数 的方法来处理数据稀疏的问题。
相关文档
最新文档