Transformer-CRF词切分方法在蒙汉机器翻译中的应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
收 稿日期:2019-04-16 定稿日期:2019-06-03 基金项目:国家自然科学基金(61363052,61966028);内 蒙 古 自 治 区 自 然 科 学 基 金 (2016MS0605);内 蒙 古 自 治 区 民 族 事 务 委员会基金(MW-2017-MGYWXXH-03)
0 引 言
由于 人 工 翻 译 成 本 较 高,随 着 科 学 和 信 息 技 术 的 发 展 进 步,机 器 翻 译 已 经 逐 渐 取 代 人 工 翻 译。 1954年 1 月 7 日,在 IBM 纽 约 总 部,Georgetown- IBM 实验启动,IBM 的 701 型 计 算 机 将 60 个 俄 语 句子自动翻译成英 语,这 是 历 史 上 首 次 实 现 的 机 器 翻译。经过六十多 年 的 发 展,机 器 翻 译 技 术 日 趋 成
苏依拉,张 振,仁庆道尔吉,牛向华,高 芬,赵亚平
(内蒙古工业大学 信息工程学院,内蒙古 呼和浩特 010080)
摘 要:基 于编码—解码(端到端)结构的机器翻译逐渐成为自 然 语 言 处 理 之 机 器 翻 译 的 主 流 方 法 ,其 翻 译 质 量 较 高且流畅度较好,但依然存在词汇受 限、上 下 文 语 义 信 息 丢 失 严 重 等 问 题。 该 文 首 先 进 行 语 料 预 处 理,给 出 一 种 Transformer-CRF算法来进行蒙古语词素和汉语分词的预处理方法。然后构 建 了 基 于 Tensor2Tensor的 编 码—解 码模型,为了从蒙古语语料中学习更多的语法和语义 知 识,该 文 给 出 了 一 种 基 于 词 素 四 元 组 编 码 的 词 向 量 作 为 编 码器输入,解码阶段。为了进一步缓解神经网络训练 时 出 现 的 词 汇 受 限 问 题,该 文 将 专 有 名 词 词 典 引 入 翻 译 模 型 来进一步提高翻译质量和译文忠实度。根据构建模型对不同长度句子进行实验 对 比,表 明 模 型 在 处 理 长 时 依 赖 问 题上翻译性能得到提高。 关 键 词 :蒙 汉 翻 译 ;Transformer-CRF 分 词 算 法 ;蒙 古 语 词 素 中 图 分 类 号 :TP391 文 献 标 识 码 :A
熟。目前,基于深度 学 习 的 神 经 机 器 翻 译 和 统 计 机 器翻译成为机器翻译的主要研究方向和主流技术。
Cho K 等 提 [1] 出基于深度学习的神经网络端到 端框架,它 还 有 另 一 个 名 称,即 编 码 器—解 码 器 框 架 ,编 码 器 和 解 码 器 分 别 是 两 个 神 经 网 络 结 构 ,编 码 器实现源语言的统 一 编 码,解 码 器 把 编 码 器 输 出 的 隐层状态解码成对 应 的 目 标 语 言,实 现 双 语 的 近 似 同义转 换。Cho K 的 实 验 使 用 循 环 神 经 网 络 (re- current neural network,RNN),RNN 神 经 网 络 不
Abstract:Focused on Mongolian-Chinese machine translation,this paper proposes a Transformer-CRF algorithm to perform corpus preprocessing for Mongolian morphemes and Chinese word segmentation.Then the encoding-deco- ding model based on Tensor2Tensor is constructed.In order to learn more grammar and semantic knowledge from Mongolian corpus,this paper presents a morpheme quad-encoded word vector as the encoder input.In order to fur- ther alleviate the vocabulary limitation problem in neural network training,this paper introduces a proper noun dic- tionary into the translation model.Experimental results indicate that the model has improved translation quality in dealing with long-term dependence. Keywords:Mongolian-Chinese translation;Transformer-CRF word segmentation algorithm;Mongolian morpheme
第 33 卷 第 10 期 2019 年 10 月
中文信息学报 JOURNAL OF CHINESE INFORMATION PROCESSING
文 章 编 号 :1003-0077(2019)10-0038-09
Vol.33,No.10 Oct.,2019
Baidu Nhomakorabea
Transformer-CRF 词 切 分 方 法 在 蒙 汉 机 器 翻 译 中 的 应 用
Application of Transformer-CRF Word Segmentation Method in Mongolian-Chinese Machine Translation
SU Yila,ZHANG Zhen,RENQING Daoerji,NIU Xianghua,GAO Fen,ZHAO Yaping (School of Information Engineering,Inner Mongolia University of Technology,Hohhot,Inner Mongolia 010080,China)