一个汉英机器翻译系统的设计与实现.doc
机器翻译系统设计与实现
机器翻译系统设计与实现机器翻译系统是自然语言处理领域中的一项重要研究方向,它利用计算机技术对不同语言之间的文本进行自动翻译。
相较于传统的人工翻译方式,机器翻译系统可以大大提高翻译效率和准确性。
本文将介绍机器翻译系统的设计思路和实现过程。
一、机器翻译系统的设计思路机器翻译系统的设计思路主要包括以下几个方面:1. 语言处理技术语言处理技术是机器翻译系统设计的核心,它涵盖了文本分词、词性标注、相似度计算、句法分析等方面的技术。
其中,文本分词和词性标注是机器翻译系统处理文本的基本方法,相似度计算和句法分析是对文本进一步理解和处理的方法。
2. 数据集准备机器翻译系统的训练需要大量的语料库数据,这些数据应该具有足够的语言覆盖面和标准程度。
因此,在机器翻译系统的设计中,需要考虑如何选择、构建和标注这些语料库数据。
3. 模型选择和优化在机器翻译系统中,常用的模型包括基于统计模型和基于神经网络模型。
统计模型主要包括基于短语的翻译模型和基于句法的翻译模型,而神经网络模型则包括循环神经网络(RNN)和卷积神经网络(CNN)等。
在模型选择上,需要根据具体的应用场景和翻译需求进行选择。
此外,模型优化是机器翻译系统设计中非常重要的一环,它基于训练数据和验证数据的交叉验证,通过调整参数和结构来获得更好的结果。
4. 接口设计机器翻译系统的最终目的是将翻译结果输出给用户,因此,接口设计也是机器翻译系统设计中非常重要的一环。
这需要考虑如何设计清晰简洁并便于使用的接口,并结合实际需求来实现高效的翻译。
二、机器翻译系统的实现过程机器翻译系统的实现过程主要包括以下几个步骤:1. 数据清理和预处理对于机器翻译系统的训练数据和测试数据来说,数据质量的好坏对翻译效果的影响非常大。
因此,在实现机器翻译系统之前,需要对数据进行清理和预处理,去除重复项、标准化格式等,以提高机器翻译系统对数据的识别和处理能力。
2. 模型设计和训练模型的设计和训练是机器翻译系统的核心步骤。
英语智能翻译人机界面系统设计与研发
英语智能翻译人机界面系统设计与研发杜卫卫【摘要】语言翻译智能化是行业科技创新内容,也是英语专业领域研究的重点技术之一。
人机界面系统是英语智能翻译器的核心构成,决定着英语语言翻译结构的准确性。
本文分析了传统翻译存在的不足,总结智能翻译系统的功能特点,提出翻译人机界面系统设计与研发措施。
%Language translation intelligent industry science and technology innovation content,one of the key technology and research in the field of English majors.The human-machine interface system is the core of smart English translator,determines the accuracy of the structure of the English language translation. This paper analyzes the shortage of traditional translation problems,summarizes the characteristics of the intelligent function of translation system,puts forward the design and R &D measures the man-machine interface system.【期刊名称】《电子测试》【年(卷),期】2015(000)002【总页数】3页(P19-20,18)【关键词】英语;智能翻译;人机界面;设计【作者】杜卫卫【作者单位】渤海大学大学外语教研部,辽宁锦州,121013【正文语种】中文基于信息科技普及应用背景下,智能翻译器在英语交流方面的应用更加广泛,采用高端信息技术辅助语言转换处理,实现了人类科技的又一次进步。
基于WAMP的藏汉英互译在线词典的设计与实现
码 。 经 测 试 , 在 线词 典 根 据 用 户 的 需 要 , 入 单 字 和 词 就 可 以 在 藏 汉 英 三 语 问 交 互 查 询 并 快 速 检 索 到 对 应 的 译 该 输
词 。词 典 采 用 B S结 构 , 的 实现 有 助 于藏 汉 英 三语 间 的 交 流 和 学 习 。 / 它 关 键 词 : 文 ;在 线 词 典 ; AMP; / 藏 W B S结 构 ;数 据 库
wh c sn AM P a e in p a f r ,a d as ie u h p cfcd sg t o n h i o eo h h — ih u ig W s ad sg l to m n lo g v s o t e s e i e i n me h d a d t e man c d f e t e t i t s u u a a a e a d t e q e y p g . Th x e i n r v d t a t e t e o l e d c i n r a n t n l e u n t e a r sd tb s n h u r a e e e p rme t p o e h h h n i i t a y c n i s a t r t r h n o y c r e tt i n u lwo d ( b t n o r c rl g a i r s Ti ea ,Ch n s n g ih f r t e q e y e t r d b h u t m e . Th i t n r s i e e a d En l ) o h u r n e e y t e c s o r s e dci a y i o
6 4
中 文 信 息 学 报
线 多语 词典 通 过十 余 年 来 的 迅 速发 展 , 已经 初 见 规 模 , 成 了各具 特色 的 在线 词典 资源 , 形 部分 在线 词典 已经 商品化 。相 较 之 下 , 文单 语 及 多 语 在 线 词 藏 典 仍 处于起 步 阶段 , 过 网络 能 够 搜 索 到 的藏 文 单 通 语 或 多语 在线 词 典很 少 。近 年来 , 着 时代 的发 展 随
基于模板的汉英专利机器翻译研究
( 北京 师范大 学 中文信 息处理研 究所 , 北京 1 0 0 8 7 5 )
摘 要 :为 了改善 专利 文献 的机 器翻译 效果 , 提 出了一种基 于模板 的机 器翻译 方 法。通 过分析 汉英 双语 对 齐的
专利 文献语 料 , 人 工书写 了 6 0 0余 条模 板 , 模 板 的设计 思 想源 于弱化 的正 则文 法; 设计 和 实现 了一 个模 板 翻译 模
中 图分类 号 :T P 3编 号 :1 0 0 1 . 3 6 9 5 ( 2 0 1 3 ) 0 7 . 2 0 4 4 0 3
d o i : 1 0 . 3 9 6 9 / j . i s s n . 1 0 0 1 — 3 6 9 5 . 2 0 1 3 . 0 7 . 0 3 2
现对专利文本的 自动翻译 , 必须结合其他翻译 方法 , 采取一种混 合策略 。本文的研究是将基 于模板的翻译方法融合到一个 已有
的基于规则的机器 翻译系统中 , 以改善原来的翻译效果 。
如下面 的例 l 、 2分别是专利文献中权 利要求和摘要 部分的常见
句式。
1 相关 工作
目前 , 机器翻译发展的一个重要趋 势是采取混合 的翻译策
块, 并将其与 已有的一个基于规则的机器翻译 系统相融合 。实验结果表 明, 4 0 % 以上的测试文本的翻译质量得
到了 提 高, 因此 , 这种基 于模 板 的方法 对 于改善 专利 文献 的机 器翻译 效果 是有 效的 。
关键 词 :模 板 ;专利文 献 ; 机 器翻 译 ;正 则文 法
第3 0卷第 7期
2 0 1 3年 7月
计 算 机 应 用 研 究
汉英机器翻译主语误译探究——以谷歌在线翻译为例
汉英机器翻译主语误译探究——以谷歌在线翻译为例近年来,随着人工智能技术的快速发展,机器翻译逐渐成为跨语言沟通的重要工具。
然而,尽管机器翻译在一些方面取得了较好的成果,但在翻译中仍然存在一些问题。
其中,机器翻译主语误译对翻译质量的影响尤为明显。
本文以谷歌在线翻译为例,探究汉英机器翻译中主语误译的原因和影响。
一、谷歌在线翻译简介谷歌在线翻译是谷歌公司开发的一款免费在线翻译工具。
它基于谷歌自家的机器学习技术,能够将文字从一种语言翻译成另一种语言。
谷歌在线翻译支持多种语言之间的互译,其中包括汉英翻译。
二、主语误译的表现形式在汉英机器翻译中,主语误译表现为翻译结果中主语的错误或不准确。
具体来说,主语误译可以分为以下几种情况:1.缺失主语:翻译结果中缺少了原文中的主语,导致句意不完整或不清晰。
2.错误主语:翻译结果中出现了与原文主语不一致的主语,导致句意错误或歧义。
3.不准确主语:翻译结果中的主语与原文语义不一致,导致句意扭曲或不完整。
三、主语误译的原因主语误译主要源于以下几个方面的原因:1.语言结构差异:汉语和英语在语法结构上存在较大不同。
例如,汉语中主语可以省略而在英语中主语必须出现。
这种语法差异容易导致机器翻译在处理主语时出现错误。
2.语义理解困难:机器翻译系统往往依靠大量的训练数据进行翻译,但对于一些语义复杂或难以准确表达的句子,机器翻译系统可能无法理解其准确含义,导致主语误译。
3.语言模型限制:机器翻译的技术原理中,语言模型起着重要作用。
然而,语言模型的训练数据有限,不能覆盖所有的语言表达方式。
这就限制了机器翻译系统在处理主语时的能力,容易导致主语误译。
四、主语误译的影响主语误译对汉英机器翻译的质量造成了一定的影响:1.句意不完整:主语误译会导致翻译结果中句意不完整或不清晰,给读者理解带来困扰。
2.歧义增多:错误主语或不准确主语可能导致翻译结果的歧义增加,使句子的意思不明确。
3.信息丢失:缺失主语则会导致翻译结果中丢失了原文的重要信息,使翻译结果丧失准确性。
英语翻译软件翻译准确性矫正算法设计
英语翻译软件翻译准确性矫正算法设计黄登娴【摘要】传统机器翻译方法采用管道式逐次操作对原始语料实施词性标识以及句法分析,获取英语语言的句法结构,使得翻译任务间存在的错误迭代传递、结构化实例准确性降低,导致英语语言文学翻译准确性降低.因此,对英语语言文学中的机器翻译准确性方法进行校对研究.设计基于知网的词汇语义相似度以及对数线性模型,采用汉英依存树到串的方式保存对应的双语语料,对源语言端实施依存结构化处理,确保汉英双语的对应关系,通过知网运算输入需要翻译句子(依存树结构)同实例库内源语言(依存树结构)中词汇的语义相似度.描述了机器翻译中相似实例检索模块以及译文生成模块的实现过程,通过面向数据的翻译模型进一步校对英语语言的准确翻译.实验结果表明,所提方法可得到准确率高的译文,具有较高的准确性和稳定性.【期刊名称】《现代电子技术》【年(卷),期】2018(041)014【总页数】4页(P170-172,177)【关键词】英语翻译软件;机器翻译;翻译准确性;语义相似度;矫正算法;迭代传递;依存树结构【作者】黄登娴【作者单位】中国民用航空飞行学院,四川广汉 618300【正文语种】中文【中图分类】TN912.3-34;TP391.2机器翻译是自然语言操作范围中的关键,具有较高的应用价值。
依据实例的机器翻译是一种经验主义的英语语言文学翻译策略,其无需复杂的深层次语法以及语义的分析,提高了英语语言翻译的效率。
但是基于实例的机器翻译方法对实例库质量的要求较高[1]。
传统机器翻译方法采用管道式逐次操作对原始语料实施词性标识以及句法分析,获取英语语言的句法结构,使得翻译任务间存在的错误迭代传递、结构化实例准确性降低,导致英语语言文学翻译准确性降低。
针对该问题,本文研究了英语语言文学中的机器翻译准确性方法,塑造并实现基于汉英依存树串实例的机器翻译系统,提高了英语机器翻译的准确性。
1 基础算法与模型1.1 依存树到串模型依存树到串的模型为<D,S,A>,<D,S>是一个翻译对,D表示源语言的依存树,S表示源语言的目标词语串,A用于描述D与S间的词对齐关系[2-3],依据依存树到串双语对齐模型的实例如图1所示。
自然语言实验报告
b、 GIZA++-v2 cd GIZA++-v2 #进入目录 #修改 Makefile 文件,删除“-DBINARY_SEARCH_FOR_TTABLE” make #编译 4、 安装 Moses 1> 下载安装 moses 解码器 a、安装所需要的依赖包 sudo apt-get install autoconf automaketexinfo zlib1g zlib1g-dev zlib-bin zlibc b、因为需要从网上直接下载 moses,故先安装 subversion sudo apt-get install subversion c、下载源码包 svn cohttps:///svnroot/mosesdecoder/trunkmosesd ecoder d、moses 的编译相关操作 cd mosesdecoder ./regenerate-makefiles.sh ./configure –with-srilm=/#SRILM #SRILM make -j 4 2> 安装训练脚本 a、建立训练脚本目录: mkdir-p bin/moses-scripts b、修改 makefile:现代汉语切分、标注、注音语料库-1998 年 1 月份样例与规范(北京大学) 1998-01-2003 版-带音(已标注语料库) 语料库规范
三、试验原理
主要是通过下面四个方面: [1] 语料准备 首先需要编程将汉语句子和英语句子分别从1500 句对中抽取出来存在两个文本 文件中,1500 个汉语句子存放在文件chinese 中,1500个英语句子存放在english 中。每个句子一行,并且汉英对应句子的行号一一对应。然后,您需要对chinese 中 的汉语句子进行切分,也就是切成一个个的汉语词。对于english 中的英语句子进 行tokenize。之后english 用做语言模型的训练语料,chinese 和english 用做翻译模
融合多种词义消歧结果的汉英机器翻译
圉
英 语 译 文
汉 英机 器翻译 是指 使用 计算 机 自动地将 } 句子转化为具有相 同含 义的英语译文的过 汉英机器翻译 的研 究对 于我 国经济和 文化 展具有十分重要 的作用 。在汉 语句 子中, : 存在着大量 的歧义词汇 。汉 语单词 “ 面” 个歧义词汇 。在 汉语句 子 “ 打着一面旗”
占到了整个语 言现 象的 4 2 %,其 比例是相
高 的 。 如 果 能将 词 义 消 歧 结 果 融 入 到 自动
过程之 中,必将 降低翻 译的难度并且提高 ) 译 文输 出质量 。因而,词义消歧对于提升 } 翻译质量将 具有十分重要的作用。 目前,
} 翻 译 的种 类有 很 多 , 但 较 为 成 型 且 广 泛 应
键词 】分类器 机 器翻译 歧义词; 1 2 多投
略
所使用的分类消歧方法 包摇 朴 素 贝 叶斯 算 法 、 最大熵算法和支持 向量 机算法等。不 同的消歧
良 l 皋 I 二 l
… …
特征、不同大小 的词 窗 和不 同的分类消歧方法
会 产 生 不 同 的 消 歧 效
不 同 的 词 义 消 歧 分 类 器 来 判 定 歧 义 词 汇 w 的
则库 。译文转 换模 块使用翻 译规则来调整汉语
目前,汉 . 英机器翻译 主要 是借助 于语言 } 源来实现 。 所使用的语言学资源 主要包括
} 翻 译 词 典 、翻 译 规 则 库 、翻 译 实 例 库 和 概
语义类。 对于词义消歧分类器 S C . ( i = 1 , 2 , …, m) 句 子 的语 序 , 同 时 , 使用 每 个 词 汇 的 译 文 来 生 而言 ,提取 词汇 W所 在的 上下文 ,从 中抽取 成其英语译文 。
汉英机器翻译中的结构分析和处理
汉 英 机 器 翻 译 中的 结构 分 析 和 处 理
张 蓥 ,朱 兰娟
摘 要 : 以依 存 结 构 树 和“ 语 法” 想 为 基础 , 设计 了针 对符 合语 法语 义规 则 的 复杂 句子 汉英 翻 译 软 件 ,尤 其 是 广 大 以规 范 格 思 的 句 子语 法和 常 用 的惯 用 语作 为依 据 和 素材 的 复杂 汉语 句子 ,着 重 介 绍 了 句子 主 干+ 状语 模 块 的翻 译 策略 , 以及 其 他 复杂 修
属 词 ’【。 ’
句 子 的依 存 关 系 ,一 般 被 描 述 为 一个 树 状 结 构 【。句 子 4 】
唯一独立成分即句子主句的谓词 , 是整句 的主支配词 , 就 其 他 从句 的谓词为辅支 配词 ,每个 节点都只依 附于一个支配
词 。我们 以主支配词作为依存树 的根节 点, 动词依存关系决
l
本文将 研究重点放在 以语法语义 规则为基础 的翻译策 略上 ,旨在尽量精确地剖析句子 的每个层次和结构 。 作为辅 助 , 们 建 立 了语 料库 ,不 仅 使 常用 的语 素 包 含 更 多 的语 义 我 内容 , 以概 念代 替词 作 为 基 本 单 位 , 加 更 多 的 新信 息【。 并 添 ”
定了整个依存树 的“ 主干” 。如在句子“ 他发现小孩喜欢一起
作者 简介 :张
图2 边 标记 的依 存结构 树
蓥 (9 5) 18.,女 ,上海 人 ,上海 交通 大学 自动化 系 ,硕士研 究 生 ,研 究方 向 :机器翻 译 ,上海
20 6 : 00 1
朱 兰娟 ( 9 3 ) 1 6 .,女 ,上 海人 ,上海 交通 大学 自动化 系 ,副教 授 ,博 士 ,研究 方 向:嵌入 式 系统软 件设计 、 离散事 件系 统建模 分 析 、 自然 语言 处理 等 ,上海 2 0 4 0 20
浅谈机器翻译实现的途径
浅谈机器翻译实现的途径本文概述了机器翻译的基础理论,它是借助计算机把源语言文本转变成目标语言文本的过程。
从计算机语言学的角度阐述了实现机器翻译的技术原理主要有基于语法分析和基于语料库两大途径;分析了这两条途径翻译过程中的优势和缺陷,并提出解决的对策。
标签:机器翻译;语法分析;语料库随着网络信息时代的来临,信息爆炸成为信息处理领域的瓶颈问题,不同语种之间大量的信息交流更加大了问题的严重性;同时不同语言之间的翻译工作也越来越迫切,并且工作量也越来越大。
如何利用计算机高效率的信息处理能力突破不同语种之间的语言障碍,成为全人类面临的共同问题。
机器翻译便是解决这个问题的有力手段之一,这也是其长期成为自然语言处理研究中心的主要原因之一。
一、机器翻译的基础理论机器翻译的总任务可以描述为:将一种语言(源语言)的文本信息输送入计算机,通过计算机程序生成另一种语言(目标语言)的文本,且源语言文本与目标语言文本具有相同的含义。
机器翻译的第一步是在不同層次上分析源语言文本,而后是目标语言文本的生成。
所谓源语言分析,就是遵循一定的语言学基础,寻求源语言文本的表示形式与其对应内容之间所存在的映射关系的过程。
文本内容可以用句法结构表达式、文本命题含义表达式、综合的中间语言文本描述。
典型的源语言分析手段为:依据与源语言文本所表达含义相关的词汇、句法结构、单词和句子的顺序,灵活地找出目标语译文。
源语言分析涉及多个不同层次,分析过程按照复杂度递增顺序可划分为以下几个阶段:1、形态分析:用于获取源语言词汇原形。
在机译系统的研制中,两层分析法是普遍采用的形态分析理论,有时也采用不太通用但更适合于特定语言、特定任务的方法。
2、句法分析:用于摘取源语言文本短语结构、句法结构的依存性,即确定输入文本中词汇的词性、短语边界及短语的内部结构。
3、语义分析:利用文本含义描述语言建立知识结构,反映源语言文本的词汇、词义及相互之间所存在的语义依存关系,可消除词义歧义、介词短语修饰歧义、复合词分解歧义等等。
人工智能机器翻译系统的设计与实现教程
人工智能机器翻译系统的设计与实现教程人工智能(Artificial Intelligence,AI)在过去几年里取得了巨大的进步,在许多领域中发挥着重要的作用。
机器翻译则是一个重要的应用领域,通过利用AI技术,使计算机能够理解和翻译不同语言的文本。
本文将介绍人工智能机器翻译系统的设计与实现教程。
一、系统需求分析在设计人工智能机器翻译系统之前,首先需要进行系统需求分析。
这对于确定系统的功能、性能和界面等方面非常重要。
在进行需求分析时,需要考虑以下几个方面:1. 语言支持:系统应该支持多种语言的翻译,并能够处理常见的语法和词汇。
2. 翻译准确性:系统应该能够提供准确的翻译结果,最大程度上保持原文的意思。
3. 多模式输入:系统应该能够接收不同的输入模式,如文本、语音、图像等,并能够根据需要进行翻译。
4. 实时性:系统应该能够在较短的时间内给出翻译结果,以满足用户的需求。
5. 用户友好性:系统界面应该简洁、直观,用户可以轻松地使用和操作。
二、系统设计与实现1. 数据准备:机器翻译系统的关键是训练数据的质量和数量。
一般来说,足够的平行语料库是必要的,这是包含大量双语句子的数据库。
同时还可以使用开源的翻译数据集,如WMT(The Workshop on Machine Translation)等,以提高系统的翻译质量。
2. 语言处理:机器翻译系统需要对输入文本进行语言处理,包括分词、词性标注、命名实体识别等任务。
这些任务可以使用自然语言处理(Natural Language Processing,NLP)技术来完成。
现有的NLP库,如NLTK(Natural Language Toolkit)、spaCy等,提供了一系列强大的工具来处理文本。
3. 神经网络模型:目前,神经机器翻译(Neural Machine Translation,NMT)已成为机器翻译领域的研究热点。
NMT使用深度神经网络模型来建模翻译任务。
翻译软件算法
基于ARM7控制器的中英文翻译器的设计郎宝华苗霞时间:2011年02月11日电子设计工程字体:关键词:ARM7LPC2214翻译器为了改进某焊接设备只能输出打印英文单据的情况,设计了由高性能ARM7控制器——LPC2214为核心的英文转中文翻译器,详细论述了具体的硬件电路和优化的软件算法的设计原理,实验结果表明,翻译器对输入的英文数据量的大小无任何限制,能够显著降低系统硬件资源需求且能大大提升打印速度。
基于某焊接设备存储大量数据需要通过打印机输出,但由于该设备及其配套的微型热敏打印机只能英文打印,不能中文打印的问题,从而影响用户阅读。
另外,原有的配套英文打印机具有打印速度缓慢、每一组数据间隔过大,浪费纸张等缺点。
因此,为了解决上述问题,根据实际工程项目应用需要,提出一种基于ARM的英文转中文的翻译器设计方案,该设计是在原有设备和支持中文打印的热敏打印机之间增加一块以ARM为核心的电路板作为英文转中文的翻译器,接收设备传输的英文数据,然后通过优化算法转换成中文,能够边接收边打印输出。
该系统设计从实验结果来看,打印输出效果良好,整个打印过程快速迅捷,每一组数据间隔可调,能够节省大量纸张。
1 系统硬件电路设计翻译器的系统结构框图如图l所示,它主要包括供电电源、核心控制器LPC2214和双串口接口以及启动和ISP控制接口等电路。
该系统设计采用优化的系统软件算法,能够节省大量硬件资源需求。
由于数据量非常大且要求快速打印,通常情况会增加一块容量很大的SRAM来接收英文数据,然后再进行比较翻译打印输出。
而本系统由于采用了环形接收/发送缓冲区以及前后台程序方式,这样就无需增加SRAM,能够实现边接收边打印,而且系统硬件电路设计简单明了。
1.1 供电电源电路图2给出了系统的供电电源电路,从图中可看出电源输入端只需一种12 V左右的电压输入,经过7805首先降至5 V,以满足通常5 V供电,而且还满足低压差的稳压器SPXlll7的输入要求。
基于混合策略的汉英双向机器翻译系统的设计
基 于混合策略的汉英双 向机器翻译系统 的设计
孙广范 , 宋金平 , 袁
( 中国电子信息产业发展研 究院。 北京
琦
lo ̄ ) oo
摘要 : 本文对于机 器翻译 方法中的基 于规则 的方法、 于模 板的方 法及 基 于实例 的方 法进行 了比较 ; 基 对 于完全 句法分析和浅层 句法分析方法也进 行 了分析 。然后 介绍 了将 上述方法结合起 来的汉英双 向机 器翻译
 ̄nl i yt . ee pr a r u hw a i ds p r hh eut ns n iat m r e et n s t nss m T m icl shso s ht s ei apo a rsl di i ic po m n ao e h s i e t t g h n c a s e gfn i v o
t l ebsdm t n eea pebsdm to 5 f rl n lha d1% fr rt n hhrs c e a —ae e o adt xm l ae eh i 1 % o oa E gs 0 o ie E gs p — mp t h d h — d s r i n w tn ee
ta sain.聃 wel聃 cmprn o lt asn to sa d salw p rigme o s h ed sg dwok o o rnlt o l o aigc mpeep rigme d h l asn t d .T eina rf w f h n o h n l c mbnn ea o eme o si idrcin hn s — n l hma hn rnlt ns se r loit d c di i o iigt b v td b—i t a C ieeE gi c iet sa o ytmsaeas r u e t s h h n e ol s a i no nh p p r h ep roeo eh b d srtg st mpo ete o tu u l yo idrcinlC ie — s c ie a e.T up s ft y r t e yi oi rv up tq ai fb—i t a hn s En h ma hn h i a h t e o e
面向翻译教学的机器翻译系统建构
不能适 应新的需要 。随着机器 翻译技术 的不 断发展 , 器翻译 、 机 翻译记 忆等产 品也逐 步地 以各种 方式应 用到 了翻 译 教学 当中。构建一个面 向翻译教学 的机器 翻译 系统 , 整体 、 系统地将机 器翻译技术应 用于翻译 教学 , 提高 翻译教 学 的质量 , 全面提高学生 的翻译能力。 关键词 : 机器 翻译 ; 翻译教学 ; 系统建构
出 了 目前 国 内翻译 教 学 的新 需 求 , 重 教 学 的 实用 注
性 和实 践性 。
反三 , 并结 合课 堂 或 课后 练 习来 深化 和 巩 固学 生
对 翻译 技巧 的认 识 。而在 网络 教 学 中 , 再 以教 师 不 为 中心 , 强调提 高学 生 的综 合 翻 译 能力 。随 着 机 器
2 .翻译 训 练应 注重 实用 文体 的翻译 当 前大 多 数 翻 译 教材 以文 学 翻译 为 主 , 难适 很 应信 息社 会对 翻译 人才 的需 求 。 翻译教 材应 以常用 实用文体为基础 , 通过各种实用文体的翻译训练 , 使 学 生 尽早熟 悉 实用 文体 及其 翻译 技 巧 。 3 .通 过实 例讲 解 翻译技 巧 , 而不 是 泛泛而谈
系列卓有成效的尝试 , 出了用作坊式 翻译教 _提 3 学法 改 变 传 统 的 翻 译 教 学 法 , 高 翻译 教 学 质 提
一
高校应 将计 算机 辅 助 翻 译 纳入 翻译 教 学 。据 悉 , 北 京 外 国语大 学高 级 翻译 学 院 、 海 外 国语 大 学 高 级 上 翻译学 院等 均配备 了计 算 机 翻译 教 室 , 局 域 网 中 在
利 用 翻译 记忆 系统 进行 笔译 教学 。
量 。 在实用 性 翻译 教 学模 式 方 面 进 行 了探 索 性 的 尝试 , 将案 例教 学 引入 到传统 的 翻译教 学课 堂 , 效 收 显著 。随着 案 例教 学 的 引 人 , 翻译 课 教 学 目的转 为 培养 学生 的综合 能力 , 括分 析原 文 、 英汉语 的文 包 对
基于短语译文组合的汉英翻译系统
作者 k介 :姚敏锋 ( 7 . ,男,硕 士,广 东外语 外贸大学信息学院讲 师;研 究方向: 自然语 言处理技 术、科 间 z - 1 7) 9
技翻译 。
7 5
广 东外语 外 贸 大学学报
切分后的中文词或短语 。一般而言,一个中文词或短语 根据不同的时态有不同的翻译结果 。比如 中文短语 : 习, 学 它 既可以翻译 为进行时态下的 s d ig 也可 以翻译为过去 t yn , u 时或完成时 态的 su id,还 可以翻译 为复数形式下的一般 tde
姚 敏 锋
( 东 外 语 外 贸 大 学 ・广 州 ・51 0) 广 0 2 4
内 容 提 要 :本 文 描 述 了 一 种 基 于 短 语 译 文 组 合 的 汉 英 机 器 翻译 系统 。 通 过 对 输 入 的 汉 语 进 行
语 义分析 ,得 到汉语 短语 及相 对应 的英 文短语 链 ;利 用事先 给定 的 中英文语 法转换 规 则 ,对 英文
假定源语句用集合 T来 表示 ,则经过切分后的源语 句
T可 以表示为 ,
, 一
,其 中 T( l2 … 表示 i= ,J i
收稿 E : 2 0 — 92 基 金 项 目: 广 东省 科技 计 划项 目 嵌 入 式 口语翻 译 系统 的研 究》2 0 B 8 7 1 O ) l 0 90 —9 期 (08 0 00 07。
标 语 言单 词 组成 的译 文 句 子 。因 此语 法 理 论 在翻 译 过 程 中 起
畴语法的优点, 强调了词汇在语言中的重要地位 ,所 以又被称 为词汇主义的语法理论 。HP G已经成为机器翻译和 自然语 S 言处理领域中使用最广泛的一种语法理论 ,被称为一种可以
网络版班智达藏汉英电子词典的设计
网络版班智达藏汉英电子词典的设计
才藏太;李毛措
【期刊名称】《计算机工程与应用》
【年(卷),期】2005(041)017
【摘要】近年来,随着计算机技术的发展,电子词典作为一种移动学习和翻译的数码工具,在国内外开始广泛地普及,其经济效益和社会效益也随之得到广大用户的关注.论文结合<班智达汉藏机器翻译系统>(国家863计划项目,编号为863-306-ZT04-05-2)的后续项目<班智达藏汉英电子词典>(国家自然科学基金,编号为69663001)的研发实践,论述了该电子词典在网络上的设计方案,重点讨论了电子词典的内容建设和结构描述以及网络中的开发模式和应用技术,最后对系统所选的平台进行了详细描述并给出了该电子词典的使用方法.
【总页数】3页(P126-128)
【作者】才藏太;李毛措
【作者单位】青海师范大学民族师范学院计算机系,西宁,810008;青海师范大学民族师范学院计算机系,西宁,810008
【正文语种】中文
【中图分类】TP311;TP393
【相关文献】
1.近代西藏麝香之路考--兼论印度大三角测量局班智达、日本僧人河口慧海和侵藏英军噶大克考察团在沿路的活动等 [J], 房建昌
2.一封具有重要历史影响的藏文信--《萨迦班智达公哥监藏致蕃人书》探析 [J], 李倩
3.班智达汉藏公文翻译系统中基于二分法的句法分析方法研究 [J], 才藏太;华关加
4.藏汉英电子词典硬件产品中藏文键盘的设计和实现方法 [J], 洛藏
5.吐蕃时期人藏的印度班智达萨瓦迦·德哇的生平及其译著述评 [J], 尕藏卓玛;因版权原因,仅展示原文概要,查看原文内容请购买。
基于直接机器翻译技术的汉英翻译系统设计
基于直接机器翻译技术的汉英翻译系统设计随着全球化的发展,信息交流越来越频繁,语言之间的沟通成为了非常重要的一环。
而汉英翻译是最为重要的一种语言之间的翻译。
然而传统的汉英翻译方式很难做到高质量翻译以及实时翻译的需求。
因此,采用直接机器翻译技术设计汉英翻译系统已成为未来的发展趋势。
什么是直接机器翻译?直接机器翻译是指直接从源语言(汉语)翻译成目标语言(英语)的一种机器翻译方式。
它没有中间语言的转换,直接将源语言的编码转换为目标语言的编码。
相对于传统的基于规则或者统计的机器翻译方式,直接机器翻译更快速、准确,而且成本更低。
直接机器翻译的关键技术1. 神经网络技术神经网络是直接机器翻译技术的核心技术。
它在机器翻译系统中扮演了编码器和解码器的角色。
通过神经网络,翻译系统可以将输入的源语言句子转换为一系列的向量,然后再将这些向量转换为目标语言句子。
同时,神经网络还能够在整个机器翻译过程中完成词序和句序的转换。
2. 语音识别技术语音识别技术是直接机器翻译的重要技术之一。
当汉语是以口语的形式存在时,传统的输入法无法识别,因此语音识别技术可以将口语转化为机器可识别的文本,为机器翻译提供了方便。
3. 自然语言处理技术自然语言处理技术可以帮助机器翻译系统识别不同语言之间的语法、词汇和句法,协助机器准确理解翻译内容的含义。
它是翻译系统的核心技术之一,能够更好地实现直接翻译的质量和速度。
直接机器翻译技术优势相比于传统的基于规则或者统计的翻译技术,直接机器翻译具有以下优势:1. 速度快。
直接机器翻译能够直接将输入的语言翻译为输出语言,不需要经过多步骤的转换,因此能够更快速地实现翻译。
2. 更精准。
直接机器翻译是通过神经网络等技术进行逐字逐句的翻译,因此它的翻译质量相对来说更加准确和精细。
3. 成本更低。
传统的翻译方式需要耗费大量的人力和物力,需要雇佣训练有素的翻译人员或者使用一些辅助翻译软件,而直接机器翻译却不需要太多人力和物力成本。
基于移动端的神经网络汉英翻译模型
设计与应用・186・计算机测量与控制.2020- 28(10)Computer Measurement & Contrl文章编号!671 - 4598(2020)10 - 0186 -05DOI :10. 16526/j. cnki. 11 — 4762/tp. 2020. 10. 038中图分类号:TP391 2文献标识码:A基于移动端的神经网络汉英翻译模型成洁(陕西国际商贸学院基础课部&西安712046)摘要:为了使中英文翻译更加智能以及更加合理&采用句子级的释义对译文进行改写&将其视为同一语言之间的翻译任务; 在没有大规模平行释义语料库的情况下&利用机器翻译结果和源语言的参考翻译来近似平行释义语料库;然后&利用该模型训练一个从机器翻译结果到参考翻译的重复系统&生成语义一致的句子级重复结果;在此基础上&将重述结果引入系统整合的翻译假设中;最后&在翻译和释义的基础上&进行了面向移动应用的设计和开发&实现了中英文机器翻译;通过实验发现&该方法相对于经典的基线系统提高了 1. 02 — 1. 71BLEU 分数%关键词:机器学习$机器翻译$ RNN ;神经网络$释义$语料库Chinese — English Translation Model of Neural NetworkBased on Mobile PhoneChengJie(ShaanxiInstituteofInternationalTradeandCommerce &Xi'an 712046&China )Abstract : In order to make Chinese and English translation more intelligent and more reasonable , this article uses sentence 一levelinterpretation to rewrite the translation as a translation task between the same language. In the absence of a large 一 scale parallel par aphrasing corpus , the machine translation results and the reference translation of the source language are used to approximate the par allel paraphrasing corpus. Then, the model is used to train a repetitive system from machine translation results to reference transla tions to generate semantically consistent sentence 一level repetition results. Based on this, the results of restatement are introduced in-tothetranslat3onassumptonofsystem3ntegraton.F3na l y , onthebas3softranslat3onand3nterpretaton ,themobleapplcat3on —o-r3enteddes3gnanddevelopmentwerecarr3edouttorealzeCh3neseandEnglshmach3netranslaton.Itwasfoundthroughexper3ments that the proposed method improved 1 02一1 71 BLEU scores compared to the classic baseline system.Keywords (machinelearning $ machinetranslation $ RNN $ neuralnetwork $ paraphrase $ corpuso 引言深度学习在自然语言处理的各个领域都得到了成功的 应用,基于强化学习的神经网络机器翻译的研究也得到了 迅速的发展14+。
英汉机器翻译中译文自动生成系统设计
收稿日期:2018⁃04⁃12
修回日期:2018⁃06⁃07
翻译译文自动生成,但存在生成结果准确度低与原文的 相关性差。对此,提出并设计基于双层分析的英汉机器 翻译译文自动生成系统,并进行实验分析。
1 英汉机器翻译译文自动生成系统整体结构
英汉机器翻译译文自动生成系统由以下模块组成: 预 处 理 模 块 、词 法 分 析 及 分 词 模 块 、词 类 标 注 及 短 语 分 析模块、译文规则建立模块、解码模块、译文生成模块。 1.1 预处理模块
文献标识码:A
文章编号:1004⁃373X(2018)24⁃0086⁃04
Design of translation automatic generation system for English⁃Chinese machine translation
XING Lei
(Shandong University of Technology,Zibo 255000,China)
Abstract:Since the traditional translation generation system has long⁃term existing problems of inaccurate translation gen ⁃ eration results and little similarity with the original text in the process of English⁃Chinese machine translation,a translation auto⁃ matic generation system based on double⁃layer analysis is proposed and designed for English⁃Chinese machine translation. The system is mainly composed of preprocessing module,lexical analysis and word segmentation module,part⁃of⁃speech tagging and phrase analysis module,translation rule establishment module,decoding module and translation generation module. Experimen⁃ tal analysis was carried out. The experimental results show that,in comparison with the traditional generation system,the trans⁃ lation generation accuracy and similarity(with the original text)of the improved generation system are increased respectively by about 34.8% and about 0.4,and the system has a certain advantage and high practicability.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一个汉英机器翻译系统的计算模型与语言模型*刘群+詹卫东++常宝宝++刘颖+(+中国科学院计算技术研究所二室北京100080)(++北京大学计算语言学研究所北京100871)摘要:本文介绍我们所设计并实现的一个汉英机器翻译系统。
在概要介绍本系统的主要目标和设计原则的基础上,着重说明系统的计算模型和语言模型,最后给出实验结果和进一步的打算。
关键词:自然语言处理机器翻译中文信息处理一、引言我国的机器翻译研究近年来取得了很大的发展。
特别是英汉机器翻译系统的研制已经取得了较大的成功,达到了初步实用的阶段。
相对而言,汉英机器翻译的研究却进展比较缓慢,离实用化还有相当的距离[1]。
我们的目的是利用目前最新的计算机软件技术、相对成熟的机器翻译方法和先进的汉语语法理论,构造一个初步实用的汉英机器翻译系统。
本文将对我们所开发的系统所采用的计算模型和语言模型作一个总体性的介绍,而不涉及过多的细节。
下面我们简要介绍一下本系统的几个主要设计原则:⑴采用成熟的技术我们的目的是构造一个真正实用的汉英机器翻译系统,因而在可供选择的若干技术路线面前,我们将尽量选用比较成熟的技术,而在现有技术难以解决问题时再尝试一些新技术。
⑵开放的体系结构开放的体系结构主要体现在系统的实现上所采用的软件构件技术[8]。
整个系统采用一些相对独立的软件构件组成,因而可以方便地对系统进行修改、维护和扩充。
翻译的过程严格按照独立分析、独立生成的原则进行组织,每一阶段的算法相互独立,对其中一个阶段算法的修改不会对其他算法造成影响。
⑶方便的调试环境本系统强调为语言工作者提供一个方便的调试环境。
系统提供多窗口图形界面的知识库调试工具,支持课题组中多人同时通过网络对一个知识库进行操作。
提供对翻译过程直观显示,用户可以清晰地看到翻译过程的每一步操作。
提供翻译出错原因查找机制,用户*本项目的研究受到863-306资助,合同号为863-306-03-06-2可以轻松确定翻译出错的位置。
机器翻译系统可依据不同的标准进行分类,这些标准也刻划出本系统的一些基本特点:(1) 规则方法与语料库方法规则方法发展到今天,相对来说已比较成熟,但由于专家描述的规则知识通常颗粒度较大,不利于处理大量的细节,因而在处理大规模的开放语料时,遇到了难以克服的困难;而从预料库中获取的知识颗粒度较小,在自然语言处理的某些方面取得了成功,但纯粹基于语料库的的机器翻译系统,还没有比较成功的例子。
本系统目前采用的是基于规则的技术,我们计划将其扩展成为一个规则方法与语料库方法相结合的系统。
(2) 转换方法与中间语言方法从理论上说,在实现多种语言互译的机器翻译系统时,中间语言方法可以节省很多的工作量。
但从已实现的系统来看,使用转换方法较易取得成功。
本系统也采用转换方法。
(3) 确定性算法与不确定性算法确定性算法的优点是算法较为简单,翻译速度快,缺点是不能提供回溯的能力,翻译过程任何一步的错误将导致整个翻译的失败。
不确定算法刚好相反。
本系统采用不确定性算法,翻译过程的每一步骤都是不确定的,都可以回溯。
二、计算模型我们从系统结构、知识表示、翻译算法三方面来介绍我们所采用的计算模型。
1、系统结构图1 汉英机器翻译系统总体结构系统总体结构如图1所示。
2、知识表示机器翻译的过程可以看成是一个运用知识进行推理的过程。
知识表示是这一过程的基础。
我们把机器翻译中用到的知识表示形式分为内部知识和外部知识两类。
其中外部知识是存放于知识库之中,由语言工作者进行管理的知识,如词典和各类规则库等,内部知识是翻译过程中临时生成的,用于描述所翻译的句子的语法语义特征的知识,如树形图、特征结构和语义网络等。
本系统的外部知识表示由知识库子系统进行处理。
知识库包括一个语言模型、一部词典、多个规则库和一个实例库。
本系统设计的严格的语言模型起统帅作用,其中规定了本系统所使用的源语言和目标语言的词法模型、句法模型和语义模型,即词法、句法和语义的分类和各种属性描述。
所有知识库中所用到的各种语言知识描述用的符号格式都必须符合语言模型中的规定。
整个系统使用一部双语词典。
多个规则库对应于翻译的各个步骤,每个步骤使用相应的规则库。
每个规则库的具体格式各不相同,但基本上都采用“树结构+约束”的形式。
在知识库的格式定义上,我们特别强调不仅要能描述全局性知识,也要能描述一些局部性的知识。
因此我们特别强调词典的描述能力。
例如,词典中的局部规则与全局规则具有完全相同的格式,在使用上局部规则优先于全局规则,这样特别有利处理一些与具体词相关的特殊用法。
实例库用于存放系统翻译过的句子及其相关信息。
本系统的内部知识表示形式包括线图(Chart)、树结构和特征网络三种形式。
线图源于Chart Parsing算法,是一种比较通用的语言内部结构表示方法,可以同时表示翻译过程中产生的大量词结点和短语结点,也可以适应多种不同的分析算法。
树结构是短语结构分析中最常用的一种表示方法,用于描述句法成分(包括词结点和短语结点)之间的组合关系。
每个树结点对应于线图中的一个词结点或短语结点。
我们所使用的树结构表示法中要求标出每个句法成分的中心子结点,用于处理属性值在句法成分之间的传播。
特征网络是本系统所使用的一种特有的知识表示方法。
这种表示法融合了特征结构表示法[4]和语义网络表示法的一些特点并加以改进,以适合汉英机器翻译的需要。
具体来说,特征网络表达具有以下特点:1、一个特征网络由许多个互相关联的特征结点所组成;2、一个特征结点是若干个特征的集合,一个特征是一个“属性-值”对;3、属性分为简单、原子属性和关联属性两种,原子属性的值是一个原子,关联属性的值是另一个特征结点;4、原子分为层次型、符号型、数值型、布尔型等多种类型,原子之间可以通过与、或、非等逻辑操作构成复杂原子,每一种类型的原子有不同的合一算法;5、特征结点之间通过关联属性互相连接,这种连接可以构成回路,我们改进了合一算法,使得这种回路不至于在合一运算时造成死循环;6、一个特征结点对应着句法分析中已经出现或可能出现的一个句法成分,而每一个句法成分(即句法树中的结点)一定有唯一的一个特征结点与之对应;7、在一定的条件下,属性的值可以在特征结点之间进行传递;8、特征结点之间实行真正的合一运算,而不是伪合一运算。
特征网络表示法作为一种最基本的知识表示方法在本系统中发挥着重要的作用,它基本上满足了我们在汉英机器翻译中描述各种复杂的语言现象的需要。
3、翻译算法我们采用基于转换的翻译方法,遵循独立分析、独立生成的设计原则[3]。
具体的翻译流程下图2所示。
图2 翻译的流程其中,汉语的词形分析阶段分为重叠词处理和切分两个步骤,汉语的切分采用双向最大匹配算法。
出现切分歧义时,不做判断,保留到结构分析阶段进行处理。
结构分析阶段采用改进的Chart Parsing算法[6]。
转换阶段采用自顶向下与自底向上相结合的局部子树变换算法。
结构生成阶段采用自底向上的局部子树变换算法和自顶向下的全局子树位移算法。
4、用户界面用户界面包括使用界面和管理调试界面。
由于本系统还处于开发阶段,我们着重开发了管理调试界面。
对于一个实际的机器翻译系统来说,语言规则和词典的调试工作是非常重要的。
一个良好的机器翻译系统管理调试界面,可以使语言工作者直观方便地进行语言规则和词典的调试,大大提高调试的效率,进而有效地提高语言知识库的质量。
本系统的管理调试界面分为知识库管理界面和翻译调试界面两部分。
知识库管理界面帮助语言工作者对各知识库进行直观的创建、管理和查询等操作,翻译调试界面帮助语言工作者通过观察具体例句的翻译过程对语言知识库进行调试。
系统依次以可视的图形显示源文正文、分析产生的每一个源文词语结点、源文短语结点、源文句法树、转换生成产生的译文句法树、译文词结点和最后的译文正文。
语言工作者可以根据需要显示任何一个句法成分的产生过程及其对应的特征结点(属性和值)。
三、语言模型在一个机器翻译系统中,计算模型决定了该系统的能力的极限,即该系统最好能翻译到什么程度;而语言模型则决定了该决定了这种极限能在多大程度上实现。
没有好的语言模型,系统的计算模型再好,也不可能得到高质量的译文。
本系统采用以语法分析为主,以语义分析为辅的语言模型。
就汉英机器翻译系统而言,目前还没有专门适用于机器翻译的汉语语法模型。
本系统采用的语言模型主要来源于北京大学计算语言学研究所研制的《现代汉语语法信息词典》[2](以下简称《词典》),并在该词典所采用的语言模型基础上修改扩充而成。
1、汉语词语分类和属性[10]本系统所采用的汉语词语分类和属性取自于《词典》,并作了少量的改动。
《词典》中将现代汉语词语(包括标点符号、语素、成语等)分为26类,我们只采用了其中的20类,并将其余6类归并到这些类中。
《词典》中有大量的属性描述,我们根据机器翻译的需要对这些属性作了一定的取舍,并增加了少量新属性。
本系统所使用的机器翻译词典就是在《词典》的基础上修改扩充而成。
在使用中我们体会到,《词典》对现代汉语词语的分类合理,对词语语法功能的描述非常详尽,基本上能满足汉英机器翻译的需要。
2、汉语短语分类和属性[7,10]对汉语短语的分类,我们继承了《词典》中对汉语词语分类时采用的“功能分类”思想,将短语(包括句子)分成np,vp,ap,tp,sp,dp,pp,mp,mcp,dj,fj,zj等12类。
另外,我们还定义了内部结构、语气、被动、否定等短语属性。
我们认为,短语和汉语词语一样,采用按功能分类的思想,而不是按结构分类或按功能-结构混合分类,是符合机器翻译用汉语语法体系要求的。
这是因为,功能反映了一种短语与其它短语互相结合的能力,而语法规则所描述的就是短语之间如何互相组合构成新的短语,因而采用功能分类是非常自然而贴切的。
短语的结构从本质上说只是短语内部成分之间的组成关系,虽然结构对功能也有一定的影响,但它并不直接反映短语向外结合的能力。
因此我们只是把短语的内部结构作为一种属性来对规则进行约束,而不是作为分类的依据。
在实践中我们感觉到这种做法是恰当的,既不至于导致规则的描述能力不够,也不会产生大量的冗余规则。
总的来说,我们对汉语短语的认识要比我们对汉语词语的认识肤浅得多。
在很多情况下,我们没有足够准确的属性来描述规则的约束条件,尤其是一些很常用的歧义结构,如np+np,vp+vp,np+vp等等。
这尤其需要我们机器翻译研究工作者与语言学家共同努力,对汉语短语的语法功能进行更加深入的研究。
3、语义分类和属性[9]本系统是一个以语法分析为主,语义分析为辅的系统。
虽然如此,在本系统中,为消解句法分析和转换时的歧义,语义分析还是起着重要的作用。
本系统采用的语义模型主要包括语义分类和配价分析[5]两个方面。