一个汉英机器翻译系统的设计与实现
汉英机器翻译中汉语自动分析的难点
103摘要:本文从汉英机器翻译的角度来探讨汉语自动分析的难点,包括词法分析、句法分析和汉英转换中的难点。
词法部分的难点包括词语切分、未登录词、词表等;句法分析中的难点包括核心动词的分析、特殊结构的处理、标点符号的影响等;汉英转换包括冠词、单复数、时态以及语式等难点。
关键词:机器翻译自动分析难点一、引言机器翻译(Machine Translation ),指利用计算机把源语言(source language )转换成目标语言(target language )。
由于机器翻译能够减轻翻译人员的脑力劳动,把翻译工作者从繁重的翻译工作中解放出来;还能够提高翻译效率,实现国际情报交流的部分自动化。
因此,自计算机问世起,就不断有学者进行机器翻译的尝试。
迄今,出现了不少商品化的机器翻译系统,如美国的SYSTRAN 系统、美国Texas 大学与德国Simon 公司合作研制的METAL 系统、日本日立公司的ATLAS 系统及法国Grenoble 大学的CETA 系统,等等。
我国的机器翻译研究从一开始就受到了国家的高度重视,早在1959年中科院语言研究所和计算技术研究所就进行了中国第一次机器翻译实验(俄汉)。
在我国,外汉机器翻译系统,特别是英汉机器翻译系统的研制已经取得了较大的成功,达到了初步实用的水平,并且推出了不少实用系统,如“译星”、“汉神”、“通译”,等等。
但汉外机器翻译,特别是汉英机器翻译的研究却进展缓慢,离实用化还有一定的距离。
使用过汉英和英汉机器翻译系统的人都会有一个深深的感受,这就是汉英机器翻译远不如英汉机器翻译。
同样的两种语言,为什么机器翻译中把汉语当作源语言要比把英语当作源语言要困难得多?我们以下面这个例子为例就可以看得相当清楚了。
例如要把英文句子“We should do our utmost to achieve our goal in life ”翻译为中文,机器一般可以翻译得较为准确,但是要把汉语句子“他踢坏了三双鞋”翻译为英文,机器有的翻译为“He plays three pairs of evil shoes ”,有的翻译为“He kicked three pairs of shoes bad ”,还有的翻译为“Him kick spoil 3pairs of shoes ”。
学术期刊论文摘要汉英双语语料库构建研究-英语论文-语言学论文
学术期刊论文摘要汉英双语语料库构建研究-英语论文-语言学论文——文章均为WORD文档,下载后可直接编辑使用亦可打印——论文摘要指以提供文献内容梗概为目的,不加评论和补充解释,简明、确切地记述文献重要内容的短文。
(国家标准GB 47) 学术论文摘要概括论文的主要信息,对研究的目的、方法、结果和最终结论有一个比较完整的说明,对于论文的发表、收录、检索及科研人员的学术交流等起着重要的作用。
当今时代,英语已成为国际交往的世界性语言,英文学术论文摘要的重要性日益显现。
近年来,不少中外学者(如Swales1990、段平2002、滕延江2008、邓军涛2013 等) 对论文摘要的语言特点与翻译进行了比较广泛深入的分析,其成果无疑有利于该领域的实践与发展。
然而,大多数相关研究都是基于研究者个人的经验,选取的例句和掌握的语料比较有限。
不少学习者和研究人员撰写及翻译摘要的能力还比较欠缺。
鉴于此,本课题组决定建设学术期刊论文摘要汉英双语语料库,一方面从大的语料基础上客观描述英文摘要的文体特征和进行汉英翻译研究,同时将该语料库用作翻译教学平台,试验并总结数据驱动的教学方法,推动学术研究与翻译教学共同发展。
一、学术期刊论文摘要汉英双语语料库的建设(一) 语料库与双语语料库语料库是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续语言运用文本或话语片段而建成的具有一定容量的大型电子文本库(杨惠中,2002) 。
语料库具有语料真实、丰富、代表性强以及融合了计算机技术等特点,在语言研究和教学方面具有较大的优势与应用价值。
按照语料的语种,语料库可以分成单语、双语和多语语料库。
双语和多语语料库还可分为平行语料库和可比语料库。
平行语料库收集原文与译文双语对照的文本,按设定的标准对语料进行句子或段落的对齐。
可比语料库收集具有可比性的语料,分别放置于不同的文本库,主要用于语言对比研究。
关于双语语料库的作用,不少专家从不同角度进行了探讨。
关于本地构建机器翻译系统
更换root身份
执行 ./text2idngram -vocab english.vocab -buffer 5 <english.txt> english.idngram 生成 english.idngram
添加 s 内容如下:
<s>
</s>
english.txt放在CMU-Cam_Toolkit_v2/bin下
执行 ./text2wfre <english.txt> english.wfre 生成 english.wfre
执行 ./wfre2vocab <english.wfre> english.vocab 生成english.vocab
执行 ./idngram2lm -idngram english.idngram -vocab english.vocab -context s -binary english.binlm
生成english.binlm (二进制文件)
2.构建翻译模型
进入mkcls-v2目录下,把10000句的英文和中文对照语料库拷贝到该目录下。 执行如下命令:
./plain2snt.out chinese.txt english.txt
成功运行后将会生成以下四个文件:
chinese.vcb, chinese_english.snt, english.vcb, english_chinese.snt
在GIZA++-v2目录下建立一个test子目录,把刚才生成的四个文件和mkcls生成的四个类文件,再加上编译后的可执行文件GIZA++一同拷贝到该子目录下即可编译运行.这样生成后的文件全都在这个目录下
英语智能翻译人机界面系统设计与研发
英语智能翻译人机界面系统设计与研发杜卫卫【摘要】语言翻译智能化是行业科技创新内容,也是英语专业领域研究的重点技术之一。
人机界面系统是英语智能翻译器的核心构成,决定着英语语言翻译结构的准确性。
本文分析了传统翻译存在的不足,总结智能翻译系统的功能特点,提出翻译人机界面系统设计与研发措施。
%Language translation intelligent industry science and technology innovation content,one of the key technology and research in the field of English majors.The human-machine interface system is the core of smart English translator,determines the accuracy of the structure of the English language translation. This paper analyzes the shortage of traditional translation problems,summarizes the characteristics of the intelligent function of translation system,puts forward the design and R &D measures the man-machine interface system.【期刊名称】《电子测试》【年(卷),期】2015(000)002【总页数】3页(P19-20,18)【关键词】英语;智能翻译;人机界面;设计【作者】杜卫卫【作者单位】渤海大学大学外语教研部,辽宁锦州,121013【正文语种】中文基于信息科技普及应用背景下,智能翻译器在英语交流方面的应用更加广泛,采用高端信息技术辅助语言转换处理,实现了人类科技的又一次进步。
基于WAMP的藏汉英互译在线词典的设计与实现
码 。 经 测 试 , 在 线词 典 根 据 用 户 的 需 要 , 入 单 字 和 词 就 可 以 在 藏 汉 英 三 语 问 交 互 查 询 并 快 速 检 索 到 对 应 的 译 该 输
词 。词 典 采 用 B S结 构 , 的 实现 有 助 于藏 汉 英 三语 间 的 交 流 和 学 习 。 / 它 关 键 词 : 文 ;在 线 词 典 ; AMP; / 藏 W B S结 构 ;数 据 库
wh c sn AM P a e in p a f r ,a d as ie u h p cfcd sg t o n h i o eo h h — ih u ig W s ad sg l to m n lo g v s o t e s e i e i n me h d a d t e man c d f e t e t i t s u u a a a e a d t e q e y p g . Th x e i n r v d t a t e t e o l e d c i n r a n t n l e u n t e a r sd tb s n h u r a e e e p rme t p o e h h h n i i t a y c n i s a t r t r h n o y c r e tt i n u lwo d ( b t n o r c rl g a i r s Ti ea ,Ch n s n g ih f r t e q e y e t r d b h u t m e . Th i t n r s i e e a d En l ) o h u r n e e y t e c s o r s e dci a y i o
6 4
中 文 信 息 学 报
线 多语 词典 通 过十 余 年 来 的 迅 速发 展 , 已经 初 见 规 模 , 成 了各具 特色 的 在线 词典 资源 , 形 部分 在线 词典 已经 商品化 。相 较 之 下 , 文单 语 及 多 语 在 线 词 藏 典 仍 处于起 步 阶段 , 过 网络 能 够 搜 索 到 的藏 文 单 通 语 或 多语 在线 词 典很 少 。近 年来 , 着 时代 的发 展 随
英语翻译软件翻译准确性矫正算法设计
英语翻译软件翻译准确性矫正算法设计黄登娴【摘要】传统机器翻译方法采用管道式逐次操作对原始语料实施词性标识以及句法分析,获取英语语言的句法结构,使得翻译任务间存在的错误迭代传递、结构化实例准确性降低,导致英语语言文学翻译准确性降低.因此,对英语语言文学中的机器翻译准确性方法进行校对研究.设计基于知网的词汇语义相似度以及对数线性模型,采用汉英依存树到串的方式保存对应的双语语料,对源语言端实施依存结构化处理,确保汉英双语的对应关系,通过知网运算输入需要翻译句子(依存树结构)同实例库内源语言(依存树结构)中词汇的语义相似度.描述了机器翻译中相似实例检索模块以及译文生成模块的实现过程,通过面向数据的翻译模型进一步校对英语语言的准确翻译.实验结果表明,所提方法可得到准确率高的译文,具有较高的准确性和稳定性.【期刊名称】《现代电子技术》【年(卷),期】2018(041)014【总页数】4页(P170-172,177)【关键词】英语翻译软件;机器翻译;翻译准确性;语义相似度;矫正算法;迭代传递;依存树结构【作者】黄登娴【作者单位】中国民用航空飞行学院,四川广汉 618300【正文语种】中文【中图分类】TN912.3-34;TP391.2机器翻译是自然语言操作范围中的关键,具有较高的应用价值。
依据实例的机器翻译是一种经验主义的英语语言文学翻译策略,其无需复杂的深层次语法以及语义的分析,提高了英语语言翻译的效率。
但是基于实例的机器翻译方法对实例库质量的要求较高[1]。
传统机器翻译方法采用管道式逐次操作对原始语料实施词性标识以及句法分析,获取英语语言的句法结构,使得翻译任务间存在的错误迭代传递、结构化实例准确性降低,导致英语语言文学翻译准确性降低。
针对该问题,本文研究了英语语言文学中的机器翻译准确性方法,塑造并实现基于汉英依存树串实例的机器翻译系统,提高了英语机器翻译的准确性。
1 基础算法与模型1.1 依存树到串模型依存树到串的模型为<D,S,A>,<D,S>是一个翻译对,D表示源语言的依存树,S表示源语言的目标词语串,A用于描述D与S间的词对齐关系[2-3],依据依存树到串双语对齐模型的实例如图1所示。
自然语言实验报告
b、 GIZA++-v2 cd GIZA++-v2 #进入目录 #修改 Makefile 文件,删除“-DBINARY_SEARCH_FOR_TTABLE” make #编译 4、 安装 Moses 1> 下载安装 moses 解码器 a、安装所需要的依赖包 sudo apt-get install autoconf automaketexinfo zlib1g zlib1g-dev zlib-bin zlibc b、因为需要从网上直接下载 moses,故先安装 subversion sudo apt-get install subversion c、下载源码包 svn cohttps:///svnroot/mosesdecoder/trunkmosesd ecoder d、moses 的编译相关操作 cd mosesdecoder ./regenerate-makefiles.sh ./configure –with-srilm=/#SRILM #SRILM make -j 4 2> 安装训练脚本 a、建立训练脚本目录: mkdir-p bin/moses-scripts b、修改 makefile:现代汉语切分、标注、注音语料库-1998 年 1 月份样例与规范(北京大学) 1998-01-2003 版-带音(已标注语料库) 语料库规范
三、试验原理
主要是通过下面四个方面: [1] 语料准备 首先需要编程将汉语句子和英语句子分别从1500 句对中抽取出来存在两个文本 文件中,1500 个汉语句子存放在文件chinese 中,1500个英语句子存放在english 中。每个句子一行,并且汉英对应句子的行号一一对应。然后,您需要对chinese 中 的汉语句子进行切分,也就是切成一个个的汉语词。对于english 中的英语句子进 行tokenize。之后english 用做语言模型的训练语料,chinese 和english 用做翻译模
汉英机器翻译中的结构分析和处理
汉 英 机 器 翻 译 中的 结构 分 析 和 处 理
张 蓥 ,朱 兰娟
摘 要 : 以依 存 结 构 树 和“ 语 法” 想 为 基础 , 设计 了针 对符 合语 法语 义规 则 的 复杂 句子 汉英 翻 译 软 件 ,尤 其 是 广 大 以规 范 格 思 的 句 子语 法和 常 用 的惯 用 语作 为依 据 和 素材 的 复杂 汉语 句子 ,着 重 介 绍 了 句子 主 干+ 状语 模 块 的翻 译 策略 , 以及 其 他 复杂 修
属 词 ’【。 ’
句 子 的依 存 关 系 ,一 般 被 描 述 为 一个 树 状 结 构 【。句 子 4 】
唯一独立成分即句子主句的谓词 , 是整句 的主支配词 , 就 其 他 从句 的谓词为辅支 配词 ,每个 节点都只依 附于一个支配
词 。我们 以主支配词作为依存树 的根节 点, 动词依存关系决
l
本文将 研究重点放在 以语法语义 规则为基础 的翻译策 略上 ,旨在尽量精确地剖析句子 的每个层次和结构 。 作为辅 助 , 们 建 立 了语 料库 ,不 仅 使 常用 的语 素 包 含 更 多 的语 义 我 内容 , 以概 念代 替词 作 为 基 本 单 位 , 加 更 多 的 新信 息【。 并 添 ”
定了整个依存树 的“ 主干” 。如在句子“ 他发现小孩喜欢一起
作者 简介 :张
图2 边 标记 的依 存结构 树
蓥 (9 5) 18.,女 ,上海 人 ,上海 交通 大学 自动化 系 ,硕士研 究 生 ,研 究方 向 :机器翻 译 ,上海
20 6 : 00 1
朱 兰娟 ( 9 3 ) 1 6 .,女 ,上 海人 ,上海 交通 大学 自动化 系 ,副教 授 ,博 士 ,研究 方 向:嵌入 式 系统软 件设计 、 离散事 件系 统建模 分 析 、 自然 语言 处理 等 ,上海 2 0 4 0 20
机器翻译汉译英的译前编辑——以谷歌翻译江苏省气象局网站新闻稿为例
作者简介:何望东,硕士。
研究方向:翻译。
何三宁,通讯作者,教授,硕士生导师,江苏省译协常务理事。
研究方向:翻译理论与实践。
要在把原文交由机器处理后,再人工进行译后编辑。
“译后编辑是一种人机交互的翻译过程,是对机器翻译结果进行编辑及更正的过程,其中涉及的因素包括机器翻译系统、译后编辑工具、语言对特征等。
”(王湘玲等,2018:82)译后编辑耗时耗力,译者往往需要参照原文将译文再次处理一遍,其中的复杂程度无异于直接人工翻译原文。
既然对机器翻译进行译后编辑如此复杂,为何不在交付机器处理之前,对文本进行预处理呢?译前编辑就是指在将原文交由机器翻译之前,先人工对文本进行有针对性的编辑,简化原文中因结构复杂或文化底蕴过于浓厚而不易于机器翻译处理的内容,以保证机器翻译的译文质量。
经过译前编辑,机器翻译产出的译文往往更加通顺流畅,大大简化了译后编辑流程,提升了工作效率。
谷歌翻译是谷歌公司旗下的翻译引擎。
在发布之初,谷歌翻译只是一种基于短语的翻译引擎(Phrase-Based Machine Translation),由于该翻译引擎并不能取得令人满意的结果,谷歌又在2016年推出了谷歌神经机器翻译系统(GNMT:Google Neural Machine Translation)。
谷歌宣称,GNMT系统代表了目前最先进的技术,并且在多个语言对的翻译测试中将翻译误差降低了55%~85%。
作为AI 领域的领跑者,谷歌翻译的质量与效果一直处于业内领先水平,尤其在推出了GNMT系统后,谷歌翻译顺理成章成了译者们对于机器翻译引擎的首选。
可是机器翻译存在固有的局限性,即使是强大的GNMT系统也无法避免。
在处理长难句及部分需要联系上下文才能理解的文本时,谷歌翻译仍显得有些力不从心,译文仍存在不少问题。
对谷歌翻译的译文进行译后编辑会耗费大量的人力物力。
但译员如果在交付谷歌翻译前对文本进行译前编辑,则可以大大省下这部分人力物力。
本文使用谷歌翻译作为机器翻译引擎,文本材料选自江苏省气象局官方网站的新闻稿,选取了在机器翻译中出现了典型错误的译文,分析了可能的原因,并尝试给出有针对性的译前编辑处理办法,旨在探索译前编辑在解决机器翻译错误中的作用。
中国英汉平行语料库的设计与研制
中国英汉平行语料库的设计与研制王克非北京外国语大学中国外语教育研究中心提要:本文论述超大型双语平行语料库的设计与研制问题。
在综合述介国内外双语语料库建设情况之后,作者着重论述了中国英汉平行语料库这一超大型双语平行语料库的设计特点(主要有分类架构、历时处理、语料平衡以及通用的和各种专门语料的采集)和研制方法(主要讲述语料的加工标注、检索平台以及各个专门语料库、历时语料库和口译语料库的构建)。
其设计与研制对于其他大型语料库的建设具有借鉴意义。
关键词:中国英汉平行语料库;设计;研制Abstract:The paper deals with the design and construction of asuper-large-scale bilingual parallel corpus.After an overview of parallelcorpora constructions and applications both in China and abroad, the designfeatures(including classification and composition,diachronical arrangement,balance of textual materials,and collection of texts for general or specificpurposes)and the construction methods (including tagging,concordanceplatform,and the construction of specialized corpora,diachronical corpora andinterpreting corpora)of the super-large-scale China English-Chinese ParallelCorpus(CECPC)are focused on.The design and construction discussed areapplicable to the compiling of other large-scale corpora.Keywords:China English-Chinese Parallel Corpus (CECPC);design;construction1、中国英汉平行语料库的研制意义在全球化、信息化的当今世界,翻译已成为了解全球信息、扩大对外宣传、获取国际资源的重要手段。
翻译软件算法
基于ARM7控制器的中英文翻译器的设计郎宝华苗霞时间:2011年02月11日电子设计工程字体:关键词:ARM7LPC2214翻译器为了改进某焊接设备只能输出打印英文单据的情况,设计了由高性能ARM7控制器——LPC2214为核心的英文转中文翻译器,详细论述了具体的硬件电路和优化的软件算法的设计原理,实验结果表明,翻译器对输入的英文数据量的大小无任何限制,能够显著降低系统硬件资源需求且能大大提升打印速度。
基于某焊接设备存储大量数据需要通过打印机输出,但由于该设备及其配套的微型热敏打印机只能英文打印,不能中文打印的问题,从而影响用户阅读。
另外,原有的配套英文打印机具有打印速度缓慢、每一组数据间隔过大,浪费纸张等缺点。
因此,为了解决上述问题,根据实际工程项目应用需要,提出一种基于ARM的英文转中文的翻译器设计方案,该设计是在原有设备和支持中文打印的热敏打印机之间增加一块以ARM为核心的电路板作为英文转中文的翻译器,接收设备传输的英文数据,然后通过优化算法转换成中文,能够边接收边打印输出。
该系统设计从实验结果来看,打印输出效果良好,整个打印过程快速迅捷,每一组数据间隔可调,能够节省大量纸张。
1 系统硬件电路设计翻译器的系统结构框图如图l所示,它主要包括供电电源、核心控制器LPC2214和双串口接口以及启动和ISP控制接口等电路。
该系统设计采用优化的系统软件算法,能够节省大量硬件资源需求。
由于数据量非常大且要求快速打印,通常情况会增加一块容量很大的SRAM来接收英文数据,然后再进行比较翻译打印输出。
而本系统由于采用了环形接收/发送缓冲区以及前后台程序方式,这样就无需增加SRAM,能够实现边接收边打印,而且系统硬件电路设计简单明了。
1.1 供电电源电路图2给出了系统的供电电源电路,从图中可看出电源输入端只需一种12 V左右的电压输入,经过7805首先降至5 V,以满足通常5 V供电,而且还满足低压差的稳压器SPXlll7的输入要求。
基于混合策略的汉英双向机器翻译系统的设计
基 于混合策略的汉英双 向机器翻译系统 的设计
孙广范 , 宋金平 , 袁
( 中国电子信息产业发展研 究院。 北京
琦
lo ̄ ) oo
摘要 : 本文对于机 器翻译 方法中的基 于规则 的方法、 于模 板的方 法及 基 于实例 的方 法进行 了比较 ; 基 对 于完全 句法分析和浅层 句法分析方法也进 行 了分析 。然后 介绍 了将 上述方法结合起 来的汉英双 向机 器翻译
 ̄nl i yt . ee pr a r u hw a i ds p r hh eut ns n iat m r e et n s t nss m T m icl shso s ht s ei apo a rsl di i ic po m n ao e h s i e t t g h n c a s e gfn i v o
t l ebsdm t n eea pebsdm to 5 f rl n lha d1% fr rt n hhrs c e a —ae e o adt xm l ae eh i 1 % o oa E gs 0 o ie E gs p — mp t h d h — d s r i n w tn ee
ta sain.聃 wel聃 cmprn o lt asn to sa d salw p rigme o s h ed sg dwok o o rnlt o l o aigc mpeep rigme d h l asn t d .T eina rf w f h n o h n l c mbnn ea o eme o si idrcin hn s — n l hma hn rnlt ns se r loit d c di i o iigt b v td b—i t a C ieeE gi c iet sa o ytmsaeas r u e t s h h n e ol s a i no nh p p r h ep roeo eh b d srtg st mpo ete o tu u l yo idrcinlC ie — s c ie a e.T up s ft y r t e yi oi rv up tq ai fb—i t a hn s En h ma hn h i a h t e o e
机器翻译技术介绍
机器翻译技术介绍近年来,随着互联网技术的飞速发展,机器翻译技术越来越受到人们的关注。
机器翻译技术是指使用计算机软件将一种语言的文本自动翻译成另一种语言的技术,其广泛运用于跨语种文本翻译、机器辅助翻译和智能语音交互等领域。
本文旨在介绍机器翻译技术的基本原理、常见类型以及应用场景。
一、机器翻译技术的基本原理机器翻译技术的基本原理是使用机器学习算法对大规模的双语文本进行学习,从而建立源语言和目标语言之间的映射关系,实现自动翻译。
机器学习算法主要包括统计机器翻译和神经机器翻译两种。
统计机器翻译基于传统的概率统计模型,将整个翻译过程分为三个步骤:分词、翻译和生成。
具体过程是:先对原文进行分词处理,然后将原语言的词汇映射到目标语言的词汇。
最后,将目标语言的词汇组合成翻译文本。
神经机器翻译则是使用深度神经网络对大规模的双语文本进行学习,同时结合注意力机制和编码-解码模型,实现源语言和目标语言之间的高效映射。
二、机器翻译技术的常见类型机器翻译技术根据其所使用的语言种类和机器学习算法的不同,可分为多种类型。
例如,根据语言种类的不同,机器翻译技术可分为汉英翻译、英汉翻译、中日翻译、中韩翻译等。
根据机器学习算法的不同,机器翻译技术可分为传统的统计翻译、基于规则的翻译和神经网络翻译等。
其中,神经网络翻译技术是当前最为先进的机器翻译技术之一。
基于神经网络的机器翻译技术在翻译质量上远远优于传统的机器翻译技术,可准确翻译语言中的复杂结构和长句子,同时具有较高的自动化处理能力和准确性。
三、机器翻译技术的应用场景机器翻译技术的应用场景非常广泛,特别是在跨语种交流和信息翻译方面。
例如,在外贸、旅游、教育、商业等领域中,机器翻译技术可用于对商务文件、官方文件、论文、合同等文本进行快速准确的翻译,从而有效地促进了经济全球化和文化多元化的交流。
此外,机器翻译技术还被广泛运用于机器人、智能客服、语音识别、语音翻译等智能语音交互领域。
例如,在机器人领域中,机器翻译技术可以使机器人快速理解人类语言,并进行自动化回复和翻译。
面向翻译教学的机器翻译系统建构
不能适 应新的需要 。随着机器 翻译技术 的不 断发展 , 器翻译 、 机 翻译记 忆等产 品也逐 步地 以各种 方式应 用到 了翻 译 教学 当中。构建一个面 向翻译教学 的机器 翻译 系统 , 整体 、 系统地将机 器翻译技术应 用于翻译 教学 , 提高 翻译教 学 的质量 , 全面提高学生 的翻译能力。 关键词 : 机器 翻译 ; 翻译教学 ; 系统建构
出 了 目前 国 内翻译 教 学 的新 需 求 , 重 教 学 的 实用 注
性 和实 践性 。
反三 , 并结 合课 堂 或 课后 练 习来 深化 和 巩 固学 生
对 翻译 技巧 的认 识 。而在 网络 教 学 中 , 再 以教 师 不 为 中心 , 强调提 高学 生 的综 合 翻 译 能力 。随 着 机 器
2 .翻译 训 练应 注重 实用 文体 的翻译 当 前大 多 数 翻 译 教材 以文 学 翻译 为 主 , 难适 很 应信 息社 会对 翻译 人才 的需 求 。 翻译教 材应 以常用 实用文体为基础 , 通过各种实用文体的翻译训练 , 使 学 生 尽早熟 悉 实用 文体 及其 翻译 技 巧 。 3 .通 过实 例讲 解 翻译技 巧 , 而不 是 泛泛而谈
系列卓有成效的尝试 , 出了用作坊式 翻译教 _提 3 学法 改 变 传 统 的 翻 译 教 学 法 , 高 翻译 教 学 质 提
一
高校应 将计 算机 辅 助 翻 译 纳入 翻译 教 学 。据 悉 , 北 京 外 国语大 学高 级 翻译 学 院 、 海 外 国语 大 学 高 级 上 翻译学 院等 均配备 了计 算 机 翻译 教 室 , 局 域 网 中 在
利 用 翻译 记忆 系统 进行 笔译 教学 。
量 。 在实用 性 翻译 教 学模 式 方 面 进 行 了探 索 性 的 尝试 , 将案 例教 学 引入 到传统 的 翻译教 学课 堂 , 效 收 显著 。随着 案 例教 学 的 引 人 , 翻译 课 教 学 目的转 为 培养 学生 的综合 能力 , 括分 析原 文 、 英汉语 的文 包 对
汉英机器翻译系统中统计消歧的多步策略
12 9
西南民族 大学学报 ・自然科 学版
第3 2卷
2 3 多义词 歧义 .
多义词是汉语 中普遍存在的现象 , 消除歧义的任务就是确定一个歧义词 的哪一个语义在一个特殊 的使用环 境中被调用 , 通过考虑词汇使用的上下文可以确定其具体的语义. 词义消歧需要用到词法 、 语法 、 语义、 语用等多 层次知识 , 词义消歧 的效果除本身的算法模型外将极大地依赖于知识来源等基础工作的研究水平 , 因此词义消歧 问题是机器翻译中的一个重要的难题 , 被描述为“ I A 完全问题” .
中普遍存在, 特别是汉语 中的许多常用词均是兼类词 , 词性标注的任务就是为句子中的每个词都标上对应 的词
性, 因为在一个特定句子的上下文中, 每个词的词性是确定的, 标注歧义在词性标注的过程中得以消除. 由于大多
数语料库中一半以上的词语不存歧义, 因此一个好的词性标注方法的效果必需超过 9 %. 0
两种类型, 组合型歧义字段的发现比交集型歧义要容易 , 但其解决要 比交集型歧义困难得多 , 因为组合型歧义字 段本身即是歧义词 , 非歧义词包含在歧义词中. 切分歧义是解决汉语 自动分词的最大的问题.
22 标 注歧 义 .
词性是 自然语言词汇的主要特征, 也是汉英机器翻译 中进行句法分析 的起点. 但是 , 一词多类 的现象在汉语
维普资讯
第 3 卷第 1 2 期
西南民族大学学报 ・自然科学版
 ̄ u l fS uh etU iest o t n lis・ trlS in e E io ma o tw s nv ri frNai aie Nau a ce c dt n o y o t i
收稿 1期 :0 5 2— 0 3 20 —1 2
汉英机器翻译中汉语篇章时间信息系统模型
文章 编 号 :0 7 l0 20 )40 8 —4 l0 一3 X(02 0 —0 50
汉 英 机 器 翻译 中汉 语 篇 章 时 间信 息 系 统 模 型
A e o a n o ma in S se M o e o i e e T mp r lI f r t y t m d lf r Ch n s o
从 大量 以 自然 语 言 为 载体 的信 息 中快 速 高 效 地获 得 所 需 的信 息 。我们 的母 语汉 语 是 一种 语 义 型语 言 , 乏 印欧语 里名 词 、 容 词 和动词在 性 、 、 缺 形 数 格 、 和人 称 上 的形 式 变 化 , 时 而且 汉 语 篇章 中经 常
收 稿 日期 :0 10 8 修 订 日期 :0 1 1.8 2 0 9 1 ; 20 1 0 基 金 项 目 : 家 8 3i‘ 资 助 项 日 ( 0 1 A14 1 ) 国 6 i划 2 0 A 1 10
摘 要 : 语篇 章 中 时间信 息 的分 析及 其 在 英语 译 文 中的再 现 是 汉英 机 器翻 译 的一 个 难点 本 文 汉 首 先提 出 了一种 汉 语 篇章 分析 方法 , 然后 建 立 了一 个 汉语 篇 章 时 间信 息 系统 模型 , 并在 汉 英机 器 翻译 中
进 行 了 实 现 工 作
中 图 分 类 号 : P 9 . T 3 12
文 献 标 识 码 : A
的一些 方 法 大 多 研 究 的 是 真 言
机 器 翻 译 一 直 是 人 工 智 能 领 域 中 的 一 个 研 究
具 体 给 出语 义 的功 能 描述 。本 文提 出的汉 语 篇章
时 间信 息 系统模 型是 对 汉语 原 文时 间 信息 的一种 提 取 和 描述 , 为解 决汉 英 机 器翻译 中英 语 译 文“ 时 态 ” 法 范 畴 的生 成提 供 了一 条 解决 途 径 。 语 热点 , 别 是在 信 息 高 速 公 路 飞 速 发 展 的 信 息 时 特 代, 人们 更 是 希望 计 算 机 能够 辅 助 克服语 言 障 碍 ,
汉译英在线翻译句子
汉译英在线翻译句子概述汉译英在线翻译句子是一种方便快捷的工具,可以帮助用户将汉语句子翻译成英语。
翻译句子的需求在现代社会中越来越多,无论是在学习、工作还是日常生活中,我们都可能遇到需要将汉语句子翻译成英语的情况。
传统的翻译方法可能需要借助词典或者专业人士,而汉译英在线翻译句子则提供了一种更加便捷的解决方案。
功能汉译英在线翻译句子具有以下主要功能:1. 实时在线翻译:用户输入汉语句子后,系统会立即进行翻译并显示翻译结果。
用户可以实时看到汉语句子对应的英语翻译。
2. 声音播放:系统还可以根据用户需求,播放所翻译句子的音频。
用户可以借助声音播放功能更好地理解句子的发音和语调。
3. 翻译历史记录:系统可以保存用户的翻译历史记录,方便用户查看之前的翻译结果。
用户可以随时从历史记录中查找之前翻译过的句子。
使用方法汉译英在线翻译句子的使用方法非常简单: 1. 打开汉译英在线翻译句子的网页或手机应用。
2. 在输入框中输入待翻译的汉语句子。
3. 点击“翻译”按钮,系统会立即进行翻译并显示翻译结果。
4. 用户可以点击播放按钮,收听翻译句子的发音。
5. 翻译结果会自动保存到历史记录中,用户可以点击历史记录按钮查看之前的翻译结果。
技术原理汉译英在线翻译句子的实现离不开以下关键技术: 1. 自然语言处理(NLP):系统需要使用NLP技术来识别用户输入的汉语句子并进行翻译。
NLP技术能够对自然语言进行分析、理解和生成,帮助系统实现汉语句子的翻译功能。
2. 机器学习(ML):系统通过使用机器学习算法对大量的汉英双语数据进行训练,以提高翻译的准确性和流畅度。
机器学习技术能够根据已有的数据学习模式和规律,并在新的情况下做出预测和判断。
3. 语音合成:系统利用语音合成技术将翻译结果转换成语音,并播放给用户听。
语音合成技术能够模拟人的语音,使得翻译结果更加逼真和易于理解。
优势与局限性汉译英在线翻译句子具有以下优势: 1. 快捷高效:用户无需额外安装软件或者查找词典,只需打开网页或者手机应用,即可实时翻译汉语句子。
基于短语译文组合的汉英翻译系统
作者 k介 :姚敏锋 ( 7 . ,男,硕 士,广 东外语 外贸大学信息学院讲 师;研 究方向: 自然语 言处理技 术、科 间 z - 1 7) 9
技翻译 。
7 5
广 东外语 外 贸 大学学报
切分后的中文词或短语 。一般而言,一个中文词或短语 根据不同的时态有不同的翻译结果 。比如 中文短语 : 习, 学 它 既可以翻译 为进行时态下的 s d ig 也可 以翻译为过去 t yn , u 时或完成时 态的 su id,还 可以翻译 为复数形式下的一般 tde
姚 敏 锋
( 东 外 语 外 贸 大 学 ・广 州 ・51 0) 广 0 2 4
内 容 提 要 :本 文 描 述 了 一 种 基 于 短 语 译 文 组 合 的 汉 英 机 器 翻译 系统 。 通 过 对 输 入 的 汉 语 进 行
语 义分析 ,得 到汉语 短语 及相 对应 的英 文短语 链 ;利 用事先 给定 的 中英文语 法转换 规 则 ,对 英文
假定源语句用集合 T来 表示 ,则经过切分后的源语 句
T可 以表示为 ,
, 一
,其 中 T( l2 … 表示 i= ,J i
收稿 E : 2 0 — 92 基 金 项 目: 广 东省 科技 计 划项 目 嵌 入 式 口语翻 译 系统 的研 究》2 0 B 8 7 1 O ) l 0 90 —9 期 (08 0 00 07。
标 语 言单 词 组成 的译 文 句 子 。因 此语 法 理 论 在翻 译 过 程 中 起
畴语法的优点, 强调了词汇在语言中的重要地位 ,所 以又被称 为词汇主义的语法理论 。HP G已经成为机器翻译和 自然语 S 言处理领域中使用最广泛的一种语法理论 ,被称为一种可以
浅谈机器翻译实现的途径
浅谈机器翻译实现的途径本文概述了机器翻译的基础理论,它是借助计算机把源语言文本转变成目标语言文本的过程。
从计算机语言学的角度阐述了实现机器翻译的技术原理主要有基于语法分析和基于语料库两大途径;分析了这两条途径翻译过程中的优势和缺陷,并提出解决的对策。
标签:机器翻译;语法分析;语料库随着网络信息时代的来临,信息爆炸成为信息处理领域的瓶颈问题,不同语种之间大量的信息交流更加大了问题的严重性;同时不同语言之间的翻译工作也越来越迫切,并且工作量也越来越大。
如何利用计算机高效率的信息处理能力突破不同语种之间的语言障碍,成为全人类面临的共同问题。
机器翻译便是解决这个问题的有力手段之一,这也是其长期成为自然语言处理研究中心的主要原因之一。
一、机器翻译的基础理论机器翻译的总任务可以描述为:将一种语言(源语言)的文本信息输送入计算机,通过计算机程序生成另一种语言(目标语言)的文本,且源语言文本与目标语言文本具有相同的含义。
机器翻译的第一步是在不同層次上分析源语言文本,而后是目标语言文本的生成。
所谓源语言分析,就是遵循一定的语言学基础,寻求源语言文本的表示形式与其对应内容之间所存在的映射关系的过程。
文本内容可以用句法结构表达式、文本命题含义表达式、综合的中间语言文本描述。
典型的源语言分析手段为:依据与源语言文本所表达含义相关的词汇、句法结构、单词和句子的顺序,灵活地找出目标语译文。
源语言分析涉及多个不同层次,分析过程按照复杂度递增顺序可划分为以下几个阶段:1、形态分析:用于获取源语言词汇原形。
在机译系统的研制中,两层分析法是普遍采用的形态分析理论,有时也采用不太通用但更适合于特定语言、特定任务的方法。
2、句法分析:用于摘取源语言文本短语结构、句法结构的依存性,即确定输入文本中词汇的词性、短语边界及短语的内部结构。
3、语义分析:利用文本含义描述语言建立知识结构,反映源语言文本的词汇、词义及相互之间所存在的语义依存关系,可消除词义歧义、介词短语修饰歧义、复合词分解歧义等等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一个汉英机器翻译系统的计算模型与语言模型*刘群+詹卫东++常宝宝++刘颖+(+中国科学院计算技术研究所二室北京100080)(++北京大学计算语言学研究所北京100871)摘要:本文介绍我们所设计并实现的一个汉英机器翻译系统。
在概要介绍本系统的主要目标和设计原则的基础上,着重说明系统的计算模型和语言模型,最后给出实验结果和进一步的打算。
关键词:自然语言处理机器翻译中文信息处理一、引言我国的机器翻译研究近年来取得了很大的发展。
特别是英汉机器翻译系统的研制已经取得了较大的成功,达到了初步实用的阶段。
相对而言,汉英机器翻译的研究却进展比较缓慢,离实用化还有相当的距离[1]。
我们的目的是利用目前最新的计算机软件技术、相对成熟的机器翻译方法和先进的汉语语法理论,构造一个初步实用的汉英机器翻译系统。
本文将对我们所开发的系统所采用的计算模型和语言模型作一个总体性的介绍,而不涉及过多的细节。
下面我们简要介绍一下本系统的几个主要设计原则:⑴采用成熟的技术我们的目的是构造一个真正实用的汉英机器翻译系统,因而在可供选择的若干技术路线面前,我们将尽量选用比较成熟的技术,而在现有技术难以解决问题时再尝试一些新技术。
⑵开放的体系结构开放的体系结构主要体现在系统的实现上所采用的软件构件技术[8]。
整个系统采用一些相对独立的软件构件组成,因而可以方便地对系统进行修改、维护和扩充。
翻译的过程严格按照独立分析、独立生成的原则进行组织,每一阶段的算法相互独立,对其中一个阶段算法的修改不会对其他算法造成影响。
⑶方便的调试环境本系统强调为语言工作者提供一个方便的调试环境。
系统提供多窗口图形界面的知识库调试工具,支持课题组中多人同时通过网络对一个知识库进行操作。
提供对翻译过程直观显示,用户可以清晰地看到翻译过程的每一步操作。
提供翻译出错原因查找机制,用户*本项目的研究受到863-306资助,合同号为863-306-03-06-2可以轻松确定翻译出错的位置。
机器翻译系统可依据不同的标准进行分类,这些标准也刻划出本系统的一些基本特点:(1) 规则方法与语料库方法规则方法发展到今天,相对来说已比较成熟,但由于专家描述的规则知识通常颗粒度较大,不利于处理大量的细节,因而在处理大规模的开放语料时,遇到了难以克服的困难;而从预料库中获取的知识颗粒度较小,在自然语言处理的某些方面取得了成功,但纯粹基于语料库的的机器翻译系统,还没有比较成功的例子。
本系统目前采用的是基于规则的技术,我们计划将其扩展成为一个规则方法与语料库方法相结合的系统。
(2) 转换方法与中间语言方法从理论上说,在实现多种语言互译的机器翻译系统时,中间语言方法可以节省很多的工作量。
但从已实现的系统来看,使用转换方法较易取得成功。
本系统也采用转换方法。
(3) 确定性算法与不确定性算法确定性算法的优点是算法较为简单,翻译速度快,缺点是不能提供回溯的能力,翻译过程任何一步的错误将导致整个翻译的失败。
不确定算法刚好相反。
本系统采用不确定性算法,翻译过程的每一步骤都是不确定的,都可以回溯。
二、计算模型我们从系统结构、知识表示、翻译算法三方面来介绍我们所采用的计算模型。
1、系统结构图1 汉英机器翻译系统总体结构系统总体结构如图1所示。
2、知识表示机器翻译的过程可以看成是一个运用知识进行推理的过程。
知识表示是这一过程的基础。
我们把机器翻译中用到的知识表示形式分为内部知识和外部知识两类。
其中外部知识是存放于知识库之中,由语言工作者进行管理的知识,如词典和各类规则库等,内部知识是翻译过程中临时生成的,用于描述所翻译的句子的语法语义特征的知识,如树形图、特征结构和语义网络等。
本系统的外部知识表示由知识库子系统进行处理。
知识库包括一个语言模型、一部词典、多个规则库和一个实例库。
本系统设计的严格的语言模型起统帅作用,其中规定了本系统所使用的源语言和目标语言的词法模型、句法模型和语义模型,即词法、句法和语义的分类和各种属性描述。
所有知识库中所用到的各种语言知识描述用的符号格式都必须符合语言模型中的规定。
整个系统使用一部双语词典。
多个规则库对应于翻译的各个步骤,每个步骤使用相应的规则库。
每个规则库的具体格式各不相同,但基本上都采用“树结构+约束”的形式。
在知识库的格式定义上,我们特别强调不仅要能描述全局性知识,也要能描述一些局部性的知识。
因此我们特别强调词典的描述能力。
例如,词典中的局部规则与全局规则具有完全相同的格式,在使用上局部规则优先于全局规则,这样特别有利处理一些与具体词相关的特殊用法。
实例库用于存放系统翻译过的句子及其相关信息。
本系统的内部知识表示形式包括线图(Chart)、树结构和特征网络三种形式。
线图源于Chart Parsing算法,是一种比较通用的语言内部结构表示方法,可以同时表示翻译过程中产生的大量词结点和短语结点,也可以适应多种不同的分析算法。
树结构是短语结构分析中最常用的一种表示方法,用于描述句法成分(包括词结点和短语结点)之间的组合关系。
每个树结点对应于线图中的一个词结点或短语结点。
我们所使用的树结构表示法中要求标出每个句法成分的中心子结点,用于处理属性值在句法成分之间的传播。
特征网络是本系统所使用的一种特有的知识表示方法。
这种表示法融合了特征结构表示法[4]和语义网络表示法的一些特点并加以改进,以适合汉英机器翻译的需要。
具体来说,特征网络表达具有以下特点:1、一个特征网络由许多个互相关联的特征结点所组成;2、一个特征结点是若干个特征的集合,一个特征是一个“属性-值”对;3、属性分为简单、原子属性和关联属性两种,原子属性的值是一个原子,关联属性的值是另一个特征结点;4、原子分为层次型、符号型、数值型、布尔型等多种类型,原子之间可以通过与、或、非等逻辑操作构成复杂原子,每一种类型的原子有不同的合一算法;5、特征结点之间通过关联属性互相连接,这种连接可以构成回路,我们改进了合一算法,使得这种回路不至于在合一运算时造成死循环;6、一个特征结点对应着句法分析中已经出现或可能出现的一个句法成分,而每一个句法成分(即句法树中的结点)一定有唯一的一个特征结点与之对应;7、在一定的条件下,属性的值可以在特征结点之间进行传递;8、特征结点之间实行真正的合一运算,而不是伪合一运算。
特征网络表示法作为一种最基本的知识表示方法在本系统中发挥着重要的作用,它基本上满足了我们在汉英机器翻译中描述各种复杂的语言现象的需要。
3、翻译算法我们采用基于转换的翻译方法,遵循独立分析、独立生成的设计原则[3]。
具体的翻译流程下图2所示。
图2 翻译的流程其中,汉语的词形分析阶段分为重叠词处理和切分两个步骤,汉语的切分采用双向最大匹配算法。
出现切分歧义时,不做判断,保留到结构分析阶段进行处理。
结构分析阶段采用改进的Chart Parsing算法[6]。
转换阶段采用自顶向下与自底向上相结合的局部子树变换算法。
结构生成阶段采用自底向上的局部子树变换算法和自顶向下的全局子树位移算法。
4、用户界面用户界面包括使用界面和管理调试界面。
由于本系统还处于开发阶段,我们着重开发了管理调试界面。
对于一个实际的机器翻译系统来说,语言规则和词典的调试工作是非常重要的。
一个良好的机器翻译系统管理调试界面,可以使语言工作者直观方便地进行语言规则和词典的调试,大大提高调试的效率,进而有效地提高语言知识库的质量。
本系统的管理调试界面分为知识库管理界面和翻译调试界面两部分。
知识库管理界面帮助语言工作者对各知识库进行直观的创建、管理和查询等操作,翻译调试界面帮助语言工作者通过观察具体例句的翻译过程对语言知识库进行调试。
系统依次以可视的图形显示源文正文、分析产生的每一个源文词语结点、源文短语结点、源文句法树、转换生成产生的译文句法树、译文词结点和最后的译文正文。
语言工作者可以根据需要显示任何一个句法成分的产生过程及其对应的特征结点(属性和值)。
三、语言模型在一个机器翻译系统中,计算模型决定了该系统的能力的极限,即该系统最好能翻译到什么程度;而语言模型则决定了该决定了这种极限能在多大程度上实现。
没有好的语言模型,系统的计算模型再好,也不可能得到高质量的译文。
本系统采用以语法分析为主,以语义分析为辅的语言模型。
就汉英机器翻译系统而言,目前还没有专门适用于机器翻译的汉语语法模型。
本系统采用的语言模型主要来源于北京大学计算语言学研究所研制的《现代汉语语法信息词典》[2](以下简称《词典》),并在该词典所采用的语言模型基础上修改扩充而成。
1、汉语词语分类和属性[10]本系统所采用的汉语词语分类和属性取自于《词典》,并作了少量的改动。
《词典》中将现代汉语词语(包括标点符号、语素、成语等)分为26类,我们只采用了其中的20类,并将其余6类归并到这些类中。
《词典》中有大量的属性描述,我们根据机器翻译的需要对这些属性作了一定的取舍,并增加了少量新属性。
本系统所使用的机器翻译词典就是在《词典》的基础上修改扩充而成。
在使用中我们体会到,《词典》对现代汉语词语的分类合理,对词语语法功能的描述非常详尽,基本上能满足汉英机器翻译的需要。
2、汉语短语分类和属性[7,10]对汉语短语的分类,我们继承了《词典》中对汉语词语分类时采用的“功能分类”思想,将短语(包括句子)分成np,vp,ap,tp,sp,dp,pp,mp,mcp,dj,fj,zj等12类。
另外,我们还定义了内部结构、语气、被动、否定等短语属性。
我们认为,短语和汉语词语一样,采用按功能分类的思想,而不是按结构分类或按功能-结构混合分类,是符合机器翻译用汉语语法体系要求的。
这是因为,功能反映了一种短语与其它短语互相结合的能力,而语法规则所描述的就是短语之间如何互相组合构成新的短语,因而采用功能分类是非常自然而贴切的。
短语的结构从本质上说只是短语内部成分之间的组成关系,虽然结构对功能也有一定的影响,但它并不直接反映短语向外结合的能力。
因此我们只是把短语的内部结构作为一种属性来对规则进行约束,而不是作为分类的依据。
在实践中我们感觉到这种做法是恰当的,既不至于导致规则的描述能力不够,也不会产生大量的冗余规则。
总的来说,我们对汉语短语的认识要比我们对汉语词语的认识肤浅得多。
在很多情况下,我们没有足够准确的属性来描述规则的约束条件,尤其是一些很常用的歧义结构,如np+np,vp+vp,np+vp等等。
这尤其需要我们机器翻译研究工作者与语言学家共同努力,对汉语短语的语法功能进行更加深入的研究。
3、语义分类和属性[9]本系统是一个以语法分析为主,语义分析为辅的系统。
虽然如此,在本系统中,为消解句法分析和转换时的歧义,语义分析还是起着重要的作用。
本系统采用的语义模型主要包括语义分类和配价分析[5]两个方面。