英汉双语平行语料库人工对齐方法说明

合集下载

利用Trados进行平行语料库的句对齐

利用Trados进行平行语料库的句对齐

就在几年前 , 语 料 库研 究 对 高校 生 , 甚 至 许 多 高 校 老 师 而 言 都 是 一 个 新鲜 事 物 。 而 现在 , 随 着 MT I 专 业的 不 断 推 广 , 许 多大 学相继开设 了与语料库研究 相关的课程 , 如“ 语料库语言学 、 计 算 机 辅 助翻 译 ” 等, 众 多高校 老 师 进 入 到这 一 相 对 较 新 的领 域进 行研究 , 一 部 分 高 校 毕 业 生 也 开 始 以 此 方 向作 为 论 文 选 题 , 语 料 库 研 究 正 以 蓬 勃 之 势迅速发展。 对 于语 料库 的定 义 , 杨 慧 中 指 出, 所谓 语 料 库 是 指 在随 机 采 样 的基 础 上 收 集 的 有 代 表 性 的真 实语 言 材 料 的 集 合 , 是语言 运用的样 本。 通 过有 关 语 料 库 的论 文统 计 可 以 看 出 , 语 料 库 研 究 实 实 在 在 在 翻 译对 比 、 翻译教学 、 译 员培 养 、 语 言 学研 究 等方 面 发 挥 了 重 要 作 用 。目前 一 些 大 型 翻译公 司 , 如传神 , 都 有 专 门 的 语 料 库 部 门, 并 雇 用 专 员 负 责 入 库 文 件 的 校 对 和 录 入 工作 。 笔 者 在 这 里所 提 及 的 语料 库 , 主 要 是 指双 语 语 料 库 下 的 一 个 类 别 , 即 平 行 语 料库。 平 行 语 料 库 中含 有 大 量 真 实 译 语 言 研 究 和 语 言 对 比研 究提 供 了 良 好 的 基 础 。
还可在“ 匹配 ” 栏 下进 行 设 定 , 提 刘 克 强 也 并 未 明 确 指 出具 体 的 方法 。 对 齐 在 此 之前 , 升 对 齐准 确 率 , 并在“ 导出” 栏 下 选 择 格 式 后 导 出的 t x t 文本如下: <Tr U> 为“ 翻译记 忆库 交换格 式( T MX) ” 。 Wi n A l i g n <Qu a l i t y >8 5 自动 对 源语 文 件 和 目标 语 文 件 进 行 句 对 <Cr U>AL I GN ! 齐, 如 两种 语 言 断 句 一 致 , 则对 齐 准 确率 会 < CR D> 0 4 0 9 201 3, 1 1: 55 非 常高 。 此外 , Wi n Al i g n 支 持手 工调 整 , 调 <S e g L=EN-U S> 1 . 1 4 J OI NT AN D 整 的方 法 也非 常 简 单 。 利 用Wi n Al i g n 将双 SEVER AL LI ABI LI TY 语 文件 完 全对 齐后 , 选择“ 导 出 文件 对 ” , 注 导 出” 栏 中对 格 式 进 行 正 确 选 < S e g L = Z H- C N >{ \ f 3 1 . 1 4 } 共 同的 意 必 须 在 “

汉英篇章结构平行语料库的对齐标注研究

汉英篇章结构平行语料库的对齐标注研究

b i l i n g u a l t e x t .Th i s p a p e r p r o p o s e s s u c h a n a l i g n me n t a n d a n n o t a t i o n s t r a t e g y ,t h e s t r u c t u r a l a n d r e l a t i o n a l a l i g n —
a n d s t r u c t u r a l a l i g n me n t .Th e s t r a t e g y wi t h t h e h e l p o f c o r r e s p o n d i n g a n n o t a t i o n s o f t wa r e a n d t h e s o l u t i o n s t O t h e
篇 章 结 构 平 行 语 料 库 的核 心理 论 基 础 。该 文 提 出“ 结构对 齐, 关 系对 齐” 的对齐标注策略 , 应 用于切分对 齐、 层 次 结
构对齐、 关 系对 齐 、 中心 对 齐 等环 节 , 实现 了 对 齐 和 标 注 并 行 、 单 位 对 齐 和 结 构 对 齐共 进 的 平 行 语 料 库 工 作 模 式 。
me n t , whi c h i s t h e t he o r e t i c a l ba s i s of Chi ne s e — Eng l i s h d i s c o ur s e s t r uc t u r e pa r a l l e l c or pus . Thi s s t r a t e gy i s ap pl i e d t O t he c o r p us b ui l d i ng pr oc e s s, i n c l udi ng s e g me nt a l ,s t r uc t ur a l ,r e l a t i o na l ,a nd c e nt r a l a l i gnm e nt ,h a vi ng ac hi e v e d a n o pe r a t i on m od e o f p a r a l l e l c o r p s a l o ng wi t h a l i gnm e n t a n d a nn ot a t i o n wo r k i n g t og e t he r ,a s we l l uni t a l i gn me nt

上海外语教育出版社英汉双语平行句对语料库的构建

上海外语教育出版社英汉双语平行句对语料库的构建

摘要上海外语教育出版社英汉双语平行句对语料库建设是该社承担的上海市科委课题“双语词典编纂系统的研发”的子课题。

该语料库是该社双语词典编纂系统的在线辅助语料库之一,为双语词典编纂提供英汉平行句对例证,并为词典编纂提供语言统计信息、分析信息等。

文章综述了该语料库的设计和构建过程,内容涉及语料的采集、加工、标注、检索等方面,同时也探讨今后如何进一步开发与利用该语料库。

关键词平行语料语料库建设双语词典编纂系统上海外语教育出版社(以下简称“外教社”)承担的上海市科委课题“双语词典编纂系统的研发”是上海市政府扶持辞书编纂出版数字化的重大科研项目,该课题的总体目标是开发一个基于语料库的数字化双语词典编纂出版系统,其子课题之一就是构建一个服务于双语词典编纂、经过深加工的、通用共时并在句子层面对齐的英汉双语书面语语料库。

该语料库以英语为原语、以汉语为译语,以xml(extensible markup language)为标注语言,对英语原文语料的标注做到分词(tokenization)、主词标注(lemmatization)及词性赋码(part ofspeech tagging),对汉语译文语料的标注做到分词及词性赋码。

基于该语料库,词典编纂者及词典用户可以通过在线检索平台提取有效的词典例证,统计具体词语的词频信息,了解词汇的分布情况,获得具体词语或结构的用法信息(包括语义、语法、搭配等方面)。

经过三年多的建设,该语料库一期工程已建成收录68万英汉双语平行句对的语料库,总字数达5455万。

本文将综述该语料库的设计和构建过程,内容涉及语料的采集、加工、标注、检索等方面。

一、语料库前期设计课题研究开始时,外教社课题组与各合作单位进行了较为广泛的调查工作,并以此为基础制订了详细的语料库建设实施方案,确定语料库设计阶段的主要任务为:(1)确定标注语言;(2)确立语料选取的原则及语料来源;(3)制订语料储存方案与各项工作流程;(4)编制语料库技术开发需求规约。

双语平行语料库的制作流程

双语平行语料库的制作流程
Step 5.利用ParaConc软件对双语语料库进行检索统计。步骤如下:
1.运行ParaConc269软件,如下图:
2.点击“File”,在下拉列表中选择“Load Corpus Files”,如下图:
3.在Align format处,选择“Start/stop tags”,如下图:
4.点击“add”,分别添加Step 4中得到的中文txt文本和英文txt文本。如下图:
3.点击“导出”,如下图:
点击“确定”,关闭该软件。
4.找到导出文本所在文件夹,可以看到txt格式的中文文本和英文文本,打开中文文本,如下图:
点击“文件”,选择“另存为”,如下图:
在“编码”处可看到当前编码为“UTF-8”,点击,在下拉列表中选择“ANSI”,如下图:
选择“是”,关闭记事本。
注意:与英文txt文本不同,中文txt文本必须经过这一步改成ANSI格式。若文件数量大,也可使用编码批量转换软件。
点击“OK”,双语语料库制作完成。
Step 6.在该语料库中执行“搜索”功能。例如,查询“shall”在该语料库中对应的中文翻译。
1.点击“Search”,在下拉列表中选择“search”。在跳出的选框中输入“shall”,如下图:
点击”OK”,即可得到搜索结果,如下图:
2.可将搜索结果保存下来:保持该搜索界面不变,点击“Search”,选择“Save as File”,如下图:
点击“文件”→“另存为”txt文本,如下图:
点击“保存”,关闭Heartsome TMX Editor。
Step 4.利用TMX-ParaConV软件,从上一步得到的txt中英文本中分别导出中文txt文本和英文txt文本。步骤如下:
1.运行TMX-ParaConV,如下图:

双语平行语料库的制作流程

双语平行语料库的制作流程

双语平行语料库的制作流程
1.数据收集:首先需要收集源语言和目标语言的文本数据。

可以通过
多种方式来收集数据,例如爬取网页内容、使用现有的翻译软件或者借助
专业翻译人员进行翻译。

2.文本对齐:在收集到源语言和目标语言的文本数据后,需要进行文
本对齐。

文本对齐是将源语言和目标语言的句子按照语义和结构进行对应,创建文本对。

这个过程可以手动完成,也可以使用自动对齐工具来辅助完成。

4.词对齐:在文本对齐之后,为了进一步提高平行语料库的质量,可
以进行词对齐。

词对齐是在句子级别基础上,将源语言和目标语言的词语
进行对齐,创建词级对齐。

5.质量评估:对于制作好的双语平行语料库,需要进行质量评估。


以通过对比机器翻译的质量、翻译准确度等指标来评估平行语料库的质量。

6.更新和维护:制作好的双语平行语料库需要定期进行更新和维护,
以保持其质量和实用性。

可以定期收集新的源语言和目标语言的文本数据,并进行文本对齐、清洗和词对齐等操作。

同时,也可以通过删除低质量的
文本对来优化平行语料库。

总结起来,制作双语平行语料库的流程包括数据收集、文本对齐、清
洗和预处理、词对齐、质量评估以及更新和维护。

这个过程需要耗费一定
的时间和精力,但制作好的双语平行语料库对于机器翻译、自然语言处理
等领域的研究和应用具有重要意义。

双语平行语料库对齐技术述评

双语平行语料库对齐技术述评

双语平行语料库对齐技术述评对齐的双语语料库在机器翻译、词义消歧和双语词典编撰等领域都非常有用。

语料对齐的单位由大到小,有篇章、段落、句子、短语、词等不同的层次。

粒度越小,提供的语言信息就越多,应用的价值也就越大。

然而平行语料库的自动对齐并非是一件容易的事情。

由于语料大都来自人工翻译,句子之间并不都是一对一的翻译模式,还有一对多、多对多的翻译模式。

这种复杂性加大了对齐的难度,特别是对更细粒度级别的对齐。

由于语言之间存在着差异,找到固定的对应翻译很难,再加上文本预处理工具难以保证处理效果,以及一些电子文本的噪声纷繁复杂,这都增加了对齐的难度。

而对于英汉两种差别很大的语言来说,目前的语料库对齐算法并不一定完全适用于汉英语料库的对齐。

本文首先回顾了当前国外平行语料库的对齐技术,然后分析了国内在对齐中所使用的技术,旨在为本研究所今后构建小型汉英平行语料库提供一个技术支持。

1 目前平行语料库对齐技术的现状1.1 句子级对齐技术在各级对齐研究中,其中最为重要且较为成熟的自动对齐技术是句子一级的对齐。

句子级对齐的方法主要有三种:①基于长度的方法(length-based)(Brown et al,1991; Gale & Church, 1991a);②基于词汇的方法(lexical-based)(Kay & Roscheisen, 1993);③混合法(combination)(Tan & Nagao, 1995; Wu,1994)。

基于长度的方法最早是由Brown和Gale提出,虽然他们的算法都是由源文本中句子长度和译文本中的句子长度有很大的正相关这一观察得出,但其侧重点却不同。

Brown的算法以词为单位计算句子的长度,而Gale和Church则是以字符为单位计算句子的长度。

他们分别用各自的算法对加拿大议会会议所录英法双语语料库进行了对齐实验,准确率达96~97%。

然而该方法在处理复杂句子的对齐(如2∶1或2∶2的句子对齐,或非直译和省略的句子)以及不同语系的句子对齐时,准确率却并不高,而且此算法一旦出错,便不可能自动纠正。

中英句子对齐双语语料库建设——技术报告

中英句子对齐双语语料库建设——技术报告

“中英句子对齐双语语料库建设”技术报告中科院自动化研究所模式识别国家重点实验室北京1000801研究目标和内容本课题的研究目标是:对中英文篇章对齐的双语文本进行段落对齐、句子对齐加工,建立一个大规模具有统一标准和规范的、多领域、多体裁、句子级对齐的双语语言信息和知识库。

具体研究内容包括:●借助互联网等其他媒体搜集中英文篇章级对齐的双语文本,并进行必要的预处理。

●参照都柏林核元数据元素集制订了双语语料文本标注规范,在973标准讨论会上进行讨论通过。

●大规模文本句子对齐方法:面向多领域多体裁,采用基于双语词典的句子对齐方法进行了文本对齐,并对如何提高对齐精度做了进一步的研究和探讨。

●自动评价:对双语文本句子对齐结果实现自动评价。

目前完成的句子对齐双语语料库可以有以下几方面的应用:➢作为重要的语言资源,为基于统计的各种双语语言建模、分析提供必要的训练数据。

➢可以为机器翻译、跨语言信息检索等领域抽取双语词对、短语对提供真实文本标注素材。

2相关研究现状国内外很多研究机构都致力于双语语料库的建设,并利用这些语料库进行广泛的研究。

加拿大的议会会议录(Canadian Hansards)是非常著名的英法双语语料库,许多最初的基于双语语料库的研究都是在该语料库基础上进行的[1][2]。

有关汉外双语语料库建设及其研究,香港科技大学收集和加工了香港立法委员会的会议记录,形成汉英双语语料库[3]。

此外,北京大学、东北大学、哈尔滨工业大学的研究人员也建立了一定规模的汉英双语语料库[7][8][9]。

但目前汉外双语语料库规模比较小,加工规范也不统一,从而影响了双语语料库知识获取的研究。

实现各个层次的对齐是双语语料库建设的一项重要内容。

本文主要讨论汉英双语句子级对齐技术。

句子对齐方法基本可以分为三类:◆基于长度的方法:最初由Brown[1]和Gale[2]提出,其依据是两种语言译文的长度满足一定比例关系。

他们在英法双语的加拿大议会会议录上取得了较好的对齐效果;清华大学和哈尔滨工业大学的研究人员分别将基于长度的方法应用于Microsoft NT 3.5 Server安装指南和法律文献的汉英双语句子对齐,获得的试验结果。

人工智能翻译系统的多语种处理技巧

人工智能翻译系统的多语种处理技巧

人工智能翻译系统的多语种处理技巧在处理多语种的翻译任务时,人工智能翻译系统需要采用一些特定的技巧和方法,以确保翻译结果准确无误、流畅易读。

本文将介绍人工智能翻译系统在多语种处理方面的一些技术和策略。

一、语言对齐技术在处理多语种翻译时,首先需要进行语言对齐,即将源语言和目标语言之间的对应关系进行匹配。

语言对齐技术可以根据句子结构、词义和语法等特征,将源语言和目标语言中的句子进行对齐,为后续的翻译工作提供基础。

二、双语语料库的构建为了提高翻译系统的准确性和效果,需要构建双语语料库,即源语言和目标语言的平行语料库。

双语语料库中包含了大量的句子对,可以用于翻译系统的训练和调优,使其具备更好的翻译能力。

构建双语语料库的方法主要有手工翻译、自动对齐和在线爬取等。

三、多语言词典的应用在进行多语种翻译时,多语言词典是非常重要的资源。

多语种词典中包含了各个语言之间的词汇对应关系,可以帮助系统准确理解源语言句子中的词汇,并将其正确翻译为目标语言。

多语言词典的构建可以通过手工整理、自动对齐和在线收集等方式进行。

四、语法和语言规则的处理不同语言之间存在着差异,包括句子结构、语法规则以及语言习惯等方面。

为了准确翻译不同语言的句子,人工智能翻译系统需要充分考虑这些差异,并建立相应的语法和语言规则。

通过分析源语言句子的结构和语法特征,系统可以更好地理解其含义,并将其转化为目标语言相应的表达方式。

五、上下文和语境的处理在进行多语种翻译时,上下文和语境的处理是非常关键的。

由于不同语言之间可能存在歧义,只考虑单个句子的翻译容易导致误解。

因此,人工智能翻译系统需要综合考虑上下文和语境的信息,以准确理解和翻译源语言句子。

这可以通过利用统计机器翻译和神经网络等技术来实现。

六、后编辑和质量评估尽管人工智能翻译系统在处理多语种任务时已经能够取得较好的效果,但仍然存在一些翻译错误和不准确的情况。

为了提高翻译结果的质量,可以引入后编辑和质量评估的环节。

利用Trados的WinAlign进行汉英平行语料库的句对齐

利用Trados的WinAlign进行汉英平行语料库的句对齐

参 考 文 献
[】B k rM . op r rnlt nsu i : 1 a e , C r oai ta s i t de n ao s
An ov r iw nd s e v e a ome s gg sins f r u e to o
f t r r sa c [】Ta g t 7 : 2 u u e e e r h J. r e ,/2 2 3~
a s r s no nd pa e pa ns t i r a e a m e s’ i o nc e s f r r
£ R 断 l l i P; 啜
鐾 酗 i 神


图 1
① 基 金项 目: 文 系 作 者 主 持 的 云 南 省 教 育 厅科 学研 究基 金 项 目“ 语 常 用 动 词 及 其 英 译 的 聚 类 研 究 ” 部分 成 果 , 项 目编 号 为 本 汉 的 该 0 C4 1 4。 此 对项 目资 助 方表 示 衷 心 的 感 谢 。 7 08 在
243.
[】Ka M.n sh i n, T x—ta s 2 y, a dRoc es M. e t rn — e lto a i n n [】 C mp t to a ai n lg me tJ. o u a i n l 活。 L n ua is 1 9 , 9 1 : 2 ~1 2 i g itc ,9 3 1 () 1 1 4 . 英: The sae a o t fe t e me - tt d p s efci a [】王 克非 . 型 双语 对 应 语 料 库 的设 计 与 v 3 新 s r s o nc e s i ut nt a r c t e u e t i r a e np i o g iulur 构 建【】 中国翻 译 , 0 4 6 J. 20 ,.

基于英汉平行语料库的双语词对齐系统

基于英汉平行语料库的双语词对齐系统

摘要统计机器翻译的核心是双语平行语料库,需要对大量的平行语料库进行统计分析,从而构建出翻译模型。

双语词对齐是统计机器翻译系统中关键的一步,词对齐的准确率将直接影响翻译系统的性能。

此外,经过标注词对齐信息的语料具有很大的应用价值。

它能为词典编撰、跨语言信息检索和语义消歧等自然语言处理任务提供重要的支撑。

因此,如何获取高质量的双语词对齐信息具有很大的研究价值。

现有的词对齐方法往往通过统计信息进行对齐,没有充分考虑不同语言之间的语言特征。

在训练过程中通常需要大量的标注好的词对齐数据,而人工标注的对齐数据又太少,不能满足训练需求。

传统的词对齐模型考虑的词汇特征是稀疏的,从而导致语料中低频词的对齐效果较差。

本文针对以上问题,采用深度学习的方法进行词对齐的研究,主要工作如下:(1) 研究基于循环神经网络的词对齐方法。

该方法将传统的隐马尔可夫模型融入循环神经网络中,并且考虑句子的上下文信息,利用词汇的相似性,将句子中的低频词用意思相近的常用词代替,通过常用词找到与目标语言词的对应关系,从而得到低频词的词对齐信息。

模型采用无监督的学习方式,省去了人工标注词对齐语料的成本。

实验结果表明,该方法改善了词对齐的质量。

(2) 提出融入依存关系的词对齐方法。

该方法需要对输入的句子进行依存关系分析。

通过双向长短期记忆神经网络提取上下文的词向量特征,并引入注意力机制调控特征的融合,最终得到分析效果较好的依存分析器。

然后将双语训练语料通过分析器标注出依存关系。

使用依存关系信息、词性标记信息作为特征,融入对数线性模型中,从而得到词对齐信息。

(3) 在词对齐的基础上,实现基于短语的统计机器翻译系统,该系统主要包括翻译模型的训练、语言模型的训练、解码等模块。

将本文的翻译系统与当前常用的在线翻译平台进行对比分析。

关键词:词对齐,平行语料库,神经网络,统计机器翻译AbstractThe core of statistical machine translation is bilingual parallel corpus, which requires statistical analysis of a large number of parallel corpus to construct a translation model. Bilingual word alignment is a key step in statistical machine translation system. The accuracy of word alignment will directly affect the performance of the translation system. In addition, the corpus of the word alignment information has great application value. It can provide important support for natural language processing tasks such as dictionary compilation, cross-language information retrieval and semantic disambiguation. Therefore, how to obtain high-quality bilingual word alignment has great research value.The existing word alignment methods are often aligned by statistical information, without fully considering the linguistic characteristics between different languages. In the training process, a large number of labeled words are usually required to align the data, while the manually labeled alignment data is too small to meet the training requirements. The traditional word alignment model considers the lexical features to be sparse, which results in poor alignment of low-frequency words in the corpus. In view of the above problems, this thesis uses deep learning method to study word alignment. Specifically, this work mainly consists of the following three aspects:(1) Research on word alignment method based on Recurrent Neural Networks. This method incorporates the traditional Hidden Markov Model into the Recurrent Neural Networks. By considering the context information of sentences and using the similarity of vocabulary, the low-frequency words in the sentence are replaced by the common words with similar meanings. Through this common word, the corresponding relationship with the target language words can be found, and the alignment information of low-frequency words can be obtained. The model adopts unsupervised learning method, which saves the cost of manual tagging alignment corpus. The experimental results show that this method improves the quality of word alignment.(2) This thesis proposes a word alignment method that incorporates dependency relation. This method requires dependency analysis of the input sentences. The Bi-directional Long Short-Term Memory is used to extract the word embedding features of context, and the Attention Mechanism is introduced to control the fusion of features.重庆邮电大学硕士学位论文Finally, the dependent analyzer with better analysis results is obtained. And the bilingual training corpus is labeled with dependency relationship through this analyzer. Dependency relation information and part of speech information are used as features and integrated into a log-linear model to obtain word alignment information.(3) On the basis of word alignment, a phrase-based statistical machine translation system is implemented, which mainly includes the training of translation model, training of language model, and decoding module. The translation system in this thesis is compared with the commonly used online translation platform.Keywords: word alignment, parallel corpus, neural network, statistical machine translation目录目录图录 .............................................................................................................................. V II 表录 . (IX)注释表 (X)第1章绪论 (1)1.1 词对齐的研究背景及意义 (1)1.2 词对齐的国内外研究现状 (3)1.3 词对齐的难点 (5)1.4 本文研究内容及组织结构 (6)1.4.1 研究内容 (6)1.4.2 组织结构 (6)第2章词语对齐研究方法概述 (8)2.1 词语对齐的定义 (8)2.2 基于统计方法的词对齐研究 (9)2.2.1生成式词对齐学习方法 (9)2.2.2判别式词对齐学习方法 (11)2.3 基于深度学习的词对齐研究 (12)2.3.1前馈神经网络 (12)2.3.2注意力机制 (13)2.4 词向量表征 (16)2.4.1 分布式表征 (16)2.4.2 Word2vec词向量模型 (17)2.5 本章小结 (18)第3章基于循环神经网络的词对齐方法 (19)3.1 循环神经网络 (19)3.2 词汇的相似性 (21)3.3 基于RNN的词语对齐模型 (22)重庆邮电大学硕士学位论文3.4 预训练词向量 (24)3.5 模型参数训练 (25)3.6 实验与结果分析 (26)3.6.1 实验设置及实验环境 (26)3.6.2 评价指标及结果分析 (26)3.7 本章小结 (28)第4章融入依存关系的词对齐模型 (30)4.1 依存句法分析 (30)4.2 长短期记忆网络 (31)4.3引入注意力机制的依存分析模型 (33)4.3.1 特征模板 (33)4.3.2依存句法分析算法 (34)4.3.3词向量特征 (35)4.3.4引入注意力机制的联合模型 (37)4.4融入依存关系的词对齐方法 (38)4.4.1 对数线性模型 (38)4.4.2 特征函数 (39)4.5依存分析模型训练及实验分析 (40)4.5.1 Dropout方法 (40)4.5.2 模型参数训练及实验数据 (41)4.5.3 实验结果与分析 (41)4.6融入特征约束的词对齐模型训练及实验分析 (43)4.6.1 模型参数训练 (43)4.6.2 搜索过程 (44)4.6.3 实验结果与分析 (44)4.7 本章小结 (45)第5章统计机器翻译系统的实现 (47)5.1 翻译系统框架 (47)5.2 翻译系统的模块训练 (48)5.2.1 短语翻译模型的训练 (48)5.2.2 语言模型的训练 (52)5.3 翻译系统的解码 (52)5.4 翻译系统的结果展示 (54)5.5 本章小结 (57)第6章总结与展望 (58)6.1 工作总结 (58)6.2 工作展望 (59)参考文献 (60)致谢 (65)攻读硕士学位期间从事的科研工作及取得的成果 (66)图录图1.1 统计机器翻译系统框架 (3)图1.2 习惯用语的词对齐 (5)图2.1 词对齐示例 (8)图2.2 句对长度为2时所有可能的词对齐示例 (9)图2.3前馈神经网络结构图 (13)图2.4 Encoder-Decoder框架 (14)图2.5 引入注意力机制的Encoder-Decoder框架 (15)图2.6 注意力分配系数计算 (16)图2.7 CBOW和Skip-gram模型结构图 (18)图3.1 循环神经网络结构图 (20)图3.2 循环神经网络按时间序列展开 (20)图3.3 词对齐实例 (22)图3.4 基于RNN的词对齐模型 (23)图3.5 不同窗口大小对应的F值 (28)图4.1 依存句法结构图 (30)图4.2 LSTM单元结构 (31)图4.3 标准分析动作抽取算法 (35)图4.4 bi-LSTM提取词向量特征 (36)图4.5 引入attention的bi-LSTM模型框架 (37)图4.6dropout rate计算实验 (43)图5.1 统计机器翻译系统流程图 (47)图5.2 短语翻译模型训练流程 (49)图5.3 平行双语句对 (49)图5.4 数据处理流程图 (50)图5.5 短语抽取示例 (51)图5.6 短语翻译概率表 (51)重庆邮电大学硕士学位论文图5.7 解码流程图 (53)图5.8 翻译假设堆栈示例 (54)图5.9 谷歌翻译结果展示 (54)图5.10有道翻译结果展示 (55)图5.11百度翻译结果展示 (55)图5.12 本文系统翻译结果展示 (56)图5.13第三、四章翻译结果对比 (57)表录表录表3.1 实验配置环境 (26)表3.2 不同词对齐模型的实验结果 (27)表3.3 不同词对齐模型对翻译系统的影响 (28)表4.1 元特征模板 (34)表4.2 数据集划分 (41)表4.3 各模型对比实验结果 (42)表4.4 引入不同特征的实验结果 (45)注释表注释表MBMT Memory-based Machine Translation,基于记忆的机器翻译EBMT Example-based Machine Translation,基于实例的机器翻译SMT Statistical Machine Translation,统计机器翻译NNMT Neural Network Machine Translation,神经网机器络翻译HMM Hidden Markov Model,隐马尔可夫模型DNN Deep Neural Network,深度神经网络RNN Recurrent Neural Network,循环神经网络BLSTM Bi-directional Long Short-Term Memory,双向长短期记忆FNN Feedforward neural network,前馈神经网络MLP FMultilayer Perceptron,多层感知机BP Back Propagation,反向传播CNN Convolutional Neural Network,卷积神经网络CBOW Continuous Bag-of-Words,连续词袋BPTT Back Propagation Through Time,短语结构语法PSG Phrase Structure Grammar,对比估算LSTM Long Short Term Memory,长短期记忆SGD Stochastic gradient descent,随机梯度下降UAS Unlabeled Attachment Score,无标记依存正确率LAS Labeled Attachment Score,带标记依存正确率第1章绪论第1章绪论1.1 词对齐的研究背景及意义随着网络技术日新月异的发展,互联网正在全面融入经济社会中的各个领域,引领了社会生产新变革,自然语言技术也得到了蓬勃发展。

双语平行语料库的制作流程

双语平行语料库的制作流程

双语平行语料库的制作流程Step 1. 用ABBYY Aligner软件对齐中英双语文档,并导出tmx文本。

步骤如下:1.启动ABBYY Aligner,如下图:2.点击“文件图标”导入英文文档点击这里添加英文文档英文文档导入后会自动弹出对话框,在对话框中选择中文文档导入,如下图:3.点击Align,利用该软件自动对齐,结果如下图:Align接下来需要手动修改,将文档中没有对齐的地方整理对齐。

(为了确保准确和高效,建议首先整理上图中标色部分,这是该软件自动识别标出的有可能没有对齐的句子。

把这些修改完后,再从头到尾检查一遍,修改其余没检测出来的未对齐句子。

)修改后如图:4.点击Export to TMX,保存对齐之后的tmx文本Step 2. 利用trados软件,将Step 1中的tmx文本导入记忆库,并从记忆库中导出新的tmx文本。

步骤如下:1.启用SDL Trados Studio 2011,如下图:2.点击左上角“升级翻译记忆库”点击“添加文件”,点击“关闭”点击“是”。

3.打开该翻译记忆库,则左侧“翻译记忆库”下方出现该记忆库。

选中该记忆库,右击,选择“导出”完成,关闭Trados。

Step 3. 利用Heartsome TMX Editor软件,对上一步中得到的tmx文本“降噪”。

步骤如下:1.运行Heartsome TMX Editor,如下图:2.点击“文件”,选择“打开TMX文件”,如下图:选择从trados记忆库中导出的tmx文本,点击“打开”,如下图:3.点击“编辑”,在下拉列表中选择“清除所有标记”,如下图:点击“确定”,“降噪”完成。

4.点击“文件”→“保存”。

5.从文件夹中找到该文本,用记事本打开,如图:点击“文件”→“另存为”txt文本,如下图:点击“保存”,关闭Heartsome TMX Editor。

Step 4. 利用TMX-ParaConV软件,从上一步得到的txt中英文本中分别导出中文txt文本和英文txt文本。

双语语料库收集整理加工任务工作手册(2-1)—自动对齐结果的人工校对

双语语料库收集整理加工任务工作手册(2-1)—自动对齐结果的人工校对

双语语料库收集整理加工任务工作手册(2-1)—自动对齐结果的人工校对[作者:]柏晓静[参与者:]常宝宝詹卫东张化瑞吴拥华[项目名称:] 973MT_ParaCorpus[最近修订时间:] 4/19/2003[最近修订者:][版本号:] V1.0[文档历史记录:][提交:][目录]1引言 (1)2句子级对齐单位的情况说明 (1)3工作内容与要求 (2)3.1 待校对语料的格式说明 (2)3.2 格式与标记层次的工作内容和要求细节 (3)3.3 内容层次的工作内容和要求细节 (4)4样例及说明 (4)4.1 无需修改的对齐结果 (4)4.2 需要修改的对齐结果 (6)5结束语 (16)1引言根据《双语语料库收集整理加工任务说明书以及相关规范》和《双语语料库收集整理加工任务第一阶段实施计划》,我们需要对经过系统整理和段落、句子自动对齐的语料进行人工校对。

在辅助校对工具尚未开发出来之前,暂用特定格式的文本文件将自动对齐的结果呈现给工作人员。

本文为《双语语料库收集整理加工任务工作手册》第二部分的第一节,主要针对没有辅助工具情况下段落、句子自动对齐结果的人工校对,明确工作人员具体的工作内容和要求。

工作人员应严格依照《规范》和本手册着手语料的校对。

2句子级对齐单位的情况说明合法的句子级对齐单位可分下面四种情况,校对时须注意:1)一对一例句:◆〖1:1〗<s>非洲复兴的理想已在我们大陆扎下根,这理想实现的时刻已经到来,这想法引起大家的共鸣。

</s><s>The idea of an African renaissance has taken hold in our continent with all the resonance of an idea whose time has come. </s>2)一对多例句:◆〖1:2〗<s>次日早上,一个法西斯骑兵军官朝山洞奔驰而来,乔丹被马蹄声惊醒,立即开枪击毙了敌人,向其他游击队员发出了警报。

语料库---terms

语料库---terms

双语或多语语料库:指不只有一种语言的语料库,分为平行语料库和对照语料库两种。

平行语料库指库中的两种或多种文本互相是对方的译文,因此可以用于翻译或者机器翻译研究;对照语料库中两种或多种语言的文本不构成对译关系,只是领域相同,主题相近。

通常只能用于两种或多种语言的对比。

机器翻译系统:是指利用机器把要翻译的句子与语料库里的源语实例进行对比,分析相似程度,找到最适合的源语实例,再参照与它对齐的目标语实例生成译文。

用于这类机器翻译系统的双语语料库必须有一定的规模,用人工做语料对齐的工作显然很难满足要求。

这就使文本自动对齐成为建立双语语料库的关键技术。

在目前已有的双语语料库中,哈尔滨工业大学的汉英平行语料库已经直接用来开发英汉双向机器翻译系统。

北京大学、中国科学院软件研究所等单位也建立了按句对齐的汉英双语语料库。

机器翻译:定义:计算机翻译通常叫机器翻译(Machine Translation或MT),即全自动高质量机器翻译(Fully Automatic High Quality Machine Translation,简称FAHQMT或MT),就是人类利用计算机进行自然语言间的相互翻译,利用软件实现从一种自然语言文本到另一种自然语言文本的翻译。

基于实例的机器翻译(Example Based Machine Translation):1981年日本的长尾真(Makoto Nagao)提出并发表,相对于基于统计的机器翻译技术目前其影响要更为广泛。

其基本思想是在已收集的双语实例库中找出与待翻译部分相似的翻译实例(通常是句子),再对实例的译文通过串替代,串删除以及串增加等一系列变形操作,实现翻译。

CES标准:CES编码规范:1.一个DTD描述保存在*.dtd文件中;2.在语料库文件中加入声明语句:<!DOCTYPE corpus SYSTEM “corpus.dtd”>说明这个语料库文件所有标记的描述在文件corpus.dtd中,便于计算机处理双语对齐:双语(平行)语料库的对齐包括:段落对齐,句子对齐,词对齐和短语对齐。

基于中英文单语术语库的双语术语对齐方法

基于中英文单语术语库的双语术语对齐方法

基于中英文单语术语库的双语术语对齐方法作者:向露,周玉,宗成庆来源:《中国科技术语》2022年第01期摘要:雙语术语对齐库是自然语言处理领域的重要资源,对于跨语言信息检索、机器翻译等多语言应用具有重要意义。

双语术语对通常是通过人工翻译或从双语平行语料中自动提取获得的。

然而,人工翻译需要一定的专业知识且耗时耗力,而特定领域的双语平行语料也很难具有较大规模。

但是同一领域中各种语言的单语术语库却较易获得。

为此,提出一种基于两种不同语言的单语术语库自动实现术语对齐,以构建双语术语对照表的方法。

该方法首先利用多个在线机器翻译引擎通过投票机制生成目标端“伪”术语,然后利用目标端“伪”术语从目标端术语库中检索得到目标端术语候选集合,最后采用基于mBERT的语义匹配算法对目标端候选集合进行重排序,从而获得最终的双语术语对。

计算机科学、土木工程和医学三个领域的中英文双语术语对齐实验结果表明,该方法能够提高双语术语抽取的准确率。

关键词:双语术语;单语术语库;术语对齐;语义匹配中图分类号:TP391;H083 文献标识码:A DOI:10.12339/j.issn.1673-8578.2022.01.002Bilingual Terminology Alignment Based on Chinese-English Monolingual Terminological Bank//XIANG Lu, ZHOU Yu, ZONG ChengqingAbstract: Bilingual terminologies are essential resources in natural language processing,which are of great significance for many multilingual applications such as cross-lingual information retrieval and machine translation. Bilingual terminology pairs are usually obtained by either human translation or automatic extraction from a bilingual parallel corpus. However, human translation requires professional knowledge and is time-consuming and labor-intensive. Besides, it is not easy to have a large bilingual parallel corpus in a specific domain. But the monolingual terminology banks of various languages in the same domain are relatively easy to obtain. Therefore, this paper proposes a novel method to extract bilingual terminology pairs by automatically aligning terms from monolingual terminology banks of two languages. Firstly, multiple online machine translation engines are adopted to generate the target pseudo terminology through a voting mechanism. Secondly, the target pseudo terminology is used to retrieve from the target terminology bank to obtain the candidate set of target terminologies. Finally, a mBERT-based semantic matching model is used to re-rank the candidate set and obtain the final bilingual terminology pair. Experimental results of Chinese-English bilingual terminology alignment on three domains, including computer science, civil engineering, and medicine, show that our proposed method can effectively improve the accuracy of bilingual terminology extraction.Keywords: bilingual terminology; monolingual terminological bank; terminology alignment; semantic matching引言术语是专业领域中概念的语言指称(GB/T 10112—959),也可定义为“通过语言或文字来表达或限定专业概念的约定性语言符号”[1-2]。

融入多特征的汉-老双语对齐方法

融入多特征的汉-老双语对齐方法

第20卷 第3期 中 国 水 运 Vol.20 No.3 2020年 3月 China Water Transport March 2020收稿日期:2019-10-15作者简介:贾善崇(1994-),男,昆明理工大学 信息工程与自动化学院,硕士生,主要研究方向为自然语言处理。

通讯作者:周兰江(1966-),男,昆明理工大学 信息工程与自动化学院,教授,硕导,研究生,主要研究方向为自然语 言处理与信息检索。

融入多特征的汉-老双语对齐方法贾善崇,周兰江,张建安,周 枫(昆明理工大学 信息工程与自动化学院,云南 昆明 650504)摘 要:随着东盟与中国的经贸日益增加,语言作为两个国家交流的重要渠道,通过人工智能来解决双语问题,也正成为一门重要的研究。

双语平行语料库的构建,是人工智能中自然语言处理的核心任务之一。

双语语料库构建的核心之一是对齐,而句子对齐又是构建对齐语料库的基本任务。

本文主要参考其他较为成熟的句子对齐方法,重点的针对老挝语与中文的句子上下文信息,从句子所含动词、名词、形容词等词序进行句子对齐方法的研究。

实验中所采用的方法主要应用了Bi-LSTM 算法,使用这个算法来处理序列模型相关的问题。

该算法在对齐的篇章级语料中的提取对齐句子有较好的表现。

关键词:老-汉双语句子对齐;句子对齐;平行语料库;Bi-LSTM中图分类号:TP391 文献标识码:A 文章编号:1006-7973(2020)03-0078-03引言随着机器翻译以及机器辅助翻译的大规模应用,机器翻译得到了极大程度的认可,但是在一些小的语种上,研究还没有展开,亦或者是刚起步,没有得到很好的发展。

双语语料库则为自然语言处理研究领域提供重要的语言资源,双语语料库的关键特点就是对齐,即在两种不同语言之间找到互为翻译的原文以及译文。

其中,对齐的范围也比较宽泛,有篇章级对齐,句子级对齐以及短语对齐等。

而构建句子级的对齐语料是构建平行语料库的基本任务之一。

如何将语料库中的词语和短语进行对齐,以帮助机器翻译系统进行翻译

如何将语料库中的词语和短语进行对齐,以帮助机器翻译系统进行翻译

如何将语料库中的词语和短语进行对齐,以帮助机器翻译系统进行翻译摘要:随着机器翻译技术的发展,研究人员越来越依赖于庞大的语料库来训练和提升翻译系统的性能。

然而,语料库中的词语和短语往往存在着不完全对齐的情况,这给机器翻译的质量带来很大挑战。

本文将介绍如何将语料库中的词语和短语进行对齐,以帮助机器翻译系统实现更准确、流畅的翻译。

引言:语言是人类思维和交流的重要工具,而机器翻译则是帮助人们进行语言交流的关键技术之一。

然而,不同语言之间的差异和复杂性使机器翻译面临很多挑战。

为了解决这些问题,研究人员通过构建庞大的语料库来训练和提升机器翻译系统的性能。

然而,语料库中的词语和短语通常存在着不完全对齐的情况,这对机器翻译的质量带来了很大的影响。

一、语料库中的词语和短语对齐问题在构建用于训练机器翻译系统的语料库时,常常需要从不同来源的文本中收集大量的句对数据,包括源语言文本和目标语言文本。

然而,语言之间的差异和表达方式的多样性导致了对齐问题的出现。

1. 词汇差异:不同语言之间的词汇差异是机器翻译中常见的挑战之一。

同一个概念在不同语言中可能有不同的表达方式,而且词语的顺序也可能不同。

当词语之间存在着不完全对应关系时,机器翻译系统很难准确地翻译文本。

2. 短语结构差异:除了词汇上的差异外,不同语言的短语结构以及语法规则也存在差异。

例如,英语中的形容词通常出现在名词前,而法语中的形容词通常出现在名词后。

这种差异导致了短语之间的不完全对齐问题,给机器翻译带来了困难。

二、对齐方法与技术为了解决语料库中词语和短语对齐的问题,研究人员提出了许多方法和技术。

以下是几种常用的对齐方法:1. 基于规则的对齐方法:基于规则的对齐方法依赖于预定义的规则和词典来对齐词语和短语。

这些规则可以从语言学知识或专业人员的经验中获取。

例如,可以使用词性标注和句法分析等技术来辅助对齐。

虽然这种方法易于理解和实现,但对于复杂的语言对和文本结构,规则往往不够灵活和全面。

双语平行语料库的制作流程

双语平行语料库的制作流程

双语平行语料库的制作流程双语平行语料库是一种包含两种语言文本的语料库,它可以用于机器翻译、自然语言处理等领域的研究和应用。

下面是制作双语平行语料库的一般流程:1. 数据收集:首先需要收集两种语言的文本数据,可以从互联网、书籍、报纸、杂志等渠道获取。

为了保证语料库的质量,需要选择具有代表性、权威性和规范性的文本。

2. 文本预处理:对收集到的文本进行预处理,包括去除标点符号、停用词、数字等,以及对文本进行分词、词性标注等操作。

这些预处理操作可以提高后续处理的效率和准确性。

3. 对齐:将两种语言的文本进行对齐,即找到对应的句子或段落。

对齐的方法可以是手工对齐,也可以使用自动化的对齐工具。

对齐的准确性对于后续的处理非常重要。

4. 标注:对对齐后的文本进行标注,标注的内容可以包括词法、句法、语义等信息。

标注的目的是为了后续的机器翻译、自然语言处理等应用提供更多的信息。

5. 存储:将标注后的文本存储到数据库或文件中,以便后续的处理和使用。

存储的格式可以是文本格式、XML 格式、JSON 格式等。

6. 质量评估:对制作完成的双语平行语料库进行质量评估,评估的指标可以包括对齐准确率、标注准确率等。

如果质量不符合要求,需要进行修正和改进。

7. 维护更新:随着时间的推移,需要对双语平行语料库进行维护和更新,以保证其时效性和准确性。

可以定期添加新的文本数据,并对已有的数据进行更新和修正。

总之,制作双语平行语料库需要经过多个步骤的处理,包括数据收集、文本预处理、对齐、标注、存储、质量评估和维护更新等。

只有经过精心制作和维护的双语平行语料库才能为机器翻译、自然语言处理等领域的研究和应用提供可靠的支持。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

英汉双语平行语料库人工对齐方法说明
1.概述
半自动英汉双语平行语料库的对齐分为两个过程:
第一个过程是先将两种语言的文本分成句子,每个句子占一行。

句子定义为:以句号、问号、感叹号、分号结尾的一串字符,或以句号+引号、问号+引号、感叹号+引号等结尾的一串字符。

“行”的概念是一串以回车换行符结尾的字符。

这个过程可以采用任何一种具有“查找”和“替换”功能的文字处理软件来完成,也可以编程由计算机自动完成。

第二个过程是在第一个过程产生的结果的基础上以手工方式将两种语言的文本在句子水平上对齐。

这一过程要采用UltraEdit软件来辅助完成。

在句子水平上对齐两种语言的文本,除了要注意以上对“句子”和“行”的定义以外,还应遵循一个重要的原则,即:如果两种语言的文本在句子的切分上有差异,应尽量保持原文句子不动,调整译文以适应原文。

为了能从双语平行语料库中获取更多的信息,还需要在对齐过程中插入少量的标记,例如:分译标记、合译标记、混译标记和移动标记等。

此外,为了便于以后的检索,对于过长的句子还要在适当的地方将长句截短成两个或更多的小句。

2.人工对齐的方法
2.1打开文件
先用UltraEdit软件将两个已经分为句子的文本文件打开,在该软件的工具栏的“窗口”下拉菜单中点“水平平铺”选项,使两个打开的文本同时显示在屏幕上。

为了操作方便,一般把原文放在上半屏,把译文放在下半屏。

(见图1)
2.2 上下移动文本
为了能够对齐两种语言的文本,在操作过程中需要不断地上下移动文本。

移动文本可以用鼠标移动窗口右边的滑块来完成。

也可以将光标放在某一行,然后用鼠标的中间滚轮来上下移动。

2.3 同步移动上下两个窗口中的文本
在“窗口”下拉菜单中选“同步”选项,就可以同步移动上下两个窗口中文本,极大地方便人工对齐的操作。

图1:用UltraEdit同时打开两种语言的文本。

2.4 译文句子的合并
如上所述,对齐的原则是尽量保持原文不变。

因此,如果译文的句子和原文不符,就需要调整译文,使其能与原文对齐。

如果原文的一句话在译文中被拆成两句话,即译文分为两行(见图2),应该将译文中的光标放在第二行的开始处,然后按“倒格键”(Backspace),将第二行拉回到上一行
的结尾处,使译文的两句处于同一行上。

如果译文是英语,将第二行拉回到上一行时,要注意第一行末尾的标点符号与原来
第二行的第一个单词之间应该有一个空格。

如果没有,应按一下“空格键”(Spacebar)加入一个空格。

然后在两句之间加入一个“分译”标记-SEPA-。

分译标记后要加入一个空格(见图3)。

图3. 译文按照原文合并在一行上,在原拆分处加“分译”标记-SEPA-。

如果译文是汉语,第一行末尾的标点与第二行第一个汉字之间没有空格。

如果有空格要删除。

同时,也要加入“分译”标记,但是标记的前后没有空格。

合并两行还可以采用另一种方法,可以先将光标放在第一行的末尾,然后按“删除键”(Delete)将第二行“拉”到上一行来。

但是,也要注意空格问题和加入“分译”标记。

2.5 译文句子的拆分
如果原文的两句话在译文中被译作一句话(见图4),应该先确定在译文中拆分的位置,然后将光标放在译文需要拆分的字或词之后,按“回车键”(Enter)即可将译文拆成两行。

拆分后应在第二行的开始处加上“合译”标记-MERG-,表示译文原来是合译成一句话。

如果译文是英语,应该在“合译”标记后面加一个空格,如果译文是汉语则可不加空格(见图5)。

图4. 原文两句,译文为一句。

图5. 译文按照原文拆成两部分,在合并处加“合译”标记-MERG-。

2.6 混译的处理
由于英汉两种语言的差异很大,而其译者采用的翻译方法也不尽相同。

有些情况下,译者不是按照原文的表达方式和顺序来行文,而是将原文中几句话的意思混在一起然后再翻译出来,因此我们很难确定译文中准确的拆分点(见图6)。

在这种情况下,为了能够准确对齐原文和译文的句子,有必要适当调整原文,直到译文能将所有的意思都包括进去为止。

同时,还要在混译的译文前面加上“混译”标记-MIX-(见图7)。

图6. 译文采用混译法,无法按照原文拆分成两句。

图7. 适当将相关的原文合并到一行,使译文的意思都能包括进去。

在混译的译文
前面加上混译标记-MIX-.
注意:混译是指译文将原文两个或多个句子的意思混合在一个句子里译出。

如果译文是将对应原文的一个句子的意思先后顺序颠倒或混合,不用加注混译标记。

2.7 译文的部分移动
有时译文并未按照原文的顺序行文,而且如果按照2.6的方法来处理,会使一行变得相当长,给以后的检索带来困难(见图8)。

图8. 译文中的put in Fan ...与原文“范博文忽然冷冷地插进来说,”位置有差别。

如果将原文的四行合并成一行,并将译文也合并成一行,会使一行太长,给以后的
检索造成困难。

在这种情况下,应该根据原文移动一部分译文的位置,使其符合原文的顺序,并在移动的地方做上“移动”标记。

移动标记由两部分构成:[-]表示有内容从此处移走;[+……]表示这部分是从别处(即前面的[-]号处)移来的。

“+”号后面空一格,后面是移走的内容(见图9)。

图9. 译文中的“put in Fan ...”移到与原文“范博文忽然冷冷地插进来说,”相应
的位置,并加了“移动”标记。

3.其他标记
除了上面第二节中使用的标记外,在对齐过程中还会使用到一些其他的标记,分别
说明如下
3.1 截短标记
有时原文一句话太长,会给语料库使用者在检索时造成困难(见图10)。

图10. 原文一句话太长,会给以后的检索造成困难。

因此,必要时可在原文某处将原文的一句话截短成两个或更多的部分,同时译文也随之发生变化。

但是,要注意应在原文和译文中都加注截短标记-DIVI-。

截短标记加在每一个截短的句子的开始处,但是要注意句首不加注(见图11)。

注意,在图11的例子中,在原文的第二个和第三个截短处恰好是译文采用分译的地方(译文分别以“分号”和“句号”断开)。

在这种情况下,译文中保留原分译标记-SEPA-。

3.2 未译标记
有时由于种种原因,译文会不完整,如漏译或故意不译等。

为了使原文和译文能够对齐,需要在未译的地方加一个未译标记[NT]。

如果是一个整句未译,未译标记占一行。

如果是一句话中的某一部分未译,则未译标记放在未译处,不占一行(见图12和图13)。

用了未译标记[NT]。

在此例中,未译标记不占一整行。

图13. 原文中的“到底还没讲出来呀!”未在译文中出现,因此使用了未译标记[NT]。

在此例中,未译标记占一整行。

3.3 增添标记
在对齐两种语言原文和译文的过程中,我们经常会发现在译文中会出现一些原文中没有的内容。

这可能是由于译者为了使意思更加明确或由于别的原因而加了一些附加说明性的内容。

出现这种情况时,可以将增添的内容用增添标记[ ] 括起来(见图14)。

注意,增添部分不能独占一行,也不使用其他标记。

4.小窍门
在做对齐工作的时候,由于要加注不同的标记,需要键入不同的字母,这样会降低对齐的速度。

可以通过一些小窍门来简化加注标记的方法。

例如,在分译标记或合译标记时,可以先用简单的字符来代替,例如,在凡是需要标记合译的地方都用“#”号代替。

在对齐工作完成之后,利用文字处理软件的查找和替换功能来查找“#”号,并将其全部替换成-MERG-,这样做既方便又快捷。

相关文档
最新文档