双语平行语料库的制作流程
浅谈如何快速搭建英汉双语平行语料库与平行语料库检索平台
浅谈如何快速搭建英汉双语平行语料库与平行语料库检索平台语料库不仅在商业领域有着重要的作用,在翻译学研究、语用学研究以及实践教学等领域都有重要的作用。
语料库研究与应用是以语料库建设为前提,语料库建设是所有环节中最为重要的一个环节。
语料库在商业领域与科研教学领域的应用与研究的快速发展,得益于语料库建设的技术手段日益成熟,同时语料库也呈现出多样化的应用与实践。
本文通过深度探索语料库建设与应用的前沿技术发展与应用情况,重点介绍建立英汉语料库以及平行语料库应用平台所需技术支持以及详细的语料库建设与应用操作细则。
标签:语料库建设;语料库应用;双语平行语料库语料库分为单语语料库、双语语料库以及多语语料库,语料库是语言实际应用过程中产生的语言数据,例如图书的翻译、商业文件的翻译以及新闻报告的翻译等语言数据都是形成语料库的基本语料材料。
目前的研究主要是基于双语语料库的制作与应用,双语语料库也是最为广泛使用以及数量最多的语料库种类之一,语料库的存放是以数据库的形式存在为主,形成真正的语料库需要经过收集、转化、降噪、对齐、审校等诸多步骤,形成最终可用的语料库。
语料库的建设目的是多样化的,语料库的来源也是极其广泛,其中尤为重要的环节就是语料的对齐,语料对齐的速度直接决定了语料库制作的效率。
高质量的语料库是进行语料库制作与应用的基础,语料库的质量会直接影响最终的应用效果。
一、研究意义语料库的研究与应用目前在商业领域已经有了突飞猛进的发展,特别是近两年神经网络的发展,语料库对于机器翻译的发展奠定了基础,极大提高了目前谷歌、百度、搜狗、有道以及必应等机器翻译引擎的质量。
不仅如此,商业领域的巨头包括强生、中石化、微软、阿里巴巴以及腾讯等诸多公司都在不同程度的基于语料库提升在各自特定領域的机器翻译引擎质量,其中阿里巴巴的机器翻译引擎已经为中国众多企业将成千上万的商品推向全球市场提供了翻译支持。
不仅如此,语料库在学术、科研以及教学实践等应用方面都有着举足轻重的作用,利用语料库可以进行语用学、翻译学、译者行为、语言风格等多方面学术科研;同时语料库在教学中也广泛应用,通过语料库进行教学应用,教师可以将学生的翻译作业整理成语料库,利用语料库检索功能,学生可以进行自查自纠,教师也可以通过制作学生翻译作业的语料库寻找共性问题进行讲解,帮助学生解决翻译实践中产生的问题。
云南省旅游汉日双语平行语料库的创建和应用
2017年4月第6卷 第2期 JournalofBengbuUniversity Apr畅2017Vol畅6,No畅2云南省旅游汉日双语平行语料库的创建和应用收稿日期:2016-12-16基金项目:云南省教育厅科学研究基金资助性项目(2016ZZX322)。
作者简介:和佳(1981-),女,纳西族,云南丽江人,讲师,硕士。
E-mail:459326488@qq.com和 佳(云南大学 旅游文化学院,云南 丽江 674100)摘 要:云南省构建旅游汉日双语语料库的创建主要包括设计、语料收集、加工、对齐、检索等内容,包含3个子库,有必要性和现实性。
云南省旅游汉日双语语料能够广泛应用于包括为翻译工作者提供语料参考;规范旅游汉日表达,形成统一译名;进行语言教学和翻译教学;汉日旅游词典编纂以及相关教材编写等多方面。
该语料库的创建具有实用价值和意义。
关键词:云南省旅游汉日双语平行语料库;创建;应用中图分类号:H36文献标识码:A文章编号:(2017)02-0099-05Construction and Application of Tourist Chinese and Japanese Parallel Corpusof Yunnan ProvinceHEJia(SchoolofCultureandTourism,YunnanUniversity,Lijiang,674100,Yunnan)Abstract :ThereisgreatnecessityandpracticalsignificanceinconstructingthetouristChineseandJapa-neseparallelcorpusofYunnanProvince.Theconstructionofthecorpusmainlyincludesdesign,datacol-lection,dataprocessing,dataalignmentanddataretrievaletc.Thecorpusconsistsofthreesub-databasewhichcouldserveasdatareferencefortranslators,providestandardtranslationbetweenChineseandJapa-nese.Thecorpusmayalsobebeneficialintermsoflanguageandtranslationteaching,ChineseandJapa-nesetouristdictionarycompilingaswellasrelevantteachingmaterialedition.Theconstructionofthecor-pusisofgreatpracticalvalueandsignificance.Key words :touristChineseandJapaneseparallelcorpusofYunnanProvince;construction;application 语料库是应用计算机技术对大量自然语言材料进行处理、存储,以供自动检索、索引和统计分析的大型资料库[1]。
上海外语教育出版社英汉双语平行句对语料库的构建
摘要上海外语教育出版社英汉双语平行句对语料库建设是该社承担的上海市科委课题“双语词典编纂系统的研发”的子课题。
该语料库是该社双语词典编纂系统的在线辅助语料库之一,为双语词典编纂提供英汉平行句对例证,并为词典编纂提供语言统计信息、分析信息等。
文章综述了该语料库的设计和构建过程,内容涉及语料的采集、加工、标注、检索等方面,同时也探讨今后如何进一步开发与利用该语料库。
关键词平行语料语料库建设双语词典编纂系统上海外语教育出版社(以下简称“外教社”)承担的上海市科委课题“双语词典编纂系统的研发”是上海市政府扶持辞书编纂出版数字化的重大科研项目,该课题的总体目标是开发一个基于语料库的数字化双语词典编纂出版系统,其子课题之一就是构建一个服务于双语词典编纂、经过深加工的、通用共时并在句子层面对齐的英汉双语书面语语料库。
该语料库以英语为原语、以汉语为译语,以xml(extensible markup language)为标注语言,对英语原文语料的标注做到分词(tokenization)、主词标注(lemmatization)及词性赋码(part ofspeech tagging),对汉语译文语料的标注做到分词及词性赋码。
基于该语料库,词典编纂者及词典用户可以通过在线检索平台提取有效的词典例证,统计具体词语的词频信息,了解词汇的分布情况,获得具体词语或结构的用法信息(包括语义、语法、搭配等方面)。
经过三年多的建设,该语料库一期工程已建成收录68万英汉双语平行句对的语料库,总字数达5455万。
本文将综述该语料库的设计和构建过程,内容涉及语料的采集、加工、标注、检索等方面。
一、语料库前期设计课题研究开始时,外教社课题组与各合作单位进行了较为广泛的调查工作,并以此为基础制订了详细的语料库建设实施方案,确定语料库设计阶段的主要任务为:(1)确定标注语言;(2)确立语料选取的原则及语料来源;(3)制订语料储存方案与各项工作流程;(4)编制语料库技术开发需求规约。
双语平行语料库的制作流程
双语平行语料库的制作流程
1.数据收集:首先需要收集源语言和目标语言的文本数据。
可以通过
多种方式来收集数据,例如爬取网页内容、使用现有的翻译软件或者借助
专业翻译人员进行翻译。
2.文本对齐:在收集到源语言和目标语言的文本数据后,需要进行文
本对齐。
文本对齐是将源语言和目标语言的句子按照语义和结构进行对应,创建文本对。
这个过程可以手动完成,也可以使用自动对齐工具来辅助完成。
4.词对齐:在文本对齐之后,为了进一步提高平行语料库的质量,可
以进行词对齐。
词对齐是在句子级别基础上,将源语言和目标语言的词语
进行对齐,创建词级对齐。
5.质量评估:对于制作好的双语平行语料库,需要进行质量评估。
可
以通过对比机器翻译的质量、翻译准确度等指标来评估平行语料库的质量。
6.更新和维护:制作好的双语平行语料库需要定期进行更新和维护,
以保持其质量和实用性。
可以定期收集新的源语言和目标语言的文本数据,并进行文本对齐、清洗和词对齐等操作。
同时,也可以通过删除低质量的
文本对来优化平行语料库。
总结起来,制作双语平行语料库的流程包括数据收集、文本对齐、清
洗和预处理、词对齐、质量评估以及更新和维护。
这个过程需要耗费一定
的时间和精力,但制作好的双语平行语料库对于机器翻译、自然语言处理
等领域的研究和应用具有重要意义。
双语平行语料库的制作流程
双语平行语料库的制作流程1.数据收集:首先需要收集双语文本数据。
可以通过多种渠道获得,包括网络爬虫、公开数据库、专业机构的数据集等。
收集到的数据应涵盖各个领域的文本,以便在不同领域的实际应用中使用。
2.预处理:收集到的数据通常需要进行预处理,以确保数据的质量和一致性。
预处理的步骤包括:-分割句子:根据标点符号或换行符将文本分割成句子。
-标准化:将数据转换为统一的格式,如转换为小写、标准化日期和数字格式等。
-分词:将句子划分成单词或短语的序列,通常使用现有的分词工具。
3.对齐:对齐是将双语文本进行匹配的过程,以确定源语言和目标语言之间的对应关系。
常见的对齐方法包括基于规则的对齐和基于统计的对齐。
在基于规则的对齐中,研究人员根据语言对之间的特征和规则手动对齐句子。
而基于统计的对齐则利用计算机算法自动匹配句子。
4.清洗:对齐后,需要对语料进行清洗,以去除低质量的对齐数据和噪声。
常见的清洗方法包括:-去除标点符号和特殊字符。
-去除长度不一致的句对。
-去除重复数据和重复句子。
-去除机器翻译和错误对齐的数据。
5.评估:评估是对制作的平行语料进行质量检查的步骤。
评估通常包括两个方面:- 句子级评估:比较源语言和目标语言之间的对齐质量,判断对齐是否准确。
可以使用BLEU(Bilingual Evaluation Understudy)等自动评估指标来评估翻译质量。
-文本级评估:评估语料库的覆盖度、平衡性和多样性等。
可以通过检查词汇表的覆盖范围、领域和主题的分布来评估。
6.存储和管理:制作好的双语平行语料库需要进行存储和管理。
可以使用数据库、文件系统或特定的双语平行语料库管理工具来存储和管理平行语料库。
此外,还可以使用标记文件格式(如XML或JSON)对语料进行标注,以便更好地进行检索和利用。
总结起来,制作双语平行语料库的流程包括数据收集、预处理、对齐、清洗和评估等多个步骤。
每个步骤都需要仔细进行,以确保制作出高质量的双语平行语料库,以支持各种自然语言处理任务的研究和应用。
汉维双语平行词汇语料库构建技术研究
汉维双语平行词汇语料库构建技术研究一、引言语料库是指收集整理某一语言或多种语言的大量实际语言材料,用于语言学的研究和应用。
汉维双语平行词汇语料库是指同时包含汉语和维吾尔语词汇的语料库。
建立汉维双语平行词汇语料库可以为语言学研究、机器翻译、跨文化交流等领域提供有力支持。
本文将分析汉维双语平行词汇语料库构建的技术研究。
二、相关研究概况目前,汉维双语平行词汇语料库的研究还处于起步阶段,相关研究成果较少。
主要围绕着两个方面展开:一是词汇对齐技术,即如何将汉语和维吾尔语的词汇进行对应;二是语料库的构建方法,即如何有效地收集和整理汉维双语平行词汇。
在国内外的语言学、计算机科学等领域都有相关研究,但多数仍处于实验阶段,尚未形成一套完整的技术体系。
三、汉维双语平行词汇语料库构建技术1. 词汇对齐技术汉维双语平行词汇语料库的构建首先需要解决词汇对齐的技术难题。
词汇对齐是指对两种不同语言的词汇进行匹配对应,以建立双语词汇之间的对应关系。
目前主要的词汇对齐技术包括基于规则的对齐、基于统计的对齐和基于机器学习的对齐。
规则对齐需要根据两种语言的语法结构和语义关系进行规则制定,实现对应词汇的匹配;统计对齐则通过语料库中词汇的共现频率等统计信息进行词汇对应;机器学习对齐利用机器学习算法进行词汇对应模型的训练,实现对齐的自动化。
由于汉维两种语言的语法结构和语义关系的差异,词汇对齐技术在实践中会遇到一些困难,需要充分考虑语言之间的差异性和复杂性。
2. 语料库构建方法除了词汇对齐技术的挑战,汉维双语平行词汇语料库的构建还需要解决如何有效地收集和整理双语词汇的问题。
首先需要建立起汉维双语的语料库,这要求采集到的语料既具有语言学上的代表性和丰富性,又具有语言对齐的可行性和可操作性。
其次需要建立起对齐的双语词汇库,这要求汉维双语平行词汇库的构建具有高效性和准确性。
目前主要的方法是采用自动化技术和人工干预相结合的方法,即先通过自动化技术进行初步的对齐,然后通过人工干预进行修正。
英汉社论平行语料库
英汉社论平行语料库1.引言1.1 概述概述部分:随着全球化的发展,英汉社论的重要性日益凸显。
社论作为一种新闻类文体,承载着媒体的立场和观点,并在舆论场中发挥着重要的作用。
因此,对于英汉社论的研究和理解具有重要的意义。
为了更好地研究英汉社论,建立一个英汉社论平行语料库是至关重要的。
英汉社论平行语料库是指收集和整理一定数量的英语社论与对应的中文翻译,以便进行对照和分析。
这样的平行语料库可以帮助研究人员深入了解英汉社论的语言特点、文体特征以及表达方式等。
建立英汉社论平行语料库的目的有两个方面。
首先,它可以作为翻译研究的重要资源,帮助翻译人员更好地进行英汉社论的互译。
其次,它可以为社会科学研究提供依据,例如新闻传播学、语言学和文化研究等领域的学者可以通过对英汉社论平行语料库的分析来揭示社论对于公众舆论形成的影响。
本文将从概述、文章结构和目的三个方面对英汉社论平行语料库进行全面介绍。
首先,我们将简要概述英汉社论的背景和重要性。
然后,我们将详细介绍英汉社论平行语料库的定义和意义。
接着,我们将讨论建立英汉社论平行语料库的方法和步骤,包括语料的采集、整理以及语言特征的标注。
最后,我们将展望英汉社论平行语料库的应用前景,并对整篇文章进行总结和展望。
通过对英汉社论平行语料库的研究和应用,我们可以更好地理解英汉社论的特点和规律,并且为相关领域的学术研究和实际应用提供支持和参考。
希望本文能够为英汉社论平行语料库的建设和应用提供启示,并促进跨文化交流和研究的发展。
1.2 文章结构本文将按照以下结构进行阐述和探讨英汉社论平行语料库的相关内容:1. 引言:首先,我们将概述本文的研究背景和意义,明确本文的研究目的。
通过引言部分,读者可以初步了解到本文所要探讨的问题及其重要性。
2. 正文:正文是本文的核心部分,旨在详细介绍英汉社论平行语料库的定义、意义、以及建立方法和步骤。
2.1 英汉社论平行语料库的定义和意义:首先,我们将解释什么是英汉社论平行语料库,即在英汉两种语言中,相互对应的社论文本的语料库。
构建大规模的汉英双语平行语料库
作 P ) 1 ’,…T s,T ,1 2 构成 译 文文本 中一个 或 多个 完 整 的段 落 ( 体 记作 P) s和 P 之 间具有 “ 整 t ,P t 翻 译关 系 ” 。 句 子级 对齐 单 位 ( 记作 A ) s :一 个 句子 级 对齐 单 位 是一 个 二元 组 , 作 A 记 S=<i i S,T>,其 中 s 由 i
语料库的系统性构建却较少。就汉英双语对照语料
而 言 ,国 内尚且没 有 超过 1 句对 的平 行 语料 库 。 0万 下 面介绍 构建 汉英 平 行语料 库 的 系统性 流程 以及该 语料 库 目前 的建 设情 况 。
1 语料 库构 建 的规划 和模型
图 1 双 语 平 行 语 料 库构 建 流 程 模 型
一
套通 用性 较好 的整理 、加 工工具 .协 同工 作人 员 我们 严 格定 义 了与双 语平 行语 料 库建 设 相关 的
完 成语 料 的整 理 、标记 、检查 、对齐和 校对工 作 。 术 语 :原始 语 料 、双语 语 料 库 、篇章 级 对 齐单 位 、 原 文文 件 、译 文文 件 、段 落级对 齐 单位 、句 子级 对 齐单 位 、源语 言 。 其 中 ,篇 章 级 对 齐 单 位 ( 作 记 A) T :一 个 篇章 级 对 齐单 位 由若 干 段 落级 对 齐单 位
22 语 料 的整理和 加工 _ 整理 、加 工任 务从 考 察 原始语 料 的物 理 特征 并
山 西省 留 学基 金 委 资 助 项 目 (0 5 2 ) 20— 0 收 稿 日期 :0 6 0 — 7 修 回 日期 :0 6 0 — 4 20 — 8 0 ; 20 — 8 2
进行相应的归类人手 ,综合考虑原始语料本身的情
标识语汉英双语平行语料库的设计与创建
路 和借 鉴 。
一
国内外标 识 语研 究现状 分析
时 总结 与述评 。研 究 成果 的总 结 主要 包 括 《 公 示 语 翻译 》 和《 公共 标识 英语 纠错 指 南 : 实例 、 辨 析 和
在西方 , 标 识语翻译研究相 对发展较早 , 1 9 5 9
[ 收稿 日期] 2 0 1 4- 0 9—2 8 [ 基金项 目] 湖南省教育厅科研项 目“ 基 于语料库 的标识 语英译规律 研究 ” 资助 ( 编号 : 1 2 C 0 3 6 8 ) ; 教育 部社科项 目“ 基于汉 英双语平行语料库的外宣翻译规范研究 ” 资助( 编号 : 1 4 Y J C 7 4 0 0 4 9 ) [ 作者 简介 ] 李广伟 ( 1 9 8 0一) , 男, 山东菏译人 , 南华 大学 外国语 学院讲 师。 ①南华大学外 国语学 院教授 , 博 士。
文本 形式 , 应用 历 史悠 久 , 在 世 界 各 民族 的社 会 、 文 化、 经济发 展进 程 中都发 挥着 规范 、 协调 、 保障、 稳定 的功 能机 制 。随着 中 国的 国际影 响 日益 扩 大 , 国 际交 往 日益频 繁 , 标 识 语 在 全 国各地 的翻 译 与 运用 直接 向世 界展示 了 中国的对外 交流 水平 以及 现代化 城市 的建 设风貌 , 同时它 也 是 文化 软 实 力 的 重要 体现 。 国际化 、 现代 化 、 城 市化 、 信 息化 、 社 会 化 的迅
第 1 6卷2月 第1 期 2 0 1 5年
南华大 学学报 ( 社会科 学版 ) J o u r n a l o f U n i v e r s i t y f o S o u t h C h i n a ( S o c i a l S c i e n c e E d i t i o n )
双语语料库收集整理加工任务工作手册
由于收集和预处理的问题, 语料中一些段落被非法割断, 一个明显的标志就是段尾没有 合法的段落结束符号,具体情况如: (1) 文字间被截断 (2) 标点符号处被截断 (3) 单词被截断 工作人员应利用工具提供的“合并段落”功能对这类问题进行处理。 工具界面下方的段落计数提示工作人员原文文件和译文文件的段落对应情况。 若原文文 件和译文文件的段落数不同, 工作人员应检查语料中是否存在被非法割断的段落, 并进 行相应的处理( “段落切分”与“合并段落” ) 。 (注:原则上,允许原文文件和译文文件 的段落数不相同,但必须保证此差异不是由段落被非法割断所造成的。 ) 由于收集和预处理的问题, 语料中仍存在一些非法空格 (即多余的空格, 包括段首空格、
973“面向新闻领域的汉英机器翻译课题组”文档
保密级别:内部
共 1 页
4/19/2003
双语语料库收集整理加工任务 工作手册(1)— 语料的手工整理
[作 者:]柏晓静 [参与者:]常宝宝 詹卫东 吴云芳 [项目名称:] 973MT_ParaCorpus [最近修订时间:] 4/19/2003 [最近修订者:] 柏晓静 [版本号:] V1.0 [文档历史记录:] V0.5,V0.6,V0.7,V0.71,V0.72,V0.8,V0.9 [提交:] MT 组例会 [目 录 ] 1 引言........................................................................................................................................1 2 语料手工整理的具体工作内容与要求 ................................................................................1 2.1 文件层次的工作内容和要求细节 .............................................................................2 2.2 内容与格式层次的工作内容和要求细节 ................................................................2 2.3 标记层次的工作内容和要求细节 ............................................................................3 2.3.1 文件中需要标记的具体内容 ..........................................................................3 2.3.2 文件中需要标注的篇章信息 ..........................................................................4 2.3.3 文件中需要标记的其他内容 ..........................................................................5 4 样例........................................................................................................................................6 5 结束语..................................................................................................................................27
汉维双语平行词汇语料库构建技术研究
汉维双语平行词汇语料库构建技术研究汉维双语平行词汇语料库是指汉语和维吾尔语之间具有对应关系的词汇集合。
构建汉维双语平行词汇语料库对于汉维翻译、机器翻译等领域的研究具有重要意义。
本文将就汉维双语平行词汇语料库的构建技术进行研究。
为了构建汉维双语平行词汇语料库,需要收集大量的汉语和维吾尔语的双语文本。
这些文本可以来源于书籍、新闻文章、网页内容等。
在收集时需注意文本的质量和话题的广泛性,以保证语料库的全面性和准确性。
对于已收集到的汉语和维吾尔语文本,需要进行预处理和分词。
预处理主要包括去除文本中的标点符号和特殊字符,统一文本格式等。
分词是将文本按照词语进行切分,生成分词后的文本。
在进行分词时,需要考虑到汉语和维吾尔语的特殊性,分别采用不同的分词工具和算法。
然后,将分词后的文本进行对齐操作,得到汉维双语平行语料。
对齐是指将两种语言的词语进行一一对应的操作,以形成平行的句子或短语。
对齐可以通过手工标注、自动对齐等方式进行。
手工标注是指由人工对汉语和维吾尔语的对应词语进行标注,具有较高的准确性但效率较低。
自动对齐是通过计算机算法实现对词语的自动匹配,具有较高的效率但可能存在一定的准确性问题。
对于已对齐的平行语料,可以进行进一步的处理和分析。
可以统计词频、计算词语的相似度、构建词语的关联网络等。
通过这些处理和分析,可以为后续的汉维翻译和机器翻译提供数据支持和基础。
构建汉维双语平行词汇语料库是一项复杂而繁琐的工作,需要充分考虑语料来源、预处理、分词、对齐等方面的技术和方法。
只有构建出准确、全面的汉维双语平行词汇语料库,才能有效地支撑汉维翻译和机器翻译的研究工作。
汉维双语平行词汇语料库构建技术研究
汉维双语平行词汇语料库构建技术研究摘要:随着全球化的发展,不同语言之间的交流和合作日益频繁。
而建立双语平行词汇语料库对于促进不同语言之间的沟通和交流至关重要。
本文旨在探讨汉维双语平行词汇语料库构建技术,包括语料库的收集、整理和利用等方面。
通过对相关技术的研究,能够为汉维翻译和跨文化交流提供更好的支持和保障。
1. 背景双语平行词汇语料库是指同时包含两种语言的词汇和句子的语料库。
它是研究双语翻译、自然语言处理和机器翻译等领域的重要基础资源。
而汉维双语平行词汇语料库则是指同时包含汉语和维吾尔语的词汇和句子的语料库。
随着“一带一路”倡议的提出和推进,中国与中亚地区的交流合作不断加深,汉维双语平行词汇语料库的构建对于促进两种语言之间的沟通和合作有着重要的意义。
2. 汉维双语平行词汇语料库的收集汉维双语平行词汇语料库的收集是构建工作的第一步,也是最基础和关键的一步。
当前,常用的收集方法有人工收集和自动获取两种。
人工收集通常是通过采访、访谈、录音等方式从现实生活中收集语料;而自动获取则是通过网络抓取、语料库查询等方式获取。
针对汉维双语平行词汇语料库的特点,可以结合两种方法,通过人工收集和自动获取的方式相结合,使得收集到的语料既有一定的实用性和权威性,又具有一定的规模和广度。
3. 汉维双语平行词汇语料库的整理语料库的整理工作是对收集到的语料进行筛选、分类和清洗,使得语料能够更好地为后续的研究和应用提供支持。
在汉维双语平行词汇语料库的整理过程中,首先需要进行语料的去重处理,排除重复的句子和词汇;其次需要对语料进行分词和标注,以便于后续的句法、语义分析和机器翻译等工作;最后需要对语料进行语言学和文化学上的分析,使得语料能够更好地反映汉维两种语言的特点和规律。
4. 汉维双语平行词汇语料库的利用构建好的汉维双语平行词汇语料库可以被广泛地应用于汉维翻译、跨文化交流、机器翻译、自然语言处理和语言教学等领域。
在汉维翻译和跨文化交流方面,可以通过利用平行词汇语料库进行双语对照和翻译实验,提高翻译的准确性和流畅度;在机器翻译和自然语言处理方面,可以通过利用平行词汇语料库进行语料训练和模型优化,提高机器翻译和自然语言处理的效果和性能;在语言教学方面,可以通过利用平行词汇语料库进行汉维对比和语言学习,提高学习者的语言水平和能力。
如何创建一个英汉双语语料库?如何创建一个任意两种语言的语料库?
如何创建一个英汉双语语料库?如何创建一个任意两种语言的语料库?
构建一个英汉双语语料库的主要步骤如下:
1、语料准备。
准备英汉对照的双语文档。
可以是两个文档,其中一个英文,一个中文;也可以是英中上下对照或左右对照的单文档。
无论是双文档还是单文档,都要注意原文与译文需要严格对照,这是后续软件识别的重要基础。
文档格式可以是office系列格式等,但最好是word这种简单的容易识别的格式。
如:我们在word中准备一篇英中双语对照的文档。
2、语料对齐。
关于语料对齐,我以前专门写过一篇文章:如何用最简单的方法创建双语平行语料库?
里面讲了几种对齐工具,我推荐的是Tmxmall在线对齐。
Tmxmall对齐功能的具体操作步骤我也写过文章,可参考:双语平行语料库人工对齐工具说明│Tmxmall Aligner
我们准备好的英中文档对齐效果如下,将对齐好的文档导出,存为tmx格式。
3、在trados等CAT工具中新建翻译记忆库,把之前保存好的tmx文件导入即可。
以上就是自己构建一个英汉双语语料库的方法。
上述方法同样适用于建立中英语料库或其他任意语言对的语料库,如俄中、中俄、中葡、中日等等,只要在操作的时候选择对应的源语言和目标语言即可。
除了自己对齐语料存为tmx格式外,也可以直接购买Tmxmall公有云包月服务(里面有千万级句对的语料资源可供翻译时提取),或在Tmxamll 语料商城上按需购买其他人放上去的各专门领域的语料库。
双语平行语料库的制作流程
双语平行语料库的制作流程
Step 1. 用ABBYY Aligner软件对齐中英双语文档,并导出tmx文本。
步骤如下:1.启动ABBYY Aligner,如下图:
2.点击“文件图标”导入英文文档
点击这里添
加英文文档
英文文档导入后会自动弹出对话框,在对话框中选择中文文档导入,如下图:
3.点击Align,利用该软件自动对齐,结果如下图:
Align
接下来需要手动修改,将文档中没有对齐的地方整理对齐。
(为了确保准确
和高效,建议首先整理上图中标色部分,这是该软件自动识别标出的有可
能没有对齐的句子。
把这些修改完后,再从头到尾检查一遍,修改其余没
检测出来的未对齐句子。
)
修改后如图:。
双语平行语料库的制作流程
双语平行语料库的制作流程双语平行语料库是一种包含两种语言文本的语料库,它可以用于机器翻译、自然语言处理等领域的研究和应用。
下面是制作双语平行语料库的一般流程:1. 数据收集:首先需要收集两种语言的文本数据,可以从互联网、书籍、报纸、杂志等渠道获取。
为了保证语料库的质量,需要选择具有代表性、权威性和规范性的文本。
2. 文本预处理:对收集到的文本进行预处理,包括去除标点符号、停用词、数字等,以及对文本进行分词、词性标注等操作。
这些预处理操作可以提高后续处理的效率和准确性。
3. 对齐:将两种语言的文本进行对齐,即找到对应的句子或段落。
对齐的方法可以是手工对齐,也可以使用自动化的对齐工具。
对齐的准确性对于后续的处理非常重要。
4. 标注:对对齐后的文本进行标注,标注的内容可以包括词法、句法、语义等信息。
标注的目的是为了后续的机器翻译、自然语言处理等应用提供更多的信息。
5. 存储:将标注后的文本存储到数据库或文件中,以便后续的处理和使用。
存储的格式可以是文本格式、XML 格式、JSON 格式等。
6. 质量评估:对制作完成的双语平行语料库进行质量评估,评估的指标可以包括对齐准确率、标注准确率等。
如果质量不符合要求,需要进行修正和改进。
7. 维护更新:随着时间的推移,需要对双语平行语料库进行维护和更新,以保证其时效性和准确性。
可以定期添加新的文本数据,并对已有的数据进行更新和修正。
总之,制作双语平行语料库需要经过多个步骤的处理,包括数据收集、文本预处理、对齐、标注、存储、质量评估和维护更新等。
只有经过精心制作和维护的双语平行语料库才能为机器翻译、自然语言处理等领域的研究和应用提供可靠的支持。
基于trados的双语平行语料库设计及实现
138佳木斯职业学院学报2020年第1期总第206期No.1. 2020Sum 206随着国内外语料库研究的异军突起,语料库翻译学已逐渐发展成为翻译学重要的分支学科之一。
1993年,杨惠中教授发表了《语料库语言学与机器翻译》一文,开启了国内学者在语料库翻译学领域的研究之路。
近十几年来,在国家社科基金、教育部人文社科基金对语料库研究领域的倾斜支持下,国内语料库翻译研究已初现规模,国内王克非、王立勋、秦洪武等学者在语料库建设、语料库翻译教学等方面取得了令人可喜的研究成果。
但是,语料库建设耗费大量精力、时间,且涉及版权因素,在教学和实践中,教师难以免费、有效利用国内已建成的语料库。
因此,笔者拟根据自己的翻译经历及教学经验,借用Trados 2017,建设商务类英汉双语平行语料库,以期寻找提高教学效率、提升学生学习信心的新途径。
一、创建商务类双语平行语料库的目的随着信息技术手段的迅速发展,传统的教学手段、教学模式已不能适应生活在智能化时代的学生的需求。
在这种背景下,笔者出于以下四个目的,创建商务类双语平行语料库:第一,搜集、梳理、分析、加工当前商务英语翻译中常见的企业介绍、公关文本、旅游文本和法律文本四类素材,并利用Trados 创建双语记忆库,拓宽教师教学用的翻译素材,脱离单纯依赖课本素材进行教学的弊端。
第二,利用Trados,创建术语库,提升学生掌握专业术语的速度,同时对比上述四类素材中英文在词汇、句子、段落、篇章等层次上语言的使用及表达差异,减少学生翻译过程中出现的中式英语。
第三,培养学生翻译兴趣,提升学生翻译信心,提高学生翻译速度和质量。
学生在翻译练习时,可利用Trados 记忆库自动匹配功能,大大节约翻译时间。
此外,教师还可利用Trados,自建翻译作业语料库,利用Trados 具备的自动生成句级对应这一功能,同时呈现多个学生对应译文。
这样,教师可直观、快速发现翻译中出现的典型问题,进行针对性点评和翻译训练。
构建大规模的汉英双语平行语料库1
构建大规模的汉英双语平行语料库1柏晓静1常宝宝1詹卫东1,2吴拥华11(北京大学计算语言学研究所,北京 100871)2(北京大学中文系,北京 100871)E-mail: {baixj, chbb, zwd, wyongh}@摘要: 双语语料库在机器翻译研究中的作用已日趋明显,但作为一项重要的语言资源,双语平行语料库的系统性构建在中国国内尚未得到充分的关注。
本文介绍一个大规模汉英双语平行语料库的构建工作,包括其总体规划、实施模型和流程细节。
该工作的深入和展开将促进作为机器翻译基础资源的双语语料库建设,从而推动相关的理论研究和应用技术不断向前发展。
关键词: 机器翻译;双语平行语料库;语料库构建引言近年来,双语平行语料库在机器翻译和机器辅助翻译中的应用已经得到越来越多的认可,基于双语平行语料库的各种方法不仅能够改进机器自动翻译的质量,还可以加强机器辅助翻译中的人机交互。
目前在中国国内,相关的研究和介绍主要侧重于双语语料的对齐技术和双语平行语料的应用技术,但对大规模双语平行语料库的系统性构建却关注较少。
就汉英对照语料而言,国内尚且没有超过10万句对的平行语料库。
作为一项重要的基础资源,双语平行语料库的建设仍处于滞后状态,影响了相关的理论研究和应用技术的发展。
北京大学计算语言学研究所同中国科学院计算技术研究所、清华大学智能技术国家重点实验室联合开发“面向新闻领域的汉英机器翻译系统”。
在这个采用多引擎机制的机器翻译系统中,双语平行语料库将主要服务于基于存储的翻译引擎。
作为该课题的子任务之一,一个大规模汉英平行语料库正在建设之中。
本文介绍我们构建这个汉英平行语料库的系统性流程以及该语料库目前的建设情况。
论文第1节总体介绍语料库构建的规划和模型,第2节详细介绍语料库构建的流程和相关经验,以及语料库现状的基本统计数据,最后是对进一步工作的展望。
1 语料库构建的规划和模型构建大规模双语平行语料库,现阶段的应用目标是一个多引擎结构的汉英机器翻译系统。
平行语料库制作流程
平行语料库制作流程说明:在邹颂兵先生、孟令子博士的基础上,由李涛、李晓倩讨论完成,期间胡慧婷也参与讨论,给予了很好的建议。
这个流程对于有些老师和同学,实在没有必要这么繁琐,有些步骤可以利用一些软件一次性解决,推荐两款软件试用,文本整理器;PowerGREP。
之所以如此繁琐,是想让大家更加详细的了解整个建库流程以及为什么这么做。
当然在建库过程中还会遇到更多的问题,大家可以尝试自己去解决。
)1.语料采集(目的不同,方法各异)2.去噪(Emeditor)(1)消除回车和空行:\n\s*——空(\n表示新行;\s表示空格,*表示0个或多个;之所以加上\s*是为了避免回车键前面有空格。
)(2)去空格英文\s+ 替换为空格(\s表示空格,+表示1个或更多。
该表达式意思表明如果原来有1个空格,就替换为1个空格,如果多于1个空格,仍然替换为1个空格。
之所以如此,是因为英文单词之间是有1个空格存在的。
)中文\s*替换为空(\s表示空格,*表示0个或更多。
该表达式意思表明如果原来有0个空格,就替换为0个空格,如果多于1个空格,仍然替换为0个空格。
之所以如此,是因为汉字之间是有0个空格存在的。
)3.分词英文Claws中文ICTCLAS (可以选择二级标准,北大标准)中文分词校对常见:人名标注为/nr,(如小说《首席》里,人名飘雪被标注为“飘/v雪/n”; 可以统一替换为“飘雪/nr”); 地名/ns;4.标点符号处理英语标点符号全部替换成单个标点。
(因为Claws标注后的英文标点及其标注显示为“标点_标点”;以问号?为例,即“?_?”;更改后,变为“?”即可。
特别注意省略号,因为Claws标注后的省略号及其标注显示为“._.._.._.”其中第一个“._.”和后面两个“._.._.”之间换行了,这样在添加<seg>标志是会造成默认三个英语句号标识。
两种解决方案:1.替换句号之前查找“._.\n ._.._.”(选择正则表达式一栏),替换成“---”(什么符号都可以,自己知道意思即可,但整个语料库建设里一般会涉及多人,所以大家要统一);2.如果先替换句号,就直接查找“. \n ..”(选择正则表达式一栏),替换成“---”。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.运行ParaConc269软件,如下图:
2.点击“File”,在下拉列表中选择“Load Corpus Files”,如下图:
3.在Align format处,选择“Start/stop tags”,如下图:
4.点击“add”,分别添加Step 4中得到的中文txt文本和英文txt文本。如下图:
3.点击“导出”,如下图:
点击“确定”,关闭该软件。
4.找到导出文本所在文件夹,可以看到txt格式的中文文本和英文文本,打开中文文本,如下图:
点击“文件”,选择“另存为”,如下图:
在“编码”处可看到当前编码为“UTF-8”,点击,在下拉列表中选择“ANSI”,如下图:
选择“是”,关闭记事本。
注意:与英文txt文本不同,中文txt文本必须经过这一步改成ANSI格式。若文件数量大,也可使用编码批量转换软件。
点击“OK”,双语语料库制作完成。
Step 6.在该语料库中执行“搜索”功能。例如,查询“shall”在该语料库中对应的中文翻译。
1.点击“Search”,在下拉列表中选择“search”。在跳出的选框中输入“shall”,如下图:
点击”OK”,即可得到搜索结果,如下图:
2.可将搜索结果保存下来:保持该搜索界面不变,点击“Search”,选择“Save as File”,如下图:
点击“文件”→“另存为”txt文本,如下图:
点击“保存”,关闭Heartsome TMX Editor。
Step 4.利用TMX-ParaConV软件,从上一步得到的txt中英文本中分别导出中文txt文本和英文txt文本。步骤如下:
1.运行TMX-ParaConV,如下图:
2.点击“选择文件”,找到Step three中得到的txt文本,如下图:
1.运行Heartsome TMX Editor,如下图:
2.点击“文件”,选择“打开TMX文件”,如下图:
选择从trados记忆库中导出的tmx文本,点击“打开”,如下图:
3.点击“编辑”,在下拉列表中选择“清除所有标记”,如下图:
点击“确定”,“降噪”完成。
4.点击“文件”→“保存”。
5.从文件夹中找到该文本,用记事本打开,如图:
双语平行语料库的制作流程
Ste导出tmx文本。步骤如下:
1.启动ABBYY Aligner,如下图:
2.点击“文件图标”导入英文文档
英文文档导入后会自动弹出对话框,在对话框中选择中文文档导入,如下图:
3.点击Align,利用该软件自动对齐,结果如下图:
勾选“Sequential number in each line”,点击“OK”,如下图:
输入文件名,在这里可命名为“shall”,并将其保存在某文件夹中。
3.打开该文件,如下图:
制作完成,关闭ParaConc软件。
1.启用SDL Trados Studio 2011,如下图:
2.点击左上角“升级翻译记忆库”
点击“添加文件”,
点击“关闭”
点击“是”。
3.打开该翻译记忆库,则左侧“翻译记忆库”下方出现该记忆库。
选中该记忆库,右击,选择“导出”
完成,关闭Trados。
Step 3.利用Heartsome TMX Editor软件,对上一步中得到的tmx文本“降噪”。步骤如下:
接下来需要手动修改,将文档中没有对齐的地方整理对齐。(为了确保准确和高效,建议首先整理上图中标色部分,这是该软件自动识别标出的有可能没有对齐的句子。把这些修改完后,再从头到尾检查一遍,修改其余没检测出来的未对齐句子。)
修改后如图:
4.点击Export to TMX,保存对齐之后的tmx文本
Step 2.利用trados软件,将Step 1中的tmx文本导入记忆库,并从记忆库中导出新的tmx文本。步骤如下: