平行语料库制作流程

合集下载

浅谈如何快速搭建英汉双语平行语料库与平行语料库检索平台

浅谈如何快速搭建英汉双语平行语料库与平行语料库检索平台

浅谈如何快速搭建英汉双语平行语料库与平行语料库检索平台语料库不仅在商业领域有着重要的作用,在翻译学研究、语用学研究以及实践教学等领域都有重要的作用。

语料库研究与应用是以语料库建设为前提,语料库建设是所有环节中最为重要的一个环节。

语料库在商业领域与科研教学领域的应用与研究的快速发展,得益于语料库建设的技术手段日益成熟,同时语料库也呈现出多样化的应用与实践。

本文通过深度探索语料库建设与应用的前沿技术发展与应用情况,重点介绍建立英汉语料库以及平行语料库应用平台所需技术支持以及详细的语料库建设与应用操作细则。

标签:语料库建设;语料库应用;双语平行语料库语料库分为单语语料库、双语语料库以及多语语料库,语料库是语言实际应用过程中产生的语言数据,例如图书的翻译、商业文件的翻译以及新闻报告的翻译等语言数据都是形成语料库的基本语料材料。

目前的研究主要是基于双语语料库的制作与应用,双语语料库也是最为广泛使用以及数量最多的语料库种类之一,语料库的存放是以数据库的形式存在为主,形成真正的语料库需要经过收集、转化、降噪、对齐、审校等诸多步骤,形成最终可用的语料库。

语料库的建设目的是多样化的,语料库的来源也是极其广泛,其中尤为重要的环节就是语料的对齐,语料对齐的速度直接决定了语料库制作的效率。

高质量的语料库是进行语料库制作与应用的基础,语料库的质量会直接影响最终的应用效果。

一、研究意义语料库的研究与应用目前在商业领域已经有了突飞猛进的发展,特别是近两年神经网络的发展,语料库对于机器翻译的发展奠定了基础,极大提高了目前谷歌、百度、搜狗、有道以及必应等机器翻译引擎的质量。

不仅如此,商业领域的巨头包括强生、中石化、微软、阿里巴巴以及腾讯等诸多公司都在不同程度的基于语料库提升在各自特定領域的机器翻译引擎质量,其中阿里巴巴的机器翻译引擎已经为中国众多企业将成千上万的商品推向全球市场提供了翻译支持。

不仅如此,语料库在学术、科研以及教学实践等应用方面都有着举足轻重的作用,利用语料库可以进行语用学、翻译学、译者行为、语言风格等多方面学术科研;同时语料库在教学中也广泛应用,通过语料库进行教学应用,教师可以将学生的翻译作业整理成语料库,利用语料库检索功能,学生可以进行自查自纠,教师也可以通过制作学生翻译作业的语料库寻找共性问题进行讲解,帮助学生解决翻译实践中产生的问题。

双语平行语料库的制作流程

双语平行语料库的制作流程
Step 5.利用ParaConc软件对双语语料库进行检索统计。步骤如下:
1.运行ParaConc269软件,如下图:
2.点击“File”,在下拉列表中选择“Load Corpus Files”,如下图:
3.在Align format处,选择“Start/stop tags”,如下图:
4.点击“add”,分别添加Step 4中得到的中文txt文本和英文txt文本。如下图:
3.点击“导出”,如下图:
点击“确定”,关闭该软件。
4.找到导出文本所在文件夹,可以看到txt格式的中文文本和英文文本,打开中文文本,如下图:
点击“文件”,选择“另存为”,如下图:
在“编码”处可看到当前编码为“UTF-8”,点击,在下拉列表中选择“ANSI”,如下图:
选择“是”,关闭记事本。
注意:与英文txt文本不同,中文txt文本必须经过这一步改成ANSI格式。若文件数量大,也可使用编码批量转换软件。
点击“OK”,双语语料库制作完成。
Step 6.在该语料库中执行“搜索”功能。例如,查询“shall”在该语料库中对应的中文翻译。
1.点击“Search”,在下拉列表中选择“search”。在跳出的选框中输入“shall”,如下图:
点击”OK”,即可得到搜索结果,如下图:
2.可将搜索结果保存下来:保持该搜索界面不变,点击“Search”,选择“Save as File”,如下图:
点击“文件”→“另存为”txt文本,如下图:
点击“保存”,关闭Heartsome TMX Editor。
Step 4.利用TMX-ParaConV软件,从上一步得到的txt中英文本中分别导出中文txt文本和英文txt文本。步骤如下:
1.运行TMX-ParaConV,如下图:

双语平行语料库的制作流程

双语平行语料库的制作流程

双语平行语料库的制作流程
1.数据收集:首先需要收集源语言和目标语言的文本数据。

可以通过
多种方式来收集数据,例如爬取网页内容、使用现有的翻译软件或者借助
专业翻译人员进行翻译。

2.文本对齐:在收集到源语言和目标语言的文本数据后,需要进行文
本对齐。

文本对齐是将源语言和目标语言的句子按照语义和结构进行对应,创建文本对。

这个过程可以手动完成,也可以使用自动对齐工具来辅助完成。

4.词对齐:在文本对齐之后,为了进一步提高平行语料库的质量,可
以进行词对齐。

词对齐是在句子级别基础上,将源语言和目标语言的词语
进行对齐,创建词级对齐。

5.质量评估:对于制作好的双语平行语料库,需要进行质量评估。


以通过对比机器翻译的质量、翻译准确度等指标来评估平行语料库的质量。

6.更新和维护:制作好的双语平行语料库需要定期进行更新和维护,
以保持其质量和实用性。

可以定期收集新的源语言和目标语言的文本数据,并进行文本对齐、清洗和词对齐等操作。

同时,也可以通过删除低质量的
文本对来优化平行语料库。

总结起来,制作双语平行语料库的流程包括数据收集、文本对齐、清
洗和预处理、词对齐、质量评估以及更新和维护。

这个过程需要耗费一定
的时间和精力,但制作好的双语平行语料库对于机器翻译、自然语言处理
等领域的研究和应用具有重要意义。

双语平行语料库的制作流程

双语平行语料库的制作流程

双语平行语料库的制作流程1.数据收集:首先需要收集双语文本数据。

可以通过多种渠道获得,包括网络爬虫、公开数据库、专业机构的数据集等。

收集到的数据应涵盖各个领域的文本,以便在不同领域的实际应用中使用。

2.预处理:收集到的数据通常需要进行预处理,以确保数据的质量和一致性。

预处理的步骤包括:-分割句子:根据标点符号或换行符将文本分割成句子。

-标准化:将数据转换为统一的格式,如转换为小写、标准化日期和数字格式等。

-分词:将句子划分成单词或短语的序列,通常使用现有的分词工具。

3.对齐:对齐是将双语文本进行匹配的过程,以确定源语言和目标语言之间的对应关系。

常见的对齐方法包括基于规则的对齐和基于统计的对齐。

在基于规则的对齐中,研究人员根据语言对之间的特征和规则手动对齐句子。

而基于统计的对齐则利用计算机算法自动匹配句子。

4.清洗:对齐后,需要对语料进行清洗,以去除低质量的对齐数据和噪声。

常见的清洗方法包括:-去除标点符号和特殊字符。

-去除长度不一致的句对。

-去除重复数据和重复句子。

-去除机器翻译和错误对齐的数据。

5.评估:评估是对制作的平行语料进行质量检查的步骤。

评估通常包括两个方面:- 句子级评估:比较源语言和目标语言之间的对齐质量,判断对齐是否准确。

可以使用BLEU(Bilingual Evaluation Understudy)等自动评估指标来评估翻译质量。

-文本级评估:评估语料库的覆盖度、平衡性和多样性等。

可以通过检查词汇表的覆盖范围、领域和主题的分布来评估。

6.存储和管理:制作好的双语平行语料库需要进行存储和管理。

可以使用数据库、文件系统或特定的双语平行语料库管理工具来存储和管理平行语料库。

此外,还可以使用标记文件格式(如XML或JSON)对语料进行标注,以便更好地进行检索和利用。

总结起来,制作双语平行语料库的流程包括数据收集、预处理、对齐、清洗和评估等多个步骤。

每个步骤都需要仔细进行,以确保制作出高质量的双语平行语料库,以支持各种自然语言处理任务的研究和应用。

汉意意汉文学平行语料库的研制

汉意意汉文学平行语料库的研制

语料库语言学 2020年 第7卷 第2期汉意意汉文学平行语料库的研制*北京外国语大学 余丹妮提要:北京外国语大学汉意意汉文学平行语料库是首个以意大利语经典文学作品及其汉语译本、汉语经典文学作品及其意大利语译本为语料创建的双语双向平行语料库。

语料库研制的主要环节包括语料文本的搜集与选择、语料电子化、语料对齐与语料检索功能的实现。

本语料库基于互联网进行部署,向相关领域的学习者、译员及研究人员开放,有助于促进汉语—意大利语文学翻译的教学与研究,以期进一步推动中国文学的对外翻译。

关键词:汉意意汉文学平行语料库、意大利语、文学翻译1. 引言双语平行语料库的建设与研究已有近30年的历史。

20世纪90年代初,世界上第一个双语库在加拿大建成(王克非、黄立波 2012:3)。

平行语料库的开发与研制是语料库翻译学取得新突破的数据和方法基础,其潜力有待激发(王克非、黄立波 2012:8)。

目前,平行语料库涉及的语言主要为英语,比如德英文学文本平行语料库(GEPCOLT)、隆德大学开发的英语—瑞典语双向平行语料库(ESPC)、博洛尼亚大学开发的英语—意大利语双向平行语料库(CEXI)等(王克非、黄立波 2012)。

目前仍未发现汉语与意大利语作为句对的双语平行语料库以及相关研究。

自2019年3月,我国与意大利签署《“一带一路”倡议谅解备忘录》以来,中意两国在各领域的合作日益加深,意汉文学翻译领域及翻译教学的需求不断增长。

1980—2017年,37年间,在意大利仅以书籍形式出版的中国文学译作就有260部(吴菡、吴志杰 2018)。

在这一背景下,汉意意汉文学平行语料库CIICLPC的创建具有紧迫性和必要性,将为两国的文学翻译研究、文学交流与语言教学等提供突破性的数据共享平台,为现有翻译研究提供可靠的数据支撑,更系统地推进意汉翻译研究。

* 本文系教育部人文社科青年项目“意汉双向平行语料库的构建与研究”(19YJC740044)、北京外国语大学一流学科建设自主选题重点项目“意大利语语言学研究概论”(YY19ZZA022)和北京外国语大学一流学科建设自主选题重点项目“汉语—欧洲非通用语双语平行语料库”(YY19ZZA021)的阶段性成果。

古今汉语平行语料库的语料构建-2019年精选文档

古今汉语平行语料库的语料构建-2019年精选文档

古今汉语平行语料库的语料构建一缘起“汉语是世界上正在使用的语言中最古老的语种之一。

汉语古籍无论是数量还是涉及的范围及其历史跨度,在世界上都是无与伦比的。

”①灿烂悠久的中国思想文化,通过这些典籍得以保存、传承,在历经千载的延续过程中,又得后人的认识和研究,融入新的内涵,由此构筑了中国的古代文明。

今天,这些承载着中华民族灿烂文明的典籍仍在被广泛地使用着,尤其在人文学科领域的应用价值更是显而易见。

同时,随着大众文化水平的提高、经济的发展与对外往来的增加,越来越多的非专业人士希望深入了解中国传统的思想文化,但古代汉语与现代汉语之间存在着的明显差异使得很多现代人难以理解以古汉语为载体的传统典籍。

有鉴于此,我们提出要建设一个大型、开放的古今汉语平行语料库及其应用平台,为古籍整理和翻译(含机器翻译或机器辅助翻译)、古代汉语教学与研究以及辞书编纂提供基础资源,为需要了解中国传统思想文化的普通读者及相关学科的专家提供阅读、翻译、检索、统计服务,并为与现有的汉英双语语料库的对接奠定基础,从而为实现古汉语和英语的翻译(含机器翻译或机器辅助翻译)创造条件。

平行语料原指使用不同语言撰写、相互间具有“翻译关系”的文本,本文将其延展为基于同一语言且不同历史时期兼具有“翻译关系”的文本,就汉语而言,即指“古今汉语”。

平行语料库已被系统地应用到自然语言处理中,包括建立翻译记忆、编纂词典和双语术语表、跨语言信息检索、计算机辅助教学、语言对比研究等。

国外涉及汉语的平行语料库中影响较大的是与Freiburg-LOB Corpus of British English (即FLOB 平行对应的汉语语料库LCM②(The Lan caster Corpus of Ma ndarin Chinese )。

国内的主要研究有北京大学计算语言学研究所的汉英双语语料库以及北京外国语大学拥有的目前国内最大的双语平行语料库(含汉英和汉日两个库)等[1] 。

英汉社论平行语料库

英汉社论平行语料库

英汉社论平行语料库1.引言1.1 概述概述部分:随着全球化的发展,英汉社论的重要性日益凸显。

社论作为一种新闻类文体,承载着媒体的立场和观点,并在舆论场中发挥着重要的作用。

因此,对于英汉社论的研究和理解具有重要的意义。

为了更好地研究英汉社论,建立一个英汉社论平行语料库是至关重要的。

英汉社论平行语料库是指收集和整理一定数量的英语社论与对应的中文翻译,以便进行对照和分析。

这样的平行语料库可以帮助研究人员深入了解英汉社论的语言特点、文体特征以及表达方式等。

建立英汉社论平行语料库的目的有两个方面。

首先,它可以作为翻译研究的重要资源,帮助翻译人员更好地进行英汉社论的互译。

其次,它可以为社会科学研究提供依据,例如新闻传播学、语言学和文化研究等领域的学者可以通过对英汉社论平行语料库的分析来揭示社论对于公众舆论形成的影响。

本文将从概述、文章结构和目的三个方面对英汉社论平行语料库进行全面介绍。

首先,我们将简要概述英汉社论的背景和重要性。

然后,我们将详细介绍英汉社论平行语料库的定义和意义。

接着,我们将讨论建立英汉社论平行语料库的方法和步骤,包括语料的采集、整理以及语言特征的标注。

最后,我们将展望英汉社论平行语料库的应用前景,并对整篇文章进行总结和展望。

通过对英汉社论平行语料库的研究和应用,我们可以更好地理解英汉社论的特点和规律,并且为相关领域的学术研究和实际应用提供支持和参考。

希望本文能够为英汉社论平行语料库的建设和应用提供启示,并促进跨文化交流和研究的发展。

1.2 文章结构本文将按照以下结构进行阐述和探讨英汉社论平行语料库的相关内容:1. 引言:首先,我们将概述本文的研究背景和意义,明确本文的研究目的。

通过引言部分,读者可以初步了解到本文所要探讨的问题及其重要性。

2. 正文:正文是本文的核心部分,旨在详细介绍英汉社论平行语料库的定义、意义、以及建立方法和步骤。

2.1 英汉社论平行语料库的定义和意义:首先,我们将解释什么是英汉社论平行语料库,即在英汉两种语言中,相互对应的社论文本的语料库。

双语平行语料库的制作流程

双语平行语料库的制作流程

双语平行语料库的制作流程Step 1. 用ABBYY Aligner软件对齐中英双语文档,并导出tmx文本。

步骤如下:1.启动ABBYY Aligner,如下图:2.点击“文件图标”导入英文文档点击这里添加英文文档英文文档导入后会自动弹出对话框,在对话框中选择中文文档导入,如下图:3.点击Align,利用该软件自动对齐,结果如下图:Align接下来需要手动修改,将文档中没有对齐的地方整理对齐。

(为了确保准确和高效,建议首先整理上图中标色部分,这是该软件自动识别标出的有可能没有对齐的句子。

把这些修改完后,再从头到尾检查一遍,修改其余没检测出来的未对齐句子。

)修改后如图:4.点击Export to TMX,保存对齐之后的tmx文本Step 2. 利用trados软件,将Step 1中的tmx文本导入记忆库,并从记忆库中导出新的tmx文本。

步骤如下:1.启用SDL Trados Studio 2011,如下图:2.点击左上角“升级翻译记忆库”点击“添加文件”,点击“关闭”点击“是”。

3.打开该翻译记忆库,则左侧“翻译记忆库”下方出现该记忆库。

选中该记忆库,右击,选择“导出”完成,关闭Trados。

Step 3. 利用Heartsome TMX Editor软件,对上一步中得到的tmx文本“降噪”。

步骤如下:1.运行Heartsome TMX Editor,如下图:2.点击“文件”,选择“打开TMX文件”,如下图:选择从trados记忆库中导出的tmx文本,点击“打开”,如下图:3.点击“编辑”,在下拉列表中选择“清除所有标记”,如下图:点击“确定”,“降噪”完成。

4.点击“文件”→“保存”。

5.从文件夹中找到该文本,用记事本打开,如图:点击“文件”→“另存为”txt文本,如下图:点击“保存”,关闭Heartsome TMX Editor。

Step 4. 利用TMX-ParaConV软件,从上一步得到的txt中英文本中分别导出中文txt文本和英文txt文本。

《论语》四译本平行语料库的创建

《论语》四译本平行语料库的创建

2018年第.3期 牡丹江教育学'学(No. 03, 2018(总第 186期)JOURNALOFMUDANJIANGCOLLEGEOFEDUCATIONSerial No. 186《论语》四译本平行语料库的创建张仁霞(广东技术师范学院外国语学院,广州510665)[摘要]利用《论语》四位译者理雅各(Legge )、辜鸿铭、威利(Waley )、查尔斯•穆勒(CharlesMuller )的英译版本以及《论语》汉语原文进行平行语料库建设,步骤分为语料采集、语料去噪、分词处理、标点符号处理、段对齐、句对齐。

[关键词]论语;英译本;平行语料库 [中图分类号]H 08 [文献标识码]A一、 引言《论语》公认最早、最完整、在西方最经典的英译本是由英国传道士理雅各(JamesLegge )翻译 并于1861年出版发行的。

1898年,晚清学者辜鸿 铭重译了《论语》,成为中国向西方世界弘扬孔教 之道第一人。

此外,另外两个跨世纪的译本也值得 引起我们的注意:1938年阿瑟•威利(ArtherWaley )译本,是目前为止,阅读量最大的版本,也是除了理雅各译本之外西方最有影响力的英译本;2017年查尔斯.穆勒(CharlesMuller )译本,是最 与时俱进,网络世界最流行的英译本。

这四位译者 跨时代,具有不同的社会文化环境背景,很具有对 比研究价值,所以本研究采用这四个英译本建立平。

二、 平行语料库制作流程1.语料采集汉语原文从网络采集。

值得提醒的是,汉语原 文的校对非常重要,直接决定了后面英译本的段对 齐和句对齐的标准。

最好是利用权威纸质图书再 次进行段落和标点符号的确认。

穆勒译本主要通 过穆勒的个人网站http ://www . acmuller . net /采 集。

穆勒从1995年开始翻译《论语》,一直在修改。

最近更新时间为2017年5月。

文章采纳他2017 最新的版本。

理雅各、辜鸿铭、威利3个译本来自 纸质译本的电子扫描、OCR 文字识别和手工纠错。

平行语料库的构建

平行语料库的构建
句对齐平行语料库的构建
冯超
流程: 原始语料搜集 校对去噪后的clean text 标有对齐界定标志的语料(简 称:标seg) 分词后的中文语料 平行后的语料 加题头/尾
1.语料采集

语料采集常见方式: 人工输入 扫描输入(OCR软件将扫描图片或PDF转换成word格 式文档) 现有电子文本的利用(TXT,PDF,DOC) 校对(错别字,乱码,杂质)very important!


删除冗余信息(前言、后记、注释、版权页等)
语料保存为TXT格式
1. 采集+去噪(文本处理器 & Emeditor)

P.S.按一定标准归类、合并、命名文档 如:新闻类、文化类、政治类等 按月份合并文本 去噪 (1.去除一切间隔,英文单词之前的间隔要保留; 2.标点符号:中文 全角;英文 半角Emeditor; 3.人工检查小错误)


</Text_head>
<Body> <Title> NBA球星科比与妻子申请离婚</Title>


正文部分
</Body>
*去除噪音

噪音:多余的空格、空行、回车(可在校对时一并完成) 去噪软件:文本处理器 EmEditor(支持正则表达式) 常用正则表达式 1)消除回车和空行:\n\s*\r——空 2)消除多余空格: 英文语料 查找\s+ 替换为空格 中文语料 查找\s* 替换为rpus Files
加 Head

<Text_head> <author>unknown</author>

语料库制作的基本流程

语料库制作的基本流程

语料库制作的基本流程
x
一、语料库制作的基本流程
1.准备:
(1)确定研究目的,收集研究所需要的数据,具体包括定义研究语料库的范围、收集的语料来源等;
(2)制定编码标准,选定编码标记语言,给每一个编码属性赋值;
(3)语料库的格式处理和有效性审查;
2.分析:
(1)数据清洗、数据校核和数据拆分:对收集进来的数据或者需求做统一的规范化处理,将非结构数据转换成结构数据;
(2)特征抽取:把特定的原始信息抽取成更有智能的信息,尽量多的把输入特征抽取出来,尽量少的输出特征变换;
(3)模型构建:利用抽取出来的特征构建模型,设计模型的运行策略;
3.应用:
(1)语料库收集:语料库收集不仅涉及到具体的语料库的构建,还涉及到如何利用语料库来收集更多的语料;
(2)语料库使用:根据语料库包含的信息,可以用来进行深入的语料库分析,以及数据挖掘,智能化等处理;
(3)语料库管理:语料库的使用和更新要进行监督管理,保证
语料库的完整性和有效性。

语料库制作的基本流程

语料库制作的基本流程

语料库制作的基本流程
语料库制作的基本流程包括以下步骤:
1. 确定语料库的主题和范围:首先需要明确目标领域或主题,确
定需要收集的内容及其相关性质(如文本类型、来源等)。

2. 收集语料库的文本数据:根据目标领域或主题,从网络、书籍、期刊等各种来源中搜集和筛选数据。

3. 数据处理和清洗:对收集到的文本数据进行初步清洗和处理,
包括去除噪声数据、标准化格式等。

4. 构建语料库索引:根据语料库的主题和目标,对文本数据进行
分类并进行索引,以便后续的检索操作。

5. 使用自然语言处理技术进行分析和提取:运用自然语言处理技术,对语料库中的文本数据进行分析和提取,包括分词、词性标注、
实体识别、语义分析等。

6. 验证和标注数据:通过手工标注或其他方式对部分数据进行验
证和标注,以提高训练/应用的精度。

7. 输出成json格式的数据:将处理好的数据输出成json格式,
包括文章标题和内容等信息,以供应用和训练使用。

以上便是语料库制作的基本流程,通过综合运用多种技术和工具,制作出质量高、适用性强的语料库,可以为众多应用领域提供有力的
支撑。

平行语料库制作流程

平行语料库制作流程

平行语料库制作流程说明:在邹颂兵先生、孟令子博士的基础上,由李涛、李晓倩讨论完成,期间胡慧婷也参与讨论,给予了很好的建议。

这个流程对于有些老师和同学,实在没有必要这么繁琐,有些步骤可以利用一些软件一次性解决,推荐两款软件试用,文本整理器;PowerGREP。

之所以如此繁琐,是想让大家更加详细的了解整个建库流程以及为什么这么做。

当然在建库过程中还会遇到更多的问题,大家可以尝试自己去解决。

)1.语料采集(目的不同,方法各异)2.去噪(Emeditor)(1)消除回车和空行:\n\s*——空(\n表示新行;\s表示空格,*表示0个或多个;之所以加上\s*是为了避免回车键前面有空格。

)(2)去空格英文\s+ 替换为空格(\s表示空格,+表示1个或更多。

该表达式意思表明如果原来有1个空格,就替换为1个空格,如果多于1个空格,仍然替换为1个空格。

之所以如此,是因为英文单词之间是有1个空格存在的。

)中文\s*替换为空(\s表示空格,*表示0个或更多。

该表达式意思表明如果原来有0个空格,就替换为0个空格,如果多于1个空格,仍然替换为0个空格。

之所以如此,是因为汉字之间是有0个空格存在的。

)3.分词英文Claws中文ICTCLAS (可以选择二级标准,北大标准)中文分词校对常见:人名标注为/nr,(如小说《首席》里,人名飘雪被标注为“飘/v雪/n”; 可以统一替换为“飘雪/nr”); 地名/ns;4.标点符号处理英语标点符号全部替换成单个标点。

(因为Claws标注后的英文标点及其标注显示为“标点_标点”;以问号?为例,即“?_?”;更改后,变为“?”即可。

特别注意省略号,因为Claws标注后的省略号及其标注显示为“._.._.._.”其中第一个“._.”和后面两个“._.._.”之间换行了,这样在添加<seg>标志是会造成默认三个英语句号标识。

两种解决方案:1.替换句号之前查找“._.\n ._.._.”(选择正则表达式一栏),替换成“---”(什么符号都可以,自己知道意思即可,但整个语料库建设里一般会涉及多人,所以大家要统一);2.如果先替换句号,就直接查找“. \n ..”(选择正则表达式一栏),替换成“---”。

机器翻译中的平行语料库构建方法研究

机器翻译中的平行语料库构建方法研究

机器翻译中的平行语料库构建方法研究机器翻译(Machine Translation,MT)是指利用计算机自动将一种语言的输入文本翻译成另一种语言的过程。

而构建一个高质量的机器翻译系统需要大量的平行语料库(Parallel Corpus)作为训练数据。

平行语料库是指包含源语言和目标语言对应句子的文本集合。

本文将探讨机器翻译中平行语料库的构建方法研究。

一、平行语料库的来源平行语料库的构建是机器翻译研究的基础,平行语料库的来源可以有多种途径:1. 已有翻译文本:可以利用已有的翻译文本作为平行语料库,这些文本可以是各种领域的翻译作品、新闻报道、书籍等。

这类平行语料库数量庞大,但质量参差不齐。

2. 在线平行语料库:互联网上有很多平行文本资源,比如双语网站、双语新闻等。

可以通过网络爬虫工具获取这些数据集,然后进行清洗和预处理。

3. 语料库对齐:对于只有源语言或目标语言的文本集合,可以通过语料库对齐技术,将源语言和目标语言的句子进行匹配,构建平行语料库。

二、平行语料库的清洗和预处理平行语料库获取后,需要进行清洗和预处理,以去除噪声和提高质量。

主要的清洗和预处理方法有以下几种:1. 句子对齐:对于一个源语言句子和一个目标语言句子,需要确保它们是对应的关系。

利用句子对齐技术,可以自动找到对应的源语言和目标语言句子。

2. 噪声去除:平行语料库中可能包含一些噪声数据,如乱码、标签、重复句子等。

可以使用正则表达式或其他文本处理工具去除这些噪声数据。

3. 分词和标记:对于中文和其他分词语言,需要进行分词处理,将文本按照词语进行切分。

同时,还可以使用词性标注、命名实体识别等工具对句子进行标记。

4. 数据过滤:对于大规模的平行语料库,可以使用一些质量评估指标过滤出高质量的数据。

例如,句子长度、词汇覆盖度、语法正确性等。

三、平行语料库的增强方法在构建平行语料库的过程中,常常会面临数据不足的问题。

可以采用以下方法增强平行语料库的规模和质量:1. 人工翻译:通过雇佣专业翻译人员进行人工翻译,获得高质量的平行语料库。

英汉科普平行语料库的创建和研究

英汉科普平行语料库的创建和研究

英汉科普平行语料库的创建和研究现代信息技术的发展带来了人们在语言学和计算机科学研究上的新机遇。

英汉科普平行语料库是科普信息计算研究领域中出现的一项重要新技术。

英汉科普平行语料库的创建和研究有助于提高机器翻译的准确性,为机器翻译技术的开发提供有效的数据支持。

本文将对英汉科普平行语料库的创建和研究作一综述,以期发展出更加成熟的英汉科普平行语料库。

英汉科普平行语料库是由机器翻译系统所需的知识库、词典和规则结构三个部分组成的一个有机整体,它提供了用于机器翻译的语言模型,为机器翻译提供有效的数据库。

为了创建一个有效的英汉科普平行语料库,必须充分利用当前已有的英汉科普语料。

首先,研究人员要获取完整的英汉科普语料,并将其分析和整理,提取出各类语言关系,如语义、句法、语法等关系,使其能够更好地反映出原有的科普文本的语言特征。

其次,在整理和提取完语料的基础上,需要对英汉科普平行语料库进行标记,将每个词汇和句子中的意义、结构以及其他语言特征进行明确标记,以便机器翻译的准确性得到保障。

最后,在完成标记之后,应尽量增加英汉科普平行语料库的句子库,用于训练机器翻译模型,为机器翻译提供有效的数据支持。

经过上述步骤,英汉科普平行语料库的建设便可以完成。

随后,应采用有效的评测方法,对英汉科普平行语料库的精度进行评估,并针对现有语料库采取有效的改进措施,使其适应机器翻译的实际需求。

此外,由于英汉科普平行语料库创建和研究是一项复杂的过程,而不同类型的科普文本存在不同的语言特征,因此,未来研究者还需要不断开展深入的研究,使不同类型科普文本能够更好地反映出其原有的语言特征,使英汉科普平行语料库更加全面和完整。

英汉科普平行语料库的研究主要是为了解决机器翻译的准确性问题,但它也可以为语言学研究带来一些新的研究方向,有助于更好地了解各种口头语言的特征,进而改善人们的日常沟通。

英汉科普平行语料库的创建和研究,不仅有助于提高机器翻译的准确性,而且还有助于更好地了解口头语言特征,以及改善人们的日常沟通。

机器翻译中的平行语料库构建方法

机器翻译中的平行语料库构建方法

机器翻译中的平行语料库构建方法机器翻译是指使用计算机技术对一种语言的文本进行自动转化为另一种语言的过程。

构建一个高质量的平行语料库对于机器翻译的研究和应用非常重要,因为平行语料库是机器翻译模型的训练数据来源。

构建平行语料库的方法有很多种,可以是从互联网上获取,也可以通过人工方法进行创建。

下面我们将介绍一些常用的平行语料库构建方法。

第一种方法是从互联网上获取平行语料库。

互联网上有很多已经对齐好的平行语料库,可以直接下载并使用。

其中一种常用的平行语料库是由机构、研究团队或者志愿者创建的。

这种平行语料库通常是基于特定主题的,比如法语到英语的新闻平行语料库,或者中文到英文的科技平行语料库。

这些平行语料库一般来自不同的网站、新闻或者论文等,通过爬虫技术进行获取。

获取到的平行语料库通常会进行处理,去除噪声和重复文本,然后进行句对齐和语言标注,最后保存为可读取的平行语料库文件。

第二种方法是使用在线翻译服务来构建平行语料库。

在线翻译服务是指通过互联网连接远程的机器翻译系统进行翻译的服务。

这些服务通常支持多种语言之间的翻译,包括常见的语种如中文、英文、法语、西班牙语等。

通过将源语言文本输入在线翻译服务,然后获取机器翻译结果作为目标语言的文本,即可构建平行语料库。

这种方法的优点是简单方便,因为不需要进行额外的数据处理,在线翻译服务会自动完成句对齐和语言标注的工作。

不过由于机器翻译服务的性能不同,结果的质量也会有所差异,可能存在翻译错误或者不准确的情况。

第三种方法是通过人工翻译来构建平行语料库。

这种方法通常需要雇佣专业的翻译人员来完成翻译工作。

翻译人员会按照一定的规范和要求,将源语言文本翻译成目标语言的文本。

在翻译的过程中,可能会涉及一些领域知识或者专业术语的处理,以保证翻译结果的准确性和专业性。

人工翻译的好处是可以获得高质量的平行语料库,但是成本较高,需要投入大量的时间和人力资源。

另外,有些研究人员通过对已有的平行语料库进行处理和重组,来获取更加丰富的平行语料库。

双语平行语料库的制作流程

双语平行语料库的制作流程

双语平行语料库的制作流程双语平行语料库是一种包含两种语言文本的语料库,它可以用于机器翻译、自然语言处理等领域的研究和应用。

下面是制作双语平行语料库的一般流程:1. 数据收集:首先需要收集两种语言的文本数据,可以从互联网、书籍、报纸、杂志等渠道获取。

为了保证语料库的质量,需要选择具有代表性、权威性和规范性的文本。

2. 文本预处理:对收集到的文本进行预处理,包括去除标点符号、停用词、数字等,以及对文本进行分词、词性标注等操作。

这些预处理操作可以提高后续处理的效率和准确性。

3. 对齐:将两种语言的文本进行对齐,即找到对应的句子或段落。

对齐的方法可以是手工对齐,也可以使用自动化的对齐工具。

对齐的准确性对于后续的处理非常重要。

4. 标注:对对齐后的文本进行标注,标注的内容可以包括词法、句法、语义等信息。

标注的目的是为了后续的机器翻译、自然语言处理等应用提供更多的信息。

5. 存储:将标注后的文本存储到数据库或文件中,以便后续的处理和使用。

存储的格式可以是文本格式、XML 格式、JSON 格式等。

6. 质量评估:对制作完成的双语平行语料库进行质量评估,评估的指标可以包括对齐准确率、标注准确率等。

如果质量不符合要求,需要进行修正和改进。

7. 维护更新:随着时间的推移,需要对双语平行语料库进行维护和更新,以保证其时效性和准确性。

可以定期添加新的文本数据,并对已有的数据进行更新和修正。

总之,制作双语平行语料库需要经过多个步骤的处理,包括数据收集、文本预处理、对齐、标注、存储、质量评估和维护更新等。

只有经过精心制作和维护的双语平行语料库才能为机器翻译、自然语言处理等领域的研究和应用提供可靠的支持。

平行语料数据库设计

平行语料数据库设计
注:为平行文档的存储
表四:datatype(数据来源信息类型记录表)
DatatypeId
In t(10)
数据来源信息类型标识
DatatypeName
Nvarchar
数据来源信息类型
注:此表记录着外围信息表中的数据信息来源类型,如网络、书籍、报纸等。
表五:PropertiesInfo(外围信息表)
列名
CuS n
Int(10)
对应块唯一标识符
DocId
In t(10)
文档唯一标识符
Origi nPassage
In t(10)
源文语料块所在的段落
Origi nSentence
In t(10)
源文语料块所在的句子
Origi nPositi on
In t(10)
源文语料块在句子中的位置
Origi nSrartl ndex
Int(10)
目标文档的语言信息
TargetPublisher
Nvarchar
目标文档出版社
UserId
In t(10)
用户信息
DataTypeId
In t(10)
数据来源信息类型
XmlExte nds
Xml
扩展字段
注:外围信息的存储
表六:CorrespondCu(语料对应块记录表)
列名
数据类型
说明
表二:Domain(领域表)
列名
数据类型
说明
DomId
Int(10)
领域的唯一标识符
PdomId
Int(10)
父节点的ID
DomName
Nvarchar
领域名称
DomDate
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

平行语料库制作流程
说明:在邹颂兵先生、孟令子博士的基础上,由李涛、李晓倩讨论完成,期间胡慧婷也参与讨论,给予了很好的建议。

这个流程对于有些老师和同学,实在没有必要这么繁琐,有些步骤可以利用一些软件一次性解决,推荐两款软件试用,文本整理器;PowerGREP。

之所以如此繁琐,是想让大家更加详细的了解整个建库流程以及为什么这么做。

当然在建库过程中还会遇到更多的问题,大家可以尝试自己去解决。


1.语料采集(目的不同,方法各异)
2.去噪(Emeditor)
(1)消除回车和空行:\n\s*——空(\n表示新行;\s表示空格,*表示0个或多个;之所以加上\s*是为了避免回车键前面有空格。


(2)去空格英文\s+ 替换为空格(\s表示空格,+表示1个或更多。

该表达式意思表明如果原来有1个空格,就替换为1个空格,如果多于1个空格,仍然替换为1个空格。

之所以如此,是因为英文单词之间是有1个空格存在的。

)中文\s*替换为空(\s表示空格,*表示0个或更多。

该表达式意思表明如果原来有0个空格,就替换为0个空格,如果多于1个空格,仍然替换为0个空格。

之所以如此,是因为汉字之间是有0个空格存在的。


3.分词
英文Claws
中文ICTCLAS (可以选择二级标准,北大标准)
中文分词校对常见:人名标注为/nr,(如小说《首席》里,人名飘雪被标注为“飘/v雪/n”; 可以统一替换为“飘雪/nr”); 地名/ns;
4.标点符号处理
英语标点符号全部替换成单个标点。

(因为Claws标注后的英文标点及其标注显示为“标点_标点”;以问号?为例,即“?_?”;更改后,变为“?”即可。

特别注意省略号,因为Claws标注后的省略号及其标注显示为“._.._.._.”其中第一个“._.”和后面两个“._.._.”之间换行了,这样在添加<seg>标志是会造成默认三个英语句号标识。

两种解决方案:1.替换句号之前查找“._.\n ._.._.”(选择正则表达式一栏),替换成“---”(什么符号都可以,自己知道意思即可,但整个语料库建设里一般会涉及多人,所以大家要统一);2.如果先替换句号,就直接查找“. \n ..”(选择正则表达式一栏),替换成“---”。

建议所有查找和替换操作都从文本中复制以免格式不匹配。

中文标点符号全部转成英文状态下的半角格式并去除其词性标注/w。

(ICTCLAS标注后的中文标点及其标注显示为“标点/w”;以问号?为例,即“?/w”;更改后,变为“?”即可。

特别提醒:一些中文特有的标点符号如“……”;“破折号”;“、”“《》”等,我们认为可以分别替换成“---”(三个);“--”(两个);“/”;“<>”)
问题:(可以专门查找省略号,然后自己判定是否是句子结束标志;也可以忽略,在对齐校对的时候做。


“我……我……我怎么了?”这个时候……并不是一句话的结束。

“啊……”这个时候……是一句话的结束。

4.添加对齐标志(中英文一致)
考虑到有时在对话中句号、问号和叹号加上了引号,即.”、?”、!”,也代表一句话的结束,因此我们建议分三步添加对齐标志:(1)用特定符号,如11111111,替换带引号的句号、问号、叹号,目的在于避免对其标志出现在引号之内。

(2)句号、问号和叹号之后添加对齐标志。

(3)在11111111之后添加对齐标志。

(1)处理加引号的句号、问号和叹号(使用正则表达式)
\."替换为11111111
\?"替换为22222222
\!" 替换为33333333
(2) 处理所有文本中句号、问号和叹号(使用正则表达式)
查找\. 替换为.</seg>\n<seg>
查找\? 替换为?</seg>\n<seg>
查找\! 替换为!</seg>\n<seg>
(3)再处理(1)遗留的问题
查找11111111 替换为."</seg>\n<seg>
查找22222222 替换为?"</seg>\n<seg>
查找33333333 替换为!"</seg>\n<seg>
开头和结尾处标注手动添加5.平行(详细做法请参照ParaConc使用说明)
1)添加语料
2)Align Format 要选Start/Stop tags
3)查看语料对齐
4) 选中两个文本后,选中alignment。

相关文档
最新文档