历史风貌建筑翻译平行语料库构建方案
浅谈如何快速搭建英汉双语平行语料库与平行语料库检索平台
浅谈如何快速搭建英汉双语平行语料库与平行语料库检索平台语料库不仅在商业领域有着重要的作用,在翻译学研究、语用学研究以及实践教学等领域都有重要的作用。
语料库研究与应用是以语料库建设为前提,语料库建设是所有环节中最为重要的一个环节。
语料库在商业领域与科研教学领域的应用与研究的快速发展,得益于语料库建设的技术手段日益成熟,同时语料库也呈现出多样化的应用与实践。
本文通过深度探索语料库建设与应用的前沿技术发展与应用情况,重点介绍建立英汉语料库以及平行语料库应用平台所需技术支持以及详细的语料库建设与应用操作细则。
标签:语料库建设;语料库应用;双语平行语料库语料库分为单语语料库、双语语料库以及多语语料库,语料库是语言实际应用过程中产生的语言数据,例如图书的翻译、商业文件的翻译以及新闻报告的翻译等语言数据都是形成语料库的基本语料材料。
目前的研究主要是基于双语语料库的制作与应用,双语语料库也是最为广泛使用以及数量最多的语料库种类之一,语料库的存放是以数据库的形式存在为主,形成真正的语料库需要经过收集、转化、降噪、对齐、审校等诸多步骤,形成最终可用的语料库。
语料库的建设目的是多样化的,语料库的来源也是极其广泛,其中尤为重要的环节就是语料的对齐,语料对齐的速度直接决定了语料库制作的效率。
高质量的语料库是进行语料库制作与应用的基础,语料库的质量会直接影响最终的应用效果。
一、研究意义语料库的研究与应用目前在商业领域已经有了突飞猛进的发展,特别是近两年神经网络的发展,语料库对于机器翻译的发展奠定了基础,极大提高了目前谷歌、百度、搜狗、有道以及必应等机器翻译引擎的质量。
不仅如此,商业领域的巨头包括强生、中石化、微软、阿里巴巴以及腾讯等诸多公司都在不同程度的基于语料库提升在各自特定領域的机器翻译引擎质量,其中阿里巴巴的机器翻译引擎已经为中国众多企业将成千上万的商品推向全球市场提供了翻译支持。
不仅如此,语料库在学术、科研以及教学实践等应用方面都有着举足轻重的作用,利用语料库可以进行语用学、翻译学、译者行为、语言风格等多方面学术科研;同时语料库在教学中也广泛应用,通过语料库进行教学应用,教师可以将学生的翻译作业整理成语料库,利用语料库检索功能,学生可以进行自查自纠,教师也可以通过制作学生翻译作业的语料库寻找共性问题进行讲解,帮助学生解决翻译实践中产生的问题。
外宣翻译汉英平行语料库的创建与研究
宣传 自身的形象 、 资料等 , 即是通过翻译工作 向外界展示 自 身, 将 自身 的一些 特性 通过对方的语言或文字展现给对方 。因此 , 外宣 翻译工作 的主体 并不是我们本身 , 而是我们 宣传 工作所 面对的对 象 。而在实 际翻译过程 中 , 我 们常常 习惯性 的以 自身 为主体 , 而 并 未把 宣传 对象的认知和接受习惯放在首位 。在我们 中国 , 这种 现 象尤为 突出 , 因为我们 的外 宣对象主要是 西方 国家 , 而经过这 么 多年的发展 , 东西方 国家 之间的文化存在着 巨大的差异 , 在交
2 平 行 语 料 库 的创 建 与研 究
网。汉语 和英语 的电子化需 要分别使用不同的处理软件 , 以便取 得最 优化效果 。汉语纸质 内容扫描 后保存 为J P E G文件 , 利用 专 门的软件 处理 , 得到t x t 格 式 的文本 文件 , 务必 要保 证其 识别 率 高, 即保证 原文 的准确 性 。英 语纸 质 内容 扫描 后保存 为 P D F 文 件, 利 用专 门的软件处 理 , 得到 t x t 格式 的文本文件 , 同样 的也要 求其识别率高 。若是 纸质内容中既有汉语 内容也有英语 内容 , 则 将扫描后 的J P E G文件进行裁剪 , 将汉语内容和英语 内容分开 , 再 分别用不 同的处理 软件进行处理 , 最终 完成 纸质书本 电子化 的工 作。
机器翻译中的平行语料库构建方法研究
机器翻译中的平行语料库构建方法研究机器翻译是一种通过计算机程序将一种语言的文本转换成另一种语言的文本的技术。
在机器翻译中,平行语料库是至关重要的资源,它由两种语言的对应文本对组成,用于训练和评估翻译模型。
平行语料库构建方法的研究对于提高机器翻译的质量和效率至关重要。
本文将对机器翻译中的平行语料库构建方法进行深入研究。
首先,为了构建平行语料库,需要收集大量的双语文本数据。
常用的方法包括从互联网上抓取双语网页、利用爬虫程序从双语网站上抓取文本等。
此外,还可以通过购买商业平行语料库或者利用已有的双语文本数据进行清洗和处理来构建平行语料库。
其次,对于从网页上抓取的双语文本数据,需要进行数据清洗和对齐。
数据清洗包括去除噪声数据、统一格式等操作,以确保数据的质量和一致性。
数据对齐则是将两种语言的文本对齐起来,以建立双语对照关系,为后续的翻译模型训练提供输入。
第三,构建平行语料库时需要考虑数据的平衡性和多样性。
平衡性指的是在平行语料库中两种语言的文本数量要大致相当,以避免模型在翻译时偏向某一种语言。
多样性则指的是包含不同领域和不同风格的文本,以提高模型的泛化能力。
另外,对于购买商业平行语料库或利用已有的双语文本数据进行处理的方法,需要注意保护知识产权和个人隐私。
在使用这些数据时,需要遵守相关法律法规,确保数据的合法性和合规性。
在构建平行语料库的过程中,还可以借助于机器学习和自然语言处理技术,如自动对齐算法、双语分词器等工具,来提高构建效率和质量。
此外,还可以利用人工翻译和众包等方式来增加平行语料库的规模和多样性。
让我们总结一下本文的重点,我们可以发现,平行语料库构建方法的研究在机器翻译领域具有重要意义,它直接影响着翻译模型的性能和效果。
通过不断深入研究和创新,相信会有更多高效、高质量的平行语料库构建方法被提出,为机器翻译技术的发展和应用带来新的突破。
中国科学院汉英平行语料库
中国科学院汉英平行语料库
中国科学院汉英平行语料库(Parallel Corpus of Chinese Academy of Sciences)是一个结构整齐、体积庞大、全方位覆盖的、
面向科技文献翻译的大规模语料库,是中国科技研究文献汉英翻译的
极佳资源。
本平行语料库收录的文献共计达到700多万句,包括来自中国科
学全文数据库、中国科学文摘数据库、维普资讯网、万方科技云等多
种来源的语料,覆盖了国内各种学科的文献翻译,丰富了汉英翻译资源,有助于科学研究。
中国科学院汉英平行语料库由中国科技文献翻译研究重点实验室,以及中国工程院等机构联手制作而成,从平行语料收集、平行语料处理、数据标注、语料质量检验等多个方面考虑,采取多种技术手段,
结合中文语料注记标准和英文规范,实现了翻译文献自动化标注,实
现了文本在线查询、翻译查询和语料挖掘等功能。
中国科学院汉英平行语料库对于文献翻译、机器翻译、口译辅助、自然语言处理和语言学研究等领域都有重要应用价值。
经多方测试,
本库满足了机器翻译系统训练所需的高质量、大规模的汉英平行语料
的要求,针对机器翻译的分析预测开发,研究的执行效果有明显的提升。
此外,中国科学院汉英平行语料库还对外提供汉英、汉法、汉德
等多语种的神经网络翻译系统,支持跨语言机器翻译,支持词法短语
翻译等覆盖面更加透彻的翻译服务,搭建起一整套健全的翻译系统,
广大研究人员和学者可以在线上获得高效、准确的翻译结果,满足学
术研究和实际应用的需要。
中国科学院汉英平行语料库在自然语言处理领域发挥了重要作用,极大提升了中国自然语言处理市场的竞争力,为自然语言处理的发展
推进了大中国语言环境的翻译。
古今汉语平行语料库的语料构建-2019年精选文档
古今汉语平行语料库的语料构建一缘起“汉语是世界上正在使用的语言中最古老的语种之一。
汉语古籍无论是数量还是涉及的范围及其历史跨度,在世界上都是无与伦比的。
”①灿烂悠久的中国思想文化,通过这些典籍得以保存、传承,在历经千载的延续过程中,又得后人的认识和研究,融入新的内涵,由此构筑了中国的古代文明。
今天,这些承载着中华民族灿烂文明的典籍仍在被广泛地使用着,尤其在人文学科领域的应用价值更是显而易见。
同时,随着大众文化水平的提高、经济的发展与对外往来的增加,越来越多的非专业人士希望深入了解中国传统的思想文化,但古代汉语与现代汉语之间存在着的明显差异使得很多现代人难以理解以古汉语为载体的传统典籍。
有鉴于此,我们提出要建设一个大型、开放的古今汉语平行语料库及其应用平台,为古籍整理和翻译(含机器翻译或机器辅助翻译)、古代汉语教学与研究以及辞书编纂提供基础资源,为需要了解中国传统思想文化的普通读者及相关学科的专家提供阅读、翻译、检索、统计服务,并为与现有的汉英双语语料库的对接奠定基础,从而为实现古汉语和英语的翻译(含机器翻译或机器辅助翻译)创造条件。
平行语料原指使用不同语言撰写、相互间具有“翻译关系”的文本,本文将其延展为基于同一语言且不同历史时期兼具有“翻译关系”的文本,就汉语而言,即指“古今汉语”。
平行语料库已被系统地应用到自然语言处理中,包括建立翻译记忆、编纂词典和双语术语表、跨语言信息检索、计算机辅助教学、语言对比研究等。
国外涉及汉语的平行语料库中影响较大的是与Freiburg-LOB Corpus of British English (即FLOB 平行对应的汉语语料库LCM②(The Lan caster Corpus of Ma ndarin Chinese )。
国内的主要研究有北京大学计算语言学研究所的汉英双语语料库以及北京外国语大学拥有的目前国内最大的双语平行语料库(含汉英和汉日两个库)等[1] 。
构建大规模的汉英双语平行语料库
作 P ) 1 ’,…T s,T ,1 2 构成 译 文文本 中一个 或 多个 完 整 的段 落 ( 体 记作 P) s和 P 之 间具有 “ 整 t ,P t 翻 译关 系 ” 。 句 子级 对齐 单 位 ( 记作 A ) s :一 个 句子 级 对齐 单 位 是一 个 二元 组 , 作 A 记 S=<i i S,T>,其 中 s 由 i
语料库的系统性构建却较少。就汉英双语对照语料
而 言 ,国 内尚且没 有 超过 1 句对 的平 行 语料 库 。 0万 下 面介绍 构建 汉英 平 行语料 库 的 系统性 流程 以及该 语料 库 目前 的建 设情 况 。
1 语料 库构 建 的规划 和模型
图 1 双 语 平 行 语 料 库构 建 流 程 模 型
一
套通 用性 较好 的整理 、加 工工具 .协 同工 作人 员 我们 严 格定 义 了与双 语平 行语 料 库建 设 相关 的
完 成语 料 的整 理 、标记 、检查 、对齐和 校对工 作 。 术 语 :原始 语 料 、双语 语 料 库 、篇章 级 对 齐单 位 、 原 文文 件 、译 文文 件 、段 落级对 齐 单位 、句 子级 对 齐单 位 、源语 言 。 其 中 ,篇 章 级 对 齐 单 位 ( 作 记 A) T :一 个 篇章 级 对 齐单 位 由若 干 段 落级 对 齐单 位
22 语 料 的整理和 加工 _ 整理 、加 工任 务从 考 察 原始语 料 的物 理 特征 并
山 西省 留 学基 金 委 资 助 项 目 (0 5 2 ) 20— 0 收 稿 日期 :0 6 0 — 7 修 回 日期 :0 6 0 — 4 20 — 8 0 ; 20 — 8 2
进行相应的归类人手 ,综合考虑原始语料本身的情
浅谈高速铁路英汉双语语料库建设项目
浅谈高速铁路英汉双语语料库建设项目1. 引言1.1 项目背景高速铁路英汉双语语料库建设项目的项目背景是由于中国高速铁路建设的快速发展和“一带一路”倡议的推动,越来越多的外国友人来中国参观交流。
由于语言障碍,很多外国友人在了解和体验中国高速铁路发展的过程中遇到了困难。
为了更好地促进中外友好交流,建设一个涵盖高速铁路相关信息的英汉双语语料库尤为重要。
目前,虽然已经存在一些高速铁路相关的英汉翻译资料和论文,但这些资料散落在各个领域,不够系统和全面。
建设一个高速铁路英汉双语语料库,将大大提升外国友人了解中国高速铁路的便利性和准确性。
通过这个项目,我们可以让外国友人更加直观深入地了解中国高速铁路的建设成就和发展态势,促进各国在高速铁路技术和运营管理方面的交流与合作。
这也为中国高速铁路行业的国际化发展提供了一定的支撑和参考。
1.2 项目目的项目目的是为了促进高速铁路英汉双语语料库的建设和完善,以提供给研究人员、教育机构和企业使用。
通过建立这样一个语料库,可以为高速铁路领域的英汉翻译提供更多可靠的语言材料,提高翻译质量和效率。
该项目旨在促进中英两国在高速铁路技术领域的合作与交流,促进技术创新和知识传播。
通过建设高速铁路英汉双语语料库,还可以促进高速铁路行业人才的培养和专业知识的传承,为高速铁路的发展做出贡献。
该项目的目的是促进中英两国在高速铁路领域的合作与交流,提高高速铁路领域的翻译质量和效率,促进技术创新和知识传播,同时也为高速铁路行业的发展和人才培养做出贡献。
1.3 研究意义高速铁路英汉双语语料库建设项目的研究意义主要体现在以下几个方面:建设这样一份英汉双语语料库可以为高速铁路相关领域的信息检索、翻译和语言教学提供重要支持。
在高速铁路建设的过程中,涉及到大量的技术规范、施工方案、安全管理等内容,这些内容需要在不同语言之间进行准确的传递和理解。
通过建设英汉双语语料库,可以帮助相关工作者更方便地获取到这些信息,提高工作效率。
汉英学术平行语料库开发设计
语料对齐可以基 于词汇层 面 , 即将 源 语 言 的 词 汇 和 其 对 应 的 翻 译 语 言 词 汇 对 应 起 来 。但 是 , 词 汇 层 面
除 了形 式 上 的 一 一 对 应 , 还 有一对 空 、 空对 一 、 空 对 多
语料库可 以是单向的 , 也可 以是双 向甚至多 向的 。
语 料 库 的 语 料 来 源 一 般 分 为 纸质 材 料 、 电子文档 、 网络 资 源 和 其 他 ( 如 通 过 拍 照 或 录 制 得 来 的 语 言 材 料) 。 网络 来 源 的语 料库 又 分 为人 工 采 集 ( 即 通 过 人 工 选择性收集语料 , 经 过 人 工 降 噪 和 格 式 整 理 转 化 为 需
中, 双语“ 对应单位” 的对 齐研 究成 为 新 的 焦点 。本 研 究从 一 个 小 的 试 验 性 汉 英 平 行 学 术 语 料 库 的 建设 着 手 , 围绕
建库设计 、 双语“ 对应单位” 对 齐和 索 引软 件 开 发 等 展 开 , 希 望 为 大 型 汉 英 学 术 平 行 语 料 库 的 建 设 提 供 一 个 操 作 参
机 自动 采 集 语 料 , 然 后 对其 进行 人 工选 择 和整 理 ) 。
( 二) 双 语 对 应 单 位
重组 , 其 对 于 翻 译 的 实 际 作 用 有 限 。 目前 一 些 研 究 者 正致力于基于双语 对应 单位 的对齐 , 以 实 现 基 于 实 例
和 基 于 存 储 的 自动 翻 译 。双语 对应 单 位 的 提 取 多 来 自
第3 2卷 第 7期
Vo 1 . 3 2
标识语汉英双语平行语料库的设计与创建
路 和借 鉴 。
一
国内外标 识 语研 究现状 分析
时 总结 与述评 。研 究 成果 的总 结 主要 包 括 《 公 示 语 翻译 》 和《 公共 标识 英语 纠错 指 南 : 实例 、 辨 析 和
在西方 , 标 识语翻译研究相 对发展较早 , 1 9 5 9
[ 收稿 日期] 2 0 1 4- 0 9—2 8 [ 基金项 目] 湖南省教育厅科研项 目“ 基 于语料库 的标识 语英译规律 研究 ” 资助 ( 编号 : 1 2 C 0 3 6 8 ) ; 教育 部社科项 目“ 基于汉 英双语平行语料库的外宣翻译规范研究 ” 资助( 编号 : 1 4 Y J C 7 4 0 0 4 9 ) [ 作者 简介 ] 李广伟 ( 1 9 8 0一) , 男, 山东菏译人 , 南华 大学 外国语 学院讲 师。 ①南华大学外 国语学 院教授 , 博 士。
文本 形式 , 应用 历 史悠 久 , 在 世 界 各 民族 的社 会 、 文 化、 经济发 展进 程 中都发 挥着 规范 、 协调 、 保障、 稳定 的功 能机 制 。随着 中 国的 国际影 响 日益 扩 大 , 国 际交 往 日益频 繁 , 标 识 语 在 全 国各地 的翻 译 与 运用 直接 向世 界展示 了 中国的对外 交流 水平 以及 现代化 城市 的建 设风貌 , 同时它 也 是 文化 软 实 力 的 重要 体现 。 国际化 、 现代 化 、 城 市化 、 信 息化 、 社 会 化 的迅
第 1 6卷2月 第1 期 2 0 1 5年
南华大 学学报 ( 社会科 学版 ) J o u r n a l o f U n i v e r s i t y f o S o u t h C h i n a ( S o c i a l S c i e n c e E d i t i o n )
安康生态旅游资源汉英翻译平行语料库建设的构想
安康生态旅游资源汉英翻译平行语料库建设的构想摘要:安康生态旅游资源汉英翻译双语平行语料库是一个专门领域的平行语料库,具有独特的研究及应用价值。
本文针对安康市旅游资源及特色景区对外宣传的缺失,简述了目前国内平行语料库发展现状,探讨了建设安康生态旅游资源(景区)外宣汉英翻译双语平行语料库的重要性、构建思路及其在旅游资源宣传推介、旅游翻译研究及教学中的应用前景。
关键词:旅游资源外宣;平行语料库;语料;翻译中图分类号:h214 文献标识码:a 文章编号:1006-026x (2012)06-0000-021、引言安康位于我国中部、陕西省东南部,地处秦巴腹地,处于西安、重庆、武汉的几何中心,为“东接襄沔,西达梁洋,南通巴蜀,北控商虢”之地;汉江由东向西横贯中部,形成“两山夹一川”的自然地理格局。
悠久的历史、南北过渡与秦巴汉水独特的自然生态环境蕴育了丰富的旅游资源[1]。
全市现有旅游景区32处、景点78个。
景区湖光山色,古朴奇异,空气清新宜人,环境舒适优美,是休闲度假、娱乐观光、回归自然的旅游胜地。
近年来,安康的旅游环境不断改善,城市形象和知名度不断提高,其独特的自然生态旅游资源和地域风情吸引着国内外的游客。
相比于日益提高的旅游硬件设施建设,作为软件设施建设中的安康旅游对外宣传却相对发展滞后。
可以发现,作为安康旅游重要窗口之一的安康旅游网迄今为止尚无“旅游指南”的英文网页。
旅游外宣旨在反映一个地方的对外开放政策、经济文化、建设成就,争取外地游客的了解、信任和支持,在国内外树立一个地区良好的对外形象。
旅游外宣翻译是旅游资源对外宣传、推介的最主要、最直接的手段之一,有助于树立一个地方的良好形象,吸引国内外游客,推动当地旅游业的发展。
为此,结合当前国内外旅游外宣翻译研究成果,探讨安康生态旅游资源汉英翻译平行语料库的构建思路及其在旅游资源推介、旅游翻译研究与教学中的应用前景。
2、平行语料库研究现状语料库(corpus)是一个将真实情况下使用的海量语言信息经过科学收集和组织而集成的专供研究使用的资料库[2]。
【CN110046261A】一种建筑工程多模态双语平行语料库的构建方法【专利】
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910323653.6(22)申请日 2019.04.22(71)申请人 山东建筑大学地址 250000 山东省济南市历城区凤鸣路1000号(72)发明人 张晓红 王薇 张聪颖 丁玫 高金岭 鲍玉平 (74)专利代理机构 青岛高晓专利事务所(普通合伙) 37104代理人 张清东(51)Int.Cl.G06F 16/36(2019.01)G06F 16/953(2019.01)(54)发明名称一种建筑工程多模态双语平行语料库的构建方法(57)摘要本发明属于数据处理技术领域,具体涉及一种建筑工程多模态双语平行语料库的构建方法;语料筛选、语料提取、校对、语料切分、对齐、去噪、得到平行语料库、语料库更新和扩容六个步骤;为建筑词汇提供了丰富的对比样本,检索出的词汇或句法的含义都是与建筑相关的,排除了一些无用的含义;为使用者提供数量巨大的双语对译样本,切分精细,精准度高,检索出的词汇或句法含义都是建筑相关的,排除了一些无用的含义,为使用者提供了数量巨大的建筑类双语对译样本。
权利要求书2页 说明书5页 附图4页CN 110046261 A 2019.07.23C N 110046261A权 利 要 求 书1/2页CN 110046261 A1.一种建筑工程多模态双语平行语料库的构建方法,其特征在于:具体包括以下步骤:(1)语料筛选:通过网络下载、扫描识别、手工录入和网络爬虫方式获取原始语料,原始语料的主要来源为国家级出版社正式出版的建筑类英汉双语著作、政府公文报告、官方认证材料、建筑行业正式会议的音频、视频、图纸、图片;(2)语料提取、校对:利用现代影像技术采集多模态建筑工程类信息(图片、图表、图纸、视频、音频以及文字),并对其进行挖掘、构建;然后进行校对,对服务器上的原始语料进行增、删、改、查操作,对原始语料进行数据的清洗和去除,校对无误后保存,并将双语语料在Tmxmall软件中做成以段落为主的句对齐方式;(3)语料切分、对齐:将步骤(2)中对齐后对句段进行切分,使得每一对双语平行句对,在Word的可视文档中不超过四行;(4)去噪:采用人工降噪的方式,对翻译结果不精准的语句或段落进行修改,手动录入并保存至语料库,确保了语料库在计算机辅助翻译过程中的精确匹配;(5)标注与转写:在标注软件上建立不同的标注层,从不同的视角和方面对语料进行标注;并用多模态语料库标注与检索软件,对转写内容、音频和视频进行同步呈现,同时支持文字、音频和视频多种形式结果输出;(6)得到平行语料库:对已识别的文字依次进行机器翻译,并采用人工翻译进行校正后得到平行语料库;(7)语料库更新和扩容:语料库更新通过更新单元来控制,更新单元不定时弹出推荐词条及其推荐权重,根据推荐词条和推荐权重将推荐词条写入语料库,推荐权重是根据推荐词条弹出该单词或语句的次数来确定。
新疆外宣翻译平行语料库的建设和应用
将分 为政 治 、 经济 、 教育 、 游 、 旅 民俗文 化等 五个 子库 , 每个 子库 又分 为词库 、 句库和语篇库 。
感 性。新疆 的许多人名地名都 采用少 数民族语言 , : 如 依布
2 .语料搜 集选取 与整理 搜集 网络 、 书刊 、 报纸 、 宣传
册 以及旅 游景点 内的新疆 外宣英 汉对译 材料 ; 成立专 门的 英译质 量审定 小组 , 选取有代表性且质量 高的汉英语料 ; 通 过人工 录入 、 整理 和校对 , 将所有选 取的材料保存为整齐干 净 的电子文本 文档格式 , 以方便程序处理 。 3 .语料 标注 X ML标 记语 言是 当今 数据 库建设 中较 为先进 的语言 , 因此 , 该语料 库可 用 X ML语言对 所有 语料
“ 谓文 本对 齐 , 所 就是 将 中英 文语
料 配对放在一起。文本对齐 问题 , 是关 系到所建 设 的语料
库使 用价值的重要 问题 。 ”3由于 汉英 两种 语言 在 翻译 长
、
引 言
新疆拥有着丰富独特的人文 自然景观 和文化 内涵 。然 而, 由于地理历史政治 等各方 面 的原 因, 长久 以来 , 疆很 新 少为外界所 了解 。再加上 一些分 裂分 子的歪 曲宣传 , 西方 世界甚至对新疆充满 了误 解 。因此 , 强新疆 的对外 宣传 加 力度 , 提高新疆 的对外 宣传质 量 , 对促进 新疆 的经济 发展 , 维护新疆的社会稳 定具有举 足轻重的作用 。外宣材料 的英 文翻译质量是决定外宣效果的最直接的 因素 。然而笔者通 过对新疆 部分典型企业 、 学校 、 机构 、 游景点 等的英 文介 旅
种语 言的源语文本及其 具有词 、 句或 段级平 行对应关 系 的
译语 文本组成 , 两种语言 问对应关 系的宝藏 , 以为译者 是 可
内蒙古地方政府中、英文网站的汉英平行语料库的创建和应用
李晓旭张红内蒙古工业大学【提要】随着科技的发展,计算机辅助翻译受到越来越多的关注,其中,平行语料库对于提高翻译质量、效率,以及保证译文一致性有积极作用。
本文基于内蒙古几个地方政府的官方中、英文网站上的文本,尝试运用Tmxmall在线语料对齐工具、ExcelToTxt(for MDX)和MdxBuilder等软件对收集的语料进行加工和处理,以创建涉及内蒙古的民俗文化、旅游景点和企业产业的汉英平行语料库(包括翻译记忆库、术语库和电子词典)。
期望通过目标语料库,研究相关政府英文网站中内蒙古文化负载词的英译特点及方法,为研究和翻译内蒙古相关文献提供参考。
【关键词】内蒙古翻译,地方政府英文网站,汉英平行语料库,文化负载词【中图分类号】H0【文献标识码】A【文章编号】2095-9648(2020)02-0051-061.引言随着翻译实践的发展,越来越多的译者采用语料库来提高翻译的效率和质量,并利用语料库解决译文一致性等问题。
在语言学中,语料库(corpus)通常指大量电子文本的集合。
一个语料库由若干真实语言的电子文本构成,而这些电子文本按照一定标准整理并收集起来。
语料库一般具有代表性,一个语料库可以代表某一种语言或文类,语料库研究的结论可以推广至相应的语言或文体。
按照语言属性,语料库可以分为平行/双语语料库(parallel/bilingual corpus),即由源语文本及译语文本相对应构成的双语语料库,其双语对应包括词语间、句子间和意义单位间等几种(梁茂成、李文中、许家金2010:3-5)。
平行/双语语料库对于研究语言对比、双语词典编纂、翻译等具有重要意义。
汉英平行语料库对研究汉语英译有一定意义。
近年来,国内外学者和专家不断进行双语平行语料库的研究和建设,并且取得了显著的成果。
目前,在翻译实践应用方面,代表性的语料库有“欧洲议会平行语料库”(European Parliament Proceedings Parallel Corpus1996—2011),其涉及20种语言与英语之间的句级对齐。
赣南红色旅游英汉平行语料库建设
赣南红色旅游英汉平行语料库建设作者:朱佩颖邹艳菁来源:《青年文学家》2014年第26期基金项目:赣州市社会科学研究课题“赣南红色旅游英汉平行语料库建设与应用研究”(编号:13181)摘要:旅游宣传无疑是地方旅游业发展的重要环节,只有准确而全面的对外宣传才能使地方旅游特色得到关注和认可。
旅游景点及相关材料的英译水平对于地方旅游业提升层次、扩大影响和吸引游客有着直接而深远的意义。
英汉平行语料库建设可以提高旅游资料的英语翻译水平,并能统一和规范对外宣传口径。
本文以江西省赣南地区红色旅游为例,对旅游资源英汉平行语料库建设的必要性和具体实施途径进行了初步探索。
关键词:赣南地区;红色旅游;平行语料库作者简介:第一作者:朱佩颖(1982-),女,助教,主要研究方向:英语教育。
第二作者:邹艳菁(1980-),女,讲师,主要研究方向:跨文化研究、英语语言学。
[中图分类号]:H059 [文献标识码]:A[文章编号]:1002-2139(2014)-26--02一、引言地方旅游业的发展需要深度挖掘当地名胜景点的内在价值,并做出具有前瞻性的战略规划和总体设计。
不同旅游景点有其自身的历史发展背景,在整体旅游产业大环境中形成属于自己的特色旅游产品。
毫无疑问,结合广告宣传进行持续的品牌建设对于旅游景点的开发、发展和维护都具有重要的意义。
旅游景点介绍和标牌等对外宣传用语的英语翻译不仅仅可以扩大国际影响,打开跨国旅游市场,它还能够展现地方旅游景点甚至所在城市的国际化程度、开放与文明水平,达到提升旅游景点整体层次的效果。
但是,从目前的旅游英语翻译现状来看,总体情况不容乐观,存在大量中式英语、版本多样、表达简单、拼写错误、用词不当和以讹传讹等翻译错误(王严超,2013)。
要改善当前的旅游英语现状,需要来自旅游业经营者、翻译工作者和外语教学人员等各方面力量的齐心努力。
随着语料库与翻译研究的逐步深入,我们发现,通过建设英汉平行语料库,可以提高旅游英语翻译的整体水平,并能对专用名词和特定表达进行统一规范,从而强化对外宣传效果。
构建汉英平行语料库 探索听说课课堂改革
构建汉英平行语料库探索听说课课堂改革构建汉英平行语料库探索听说课课堂改革近年来,随着全球化的不断发展,汉英语言交流的需求与日俱增。
为了提高中学生的听说能力,加强汉英语言沟通能力的培养,我们学校决定构建汉英平行语料库,并将其应用于听说课的课堂改革中。
一、构建汉英平行语料库的意义构建汉英平行语料库对于学生的英语听说能力的提高具有重要意义。
首先,通过汉英平行语料库的建设,学生可以提高对英语语音和语调的理解。
通过对中英文平行语料的对照和分析,学生可以更好地理解英语中的重音和连读等特点。
其次,汉英平行语料库可以帮助学生扩充词汇量。
通过对照汉英平行语料中的词语和表达方式,学生可以更好地学习和运用新的词汇,提高自己的口语表达能力。
此外,通过汉英平行语料库的应用,学生还可以了解中英文之间的文化差异,提高跨文化沟通与交流的能力。
二、汉英平行语料库的构建方法构建汉英平行语料库需要进行大量的语料收集和整理工作。
首先,我们可以通过网络、图书馆等途径收集到各种类型的汉英平行语料,如新闻报道、电视节目、网络文章等。
其次,我们需要对这些语料进行整理和分类,进行汉英语对照,并标注出相关的语法、词汇和表达方式。
最后,我们可以利用现有的语料整理工具对汉英平行语料进行组织和管理,形成可供学生使用的语料库。
三、汉英平行语料库的应用于听说课汉英平行语料库的应用可以为听说课的教学提供有力的支持和辅助。
首先,教师可以利用汉英平行语料库的对照功能进行教学。
通过在课堂上对照汉英平行语料,教师可以帮助学生更好地理解和掌握英语的发音、语调和表达方式。
其次,学生可以利用汉英平行语料库进行自主学习和练习。
他们可以通过对照汉英平行语料,提高自己的发音和语流,丰富自己的词汇量,并进行口语表达的训练。
此外,汉英平行语料库还可以用于课堂评估,教师可以通过对比学生的口语表达和汉英平行语料库中的范例,给予学生更准确的评价和建议。
四、听说课课堂改革的效果评估经过一段时间的实践,我们可以对听说课课堂改革的效果进行初步评估。
面向翻译教材编撰的平行文体语料库建设
收稿日期:2014-2-13;修改稿:2014-3-8*项目资助:江苏省教育科学“十二五”规划课题“21世纪英语专业教学改革研究”(y~a/2011/03);江苏省高校哲社项目(2012SJD740019);南京邮电大学教改项目(JG00911J94)。
1. 引言Leech & Short (2001)认为文体有几种识别方式:一为质的偏离(deviation );二为量的突显(prominence );三为过度常规(over-regularity )。
前者多指文学创作中作家个人的语言使用风格(writerly idiosyncrasies ),后两者多指经过长期使用而约定形成的固定的语言使用模式,主要体现于非文学体裁。
如果说前者由于因人而异而千差万别,那么后者则较为有章可循,便于总结。
如果我们能够将应用文体在词汇、句法、语篇等层面的文体特征加以归纳、总结,借助语料库的支持,则翻译教学以及翻译教材编撰可变得更有针对性、系统性、操作性,从而避免现有翻译教材常出现的一些弊端。
2. 现有翻译教材常见的弊端目前市场上有不少内容不可谓不详实的翻译教材,但就针对某特定文体的教材编撰而言,弊端也不容忽视。
主要体现在以下几点。
2.1 停留在转换技巧以科技文体为例,国内很多科技翻译教材,名目上以科技翻译为教学内容,但内容上还没有脱离翻译转换技巧的窠臼,千篇一律地讨论已经被诸多教材大量重复的普适性翻译技巧,虽然译例为科技语言,但没有体现出科技语言的文体特色。
这种重复转换技巧的教材编撰方式导致各文体之间区分度较小,具体文体针对性不强,学习效果也大打折扣。
2.2 文体模块不系统有不少教材虽从具体文体出发,但内容安排随意性较强,文体的涵盖欠缺系统性,尤其缺乏语篇层面的文体参数。
且不乏有教材花费大量篇幅介绍较为宏观的翻译理论与翻译史,对教材编纂的出发点有所偏离。
2.3 解决方案不够多样现有翻译教材常出现“重规定、轻描写”(胡开宝,2001)的弊端,即常常过分死板地列出单一的解决方法,忽视了实际翻译行为中解决方案往往呈多样化的特征,即某具体文体现象可能会有多种翻译方法。
历史风貌区英文公示语翻译现状调查研究报告
历史风貌区英文公示语翻译现状调查研究报告作者:刘瀚肖瑶瑞智翁胜凡来源:《校园英语·下旬》2021年第09期【摘要】在大量国际友人来华的时代背景下,武汉成了越来越多外国游客选择的重点城市。
而汉口历史风貌区承载了武汉这座城市的历史记忆,见证了武汉在近现代历史中的变迁与发展,成了外国游客在武汉旅游的热门区域。
但风貌区内英文公示语翻译状况却不尽人意、良莠不齐,在给国际友人带来诸多不便的同时,影响了武汉的对外形象。
因此,对该区域内英文公示语翻译现状进行调查,不断规范和完善该区域内公示语翻译成为了该项目的重点研究任务。
【关键词】风貌区;公示语;翻译现状【作者简介】刘瀚,肖瑶瑞智,翁胜凡,武昌首义学院。
一、项目实施的目的、意义自改革开放以来,我国不断深化改革、扩大对外开放、加强国际间的交流与合作,在政治、经济、文化等方面取得了一系列的重大成就,政治稳定,社会和谐,经济高速发展,国家综合实力显著提升,国际知名度和国际影响力大大增强,在成功举办奥运会、世博会以及G20峰会等世界性盛会之后,越来越多的外国游客和留学生涌入中国。
武汉,是湖北省的省会城市,是中国中部地区的中心城市,素有“九省通衢”之称;同时也是国家历史文化名城,楚文化的重要发祥地,近代中国重要的经济中心,被誉为“东方芝加哥”,近代史上数度成为全国政治、军事、文化中心。
发达的交通,繁荣的经济,悠久的历史相互交织赋予了这座城市独特迷人的魅力。
武汉日新月异的发展吸引了全世界的目光,成为越来越多的国际友人来华选择的重点城市。
汉口历史风貌区是根据武汉市自然资源和规划局的划定,由沿江大道—江汉路—京汉大道—黄浦大街围合的区域。
这里承载了武汉这座城市的历史记忆,见证了武汉在近现代历史中的变迁与发展,而这里向来也是这些外国游客在武汉旅游的热门区域。
汉口历史风貌区内的建筑、街道名称、公交站台、标志牌、广告牌等的英文公示语翻译成为了武汉的文明标志,也成了武汉这座城市文化内涵的体现;与此同时,它不仅仅代表着武汉的形象,乃至中国的形象,更承载着文化输出的重要任务。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
旅游博客 , 世 界各 地如英 国 、 法国 、 美国、 韩 国等 国的旅游 公 司 网站及世界知名大学的建筑学图书馆 , 如美 国康奈尔大学 图书 馆、 台湾 大学图书馆 网站等立体 多层面推介 资源 , 可以收集有 关 国外历史风貌建筑文本相关语料 。 语料 收集可 以采 用个案 研究 的方法。本方案 的语 料来 自
二、 语 料 分 类
风貌建筑的公示语 翻译 为例 , 讨 论了网助翻译与实用 文本 汉译 英 的准确性和可接受性 。岑秀文在《 天津历史风貌建 筑铭牌英 译析论》 一文 中对天津历 史风貌建筑铭牌英译混乱现象进 行分 析并试改译 , 进而强调基于平行 文本仿写理念进行外译并 呼吁
多个城市或地区联合共建历史风貌建筑翻译语料库 。 近十年 , 新兴的语料库技术 在外语 教学和研究领域得 到了 越来越多 的重视 , 而 国内学者对于语 料库技术与旅游 翻译 的结 合研究却数量不多 。北 二外建立 的全 国公 示语 翻译语料 库 已 将5 0 0 0余幅以英语原始公示语语料 图片和参考译文 , 包括法 、 德、 意、 日语种的 图片配参考译 文上 网。北 二外 的具 体做 法可 以参考 。安徽大学 曾以皖南地 区的主要 旅游 资源为例完 成特
[ 文献标识码 ]A
[ 文章编号 ]1 6 7 1 — 5 9 1 8 ( 2 0 1 5 ) 2 1 — 0 1 2 6 - 0 2 [ 本刊 网址 ]h t t p : / / w w w. h b x b . n e t
成 本 又 便 于 外 国 游 客查 找 , 同 时 有 效 促 进 我 国历 史 风 貌 建 筑 翻
殊 语 域 汉 英 翻 译 语 料 库 的构 建 与 应 用 。 这 些 对 我 国 的翻 译 研 究尤其是语料库 的应用起 到了有力 的推动作 用。本文将 平行 语料库技术引入历史风貌建筑 翻译 , 从语料 收集 、 语料分类 、 语
以笔者所在的城市天津为例 , 以天津市历 史风貌建筑 的英 文翻译文本资料 ( 包括 网站介 绍 、 旅游宣传 册 、 景点介绍 、 公 示 语、 指示牌等) 为研究对 象 , 对 内容相互重叠的文本按照 名称 简 介、 文化典故 、 建筑术语 、 公示语等 四类别 进行分类 、 整理 , 同时 分析并归纳出天津市历史风貌建筑翻译 中存在 的突 出问题 。 ( 一) 名称简介 : 大致包 括具体 的地 理名称 、 天津 历史风 貌 建筑景点 名称 、 含义抽 象 的景点名 称 ( 包括 各种 匾额 ) 等三 大 类 。 具体 说 来 , 名 称 简 介 翻译 的方 法 不 外 乎 音 译 、 意译 、 音 意 结 合三种方法 。 ( 二) 文化典故 : 是 指 与 历 史 风 貌 建 筑 景 点相 关 联 的 文化 典 故知识 , 包括历史故事 、 风俗习惯 、 俚语等相关 内容。 ( 三) 建筑术语 : 是指历史风貌建筑在建筑样式 、 结构 、 施 工 工艺和工程技术等 方面具有 建筑 艺术特色 和科学 价值 的文本
注 。历史风貌建筑翻译作为非物质文化传 承的重要 手段 , 是 提 高我 国文化软实力 的重要途径 。然 而历史 风貌建筑 翻译质 量 良莠不齐 , 各种错误 屡见 不鲜 , 给外 国游 客带来诸 多不便 。国 内学者对于历 史风貌 建筑 翻译 的研 究 , 以身 居港 澳 的学者 领
先, 张美芳在《 文 化途径看 澳 门—— 浅谈澳 门世界 遗产景点译 名》 一文 中比较原文与译文 的异 同, 追踪译 者所用 的异化 和归
与 旅 游翻 译 的结 合 研 究 却 数 量 不 多 。本 文从 语 料 收 集 、 语料 分类、 语料库 建设、 语料库应 用等四个不 同的方面, 阐述 历 史风 貌 建 筑翻 译 平 行 语料 库构 建方 案 。 [ 关键词] 历史风貌建筑; 翻译 ; 平 行语 料 库
[ 中图分类号]G 6 4 2
天津市旅游 网站介 绍 、 旅游宣传 册 、 景点介绍 、 公示 语 、 指示 牌 等, 属于珍贵的一手 资料。在语料 库技术 的支持 下 , 具 体分 析 这些 翻译 实例 , 如武德 殿 、 静园、 天津 自然 博物馆 、 河北 工业 大 学校史馆 的汉英文本与国外相关语料的对 比研究 , 通过大量 实 例证 明该技术 的可行性和针对性 , 在 翻译 实践和理论模式之 间 找到了一个契合点 。
湖北函授 大学学报 ( 2 0 1 5 ) 第2 8卷第 2 1期 总第 1 6 3期
历 史风貌 建筑翻译平 行语料库构建方案
姚
[ 摘
爽, 葛晨 曦 , 张
晔
3 0 0 4 0 1 )
( 河北工业大学外 国语学Байду номын сангаас院 , 天津
要] 近十年, 新兴的语料库技术在外语教 学和研 究领域得到 了越 来越 多的重视 , 而国 内学者对 于语料库技 术
化 的翻 译 策 略 , 并 讨 论 了 导 致 不 同 的 译 名 的可 能 成 因 。有 关 天 津历史风貌建筑翻译 , 吴 自选 、 韦利 以天津“ 五大道 ” 地 区历 史
译规 范化建设 , 提供示 范和强力语 料支持 , 为我 国国际化都市 和旅游组织官 网, 国内外
表达。
料库 建设 、 语 料库应用 等四个不 同的方面 , 阐述旅游景点 翻译 平行语料库的建设 方案 。
一
、
语 料收 集
d o i : 1 0 . 3 9 6 9 / j . i s s n . 1 6 7 1 — 5 9 1 8 . 2 0 1 5 . 2 1 . 0 6 2
随着党的十八 大的召开 , “ 文化 软实力 ” 和“ 中华文化走 出 去” 作 为党 的重 要执 政理念 和重要 理论 热点 受到 研究 者 的关