中国英汉平行语料库的设计与研制

合集下载

浅谈如何快速搭建英汉双语平行语料库与平行语料库检索平台

浅谈如何快速搭建英汉双语平行语料库与平行语料库检索平台

浅谈如何快速搭建英汉双语平行语料库与平行语料库检索平台语料库不仅在商业领域有着重要的作用,在翻译学研究、语用学研究以及实践教学等领域都有重要的作用。

语料库研究与应用是以语料库建设为前提,语料库建设是所有环节中最为重要的一个环节。

语料库在商业领域与科研教学领域的应用与研究的快速发展,得益于语料库建设的技术手段日益成熟,同时语料库也呈现出多样化的应用与实践。

本文通过深度探索语料库建设与应用的前沿技术发展与应用情况,重点介绍建立英汉语料库以及平行语料库应用平台所需技术支持以及详细的语料库建设与应用操作细则。

标签:语料库建设;语料库应用;双语平行语料库语料库分为单语语料库、双语语料库以及多语语料库,语料库是语言实际应用过程中产生的语言数据,例如图书的翻译、商业文件的翻译以及新闻报告的翻译等语言数据都是形成语料库的基本语料材料。

目前的研究主要是基于双语语料库的制作与应用,双语语料库也是最为广泛使用以及数量最多的语料库种类之一,语料库的存放是以数据库的形式存在为主,形成真正的语料库需要经过收集、转化、降噪、对齐、审校等诸多步骤,形成最终可用的语料库。

语料库的建设目的是多样化的,语料库的来源也是极其广泛,其中尤为重要的环节就是语料的对齐,语料对齐的速度直接决定了语料库制作的效率。

高质量的语料库是进行语料库制作与应用的基础,语料库的质量会直接影响最终的应用效果。

一、研究意义语料库的研究与应用目前在商业领域已经有了突飞猛进的发展,特别是近两年神经网络的发展,语料库对于机器翻译的发展奠定了基础,极大提高了目前谷歌、百度、搜狗、有道以及必应等机器翻译引擎的质量。

不仅如此,商业领域的巨头包括强生、中石化、微软、阿里巴巴以及腾讯等诸多公司都在不同程度的基于语料库提升在各自特定領域的机器翻译引擎质量,其中阿里巴巴的机器翻译引擎已经为中国众多企业将成千上万的商品推向全球市场提供了翻译支持。

不仅如此,语料库在学术、科研以及教学实践等应用方面都有着举足轻重的作用,利用语料库可以进行语用学、翻译学、译者行为、语言风格等多方面学术科研;同时语料库在教学中也广泛应用,通过语料库进行教学应用,教师可以将学生的翻译作业整理成语料库,利用语料库检索功能,学生可以进行自查自纠,教师也可以通过制作学生翻译作业的语料库寻找共性问题进行讲解,帮助学生解决翻译实践中产生的问题。

教学型汉英口语平行语料库语料研究

教学型汉英口语平行语料库语料研究

教学型汉英口语平行语料库语料研究1. 引言1.1 研究背景随着全球化的推进,汉英口语交流在教育、商务、科技等领域中变得越来越频繁。

在这种背景下,教学型汉英口语平行语料库的建立和研究变得尤为重要。

目前,虽然存在一些通用的口语平行语料库,但由于教学型口语在语言理解和应用方面具有特殊性,因此有必要针对教学型汉英口语建立专门的平行语料库。

这将有助于教师在教学过程中更好地辅助学生进行口语表达,提高口语交流能力。

当前存在的教学型汉英口语平行语料库往往过于简单或者过于专业化,无法满足广泛教学需求。

有必要对现有的教学型汉英口语平行语料库进行深入分析,挖掘其中的优点并加以改进,以进一步提高教学效果。

本研究旨在探讨教学型汉英口语平行语料库的建立与应用,为教学型口语的提升提供理论支持和实践指导。

通过对现有教学型汉英口语平行语料库的研究,我们将更好地了解其发展现状、面临的挑战以及未来的发展趋势,为口语教学领域的发展贡献力量。

1.2 研究目的Overall, the goal of this research is to contribute to the field of language education by highlighting the potential benefits ofusing a Chinese-English parallel corpus in the classroom. Through this investigation, we hope to uncover new perspectives on language learning and teaching strategies, ultimately enhancing the learning experience for students of Chinese and English.1.3 研究意义教学型汉英口语平行语料库的研究意义体现在以下几个方面:1.促进语言教学与学习:通过构建教学型汉英口语平行语料库,可以为教师和学生提供更丰富、更真实的语言素材,帮助学生更好地理解和掌握汉语和英语口语表达方式,提高他们的口语交流能力。

外宣翻译汉英平行语料库的创建与研究

外宣翻译汉英平行语料库的创建与研究
流中的很多表 达习惯不 尽相 同, 又 因为 中国历史悠久 , 文化 内涵 丰富 , 因此实 际上许多外 国人对 于我国的了解仅仅局限于一些多 媒 体资料上 的介绍 , 并不真正 的了解 中国文化 的内涵 。因此 。 我 们在进行 外宣翻译过程 中, 应该 注重 其对外传播的功能和传播 的 对象, 即外宣 的“ 外” 字, 做到 以读者为 中心 的翻译原 则。
宣传 自身的形象 、 资料等 , 即是通过翻译工作 向外界展示 自 身, 将 自身 的一些 特性 通过对方的语言或文字展现给对方 。因此 , 外宣 翻译工作 的主体 并不是我们本身 , 而是我们 宣传 工作所 面对的对 象 。而在实 际翻译过程 中 , 我 们常常 习惯性 的以 自身 为主体 , 而 并 未把 宣传 对象的认知和接受习惯放在首位 。在我们 中国 , 这种 现 象尤为 突出 , 因为我们 的外 宣对象主要是 西方 国家 , 而经过这 么 多年的发展 , 东西方 国家 之间的文化存在着 巨大的差异 , 在交
2 平 行 语 料 库 的创 建 与研 究
网。汉语 和英语 的电子化需 要分别使用不同的处理软件 , 以便取 得最 优化效果 。汉语纸质 内容扫描 后保存 为J P E G文件 , 利用 专 门的软件 处理 , 得到t x t 格 式 的文本 文件 , 务必 要保 证其 识别 率 高, 即保证 原文 的准确 性 。英 语纸 质 内容 扫描 后保存 为 P D F 文 件, 利 用专 门的软件处 理 , 得到 t x t 格式 的文本文件 , 同样 的也要 求其识别率高 。若是 纸质内容中既有汉语 内容也有英语 内容 , 则 将扫描后 的J P E G文件进行裁剪 , 将汉语内容和英语 内容分开 , 再 分别用不 同的处理 软件进行处理 , 最终 完成 纸质书本 电子化 的工 作。

教学型汉英口语平行语料库语料研究

教学型汉英口语平行语料库语料研究

教学型汉英口语平行语料库语料研究随着全球化的不断发展,汉语和英语作为世界上最重要的语言之一,越来越多的人开始学习这两种语言。

为了更好地促进汉英口语教学的有效性和效率,构建和利用教学型汉英口语平行语料库成为了当前语言教学研究的一个热点话题。

教学型汉英口语平行语料库是指收集并整理汉语和英语口语表达的语料库,进行研究和分析,以帮助汉语和英语学习者更好地掌握口语交流能力。

一、平行语料库的意义教学型汉英口语平行语料库对于口语教学的意义重大。

通过对实际口语语料的收集和整理,可以帮助学习者更好地了解和掌握两种语言的口语表达习惯和特点,提高口语交际能力。

通过对语料库的研究和分析,可以为口语教学的教材编写提供可靠的语言参考和实例。

通过对口语语料的比对和对比分析,可以帮助学习者更好地理解两种语言之间的异同之处,减少语言障碍,提高口语表达的自信心和有效性。

二、语料库的构建教学型汉英口语平行语料库的构建需要进行大量的数据收集和整理工作。

需要搜集并整理汉语和英语口语表达的实际语料,包括日常口语、学术口语、商务口语等多种领域的口语表达。

需要对收集到的语料进行整理和分类,建立起不同领域和场景的口语语料库,以便进行后续的研究分析和应用。

需要对语料库进行不断更新和完善,以保证语料库的时效性和可用性。

教学型汉英口语平行语料库的研究内容主要包括对口语语料的分析和比较,以及对口语特点和表达习惯的研究。

需要对两种语言的口语表达进行比较分析,找出其共同点和不同点,揭示其语言特点和表达习惯。

需要对口语语料进行分类和整理,形成常用口语表达的语料库,并对语料库进行统计分析,找出其使用频率和语法规律。

需要对口语语料进行语用分析,揭示其语言功能和交际特点,为口语教学提供理论依据和实践指导。

教学型汉英口语平行语料库的构建和研究对于促进汉英口语教学和促进汉英语言交流具有重要的意义。

在未来的研究工作中,我们需要进一步深入研究和利用语料库,探索其更多的应用领域和潜在价值,不断提高其信息化水平和智能化程度,为语言教学和语言研究提供更加丰富和可靠的语言资源。

教学型汉英口语平行语料库语料研究

教学型汉英口语平行语料库语料研究

教学型汉英口语平行语料库语料研究一、教学型汉英口语平行语料库简介教学型汉英口语平行语料库是一种专门为口语教学设计的语料库,它包含了大量的汉语和英语口语对照的语料,可以为学习者提供丰富的口语实践材料。

在教学型汉英口语平行语料库中,通常会包括各种日常口语对话、情景会话、口语练习题等内容,以满足学习者在口语交流方面的需求。

这种语料库还能够帮助学习者比较汉语和英语之间的口语表达方式,促进语言对比和语言习得。

二、教学型汉英口语平行语料库的语料研究内容1. 口语对话的语料分析教学型汉英口语平行语料库中的口语对话是学习者进行口语练习的重要素材,因此需要对这部分语料进行深入的分析研究。

语料分析可以包括对口语对话的话题、语言风格、语用习惯等方面的研究,以便于为口语教学提供恰当的语料资源。

2. 口语练习题的设计与评估教学型汉英口语平行语料库中通常还会包括各种口语练习题,这些练习题的设计对于口语教学的有效性起着重要的作用。

因此需要对口语练习题的设计原则、难易度、语言情境等方面进行评估和研究,以保证这些练习题能够符合学习者的口语水平和学习需求。

三、教学型汉英口语平行语料库的语料研究方法1. 语料采集语料采集是教学型汉英口语平行语料库语料研究的基础工作。

在语料采集过程中,可以通过录音、采访、调查等方式获取口语对话和练习题的语料,同时还可以收集学习者的口语表达数据,以丰富语料库的内容。

2. 语料整理与分类采集到的口语语料需要进行整理与分类,以便于后续的语料分析和研究。

在整理与分类的过程中,可以依据口语对话的话题、语言风格、语用习惯等特点进行分类,同时还可以根据口语练习题的难易度、语言情境等进行整理。

3. 语料分析与评估对整理分类好的口语语料进行深入分析和评估是教学型汉英口语平行语料库语料研究的重点工作。

在分析与评估过程中,可以使用语言学、教育学、心理学等学科的理论和方法,对口语语料的特点、难点、习得路径等进行科学研究。

2. 口语教学方法的探索教学型汉英口语平行语料库可以为口语教学方法的探索提供重要的参考依据。

中国科学院汉英平行语料库

中国科学院汉英平行语料库

中国科学院汉英平行语料库
中国科学院汉英平行语料库(Parallel Corpus of Chinese Academy of Sciences)是一个结构整齐、体积庞大、全方位覆盖的、
面向科技文献翻译的大规模语料库,是中国科技研究文献汉英翻译的
极佳资源。

本平行语料库收录的文献共计达到700多万句,包括来自中国科
学全文数据库、中国科学文摘数据库、维普资讯网、万方科技云等多
种来源的语料,覆盖了国内各种学科的文献翻译,丰富了汉英翻译资源,有助于科学研究。

中国科学院汉英平行语料库由中国科技文献翻译研究重点实验室,以及中国工程院等机构联手制作而成,从平行语料收集、平行语料处理、数据标注、语料质量检验等多个方面考虑,采取多种技术手段,
结合中文语料注记标准和英文规范,实现了翻译文献自动化标注,实
现了文本在线查询、翻译查询和语料挖掘等功能。

中国科学院汉英平行语料库对于文献翻译、机器翻译、口译辅助、自然语言处理和语言学研究等领域都有重要应用价值。

经多方测试,
本库满足了机器翻译系统训练所需的高质量、大规模的汉英平行语料
的要求,针对机器翻译的分析预测开发,研究的执行效果有明显的提升。

此外,中国科学院汉英平行语料库还对外提供汉英、汉法、汉德
等多语种的神经网络翻译系统,支持跨语言机器翻译,支持词法短语
翻译等覆盖面更加透彻的翻译服务,搭建起一整套健全的翻译系统,
广大研究人员和学者可以在线上获得高效、准确的翻译结果,满足学
术研究和实际应用的需要。

中国科学院汉英平行语料库在自然语言处理领域发挥了重要作用,极大提升了中国自然语言处理市场的竞争力,为自然语言处理的发展
推进了大中国语言环境的翻译。

汉、英平行语料库的研究与构建

汉、英平行语料库的研究与构建

可 以 获得 为平 行 语 料 。 本 文将 构建 一 个 大 规 模 的 汉 英平 行 语 料 库 自动 收集 系 统 , 用 爬 使 在 网 页 的判 定 过 程 中使 用 深 度 作 为 依 据 , 度 就 是 从 主 页 开 始 算 深 虫 技 术 从 WE 中的 网页 抽 信 息 , 自动 的收 集 两 种 构 成 互 译关 系 语 言 B 起访问到当前页面需要 的连接次数 , 级 页面的深度为一 。 二 三级 页 面 的文 本 存 储 在数 据 库 中 , 中不 但 有 源语 文本 , 有 对 应 的译 语 文 本 。 库 还 的 深 度 为二 , 过 对 大 量 现 有 网页 的 分 析 , 现 如 果从 人 口页 匾 算起 , 经 发 这 些 文 本 采 用 句 子或 段 落 对 齐 方 式 编 排 , 系统 可 以 对源 语 文本 和译 语 三 度 内页 面 都 没有 可用 信 息 , 整 个 网站 都 无 可 用 信 息 。 所 以 爬 虫 只 则 文本进行全文检索, 提供高效的对照检索。 并 判 断 从起 始 页 面起 深 度 小 于三 的 页 面 。 样 做 的 目的是 为 了让 爬 虫 不 这 文 章 的 意义 在 于学 习前 人 的 技 术 成 果 . 过 实 际 编 写 程序 深 入探 通 过 多 的 浪 费 资源 在 没 有 可 用 信 息 的 网 页 上 , 实 际 测 试 中 效 果 极 其 明 在 讨 平 行 语 料 库 的 构 建过 程 , 定 出 一 套 平 行 语料 库 自动 搜 集 系 统 的 解 制 显 。 决 方 案 , 开 发 相应 的 系统 软 件 , 终 构 建 一个 汉英 平 行 语 料 库 。 平 并 最 该
【 ywo d ] ete P rl l op s ue e uo aia ycl ci aa e cru Ke r sR pi ; aa e cru ; cn; tm t l ol t np l l o s l l L A el e o r l p

汉英学术平行语料库开发设计

汉英学术平行语料库开发设计
体 对 应 的语 料 库 。 双语语料库 又可分 为平行语 料库 、 翻 译 语 料 库 和
语料对齐可以基 于词汇层 面 , 即将 源 语 言 的 词 汇 和 其 对 应 的 翻 译 语 言 词 汇 对 应 起 来 。但 是 , 词 汇 层 面
除 了形 式 上 的 一 一 对 应 , 还 有一对 空 、 空对 一 、 空 对 多
语料库可 以是单向的 , 也可 以是双 向甚至多 向的 。
语 料 库 的 语 料 来 源 一 般 分 为 纸质 材 料 、 电子文档 、 网络 资 源 和 其 他 ( 如 通 过 拍 照 或 录 制 得 来 的 语 言 材 料) 。 网络 来 源 的语 料库 又 分 为人 工 采 集 ( 即 通 过 人 工 选择性收集语料 , 经 过 人 工 降 噪 和 格 式 整 理 转 化 为 需
中, 双语“ 对应单位” 的对 齐研 究成 为 新 的 焦点 。本 研 究从 一 个 小 的 试 验 性 汉 英 平 行 学 术 语 料 库 的 建设 着 手 , 围绕
建库设计 、 双语“ 对应单位” 对 齐和 索 引软 件 开 发 等 展 开 , 希 望 为 大 型 汉 英 学 术 平 行 语 料 库 的 建 设 提 供 一 个 操 作 参
机 自动 采 集 语 料 , 然 后 对其 进行 人 工选 择 和整 理 ) 。
( 二) 双 语 对 应 单 位
重组 , 其 对 于 翻 译 的 实 际 作 用 有 限 。 目前 一 些 研 究 者 正致力于基于双语 对应 单位 的对齐 , 以 实 现 基 于 实 例
和 基 于 存 储 的 自动 翻 译 。双语 对应 单 位 的 提 取 多 来 自
第3 2卷 第 7期
Vo 1 . 3 2

211112959_农业科技汉英双语平行语料库的建设与应用

211112959_农业科技汉英双语平行语料库的建设与应用

本文主要介绍了农业科技汉英双语平行语料库的设计和建库过程,重点阐述农业科技汉英双语语料的选择、加工和对齐处理等具体操作步骤,继而探讨该语料库在翻译教学和研究以及在农业科技国际化和现代化发展中的应用前景,力求为农业科技英语翻译教学和研究开辟出全新的视角和路径,以助推农业大数据化的发展战略,促进中外农业科技交流与合作。

:农业科技英语;平行语料库;建设应用语料库是指按照一定的语言学原则,运用随机抽样的方法,通过收集语言文本或话语片段而建成的具有一定容量的电子文本库[1]。

平行语料库由某种语言的源文本和另一语言的翻译文本组成,是语料库翻译研究中比较常见的一种类型。

平行语料库最突出的特点在于源语言和目的语之间的平行对应和共享,促使翻译研究从小规模、直觉式研究模式,向系统性、大规模的描述式研究模式转变,提高翻译的效率和质量。

随着农业科技国际交流和合作的发展,农业科技翻译的重要性日渐受到重视。

然而,现阶段我国农业科技汉英翻译中存在翻译质量低下、翻译效率不高等问题[2]。

鉴于此,本研究通过分析农业科技英语语料库的研究现状,阐述构建该类型语料库的重要性及必要性,继而对语料库构建的具体步骤,包括语料库的设计、双语语料的选择、采集和加工以及对齐处理等进行详细描述,并对该语料库在翻译教学和研究以及在农业科技国际化和现代化发展中的应用前景进行探讨,力求为农业科技英语翻译教学和研究开辟出全新的视角和路径,促进中外农业科技交流和合作。

1.农业科技英语语料库研究现状20世纪60年代,语料库建设开始从通用型向专门用途型转变,涵盖医学、旅游、法律、教育教学、科技等领域,并逐渐应用到相关研究和教学中。

20世纪90年代起,中国学者开始语料库建设并利用语料库进行翻译研究[3]。

农业科技英语作为专门用途英语的一个分支,不乏利用语料库对其进行的探讨和研究。

王敏、李丽霞[4]探讨了农业英语语料库的创建思路及相关技术支撑,指出并总结了专门用途英语语料库建设的可行性及其应用价值;刘萍、黄小倩、刘珊[5]介绍了农业科技学术英语论文语料库的创建过程,并调查和探讨了该语料库在大学生学术英语写作中的应用情况;李家元[6]则以国外权威网站上有关农业相关英语报道为语料来源,探索针对高职高专大学生的农业英语语料库的创建和应用。

国内英汉双语平行语料库建构与研究现状及展望_黄立波

国内英汉双语平行语料库建构与研究现状及展望_黄立波

究”一文(廖七一 2000)。 该 文 不 仅 介 绍 了 与 翻 译 研 60%,汉 译 英 语 料 占 40%,可 用 于 双 语 词 典 编 纂、汉
究相 关 的 平 行、多 语 和 可 比 三 类 语 料 库 以 及 英 国 的 英对比研究、翻译 教 学 和 实 践 等 领 域 (李 德 俊 2008:
库、国家语委语言文字所英汉双语语 料 库、中 科 院 软 关研 究 发 现,如 翻 译 共 性 特 征 在 英 汉 语 翻 译 语 境 下
件所英汉双语语料库和中科院自动化所 英 汉 双 语 语 的验证,并 提 出 新 的 研 究 课 题。 南 京 国 际 关 系 学 院
料库等(参见冯 志 伟 2002:57)。 国 内 平 行 语 料 库 建 李德俊教授主持研制的“英汉平行语料库”容 量 为 对
库(CEXI)、葡-英双向平行 语 料 库 (Compara)相 继 建 2007,2008;王 克 非、秦 洪 武 2009;王 克 非、胡 显 耀
成 ,基 于 这 些 语 料 库 的 翻 译 研 究 成 果 大 量 涌 现 。
2010)、翻译文体(如 黄 立 波 2009)、语 言 与 翻 译 教 学
摘要:本文在回顾近年来国内英汉双语平行语料库建构与研究方面取得成就的基础上 ,探究现有语料库 研 制 与 应 用 中 存 在 的 一 些 问 题 ,发 现 其 具 体 表 现 为 :第 一 ,语 料 库 建 设 各 自 为 政 ,缺 乏 超 大 规 模 、综 合 性 、多 用 途的国家级平行语料库;第二,语料库的深加工还不够深入;第三,从对语料库的应 用 看,课 题 拓 展 和 对 语 料 库 的 研 究 潜 力 开 发 还 不 够 ;第 四 ,相 关 学 科 之 间 的 沟 通 与 合 作 不 够 。 针 对 这 些 问 题 提 出 的 一 些 对 策 包 括 构 建 更 大 规 模 的 超 级 英 汉 平 行 语 料 库 、自 动 标 注 的 深 化 、开 发 相 关 软 件 以 及 完 善 网 络 检 索 平 台 。

浅谈国内汉英平行语料库建设的问题分析

浅谈国内汉英平行语料库建设的问题分析

浅谈国内汉英平行语料库建设的问题分析汉英平行语料库的建设是国内语料库研究的一个重点建设方向。

本文对当前国内汉英平行语料库建设中存在问题进行研讨,论述如何改善和加强对其建设与研究,提出了改善国内汉英平行语料库建设有效建议。

标签:汉英平行语料库;建设;问题分析随着计算机技术的不断发展,语料库研究的不断进步,国内语料库建设与发展得到长足的发展。

而汉英平行语料库的建设与应用是国内语料库研究的一个重点建设方向。

因此,国内汉英平行语料库建设作为国内语料库建设重要组成部分,更加应该关注和建设。

本文对当前国内汉英平行语料库建设中存在问题进行研讨,论述如何改善和加强对其建设与研究,提出了改善国内汉英平行语料库建设有效建议。

一、国内汉英平行语料库建设中存在问题(一)各汉英平行语料库库容规模尚小,并且之间相互共享资源少目前国内现有的汉英平行语料库有一定数量,并且各自语料库都具备一定的规模,对国内汉英平行语料库的建设和发展做出很大的贡献。

但是随着科技的发展,各汉英平行语料库库容规模尚小,国内的各汉英平行语料库库之间相互共享资源少,而汉英平行语料库的建设本身是一项费时、耗力的工作,导致我国目前缺乏库容量上亿词量,覆盖面更宽,应用范围更广的国家级汉英平行语料库。

不利于我国汉英平行语料库建设和发展。

(二)语料库的深加工和技术开发尚需进一步加强目前国内大多汉英平行语料库主要用于文学研究为主,其他的学科的视角展开研究的语料库规模还比较小。

语料库的深加工和技术开发远远没达到人们对汉英平行语料库使用需求,语料库的深加工和技术开发尚需进行一步加强。

(三)与语料库建设的相关学科的沟通与合作不够由于汉英平行语料库的建设是通过借助计算机分析工具,来开展相关的语言理论及应用研究,与计算机技术不断发展,导致在很长的一段时间里,国内汉英平行语料库研究主要计算机技术或计算机语言学领域,更侧重计算机技术实现语料库功能的研究,导致与语料库建设的相关学科的沟通与合作不够,不利于国内汉英平行语料库的发展。

广西旅游资源外宣文本汉英平行语料库的构建

广西旅游资源外宣文本汉英平行语料库的构建

教改论坛游资源外宣文本汉英翻译资料,为翻译理论提供实践依据;另一方面,为把广西建设成为世界旅游目的地补上重要的一环。

二、建设广西旅游资源汉英平行语料库的目的本研究旨在总结国内自建语料库的建库经验,建成一个约十五万字的广西旅游资源外宣文本汉英翻译平行语料库。

语料主要取自广西自治区级与地级市官方外宣网站、已出版的相关的广西旅游资源外宣书籍、旅游景区小册子等。

建库步骤包括总体设计、语料收集与预处理、语料导入、双语句子对齐、检索平台建设等。

本课题组将广西旅游资源外宣文本汉英双语平行语料库(GTCEBPC)用在翻译教学、翻译研究、翻译实践等几个方面。

就广西旅游资源外宣文本汉英翻译平行语料库而言,其设计目的首先是用于翻译教学,为广西本科院校的英语专业的翻译教学、旅游管理专业与导游服务专业的双语教学提供具有服务于广西地方特色的第一手真实的教学辅导材料,为改进相关专业有关课程的教学提供新的模式,并为设计多媒体辅助教学提供丰富、多样化的资源。

其次是翻译研究用途,包括对旅游景区源语言特点的研究和旅游景区翻译目的语特点的研究。

从翻译语言研究的角度研究对外宣传语言的语篇、修辞、词汇用语特点,汉语宣传原文与英语译文的特点等。

最后是翻译实践用途,为翻译理论提供实践依据。

该语料库出于实用性的目的,具有实际使用价值,可以制订统一规范的有特色的英语特定用语,包括广西少数民族特色文化词汇、广西特色景点词汇、广西历史人物和历史遗址词汇等,为广西各地从事涉外旅游的英汉双语工作者进行便捷的旅游资源翻译提供有益的参考,从而提高翻译效率。

从推广应用前景来看,本课题组所构建的汉英翻译平行语料库将会丰富自治区级旅游资源外宣文本汉英翻译资料,填补国内学术界在广西旅游资源外宣文本汉英翻译平行语料库的构建及应用研究方面的空白。

鉴于对外宣传所具有的持续性与动态特点,文本内容也应不断更新,因此,本课题组计划建立的语料库为动态语料库,即建成后的语料库具备开放性、动态性、可操作性,可以根据景区实际需要及广西4A以上景区的增加而不断地进行更新和补充。

教学型汉英口语平行语料库语料研究

教学型汉英口语平行语料库语料研究

教学型汉英口语平行语料库语料研究随着全球化进程的加速和国际交流的日益频繁,汉英口语教学的需求愈发迫切。

在教学型汉英口语教学中,口语平行语料库起着至关重要的作用,它不仅可以为学生提供实际语言运用的素材,还可以为教师提供丰富的教学资源。

本研究旨在探讨教学型汉英口语平行语料库语料在口语教学中的应用,通过对口语平行语料库语料进行深入分析,找出其中的规律和特点,为口语教学提供更为有效的资源。

一、口语平行语料库的优势口语平行语料库是指将两种语言的口语材料对照整理,以便教学和研究使用的语料库。

在口语教学中,口语平行语料库有一些明显的优势。

口语平行语料库可以提供大量的实际语言运用材料。

学生通过阅读、听力以及模仿能够更好地掌握实际语言运用中的表达方式和语言结构,从而提高自己的口语水平。

口语平行语料库可以帮助学生更好地理解异同之处。

中英文化之间存在着很多的差异,通过口语平行语料库,学生可以清晰地看到两种语言之间的异同之处,从而更好地适应跨文化交流。

口语平行语料库可以为教师提供更多的教学资源。

教师可以从口语平行语料库中选取相应的语料进行教学,丰富教学内容,使教学更富有趣味性和实用性。

口语平行语料库的研究需要依托于相关的语言和教育学理论,结合具体实践开展研究。

在口语平行语料库的研究中,常用的研究方法有以下几种。

语言对比分析法。

口语平行语料库本身就是两种语言的对比资料,通过语言对比分析法,可以更好地找出两种语言之间的规律和特点。

问卷调查法。

口语平行语料库的语料一般都是来自于实际语言运用,通过问卷调查法,可以更好地了解学生对口语平行语料库的看法和使用情况。

口语平行语料库研究的重点在于对口语语料的深入分析和挖掘,并从中找出其中的教学规律和特点,为口语教学提供更为有效的资源。

口语平行语料库语料研究的重点主要包括以下几个方面。

语言表达习惯的比较。

中英两种语言的表达习惯存在一定的差异,通过口语平行语料库语料的比较分析,可以找出其中的差异之处,从而更好地指导学生使用。

国内英汉双语平行语料库建构与研究现状及展望

国内英汉双语平行语料库建构与研究现状及展望

3、促进国际化合作与交流
在全球化的背景下,英汉双语平行语料库的研究需要加强国际化合作与交流。 通过与国际同行进行合作研究,共享资源和技术成果,可以促进语言研究的深入 发展;同时,还可以借鉴其他国家和地区的成功经验和方法论,丰富和完善我国 的研究体系。这将有助于提升我国在国际语言研究领域的地位和影响力。
2、翻译研究
英汉双语平行语料库对翻译研究具有重要意义。通过对大量英汉翻译文本的 分析,研究者可以探讨翻译的规律和技巧,评价翻译质量,为翻译理论和实践提 供有益参考。目前,国内在这方面的研究已经取得了一些进展,如对翻译中的语 义转换、文化传递等方面的研究。
四、展望未来
1、提升研究深度与广度
随着英汉双语平行语料库的不断发展,未来的研究将更加注重深度和广度的 提升。研究者可以进一步拓展研究领域,如跨文化交际、语言政策与规划等;同 时,还可以加强与其他学科的交叉融合,如心理学、社会学等,以推动语言研究 的全面发展。
2、加强技术应用与创新
未来,随着人工智能和大数据技术的不断发展,英汉双语平行语料库的技术 应用和创新将成为研究的重要方向。研究者可以运用新的技术和方法,如自然语 言处理、机器学习等,提高语料分析的自动化程度和准确性;还可以通过数据挖 掘和可视化技术,直观展示语言规律和现象。这将为研究者提供更多的机遇和挑 战。
基于英汉双语平行语料库的翻译教学模式是一种以真实语料为基础,以教师 为主导,以学生为中心的教学模式。在这种模式下,教师可以通过分析真实的翻 译语料,引导学生发现翻译的规律和技巧,从而提高学生的翻译能力。
具体来说,这种教学模式包括以下几个步骤:
1、准备阶段:教师需要收集大量的英汉双语对照的文本,构建一个适合教 学的英汉双语平行语料库。同时,还需要根据教学目标和学生的实际情况,选择 合适的语料作为教学材料。

教学型汉英口语平行语料库语料研究

教学型汉英口语平行语料库语料研究

教学型汉英口语平行语料库语料研究【摘要】本文主要研究教学型汉英口语平行语料库的构建、特点分析、应用研究、语料质量评估以及未来发展。

通过对语料库的建立和分析,可以更好地促进汉英口语教学的发展和提高教学效果。

教学型汉英口语平行语料库的质量评估是提高教学效果的关键,需要不断完善和优化。

本研究最终总结出教学型汉英口语平行语料库的重要性,并展望未来可能的研究方向和发展趋势。

通过本文的研究,可以更好地了解教学型汉英口语平行语料库在口语教学中的作用和意义,为提高教学效果和推动教育改革提供参考和建议。

【关键词】教学型汉英口语平行语料库、语料研究、构建、特点分析、应用研究、语料质量评估、未来发展、重要性、研究展望、总结。

1. 引言1.1 研究背景教学型汉英口语平行语料库是在当前全球化背景下的一种重要语言资源,随着中外合作办学、留学生交流、外语教学等活动的不断增加,汉英口语交流的需求也日益增长。

传统的教学模式已不能满足日益增长的需求,而教学型汉英口语平行语料库的建设无疑可以为口语教学提供更为有效的帮助。

目前,国内外对于口语教学的研究主要集中在教学方法、教材编写、教学资源等方面,而教学型汉英口语平行语料库的研究相对较少。

建设这样一种语言资源的重要性不言而喻。

对于教学型汉英口语平行语料库的深入研究,将有助于各类教学机构提高口语教学的质量,促进中英语言交流与合作,有着重要的现实意义和深远的影响。

1.2 研究目的1. Examine the process of constructing a teaching-oriented Chinese-English parallel corpus, including data collection, alignment, and annotation.2. Analyze the characteristics of the corpus in terms of language variety, authenticity, and relevance to language learning objectives.3. Investigate the potential applications of the corpus in language teaching, such as in designing speaking tasks, providing examples for pronunciation practice, and facilitating vocabulary acquisition.4. Evaluate the quality of the corpus in terms of accuracy, completeness, and representativeness of the target language structures.5. Explore the future developments and possibilities of using teaching-oriented Chinese-English parallel corpora in language education.1.3 研究意义教学型汉英口语平行语料库的研究也有助于促进汉英口语教学方法的创新和改进。

英汉科普平行语料库的创建和研究

英汉科普平行语料库的创建和研究

英汉科普平行语料库的创建和研究现代信息技术的发展带来了人们在语言学和计算机科学研究上的新机遇。

英汉科普平行语料库是科普信息计算研究领域中出现的一项重要新技术。

英汉科普平行语料库的创建和研究有助于提高机器翻译的准确性,为机器翻译技术的开发提供有效的数据支持。

本文将对英汉科普平行语料库的创建和研究作一综述,以期发展出更加成熟的英汉科普平行语料库。

英汉科普平行语料库是由机器翻译系统所需的知识库、词典和规则结构三个部分组成的一个有机整体,它提供了用于机器翻译的语言模型,为机器翻译提供有效的数据库。

为了创建一个有效的英汉科普平行语料库,必须充分利用当前已有的英汉科普语料。

首先,研究人员要获取完整的英汉科普语料,并将其分析和整理,提取出各类语言关系,如语义、句法、语法等关系,使其能够更好地反映出原有的科普文本的语言特征。

其次,在整理和提取完语料的基础上,需要对英汉科普平行语料库进行标记,将每个词汇和句子中的意义、结构以及其他语言特征进行明确标记,以便机器翻译的准确性得到保障。

最后,在完成标记之后,应尽量增加英汉科普平行语料库的句子库,用于训练机器翻译模型,为机器翻译提供有效的数据支持。

经过上述步骤,英汉科普平行语料库的建设便可以完成。

随后,应采用有效的评测方法,对英汉科普平行语料库的精度进行评估,并针对现有语料库采取有效的改进措施,使其适应机器翻译的实际需求。

此外,由于英汉科普平行语料库创建和研究是一项复杂的过程,而不同类型的科普文本存在不同的语言特征,因此,未来研究者还需要不断开展深入的研究,使不同类型科普文本能够更好地反映出其原有的语言特征,使英汉科普平行语料库更加全面和完整。

英汉科普平行语料库的研究主要是为了解决机器翻译的准确性问题,但它也可以为语言学研究带来一些新的研究方向,有助于更好地了解各种口头语言的特征,进而改善人们的日常沟通。

英汉科普平行语料库的创建和研究,不仅有助于提高机器翻译的准确性,而且还有助于更好地了解口头语言特征,以及改善人们的日常沟通。

《论语》汉英平行语料库建设及其翻译教学实践

《论语》汉英平行语料库建设及其翻译教学实践

《论语》汉英平行语料库建设及其翻译教
学实践
《论语》汉英平行语料库建设及其翻译教学实践《论语》是儒家经典,是中国古代政治、哲学、伦理、教育、家庭礼仪等思想文化的精华,是中国传统文化的重要组成部分,也是中西方文化交流的重要窗口。

因此,汉英平行语料库建设及其翻译教学实践对于深化中西方文化交流具有重大意义。

汉英平行语料库建设是翻译研究的基础,它可以提供更多的一般性和特定性的文本,以便理解翻译的原则和规则,更有效地进行翻译。

建设汉英平行语料库,首先要建立句法树库,以确定语义和表达模式,并且要考虑词汇和句子的结构;其次,要搜集平行语料,实施翻译的结构分析,结合实际情况,进行文体分析;最后,建设平行语料库,以便后续翻译研究和研究。

翻译教学实践是提高学生翻译能力的重要手段,因此,汉英平行语料库建设及其翻译教学实践在提高学生翻译水平方面具有重要意义。

一方面,可以培养学生辨别不同语言之间的语义差异,培养学生对不同语言之间的表达模式的把握能力;另一方面,可以培养学生熟悉不同文体的语言特点,掌握翻译的原则和规则,从而提高翻译水平。

总之,汉英平行语料库建设及其翻译教学实践对深化中西方文化交流具有重要意义,也是提高学生翻译水平的重要手段。

因此,建设汉英平行语料库和实施翻译教学实践对普及和深入弘扬《论语》精神具有重要的现实意义。

中药汉英双语平行语料库的设计及构建_兰彩玉

中药汉英双语平行语料库的设计及构建_兰彩玉

中药汉英双语平行语料库的设计及构建兰彩玉(广东药学院外国语学院,广东广州510006)摘 要:双语平行语料库的构建为当前翻译研究的一个新热点,同时是ESP翻译研究的新视角。

介绍了语料库翻译研究方法,通过分析中医药英语语料库的研究现状阐述了构建中药汉英平行语料库的重要性及必要性,并就语料库构建的具体步骤———语料库的设计、语料的选择、语料的采集和加工以及双语语料库的平行等进行了详细描述。

关键词:平行语料库;中药英语;中药汉英平行语料库中图分类号:H09 文献标识码:A 文章编号:1673-2197(2014)08-0001-03收稿日期:2013-10-05基金项目:2013年广东省高等学校学科与专业建设专项基金科研类项目(2013WYXM0064)作者简介:兰彩玉(1978-),女,广东药学院外国语学院讲师,研究方向为翻译理论与实践。

Designing and Building of Bilingual Chinese-English Database of Traditional ChineseLan Caiyu(College of Foreign Languages,Guangdong Pharmaceutical University,Guangdong 510006,China)Abstract:Parallel corpus has made great influence on language studies and translation studies,and it is also a new perspective forESP translation studies.This paper starts with an introduction to parallel corpus.On analyzing the status of CTM English corpus,it is necessary to construct a CTM Chinese-English Parallel Corpus.Finally,the paper makes a detailed study on the steps of con-structing a CTM Chinese-English Parallel Corpus.Key Words:Parallel Corpus;CTM English;CTM Chinese-English Parallel Corpus Construction 随着中医国际化的发展,人们逐渐认识到中医药翻译的重要性,从中医最初于17世纪(明代)被介绍到西方,翻译作为两种文化交流的媒介,其发展状况便对中医的国际化水平起着至关重要的作用。

《红楼梦》中习语的汉英平行语料库构建

《红楼梦》中习语的汉英平行语料库构建

《红楼梦》中习语的汉英平行语料库构建摘要:《红楼梦》作为中国古代生活的百科全书,世所罕见的文学名著。

习语是一种文化象征和重要词语类型。

《红楼梦》中习语汉英平行语料库的创建,不仅对中国文化走向世界有着极大的帮助,推动了语言学的研究,本文列举该语料库创建中涉及的几大问题,并提出对应解决方法,旨在为《红楼梦》以及其他名著特定词类,句类的语料库创建提供经验,并为相关研究提供语料库基础。

关键词:语料库;习语;红楼梦1引言近几年,国内大力推行“文化走出去”与“ 一带一路”战略规划,从这两个规划中可以看出,开放合作、交流融合已经成为国家战略的关键概念,而文化作为一种软实力,其推介不仅有助于增强不同国家间的认同与互信,而且有助于提升我们的国际影响力。

[1]而《红楼梦》作为集中国传统文化于一身的著作且习语包含这地理、历史、宗教信仰、生活习俗等方面的知识,承载着民族文化特色和文化信息,它们与文化传统紧密相连,不可分割,[2]构建《红楼梦》习语汉英平行语料库对于中国文化输出以及世界文化交流有着至关重要的作用。

语料库可对自然语言文本进行采集、存储、检索、统计,可应用于语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域。

[3]语料库是语言研究现代化的重要基础,利用语料库从事语言研究,可以克服传统语言学中如:语料客观性不强,共享性不够等诸多问题。

[4]而《红楼梦》汉语版和英译版中蕴含的语言学价值极大,其语料库的创建可大大推动语言学的发展。

《红楼梦》作为我国历史乃至世界历史上罕见的文学巨著,其结构庞大,人物众多,在翻译中,令人感到棘手的难点,比比皆是[5],因此其具有研究价值的英译本出现时间较晚,导致了其语料库构建方面的不足,及缺少对特定词语、词组、句子单独构建的语料库。

本文将《红楼梦》最具文化特色的习语进行了语料库的构建,正是为了弥补这一不足。

本文对《红楼梦》习语汉英平行语料库构建中出现的问题进行了列举分析,并提出相应对策。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中国英汉平行语料库的设计与研制王克非北京外国语大学中国外语教育研究中心提要:本文论述超大型双语平行语料库的设计与研制问题。

在综合述介国内外双语语料库建设情况之后,作者着重论述了中国英汉平行语料库这一超大型双语平行语料库的设计特点(主要有分类架构、历时处理、语料平衡以及通用的和各种专门语料的采集)和研制方法(主要讲述语料的加工标注、检索平台以及各个专门语料库、历时语料库和口译语料库的构建)。

其设计与研制对于其他大型语料库的建设具有借鉴意义。

关键词:中国英汉平行语料库;设计;研制Abstract:The paper deals with the design and construction of asuper-large-scale bilingual parallel corpus.After an overview of parallelcorpora constructions and applications both in China and abroad, the designfeatures(including classification and composition,diachronical arrangement,balance of textual materials,and collection of texts for general or specificpurposes)and the construction methods (including tagging,concordanceplatform,and the construction of specialized corpora,diachronical corpora andinterpreting corpora)of the super-large-scale China English-Chinese ParallelCorpus(CECPC)are focused on.The design and construction discussed areapplicable to the compiling of other large-scale corpora.Keywords:China English-Chinese Parallel Corpus (CECPC);design;construction1、中国英汉平行语料库的研制意义在全球化、信息化的当今世界,翻译已成为了解全球信息、扩大对外宣传、获取国际资源的重要手段。

同计算机技术结合而兴起的双语平行语料库建设,则为语言研究、翻译研究、外语教学、词典编纂和跨语言信息检索等提供了最好的平台,同时还可用来考察和验证基于单语语料库或者基于直觉提出的假设,具有广阔的应用前景。

平行语料库承载着相互对应的两种语言,与语言对比研究有着天然的联系,成为语言对比研究中的默认数据源;平行语料库中的两种语言互为对应,记载着两种语言中的对应词和对应单位,成为词典编纂者最可靠的数据来源;平行语料库中的源语言和目标语言互为对应,在翻译教学和外语学习中的用途更是不言而喻。

除此之外,平行语料库对机器翻译和自然语言处理也极为重要。

对齐的平行语料能为基于例句和统计的机器翻译系统提供实证模型,同时也可以为基于规则的机器翻译提供验证规则,为机助翻译提供大量翻译记忆。

正如欧赫(Och2002)所言,“只要给我足够的双语对应数据,几个小时内我可以给你一个机器翻译系统”。

然而现有的英汉平行语料库规模有限,且大多是利用现有同质翻译资源建立的,并非平衡语料库,常常不能较好地代表广泛含义上的源语—译语关系,依此生成的语言模型常常不能够有效地解释翻译语言,这极大地阻碍了翻译和词典编纂等学科研究的深入,已成为提高机器翻译译文质量的瓶颈。

鉴于此,我们提出设计和研制更大规模、更多功能的超大型平行语料库,即一亿词以上的“中国英汉平行语料库”,以满足各方面研究的需求和语料库事业的发展。

中国英汉平行语料库的研制意义可从以下两方面体现出来。

第一,理论价值:1)由于大型双语平行语料库规模超大、采样严格,能够较好地代表源语—译语关系,因此能为翻译研究、语言对比研究、语言演化研究、口笔译比较研究等提供可靠的翻译实例和量化数据,从而提高上述研究的可信度。

2)在超大型双语平行语料库建设的基础上,我们还将展开多项具有理论意义的语言和翻译研究。

这些研究主要包括历时研究、类比动态描写。

研究分析时间跨度大,涉及层面多。

第二,应用价值:1)在研究方法上,我们将据此探索基于语料库的翻译语言动态类比和描述,为语言的共时与历时比较研究提供有效的、可操作性强的分析模式和研究平台。

2)在大型双语平行语料库的采样和加工方面,将提出更有借鉴价值的模板和方法。

总之,“中国英汉平行语料库”这一超大规模的英汉/汉英平衡语料库,为今后其他语对的双语平行语料库或多语平行语料库的研制、双语对比与研究、英汉语言接触与现代汉语历时变化研究等,提供共同的大型的实证研究基础,为中国的语料库研究走向世界前沿作出贡献。

2、国内外双语平行语料库研制现状平行语料库的研制历史并不长,从世界上第一个初步的平行语料库TheCanadian Hansard Corpus(包括英法语版本的加拿大议会辩论语料)到目前仅二十年左右。

但由于平行语料库对于语言对比研究、翻译研究、翻译教学、翻译技术开发(如机器翻译系统、机辅翻译工具)、双语词典编纂等语言学和自然语言处理研究具有巨大的潜在应用价值,平行语料库的建设在世界上得到迅速发展(参见王克非等2004,McEnery&Xiao2007)。

目前,平行语料库研究大多集中在欧洲,涉及语言也主要与欧洲语言有关,特别是欧共体/欧盟等机构的文件。

如兰卡斯特大学早期创建的ITU/Crater平行库包含欧洲委员会有关电信的英法双语文件各一百万词,在句级对齐。

欧洲委员会联合研究中心的JRC-ACQUIS多语种平行语料库包括成员国的22种欧洲语言,目前的3.0版包括五十年代至2006年的欧洲法律文件463,792个,共计十亿词。

欧洲人类语言技术研究网络(ELSNET)1994年发布的欧洲语料库规范多语种语料库1期(ECI/MCI)包括27种语言(主要是欧洲语言,也包括汉语、日语和马来语),以官方文件为主,但也包括少量的报纸、小说、技术报告、词典和词表;该库共48部分,共计9,800万词,其中12个部分包含有平行语料。

MULTEXT语料库是由欧洲语言资源协会资助的项目,其目的是开发多语种工具和语料库;该语料库包括采样于欧洲委员会官方杂志(JOC)的五种语言各40个文档,句级对齐,其中10个文档还作了词性标注。

PAROLE语料库包括欧洲14种语言,采样年代为1997-1998,文本来源包括书籍(20%),报纸(65%),杂志(5%),以及杂类文本(10%),共计2,000万词,每个子库中25万词按照统一标准作了词性标注。

多语种语料库合作(MLCC)项目建立了一个多语种平行语料库,包括九种欧洲语言,语料来源为上述提到的欧洲委员会官方杂志1992-1994年的文本。

爱丁堡大学的EuroparlParallel Corpus收集了1996-2009年间欧洲议会会议记录,涉及11种语言,以双语平行的形式发布,句级对齐,丹麦语、德语、希腊语、西班牙语、芬兰语、法语、意大利语、荷兰语、葡萄牙语、瑞典语分别与英语对应,共约5千万词(以英语计)(Koehn2005)。

上述这些语料库基本上都是文本来源单一、标注也简单的欧洲语言专用语料库,主要用于语言识别、文档级对齐、术语提取等自然语言处理研究,而非从语言学角度研究语言(参见Xiao2008)。

除此之外,也有少数几个精心设计的平行语料库,如由挪威奥斯陆大学研制的最早的英语—挪威语平行语料库,包含英语和挪威语各100个1-1.5万词的英-挪对应母语文本及其挪-英翻译文本,共260万词,语料采样考虑到平衡性而非局限于少数几个语域或语体,涉及小说(儿童小说、侦探小说、一般小说)和非小说(宗教、社会科学、法律、自然科学、医学、艺术、历史地理)。

该语料库不仅在句子层面对齐,而且对英挪语料均作了词性标注和词形还原(lemmatisation)处理。

英语—瑞典语平行语料库则是采用英语-挪威语平行语料库的建库标准、由隆德大学(LundUniversity)和哥特堡大学联合研制的平衡语料库,包括64个英语原文文本及其瑞典语译文和72个瑞典语原文文本及其英语译文,共计280万词。

在这两个语料库的基础上,近年来奥斯陆大学又以同样标准开发了奥斯陆多语种语料库(OMC),除了英语、挪威语、瑞典语外还涉及到了德语、法语、荷兰语、芬兰语、和葡萄牙语。

这些精心设计的平行语料库适合于翻译与跨语言对比等研究,但局限于欧洲语言。

欧洲语言之外的平行语料库,包括汉语在内,还不多见,精心设计的大型平衡语料库则更少。

主要有兰卡斯特大学研制的英国少数民族语料库EMILLE,包含了十五种南亚语言口语及书面语料近一亿词,其中平行语料库部分包含20万词的英语文本及印地语、孟加拉语、旁遮普语、古吉拉特语及乌尔都语平行对应文本。

语言数据联盟(LDC)于2004年发行了香港平行文本库(Hong KongParallel Text),包括590万词的英语文本和980万字的汉语文本,英汉文本句级对齐;该库由2000年所发行的三个英汉平行语料库组成:香港法律辩论语料库、香港法律语料库、香港新闻语料库。

英国兰卡斯特大学创建的Babel英汉平行语料库由从《英语世界》等刊物采样的327篇英汉双语时文构成,采样年代为2000-2001年,共计54万词;该库实现句级对齐,并对英汉语文本都进行了分词和词性标注。

台湾辅仁大学初步建立了范本财经英日汉平行语料库,收集语料约10万句对。

最近,香港理工大学和北京外国语大学的学者联合研制了英汉旅游文本语料库,约100万字词(参见李德超、王克非2010)。

在我国内地,双语平行语料库的建设近十年来也取得了重大进展,已有多个英汉及日汉等双语平行语料库建成。

如北京大学计算语言学研究所的汉英平行语料库(5万多句对)及其所承担的863项目所建的英汉平行语料库(20万句对),哈尔滨工业大学的英汉双语语料库(40-50万句对)。

不过这些语料库有一个共同之处,即建库目的主要是自然语言处理而非语言学研究,因此所谓的句对通常是脱离上下文、打乱次序的孤立的句子,英译汉与汉译英语料夹杂,用户不易识别翻译方向。

另外,国内近年来也建成了一些专门用途语料库,如上海交通大学的莎士比亚戏剧英汉平行语料库,燕山大学的红楼梦译本平行语料库,绍兴学院的鲁迅小说汉英平行语料库等。

相关文档
最新文档