汉英对应评价意义语料库
学术期刊论文摘要汉英双语语料库构建研究-英语论文-语言学论文
学术期刊论文摘要汉英双语语料库构建研究-英语论文-语言学论文——文章均为WORD文档,下载后可直接编辑使用亦可打印——论文摘要指以提供文献内容梗概为目的,不加评论和补充解释,简明、确切地记述文献重要内容的短文。
(国家标准GB 47) 学术论文摘要概括论文的主要信息,对研究的目的、方法、结果和最终结论有一个比较完整的说明,对于论文的发表、收录、检索及科研人员的学术交流等起着重要的作用。
当今时代,英语已成为国际交往的世界性语言,英文学术论文摘要的重要性日益显现。
近年来,不少中外学者(如Swales1990、段平2002、滕延江2008、邓军涛2013 等) 对论文摘要的语言特点与翻译进行了比较广泛深入的分析,其成果无疑有利于该领域的实践与发展。
然而,大多数相关研究都是基于研究者个人的经验,选取的例句和掌握的语料比较有限。
不少学习者和研究人员撰写及翻译摘要的能力还比较欠缺。
鉴于此,本课题组决定建设学术期刊论文摘要汉英双语语料库,一方面从大的语料基础上客观描述英文摘要的文体特征和进行汉英翻译研究,同时将该语料库用作翻译教学平台,试验并总结数据驱动的教学方法,推动学术研究与翻译教学共同发展。
一、学术期刊论文摘要汉英双语语料库的建设(一) 语料库与双语语料库语料库是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续语言运用文本或话语片段而建成的具有一定容量的大型电子文本库(杨惠中,2002) 。
语料库具有语料真实、丰富、代表性强以及融合了计算机技术等特点,在语言研究和教学方面具有较大的优势与应用价值。
按照语料的语种,语料库可以分成单语、双语和多语语料库。
双语和多语语料库还可分为平行语料库和可比语料库。
平行语料库收集原文与译文双语对照的文本,按设定的标准对语料进行句子或段落的对齐。
可比语料库收集具有可比性的语料,分别放置于不同的文本库,主要用于语言对比研究。
关于双语语料库的作用,不少专家从不同角度进行了探讨。
基于Babel英汉平行语料库的英汉介词对比分析
基于Babel英汉平行语料库的英汉介词对比分析王磊;许霄羽【摘要】介词是英汉两种语言中较为特殊的一类词,在实际使用中都非常活跃。
通过对英汉介词的简要阐述,在以前的研究基础上,尝试基于Babel英汉平行语料库,对其中出现频率最高的前十个英语介词和汉语介词的使用频率,兼类情况及其对应关系做以对比分析,以期对英译汉中的介词翻译能有所启示。
另外,介词在英译汉时可以采取直译、增译、省译和转译四种方法。
%Preposition is a type of extraordinary words with very active use. By general introduction to English and Chinese prepositions, based on the previous studies, this paper tries to make use of Babel English-Chinese Parallel Corpus and make a contrastive analysis on the frequency, multiple part of speech and the corresponding relationship between the top ten English and Chinese prepositions, hoping it could shed light on our English-Chinese translation. Moreover, the author points out that we can adopt four methods in doing such translation practice,including literal translation,addition, omission and conversion.【期刊名称】《辽宁医学院学报(社会科学版)》【年(卷),期】2015(000)002【总页数】4页(P126-128,132)【关键词】平行语料库;英语;汉语;介词对比【作者】王磊;许霄羽【作者单位】西北工业大学,陕西西安 710129;西北工业大学,陕西西安710129【正文语种】中文【中图分类】R194英语介词通常可以根据位置来判断,而汉语介词则主要依据其作用加以区别。
学习研究:课堂教学中语料库辅助的汉译英词语翻译
课堂教学中语料库辅助的汉译英词语翻译1.引言近几十年来,英语语料库(Corpus)的研究和创建取得了巨大的进展,国内外出现了众多各种类型的英语语料库。
在英语教学与研究方面,语料库一直发挥着非常重要的作用,从理论、内容和方法等方面对语言教学与研究都有重要影响。
语料库是专门用于语言材料检索和统计的工具,是由大量收集的书面语构成,并通过计算机储存和处理,其最大的特点是能快速提供大量真实的语言材料并进行相关统计。
语料库的开发与建设,给外语教学与研究带来新的变化。
在英语翻译课堂中,同样可以有效地利用语料库,目前涌现出大量研究双语平行语料库的语料库都可以有所借鉴。
在从事教学过程中笔者发现,将母语直译成目标语没有问题,但目标语语感不足或语感误差导致的用词错误或因译者外语水平不同而导致词语有着不同程度的错误存在形式,词典、教材、语法书从某种程度上而言作用欠缺,因此本文尝试性探讨在英语翻译课堂上,以目标语语料库为辅助的方法来授业解惑。
2.以语料库为辅助的汉译英词语翻译方式除了为词典的编撰提供服务外,语料库的发展也为外语教学提供了丰富的资源和广阔的发展前景。
语料库中有大量真实语境意义的实例,以数据或语境共现的形式呈现在学习者面前,有利于强化记忆以及帮助学习者利用语境获取语义和总结规律的学习环境。
本文涉及汉译英实践所使用的语料库均来自英语国家语料库(British National Corpus,简称BNC)和Cobuild以及LDC(Linguistic Data Consortium)。
语料库在线检索在日常英语课堂教学中最常见的用途是提供大量典型语例供大家对比参考。
2.1 用于词语的词义的褒贬以及词语的语体色彩在汉译英过程中,能否根据上下文准确翻译出词义的感情色彩至关重要,不同的词语出现在不同的语体中,带有不同的语体色彩,很多情况下,借助于翻译词典等工具得不到很好的效果,此时参照语料库中的语料不失为好的方法。
我们知道,翻译语句不仅要注意词语的感情色彩,同时更要注意他们的语体色彩,以便忠于原作者的观点。
语料库术语中英对照
Aboutness 所言之事Absolute frequency 绝对频数Alignment (of parallel texts) (平行或对应)语料的对齐Alphanumeric 字母数字类的Annotate 标注(动词)Annotation 标注(名词)Annotation scheme 标注方案ANSI/American National Standards Institute 美国国家标准学会ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) (主题词的)联想词AWL/Academic word list 学术词表Balanced corpus 平衡语料库Base list 底表、基础词表Bigram 二元组、二元序列、二元结构Bi-hapax 两次词Bilingual corpus 双语语料库CA/Contrastive Analysis 对比分析Case-sensitive 大小写敏感、区分大小写Chi-square (χ2) test 卡方检验Chunk 词块CIA/Contrastive Interlanguage Analysis 中介语对比分析CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统Clean text policy 干净文本原则Cluster 词簇、词丛Colligation 类联接、类连接、类联结Collocate n./v. 搭配词;搭配Collocability 搭配强度、搭配力Collocation 搭配、词语搭配Collocational strength 搭配强度Collocational framework/frame 搭配框架Comparable corpora 类比语料库、可比语料库ConcGram 同现词列、框合结构Concordance (line) 索引(行)Concordance plot (索引)词图Concordancer 索引工具Concordancing 索引生成、索引分析Context 语境、上下文Context word 语境词Contingency table 连列表、联列表、列连表、列联表Co-occurrence/Co-occurring 共现Corpora 语料库(复数)Corpus Linguistics 语料库语言学Corpus 语料库Corpus-based 基于语料库的Corpus-driven 语料库驱动的Corpus-informed 语料库指导的、参考了语料库的Co-select/Co-selection/Co-selectiveness 共选(机制)Co-text 共文DDL/Data Driven Learning 数据驱动学习Diachronic corpus 历时语料库Discourse 话语、语篇Discourse prosody 话语韵律Documentation 备检文件、文检报告EAGLES/Expert Advisory Groups on Language Engineering Standards EAGLES文本规格Empirical Linguistics 实证语言学Empiricism 经验主义Encoding 字符编码Error-tagging 错误标注、错误赋码Extended unit of meaning 扩展意义单位File-based search/concordancing 批量检索Formulaic sequence 程式化序列Frequency 频数、频率General (purpose) corpus 通用语料库Granularity 颗粒度Hapax legomenon/hapax 一次词Header/Text head 文本头、头标、头文件HMM/Hidden Markov Model 隐马尔科夫模型Idiom Principle 习语原则Index/Indexing (建)索引In-line annotation 文内标注、行内标注Key keyword 关键主题词Keyness 主题性、关键性Keyword 主题词KWIC/Key Word in Context 语境中的关键词、语境共现(方式)Learner corpus 学习者语料库Lemma 词目、原形词、词元Lemma list 词形还原对应表Lemmata 词目、原形词、词元(复数)Lemmatization 词形还原、词元化Lemmatizer 词形还原(词元化)工具Lexical bundle 词束Lexical density 词汇密度Lexical item 词项、词语项目Lexical priming 词汇触发理论Lexical richness 词汇丰富度Lexico-grammar/Lexical grammar 词汇语法Lexis 词语、词项LL/Log likelihood (ratio) 对数似然比、对数似然率Longitudinal/Developmental corpus 跟踪语料库、发展语料库、历时语料库Machine-readable 机读的Markup 标记、置标MDA/Multi-dimensional approach 多维度分析法Metadata 元信息Meta-metadata 元元信息MF/MD (Multi-feature/Multi-dimensional) approach 多特征/多维度分析法Mini-text 微型文本Misuse 误用Monitor corpus (动态)监察语料库Monolingual corpus 单语语料库Multilingual corpus 多语语料库Multimodal corpus 多模态语料库MWU/Multiword unit 多词单位MWE/Multiword expression 多词单位MI/Mutual information 互信息、互现信息N-gram N元组、N元序列、N元结构、N元词、多词序列NLP/Natural Language Processing 自然语言处理Node 节点(词)Normalization 标准化Normalized frequency 标准化频率、标称频率、归一频率Observed corpus 观察语料库Ontology 知识本体、本体Open Choice Principle 开放选择原则Overuse 超用、过多使用、使用过度、过度使用Paradigmatic 纵聚合(关系)的Parallel corpus 平行语料库、对应语料库Parole linguistics 言语语言学Parsed corpus 句法标注的语料库Parser 句法分析器Parsing 句法分析Pattern/patterning 型式Pattern grammar 型式语法Pedagogic corpus 教学语料库Phraseology 短语、短语学POSgram 赋码序列、码串POS tagging/Part-of-Speech tagging 词性赋码、词性标注、词性附码POS tagger 词性赋码器、词性赋码工具Prefab 预制语块Probabilistic (基于)概率的、概率性的、盖然的Probability 概率Rationalism 理性主义Raw text/Raw corpus 生文本(语料)Reference corpus 参照语料库Regex/RE/RegExp/Regular Expressions 正则表达式Register variation 语域变异Relative frequency 相对频率Representative/Representativeness 代表性(的)Rule-based 基于规则的Sample n./v. 样本;取样、采样、抽样Sampling 取样、采样、抽样Search term 检索项Search word 检索词Segmentation 切分、分词Semantic preference 语义倾向Semantic prosody 语义韵SGML/Standard Generalized Markup Language 标准通用标记语言Skipgram 跨词序列、跨词结构Span 跨距Special purpose corpus 专用语料库、专门用途语料库、专题语料库Specialized corpus 专用语料库Standardized TTR/Standardized type-token ratio 标准化类符/形符比、标准化类/形比、标准化型次比Stand-off annotation 分离式标注Stop list 停用词表、过滤词表Stop word 停用词、过滤词Synchronic corpus 共时语料库Syntagmatic 横组合(关系)的Tag 标记、码、标注码Tagger 赋码器、赋码工具、标注工具Tagging 赋码、标注、附码Tag sequence 赋码序列、码串Tagset 赋码集、码集Text 文本TEI/Text Encoding Initiative 文本编码计划The Lexical Approach 词汇中心教学法The Lexical Syllabus 词汇大纲Token 形符、词次Token definition 形符界定、单词界定Tokenization 分词Tokenizer 分词工具Transcription 转写Translational corpus 翻译语料库Treebank 树库Trigram 三元组、三元序列、三元结构T-score T值Type 类符、词型TTR/Type-token ratio 类符/形符比、类/形比、型次比Underuse 少用、使用不足Unicode 通用码Unit of meaning 意义单位WaC/Web as Corpus 网络语料库Wildcard 通配符Word definition 单词界定Word form 词形Word family 词族Word list 词表XML/EXtensible Markup Language 可扩展标记语言Zipf's Law 齐夫定律Z-score Z值Welcome To Download !!!欢迎您的下载,资料仅供参考!。
中国科学院汉英平行语料库
中国科学院汉英平行语料库
中国科学院汉英平行语料库(Parallel Corpus of Chinese Academy of Sciences)是一个结构整齐、体积庞大、全方位覆盖的、
面向科技文献翻译的大规模语料库,是中国科技研究文献汉英翻译的
极佳资源。
本平行语料库收录的文献共计达到700多万句,包括来自中国科
学全文数据库、中国科学文摘数据库、维普资讯网、万方科技云等多
种来源的语料,覆盖了国内各种学科的文献翻译,丰富了汉英翻译资源,有助于科学研究。
中国科学院汉英平行语料库由中国科技文献翻译研究重点实验室,以及中国工程院等机构联手制作而成,从平行语料收集、平行语料处理、数据标注、语料质量检验等多个方面考虑,采取多种技术手段,
结合中文语料注记标准和英文规范,实现了翻译文献自动化标注,实
现了文本在线查询、翻译查询和语料挖掘等功能。
中国科学院汉英平行语料库对于文献翻译、机器翻译、口译辅助、自然语言处理和语言学研究等领域都有重要应用价值。
经多方测试,
本库满足了机器翻译系统训练所需的高质量、大规模的汉英平行语料
的要求,针对机器翻译的分析预测开发,研究的执行效果有明显的提升。
此外,中国科学院汉英平行语料库还对外提供汉英、汉法、汉德
等多语种的神经网络翻译系统,支持跨语言机器翻译,支持词法短语
翻译等覆盖面更加透彻的翻译服务,搭建起一整套健全的翻译系统,
广大研究人员和学者可以在线上获得高效、准确的翻译结果,满足学
术研究和实际应用的需要。
中国科学院汉英平行语料库在自然语言处理领域发挥了重要作用,极大提升了中国自然语言处理市场的竞争力,为自然语言处理的发展
推进了大中国语言环境的翻译。
英汉双语平行语料库在翻译教学中的运用研究
校园英语 / 高等教育研究英汉双语平行语料库在翻译教学中的运用研究哈尔滨理工大学荣成校区/夏菲菲 张祎【摘要】本文探讨了英汉双语平行语料库在翻译教学中的运用,主要是针对一线翻译教师如何自建小型语料库并在翻译课堂上予以运用,因为一线翻译教师的实践是语料库在翻译中运用最为重要的环节。
本文对于语料的准备、处理、标注和检索都进行了比较具体的总结。
尤其是对标注部分进行了重点阐述,因为这一点最能体现自建小型语料库的优势。
【关键词】英汉双语平行语料库 翻译教学 标注一、引言语料库是指在随机采样的基础上收集到有代表性的真实语言材料集合,是语言运用的样本。
兴起于上世纪60年代的语料库研究已经被广泛运用到语言研究与教学的各个领域。
然而语料库与翻译领域的结合相对较晚。
传统的翻译教学模式主要包含理论技巧讲解、举例说明和练习巩固三个步骤,该翻译教学模式仍然广泛使用在我国和很多国外的外语专业翻译课堂上,为翻译教学做出了巨大贡献,也培养了大批优秀的翻译人才。
然而该模式也存在很多问题。
首先传统翻译课堂以教师讲解为主,学生难以发挥主观能动性进行自主学习,被动接受技巧知识难以将所学知识进行内化。
同时由于课时和教材的限制,传统翻译教学无法提供大量实例供学生学习,有限的语言输入量无法帮助学生将所学知识真正内化为翻译能力。
而语料库恰好可以帮助解决传统翻译教学中学生被动学习和语料输入量不足的问题。
因为在语料库条件下进行翻译教学,学生可以采取“发现式学习和数据驱动的学习方式训练掌握翻译技巧,提高翻译技能,熟悉翻译职业特征”。
语料库分为单语语料库和双语或多语语料库。
前者主要收集本族语者的语言实例,后者顾名思义是由两种或者两种以上的语言材料组成,其中平行语料库作为能将源语言文本和其对应的译语文本进行全文检索并对照显示的语料库对翻译教学的辅助作用尤为明显。
二、平行语料库与翻译教学的研究现状平行语料库与翻译教学的结合起步较晚,国外相关的应用研究有近二十年的历史,发展较快的是西语间的平行语料库的建立。
汉、英平行语料库的研究与构建
可 以 获得 为平 行 语 料 。 本 文将 构建 一 个 大 规 模 的 汉 英平 行 语 料 库 自动 收集 系 统 , 用 爬 使 在 网 页 的判 定 过 程 中使 用 深 度 作 为 依 据 , 度 就 是 从 主 页 开 始 算 深 虫 技 术 从 WE 中的 网页 抽 信 息 , 自动 的收 集 两 种 构 成 互 译关 系 语 言 B 起访问到当前页面需要 的连接次数 , 级 页面的深度为一 。 二 三级 页 面 的文 本 存 储 在数 据 库 中 , 中不 但 有 源语 文本 , 有 对 应 的译 语 文 本 。 库 还 的 深 度 为二 , 过 对 大 量 现 有 网页 的 分 析 , 现 如 果从 人 口页 匾 算起 , 经 发 这 些 文 本 采 用 句 子或 段 落 对 齐 方 式 编 排 , 系统 可 以 对源 语 文本 和译 语 三 度 内页 面 都 没有 可用 信 息 , 整 个 网站 都 无 可 用 信 息 。 所 以 爬 虫 只 则 文本进行全文检索, 提供高效的对照检索。 并 判 断 从起 始 页 面起 深 度 小 于三 的 页 面 。 样 做 的 目的是 为 了让 爬 虫 不 这 文 章 的 意义 在 于学 习前 人 的 技 术 成 果 . 过 实 际 编 写 程序 深 入探 通 过 多 的 浪 费 资源 在 没 有 可 用 信 息 的 网 页 上 , 实 际 测 试 中 效 果 极 其 明 在 讨 平 行 语 料 库 的 构 建过 程 , 定 出 一 套 平 行 语料 库 自动 搜 集 系 统 的 解 制 显 。 决 方 案 , 开 发 相应 的 系统 软 件 , 终 构 建 一个 汉英 平 行 语 料 库 。 平 并 最 该
【 ywo d ] ete P rl l op s ue e uo aia ycl ci aa e cru Ke r sR pi ; aa e cru ; cn; tm t l ol t np l l o s l l L A el e o r l p
汉英双语语料库
汉英双语语料库1. 这个城市的夜景很美,特别是那些高楼大厦的灯光,让整个城市感觉都变得更加璀璨。
The night view of this city is beautiful, especially the lights of the tall buildings, which make the whole city feel even more dazzling.2. 这个博物馆收藏了许多有价值的文物和艺术品,是了解本地历史和文化的最佳场所。
This museum has collected many valuable relics and artworks, and is the best place to learn about local history and culture.3. 我们一家人喜欢去海边度假,享受阳光、沙滩和大海的美丽。
Our family likes to go to the beach for vacation, and enjoy the beauty of the sun, sand, and sea.4. 我们在学校的食堂里可以选择各种各样的美食,包括中餐、西餐和快餐。
We can choose a variety of cuisine in the school cafeteria, including Chinese, Western, and fast food.5. 这个地区的气候十分宜人,四季分明,春暖花开、夏日清凉、秋高气爽、冬日雪景,都让人感受到大自然的美好。
The climate of this region is very pleasant, with distinct seasons, spring blooms, cool summers, refreshing autumns, and snowy winters, all making people feel the beauty of nature.6. 现在越来越多的人喜欢做运动来保持身体健康,例如跑步、游泳、瑜伽等等。
英汉平行语料库与汉英对比研究
ode s r r.No h r p!Hu r up ” w, ury u ry !
(2“ 1 )你真的想好 了吗?…‘o e—r,rn to ? Y ua eae ’yu ” ts u
( 3 “ 休 息 好 了 。 ” M r ks vr se ad 1 )我 “ y e e. h i. b a io ” s (4 “ 已经 吃 好 了 , 吧 ! … ‘hv a nuh(’ 1)我 走 I aehdeog Im
得起人 了。 野草) o o n a en e s o n o l b 《 } wn e d e ,o e ud e N o h s m no w
e a e e . o d Af r l lh dd n o o ea yh r 1 f ctd G o . t a l a o en n n am
p o l ew r . es i g b iu l. e p ei t o l ”h adl u r sy nh d u o
因素的影 响, 有较大 主观性。运用英 汉平行语料库进行实证
式调查则能更全 面、 更客观 、 更科学 。“ 了” 好 是汉语 中一个 常用表达 , 用途广 , 比较复杂 。既可单 独作为一个词语使 也 用 , 可与其他词汇搭配使用 , 也 因此 对它的调查有助于揭示 英汉平行语料库对汉英对 比调查 的巨大作用 。本 文调查主 要 是基 于 自建 的英汉 平行语料库 , 约一千万字 , 参 见谢 词( 家成 , 04)检索软件使用 Pren 。 20 , aaoc
211112959_农业科技汉英双语平行语料库的建设与应用
本文主要介绍了农业科技汉英双语平行语料库的设计和建库过程,重点阐述农业科技汉英双语语料的选择、加工和对齐处理等具体操作步骤,继而探讨该语料库在翻译教学和研究以及在农业科技国际化和现代化发展中的应用前景,力求为农业科技英语翻译教学和研究开辟出全新的视角和路径,以助推农业大数据化的发展战略,促进中外农业科技交流与合作。
:农业科技英语;平行语料库;建设应用语料库是指按照一定的语言学原则,运用随机抽样的方法,通过收集语言文本或话语片段而建成的具有一定容量的电子文本库[1]。
平行语料库由某种语言的源文本和另一语言的翻译文本组成,是语料库翻译研究中比较常见的一种类型。
平行语料库最突出的特点在于源语言和目的语之间的平行对应和共享,促使翻译研究从小规模、直觉式研究模式,向系统性、大规模的描述式研究模式转变,提高翻译的效率和质量。
随着农业科技国际交流和合作的发展,农业科技翻译的重要性日渐受到重视。
然而,现阶段我国农业科技汉英翻译中存在翻译质量低下、翻译效率不高等问题[2]。
鉴于此,本研究通过分析农业科技英语语料库的研究现状,阐述构建该类型语料库的重要性及必要性,继而对语料库构建的具体步骤,包括语料库的设计、双语语料的选择、采集和加工以及对齐处理等进行详细描述,并对该语料库在翻译教学和研究以及在农业科技国际化和现代化发展中的应用前景进行探讨,力求为农业科技英语翻译教学和研究开辟出全新的视角和路径,促进中外农业科技交流和合作。
1.农业科技英语语料库研究现状20世纪60年代,语料库建设开始从通用型向专门用途型转变,涵盖医学、旅游、法律、教育教学、科技等领域,并逐渐应用到相关研究和教学中。
20世纪90年代起,中国学者开始语料库建设并利用语料库进行翻译研究[3]。
农业科技英语作为专门用途英语的一个分支,不乏利用语料库对其进行的探讨和研究。
王敏、李丽霞[4]探讨了农业英语语料库的创建思路及相关技术支撑,指出并总结了专门用途英语语料库建设的可行性及其应用价值;刘萍、黄小倩、刘珊[5]介绍了农业科技学术英语论文语料库的创建过程,并调查和探讨了该语料库在大学生学术英语写作中的应用情况;李家元[6]则以国外权威网站上有关农业相关英语报道为语料来源,探索针对高职高专大学生的农业英语语料库的创建和应用。
国内英汉双语平行语料库建构与研究现状及展望_黄立波
究”一文(廖七一 2000)。 该 文 不 仅 介 绍 了 与 翻 译 研 60%,汉 译 英 语 料 占 40%,可 用 于 双 语 词 典 编 纂、汉
究相 关 的 平 行、多 语 和 可 比 三 类 语 料 库 以 及 英 国 的 英对比研究、翻译 教 学 和 实 践 等 领 域 (李 德 俊 2008:
库、国家语委语言文字所英汉双语语 料 库、中 科 院 软 关研 究 发 现,如 翻 译 共 性 特 征 在 英 汉 语 翻 译 语 境 下
件所英汉双语语料库和中科院自动化所 英 汉 双 语 语 的验证,并 提 出 新 的 研 究 课 题。 南 京 国 际 关 系 学 院
料库等(参见冯 志 伟 2002:57)。 国 内 平 行 语 料 库 建 李德俊教授主持研制的“英汉平行语料库”容 量 为 对
库(CEXI)、葡-英双向平行 语 料 库 (Compara)相 继 建 2007,2008;王 克 非、秦 洪 武 2009;王 克 非、胡 显 耀
成 ,基 于 这 些 语 料 库 的 翻 译 研 究 成 果 大 量 涌 现 。
2010)、翻译文体(如 黄 立 波 2009)、语 言 与 翻 译 教 学
摘要:本文在回顾近年来国内英汉双语平行语料库建构与研究方面取得成就的基础上 ,探究现有语料库 研 制 与 应 用 中 存 在 的 一 些 问 题 ,发 现 其 具 体 表 现 为 :第 一 ,语 料 库 建 设 各 自 为 政 ,缺 乏 超 大 规 模 、综 合 性 、多 用 途的国家级平行语料库;第二,语料库的深加工还不够深入;第三,从对语料库的应 用 看,课 题 拓 展 和 对 语 料 库 的 研 究 潜 力 开 发 还 不 够 ;第 四 ,相 关 学 科 之 间 的 沟 通 与 合 作 不 够 。 针 对 这 些 问 题 提 出 的 一 些 对 策 包 括 构 建 更 大 规 模 的 超 级 英 汉 平 行 语 料 库 、自 动 标 注 的 深 化 、开 发 相 关 软 件 以 及 完 善 网 络 检 索 平 台 。
英汉语料库汇总
1.英语学习者语料库(书面语及口语)中国学习者语料库 CLEC(100万)广外、上海交大2.大学英语学习者口语语料库 COLSEC (5万) 上海交大3.香港科技大学学习者语料库 HKUST Learner Corpus 香港科技大学4.中国英语专业语料库 CEME (148万) 南京大学5.中国英语学习者口语语料库 SECCL (100万) 南京大学6.国际外语学习者英语口语语料库中国部分 LINSEI-China (10万) 华南师大7.硕士写作语料库 MWC (12万) 华中科技大学9.平行语料库汉英平行语料库 PCCE 北外10.南大-国关平行语料库南京大学11.英汉文学作品语料库;外研社12.冯友兰《中国哲学史》汉英对照语料库13.李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库14.计算机专业的双语语料库;国家语言文字工作委员会语言文字应用研究所15.柏拉图(Plato)哲学名著《理想国》的双语语料库16.英汉双语语料库(15万对) 中科院软件所17.英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对中国科学院自动化研究所18.英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万) 东北大学19.英汉双语语料库(40-50万句子对) 哈尔滨工业大学20.双语语料库(5万多对) 北京大学计算语言学研究所21.对比语料库 LIVAC(Linguistic variety in Chinese communities) 香港城市理工大学22.平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾23.特殊英语语料库中国英语(China English)语料库河南师范大学24.军事英语语料库(Corpus of Military Texts) 解放军外语学院25.新视野大学英语教材语料库上海交通大学26.汉语语料库汉语现代文学作品语料库(1979年,527万字) 武汉大学27.现代汉语语料库(1983年,2000万字) 北京航空航天大学28.中学语文教材语料库(1983年,106万8000字) 北京师范大学29.现代汉语词频统计语料库(1983年,182万字) 北京语言学院30.国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会31.《人民日报》语料库(2700万字) 北京大学计算机语言学研究所32.大型中文语料库(5亿字,10分库) 北京语言文化大学33.现代汉语语料库(1亿字) 清华大学34.汉语新闻语料库;(1988年,250万字) 山西大学35.标准语料库(2000年,70万字)36.生语料库(3000万字);《作家文摘》的标注语料库(100万字) 上海师范大学37.现代自然口语语料库中国社会科学院语言所38.旅游咨询口语对话语料库和旅馆预定口语对话语料库中国科学院自动化所39.北京大学汉语语言学研究中心的三个语料库现代汉语语料库/yuliao.asp?item=1古代汉语语料库/yuliao.asp?item=2汉英双语语料库/yuliao.asp?item=3/printthread.php?t=2742汉语语料库使用权限国家语委语料库(http://219.238.40.213:8080/CpsQrySv.srf)”虽说是通用型平衡语料库,但不能完全免费使用;北京语言大学的汉语语料库(http://202.112.195.8)语料产出时间较早,且不能完全免费使用;北京大学汉语语言学研究中心语料库(现代汉语子库)”(/YuLiao_Contents.Asp)规模最大,逾亿字,但取样极不均衡,多半为文学作品;台湾“中央研究院”Sinica Corpus也是可免费使用的平衡汉语语料库。
英汉语料库汇总
1.英语学习者语料库(书面语及口语)中国学习者语料库 CLEC(100万)广外、上海交大2.大学英语学习者口语语料库 COLSEC (5万) 上海交大3.香港科技大学学习者语料库 HKUST Learner Corpus 香港科技大学4.中国英语专业语料库 CEME (148万) 南京大学5.中国英语学习者口语语料库 SECCL (100万) 南京大学6.国际外语学习者英语口语语料库中国部分 LINSEI-China (10万) 华南师大7.硕士写作语料库 MWC (12万) 华中科技大学9.平行语料库汉英平行语料库 PCCE 北外10.南大-国关平行语料库南京大学11.英汉文学作品语料库;外研社12.冯友兰《中国哲学史》汉英对照语料库13.李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库14.计算机专业的双语语料库;国家语言文字工作委员会语言文字应用研究所15.柏拉图(Plato)哲学名著《理想国》的双语语料库16.英汉双语语料库(15万对) 中科院软件所17.英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对中国科学院自动化研究所18.英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万) 东北大学19.英汉双语语料库(40-50万句子对) 哈尔滨工业大学20.双语语料库(5万多对) 北京大学计算语言学研究所21.对比语料库 LIVAC(Linguistic variety in Chinese communities) 香港城市理工大学22.平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾23.特殊英语语料库中国英语(China English)语料库河南师范大学24.军事英语语料库(Corpus of Military Texts) 解放军外语学院25.新视野大学英语教材语料库上海交通大学26.汉语语料库汉语现代文学作品语料库(1979年,527万字) 武汉大学27.现代汉语语料库(1983年,2000万字) 北京航空航天大学28.中学语文教材语料库(1983年,106万8000字) 北京师范大学29.现代汉语词频统计语料库(1983年,182万字) 北京语言学院30.国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会31.《人民日报》语料库(2700万字) 北京大学计算机语言学研究所32.大型中文语料库(5亿字,10分库) 北京语言文化大学33.现代汉语语料库(1亿字) 清华大学34.汉语新闻语料库;(1988年,250万字) 山西大学35.标准语料库(2000年,70万字)36.生语料库(3000万字);《作家文摘》的标注语料库(100万字) 上海师范大学37.现代自然口语语料库中国社会科学院语言所38.旅游咨询口语对话语料库和旅馆预定口语对话语料库中国科学院自动化所39.北京大学汉语语言学研究中心的三个语料库现代汉语语料库/yuliao.asp?item=1古代汉语语料库/yuliao.asp?item=2汉英双语语料库/yuliao.asp?item=3/printthread.php?t=2742汉语语料库使用权限国家语委语料库(http://219.238.40.213:8080/CpsQrySv.srf)”虽说是通用型平衡语料库,但不能完全免费使用;北京语言大学的汉语语料库(http://202.112.195.8)语料产出时间较早,且不能完全免费使用;北京大学汉语语言学研究中心语料库(现代汉语子库)”(/YuLiao_Contents.Asp)规模最大,逾亿字,但取样极不均衡,多半为文学作品;台湾“中央研究院”Sinica Corpus也是可免费使用的平衡汉语语料库。
中国法律法规汉英平行语料库
中国法律法规汉英平行语料库在全球化、信息化的当今世界,翻译已成为了解全球信息、扩大对外宣传、获取国际资源的重要手段。
同计算机技术结合而兴起的双语平行语料库建设,则为语言研究、翻译研究、外语教学、词典编纂和跨语言信息检索等提供了最好的平台,同时还可用来考察和验证基于单语语料库或者基于直觉提出的假设,具有广阔的应用前景。
平行语料库承载着相互对应的两种语言,与语言对比研究有着天然的联系,成为语言对比研究中的默认数据源;平行语料库中的两种语言互为对应,记载着两种语言中的对应词和对应单位,成为词典编纂者最可靠的数据来源;平行语料库中的源语言和目标语言互为对应,在翻译教学和外语学习中的用途更是不言而喻。
除此之外,平行语料库对机器翻译和自然语言处理也极为重要。
对齐的平行语料能为基于例句和统计的机器翻译系统提供实证模型,同时也可以为基于规则的机器翻译提供验证规则,为机助翻译提供大量翻译记忆。
正如欧赫(Och 2002)所言,“只要给我足够的双语对应数据,几个小时内我可以给你一个机器翻译系统”。
然而现有的英汉平行语料库规模有限,且大多是利用现有同质翻译资源建立的,并非平衡语料库,常常不能较好地代表广泛含义上的源语—译语关系,依此生成的语言模型常常不能够有效地解释翻译语言,这极大地阻碍了翻译和词典编纂等学科研究的深入,已成为提高机器翻译译文质量的瓶颈。
鉴于此,我们提出设计和研制更大规模、更多功能的超大型平行语料库,即一亿词以上的“中国英汉平行语料库”,以满足各方面研究的需求和语料库事业的发展。
1)由于大型双语平行语料库规模超大、采样严格,能够较好地代表源语—译语关系,因此能为翻译研究、语言对比研究、语言演化研究、口笔译比较研究等提供可靠的翻译实例和量化数据,从而提高上述研究的可信度。
2)在超大型双语平行语料库建设的基础上,我们还将展开多项具有理论意义的语言和翻译研究。
这些研究主要包括历时研究、类比动态描写。
研究分析时间跨度大,涉及层面多。
建立翻译语料库,提高翻译水平-精品文档
建立翻译语料库,提高翻译水平Improve Translation Level by Building a Translation Corpus【】【Keywords】Translation, , Corpus1 相关研究的简述2 理论依据2.1 从篇章翻译调查的理论依据2.1.1 汉译英中句子的对应王克非应用自行研制的英汉双语平行语料库考察了英汉、汉英语句对应现象,发现在各种语料中1:1 的对应语句都占多数; 从文学汉译英、非文学汉译英、文学英译汉到非文学英译汉, 1 :1 语句对应呈递增曲线。
其中,在非文学英译汉(总共3775句)的对应语句中,1:1的百分比为80. 2 %,1:2的为12. 6 %,2 : 1的为3. 4 %,1:3的为2.3%,其余为1.5%。
[10]这些数据可作为本研究中调查句子对应情况的参考。
所以,一调查比较,就可得知学生拆分句子翻译的情况、目标语文本扩增的特点和译文的简洁度。
2.1.2 衔接词的使用频率和中英翻译对比2.1.3 句型的变化经过翻译的英语句子的长度和结构是依靠思想内容来决定的,但在表达时,要严谨质朴,突出思想的逻辑力量,层次分明、丰富、周密。
使用过多的简单句,容易导致逻辑联系不畅达,行文单调;句子过长,容易拖泥带水,使人不得要领。
[8]英语科技文章中经常使用的句型有It…that…的强调结构句型,被动态结构,分词短语结构句,省略句结构句型等。
调查句子的长度和结构变化就可了解学生对篇章连贯把握如何,还可以了解他们倾向使用哪种句型结构。
2.2 从句子翻译调查的理论依据2.2.1 直译和意译何为直译和意译?它们的区别又在何处?许渊冲说;“直译把忠实于原文内容放在第一位.把忠实于原文的形式放在第二位,把译文形式放在第三位的翻译方法。
意译是把忠实于原文的内容放在第―位,把通顺的译文放在第二位,不拘泥于原文形式的翻译方法无论直译还是意译,都把原文的内容放在第一位。
基于语料库学习者汉英翻译中省译策_省略__兼谈对于汉英翻译测试的几点思考..
基于语料库学习者汉英翻译中省译策略的初探①———兼谈对于汉英翻译测试的几点思考潘鸣威(上海外国语大学)摘要:本文以中国英语专业学习者语料库(CEM)中的翻译字库作为研究对象,从定量和定性两个角度考察了学生对汉英翻译中冗余信息运用省译策略进行处理的情况。
研究说明了学习者对于汉语冗余信息的处理上还未能熟练运用省译策略,并且实际的运用情况也较不均衡。
最后,在本研究结论的基础上,本文提出了一些对于汉英翻译测试的思考。
Abstract:Gearing the translation sub-corpus of Corpus for English Majors as the re-search target,this paper,both quantitatively and qualitatively,aims to probe intolearners'employment of omission strategy in dealing with redundant information in Chi-nese-English translation.The findings reveal learners'comparatively poor performancein resorting to omission in their translation and also indicate that their use of such strate-gy in different situations varies greatly.In the end,some reflections upon Chinese-Eng-lish translation testing are yielded based on the current research findings.关键词:省译冗余学习者语料库Key Words:omission redundancy learner corpus一、引言省译策略是汉英翻译中的一种重要技巧,其目的是为了使译文简洁,符合译入语的表达习惯和修辞特点。
《红楼梦》中习语的汉英平行语料库构建
《红楼梦》中习语的汉英平行语料库构建摘要:《红楼梦》作为中国古代生活的百科全书,世所罕见的文学名著。
习语是一种文化象征和重要词语类型。
《红楼梦》中习语汉英平行语料库的创建,不仅对中国文化走向世界有着极大的帮助,推动了语言学的研究,本文列举该语料库创建中涉及的几大问题,并提出对应解决方法,旨在为《红楼梦》以及其他名著特定词类,句类的语料库创建提供经验,并为相关研究提供语料库基础。
关键词:语料库;习语;红楼梦1引言近几年,国内大力推行“文化走出去”与“ 一带一路”战略规划,从这两个规划中可以看出,开放合作、交流融合已经成为国家战略的关键概念,而文化作为一种软实力,其推介不仅有助于增强不同国家间的认同与互信,而且有助于提升我们的国际影响力。
[1]而《红楼梦》作为集中国传统文化于一身的著作且习语包含这地理、历史、宗教信仰、生活习俗等方面的知识,承载着民族文化特色和文化信息,它们与文化传统紧密相连,不可分割,[2]构建《红楼梦》习语汉英平行语料库对于中国文化输出以及世界文化交流有着至关重要的作用。
语料库可对自然语言文本进行采集、存储、检索、统计,可应用于语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域。
[3]语料库是语言研究现代化的重要基础,利用语料库从事语言研究,可以克服传统语言学中如:语料客观性不强,共享性不够等诸多问题。
[4]而《红楼梦》汉语版和英译版中蕴含的语言学价值极大,其语料库的创建可大大推动语言学的发展。
《红楼梦》作为我国历史乃至世界历史上罕见的文学巨著,其结构庞大,人物众多,在翻译中,令人感到棘手的难点,比比皆是[5],因此其具有研究价值的英译本出现时间较晚,导致了其语料库构建方面的不足,及缺少对特定词语、词组、句子单独构建的语料库。
本文将《红楼梦》最具文化特色的习语进行了语料库的构建,正是为了弥补这一不足。
本文对《红楼梦》习语汉英平行语料库构建中出现的问题进行了列举分析,并提出相应对策。