常用语料库软件的应用 - 上海交通大学翻译与词典学研究中心
语料库在英语语言研究方面的应用
![语料库在英语语言研究方面的应用](https://img.taocdn.com/s3/m/03780c5a7cd184254b3535c6.png)
语料库在英语语言研究方面的应用作者:熊玲莹来源:《校园英语·上旬》2017年第02期【摘要】目前,社会正处于经济一体化过程中,英语语言在人们进行沟通交流时应用最为广泛,可谓一项最为基本的语言技能。
故而,对英语语言进行相关研究可以适应时代发展和需求,是语言研究工作者较为热衷的一个课题。
而在对英语语言进行研究时,语料库是必备工具并且目前得到了较多的应用,为更好的研究英语语言立下了汗马功劳,也为较好的研究英语语言提供了很多创新理念。
故而,在当今时期下,进行英语语言研究的时候,探究语料库的作用有着重要的意义,鉴于此,笔者总结了此文。
【关键词】语料库英语语言研究应用最近几年,伴随着发展迅猛的计算机技术,在研究语言学的时候,语料库起到了较为明显的作用,其不仅为更好的进行语言研究提供了推进力,更为其研究提供了丰富可用的资料,从而不断的推进了英语语言研究的进展。
而在本文中,笔者就浅谈下在研究英语语言时语料库的相关应用。
一、语料库涵义及特点1.涵义。
所谓语料库,顾名思义,首先是一个数据库,这个数据库的作用就是对语料进行存放。
具体而言,就是应用相关的计算机工作,科学的对语言资料进行分析和筛选,然后进行相应的计算机方法加工,最终将其采用电子模式进行保存的一类文本库,其可以为语言的研究提供相应的资料来源,在进行语言研究的时候,其可谓是第一手的查找资料。
2.特点。
(1)特点之真实性。
这个特点也就是说在整理和筛选语言资料的时候,要立于实际,不能凭空臆想,所有的资料都要从生活实际当中获取,其代表的是人类现实的实际言语活动。
(2)特点之代表性。
在收集语言资料的时候,尽管来源十分可靠,但是不能将所有的语言事实进行全面的囊括,故而,就语言研究者而言,在收集的时候,要选择某个时期具有代表性的资料,从而将相关的语言特征充分显示出来,也增大语料库的规模,丰富其内容。
(3)特点之运用灵活性。
就计算机技术而言,不仅有着检索作用,处理能力也十分强大,研究者在进行语言研究的时候,要充分利用其这一功能,从而实现在尽量短的时间中处理尽量多的文本材料,使得自身效率大大提高。
Web语料库在外语听力教学中的应用
![Web语料库在外语听力教学中的应用](https://img.taocdn.com/s3/m/b93c105f1fd9ad51f01dc281e53a580216fc5012.png)
Web语料库在外语听力教学中的应用随着技术的不断进步和发展,Web语料库在外语教学中的应用已经成为了一种趋势,越来越多的教师和学生开始重视Web语料库在外语听力教学中的应用。
本文将从以下几个方面来阐述Web语料库在外语听力教学中的应用。
一、Web语料库简介Web语料库是通过互联网获取的一种文本语料库,语料库通常包含语音、文本和图片等多种类型。
在Web语料库中,可以找到各种各样的数据,如各种类型的文章、论文、新闻报道等。
这些语料库可以被用来研究语言的使用、语言习得等方面。
二、Web语料库在外语听力教学中的应用1.帮助学生提高听力技能Web语料库可以帮助学生提高英语听力技能,因为它提供了各种类型、各种场景的英语听力材料。
学生可以通过Web语料库来听取不同类别的材料,如新闻报道、科技杂志等,从而提高自己的听力技能。
2.帮助学生锻炼听力速度和技巧Web语料库中包含了各种不同的语速和语调,学生可以通过此来锻炼听力速度和技巧。
并且听取不同速度、不同难度的听力材料,还可以帮助学生逐渐适应外国人的语速和语调。
3.提供面向主题的听力教材Web语料库可以提供面向特定主题的听力教材,以满足学生的需要。
比如,学生可以选择听取关于运动、文化等特定主题的材料,以满足自己的学习需求。
4.通过Web语料库提高听力教学的效率Web语料库将听力课程从传统的教材和作业中解放出来,让听力材料不再是单一的。
而且,它还可以帮助老师更加便捷地查找合适的听力材料,以适应不同的教学需求。
三、Web语料库在听力教学中的案例以下是一些Web语料库在听力教学中的案例,这些案例将有助于我们更好地理解Web语料库在听力教学中的应用。
1.使用Youtube上的视频进行听力教学老师可以通过在YouTube上查找有关课程的视频来进行听力教学。
这些视频可以是各种类型的,比如科技、音乐、纪录片、电影和卡通等。
学生可以在自己的电脑或智能手机上观看这些视频。
老师可以根据学生的教学需求,修改视频的播放速度并添加字幕以帮助学生理解。
《基于语料库的莎士比亚戏剧汉译研究》读书笔记模板
![《基于语料库的莎士比亚戏剧汉译研究》读书笔记模板](https://img.taocdn.com/s3/m/55d8e0c5710abb68a98271fe910ef12d2bf9a945.png)
1.4本书的研究内容、研究意义和研究方法
1.4.1本书的主要研究内容 1.4.2本书的研究意义 1.4.3本书的研究方法
2.1引言
2.2中英文语料的选 择与输入
2.3语料的预处理
2.4语料的分词和标 注
2.5语料的平行 对齐
2.6小结
3.1引言
3.2翻译共性的概念 及分类
3.3显化的实证研究 3.4隐化的实证研究
5.2.1人际意义的定义 5.2.2人际意义的分类
5.4莎剧中情态助动词的汉译研究——以“can”为例
5.4.1引言 5.4.2情态系统与情态类型 5.4.3情态的表达 5.4.4研究设计 5.4.5莎剧中“can”的汉译归类 5.4.6情态助动词“can”的汉译异同及原因分析 5.4.7小结
5.5莎剧中“good”的评价意义再现研究
6.4莎剧中颜色词概念隐喻的汉译研究
6.4.1引言 6.4.2莎剧中颜色词概念隐喻及其汉译 6.4.3莎剧中颜剧中话语标记“well”的汉译研究
6.5.1引言 6.5.2话语标记“well”的功能 6.5.3研究步骤 6.5.4莎剧中话语标记“well”的应用及其汉译 6.5.5小结
5.5.1引言 5.5.2评价意义 5.5.3梁译本与朱译本中“good”的评价意义再现 5.5.4梁译本和朱译本中级差意义再现差异的动因 5.5.5小结
5.6莎剧中“lord”的人际意义再现研究
5.6.1引言 5.6.2称呼语的人际意义 5.6.3研究设计 5.6.4莎剧汉译本中“lord”人际意义的再现 5.6.5梁译本和朱译本中“lord”人际意义再现的动因 5.6.6小结
基于语料库的莎士比亚戏剧汉 译研究
读书笔记模板
01 思维导图
语料库在国内英语词汇教学应用的二十年
![语料库在国内英语词汇教学应用的二十年](https://img.taocdn.com/s3/m/fa2a22ae8e9951e79a892734.png)
语料库在国内英语词汇教学应用的二十年作者:彭娅丽来源:《亚太教育》2016年第30期摘要:笔者以中国知网(CNKI)1996—2015年核心期刊中有关语料库应用于外语教学研究的47篇论文为基础,从基于语料库的教学资源、英语课堂教学、英语教学研究三个方面对论文进行梳理、研究和分析,从研究内容,研究角度和研究方法3个方面,总结出语料库应用于外语教学情况和问题,以启示未来基于语料库的词汇教学研究和实践。
关键词:语料库;英语词汇教学;国内研究中图分类号:H319.3文献标志码:A文章编号:2095-9214(2016)10-0098-02一、引言词汇是语言学习的基础,具有极其重要的作用。
Harmer提出:“ 如果说语法结构是语言的骨骼的话,词汇则是语言的器官和血肉。
” 然而目前中国的英语课堂,采用单一的以教师为中心的词汇教学法,先朗读,再介绍单词的意义和用法,简单列举几个例句,最后由学生造句进行练习。
这种方法只单纯追求词汇量增长,而忽视了词汇的质量和深度,轻视语义的运用。
学生记忆了很多单词,但在写作或说话时仍只能运用有限的词汇,并造成词汇误用、超用或少用。
词汇知识包括哪些内容, Nation提出并扩展了多维词汇知识框架。
他从接受性和产出性两个维度指出词汇知识包括九方面:发音、拼写、词性、形意关联、概念指向、语义联想、语法形式、搭配、使用语境的制约等。
吴霞和王蔷也把词汇量的大小和对词义的了解深度看作衡量学生词汇能力的两个重要尺度。
词汇广度是指学习者所掌握的词的数量。
词汇深度指学习者对于词汇深层次知识的掌握,包括对一词多义语义网络的了解和掌握以及对词汇搭配能力的了解和对词义之间细微差异的敏感性。
20世纪60年代后,语料库建设突飞猛进,为词汇教学提供了新思路。
Tim Johns首次提出数据驱动学习(DDL)的观点,认为学生可以通过观察真实语言,掌握词汇意义和语法规则。
Renouf和Sinclair提倡以短语结构为纲的英语教学,专门利用大型语料库来研究英语词汇的搭配结构。
平行语料库在翻译教学中的运用
![平行语料库在翻译教学中的运用](https://img.taocdn.com/s3/m/2c9b56155b8102d276a20029bd64783e08127d72.png)
- 59 -校园英语 / 高等教育研究平行语料库在翻译教学中的运用萍乡学院/赖康生 陈永国【摘要】英汉双语平行语料库在英汉翻译教学中扮演着非常重要的角色,它能够为翻译教师在翻译课堂中提供许多鲜活的、典型的翻译例句。
它在解决教师缺乏与翻译技巧紧密结合的翻译例句等方面提供了其他翻译工具无法解决的帮助。
本文通过研究如何在翻译课堂中合理使用平行语料库使翻译课堂重新充满活力。
【关键词】平行语料库 翻译教学 运用一、国内高校翻译教学现状为了了解我校翻译教学现状,笔者制作了120份关于我校英语翻译教学满意度调查问卷,在外国语学院13级的6个英语本科班大三学生群体中发放,发放120份问卷,回收120份问卷,对回收的问卷进行整理统计、分析,发现我校翻译教学存在如下问题:从表1我们可以看出,53.3%的学生认为翻译课堂教学中教师的主要目的是以传授翻译技能为主,56.7%的学生认为翻译教师在备课中充分考虑到了教学内容,学生情况和教学方法三大要素。
53.3%的学生认为教师教学环节较完善,时间安排较好;50%的学生认为家作和课后练习数量较少,56.7%的学生认为翻译老师从未根据学生的具体翻译能力分不同层次进行作业安排。
45.8%的学生认为老师对所布置的作业偶尔进行一次认真的批阅,31.7%的学生认为教师能够及时有效地检查和批阅所布置的作业。
由此我们可以得出,学生对于老师所布置的作业的数量和批改态度不是很满意,翻译教师布置作业较少,批改次数较少,所布置的作业内容也没有考虑到难易度的区分。
从表2我们可以发现,35%的学生认为翻译老师使用传统教学方法,不征求学生意见去改进教学方法;更为严重的是55.8%的学生认为老师的教学方法单一,以讲授为主,照本宣科;52.5%的学生认为老师善于使用各种教学手段,特别是多媒体、网络等现代教育技术手段。
50.8%的学生认为老师会组织大家一起课堂讨论。
综合以上数据分析,大多数翻译教师依然使用的是较为传统的翻译教学方式:教授翻译技巧,布置翻译练习,核对练习答案。
语料库与英语教学
![语料库与英语教学](https://img.taocdn.com/s3/m/06a4c879ddccda38376bafa4.png)
语料库与英语教学
赵鸿雁 hongyan_z@ 上海交通大学外国语学院
1
contents
I II
语料库简介
语料库研究成果与外语教学
学习者语料库数据的利用 语料库使用演示
III
IV
2
I. 语料库简介
语料库语言学是一种全新的研究思路。它以真 实的语言数据为研究对象,从宏观的角度对大 数量的语言事实进行分析,从中寻找语言使用 的规律。
7
语料库的种类
1.通用语料库:British National Corpus(1亿) 2.专业语料库:JDEST(100万),古汉语语料库 (3000万) 3.监控语料库:Corpus of Contemporary American English(3.6亿) 4.口语语料库: Corpus of Spoken American English(25万) 5.学习者语料库: International Corpus of Learner English(每个子库20万) 6.平行语料库:联合国文件数据库( 80万份六种语 言平行文档)
much routine in policy. These are t twenty years know that these are ce between the two phrases -- are ermore, if two parties (usually, but personal is broader than, and does r facilities are advertised, they may overs all accommodation and does ldren's facilities, for example, does remember that past performance is
口译语料库在口译教学中的应用
![口译语料库在口译教学中的应用](https://img.taocdn.com/s3/m/0a031d18f8c75fbfc67db210.png)
语言文学研究口译语料库在口译教学中的应用徐谦谦(上海应用技术大学外国语学院,上海201418)摘要:基于口译语料库的研究方法是口译研究的一种主8方法,借助语料库研究方法研究口译教学具有重大意义。
本文从口译教学特点及当前口译教学存在的问题出发,探究口译语料库在提供口译训练材料、辅助口译译前准备、辅助口译记忆训练等方面的具体应用。
关键词:口译语料库口译教学口译记忆训练1.引言语料库口译研究始于,1998年Shlesinger发文"Corpus-Based Interpreting Studies as an Offshoot of Corpus-Based Translation Studies"。
Shlesinger在文中提出可以借鉴语料库语言学对词汇密度、语篇特征、类符-形符比等描写手段及语料库翻译学利用平行语料库和可比语料库的方法开展口译研究。
国际知名出版公司Peter Lang出版了迄今第一本语料库口译研究专题论文集《拓荒语料库口译研究}(Breaking Ground in Corpus-Based Interpreting Studies)(陈菁,2014)。
目前国外已建成两个大型口译语料库即日本名古屋大学建立的CIAIR口译语料库和意大利博洛尼亚大学建立的EPIC (欧洲议会口译语料库)。
国外研究建型专门用途口译语料库,如Meyer(2008)建立K6语料库来研究交传和同传中对人名的;Petite(2008)建立语料库专门研究同传中的纠正机制(Repair Mechanism);Cencini(2000)建立电视口译语料库(Television Interpreting Corpus);Fumagalli(1999-2000)建类比和对应语料库研究英一意时事特点。
甲芳(2017)出目前国已建成的个口译语料库:外国语大学文秋芳教授及其团队建立PACCEL-S(Parallel Corpus of Chinese EFL Learners-Spoken);上海交通大学胡开宝及其团队建立CECIC(Chinese English Conference Interpreting Corpus)(包括三个库:会汉英平行语料库、会英语语料库、英平行语料子库);香港理工大学及其团队建立BICCSL(Hong Kong Bilingual Interpreting Corpus on Contem porary Social Life);英国利大学及建立CEIPPC(Corpus of Chinese-English Interpreting for Premier' s Press Conference)(后来被拓展为CEICO(Chinese-English Interpreting Corpus Online))o国内外文,基于语料库的口译研究具在类口译语料库建应用、口译语料库研究方法、口译和、口译语料写和方法、于建口译语料库进行口译语言特征和口译、口译教学等方。
基于语料库的汉日语词汇对译研究——以“特地”“特意”与“わざわざ”等词的翻译为例
![基于语料库的汉日语词汇对译研究——以“特地”“特意”与“わざわざ”等词的翻译为例](https://img.taocdn.com/s3/m/51aea2f4ac51f01dc281e53a580216fc700a53a4.png)
基于语料库的汉日语词汇对译研究—以''特地”"特意”与等词的翻译为例◎石俊摘要:"特意""特地"与等词在词典或教学中,一般解释为相互对应,可以互译。
但事实上,并非如此。
本文通过对中日对译语料库①的调查、统计和分析,考察中日两种语言中“特地"“特意"与“;等词的对应关系,探讨他们在使用方法、语义、语用及文化上的异同。
关键词:特地特意中日语料库对比分析一、问题的提起“特地”“特意”是现代汉语中一组常用同义副词。
无论吕叔湘的《现代汉语800词》②,还是近年出版的《现代汉语常用词汇表(草案)》③,均把这两个词作为最基本的常用词汇收录其中。
这两个词汇不仅频繁出现在中国国内的中小学语文教科书和对外汉语教学中级以上教材中,“特意”还被列为新HSK汉语水平考试5级所要求掌握的词汇。
与“特意"“特地”对应的日语词汇是“初芒力F'、“七<属日本语能力测试N3、N2级所要求的基本词汇,相信中国的日语学习者对之并不陌生。
但我们常常会听到下面一些说法。
例如就曾有中国的日语学习者满面笑曆地对自己的日本外教说道:X"今日C总空逹先生Q会1/、^来却被外教纠正道此处不应该使用学生不解,我们中国人不是常说“老师,我今天特意来看您”么?而且词典里就是这么解释的。
果然,在几乎所有的汉日•日汉词典中,都明确标注了“特地”“特意”的日语释义为,力芒力g,“特很多词典还罗列了相关用例。
如三省堂的《超級心沙中日辞典》中就有“鏈来看你。
/速逹君Q会Z乙来5”;讲谈社《中日辞典第三版》《岩波中国语辞典》《东方中国语辞典》等,也都有类似用例:“我是便意来看望你的。
/私君広会1/1来尢<7)疋。
”这位中国学生的“今日瓜业业先生人会1/、^来求。
尢。
”不就是完全根据辞典解释的照猫画虎么?还有就职于日本企业的中国员工亦因这个词,受过客户的提醒:X“OO会社①王-cTo矽泳様总J2自空:迎元卜乙参。
常用语料库软件的应用
![常用语料库软件的应用](https://img.taocdn.com/s3/m/2a4dde013d1ec5da50e2524de518964bcf84d2ce.png)
双语语料的对齐: 方式和 方法-2
• 初始对应: 源语、目标语文本段对齐,word下完成校 对。这一步最重要。
• Paraconc可以考虑添加s标记。 • 对齐: 软件对齐。如aligner,paraconc;Trados,
OmegaT • Trados商业使用最为广泛 • Déjà vu易操作 • Omega T免费,更易操作,但只能单用不能基于
web
微型教学语料库的创建和 使用
• 建库目的和内容
o 针对学生翻译习作 o 反映学生个体和总体特征 o 翻译技巧和翻译评估相结合 o 提取信息方便 o 易于操作
• 使用Excel基本满足此类要求
序的headadder,txtmarker。其实除噪是执 行一些替换性的操作(see next slide)
语料文本的基本处理: 主 要处理方式-4
• $line=~s/\s\n/\n/g; #matching and replacing all • $line=~s/(.)\n/$1 /g; #matching and replacing all • $line=~s/[\r\n]/##/g; #matching and replacing all • $line=~s/\*//g; #matching and replacing all • $line=~s/^\s*$//g; #matching and replacing all • $line=~s/\\s{0,}/\s/g; #matching and replacing all • $line=~s/\\s\n/\n/g; #matching and replacing all • $line=~s/\Z\n/##/g; #matching and replacing all • $line=~s/ +/ /g; #replace more whitespaces with just one • $line=~s/\s+(#{2,})/$1/g; #matching and replacing all
语料库语言学与ChatGPT在翻译研究中的应用
![语料库语言学与ChatGPT在翻译研究中的应用](https://img.taocdn.com/s3/m/b2151e16dc36a32d7375a417866fb84ae45cc3b3.png)
语料库语言学与ChatGPT在翻译研究中的应用语料库语言学和ChatGPT都是自然语言处理领域的重要研究方向,它们在翻译研究中也有广泛的应用。
语料库语言学是指利用自然语言语料库进行语言学研究的方法。
通过收集和管理大量的语言数据,人们可以从中提取出各种有用的信息,比如语言结构、语法规则、词汇使用、语言习惯等等。
这些信息对于机器翻译来说尤为重要,因为它们可以被用来训练机器翻译模型,提高翻译的准确性和流畅度。
ChatGPT是一种基于TmnSfOrmer架构的神经网络模型,它可以通过大量的语言数据进行无监督学习,从而生成高质量的文本。
在翻译研究中,ChatGPT可以用来生成机器翻译结果的上下文,提高翻译的连贯性和自然度。
在实际应用中,语料库语言学和ChatGPT也经常被用来解决机器翻译的一些问题。
比如,当机器翻译遇到生词或固定搭配时,可以利用语料库语言学中的知识,通过上下文信息来推测其含义,从而更加准确地翻译。
另外,在机器翻译中,ChatGPT也可以用来生成对话式的翻译结果,让翻译更加灵活自然。
总之,语料库语言学和ChatGPT在翻译研究中具有非常重要的应用价值,可以帮助提高机器翻译的准确性、流畅度和自然度。
一、语料库语言学与ChatGPT的意义(一)语料库语言学的意义语料库语言学是指通过对自然语言的真实使用形成的大规模语言数据进行分析和研究,以便更好地理解语言现象和规律的学科领域。
语料库语言学的出现为语言研究提供了丰富而可靠的实证研究材料,尤其是在计算语言学和自然语言处理领域研究中得到了广泛应用。
通过语料库语言学的研究,可以获得领域特定的词汇、语法结构和文化背景等信息,进而提高机器翻译、文本分类、信息检索等自然语言处理任务的准确性和效率。
(二)ChatGPT的意义ChatGPT是由OPenAl团队开发的基于TranSformer编码器-解码器架构的生成式预训练语言模型。
该模型通过对大规模语料库数据进行训练,可以实现对自然语言的生成与理解任务,如问答、摘要生成、对话生成等。
语料库在英语教学中的应用
![语料库在英语教学中的应用](https://img.taocdn.com/s3/m/2c37d3e081c758f5f61f67e8.png)
定量分析更为精确。
2 语料 库在语 言 研 究 中的应 用
语料库 的类 型可 以从 以下几个层面来 划分【 l I :
第 一类 ,从语言种类来划分 ,可分为单语语料库 、
来分 ,可分 为书面语料库 和 口语语料库 ;第 三类 ,
长 期 从 事语 料库 研 究 的新 西兰 语 言学 家 G .
维普资讯
瓶 拣 皤●— 繁静■■_ 站■■■ ■ - 母 豳
文 章编 号 :0 6 4 7 (0 6 0 — 0 10 10 — 87 2 0 )2 0 7 — 2
蘑 掷 霹 雹 纂 蘑 我 豢 砰 魔 屏f
杨 小平
摘 要: 就语 料库在教 学方面的发展 进行 了探讨 。 重点 阐述
性别、年龄 、阶层 、体裁等。当语料库具有代表性 时, 就可以对 口 语进行概括 ,同时也可 以对 口语中 过韵律和其他注解来增强 ,所以比未经加注的数据 . 更容易进行大规模的定量分析。在词汇研究方面 ,
养学生思维的一种方法 。
在进行英语词汇教学活动中 ,利用语料库的语
境共现设计词汇教学 ,可以从 以下几个步骤进行问 :
了人工操作 ,使一些 词典 的编著增加 了容量 和速
1 语 料库 语言 学的发 展
语料库的研究方法是基于语言学研究中的实证
主义的传统逐渐发展起来 的。从 2 0世纪 6 年代西 0
方语 言学 者就建 立 了许 多语 料库 , 最早 建立 的是 BO R WN语料库 ,称为布朗大学现代美 国英语标准 语料库 ,最初 的语料库是采用磁带的形式发行。随
度。其次 ,基本词汇表 的编制也进入了一个新 的阶 段 ,根据上海交通大学建立的科技英语语料库 ,我
语料库在翻译实践和研究中的应用方式和作用
![语料库在翻译实践和研究中的应用方式和作用](https://img.taocdn.com/s3/m/0f7479801b37f111f18583d049649b6648d70900.png)
语料库在翻译实践和研究中的应用方式和作用随着全球化的发展和国际交流的加强,翻译在跨文化交流中扮演着越来越重要的角色。
语料库作为翻译实践中的重要资源,可以为翻译提供丰富的语言数据和信息。
本文将探讨语料库在翻译实践和研究中的应用方式和作用。
下面是本店铺为大家精心编写的3篇《语料库在翻译实践和研究中的应用方式和作用》,供大家借鉴与参考,希望对大家有所帮助。
《语料库在翻译实践和研究中的应用方式和作用》篇1一、引言翻译是一个复杂的过程,需要对源语言和目标语言的语言、文化和语境有深入的了解。
语料库作为一种收集、存储、管理和分析语言数据的工具,可以为翻译提供丰富的语言数据和信息,有助于提高翻译质量、促进翻译研究。
二、语料库在翻译实践中的应用方式1. 术语库建设:术语是翻译中的重要组成部分,对于一些专业领域的翻译,术语的准确性至关重要。
语料库可以通过收集和整理大量的专业语料,建立术语库,为翻译人员提供准确的术语翻译。
2. 机器翻译:机器翻译是利用计算机技术和自然语言处理方法进行自动化翻译的过程。
语料库可以为机器翻译系统提供训练数据,以提高其翻译质量和准确性。
3. 翻译记忆库:翻译记忆库是一种收集、存储和管理翻译单元的数据库,可以帮助翻译人员快速找到已经翻译过的相似句子,提高翻译效率和准确性。
4. 语言资源库:语料库可以收集和整理各种语言资源,如词典、语法规则、语音数据等,为翻译人员提供全面的语言知识支持。
三、语料库在翻译研究中的作用1. 语言学研究:语料库可以为语言学研究提供大量的语言数据,帮助学者们深入研究语言的结构、语法规则、语义变化等。
2. 翻译学研究:语料库可以为翻译学研究提供实际的语言数据,帮助学者们研究翻译过程中的各种问题,如翻译策略、翻译质量评估等。
3. 文学研究:语料库可以为文学研究提供大量的文学作品和翻译作品,帮助学者们深入研究文学翻译中的文化、历史和风格等问题。
综上所述,语料库在翻译实践和研究中具有重要的应用方式和作用。
语料库和语料索引软件在英语词汇测试中的应用——以WordPilot为例
![语料库和语料索引软件在英语词汇测试中的应用——以WordPilot为例](https://img.taocdn.com/s3/m/0e8f780b16fc700abb68fcba.png)
语 料 库 和 语 料 索 引 软 件 在 英 语 词 汇 测 试 中 的应 用
— —
以 Wo d i t 例 rP l 为 o
肖文艳 , 曾 敏 , 熊灵燕
( 江西理工大学 外语 外贸学 院 , 江西 赣州 3 10 ) 4 00
摘 要 : 随着科技的进步 , 语料库被广泛地应用于语言教学与研究, 包括语言测试领域。词汇测试是语言测试
( )… a . 1 w R W.S uc p ot n e t to s o rea p ro m n me d i h 第三 , 语料库真实性与可靠性等特点符合语言测试评 a pl d t hed tr n t n o rgn o mb e ta r s l p i o t e e mi a i fo i fa in e o os e o i 估 中的要求 。 因此 , 将语 料 库运 用 到语 言 测试 当 中是
据 ;2 为进 行文体 研究 提供定性 和定量 分析 的基 () 础 ;3 为 进 行 语 义 学 和 语 用 学 研 究 提 供 可 靠 的 基 () 语言 实 例 。语 料 库 的 发展 经 历 了三 代 更 替 。第 一 代 础 ;4 为 对英 语语 法 和词 汇 进 行 定性 和定 量 研 究 提 () 以 2 世纪 6 年代的 Bo nCru 和 L B Cru 为 O 0 r o s w p O o s p 供基 础 。 代表 。这是 语 料库 发展 的初 期 , 规模 都 比较 小 。第二 语料 索 引 软件 ( ocracr 是 专 门 用 来 检 索 C nodne) 代以 2 0世纪 8 O年代 的 Br nh/ Cl co f n- i ga oetno g mi n l i E 分 析语 料 库 的软件 , 强大 的检 索功 能 是现 代语 料库 其 的集合 , 能够为语言研究和语言学习提供广泛恰 当的
语料库在大学英语教学中的应用
![语料库在大学英语教学中的应用](https://img.taocdn.com/s3/m/d4b473ad0029bd64783e2c70.png)
语料库在大学英语教学中的应用摘要:语料库可以应用于语言教学的很多方面,主要包括:教学大纲的设计,教学内容的确立,教学方法的采用,语料库应用于课堂教学,学习者语料库及中间语研究和语言测试。
合理利用语料库对英语教学能起到巨大的推动作用。
关键词:语料库;语言教学;中间语按照科学的方法定义,语料库就是书写文本或口语转写的集合体:语料库可以用于语言的分析和描写。
语料库是“电子机读文本的有限集合,从最大限度上代表了某种语言或语言变体。
”1987年,第一本基于语料库编写的字典《柯林斯COBUILD英语词典》出版,这在语料库语言学界荡起了一股不小的涟漪,引起了众多语言教师的极大关注。
同时也激起了语料库驱动的和基于语料库的语言教学研究,很多有影响的论文也相继发表。
继此,基于语料库的语言研究和语言教学研究如雨后春笋般迅速发展。
对语言内在结构描述和语言运用的研究领域涌现出大量含金量高的论文著作,基于语料库的英语教学和语料库驱动的英语教学研究继而被推举到非常重要的地位。
语料库应用于语言教学主要表现在以下几个方面:母语语料库为准确地描述语言提供了可靠的依据,它基于真实的语言,对教材内容的编排和词典的编纂提供了丰富而真实的语料。
学习者语料库提供了学习者习得第二语言的大量信息。
研究学习者的语言特点、学习过程、编排学习者字典等工作都可以从中获益。
和母语语料库相比,用于编排教材的专门语料库不但对教材编写有很大的裨益,对测试材料的选择和试题构建也有着功不可没的贡献。
总之,无论是母语语料库还是学习者语料库对教学材料的选择和教学实践活动都带来了很大帮助。
一、大纲设计语料库的广泛应用为描写准确的语言提供了依据,同时也为语言教学的大纲设计和教学内容的编写提供亍素材。
语料库对语言教学的简单而重要的作用表现在它为语言教学提供的是真实的语料、实际生活中使用的语言。
另外,语料库提供的语言数据表明了语言使用状况的各种频率信息,为确立教学内容提供了可靠依据。
近十年国内语料库语言学研究综述
![近十年国内语料库语言学研究综述](https://img.taocdn.com/s3/m/13eaa5a7bb0d4a7302768e9951e79b8968026807.png)
近十年国内语料库语言学研究综述一、概述近十年来,语料库语言学在国内的研究取得了显著的发展和突破。
随着信息技术的飞速进步和大数据时代的到来,语料库语言学在语言学研究中的地位日益凸显。
它基于大规模真实文本数据,运用统计学和计算机技术,对语言现象进行定量和定性的分析,为语言学研究提供了全新的视角和方法。
国内语料库语言学的研究范围广泛,涉及语言结构、语言变异、语言使用、语言教学等多个领域。
研究者们利用语料库资源,深入探讨了词汇、语法、语义、语用等层面的语言问题,揭示了语言现象的内在规律和特点。
同时,随着语料库建设的不断完善,语料库语言学在国内的应用也愈加广泛,为自然语言处理、机器翻译、信息检索等领域提供了强大的数据支持和技术基础。
近十年内,国内语料库语言学的研究呈现出以下几个特点:一是研究方法的多样化,不仅注重传统的统计分析方法,还引入了机器学习、深度学习等先进技术二是研究领域的拓展,语料库语言学不再局限于传统的语言结构研究,而是向语言教学、语言规划等应用领域延伸三是语料库资源的不断丰富,各类专题语料库、多语种语料库等不断涌现,为语料库语言学的研究提供了更为丰富和多样的数据来源。
总体而言,近十年国内语料库语言学的研究取得了丰硕的成果,不仅推动了语言学理论的发展,也为语言实践提供了有力的支持。
未来,随着技术的不断进步和语料库资源的日益丰富,语料库语言学在国内的研究将更加深入和广泛,为语言学研究和社会应用带来更多的创新和突破。
1. 语料库语言学的定义与重要性语料库语言学,作为一种独特的语言学研究方法,主要依赖于大规模、结构化的语言数据集合,即语料库,来进行语言分析和研究。
它通过对真实语料进行定量和定性的分析,旨在揭示语言的实际使用情况和内在规律。
近十年来,随着信息技术的飞速发展和语料库规模的日益扩大,语料库语言学在国内语言学界的地位逐渐提升,其重要性也日益凸显。
语料库语言学的定义在于其研究方法和数据基础。
其研究方法强调实证和量化,通过计算机技术和统计手段对语料库中的语言数据进行处理和分析,进而揭示语言的实际使用情况。
语料库翻译学讲习班:语料库翻译学概论
![语料库翻译学讲习班:语料库翻译学概论](https://img.taocdn.com/s3/m/ea3dc84a6d175f0e7cd184254b35eefdc9d3155a.png)
三、国外现状
日本学者Hitomi Tohyyama和Shigeki Matsubara(2006)利用日本名古屋大学研发的英日双向同传语料库,就同声传译中单词之间的时间间隔、填充词与听众理解的影响和听众印象与译员停顿长度等课题进行探讨。
项目负责人
单位
2005
基于大型英汉对应语料库的翻译研究与翻译教学平台
王克非
北京外国语大学中国外语教育研究中心
2005
《红楼梦》中英文语料库的创建及应用研究
刘泽权
燕山大学
2006
面向机器辅助翻译的汉英对比知识库研究与建设
2
根据Sara Laviosa-Braiwaite的观点,语料库翻译学的主要研究内容是各类翻译现象的特征,研究方法是自下而上方法和自上而下方法的综合运用,是定性研究和定量研究的有机结合。
1998年,国际译学研究期刊Meta发表了由Sara Laviosa主编的题为 “The Corpus-based Approach: A New Paradigm in Translation Studies”的专栏,推出了两组文章。第一组文章主要探讨语料库翻译学的研究领域、研究对象和研究方法等理论问题。第二组文章涉及基于语料库的翻译共性、翻译规范和翻译教学研究。
二、历史背景
描写性译学
01
B. 描写性译学的主要观点:
02
翻译不是在真空状态下进行的语言转换,而是受到各种语言文化因素制约的社会行为或文化历史现象。
03
翻译是目的语文化事实,具有自己的特征,绝非其他文本的表述或衍生物。翻译文本记录真实的交际事件,这种交际事件并不比其他交际事件逊色。
语料库在英语学习中的应用
![语料库在英语学习中的应用](https://img.taocdn.com/s3/m/b43c553bcc7931b765ce156a.png)
语料库在英语学习中的应用作者:张素敏来源:《赤峰学院学报·哲学社会科学版》2016年第06期摘要:基于语料库的研究为人们提供了一种准确的语言描述途径,语料库在英语学习中的应用也逐渐引起了学者们的注意。
它在语言结构和运用方面的潜力同样适用于英语语言学习。
本文从语料库的定义以及语料库的种类,探讨其检索工具在英语语言教学中的运用,主要从词汇和句法两个方面进行分析。
关键词:语料库;检索工具;英语学习中图分类号:H319 文献标识码:A 文章编号:1673-2596(2016)06-0263-02一、引言随着科技的发展,我们生活在一个信息比以往任何时候都可以自由获取的时代。
然而获取的信息需要被处理,转化为知识才能有利于我们的生活,工作和学习。
传统的信息收集和存储方法在未来几百年内将不足以满足人们的需求。
所以,在教学中发展知识建构,为学生提供更多自主或以学习为中心的学习机会,无疑是对学生最大的帮助。
幸运的是,这可以通过利用现代技术来完成。
不管是现在和将来,在语言学习环境中,现代技术是一个有效的组成部分。
语料库语言学为语言描述提供了准确的途径,其在语言构建和语用方面的潜力同样应用于英语语言学及语言教学。
语料库的可操作性在语言学习以及句法分析方面为学生和教师提供了很大的机会,可利用各种计算机程序准确而快速地揭示语言运用的各种现象,无需手动收集和分析各种数据。
语料库所提供的例句丰富而实际,学生和教师可观察在不同的语境下语言的实际使用情况。
并且,目前可使用的预料库大部分是免费的或价格低廉。
使用语料库进行语言学习在语言描述和获取教学材料方面可取得显著的成效,尽管大部分教师还没有弄清楚语料库的性质,难以将其和语言教学相联系。
本文试图通过实例证明语料库在英语语言教学中的应用。
二、语料库的类型语料库是按着一定的语言原则,运用随机抽样的方法,收集自然出现的连续语言,运用文本或话语片段而建成的具有一定容量的大型电子文本库。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语料库的基本特征-2
• 语料库可以视为结构合理的语料文件的集合。往往以 数据库形式存在(如文件夹)。这是语料库建库工作 中最重要的部分,也是最耗时费力的部分。 • 语料数据库建成之后,就可以从库中提取信息,称为 检索。检索效果高低要看能否充分运用检索手段,但 最终依赖语料库本身能提供多少可能性。 • 检索结果的处理需要技巧,事关处理的质量和效率。
语料数据的后续处理-2
• 重复词项计算 • Facotor analysis (SPSS) • Correlation analysis (SPSS)
平行语料库辅助翻译应用
• 基本思路:已有翻译为参照,为当下翻译提供参考; 建立术语库,使术语统一成为可能。 • CAT的主体部分是TM和Term Database • CAT软件:Trados,Deja vu,雅信,(免费) OmegaT • Trados商业使用最为广泛 • Déjà vu易操作 • Omega T免费,更易操作,但只能单用不能基于 web
语料文本的基本处理:主 要处理方式-2
• Word中的替换、Macro的使用 • 其他语料文本处理工具的使用(Editplus)
语料文本的基本处理:主 要处理方式-3
• 规范语料文件的生成:无噪音、符合预期的加 工规范(标记充分)。 • Header • <p>|<s> • POS • 存储格式(txt|xml) • 辅助软件的使用:通常会包含包含文本除噪程 序的headadder,txtmarker。其实除噪是执 行一些替换性的操作(see next slide)
语料文本的基本处理:主要处理方式-1
• 语料的最常用存储方式是纯文本,纯文本顾名思义就是 只有文字,不支持任何其他字符格式,如粗体、斜体、 下划线、表格框,等等。语料以这种方式存储占用空间 极小,且几乎所有检索软件都支持。 • 将语料以这种方式存储只是检索的操作,更重要的是让 存储的文本内容规范,格式尽量一致,而且没有乱码, 不必要的空格和软回车、硬回车,等等文本噪音。要做 到这些,就需要对语料进行按部就班的处理。使用 Microsoft Word可以对文本进行处理。
语料库的制作和应用
2014.7.14
CONTENTS
• • • • • • • 语料库的基本特征 语料抽样:理论与抽样操作 语料文本的基本处理:主要处理方式和实现方式 双语语料的对齐:方式和方法 语料检索:基本检索和高级检索(普通、正则和term list) 双语语料检索:基本检索和高级检索 语料数据后续处理:z-score; log-likelihood; factor analysis; correlation; keyness • 微型教学语料库的创建和使用 • 翻译课堂教学用双语语料的制作和应用
语料库的基本特征-1
• Computer-readable: txt, xml, html, doc, pdf • Consistency: o his mother; his mother; his\nmother • Annotation: o 我们_r; 我们/r; 我们<r>; <w pos=“r”>我们</w> • Header: o 有关文本的元信息,涉及文本的作者、文体、出版时间等 o <LANGUAGE>Chinese</LANGUAGE><SL>English</SL><TITLE> MeiGuoShi</TITLE><TRANS>WeiYeChou</TRANS><CATEGORY >1</CATEGORY><STYLE>3</STYLE><GENRE>G</GENRE><PUBL ISHER>Shangwuyinshuguan</PUBLISHER><TIME>1929</TIME>< ERA>B</ERA><SIZE>23052</SIZE> • 相对完整的语料文件范本
微型教学语料库的创建和 使用
• 建库目的和内容
o o o o o 针对学生翻译习作 反映学生个体和总体特征 翻译技巧和翻译评估相结合 提取信息方便 易于操作
• 使用Excel基本满足此类要求
翻译课堂教学用双语语料 的制作和应用
• 建库目的:翻译教学;自学 • 设计要求:
o 方便呈现多样译文; 便于对比; 方便评注; o 不需要句对齐,段对齐即可
双语语料检索:基本检索 和高级检索
• Paraconc中的双语高级检索:正则表达式检索
• 满足某些研究需要的正则表达式检索:历时语料 库检索平台 omegaT检索
语料检索小结
• 正则表达式的检索功能有些使用通配符也能做到,但有些则 是通配符检索无法实现的。实际检索时发现,在词汇层面, 汉语的叠词以及隔词重复的精确检索只能使用正则表达式, 使用通配符也能勉强检索,但无法精确检索;在句子层面, 正则表达式能使准确的句段长度检索和严格的句段内部结构 检索成为可能。 • 正则表达式的使用看上去有些繁琐,但只要肯花点时间熟悉 元字符的意义,使用起来也比较方便,它还有助于提高检索 的准确性和效率,进而提高语言研究的质量。
语料文本的基本处理:主 要处理方式-4
• • • • • • • • • • $line=~s/\s\n/\n/g; #matching and replacing all $line=~s/(.)\n/$1 /g; #matching and replacing all $line=~s/[\r\n]/##/g; #matching and replacing all $line=~s/\*//g; #matching and replacing all $line=~s/^\s*$//g; #matching and replacing all $line=~s/\\s{0,}/\s/g; #matching and replacing all $line=~s/\\s\n/\n/g; #matching and replacing all $line=~s/\Z\n/##/g; #matching and replacing all $line=~s/ +/ /g; #replace more whitespaces with just one $line=~s/\s+(#{2,})/$1/g; #matching and replacing all
语料文本的基本处理:主 要处理方式-5
• 添加metadata后的语料样态
语料文本的基本处理:主要处理方式-6
双语语料的对齐:方式和 方法-1
• 对齐就是源文和译文对应。翻译语料的主要特征是对齐。 • 对齐的语言层级: o 段对齐 o 句对齐 o 段对齐中的句对齐 • 对齐方式不同,与创建语料库的目的有关。比如,如果仅仅 用于辅助翻译,就可以采用句对齐。而要用于翻译研究,就 需要考虑段落层面的语言使用信息,如衔接、话语标记等。 对齐软件有很多,CAT类软件、Paraconc、专门软件。
语料数据的后续处理-1
• 语料检索的目的是发现问题,而语料库检索发现的问题主要 表现在频次、频率上。语料库的这一长处必须充分发挥,才 称之为语料库语言研究。 • 频次、频率典型表达为数字,处理数字问题关系到研究结论 的可信度,需要使用一些处理方法,常用的处理方法有: o 频率对比:特定的词、词丛、词性赋码串;使用WS或 Antconc中keyness工具对比词表、词丛表 o 搭配强度计算:Z-score o 频率差异显著性计算:log-likelihood计算 • 一般说来,词表对比的结果可以重新标注用于分类处理
语料检索:基本检索和高级检索-1
• • • • • • • • • 检索与语言使用的范畴、特征 曲折变化:move, moves, moving, moved 派生:move, movement 词性:move(v.), wove(n.); in, at, on, over, upon, from 人称:I, me, we, us 短语、组合能产:a lot of, a part of, a cup of, a piece of 结构能产:give me a book; send his father a message V NP NP ; V NP NP 语言使用的特征决定了检索不太可能是token,许多情况 下要检索到type,或者需要词性线索。
语料抽样:理论与抽样操 作
• 有代表性、结构合理的语料文本集合,但不是任意搜集的文本数据库, 也不是越大越好,而是“finite-sized body of machine-readable text”,语料库通常有抽样框架。一般说来,处于研究的需要,语料宜尽 量平衡,这样就不能照单全收,需要考虑从中抽取一部分。抽取多少, 如何抽取,这个问题可以说众说纷纭。 o Brown/LOB:分层抽样,大小一致;分层抽样如文学中小说占35%, 散文占8%,戏剧占2%。2nd generation corpora: The Corpus di Italiano Scritto o BNC:大小不一(max:40,000 words);25%/75%(lit./inf.) o ENPC: 40%/60%(non-lit/lit);S. Johansson Size: 2.6 million words Language: English, Norwegian; Number of texts/samples: 100 orig., 100 transl. Period: 1975–1995 • 抽样字数及分配 语料取样计算
双语语料的对齐:方式和 方法-2
• 初始对应:源语、目标语文本段对齐,word下完成校 对。这一步最重要。 • Paraconc可以考虑添加s标记。 • 对齐:软件对齐。如aligner,paraconc;Trados, dejavu,bitext2tmx。前两者提供段对齐和句对齐; 后三个软件一般只提供句对齐。