我国语料库研究发展历程分析

合集下载

语料库的发展历程

语料库的发展历程
CORPUS LINGUISTICS
0.2 发展历史与现状
语料库语言学的发展历史,大致可以分为两个时期:
计算机化以前时期,可称之为传统语料库时期 计算机化以后时期,可称之为现代语料库时期
20世纪 50年代Chomsky的影响 第一代(1970- 80年代) 第二代(1980- 90年代) 第三代(1990年代) ?第四代(21世纪)
0.2.2 计算机化的语料库(现代语料库)
第二代语料库
朗文语料库(Longman Corpus Network)
商用语料库,建于上个世纪80年代 由三个大的语料库组成
朗文 /兰开斯特英语语料库(Longman/Lancaster English Language Corpus,即 LLELC) 朗文口语语料库(Longman Spoken Corpus,即 LSC) 朗文英语学习者语料库(Longman Corpus of Learners’ English ,即 LCLE)
CORPUS LINGUISTICS
0.1 语料库语言学的定义 语料库(corpus,复数形式为corpora),顾名思义就 是存放语言材料的仓库(或数据库)。而语料库语 言学则是一种以语料库为基础的语言研究方法,它 包含两层含义:
— 利用语料库对语言的某个方面进行研究,也就是说“语料 库语言学”不是一个新学科的名称,而仅仅反映了一个新 的研究手段。 — 依据语料库所反映出来的语言事实对现行语言学理论进 行批判,提出新的观点或理论。
CORPUS LINGUISTICS
0.2.2 计算机化的语料库(现代语料库)
第二代语料库
COBUILD语料库(Collins Birmingham University International Language Database) 英国国家语料库 国际英语语料库

浅谈语料库语言学在的应用以及在中国的发展趋势

浅谈语料库语言学在的应用以及在中国的发展趋势

浅谈语料库语言学在的应用以及在中国的发展趋势一、语料库语言学的兴起与发展语料库语言学是基于大量真实的语言资料,从调查语言信息的分布频率入手来研究语言在现实使用中的规律和模式。

自20世纪中后期,电脑被大量使用在语料的存储上,兴起了专门针对大规模储存于计算机里的语料库所进行的研究,自此语料库语言学进入了现代语料库语言学时期。

由于电脑语料库容量大、语料真实、检索快捷,它在现代语言学研究和语言教育中正发挥着越来越重要的作用。

在我国,从20世纪20年代开始,有学者为制定基础汉字字表开始建立文本语料库;70年代末以来,汉语现代文学作品语料库(1979年)、现代汉语语料库(1983年)等机器可读语料库开始建设。

90年代后,以《人民日报》光盘数据库、北大语料库为代表的大型汉语语料库日益发展,语料库成为研究中文信息处理的基本语言资源。

在英语语料库建设方面,杨惠中教授80年代主持建成的上海交通大学科技英语语料库(JDEST),是当时世界上第一个同类语料库,也是国内最大最完备的英语语料库之一。

1996年广州外国语学院开始建立中国学生交际英语语料库。

此外由广东外语外贸大学桂诗春教授和上海交通大学杨惠中教授牵头开发的“中国学习者语料库”(CLEC)于1999年建成,该语料库广泛收集了包括我国中学生、大学生在内的一百多万词的各种书面语资料,并对所有的语料进行语法标注和言语失误标注,对研究中国学习者的英语特点具有开创性意义。

二、语料库语言学发展趋势语料库语言学研究的发展总是以语料库的建设为基础的。

没有语料库的建设,语料库语言学所进行的研究只能是纸上谈兵。

近十多年来,国内语料库的建设取得了一定的成就,主要建设的语料库有英语学习者语料库、平行语料库、特殊英语语料库、汉语语料库四种类型。

(一)英语学习者语料库。

其中包括书面语和口语。

有广东外语外贸大学和上海交通大学合作建设的中国学习者英语语料库CLEC,100万词次;上海交通大学建设的大学英语学习者口语语料库COLSEC,5万词次;香港科技大学建设的香港科技大学学习者语料库HKUST Learner Corpus;南京大学建设的中国英语专业语料库CEMC,148万词次;南京大学建设的中国英语学习者口语语料库SECCL,100万词次;华中科技大学建设的硕士写作语料库MWC,12万词次。

近五年国内语料库语言学研究综述

近五年国内语料库语言学研究综述

近五年国内语料库语言学研究综述摘要:文章从语料库语言学研究的领域,通过对2006年至2010年发表在国内11种外语类核心期刊上的语料库语言学论文进行统计与分析,发现这些研究在研究领域方面取得了很大的进步,涉及到语言学的各个领域,但各个领域之间发展不平衡,同时也存在一些问题。

关键词:语料库;语料库语言学研究;研究领域现代语料库语言学( modern corpus linguistics)是20世纪中后期兴起的一门语言研究科学。

语料库是指按一定的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库。

中国第一个语料库JDEST( Jiao Tong University Corpusfor EST)于1986年在上海交通大学建成至今20多年来,国内语料库语言学的发展取得了丰硕的成果。

随着语料库语言学在中国的发展,越来越多的学者开始利用语料库来做实证研究。

近几年来,语料库语言学已经成为实证研究的不可缺少的手段,成为了语言研究一个新的热点。

笔者通过检索主题与关键词通过对最近5年运用语料库做实证研究的文章进行系统的调查与总结,以其为今后语料库语言学的发展提供一点建议与参考。

一研究样本由于近几年运用语料库来做研究已经成为语言学研究的热点,笔者通过检索主题与关键词,将文献定在2006年至2010年这5年期间,研究样本来源为发表在11种外语类核心期刊的66篇文章。

这是因为这11种外语类核心期刊有一定的权威性,所刊登的文章质量较高,能在一定程度上代表研究的趋势。

表1为最近5年发表在11种外语类核心期刊上的基于语料库研究的文章。

二结果与分析首先看下这66篇文章在近5年期间的分布情况:如下面柱形图所示。

从图中可以清楚的看出,在这5年期间基于语料库研究的文章大体呈递增的趋势,特别是在2010年,研究数量有较显著的增长。

下面从研究领域对这5年来的文章进行关于语料库的研究领域,国外学者都提出过不同的分类方法。

语料库语言学研究发展现状浅析

语料库语言学研究发展现状浅析

语料库语言学研究发展现状浅析【摘要】语料库语言学过去几十年中在我国的研究取得了丰硕的成果,也日益引起国外同行的关注。

本文以语料库及语料库语言学在外语教学和翻译教学方面的应用为脉络,回顾了近年来语料库语言学研究所取得的成果,并讨论了语料库语言学在中国的发展趋势。

【关键词】语料库;语料库语言学;外语教学;翻译研究;研究;发展状况兴起于20世纪80年代的语料库语言学是一门新兴的学科,主要致力于文本的检索、取样、分析以及统计,从建立之初就为语言学研究注入了新的活力。

近年来,语料库语言学得到了大量中国学者与专家的广泛关注,不仅建成了一批具有国际水准的高水平、高质量的诸如平行语料库、专门用途语料库、和用于研究学习者口语和书面语特征的学习者口笔语语料库等各种类型的语料库,研究方向也从以往单一枯燥的语法、词汇和词典编纂扩展到涵盖二语习得、外语教学与研究、翻译理论、翻译实践、话语分析、错误分析和语言处理等更为专业和全面的诸多语言学研究的领域之中,吸引着越来越多的具有不同研究背景和研究方向的学者投入到语料库语言学的研究之中,使得语料库语言学得到空前的发展。

此外,国内以及国际间的各层次和领域的合作与交流也为语料库语言学的研究和发展创造了优越的环境。

一、外语教学与研究与语料库语言学以语料库为基础的外语教学研究始终是语料库语言学研究的主要领域,也一直是国内外语言学家和语言教育家关注的焦点。

在中国,语料库语言学与外语教学一直保持着紧密的联系。

首先,基于语料库的外语教学的两个最基本的问题是“教什么”和“怎么教”的问题。

关于这些问题,国际、国内的专家和学者纷纷给出了各自的理解。

Sinclair强调学习者可直接通过相关语料库资源,凭借相应的分析软件,分析观察词汇索引和扩展语境,从而自觉得形成对语言形式的归纳和自我发现。

此外,教师也可根据实际教学需求自建小型语料库或基于现有的大型语料库建立更为细致和专业的子语料库,并将其与实际的语言教学活动相结合,切实地体现语料库对语言教学的辅助作用。

中国语料库研究的历史与现状

中国语料库研究的历史与现状

中国语料库研究的历史与现状推荐文章•汉语社会中识字社群的汉字字形思维例析热度:•结构主义语言学及其源流热度:•我国汉字识别研究的新进展热度:•关于汉语词汇层的研究热度:•“语法化”问题热度:中国语料库研究的历史与现状语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。

传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。

计算机出现后,人们可以把这些工作交给计算机去作,大大地减轻了人们的劳动。

后来,在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科——语料库语言学(corpus linguistics),并成为了自然语言处理的一个分支学科。

语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。

多年来,机器翻译和自然语言理解的研究中, 分析语言的主要方法是句法语义分析。

因此,在很长一段时间内,许多系统都是基于规则的,而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来,这样,这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言(sub- language)中获得一定的成功。

为了摆脱困境,自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计,以便采用一种基于统计的模型来处理大量的非受限语言。

不言而喻,语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论,从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。

本文首先简要介绍国外语料库的发展情况,然后,比较详细地介绍中国语料库的发展情况和主要的成绩,使我们对于语料库研究得到一个鸟瞰式的认识。

语料库研究与综述

语料库研究与综述

语料库研究与综述语料库研究与应⽤综述⼀概述语料库通常指为语⾔研究收集的、⽤电⼦形式保存的语⾔材料,由⾃然出现的书⾯语或⼝语的样本汇集⽽成,⽤来代表特定的语⾔或语⾔变体。

经过科学选材和标注、具有适当规模的语料库能够反映和记录语⾔的实际使⽤情况。

⼈们通过语料库观察和把握语⾔事实,分析和研究语⾔系统的规律。

语料库已经成为语⾔学理论研究、应⽤研究和语⾔⼯程不可缺少的基础资源。

语料库有多种类型,确定类型的主要依据是它的研究⽬的和⽤途,这⼀点往往能够体现在语料采集的原则和⽅式上。

有⼈曾经把语料库分成四种类型:(1)异质的(Heterogeneous):没有特定的语料收集原则,⼴泛收集并原样存储各种语料;(2)同质的(Homogeneous):只收集同⼀类内容的语料;(3)系统的(Systematic):根据预先确定的原则和⽐例收集语料,使语料具有平衡性和系统性,能够代表某⼀范围内的语⾔事实;(4)专⽤的(Specialized):只收集⽤于某⼀特定⽤途的语料。

除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。

按照语料的采集单位,语料库⼜可以分为语篇的、语句的、短语的。

双语和多语语料库按照语料的组织形式,还可以分为平⾏(对齐)语料库和⽐较语料库,前者的语料构成译⽂关系,多⽤于机器翻译、双语词典编撰等应⽤领域,后者将表述同样内容的不同语⾔⽂本收集到⼀起,多⽤于语⾔对⽐研究。

语料库建设中涉及的主要问题包括:(1)设计和规划:主要考虑语料库的⽤途、类型、规模、实现⼿段、质量保证、可扩展性等。

(2)语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、⽂本描述,以及各类语料的⽐例以保持平衡性等。

(3)语料的加⼯:包括标注项⽬(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加⼯⽅式。

(4)语料管理系统的建设:包括数据维护(语料录⼊、校对、存储、修改、删除及语料描述信息项⽬管理)、语料⾃动加⼯(分词、标注、⽂本分割、合并、标记处理等)、⽤户功能(查询、检索、统计、打印等)。

语料库翻译研究的历史与进展兼评《语料库翻译研究理论 发现和应用》

语料库翻译研究的历史与进展兼评《语料库翻译研究理论 发现和应用》

其次,明确化也是翻译中常见的一种策略。在Maeve的翻译作品中,这种策 略也被广泛应用。例如,在一些情况下,原文中的隐含意义或暗示在译文中被明 确表达出来,使得读者更容易理解原文的含义。这种明确化的翻译策略在一定程 度上增加了译文的冗余性,但同时也提高了译文的可读性。
此外,规范化也是翻译中常见的一种现象。在Maeve的翻译作品中,我们也 发现了这种现象。例如,在某些情况下,原文中的语言习惯或修辞手法被规范化, 取而代之的是更符合目标语言习惯的表达方式。这种规范化的翻译策略在一定程 度上削弱了原文的个性和风格,但同时也使得译文更加地道、自然。
在撰写正文部分,胡开宝教授运用平实准确的语言,逐步引入语料库翻译学 的各个概念和研究方法。他不仅介绍了语料库翻译学的基本概念、发展历程和理 论基础,还详细阐述了语料库翻译学的研究方法、翻译语料库的建立与应用等核 心内容。与此他还从实践角度出发,通过具体的案例分析,使读者更好地理解和 掌握语料库翻译学在实践中的应用。
4、跨文化交流:通过对不同文化背景下的翻译语料库进行分析,可以了解 不同文化之间的差异和相似之处,有助于促进跨文化交流和理解。
参考内容
随着语言学和翻译学的不断发展,语料库翻译研究逐渐成为一种重要的研究 方法。这种研究方法以真实的语言使用情况为基础,通过大量的语料分析,揭示 翻译的普遍特征和规律。其中,Maeve是一个备受的人物,她的作品既具有独特 的风格,又具有深厚的文化内涵,为翻译研究提供了丰富的素材。
最后,整齐化和集中化也是翻译中常见的一种策略。在Maeve的翻译作品中, 我们也发现了这种现象。例如,在某些情况下,原文中的信息结构或语言表达方 式被整齐化和集中化,使得译文的节奏感和韵律感更加鲜明。这种整齐化和集中 化的翻译策略在一定程度上增加了译文的难度,但同时也提高了译文的文学性和 艺术性。

我国基于学习者语料库的研究成果-回顾与总结

我国基于学习者语料库的研究成果-回顾与总结

我国基于学习者语料库的研究成果:回顾与总结回顾了从20世纪90年代起我国基于学习者语料库开展的研究成果,根据研究方向分别从计算机辅助失误分析、中介语与目的语对比、中介语与中介语和/或目的语对比,中介语纵向对比四个角度总结了研究成果,指出在这四个方向中纵向研究还比较薄弱。

结合成果分析,还建议了基于学习者语料库研究的未来发展趋势。

标签:总结;学习者语料库;计算机辅助失误分析;中介语对比分析;纵向研究背景我国的语料库语言学研究始于20世纪80年代中期,国内的第一个语料库《上海交大科技英语语料库》是由杨惠中主持建成的,为大学英语教学大纲的制定和词表统计提供了数据依据。

90年代以后,我国语料库研究走上了以建立和研究学习者语料库为主的道路,2000年之后国内相继建成多个学习者语料库,如桂诗春编制的国际英语学习者语料库中国子语料库,中国学习者英语语料库(CLEC,桂诗春、杨惠中,2003)、中国大学学习者英语口语语料库(COLSEC)(杨惠中、卫乃兴,2005)、中国专业英语学习者口语语料库(SWECCL)(文秋芳等,2005,2008)、SECOPETS语料库(肖德法、向平,2008)等。

我国学者在建设学习者语料库的同时开展了大量的基于语料库的研究,取得了丰硕的成果。

为了归纳国内基于学习者语料库的研究成就,本文从“中国知网”、“维普”和“万方”等数据库检索了从20世纪90年代到目前的所有发表的关于语料库的文章,一共确定了130篇文章,作为本综述研究的基础。

一、学习者语料库的研究方向学习者语料库指的是“一定规模的、可机读的,按照对所调查的群体具有最大程度代表性的方式抽样获得” 的语料(McEnery & Wilson,2001:32)。

Granger (2002:11-12)将学习者语料库的研究分为两个方向:中介语对比分析(contrastive interlanguage analysis)和计算机辅助失误分析(compute-aided error analysis)。

语料库研究综述

语料库研究综述
语料库与语言信息处理有着某种天然的联系。当人们还不了解语料库方法的时候,在自然语言理解和生成、机器翻译等研究中,分析语言的主要方法是基于规则的(Rule-based)。对于用规则无法表达或不能涵盖的语言事实,计算机就很难处理。语料库出现以后,人们利用它对大规模的自然语言进行调查和统计,建立统计语言模型,研究和应用基于统计的(Statistical-based)语言处理技术,在信息检索、文本分类、文本过滤、信息抽取等应用方向取得了进展。另一方面,语言信息处理技术的发展也为语料库的建设提供了支持。从字符编码、文本输入和整理,语料的自动分词和标注,到语料的统计和检索,自然语言信息处理的研究都为语料的加工提供了关键性的技术。
语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型:
(1)异质的(Heterogeneous):
没有特定的语料收集原则,广泛收集并原样存储各种语料;
(2)同质的(Homogeneous):
只收集同一类内容的语料;
(3)系统的(Systematic):
下面先简要叙述1998年到2003年中国语料库建设的基本情况,然后介绍语料库的加工、管理和规范问题,最后谈谈语料库方法在语言研究和语言工程等方面的应用。由于以前的《中国语言学年鉴》很少谈及语料库问题,为了尽可能全面地反映我国语料库研究和应用的情况,必要时会将时间上限向前延伸几年。
二中国语料库建设的基本情况
这个语料库收录的语料以书面语为主、以书面语转述的口语为辅。语料来源是19年至今,主要是1977年至今出版的教材、报纸、综合性刊物、专业刊物和图书。在设计原则上,讲求通用性、描述性、实用性和抽样的科学性。在语料分类方面,以“门类为主,语体为辅”为原则制定三个大类:

国内语料库研究综述

国内语料库研究综述

国内语料库研究综述摘要本文旨在回顾国内语料库研究的发展历程、现状,并探讨未来研究方向。

通过分析相关文献资料,文章总结了国内语料库研究的主要成果、不足之处,并提出了针对性的建议。

本文旨在为语料库研究领域的学者提供参考,以推动国内语料库研究的发展。

关键词:语料库、国内研究、发展历程、现状、未来研究方向引言语料库是指为语言研究而收集的、有一定规模的、有代表性的语言材料集合。

自20世纪中期以来,语料库在国外得到了广泛应用,并在多个领域取得了显著的成果。

近年来,随着国内语言学、计算语言学等学科的快速发展,语料库在国内的研究和应用也逐渐受到重视。

本文将重点探讨国内语料库研究的现状、成果及未来研究方向。

研究现状1.国内语料库的发展历程和现状自20世纪80年代起,国内开始出现一些小型语料库的建设和研究,如国家语委现代汉语通用词库等。

随着计算机技术的不断发展,90年代中后期以来,国内开始大力推进语料库的建设和研究,涉及的领域也日益广泛。

目前,国内已经建立了一系列不同规模、不同类型的语料库,如中国传媒大学的中国广播电视媒体语言语料库、上海交通大学的中文文本分类语料库等。

2.基于不同领域语料库的研究成果和不足语料库在多个领域得到了广泛应用,如语言教学、词典编纂、语言政策研究等。

在语言教学领域,语料库可以提供真实的语言材料和语境,有助于提高语言学习者的兴趣和理解能力。

在词典编纂领域,语料库可以提供大量的实例和用法,有助于提高词典的准确性和实用性。

在语言政策研究领域,语料库可以提供真实的语言使用情况和发展趋势,有助于制定科学的语言政策和发展规划。

然而,国内基于不同领域语料库的研究成果尚不够丰富,且在某些领域还存在着研究空白。

例如,针对特定领域的语料库建设和研究尚不够深入,部分领域的语料库仍存在着规模较小、代表性不足等问题。

此外,针对语料库在二语习得、语言演化等领域的研究尚不够充分。

3.国内语料库在语言教学中的应用语料库在语言教学中的应用已经得到了广泛的认可。

语料库语言学的发展及研究现状

语料库语言学的发展及研究现状

当代语言学(试刊)1998年第1期4-12页,北京语料库语言学的发展及研究现状丁信善1.0引言语料库语言学已经成为语言研究的主流。

基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。

这是J.Thomas等人1996年为祝贺语料库语言学的主要奠基人和倡导者G.Leech六十诞辰而出的语料库语言学研究论集的开场白。

近年来,对语料库语言学类似的评说频频见于导论和方法论的书及教科书中,它不仅仅是语料库语言学家们的自誉,而正在成为整个语言学界的共识。

2.0语料库语言学的定义关于语料库语言学的定义,现引述三例:a. 根据篇章材料对语言的研究称为语料库语言学。

(K.Aijmer&B.Aitenberg,1991,p.1)b. 基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。

(T.M c Enery&A.Wilson,1996,p.1)c. 以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。

(D.Crystal,1991,p.86)由上述几个定义可见,语料库语言学不是研究语言自身某个方面,而是一种以语料库为基础的语言研究方法。

它实际上包括两个方面:一是对自然语料进行标注,二是对已经标注的语料的研究和利用的方法。

从方法论的角度,它不仅可以用于研究语言系统的各个层面,而且可以应用于语言学之外的其他领域。

3.0语料库语言学的历史发展语料库语言学作为一种研究语言的方法,可以追溯到上个世纪,甚至更为久远。

现在一般以乔姆斯基转换生成语法的兴衰时间为参照,将其发展大致分为以下几个阶段:3.1语料库语言学的早期发展早期的语料库语言学指的是本世纪五十年代中期以前,即乔姆斯基提出转换生成语法理论之前的所有基于语言材料的语言研究。

此类研究主要集中在以下几个方面:(1)语言习得是应用语料研究方法较早且较普遍的领域。

19世纪70年代在欧洲兴起了儿童语言习得研究的第一个热潮,当时的许多研究就是基于父母详细记载其子女话语发展的大量日记的。

语料库简介及国内的语料库建设

语料库简介及国内的语料库建设

语料库简介及国内的语料库建设摘要:语料库作为一种随着计算机技术发展而广泛应用的新兴的语言研究工具,在语言的定量分析上有极大的作用。

本文正是基于语料库的这种重要性,对国内外的语料库建设发展进行了简介,并且分析了国内语料库建设的不足。

关键词:语料库;国内语料库;语料库语言学1、语料库发展综述语料库通常指为一个或多个语言研究目标而专门收集的、有一定结构的、具有一定规模的、用电子形式保存的、可以被计算机程序检索的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。

人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。

语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。

下面对语料库发展的四个时期进行分别介绍。

1.1手工语料库时期18世纪开始到20世纪50年代,语料的研究都是手工进行的,由人工收集,将需要的词或句子写在纸条上,然后整理成卡片进行检索。

涉及到了圣经与文学研究、词典编纂、语言教育研究、语法研究和方言研究、儿童语言习得和语言比较的研究中。

他们使用大规模语言资料来进行语言研究的工作,是具有开创性的。

但这些语料库都是手工建立的,研究者们假定自然语言的句子是有限的。

这些有限的句子可以收藏和列举,语料库可以作为语言研究的唯一可靠的数据来源,这样的看法难免由片面的地方。

他们使用的语言材料都不是机器可读的,所以还不能算成是真正意义上的语料库。

代表人物是伦敦大学的奎克,他提出了英语用法调查语料库,代表了使用手工方法建立的语料库的最高水平。

1.2 第一代电子语料库时期20世纪五十年代到80年代,出现了机器可读的语料库。

语料库来到了电子或电脑化的时代。

在这个时期建立了布朗语料库、LOB语料库、LLC语料库等影响十分大的语料库。

语料均为书面语,缺乏口语和手稿。

这些语料库的规模都比较小,布朗语料库和LOB语料库都只有100万词左右。

这些小规模的语料库只能用来考察常用语言现象的频率,无法展示语言的全貌。

国内外英语学习者语料库的发展现状与方法

国内外英语学习者语料库的发展现状与方法

三、研究结果与讨论
为了进一步探讨这些现象的原因,我们对比了本族语者和学习者在写作中使 用的词块。发现本族语者更加倾向于使用灵活的搭配,而学习者则更倾向于使用 固定的词组。我们认为,这可能是由于学习者在语言学习过程中过于依赖记忆而 非语法规则所致。
四、教学启示
四、教学启示
本研究结果表明,中国高级英语学习者在英语写作中使用的词块存在一定的 问题。因此,教师在教学过程中应注意以下几点:
主题词的发展趋势
主题词的发展趋势
随着技术的不断进步,主题词的发展趋势也日益明显。特别是人工智能和自 然语言处理技术的快速发展,对主题词的研究和应用将产生深远影响。以下是未 来主题词可能的几个发展趋势:
主题词的发展趋势
1、自动主题词提取:利用人工智能技术,可以自动从大规模文本数据中提取 出关键主题词,提高主题词提取的效率和准确性。
五、展望未来
五、展望未来
在总结前人研究的基础上,我们对国内外英语学习者语料库的未来发展进行 展望。首先,随着技术的不断发展,多模态数据处理能力将得到提升。这将使我 们能够更加全面地了解英语学习者的语言使用情况,进一步深化对语言学习的认 识。其次,语料库的标准化和数据偏差问题将得到更好的解决,提高研究的可靠 性和准确性。
2、主题词排序:根据主题词在文本中出现的频率进行排序,可以帮助研究者 了解语料库文本中的重点和趋势。
主题词的应用
3、主题词共现分析:通过分析主题词与其他词汇的共现关系,可以挖掘语料 库中文本之间的和语义关系。
主题词的应用
4、主题词情感分析:通过判断文本中主题词的情感倾向,可以对语料库中的 文本进行情感分类或评估。
3、语义丰富性:主题词具有丰富的语义信息,能够表达多种含义和概念,有 助于研究者深入挖掘语料库中的信息。

国内基于语料库的翻译研究二十年综述(1999—2018)

国内基于语料库的翻译研究二十年综述(1999—2018)

国内基于语料库的翻译研究二十年综述(1999—2018)1. 引言1.1 研究背景语料库翻译研究作为一门交叉学科,融合了语言学、计算机科学、信息学等多个领域的知识,其发展历程与语料库研究紧密相连。

20世纪90年代以来,随着计算机和互联网的普及,国内关于语料库研究的兴起,为语料库翻译研究奠定了基础。

语料库是指包含真实语言使用情况的大规模文本数据库,研究者通过对语料库的收集、整理和分析,探索语言规律和语言现象,为翻译研究提供丰富的实证数据。

语料库研究在翻译领域的应用日益广泛,不仅可以帮助翻译人员提高翻译质量和效率,还可以促进研究者对翻译过程和机制的深入理解。

然而,国内关于基于语料库的翻译研究相对较晚起步,虽然近年来取得了一些成果,但整体发展还存在一定的不足。

因此,对这一领域进行综述,总结其发展历程、应用情况、研究方法和技术以及存在的问题和挑战,对于推动语料库翻译研究的发展具有重要意义。

这也是本综述的出发点和重要意义所在。

1.2 研究目的语料库翻译研究的目的主要包括以下几个方面:1. 探讨语料库在翻译领域的应用:通过分析语料库中的大量实际语言数据,揭示翻译过程中存在的规律和特点,为翻译实践提供科学依据和方法论支持。

2. 提高翻译质量和效率:通过分析语料库数据,挖掘翻译中常见的问题和错误,并提供相应的解决方案和改进措施,帮助翻译人员提高翻译质量和效率。

3. 探讨语言间的特点和差异:语料库研究可以帮助我们深入了解不同语言之间的差异和联系,从而为跨语言翻译和跨文化交流提供更加科学和准确的信息基础。

4. 推动翻译技术的发展和应用:借助语料库研究的成果,可以为机器翻译、计算机辅助翻译等翻译技术的发展提供重要参考和支持,推动翻译技术向更加智能化和人性化的方向发展。

1.3 研究意义语料库研究是翻译领域中一项重要的研究方向。

通过对大规模语料库的分析和应用,可以更好地理解翻译规律、提高翻译质量、加速翻译速度,从而为翻译工作者提供更有效的工具和方法。

国内汉语语料库概况

国内汉语语料库概况
第一轮实验中袁我们比较了不同英语水平的学生在开展合作学习
时的区别遥 我们选取了我校 2011 级医学影像技术 1101-02 班作为实 验班袁影像 1103-04 班作为对照班袁研究者以高考英语成绩作为分组 标准袁把实验班的学生分成十个小组袁每组由 5 到 6 人组成袁分别来自 高分段袁中分段和低分段袁保证其组间同质袁组内异质袁同时把对照班 的学生随机分成十个小组袁对这两个班级进行同一内容的教学渊董亚 芬主编叶大学英语曳第二册第二单元袁上海外语教育出版社出版冤遥 单元 测试的结果显示实验班的平均成绩渊78.3冤要高于控制班的平均成绩 渊72.5冤袁这说明由不同英语水平的学生构成的小组获得了更好的学习 效果遥
. Al语l言材R料i是gh真t实s的尧可Re观s存e在r的v袁e因d此.袁通过概率统计手段在语料库语 言学研究中得到的语言使用情况是真实客观的袁排除掉了语言学家的 主观性袁研究结果更加真实可靠遥 员援圆 语料库在语言学研究领域的应用 语料库应用对语言学研究的主要改进有院 渊1冤保证了语料的客观真实性袁排除了语言学家的主观性曰渊2冤借 助计算机的储存能力袁 提高了研究的广度和深度曰渊3冤 提高了工作效 率袁减少了人工误差曰渊4冤使语料资源具有共享性遥 语料库在语言学研究中主要的应用领域有: 渊1冤词典编纂曰渊2冤语言统计曰渊3冤语言监控袁包括新词尧新用法的发 现曰渊4冤语言教学曰渊5冤语言信息处理曰渊6冤语法尧语义尧词汇尧语音等各种 语言问题的研究曰渊7冤方言研究等等遥
揖关键词铱汉语曰语料库曰语言学
0 引言
自 20 世纪 60 年代计算机问世袁计算机技术就迅速应用到了以语 料库为基础的语言学研究中袁随着计算机技术的迅速发展袁世界各国 在语料库的建设上成绩显著遥 不同语言尧不同类型尧不同规模的语料库 越来越多遥语料库的广度越来越大袁开发加工的深也日益加深遥语料库 在语言学研究和自然语言处理中发挥的作用越来越大遥

近十年国内语料库语言学研究综述

近十年国内语料库语言学研究综述

近十年国内语料库语言学研究综述一、本文概述近年来,随着信息技术的飞速发展和大数据时代的来临,语料库语言学在国内语言学界的影响力逐渐增强。

本文旨在全面梳理近十年国内语料库语言学研究的发展脉络,总结研究成果,分析存在的问题,并展望未来的发展趋势。

本文将从语料库的建设、语料库语言学理论、语料库在语言教学和研究中的应用等方面展开综述,以期为国内语料库语言学的研究者提供一个清晰的研究全景和参考框架。

通过对近十年国内语料库语言学研究的系统回顾,本文旨在推动语料库语言学在国内的深入发展,为语言学研究的创新提供新的视角和方法。

二、语料库建设与研究近十年,我国语料库语言学在语料库建设方面取得了显著进展。

语料库作为语言学研究的基础资源,其规模和质量直接影响到研究的深度和广度。

在这一时期,我国学者和机构积极投入语料库的建设工作,不仅扩充了语料库的种类和数量,还提高了语料的质量和标注精度。

在语料库种类方面,除了传统的通用语料库外,还出现了专门针对某一领域或语体的语料库,如法律语料库、医学语料库、社交媒体语料库等。

这些专业语料库为相关领域的研究提供了丰富的数据支持。

在语料库规模方面,随着大数据技术的发展,语料库的规模不断扩大。

大型语料库如“国家语委现代汉语语料库”“古代汉语语料库”等,为语言学研究提供了海量的语料资源。

在语料质量方面,我国语料库建设注重语料的真实性和代表性。

通过严格的语料采集和筛选流程,确保语料的质量和准确性。

同时,采用自动化和半自动化的方法对语料进行预处理和标注,提高了语料的处理效率和质量。

在语料库研究方面,我国学者充分利用语料库资源进行各种语言学研究。

通过语料库的统计分析,揭示语言现象的本质和规律。

还利用语料库进行语言对比研究、语言演变研究、语言教学研究等,推动了语言学研究的深入发展。

近十年我国语料库语言学在语料库建设与研究方面取得了显著成就。

语料库的规模和质量不断提升,为语言学研究提供了强大的数据支持。

语料库在中国的研究发展与趋势

语料库在中国的研究发展与趋势

语料库在中国的研究发展与趋势作者:刘皓来源:《现代交际》2017年第08期摘要:中国语料库的研究历经了30多年的发展,已经取得了长足的进步,并呈现出了一定的发展趋势。

本文通过文献计量法分析语料库在中国的研究发展趋势:整理了中国知网(CNKI)1982年至2016年与语料库研究有关的文献11056篇;对文献年度数量、文献来源、研究层次、研究学科、发表机构、论文作者、科技成果、经费支持、人才培养等进行了详细分析。

将语料库研究在中国的发展划分为3个阶段:1982年至1999年的萌芽阶段,2000年至2010年的快速增长阶段,2011年至2016年的高速成长阶段。

总结和探索了语料库在中国的研究变化趋势,指出目前语料库研究存在的不足。

旨在进一步服务和推动中国语料库研究的持续健康发展。

关键词:文献计量学 CNKI 语料库中图分类号:H0 文献标识码:A 文章编号:1009-5349(2017)08-0170-04语料库语言学是在文本语料的基础上进行语言研究的一门学科(杨惠中,2002),被称为结构主义语言学派与功能主义语言学派,“两阵对垒天平上的一个举足轻重的砝码”(刘杨,2009),亦是语言学科中飙升最快的学科之一。

现代大型电子语料库及相关研究,始于20世纪60年代大西洋两岸。

今年是世界上第一个机读英语语料库(布朗语料库,Brown Corpus)建立50周年的时候。

50年来,西方学者在语料库研究成果应用方面已积累了大量的经验,以语料库为基础的语言学研究在语言学和计算机科学研究中都取得了丰硕的成果,语料库的建设得到了世界各国的广泛重视。

世界上的主要语言都建立了许多不同规模、不同类型的语料库,语料库的加工程度越来越深,语料库的应用范围也越来越广,语料库在语言学研究和自然语言处理中发挥了越来越重要的作用。

语料库已经成为现代语言学研究的重要基础,在语法书编写、词典编纂、教育教学上都有诸多经典案例。

20世纪80年代以来,随着计算机应用技术的不断发展,在中国,语料库语言学从萌芽到蓬勃发展。

近十年国内语料库语言学研究综述

近十年国内语料库语言学研究综述

近十年国内语料库语言学研究综述一、概述近十年来,语料库语言学在国内的研究取得了显著的发展和突破。

随着信息技术的飞速进步和大数据时代的到来,语料库语言学在语言学研究中的地位日益凸显。

它基于大规模真实文本数据,运用统计学和计算机技术,对语言现象进行定量和定性的分析,为语言学研究提供了全新的视角和方法。

国内语料库语言学的研究范围广泛,涉及语言结构、语言变异、语言使用、语言教学等多个领域。

研究者们利用语料库资源,深入探讨了词汇、语法、语义、语用等层面的语言问题,揭示了语言现象的内在规律和特点。

同时,随着语料库建设的不断完善,语料库语言学在国内的应用也愈加广泛,为自然语言处理、机器翻译、信息检索等领域提供了强大的数据支持和技术基础。

近十年内,国内语料库语言学的研究呈现出以下几个特点:一是研究方法的多样化,不仅注重传统的统计分析方法,还引入了机器学习、深度学习等先进技术二是研究领域的拓展,语料库语言学不再局限于传统的语言结构研究,而是向语言教学、语言规划等应用领域延伸三是语料库资源的不断丰富,各类专题语料库、多语种语料库等不断涌现,为语料库语言学的研究提供了更为丰富和多样的数据来源。

总体而言,近十年国内语料库语言学的研究取得了丰硕的成果,不仅推动了语言学理论的发展,也为语言实践提供了有力的支持。

未来,随着技术的不断进步和语料库资源的日益丰富,语料库语言学在国内的研究将更加深入和广泛,为语言学研究和社会应用带来更多的创新和突破。

1. 语料库语言学的定义与重要性语料库语言学,作为一种独特的语言学研究方法,主要依赖于大规模、结构化的语言数据集合,即语料库,来进行语言分析和研究。

它通过对真实语料进行定量和定性的分析,旨在揭示语言的实际使用情况和内在规律。

近十年来,随着信息技术的飞速发展和语料库规模的日益扩大,语料库语言学在国内语言学界的地位逐渐提升,其重要性也日益凸显。

语料库语言学的定义在于其研究方法和数据基础。

其研究方法强调实证和量化,通过计算机技术和统计手段对语料库中的语言数据进行处理和分析,进而揭示语言的实际使用情况。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
收稿 日期 :0 1— 4—1 21 0 0
20 00年以后 , 国内基 于语料库 的研究 逐年增加 , 20 到 02
年各类期刊共发表论文 2 篇。从研究的角度来看, 8 一个明
作者简 介 : 郑玉荣 (95 , , 16 一)女 黑龙江哈尔滨人 , 教授 , 从事应用语言学研究 ; (92 , , 江哈尔滨人 , 师 , 栾岚 18 一)女 黑龙 讲 从事应用语言学研究 ; 王丽丽(90 , , 18 一)女 黑龙江巴彦人, 讲师, 从事应用语言学研究。
定 了 3 7篇文章 , 0 作为本文综述 性研究的基础 。

1 篇文章 中, 分为介绍或概述 性质 的文章 , 3 大部 如王建新 的
3篇 文章 分别 介绍 了语 料 库语 言学 发展史 上 的几 个重
要阶段和我 国在语料库语 言学研究 方面的部分进 展 , 国国 英
家语料库 ( ri ao a C ru ) Bis N t nl op s 的设 计与 内容。冯跃 进 、 th i 汪腊萍介绍了英特网上 可免 费使 用 的科 比德 在线演示 版及 相 关应用软 件系统 , 呼吁 “ 广大英 语教育者 和研究 人员应及 早 熟悉 如何 开发网上语料库资源并予 以充分使用 ” 。 这 一阶段 也有 几例 实证 性 研究 , 如何 安平 采用 O P C ( xodC n o ac rga 电脑软件系统对 大型英语 口语 O fr o cr nePor d m)
和 鬲
/ Y
我 国的语料库语言学研究始 于 2 纪 8 0世 0年代 中期 , 杨 惠 中主持建成的 国内第一个语料 库《 上海交大科技英语语 料
. .


/ \

ቤተ መጻሕፍቲ ባይዱ
\ ,
3 /

库》 为大学英语 教 学大 纲 的制定 和 词表 统计 提供 了数 据依 据, 为我 国外语教学作 出了积极 的贡献 … 。9 0年代后 , 国 我 语料库研究走上了 以建立和研究学 习者语 料库为主 的道路 , 如桂诗春编制的国际英语学 习者语料库 中国子语料库 、 中国 学 习者英语语 料库 等 。 为了全 面地了解 国 内基 于语 料库 的研 究成就 及发 展动
—, , _

. . . . . . .
国内基 于语料库研究发表时间分布示意图
英语学 习者语 料库 与英 语 教学 》 , 2 0 J 在 00年 之前发 表 的
态, 本文从中 国知 网、 和万方等数据库 检索 了从 2 世纪 维普 0 9 年代到 目 O 前所 有公 开发 表 的关 于语 料库 的文 章 , 一共 确
学者、 教师的兴趣。本文依据成果的数量、 研究领域的变化
及 研究 的深度将 国内基于语料库 的研究 分为三个 阶段 : 步 起 阶段 ( O世 纪 9 2 0年 代_2 0 02年 ) 发 展 阶 段 ( 0 3 2 0 ; 2 0- 04 年 ) 成熟 阶段 (0 5 2 1 ) ; 2 0 - 0 0年 。

l3— 3
显的特点是探讨语料库语 言学对 教学的作 用的文章 比较 多。 朱乐红 从 比较宏观 的角度探讨 了语 料库对 外语 教学 的理 念、 方法和 内容 的影响和改变 , 杜金榜 ¨。 。研究学生英语 写作 错误分析和索引在教学 中的应 用。另一 个显著 特点是 实证 性 的研究增多 , 大致分 两类 。一 类是 跨库语 言研究 , 如孙建 东 使 用 来 自 S C ( acs rIM pknE g s o. E Ln at /B S oe nlh C r e i
语料库 L C中 的成 功 和非 成 功 的插 话 进行 语 音 、 法、 L 语 词

国内基于语料库研 究的发 表时间分布
下 图中的统计数据表 明国内基 于语料库的研究 , 基本 呈 稳步上升趋 势 , 中 2 0 其 0 9年呈 现出一个 高峰期 , 文章数 量达 到6 0篇 。递增的发展趋势说 明基 于语 料库 的研究 逐渐 引起
和相 关技 术 的 热 衷 则 标 志 着 我 国语 料 库 研 究 走 向 成 熟 。
关键 词 : 语料库 ; 发展 历程 ; 熟 成 中图分类 号 :2 0 7 G 5 .4 文献标志码 : A 文章 编号 :0 1— 86 2 1 )6— 13— 3 10 7 3 (0 1 0 0 3 0
我 国 语 料 库 研 究 发 展 历 程 分 析
郑 玉荣 , 栾 岚 , 丽 丽 王
( 哈尔滨 工程 大学 外语 系 , 哈尔滨 10 0 ) 50 1

要: 2 纪8 从 0世 0年代到 最近 , 国学者在语料库之路上的探 索和所取得 的成绩帮 助我们进 一步理清 了发 我
展 的思路 。根 据学者们所发表研 究成 果的数 量及 特 点来看 , 国语料 库研 究可 以划分 为起 步 、 我 发展 和成 熟三个阶 段 。在起 步阶段 的研 究主要 是介绍 引进 国外语料库和理论 , 阶段主要 以学习者语料库 实证研 究为主, 发展 而对建库
汇 、 篇和语用等多层 面的分 析 , 讨英语 会话 中形成插话 语 探 的语境特征 以及 实施插话 的语言机制和策略 , 这是 国内最早 的基于语料库 的实证研究 , 为后来 的实证研究提供 了研究 范
式。
二、 国内语料库研 究起步 阶段
根据本文检索到 的文献 , 内最早发表 的关于语料 库语 国 言学的是 19 年介绍 国际英语 学习 者语 料库 的文章 《 97 国际
21 0 1年 6月
黑龙江教育学院学报
Junl f in jn o eeo d ct n ora o l ga gC l g f ua o Heo i l E i
J n 2 1 u .0 1
V0 . O N . 13 o 6
第3 0卷第 6期
di1 .99 ji n 10 7 3 .0 10 .5 o:03 6 /. s.0 1— 8 62 1 .60 6 s
相关文档
最新文档