语料库语言学综述

合集下载

语料库研究方法在话语研究领域的应用综述

语料库研究方法在话语研究领域的应用综述

2252020年42期总第534期ENGLISH ON CAMPUS语料库研究方法在话语研究领域的应用综述文/孟 莹话语研究提供一些参考意见。

一、语料库与话语研究的核心特征许家金在其著作《语料库与话语研究》中指出,语料库研究的核心特征可概括为“用”“量”“器”“聚”四个方面。

“用” 即尊重语言事实和关注用法。

语料库研究以对语言使用的充分描写为根本。

“量”主要是指需要通过“量化”的分析方法进行语言学研究。

“量”在统计上,主要通过频次得以体现。

根据语料库研究的基本思想,语言属于概率性现象。

Halliday认为概率性是对语言实例的模仿,也是一种理论构念,并且这种构念体现为一种“聚合”或是“共现”关系,我们称之为“聚”。

不论是语言成分之间的关联,还是语言成分与社会学变量之间的共选关系,最终都要通过概率统计以及语料库分析工具来揭示,即“器”。

在这四项特征中,“用”“量”“器”涉及语料采集、语言特征的量化统计分析及语料库工具的运用,它们都与研究方法紧密相关,而“聚”则体现语言学理论的最终归宿。

话语研究现已成为一个独立的语言学分支学科,批判性话语分析学者倡导使用“话语研究”(discourse study)这一概念来代替“话语分析”(discourse analysis)。

The Handbook of引言语料库研究与话语研究之间存在天然的亲和力和兼容性。

不难发现很多语料库学者同时也是话语研究专家,例如Paul Baker、Douglas Biber、Michael Hoey等。

究其根本,语料库与话语研究都关注自然语言,并且都将语义研究作为重要目标。

语料库和话语研究的融合,一方面能为揭示话语意义提供丰富的语言例证和强大的分析方法;另一方面,语料库中的词汇共现、语言特征共现等创新思路为话语研究增添了理论维度。

另外,在语料库领域的代表性期刊International Journal of Corpus Linguistics 和Corpora 上总能见到较多的话语研究论文,而在话语语用研究期刊Discourse Studies 和Journal of Pragmatics 上,也有相当比重的研究采用的是语料库方法。

语料库语言学

语料库语言学

语料库语言学语料库语言学是20世纪80年代才崭露头角的一门交叉学科,它研究自然语言文本的采集、存储、加工和统计分析,目的是凭借大规模语料库提供的客观翔实的语言证据来从事语言学研究和指导自然语言信息处理系统的开发。

语料库顾名思义就是放语言材料的仓库。

现在人们谈起语料库,不言而喻是指存放在计算机里的原始文本或经过加工后带有语言学信息标注的语料文本。

现在世界上已经有了不少规模较大的语料库,有些是国家级的,有些由大学和词典出版商联合建设。

另外,由于个人微机的迅猛发展和存贮数据的硬盘造价持续下降,研究者个人也开始建立适合于自己研究的小型语料库。

语料库语言学(英文corpuslinguistics)这个术语有两层主要含义。

一是利用语料库对语言的某个方面进行研究,即“语料库语言学”不是一个新学科的名称,而仅仅反映了一个新的研究手段。

二是依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。

只有在这个意义上“语料库语言学”才是一个新学科的名称。

从现有文献来看,属于后一类的研究还是极个别的。

所以,严格地说,现在不能把语料库语言学跟语言学的分支,如社会语言学、心理语言学、语用学等相提并论。

近年来,随着我国经济的发展,科研经费的增加,汉语语料库的建设得到了开展。

1999年我院把建立汉语语料库列为院重大课题。

目前语言所正在构建三个大规模的语料库:现场即席话语语料库,主要方言口语库和现代汉语文本语料库。

在世界范围内,我国的语料库建设在规模上还赶不上欧洲的一些发达国家,特别是英国。

然而,在语料库语言学的研究上,以及语料库的实际运用上,我国已经进入世界前沿的行列。

20世纪语言研究的总特点可以用四个字概括———高度抽象。

最近几十年来,语言研究的高度抽象倾向已经失去主导地位。

这主要缘于两个方面的因素:一是计算机技术,特别是基于计算机处理的多媒体技术的飞速发展;二是社会语言学、语用学、会话分析、人类语言学、计算语言学、人机对话研究、语音识别与合成等研究取得令人瞩目的成就。

语料库语言学

语料库语言学

别的语言学科基本上都是研究有关领域与语言之间的关系,例如,社会语言学研究的是社会与语言的关系,心理语言学研究的是人的心理活动与语言之间的关系。

而语料库语言学则不同,它只是以语料库为手段来研究语言。

语料库语言学(Corpus Linguistics)在一些人看来,语料库语言学(corpus linguistics)是一个独立的学科,它有自己独到的理论体系和操作方法。

由于语料库语言学立足于大量真实的语言数据,对语料库所做的系统而穷尽的观察和概括所得到的结论对语言理论建设具有无可比拟的创新意义。

而在另外一些研究者看来,语料库语言学并非语言学的又一个分支学科,而是一种研究方法,这种方法基于大量的真实语言,可以用来回答通过其他途径很难回答的问题,从而极大地丰富已有的研究方法。

语料库语言学以大量精心采集而来的真实文本(authentic texts)为研究素材,主要通过概率统计的方法得出结论,因此语料库语言学从本质上讲是实证性的(empirical)。

语料语言学受行为主义的影响下,从60年代开始发展,迄今已经有近五十年的历史。

语料库在发展的初期,只进行词的一般分析,如词频统计等,后来增加了词的语法属性标注(如,词性等),直到现在,人们越来越开始重视对语料库作不同层次的标注,如:语音、构词、句法、语义以及语用等层次的标注。

语料语言学在其发展的初期并没有引起太大的共鸣,但是现代语料语言学已经得到越来越多人的承认,其应用也越来越广泛,从语言分析、语言教学、词典编撰到人工智能等领域都开始应用语料库。

语料语言学经历过这几十年的发展,不论在理论上,还是在技术上,都已趋于成熟。

在语言教学领域中的应用也开始引起注意。

我国对语料语言学研究取得了一定的成果,如:桂诗春教授主持的国家“九五”社科规划项目“中国英语学习者语料库”收集了从中学到大学的中国英语学习者的作文语料,共100多万词,并标注了学生在作文中常见的62类错误,错误类型包括了拼写错误、词语搭配错误、词语用法错误以及语法结构错误等,这对于指导中国学生学习英语起到积极的作用。

语料库语言学研究综述

语料库语言学研究综述

在此后 的20年 ,语料 研究 方 法几乎 名誉 扫地 而 (Key—word in context)的 索 引程 序来 分 析处 理
事实上 。以 自然 语料 为基 础 的语 言研 究并 未完 语料的。从语料库中提取 的例句可以很容易地
全终止 。1959年 ,R.Quirk着手 建立 了 旨在 收集 按不同的目的进行更有意义的组合 ,以便于进
一 、 语 料 库 语 言 学 的发 展 历 史
Chomsky转 换 生 成 语 法 的兴 衰 时 间为 参 照 。 Chomsky之前 的语 言 研 究 ,如 l9世 纪 和 2O世 纪 早 期 的儿童 语言 学 的研究 主要 是 以父母 详 细记 录孩子 的话语发展为基础 的 这些原始语料 ,时 至今 日仍是许多学者 的研究内容的主要来源之 一 。 另 外还 有美 国早 期强 调 语料 获取 的 自然性 和语料 分析 的客 观性的结构 主义语言学家 F. Boas和E.Sapir等人 ,都 曾使用过 以语料库为基 础 的研 究方 法
年 。以N.Francis和 H.Kucera为 首 的语 言 学 家 如 可发 现 interested与介 词 in的搭 配 中 ,interest—
和计 算机 专 家建 成 了 当今 最 早 的 机读 语 料 ed indoing something是 最 常 用 的 表 达 方 式 。此
大量 的风格 题材 各异 的语 料作 为对 英语 口语 和 行 分 析 。例 如 :通 过对 按关 键词 右边 第一 个单 词
书面语进行系统描写的基础的《英语用法》语库 的字母 顺序 排列 的所 有例 句进 行分 类 。我们 可
(Survey of English Usage,简 称 SEU)。 [ ]】961 以查 找 和发 现 以关键 词 开 始 的所 有 词 组 搭 配 ,

语料库语言学简介

语料库语言学简介

语料库语言学简介语料库语言学是指利用语料库(一种大规模的文本数据集合)进行语言学研究的方法和理论。

通过构建、标注和分析语料库,可以揭示语言在不同层面上的特征和规律,为自然语言处理、机器翻译等领域提供基础和支持。

语料库语言学的研究内容包括:语言的音系、形态、句法以及语义等方面;语言的变异、演化和变化;语言使用者的使用习惯、语言背景和社会属性等。

语料库语言学的主要方法包括:语料库的构建和管理、语料库的标注和注释、语料库的查询和分析、语料库的应用和评估等。

语料库语言学的应用领域包括:机器翻译、信息检索、语音识别、文本分类、自然语言生成等。

此外,语料库语言学还被广泛应用于各种语言教学、语言规划和语言政策制定等领域。

总的来说,语料库语言学已经成为现代语言学和自然语言处理领域不可或缺的一部分,对于研究和应用语言都有着重要的意义。

一、语料库语言学的意义(一)定义和概述语料库语言学是指利用计算机对大规模语料库进行统计学分析、计算和比较,从而研究语言规律和现象的语言学方法。

语料库是指收集、整理、储存在计算机中的自然语言文本,包括书面文本和口语文本。

语料库语言学旨在通过对语言数据的分析,揭示语言的内在规律和现象,为语言学、语言教学、翻译等领域提供科学依据。

(二)语料库语言学的历史语料库语言学起源于20世纪50年代的美国,当时ChomSky等人提出了生成文法理论,但是这个理论无法解释自然语言的很多现象。

50年代后期,美国普林斯顿大学的SinClair教授提出了使用实际语言数据进行语言研究的观点,并开始编制语料库,由此开启了语料库语言学的先河。

之后,随着计算机技术的发展,语料库语言学得以快速发展,成为现代语言学研究和应用的重要领域。

二、语料库语言学的重要性(一)提供真实语言数据语料库收集大量的自然语言文本,包括书面语和口语,具有代表性和真实性。

这些数据包含了语言使用中的各种现象和规律,是研究语言的最基本素材。

(二)揭示语言规律和现象语料库语言学可以对语言数据进行分析、计算和比较,从而揭示语言的内在规律和现象。

语料库语言学

语料库语言学

我们认为较为准确全面定义:
语料库(corpus 或corpora [复数]) :是指按 照一定的语言学原则, 运用随机抽样方,收 集自然出现的连续语言运用文本或话语片 段而建成的具有一定容量的大型电子文本 库。
语料库语言学:在文本语料的基础上进行 语言研究的一门学科。
语料库语言学的研究对象
语料库语言学是以语料库中收集储存的真实语言材 料做为唯一的研究对象,以语言现象出现的概率为 依据。因此,语料库语言学为语言学研究提供了一 种全新的研究思路。一个合格的语料库必须以电子 计算机为载体来存放语言材料,这些存放在电子计 算机中的语言材料是在语言的实际使用中真实出现 过的。因此,它们可以如实地反映语言现象,克服 语言学家观察语言现象时的主观性。
(7)语料库语言学与语用学和语篇分析。语料库 常常是把话语从上下文或语篇中分离出来,因此
其所收语料在很大程度上脱离了上下文或社会背
景,而语用学和语篇分析对于场景和上下文又具
有一定的依赖性。故以语料库为基础的语用或语
篇研究相对较少,但语料库为这些领域所作的贡
献是不可否认的。语用学及相关领域的研究通常 是以会话为基础的,如伦敦—伦特语料库 (London - Lund Corpus) 和柯林斯出版公司与伯 明翰大学联合开发的“英语库”( The Bank of Eng2lish ,简称BOE) ,前者收集的是日常会话, 后者的口语部分包括日常会话会议、讨论、采访、 电台广播等。
3、语料库语言学与辞典编纂
语料库不仅能够提供更完备和详尽的关于词义和 词汇搭配的信息,而且利用语料库中的频率统计 可以直观的反映词汇用法的使用情况。如英国考 林斯出版社和伯明翰大学编辑出版的《国际通用 词典》在很大程度上打破了词典编撰的传统,从 词条的选定及解释、用法到释义的先后顺序等都 依据了由2亿词次的COBUILD语料库中统计出的 频率。由于语料库的素材来自实际使用的语言, 利用其素材作为词典的例句更具真实性和准确性。 利用语料库编撰词典不仅能反映语言的真实变化, 而且编撰周期也会大大缩短。

语料库语言学简介

语料库语言学简介

语料库语言学简介薛立艳13502005 没接触这门学科的时候一直在怀疑它到底是什么东西,好像是一门很高深的学科。

刚学了两次课,好像有点大概了解语料库是什么了。

在此书上有的内容比如语料库的分类、研究方法等我就不一一介绍了,主要说说我自己的理解。

我总觉得它并不是一种理论或是新的研究领域,只是一种新的研究语言的方法,是在计算机的辅助下,从茫茫语料库中筛选出自己需要的语言知识。

这是语言学获取语言知识方式的重大变革。

语料库的英文为corpus,该词来源于拉丁文,意思是body,有全集、集合的意思,因此在通俗意义上,语料库即指收集语料的仓库。

不同的语言学家对语料库的定义的表述方式都有所不同,但我们可以从中总结出两层主要含义:一是利用语料库对语言的某个方面进行研究,即语料库语言学主要是指一种新的研究手段。

二是依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。

语料库语言学不仅可以用于研究语言系统的各个方面,而且可以应用于语言学之外的其他领域。

它不属于语言自身某个侧面的研究,而是一种以语料为基础的研究方法。

可是我比较怀疑的是收纳到语料库中的内容。

库中的材料要求样本必须来源于真实的语言材料,包括各种环境下规范或不规范的语言应用。

那么这些材料是否会有地区差异性等问题呢?还有要是真想研究语言的某一方面,那么样本多少才够用呢?语言的使用地区环境差异性太大,研究起来真的具有代表性么。

但好像正是由于这些有限的语言材料体现了无限的真实语言生活的特征,这样才能保证基于语料库得出的结论具有可靠性和普遍性。

这还得要求语料库样本的代表性,使得有限的样本预料尽可能多地反映无限的真实语言现象的特征。

语料库语言学为语言研究提供了一种全新的研究思路,以大量真实的语言使用实例为研究对象,借助于统计学手段和方法得出客观可靠的语言数据,从而寻找语言使用的规律,并对先前的语言理论进行验证或修改。

它按照一定的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言运用文本或语言片段而建成的具有一定容量的大型电子文库。

近五年国内语料库语言学研究综述

近五年国内语料库语言学研究综述

近五年国内语料库语言学研究综述摘要:文章从语料库语言学研究的领域,通过对2006年至2010年发表在国内11种外语类核心期刊上的语料库语言学论文进行统计与分析,发现这些研究在研究领域方面取得了很大的进步,涉及到语言学的各个领域,但各个领域之间发展不平衡,同时也存在一些问题。

关键词:语料库;语料库语言学研究;研究领域现代语料库语言学( modern corpus linguistics)是20世纪中后期兴起的一门语言研究科学。

语料库是指按一定的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库。

中国第一个语料库JDEST( Jiao Tong University Corpusfor EST)于1986年在上海交通大学建成至今20多年来,国内语料库语言学的发展取得了丰硕的成果。

随着语料库语言学在中国的发展,越来越多的学者开始利用语料库来做实证研究。

近几年来,语料库语言学已经成为实证研究的不可缺少的手段,成为了语言研究一个新的热点。

笔者通过检索主题与关键词通过对最近5年运用语料库做实证研究的文章进行系统的调查与总结,以其为今后语料库语言学的发展提供一点建议与参考。

一研究样本由于近几年运用语料库来做研究已经成为语言学研究的热点,笔者通过检索主题与关键词,将文献定在2006年至2010年这5年期间,研究样本来源为发表在11种外语类核心期刊的66篇文章。

这是因为这11种外语类核心期刊有一定的权威性,所刊登的文章质量较高,能在一定程度上代表研究的趋势。

表1为最近5年发表在11种外语类核心期刊上的基于语料库研究的文章。

二结果与分析首先看下这66篇文章在近5年期间的分布情况:如下面柱形图所示。

从图中可以清楚的看出,在这5年期间基于语料库研究的文章大体呈递增的趋势,特别是在2010年,研究数量有较显著的增长。

下面从研究领域对这5年来的文章进行关于语料库的研究领域,国外学者都提出过不同的分类方法。

分析语言学中的语料库与语言教学

分析语言学中的语料库与语言教学

分析语言学中的语料库与语言教学语言是人类交流和表达思想的工具,而语言教学是培养学习者掌握一门语言的技能和能力的过程。

在语言教学中,语料库是一个重要的工具和资源。

本文将从分析语言学的角度,探讨语料库在语言教学中的应用与意义。

一、语料库的定义与特点语料库是指收集和整理大量真实语言材料的数据库。

它可以包括书面语料和口语语料,涵盖多种语言形式和语境。

语料库的特点有以下几个方面:1.真实性:语料库中的语言材料是真实的、自然的,反映了实际语言使用的情况。

2.多样性:语料库中包含了丰富的语言形式和语境,可以涵盖不同的话题、风格和文体。

3.数量性:语料库中包含大量的语言材料,可以提供丰富的例句和语言数据供学习者使用。

4.可检索性:语料库可以通过搜索功能进行检索和查询,方便学习者找到所需的语言材料。

二、语料库在语言教学中的应用语料库在语言教学中有着广泛的应用价值,主要体现在以下几个方面:1.语言输入:语料库可以提供大量真实的语言输入,学习者可以通过阅读和听取语料库中的语言材料,了解语言的用法、结构和表达方式。

这有助于学习者建立语感和语言模型,提升语言理解和运用能力。

2.语言输出:语料库可以为学习者提供丰富的例句和语言模板,帮助他们进行语言输出。

学习者可以通过模仿和借鉴语料库中的表达方式,提升自己的口语和写作水平。

3.语言规律:语料库中的语言材料可以反映语言的规律和特点。

通过对语料库中的语言数据进行分析和比较,学习者可以发现语言的规律和用法,提高对语言的理解和掌握。

4.词汇学习:语料库可以为学习者提供大量的词汇例句和语境信息。

学习者可以通过语料库查找词汇的用法、搭配和固定搭配,提高词汇的掌握和运用能力。

5.语言研究:语料库不仅可以用于语言教学,也是语言研究的重要工具。

语言学家可以通过分析语料库中的语言数据,研究语言的变异、演变和规律,为语言教学提供理论依据和指导。

三、语料库在语言教学中的实践案例1.语言输入与输出:教师可以利用语料库中的语言材料,设计听说读写的综合训练活动。

语料库话语分析综述

语料库话语分析综述

近十年国内基于语料库的话语研究综述A Review of Ten - year Researchon Corpus-Based Discourse Analysis in China摘要:文章从基于语料库的话语研究领域出发,通过对2002年至2011年发表在国内八种核心期刊上的论文进行统计与分析,发现这些研究在研究领域取得了很大的进步,涉及到话语各个方向,对于实践有重大指导作用,但同时也出现一些问题值得我们关注。

Abstract: From corpus-based discourse analysis, this thesis finds this field has made great progress, relates to many directions of discourse and has a significant guiding role for the practice, but also brings many problems worthy our attention. All of these are derived from the research and analysis of thesises published in 8 kinds of core journals from 2002 to 2011 in China.关键词: 语料库话语基于语料库的话语研究0. 引言现代语料库语言学是20世纪中后期兴起的一门语言研究科学。

语料库是指按一定的语言学原则,运用随即抽样的方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库。

在20 世纪后半叶的西方语言学界, Chomsky的观点大行其道,秉承该学说的语言研究者唯直觉语料独尊。

他们躲在书斋,满足于依靠自己的直觉语料从事语言研究。

随着社会语言学、话语分析、语用学、语料库语言学的兴起,越来越多的语言学家认识到光靠直觉语料来研究语言是远远不够的,人们还必须借助语料库语料以及其他各种语料,只有这样我们才能更好地揭示语言的本质,克服直觉语料的局限与不足。

语料库语言学

语料库语言学

语料库语言学维基百科语料库语言学(英语:corpus linguistics)是基于语言运用的实例(即语料库)的语言研究。

语料库语言学可以对自然语言进行语法与句法分析,还可以研究它与其他语言的关系。

语料库最初由手工完成,而现在主要是由计算机自动完成。

语料库语言学家相信,可靠的语言分析需建立在新鲜的语料、自然的语言环境,和最小的实验干扰之上。

在语料库语言学中,语料标注的意义众说纷纭,从约翰·辛克莱[1]主张最少量的标注,并允许文本“为自己说话”,到“英语用法调查组”(设在伦敦大学学院)[2]鼓励更多的标注,并认为它是通向更完备和严谨的语言理解的道路。

目录∙ 1 历史∙ 2 方法∙ 3 参考文献o 3.1 引用o 3.2 期刊o 3.3 书籍∙ 4 外部链接∙ 5 参见现代语料库语言学的一个里程碑是亨利·库切拉和W.纳尔逊弗朗西斯在1967年出版的《当代美语的计算分析》(Computational Analysis of Present-Day American English)一书。

该项工作基于对布朗语料库的分析,布朗语料库是一个精心编制的美国英语语料库,规模约有一百万词次。

库切拉和弗朗西斯将这些语料用于各种计算分析,获得了丰富和多样化的成果,该成果结合了语言学、语言教、心理学、统计学、和社会学元素。

另一关键出版物是1960年伦道夫·夸克的《当代英语语法》(Towards a description of English Usage)[3],在这本书中他介绍了“英语用法调查”项目(The Survey of English Usage)。

此后不久,波士顿出版商霍顿米夫林邀请库切拉为其新的美国传统英语字典提供百万词次,三线引文的来进行词典编纂。

《美国传统英语字典》创新地将规定性元素(应如何使用语言)和描述性元素(语言实际上是如何被使用)结合在了一起。

其他出版社纷纷效仿。

语料库研究综述

语料库研究综述
语料库与语言信息处理有着某种天然的联系。当人们还不了解语料库方法的时候,在自然语言理解和生成、机器翻译等研究中,分析语言的主要方法是基于规则的(Rule-based)。对于用规则无法表达或不能涵盖的语言事实,计算机就很难处理。语料库出现以后,人们利用它对大规模的自然语言进行调查和统计,建立统计语言模型,研究和应用基于统计的(Statistical-based)语言处理技术,在信息检索、文本分类、文本过滤、信息抽取等应用方向取得了进展。另一方面,语言信息处理技术的发展也为语料库的建设提供了支持。从字符编码、文本输入和整理,语料的自动分词和标注,到语料的统计和检索,自然语言信息处理的研究都为语料的加工提供了关键性的技术。
语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型:
(1)异质的(Heterogeneous):
没有特定的语料收集原则,广泛收集并原样存储各种语料;
(2)同质的(Homogeneous):
只收集同一类内容的语料;
(3)系统的(Systematic):
下面先简要叙述1998年到2003年中国语料库建设的基本情况,然后介绍语料库的加工、管理和规范问题,最后谈谈语料库方法在语言研究和语言工程等方面的应用。由于以前的《中国语言学年鉴》很少谈及语料库问题,为了尽可能全面地反映我国语料库研究和应用的情况,必要时会将时间上限向前延伸几年。
二中国语料库建设的基本情况
这个语料库收录的语料以书面语为主、以书面语转述的口语为辅。语料来源是19年至今,主要是1977年至今出版的教材、报纸、综合性刊物、专业刊物和图书。在设计原则上,讲求通用性、描述性、实用性和抽样的科学性。在语料分类方面,以“门类为主,语体为辅”为原则制定三个大类:

《语料库语言学》述评

《语料库语言学》述评
renoufbanerjee的lexicalrepulsionbetweensenserelatedpairs一文从8亿词的英国报纸语料库中获取数据以近义词和反义词等语义相关词对为例探索了词汇相斥现象即不在同一语境中共现将词的横聚合关系分为强搭配弱搭配和相排斥三类有别于以往多聚焦于词汇共现的研究可谓独辟蹊第三部分收文8篇分别聚焦美国大学课堂教学和教材中的词串同现词列的短语倾向狄更斯小说中词簇的语篇功能作为通用语的英语englishlinguafranca简称elf中的词块学术演讲中的词串和话语标记学术书评中的短语学术口语中的成语以及学术程式语词表等
1 . 0引言
美 国 北 亚 利 桑 那 大 学 语 料 库 语 言 学 家 Do u g l a s Bi b e r是 英 语 语 体 研 究 领 域 的 著 名 学 者 , 其
倡导 的多维 度分 析方 法 ( Mu l t i — D i me n s i o n a l An a l y s i s ) 在 语 体 研 究 中独 树 一 帜 , 影 响 很 大 。他 和 另两 位学 者在 1 9 9 8年 合 著 的 《 语 料 库 语 言 学 》一 书是 语 料 库 研 究 领 域 的 经 典 著 作 。
山 东 外 语 教 学
S h a n d o n g F o r e i g n L a n g u a g e Te a c h i n g
2 0 1 5年 4月 第 3 6卷第 2期
Ap r . 2 01 5 Vo 1 . 3 6 No . 2
D OI : 1 0 . 1 6 4 8 2 / j . s d w y 3 7—1 0 2 6 . 2 0 1 5— 0 2— 0 1 5
2 . S c h o o l o f I n t e r n a t i o n a l S t u d i e s , Z h  ̄i a n g U n i v e r s i y,H t a n g z h o u 3 1 0 0 5 8 ,C h i n a )

国内语料库研究综述

国内语料库研究综述

国内语料库研究综述摘要本文旨在回顾国内语料库研究的发展历程、现状,并探讨未来研究方向。

通过分析相关文献资料,文章总结了国内语料库研究的主要成果、不足之处,并提出了针对性的建议。

本文旨在为语料库研究领域的学者提供参考,以推动国内语料库研究的发展。

关键词:语料库、国内研究、发展历程、现状、未来研究方向引言语料库是指为语言研究而收集的、有一定规模的、有代表性的语言材料集合。

自20世纪中期以来,语料库在国外得到了广泛应用,并在多个领域取得了显著的成果。

近年来,随着国内语言学、计算语言学等学科的快速发展,语料库在国内的研究和应用也逐渐受到重视。

本文将重点探讨国内语料库研究的现状、成果及未来研究方向。

研究现状1.国内语料库的发展历程和现状自20世纪80年代起,国内开始出现一些小型语料库的建设和研究,如国家语委现代汉语通用词库等。

随着计算机技术的不断发展,90年代中后期以来,国内开始大力推进语料库的建设和研究,涉及的领域也日益广泛。

目前,国内已经建立了一系列不同规模、不同类型的语料库,如中国传媒大学的中国广播电视媒体语言语料库、上海交通大学的中文文本分类语料库等。

2.基于不同领域语料库的研究成果和不足语料库在多个领域得到了广泛应用,如语言教学、词典编纂、语言政策研究等。

在语言教学领域,语料库可以提供真实的语言材料和语境,有助于提高语言学习者的兴趣和理解能力。

在词典编纂领域,语料库可以提供大量的实例和用法,有助于提高词典的准确性和实用性。

在语言政策研究领域,语料库可以提供真实的语言使用情况和发展趋势,有助于制定科学的语言政策和发展规划。

然而,国内基于不同领域语料库的研究成果尚不够丰富,且在某些领域还存在着研究空白。

例如,针对特定领域的语料库建设和研究尚不够深入,部分领域的语料库仍存在着规模较小、代表性不足等问题。

此外,针对语料库在二语习得、语言演化等领域的研究尚不够充分。

3.国内语料库在语言教学中的应用语料库在语言教学中的应用已经得到了广泛的认可。

语料库语言学综述

语料库语言学综述

语料库语言学综述【摘要】语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。

语料库分为很多类型,现在已有相当数量的语料库可供语言研究使用。

语料库语言学作为语言学的一个新的分支,当然离不开语料库。

本文解释了语料库语言学的定义及其内涵,介绍了英语语料库的发展和现状,并对语料库语言学的未来发展进行了展望。

【关键词】语料库;语料库语言学;发展一、引言语料库自从20世纪60年代初出现至今,已经经历了半个多世纪的发展。

随着计算机技术的不断进步,语料库的研究已经不再是某些人的专利。

同时语料库的发展也正在以惊人的速度对语言研究的很多领域产生着愈来愈大的影响。

语料库语言学,是一种基于语料库的全新的研究技术和方法。

可以毫不夸张地说,语料库语言学开辟了语言研究的一个全新的领域。

本文拟对语料库的建设,语料语言学的研究特点,语料库及语料语言学的发展现状以及存在问题等角度对于语料库及语料语言学进行一次梳理。

二、理论回顾1.什么是语料库、语料库语言学?语料又称为素材,是自然发生的语言材料包括书面语和口语的集合。

“可以用来作为描述一种语言的出发点或用于证实有关一种语言的假设的手段”(Crystal,1991)。

语料库(corpus)亦称语库,是存放语言材料的仓库。

语料库是收集并科学地组织起来的语言材料数据库,这种材料是某种语言中自然出现的,可以是书面的,也可以是口头的(申厚坤,2005)。

通常地讲,语料库就是指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。

2.语料库及语料库语言学的的产生与发展。

有人认为语料库研究的发展经历了三个阶段:运用语料库进行语言研究最早可以追溯到19世纪末,当时的研究手段还只停留在卡片制作和人工检索的阶段,其成果也仅用作编纂语法书或词典的参考。

20世纪60年代至90年代是语料库语言学发展的第二个阶段,世界各地都开始建设自己的语料库并且开始跨国联合建立国际性的语料库。

语料库研究综述

语料库研究综述

语料库研究与应用综述目录一概述二中国语料库建设的基本情况三语料库的加工、管理和规范四语料库在语言研究中的的应用五参考文献语料库研究与应用综述一概述语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。

经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。

人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。

语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。

语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。

有人曾经把语料库分成四种类型:(1)异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的(Homogeneous):只收集同一类内容的语料;(3)系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的(Specialized):只收集用于某一特定用途的语料。

除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。

按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。

双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。

语料库建设中涉及的主要问题包括:(1)设计和规划:主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。

(2)语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持平衡性等。

(3)语料的加工:包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。

近十年国内语料库语言学研究综述

近十年国内语料库语言学研究综述

近十年国内语料库语言学研究综述一、本文概述近年来,随着信息技术的飞速发展和大数据时代的来临,语料库语言学在国内语言学界的影响力逐渐增强。

本文旨在全面梳理近十年国内语料库语言学研究的发展脉络,总结研究成果,分析存在的问题,并展望未来的发展趋势。

本文将从语料库的建设、语料库语言学理论、语料库在语言教学和研究中的应用等方面展开综述,以期为国内语料库语言学的研究者提供一个清晰的研究全景和参考框架。

通过对近十年国内语料库语言学研究的系统回顾,本文旨在推动语料库语言学在国内的深入发展,为语言学研究的创新提供新的视角和方法。

二、语料库建设与研究近十年,我国语料库语言学在语料库建设方面取得了显著进展。

语料库作为语言学研究的基础资源,其规模和质量直接影响到研究的深度和广度。

在这一时期,我国学者和机构积极投入语料库的建设工作,不仅扩充了语料库的种类和数量,还提高了语料的质量和标注精度。

在语料库种类方面,除了传统的通用语料库外,还出现了专门针对某一领域或语体的语料库,如法律语料库、医学语料库、社交媒体语料库等。

这些专业语料库为相关领域的研究提供了丰富的数据支持。

在语料库规模方面,随着大数据技术的发展,语料库的规模不断扩大。

大型语料库如“国家语委现代汉语语料库”“古代汉语语料库”等,为语言学研究提供了海量的语料资源。

在语料质量方面,我国语料库建设注重语料的真实性和代表性。

通过严格的语料采集和筛选流程,确保语料的质量和准确性。

同时,采用自动化和半自动化的方法对语料进行预处理和标注,提高了语料的处理效率和质量。

在语料库研究方面,我国学者充分利用语料库资源进行各种语言学研究。

通过语料库的统计分析,揭示语言现象的本质和规律。

还利用语料库进行语言对比研究、语言演变研究、语言教学研究等,推动了语言学研究的深入发展。

近十年我国语料库语言学在语料库建设与研究方面取得了显著成就。

语料库的规模和质量不断提升,为语言学研究提供了强大的数据支持。

近十年国内语料库语言学研究综述

近十年国内语料库语言学研究综述

近十年国内语料库语言学研究综述一、概述近十年来,语料库语言学在国内的研究取得了显著的发展和突破。

随着信息技术的飞速进步和大数据时代的到来,语料库语言学在语言学研究中的地位日益凸显。

它基于大规模真实文本数据,运用统计学和计算机技术,对语言现象进行定量和定性的分析,为语言学研究提供了全新的视角和方法。

国内语料库语言学的研究范围广泛,涉及语言结构、语言变异、语言使用、语言教学等多个领域。

研究者们利用语料库资源,深入探讨了词汇、语法、语义、语用等层面的语言问题,揭示了语言现象的内在规律和特点。

同时,随着语料库建设的不断完善,语料库语言学在国内的应用也愈加广泛,为自然语言处理、机器翻译、信息检索等领域提供了强大的数据支持和技术基础。

近十年内,国内语料库语言学的研究呈现出以下几个特点:一是研究方法的多样化,不仅注重传统的统计分析方法,还引入了机器学习、深度学习等先进技术二是研究领域的拓展,语料库语言学不再局限于传统的语言结构研究,而是向语言教学、语言规划等应用领域延伸三是语料库资源的不断丰富,各类专题语料库、多语种语料库等不断涌现,为语料库语言学的研究提供了更为丰富和多样的数据来源。

总体而言,近十年国内语料库语言学的研究取得了丰硕的成果,不仅推动了语言学理论的发展,也为语言实践提供了有力的支持。

未来,随着技术的不断进步和语料库资源的日益丰富,语料库语言学在国内的研究将更加深入和广泛,为语言学研究和社会应用带来更多的创新和突破。

1. 语料库语言学的定义与重要性语料库语言学,作为一种独特的语言学研究方法,主要依赖于大规模、结构化的语言数据集合,即语料库,来进行语言分析和研究。

它通过对真实语料进行定量和定性的分析,旨在揭示语言的实际使用情况和内在规律。

近十年来,随着信息技术的飞速发展和语料库规模的日益扩大,语料库语言学在国内语言学界的地位逐渐提升,其重要性也日益凸显。

语料库语言学的定义在于其研究方法和数据基础。

其研究方法强调实证和量化,通过计算机技术和统计手段对语料库中的语言数据进行处理和分析,进而揭示语言的实际使用情况。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语料库语言学综述
作者:刘美良
作者单位:柳州铁道职业技术学院,广西,柳州,545001
刊名:
科技信息
英文刊名:SCIENCE & TECHNOLOGY INFORMATION
年,卷(期):2010,""(21)
被引用次数:0次
1.Chomsky,N Syntactic Structure 1957
2.Sinclair.John Corpus.Concordance Collocation
3.Susan Hunstom Corpora in Applied Linguistics 2006
4.Aijmer,K.Altenberg,B English Corpus Linguistics:Studies in Honour of Jan Svartvik 1991
5.杨惠中语料库语言学导论 2002
6.何安平语料库在外语教育中的应用--理论与实践 2004
7.何安平谈语料岸研究 1997(5)
8.丁信善语料库语言学的发展及研究现状 1998(1)
9.李文中2003上海语科库语言学国际会议述评 2004(1)
10.粱旭红语料库语言学研究综述 2001(1)
11.粱燕近十年我国语料库实证研究综述 2004(6)
12.刘满堂近40年英语语料库及语料库语言学研究的回顾与出展望 2004(1)
13.潘永本梁语料库语言学的目的和方法 2001(3)
14.王建新语料库语言学发展史上的几个重要阶段 1998(4)
15.许家金语料库语言学的理论解析 2003(6)
16.卫乃兴专业性搭配初探--语料库语言学方法 2001(4)
17.卫乃兴语料库语言学的弗斯学说基础 2008(3)
18.甄风超.张霞语料库语言学发展趋势瞻望--2003语料库语言学国际会议综述 2004(4)
19.吴菲国内外英语语料库的建设和发展述评 2007(6)
1.期刊论文王虹.岳俊发.Wang Hong.Yue Jun Fa书面言语鉴定技术的发展历程-中国公共安全(学术版)2005,""(3)
书面言语鉴定技术产生于20世纪80年代中期.随着电子打印技术的普及,涉案的不留笔迹的打印文件显著增加,书面言语鉴定技术倍受关注.近年来,运用统计语言学、语料库语言学和计算机词频检索与统计等新技术获得了新的研究成果并应用于鉴定实践.书面言语鉴定技术已经发展成为文件检验学的一个新的分支,必将在司法鉴定领域发挥更大的功效.
2.期刊论文孙丰果话语分析整合研究-聊城大学学报(社会科学版)2010,""(2)
近60年来.话语分析经历了从无到有,从小到大的发展历程.话语分析要取得长足发展,需要有一个明确的概念,需要人们对其以前的发展情况进行总结和评述.对话语分析研究的评述不妨从系统功能语言学、认知语言学、语料库语言学等多角度进行.今后,话语分析研究可以从话语分析的哲学转向、心理学转向及整合批评话语分析和积极话语分析等方面展开.
3.期刊论文杨连瑞.Yang Lianrui第二语言习得研究的学科定位和进展-外语与外语教学2005,""(5)
第二语言习得是一种复杂的人文现象.作为一门新兴的交叉学科,第二语言习得研究在发展中应重视其学科性质的科学定位和学科体系的科学建构.本文在对第二语言习得研究的学科定位、学科性质和研究对象进行讨论后,回顾和评述了国外第二语言习得研究从对比分析、错误分析、中介语理论、普遍语法研究、语言类型学研究到语料库语言学研究的发展历程和研究问题,分析了目前我国开展这一学科研究的现状,并结合我国外语教学实际对目前开展这一学科的研究提出建设性意见.
4.学位论文魏琳中国英译旅游宣传材料的语料库分析2006
旅游业在全球范围内的迅猛发展使不同文化背景的人们进行文化交流变成了一种需要。

在我国,旅游英语特别是网上的旅游英译材料是外国游客接触和了解我国的媒介。

因此,旅游材料的翻译质量举足轻重。

而目前旅游文本的翻译研究在中国还是一个比较新的话题,近年来主要是结合最新语言学
研究的成果来对旅游资料进行跨文化对比分析或题材分析,但大多数只是翻译实践的总结,缺乏系统理论的指导。

本论文试图对互联网上的中国旅游翻译文本和英美国家的旅游文本进行对比,找出它们的不同,以探讨中国旅游材料英语翻译的有效途径,促进中外交流。

为了使研究更科学,更系统化,作者采用了语料库语言学的方法。

语料库为研究者提供了大量真实的语言数据库从而使得语言分析研究能够基于自然发生的语言结构和形式而不是靠自觉感知的语言现象进行。

语料库语言学不是语言学的分支,而是一种崭新的语言学研究方法。

研究者使用电脑对大量文本进行分析处理,从而对语言和语言的使用得出结论,这单靠对某些文本的分析和某些语言学者的直觉是无法做到的。

论文共分六章。

第一章:导言,介绍研究的背景、目前国内旅游翻译文本存在的问题,研究目的和研究方法。

第二章:对旅游材料作简要介绍,包括旅游材料的定义、不同的分类方法、主要功能以及语言特点,并结合具体的旅游材料进行了论述。

第三章:回顾了国内外旅游材料翻译的发展历程。

其中国内的学者主要从文化、功能、美学、翻译实践的角度进行了研究和总结。

作者对他们的探索做出了客观的评价,并指出了存在的不足。

第四章:系统介绍了语料库语言学的历史渊源和发展沿革,语料库语言学的特点及广泛应用。

此外,作者还简要说明了语料库研究中涉及到的技术性问题,如语料库的建立,计算机软件,统计工具等,为下一章的具体分析奠定了基础。

第五章:对中西旅游材料的语料库分析。

首先,语料库的建立,包括抽样的标准、样本的数量和比例、样本的有效性。

然后,利用awk软件对两个语料库的几种文本数据,如词汇量/总词数比、句长进行了计算和分析。

通过比较,作者发现总体上中国旅游翻译文本的词汇量/总词数比(Type-token ratio)和英美国家的旅游材料相差不大,甚至在某一类文本上还高于后者。

但是个案分析显示中国旅游材料中专有名词使用过多,在一定程度上造成了阅读障碍,影响了文化的交流。

在平均句长方面,中国旅游材料略高于英美旅游文本,但是句型明显缺少变化,给人一种呆板的印象。

此外,作为对语料库研究的补充,作者还就中西旅游材料的风格差异进行了探讨。

六章:根据前一章的分析结果,针对词汇量/总词数比、句长和风格三个方面作者提出了汉语旅游文本翻译的建议。

本文链接:/Periodical_kjxx201021210.aspx
授权使用:洛阳工学院(河南科技大学)(wflskd),授权号:293c4b91-c149-42c0-bf86-9e540103f7e1
下载时间:2010年12月22日。

相关文档
最新文档