语料库语言学的发展及研究现状
语料库语言学简介
语料库语言学简介语料库语言学是指利用语料库(一种大规模的文本数据集合)进行语言学研究的方法和理论。
通过构建、标注和分析语料库,可以揭示语言在不同层面上的特征和规律,为自然语言处理、机器翻译等领域提供基础和支持。
语料库语言学的研究内容包括:语言的音系、形态、句法以及语义等方面;语言的变异、演化和变化;语言使用者的使用习惯、语言背景和社会属性等。
语料库语言学的主要方法包括:语料库的构建和管理、语料库的标注和注释、语料库的查询和分析、语料库的应用和评估等。
语料库语言学的应用领域包括:机器翻译、信息检索、语音识别、文本分类、自然语言生成等。
此外,语料库语言学还被广泛应用于各种语言教学、语言规划和语言政策制定等领域。
总的来说,语料库语言学已经成为现代语言学和自然语言处理领域不可或缺的一部分,对于研究和应用语言都有着重要的意义。
一、语料库语言学的意义(一)定义和概述语料库语言学是指利用计算机对大规模语料库进行统计学分析、计算和比较,从而研究语言规律和现象的语言学方法。
语料库是指收集、整理、储存在计算机中的自然语言文本,包括书面文本和口语文本。
语料库语言学旨在通过对语言数据的分析,揭示语言的内在规律和现象,为语言学、语言教学、翻译等领域提供科学依据。
(二)语料库语言学的历史语料库语言学起源于20世纪50年代的美国,当时ChomSky等人提出了生成文法理论,但是这个理论无法解释自然语言的很多现象。
50年代后期,美国普林斯顿大学的SinClair教授提出了使用实际语言数据进行语言研究的观点,并开始编制语料库,由此开启了语料库语言学的先河。
之后,随着计算机技术的发展,语料库语言学得以快速发展,成为现代语言学研究和应用的重要领域。
二、语料库语言学的重要性(一)提供真实语言数据语料库收集大量的自然语言文本,包括书面语和口语,具有代表性和真实性。
这些数据包含了语言使用中的各种现象和规律,是研究语言的最基本素材。
(二)揭示语言规律和现象语料库语言学可以对语言数据进行分析、计算和比较,从而揭示语言的内在规律和现象。
语料库语言学发展现状与应用
究 中所能 发挥 的作用 远远 超 出 了人类 的想象 。 料 语 库 和语言 学家 的直 觉应该 是相 互 补充 . 不是相 互 而
法并 逐渐在 语言 学界 占据 主导地 位 。 重视 讲母 语 他
的人 的语 言直 觉, 为 通过 内省可 以考 察 一个 完 全 认 具有 母语 知识 的理想 讲话 一 听话 人 的语 言 能力 。 因
英语 语 料库 。在语 料库 语言 学研 究 的发展 历程 中 , 各 家学 派著 书立说 , 同致 力 于这 门学科 的繁荣发 共
fa g mma c l t cue 、 词 汇 语 域 ( cb l y r t a r tr) i s u v a ua o r
rg tr和 意 义 表 述 f ne t x rsin上 的 差 别 , e ie) s c tn 基础 的研 究方
法 得到 了重新 肯定 。
用 于语 言研 究 所 有 的领 域 , 词 汇 、 法 、 篇 、 如 语 语 语 言 变异 、 体学 、 文 历史 语言 学等 。 在语 言研 究 中, 国结 构 主 义语 言 学在 研究 中 美 很 倚 重 实 际 使 用 的 语 言 材 料 。 布 龙 菲 尔 德 ( l m i d 和 萨丕 尔 (a i) 都 在研究 中使 用 以 Bo fl) o e S pr等,
随着科技 和社 会 的进步 , 特别 是计 算 机技 术 的 进步 , 用机 器 大规 模 处 理语 料 , 行 语 言研 究 的方 进
作 者 简 介 : 伟 (9 5 ) 山 东 师 范 大 学 研 究 生 , 究 方 向 : 刘 18一 , 研
语料库和知识库地研究现状
语料库和知识库研究现状2015-12-9摘要:语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源,它与自然语言处理有着相辅相成的关系,是用统计语言模型的方法处理自然语言的基础资源。
知识库广泛应用于信息检索、机器问答系统、自动文摘、文本分类等领域,为进行大规模的真实性文本的语义分析提供了有利的支持,它也成为自然语言处理不可或缺的基础资源。
由于语料库和知识库的广泛应用,如今国外对语料库和知识库的研究给与高度的重视,经过过去几十年的发展,各国在语料库和知识库的建设和应用方面都取得了不少成果。
本文通过对语料库与知识库相关文献资料的搜索整理,重点介绍目前国外在语料库和知识库方面的研究现状。
关键词:语料库;知识库;研究现状1前言语料库是指按照一定的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言文本或者说话片段而建成的具有一定容量的大规模电子文本库[1]。
而知识库是知识工程中结构化、易操作使用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。
语料库和知识库在传统语言研究、词典编纂、语言教学、自然语言处理等领域有重要作用,所以自从20世纪60年代第一个现代意义上的语料库——美国布朗语料库(Brown Corpus)诞生开始,大批国外的专家学者致力于语料库和知识库的研究,近年来国外对于语料库知识库的研究取得了重大的突破,形成了规模不一的各种语料库和知识库,并且涌现了众多有关语料库和知识库的专著、论文等。
对于语料库和知识库发展现状的总结研究,不仅可以帮助人们清楚的了解语料库和知识库当前发展的形势,对今后语料库知识库的发展具有一定的指导作用,而且对于应用语料库知识库发展自然语言处理等领域具有重要意义。
2研究意义从现代意义上第一个语料库出现以来,语料库在国外的发展均有长足的进步,不但其规模越来越大,加工深度越来越深,而且有关语料库的应用也越来越广泛[2]。
浅谈语料库语言学在的应用以及在中国的发展趋势
浅谈语料库语言学在的应用以及在中国的发展趋势一、语料库语言学的兴起与发展语料库语言学是基于大量真实的语言资料,从调查语言信息的分布频率入手来研究语言在现实使用中的规律和模式。
自20世纪中后期,电脑被大量使用在语料的存储上,兴起了专门针对大规模储存于计算机里的语料库所进行的研究,自此语料库语言学进入了现代语料库语言学时期。
由于电脑语料库容量大、语料真实、检索快捷,它在现代语言学研究和语言教育中正发挥着越来越重要的作用。
在我国,从20世纪20年代开始,有学者为制定基础汉字字表开始建立文本语料库;70年代末以来,汉语现代文学作品语料库(1979年)、现代汉语语料库(1983年)等机器可读语料库开始建设。
90年代后,以《人民日报》光盘数据库、北大语料库为代表的大型汉语语料库日益发展,语料库成为研究中文信息处理的基本语言资源。
在英语语料库建设方面,杨惠中教授80年代主持建成的上海交通大学科技英语语料库(JDEST),是当时世界上第一个同类语料库,也是国内最大最完备的英语语料库之一。
1996年广州外国语学院开始建立中国学生交际英语语料库。
此外由广东外语外贸大学桂诗春教授和上海交通大学杨惠中教授牵头开发的“中国学习者语料库”(CLEC)于1999年建成,该语料库广泛收集了包括我国中学生、大学生在内的一百多万词的各种书面语资料,并对所有的语料进行语法标注和言语失误标注,对研究中国学习者的英语特点具有开创性意义。
二、语料库语言学发展趋势语料库语言学研究的发展总是以语料库的建设为基础的。
没有语料库的建设,语料库语言学所进行的研究只能是纸上谈兵。
近十多年来,国内语料库的建设取得了一定的成就,主要建设的语料库有英语学习者语料库、平行语料库、特殊英语语料库、汉语语料库四种类型。
(一)英语学习者语料库。
其中包括书面语和口语。
有广东外语外贸大学和上海交通大学合作建设的中国学习者英语语料库CLEC,100万词次;上海交通大学建设的大学英语学习者口语语料库COLSEC,5万词次;香港科技大学建设的香港科技大学学习者语料库HKUST Learner Corpus;南京大学建设的中国英语专业语料库CEMC,148万词次;南京大学建设的中国英语学习者口语语料库SECCL,100万词次;华中科技大学建设的硕士写作语料库MWC,12万词次。
近五年国内语料库语言学研究综述
近五年国内语料库语言学研究综述摘要:文章从语料库语言学研究的领域,通过对2006年至2010年发表在国内11种外语类核心期刊上的语料库语言学论文进行统计与分析,发现这些研究在研究领域方面取得了很大的进步,涉及到语言学的各个领域,但各个领域之间发展不平衡,同时也存在一些问题。
关键词:语料库;语料库语言学研究;研究领域现代语料库语言学( modern corpus linguistics)是20世纪中后期兴起的一门语言研究科学。
语料库是指按一定的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库。
中国第一个语料库JDEST( Jiao Tong University Corpusfor EST)于1986年在上海交通大学建成至今20多年来,国内语料库语言学的发展取得了丰硕的成果。
随着语料库语言学在中国的发展,越来越多的学者开始利用语料库来做实证研究。
近几年来,语料库语言学已经成为实证研究的不可缺少的手段,成为了语言研究一个新的热点。
笔者通过检索主题与关键词通过对最近5年运用语料库做实证研究的文章进行系统的调查与总结,以其为今后语料库语言学的发展提供一点建议与参考。
一研究样本由于近几年运用语料库来做研究已经成为语言学研究的热点,笔者通过检索主题与关键词,将文献定在2006年至2010年这5年期间,研究样本来源为发表在11种外语类核心期刊的66篇文章。
这是因为这11种外语类核心期刊有一定的权威性,所刊登的文章质量较高,能在一定程度上代表研究的趋势。
表1为最近5年发表在11种外语类核心期刊上的基于语料库研究的文章。
二结果与分析首先看下这66篇文章在近5年期间的分布情况:如下面柱形图所示。
从图中可以清楚的看出,在这5年期间基于语料库研究的文章大体呈递增的趋势,特别是在2010年,研究数量有较显著的增长。
下面从研究领域对这5年来的文章进行关于语料库的研究领域,国外学者都提出过不同的分类方法。
语料库语言学研究发展现状浅析
语料库语言学研究发展现状浅析【摘要】语料库语言学过去几十年中在我国的研究取得了丰硕的成果,也日益引起国外同行的关注。
本文以语料库及语料库语言学在外语教学和翻译教学方面的应用为脉络,回顾了近年来语料库语言学研究所取得的成果,并讨论了语料库语言学在中国的发展趋势。
【关键词】语料库;语料库语言学;外语教学;翻译研究;研究;发展状况兴起于20世纪80年代的语料库语言学是一门新兴的学科,主要致力于文本的检索、取样、分析以及统计,从建立之初就为语言学研究注入了新的活力。
近年来,语料库语言学得到了大量中国学者与专家的广泛关注,不仅建成了一批具有国际水准的高水平、高质量的诸如平行语料库、专门用途语料库、和用于研究学习者口语和书面语特征的学习者口笔语语料库等各种类型的语料库,研究方向也从以往单一枯燥的语法、词汇和词典编纂扩展到涵盖二语习得、外语教学与研究、翻译理论、翻译实践、话语分析、错误分析和语言处理等更为专业和全面的诸多语言学研究的领域之中,吸引着越来越多的具有不同研究背景和研究方向的学者投入到语料库语言学的研究之中,使得语料库语言学得到空前的发展。
此外,国内以及国际间的各层次和领域的合作与交流也为语料库语言学的研究和发展创造了优越的环境。
一、外语教学与研究与语料库语言学以语料库为基础的外语教学研究始终是语料库语言学研究的主要领域,也一直是国内外语言学家和语言教育家关注的焦点。
在中国,语料库语言学与外语教学一直保持着紧密的联系。
首先,基于语料库的外语教学的两个最基本的问题是“教什么”和“怎么教”的问题。
关于这些问题,国际、国内的专家和学者纷纷给出了各自的理解。
Sinclair强调学习者可直接通过相关语料库资源,凭借相应的分析软件,分析观察词汇索引和扩展语境,从而自觉得形成对语言形式的归纳和自我发现。
此外,教师也可根据实际教学需求自建小型语料库或基于现有的大型语料库建立更为细致和专业的子语料库,并将其与实际的语言教学活动相结合,切实地体现语料库对语言教学的辅助作用。
《2024年语料库研究》范文
《语料库研究》篇一一、引言语料库作为一种资源丰富的语言数据集合,已成为语言学、语言学研究以及相关领域的热点研究对象。
它能够为语言分析、语言教学、翻译、词典编纂等多个领域提供支持。
本文将介绍语料库研究的重要性,并就当前语料库研究的现状进行梳理,进而分析其中存在的挑战和问题,并探讨未来的发展趋势。
二、语料库研究的现状1. 语料库类型及建设随着技术的进步,语料库建设日趋成熟。
根据不同领域和用途,语料库可大致分为通用型和专用型。
其中,通用型语料库如COCA、BNC等,涵盖了广泛的语言使用场景;专用型语料库则针对特定领域或主题进行收集,如法律、医学等。
此外,还有多媒体语料库和口语语料库等类型。
在建设过程中,研究者需考虑语料库的规模、代表性、时效性等因素。
2. 语料库应用领域语料库在多个领域得到了广泛应用。
在语言学领域,语料库为语言研究提供了丰富的数据支持;在翻译领域,语料库可帮助提高翻译的准确性和效率;在词典编纂方面,语料库为词汇的收集和释义提供了有力支持。
此外,在语言教学、自然语言处理等领域,语料库也发挥着重要作用。
三、当前挑战与问题尽管语料库研究取得了显著成果,但仍面临诸多挑战和问题。
首先,在语料库建设方面,如何确保数据的代表性和真实性是一个亟待解决的问题。
此外,随着技术的发展,如何利用人工智能等手段对语料库进行智能化处理和利用也是一大挑战。
其次,在应用方面,如何将语料库与实际需求相结合,提高应用效果也是一个难题。
此外,不同领域和行业对语料库的需求存在差异,如何满足这些不同需求也是一项挑战。
四、未来展望面对未来的发展,语料库研究将呈现以下几个趋势:1. 多样化与个性化:随着用户需求的多样化与个性化发展,未来的语料库将更加关注用户需求和实际应用场景的差异。
研究者需要设计更多类型的语料库来满足不同领域和行业的需求。
2. 智能化与自动化:人工智能技术的不断发展将促进语料库的智能化和自动化处理。
例如,利用自然语言处理技术对语料进行自动标注、分类和分析等操作,提高处理效率和准确性。
中国语料库研究的历史与现状
中国语料库研究的历史与现状推荐文章•汉语社会中识字社群的汉字字形思维例析热度:•结构主义语言学及其源流热度:•我国汉字识别研究的新进展热度:•关于汉语词汇层的研究热度:•“语法化”问题热度:中国语料库研究的历史与现状语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。
传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。
计算机出现后,人们可以把这些工作交给计算机去作,大大地减轻了人们的劳动。
后来,在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科——语料库语言学(corpus linguistics),并成为了自然语言处理的一个分支学科。
语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。
多年来,机器翻译和自然语言理解的研究中, 分析语言的主要方法是句法语义分析。
因此,在很长一段时间内,许多系统都是基于规则的,而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来,这样,这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言(sub- language)中获得一定的成功。
为了摆脱困境,自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计,以便采用一种基于统计的模型来处理大量的非受限语言。
不言而喻,语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论,从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。
本文首先简要介绍国外语料库的发展情况,然后,比较详细地介绍中国语料库的发展情况和主要的成绩,使我们对于语料库研究得到一个鸟瞰式的认识。
语料库语言学的应用及其在中国的发展趋势
语 料 库 其 收 集 的语 言 材 料 具 有 较 强 的 代 表 性 , 大 量 的 语 言 素 材 存储在语 料库 中按 照一定 的语 言分类原 则进行整 合在一起 , 从 而 方便 于和语言现象有关 的研究工作 。大量真实应用 的语 言素材 作 为 被 研 究 对 象 经 过 相 关 语 言 工 作 者 的定 量 分 析 , 进 而 探 究 发 现 语 言存 在于实际应用 当中的内在规律特征 。语料库 的重要 应用之
2 . 5用 于 语 言 教 学
语言资料库是运用 随机抽样 的方法 , 通过对人们实 际使 用的 、 具有一定代表特性 的 自然 出现 的真 实语 言材 料进行随机采样收 集
整理 , 这 些 语 言 片 段 或 者 文 本 素 材 按 照语 言 学 的特 定 原 则 进 行 编 组分类 , 从而形成的具有大量语 言使用信息 的语料 素材库 , 为相 关
2 . 语 料 库 语 言 学 的 应 用 2 . 1 用 于 语 言 研 究
语料库 以其计算机检索 的快捷和信息存储量Fra bibliotek的巨大广泛应用
于英语语言教学过程 中。运用语料库进行英语语 言的学习能够有 效地 引导学生开展 探究式学 习与发现式 学习 , 促使他 们在语料 库 中进行科学 的检索 、 思考与归纳 , 充分调 动起 学生学习英语 的积极 性与主动性 , 进一 步提 高他们学 习英语 的成效性 。另外 , 通过语料 库语言 学的教学方 法还能够有 效实现 师生之 间的交流与互 动 , 充 分发挥 学生的课堂 主体地位 , 为学 生学好英语 提供 了典型的语料 资源 。
语 料 库 语 言 学 的 应 用 及 其 在 中 国 的发 展 趋 势
国内语料库研究综述
国内语料库研究综述摘要本文旨在回顾国内语料库研究的发展历程、现状,并探讨未来研究方向。
通过分析相关文献资料,文章总结了国内语料库研究的主要成果、不足之处,并提出了针对性的建议。
本文旨在为语料库研究领域的学者提供参考,以推动国内语料库研究的发展。
关键词:语料库、国内研究、发展历程、现状、未来研究方向引言语料库是指为语言研究而收集的、有一定规模的、有代表性的语言材料集合。
自20世纪中期以来,语料库在国外得到了广泛应用,并在多个领域取得了显著的成果。
近年来,随着国内语言学、计算语言学等学科的快速发展,语料库在国内的研究和应用也逐渐受到重视。
本文将重点探讨国内语料库研究的现状、成果及未来研究方向。
研究现状1.国内语料库的发展历程和现状自20世纪80年代起,国内开始出现一些小型语料库的建设和研究,如国家语委现代汉语通用词库等。
随着计算机技术的不断发展,90年代中后期以来,国内开始大力推进语料库的建设和研究,涉及的领域也日益广泛。
目前,国内已经建立了一系列不同规模、不同类型的语料库,如中国传媒大学的中国广播电视媒体语言语料库、上海交通大学的中文文本分类语料库等。
2.基于不同领域语料库的研究成果和不足语料库在多个领域得到了广泛应用,如语言教学、词典编纂、语言政策研究等。
在语言教学领域,语料库可以提供真实的语言材料和语境,有助于提高语言学习者的兴趣和理解能力。
在词典编纂领域,语料库可以提供大量的实例和用法,有助于提高词典的准确性和实用性。
在语言政策研究领域,语料库可以提供真实的语言使用情况和发展趋势,有助于制定科学的语言政策和发展规划。
然而,国内基于不同领域语料库的研究成果尚不够丰富,且在某些领域还存在着研究空白。
例如,针对特定领域的语料库建设和研究尚不够深入,部分领域的语料库仍存在着规模较小、代表性不足等问题。
此外,针对语料库在二语习得、语言演化等领域的研究尚不够充分。
3.国内语料库在语言教学中的应用语料库在语言教学中的应用已经得到了广泛的认可。
语料库语言学的发展及研究现状
当代语言学(试刊)1998年第1期4-12页,北京语料库语言学的发展及研究现状丁信善1.0引言语料库语言学已经成为语言研究的主流。
基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。
这是J.Thomas等人1996年为祝贺语料库语言学的主要奠基人和倡导者G.Leech六十诞辰而出的语料库语言学研究论集的开场白。
近年来,对语料库语言学类似的评说频频见于导论和方法论的书及教科书中,它不仅仅是语料库语言学家们的自誉,而正在成为整个语言学界的共识。
2.0语料库语言学的定义关于语料库语言学的定义,现引述三例:a. 根据篇章材料对语言的研究称为语料库语言学。
(K.Aijmer&B.Aitenberg,1991,p.1)b. 基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。
(T.M c Enery&A.Wilson,1996,p.1)c. 以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。
(D.Crystal,1991,p.86)由上述几个定义可见,语料库语言学不是研究语言自身某个方面,而是一种以语料库为基础的语言研究方法。
它实际上包括两个方面:一是对自然语料进行标注,二是对已经标注的语料的研究和利用的方法。
从方法论的角度,它不仅可以用于研究语言系统的各个层面,而且可以应用于语言学之外的其他领域。
3.0语料库语言学的历史发展语料库语言学作为一种研究语言的方法,可以追溯到上个世纪,甚至更为久远。
现在一般以乔姆斯基转换生成语法的兴衰时间为参照,将其发展大致分为以下几个阶段:3.1语料库语言学的早期发展早期的语料库语言学指的是本世纪五十年代中期以前,即乔姆斯基提出转换生成语法理论之前的所有基于语言材料的语言研究。
此类研究主要集中在以下几个方面:(1)语言习得是应用语料研究方法较早且较普遍的领域。
19世纪70年代在欧洲兴起了儿童语言习得研究的第一个热潮,当时的许多研究就是基于父母详细记载其子女话语发展的大量日记的。
《2024年语料库研究》范文
《语料库研究》篇一一、引言语料库研究作为一门新兴的跨学科研究领域,已经逐渐成为语言学、计算机科学、人工智能等多个领域的研究热点。
语料库的建立和应用,为语言研究提供了丰富的数据资源,使得我们能够更深入地探索语言的奥秘,推动语言研究的快速发展。
本文将介绍语料库研究的重要性和应用价值,以及其发展现状和未来趋势。
二、语料库研究的重要性与价值1. 丰富语言资源语料库研究为语言研究者提供了丰富的语言资源。
通过收集大量的文本数据,我们可以了解不同地域、不同文化、不同时代的语言特点和使用情况,为语言研究和教学提供有力的支持。
2. 推动语言学研究发展语料库研究为语言学研究提供了新的方法和手段。
通过对语料库进行统计分析,我们可以发现语言的规律和特点,揭示语言的内在机制和演变规律,推动语言学研究的深入发展。
3. 促进跨学科研究语料库研究不仅在语言学领域有着广泛的应用,还涉及到计算机科学、人工智能、社会学等多个领域。
通过跨学科的合作和研究,我们可以将语料库应用于更广泛的领域,推动相关领域的快速发展。
三、语料库的建立与应用1. 语料库的建立语料库的建立需要大量的文本数据和先进的技术手段。
在收集文本数据时,需要考虑数据的来源、规模、质量等因素。
同时,还需要使用先进的技术手段对数据进行处理和标注,以便于后续的研究和应用。
2. 语料库的应用语料库的应用范围非常广泛,包括语言教学、机器翻译、自然语言处理、情感分析等多个领域。
通过应用语料库,我们可以更好地了解语言的特点和使用情况,提高语言教学的效果和机器翻译的准确性。
四、语料库研究的现状与未来趋势1. 现状目前,语料库研究已经取得了重要的进展和成果。
许多大型的语料库已经建立起来,为语言研究和应用提供了有力的支持。
同时,随着计算机技术和人工智能技术的不断发展,语料库的研究和应用也在不断拓展和深化。
2. 未来趋势未来,语料库研究将继续朝着更加深入和广泛的方向发展。
一方面,随着技术的不断进步和数据的不断增加,我们将能够建立更大规模、更全面的语料库,为语言研究和应用提供更加丰富的数据资源。
国内外英语学习者语料库的发展现状与方法
三、研究结果与讨论
为了进一步探讨这些现象的原因,我们对比了本族语者和学习者在写作中使 用的词块。发现本族语者更加倾向于使用灵活的搭配,而学习者则更倾向于使用 固定的词组。我们认为,这可能是由于学习者在语言学习过程中过于依赖记忆而 非语法规则所致。
四、教学启示
四、教学启示
本研究结果表明,中国高级英语学习者在英语写作中使用的词块存在一定的 问题。因此,教师在教学过程中应注意以下几点:
主题词的发展趋势
主题词的发展趋势
随着技术的不断进步,主题词的发展趋势也日益明显。特别是人工智能和自 然语言处理技术的快速发展,对主题词的研究和应用将产生深远影响。以下是未 来主题词可能的几个发展趋势:
主题词的发展趋势
1、自动主题词提取:利用人工智能技术,可以自动从大规模文本数据中提取 出关键主题词,提高主题词提取的效率和准确性。
五、展望未来
五、展望未来
在总结前人研究的基础上,我们对国内外英语学习者语料库的未来发展进行 展望。首先,随着技术的不断发展,多模态数据处理能力将得到提升。这将使我 们能够更加全面地了解英语学习者的语言使用情况,进一步深化对语言学习的认 识。其次,语料库的标准化和数据偏差问题将得到更好的解决,提高研究的可靠 性和准确性。
2、主题词排序:根据主题词在文本中出现的频率进行排序,可以帮助研究者 了解语料库文本中的重点和趋势。
主题词的应用
3、主题词共现分析:通过分析主题词与其他词汇的共现关系,可以挖掘语料 库中文本之间的和语义关系。
主题词的应用
4、主题词情感分析:通过判断文本中主题词的情感倾向,可以对语料库中的 文本进行情感分类或评估。
3、语义丰富性:主题词具有丰富的语义信息,能够表达多种含义和概念,有 助于研究者深入挖掘语料库中的信息。
语料库语言学综述
语料库语言学综述【摘要】语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。
语料库分为很多类型,现在已有相当数量的语料库可供语言研究使用。
语料库语言学作为语言学的一个新的分支,当然离不开语料库。
本文解释了语料库语言学的定义及其内涵,介绍了英语语料库的发展和现状,并对语料库语言学的未来发展进行了展望。
【关键词】语料库;语料库语言学;发展一、引言语料库自从20世纪60年代初出现至今,已经经历了半个多世纪的发展。
随着计算机技术的不断进步,语料库的研究已经不再是某些人的专利。
同时语料库的发展也正在以惊人的速度对语言研究的很多领域产生着愈来愈大的影响。
语料库语言学,是一种基于语料库的全新的研究技术和方法。
可以毫不夸张地说,语料库语言学开辟了语言研究的一个全新的领域。
本文拟对语料库的建设,语料语言学的研究特点,语料库及语料语言学的发展现状以及存在问题等角度对于语料库及语料语言学进行一次梳理。
二、理论回顾1.什么是语料库、语料库语言学?语料又称为素材,是自然发生的语言材料包括书面语和口语的集合。
“可以用来作为描述一种语言的出发点或用于证实有关一种语言的假设的手段”(Crystal,1991)。
语料库(corpus)亦称语库,是存放语言材料的仓库。
语料库是收集并科学地组织起来的语言材料数据库,这种材料是某种语言中自然出现的,可以是书面的,也可以是口头的(申厚坤,2005)。
通常地讲,语料库就是指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。
2.语料库及语料库语言学的的产生与发展。
有人认为语料库研究的发展经历了三个阶段:运用语料库进行语言研究最早可以追溯到19世纪末,当时的研究手段还只停留在卡片制作和人工检索的阶段,其成果也仅用作编纂语法书或词典的参考。
20世纪60年代至90年代是语料库语言学发展的第二个阶段,世界各地都开始建设自己的语料库并且开始跨国联合建立国际性的语料库。
我国语料库语言学现状研究
· 183 ·
文艺探究
WEN YI TAN JIU
表 2 语料库语言学与外语教学论文 分类 篇数 百分比 词汇 31 34.4% 语法 6 6.7% 写作 7 7.8% 阅读 1 1.1% 听力 1 1.1% 教材编写 1 1.1% 测试 1 1.1% 教学模式 3 3.3% 课堂教学 5 5.6% 自主学习 2 2.2% 综合类 30 33.3%
从表 1 可以看出,16 年间,论文发表数量逐年 递增趋势,2000-2009 年这 10 年间,以“语料库语 言学”为题名的论文平均数量为每年 9.6 篇,2010 年 是我国语料库语言学发展的一个转折点,论文的数量 急速增长,2010-2015 年这六年间论文平均数量为每 年 37.7 篇。2009 年 4 月 16 日在上海交通大学外国语 学院成立的“中国语料库语言学研究会”以及首届全 国性学术研讨会“2011 中国语料库语言学大会”的 召开对我国语料库的语言学研究以及学术交流具有重 大意义,也是 2010-2015 年间论文数量的激增、我国 语料库语言学蓬勃发展的重要原因之一。 (二)研究内容严重失衡 第一,13 种外语类核心期刊论文以介绍型内容 为主。在 318 篇论文中,其中 50 篇论文来自于 13 种 外语核心期刊,介绍型内容占 66%,其中会议类论文 16 篇(占 32%),如《2009 年第五届语料库语言学 国际会议简述》,图书评述类论文 9 篇(占 18%), 如《约翰·辛克莱“语料库语言学的发展与前景”内 容导读》;文献综述类论文 6 篇(占 12%),如《基 于语料库的英语教学与研究综述:成就与不足——根 据 22 种语言学类 CSSCI 来源期刊近 30 年的统计分 析》;专家访谈类论文 2 篇(占 4%)。 第二,其他期刊论文中介绍型内容以综述类论 文为主,研究型内容以教学研究类论文为主。其他类 论文 268 篇, 介绍型内容主要为综述类论文共 67 篇 (占 24.9%)。较之外语类核心论文,研究型内容论文占 主体部分,主要分为四个研究主题,其中语料库语言 学与外语教学 90 篇(占 33.5%),语料库语言学与 文学研究 11 篇(占 4.1%)。语料库语言学与翻译研 究4篇 (占 1.5%) , 语料库语言学与话语分析 12 篇 (占 4.5%)。从中可以发现,我国语料库语言学的发展与 教学研究结合紧密,与翻译研究的结合较少。 笔者对 90 篇语料库语言学与外语教学结合的论 文进行细分(见表 2),可以发现语料库语言学结合
语料库和知识库的研究现状
语料库和知识库研究现状2015-12-9摘要:语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源,它与自然语言处理有着相辅相成的关系,是用统计语言模型的方法处理自然语言的基础资源。
知识库广泛应用于信息检索、机器问答系统、自动文摘、文本分类等领域,为进行大规模的真实性文本的语义分析提供了有利的支持,它也成为自然语言处理不可或缺的基础资源。
由于语料库和知识库的广泛应用,如今国内外对语料库和知识库的研究给与高度的重视,经过过去几十年的发展,各国在语料库和知识库的建设和应用方面都取得了不少成果。
本文通过对语料库与知识库相关文献资料的搜索整理,重点介绍目前国内外在语料库和知识库方面的研究现状。
关键词:语料库;知识库;研究现状1前言语料库是指按照一定的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言文本或者说话片段而建成的具有一定容量的大规模电子文本库[1]。
而知识库是知识工程中结构化、易操作使用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。
语料库和知识库在传统语言研究、词典编纂、语言教学、自然语言处理等领域有重要作用,所以自从20世纪60年代第一个现代意义上的语料库——美国布朗语料库(Brown Corpus)诞生开始,大批国内外的专家学者致力于语料库和知识库的研究,近年来国内外对于语料库知识库的研究取得了重大的突破,形成了规模不一的各种语料库和知识库,并且涌现了众多有关语料库和知识库的专着、论文等。
对于语料库和知识库发展现状的总结研究,不仅可以帮助人们清楚的了解语料库和知识库当前发展的形势,对今后语料库知识库的发展具有一定的指导作用,而且对于应用语料库知识库发展自然语言处理等领域具有重要意义。
2研究意义从现代意义上第一个语料库出现以来,语料库在国内外的发展均有长足的进步,不但其规模越来越大,加工深度越来越深,而且有关语料库的应用也越来越广泛[2]。
语料库语言学的研究现状和发展展望
使 得 对于 语 言学 的 研究 又 基于 现 实
,
学科 相 结合 的 趋势 及翻译学等
。
如语 言 教学
政治 学
、
社会学
索 不够
。
从 这 一 点 来看
语料 库 语言 学 对于 语 言
最 先 与 语 料 库 相 结 合 并 且 研 究数 量
,
四
、
结语
,
学 研究 方法 的 影 响要胜于 它 对语 言 学理 论 研究 的 影 响
。
与
二 十 世 纪 中后 期 出
。
语语 料 库研 究 为主 料库
,
但 国 内已 经 建 立 了 多 个汉 语 语
,
专 业相 关 的专 用 语料 库
现 了一 个新 兴 的学 科 即 语 料 库语 言 学
语 料库 是指
其 中的 大多 数 是基 于 文本 建 立的
。
基 于 口语
语 料 库 语 言 学 跨 学 科 研究 将 进 一 步 增 强
;
发 展 展望
种
,
包 括通 用 语料 库
、
、
专 用 语料 库
。
平 行 语料 库
、
包 含更 多 的材 料
如 声音
,
、
图片
和视 频 等
。
同时
,
可 比语 料库 随 着 人类 进 入 科 技 时 代
,
学 习 者 语料 库
,
语 料 库主 要 还是 以 英
也 会有 多维 度 的语 料库 专 门行 业
、
即 不 同领域 的语 料库
认知语
技 能 够 发 现 语 料 之 间存 在 的 规 律
库 的建 立只 存 在小 型 的研 究 中不 给 你不 成 规模 和体 系
近十年国内语料库语言学研究综述
近十年国内语料库语言学研究综述一、本文概述近年来,随着信息技术的飞速发展和大数据时代的来临,语料库语言学在国内语言学界的影响力逐渐增强。
本文旨在全面梳理近十年国内语料库语言学研究的发展脉络,总结研究成果,分析存在的问题,并展望未来的发展趋势。
本文将从语料库的建设、语料库语言学理论、语料库在语言教学和研究中的应用等方面展开综述,以期为国内语料库语言学的研究者提供一个清晰的研究全景和参考框架。
通过对近十年国内语料库语言学研究的系统回顾,本文旨在推动语料库语言学在国内的深入发展,为语言学研究的创新提供新的视角和方法。
二、语料库建设与研究近十年,我国语料库语言学在语料库建设方面取得了显著进展。
语料库作为语言学研究的基础资源,其规模和质量直接影响到研究的深度和广度。
在这一时期,我国学者和机构积极投入语料库的建设工作,不仅扩充了语料库的种类和数量,还提高了语料的质量和标注精度。
在语料库种类方面,除了传统的通用语料库外,还出现了专门针对某一领域或语体的语料库,如法律语料库、医学语料库、社交媒体语料库等。
这些专业语料库为相关领域的研究提供了丰富的数据支持。
在语料库规模方面,随着大数据技术的发展,语料库的规模不断扩大。
大型语料库如“国家语委现代汉语语料库”“古代汉语语料库”等,为语言学研究提供了海量的语料资源。
在语料质量方面,我国语料库建设注重语料的真实性和代表性。
通过严格的语料采集和筛选流程,确保语料的质量和准确性。
同时,采用自动化和半自动化的方法对语料进行预处理和标注,提高了语料的处理效率和质量。
在语料库研究方面,我国学者充分利用语料库资源进行各种语言学研究。
通过语料库的统计分析,揭示语言现象的本质和规律。
还利用语料库进行语言对比研究、语言演变研究、语言教学研究等,推动了语言学研究的深入发展。
近十年我国语料库语言学在语料库建设与研究方面取得了显著成就。
语料库的规模和质量不断提升,为语言学研究提供了强大的数据支持。
语料库语言学在外语教学与研究中的应用
语料库语言学在外语教学与研究中的应用语料库语言学是指基于大规模语言样本的语言研究方法。
它通过对现实语料库进行分析和处理,旨在揭示语言的内在规律、认知机制和社会功能。
在外语教学与研究中,语料库语言学的应用主要体现为以下几个方面:一、词汇教学。
语料库可以用来提取常用词汇、搭配、习惯用语等,帮助学习者更好地掌握词汇使用方法以及了解实际语言使用情况。
二、语法研究。
语料库可以用来研究语法结构的频率、变异和演化情况,为外语教学提供科学依据。
三、语用研究。
语料库可以用来分析语境下的语言使用情况,研究语用规律以及对话交际策略,有利于外语学习者更好地理解和运用语言。
四、语音研究。
语音是语言的重要组成部分,语料库可以用来研究语音特征的变化、声调模式的差异等,帮助外语学习者更好地掌握发音技巧。
总之,语料库语言学在外语教学与研究中的应用十分广泛,为提高外语学习效果和推进语言研究提供了有力的工具和方法。
五、语料库语言学的意义语料库语言学是一门基于大规模语言样本(即语料库)的研究方法,旨在揭示语言的真实使用情况。
语料库语言学研究的意义可以从以下三个方面来考虑:一是对语言本身的认识有所助益,二是对外语学习与教学有所帮助,三是对跨学科领域的研究有所启示。
(一)对语言本身的认识有所助益语料库语言学研究可以帮助人们更加客观地认识语言本身。
语言是人类思维和文化的产物,它不仅具有表达和交流的功能,同时也代表了人类文化的精华。
然而,传统的语言研究方法往往只是通过少量的语言样本来推断语言规律,这种方法存在着很多局限性,比如受到研究者主观意识的影响,无法代表语言的全貌等等。
而语料库语言学方法则采用海量的语料库数据来研究语言现象,使得研究结果更加客观、真实、可靠。
通过语料库语言学研究,可以更好地了解语言的本质及其演变规律,从而更加准确地描述和解释语言现象。
(二)对外语学习与教学有所帮助语料库语言学研究还可以为外语学习和教学提供帮助。
语言学习者在学习一门外语时,需要掌握大量的词汇、语法和句型等知识,同时也需要了解这些知识在语境中的运用情况。
近十年国内语料库语言学研究综述
近十年国内语料库语言学研究综述一、概述近十年来,语料库语言学在国内的研究取得了显著的发展和突破。
随着信息技术的飞速进步和大数据时代的到来,语料库语言学在语言学研究中的地位日益凸显。
它基于大规模真实文本数据,运用统计学和计算机技术,对语言现象进行定量和定性的分析,为语言学研究提供了全新的视角和方法。
国内语料库语言学的研究范围广泛,涉及语言结构、语言变异、语言使用、语言教学等多个领域。
研究者们利用语料库资源,深入探讨了词汇、语法、语义、语用等层面的语言问题,揭示了语言现象的内在规律和特点。
同时,随着语料库建设的不断完善,语料库语言学在国内的应用也愈加广泛,为自然语言处理、机器翻译、信息检索等领域提供了强大的数据支持和技术基础。
近十年内,国内语料库语言学的研究呈现出以下几个特点:一是研究方法的多样化,不仅注重传统的统计分析方法,还引入了机器学习、深度学习等先进技术二是研究领域的拓展,语料库语言学不再局限于传统的语言结构研究,而是向语言教学、语言规划等应用领域延伸三是语料库资源的不断丰富,各类专题语料库、多语种语料库等不断涌现,为语料库语言学的研究提供了更为丰富和多样的数据来源。
总体而言,近十年国内语料库语言学的研究取得了丰硕的成果,不仅推动了语言学理论的发展,也为语言实践提供了有力的支持。
未来,随着技术的不断进步和语料库资源的日益丰富,语料库语言学在国内的研究将更加深入和广泛,为语言学研究和社会应用带来更多的创新和突破。
1. 语料库语言学的定义与重要性语料库语言学,作为一种独特的语言学研究方法,主要依赖于大规模、结构化的语言数据集合,即语料库,来进行语言分析和研究。
它通过对真实语料进行定量和定性的分析,旨在揭示语言的实际使用情况和内在规律。
近十年来,随着信息技术的飞速发展和语料库规模的日益扩大,语料库语言学在国内语言学界的地位逐渐提升,其重要性也日益凸显。
语料库语言学的定义在于其研究方法和数据基础。
其研究方法强调实证和量化,通过计算机技术和统计手段对语料库中的语言数据进行处理和分析,进而揭示语言的实际使用情况。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
当代语言学(试刊)1998年第1期4-12页,北京语料库语言学的发展及研究现状丁信善1.0引言语料库语言学已经成为语言研究的主流。
基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。
这是J.Thomas等人1996年为祝贺语料库语言学的主要奠基人和倡导者G.Leech六十诞辰而出的语料库语言学研究论集的开场白。
近年来,对语料库语言学类似的评说频频见于导论和方法论的书及教科书中,它不仅仅是语料库语言学家们的自誉,而正在成为整个语言学界的共识。
2.0语料库语言学的定义关于语料库语言学的定义,现引述三例:a. 根据篇章材料对语言的研究称为语料库语言学。
(K.Aijmer&B.Aitenberg,1991,p.1)b. 基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。
(T.M c Enery&A.Wilson,1996,p.1)c. 以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。
(D.Crystal,1991,p.86)由上述几个定义可见,语料库语言学不是研究语言自身某个方面,而是一种以语料库为基础的语言研究方法。
它实际上包括两个方面:一是对自然语料进行标注,二是对已经标注的语料的研究和利用的方法。
从方法论的角度,它不仅可以用于研究语言系统的各个层面,而且可以应用于语言学之外的其他领域。
3.0语料库语言学的历史发展语料库语言学作为一种研究语言的方法,可以追溯到上个世纪,甚至更为久远。
现在一般以乔姆斯基转换生成语法的兴衰时间为参照,将其发展大致分为以下几个阶段:3.1语料库语言学的早期发展早期的语料库语言学指的是本世纪五十年代中期以前,即乔姆斯基提出转换生成语法理论之前的所有基于语言材料的语言研究。
此类研究主要集中在以下几个方面:(1)语言习得是应用语料研究方法较早且较普遍的领域。
19世纪70年代在欧洲兴起了儿童语言习得研究的第一个热潮,当时的许多研究就是基于父母详细记载其子女话语发展的大量日记的。
据悉,这些日记作为原始材料,不仅是当时W.Preyer和W.Stern等人的理论假说的依据,而且时至今日仍是许多学者的研究语料之一。
自本世纪30年代以来,语言学家和心理语言学家提出了众多关于儿童在不同年龄段的语言发展模式。
这些模式大都是建立在对儿童自然话语大量材料的研究分析上的。
(2)利用自然语料开展音系研究,在西方当首推美国早期的结构主义语言学家,如F.Boas和E.Sapir等人。
他们注重 野外工作 ,强调语料获取的自然性和语料分析的客观性。
这些都为后来的语料语言学所继承和发展。
本文承蒙哥本哈根大学翻译与词典学研究中心主任C.Dollerup博士提供有关欧洲语料库网络的材料,特此致谢。
(3)方言学从其产生以来就与语料结下不解之缘。
在西方,方言学脱胎于19世纪的历史比较语言学,最初兴趣主要是研究运用直接法所获取的有关单音不同分布的事实来绘制方言地图。
方言研究者手持笔记本,后来是手提录音机,记下或录下他所遇到的一切方言材料。
此种取样法至今仍为某些业余研究者所用,它对于研究方言词汇的分布有一定价值。
(Francis,1983:49-50)在我国,运用语料的方法远至周秦。
据应劭∀风俗通义序# 周、秦常以岁八月遣轩之使,求异代方言 。
我国汉语方言学第一部著作∀方言#就是这种方法的产物。
据载,扬雄非常喜爱方言,他利用考廉(略等于后代的举人)和士兵们集中在首都的方便,普遍地进行走访,不断积累材料,坚持编纂整理,经过27年的艰苦努力,终成∀轩使者绝代语释别国方言#。
3.2新的语料库语言学1959年,R.Quirk着手建立 英语用法 语库(Survey of English Usage)。
该项目旨在收集大量的风格题材各异的语料作为对英国英语口语和书面语进行系统描写的基础。
几乎与此同时,以N.Francis和H.Kucera为首的一批语言学家和计算机专家汇集在美国的布朗大学合力攻关,并于1961年建成了当今最早的机读语料库∃布朗语库(Brown Corpus)。
这两个库可以说是现代语料库语言学的开端。
3.3语料库语言学与乔姆斯基转换生成语法50年代中前期,在实证主义和行为主义思潮的影响下,语言研究总体上是经验主义占主导,这种氛围无疑促进了对语料的重视,使其成为当时的热点之一。
特别在美国,以Z.Harris等人为代表的后布龙菲尔德结构主义语言学家视语料为语言学的唯一研究对象。
在他们看来,直觉证据是第二位的,是靠不住的,应该放弃。
但是这种状况随着乔姆斯基1957年∀句法理论#及其以后的一系列论著的发表被根本转变。
笛卡尔主义的理性主义占据主导地位,经验主义几乎无立足之地,被视为经验主义产物的语料研究自然被完全否定。
乔姆斯基及其转换生成语法学派否定早期语料研究主要有两点:(1)语料研究的方向有误。
乔姆斯基认为,语言研究的主要目标是建立一种能反映说话人心理现实的语言认知模式,简言之,语言能力模式。
因为只有语言能力才能对说话人的语言知识作出解释和描述,而语言运用只是语言能力的外在证据,它往往会因超语言因素的影响而发生变化,因此,它不能确切地反映语言能力。
语料从本质上只是外在化的话语的汇集,基于语料的研究所建立的经验模式充其量只能对语言能力作出部分解释,因而语料不是语言学家从事语言研究的得力工具。
(2)语料的不充分性,乔姆斯基在∀句法理论#一书中首次发现英语短语结构规则具有递归性。
这种递归性表明,自然语言的句子是无限的,而作为语料基本单位的句子的无限性决定了语料是难以穷尽的,换言之,语料永远是不完整的,不充分的。
转换生成语法学派的上述批评从根本上改变了50年代结构主义语言学的研究方向。
在此后的近20年里,整个语言学界几乎唯直觉是从,唯思辨独尊,语料研究方法几乎名誉扫地。
但是语料研究并未完全终止。
除了R.Quirk和N.Francis等语言学家凭其非凡的学术勇气,顶着无形的压力,继续其研究项目并不断取得进展之外,另有十多项小的研究也在展开,特别是1975年,以J.Svartvik为首的一批语言学家汇集于瑞典的隆德大学,开始对R.Quirk语料的口语部分作韵律标注,并最终实现了机读,建成了伦敦∃隆德语料库(London-Lund Corpus)。
对此,G.Leech (1991:9)认为 作为英语口语研究的语料源,它至今仍无与伦比。
上述项目的持续进行为80年代语料库语言学的复兴奠定了基础。
4.0语料库语言学的复兴在相对沉寂了近20年后,语料库语言学自80年代以来,迅猛发展,空前繁荣,主要表现是: 4.1第二代语料库的建成以伯明翰英语语料库为代表的一大批语料库80年代以来相继建成。
这些机控语库,尽管规模、设计和研究目的各异,但大多采用了较新的KDEM(Kurzweil Data Entry Machine)光电符号识别技术,使语料的编码和编辑得以从繁重的人工输入中解脱出来,大大加快了语料的标注处理,促进了语料的分析和利用,故称第二代语料库。
根据美国加州大学伯克莱分校的语言学家J.Edwards 1993年的不完全统计,80年代以来建成并投入使用的各类语料库达50多个%,按语种分布如下:英语24法语4意大利语2丹麦语2德语7西班牙语2芬兰语2瑞典语2此外,还有葡萄牙语,南斯拉夫语和爱脱尼亚语等也都建立了语库。
在这些语料库中,规模较大且特点较鲜明的有:(1)兰卡斯特∃奥斯陆/卑尔根语库(The Lancaster-Oslo/B ergen,简称LOB)。
在G.Leech的领导下,70年代始建,1983年建成。
包括五百个语篇,每个语篇约两千词。
其数据模式与布朗语料库相同,但有其独到之处:可以比较不同的英语文体。
(2)法语语料库(Tresor de la Langue Francaise,简称TLF)。
该库是法国国家科学研究中心与美国芝加哥大学的合作项目,语料包括从17至20世纪书面法语各种文体的两千个语篇,词汇量达到1.5亿,有关数据已制成光盘,并可通过UNIX软件系统查阅。
(3)赫尔辛基历史英语语料库(The Helsinki Corpus of Historical English)。
该库是以M.Rissanen 等为首的一批语言学家在赫尔辛基大学所建。
语料包括自850至1720年这一时期的各类英语语篇,并以每百年分段,词汇量达1.6千万。
作为第一个历时语库,它对于从社会语言学、方言学及语用学角度研究英语的变迁均具有重要作用。
(4)国际英语语料库(The International Corpus of English,简称ICE)。
该库于1988年由伦敦大学学院英语系承建,旨在为从事世界范围内英语的民族变体的比较研究提供数据。
语料分别取自所有英语国家,并采用统一的分类和编码系统。
每个国家的语料字数限定一百万,口语和书面语各占一半。
语料取样时间限定在1990∃1993年之内。
语料采样对象为18岁以上接受英语教育成长起来的成年人。
4.2基于语料的研究项目增多大批语料库的建成极大地促进了基于语料的研究项目的迅速开展。
下表的统计数字就充分说明了这一点:1959∃1991年语料研究项目统计表(据Johansson,1991:312)起止年限研究项目数1959∃1965101966∃1970201971∃1975301976∃1980801981∃19851601986∃1991320%有的语料库语言学家主张区分语料库(corpus)和语篇库(textbank),认为二者在规模、构成、使用目的及其代表性诸方面均有差异。
本文未作严格区分。
事实证明,机控语库是开展大范围语言研究的极好料源,因为它所提供的语料较之先前的材料更具有真实性,其层级结构更加明晰,因而更有助于对语言的不同层面进行描写研究,更有助于对不同语体的比较研究和开展量化与概率统计研究。
上述的许多研究项目取得重要成果,有的深化了原有的研究,有的则是拓宽了原有的研究领域。
如J.Svartvik(1996)和M.Halliday(1991)等人的概率语法研究;G.Tottie(1991)的英国英语和美国英语话语风格研究以及J.Sinclair(1985)等人关于英语搭配的量化研究等。
80年代以来英语语料库语言学复兴的原因,近年来多有评说,概而言之,主要有两条:(1)计算机科学的飞速发展与计算机技术的迅速普及和应用为语料库语言学的复兴提供了物质基础。
80年代以来语料库语言学的发展进入了一个良性循环:计算机程序和软件的不断开发应用加快了语料库的建设,提高了语料的处理能力和层次;大量经过加注的语料的可得又促进了语料研究和利用;研究的深入转而又导致更为先进的研究方法和语言学模式的产生,许多先前需要人工处理的工作现在可以通过计算机程序及其软件自动或半自动地完成。