语料库语言学简史
语料库的发展历程
![语料库的发展历程](https://img.taocdn.com/s3/m/120a97ec19e8b8f67c1cb996.png)
0.2 发展历史与现状
语料库语言学的发展历史,大致可以分为两个时期:
计算机化以前时期,可称之为传统语料库时期 计算机化以后时期,可称之为现代语料库时期
20世纪 50年代Chomsky的影响 第一代(1970- 80年代) 第二代(1980- 90年代) 第三代(1990年代) ?第四代(21世纪)
0.2.2 计算机化的语料库(现代语料库)
第二代语料库
朗文语料库(Longman Corpus Network)
商用语料库,建于上个世纪80年代 由三个大的语料库组成
朗文 /兰开斯特英语语料库(Longman/Lancaster English Language Corpus,即 LLELC) 朗文口语语料库(Longman Spoken Corpus,即 LSC) 朗文英语学习者语料库(Longman Corpus of Learners’ English ,即 LCLE)
CORPUS LINGUISTICS
0.1 语料库语言学的定义 语料库(corpus,复数形式为corpora),顾名思义就 是存放语言材料的仓库(或数据库)。而语料库语 言学则是一种以语料库为基础的语言研究方法,它 包含两层含义:
— 利用语料库对语言的某个方面进行研究,也就是说“语料 库语言学”不是一个新学科的名称,而仅仅反映了一个新 的研究手段。 — 依据语料库所反映出来的语言事实对现行语言学理论进 行批判,提出新的观点或理论。
CORPUS LINGUISTICS
0.2.2 计算机化的语料库(现代语料库)
第二代语料库
COBUILD语料库(Collins Birmingham University International Language Database) 英国国家语料库 国际英语语料库
语料库语言学简介
![语料库语言学简介](https://img.taocdn.com/s3/m/8bdc1e1a2bf90242a8956bec0975f46526d3a75b.png)
语料库语言学简介语料库语言学是指利用语料库(一种大规模的文本数据集合)进行语言学研究的方法和理论。
通过构建、标注和分析语料库,可以揭示语言在不同层面上的特征和规律,为自然语言处理、机器翻译等领域提供基础和支持。
语料库语言学的研究内容包括:语言的音系、形态、句法以及语义等方面;语言的变异、演化和变化;语言使用者的使用习惯、语言背景和社会属性等。
语料库语言学的主要方法包括:语料库的构建和管理、语料库的标注和注释、语料库的查询和分析、语料库的应用和评估等。
语料库语言学的应用领域包括:机器翻译、信息检索、语音识别、文本分类、自然语言生成等。
此外,语料库语言学还被广泛应用于各种语言教学、语言规划和语言政策制定等领域。
总的来说,语料库语言学已经成为现代语言学和自然语言处理领域不可或缺的一部分,对于研究和应用语言都有着重要的意义。
一、语料库语言学的意义(一)定义和概述语料库语言学是指利用计算机对大规模语料库进行统计学分析、计算和比较,从而研究语言规律和现象的语言学方法。
语料库是指收集、整理、储存在计算机中的自然语言文本,包括书面文本和口语文本。
语料库语言学旨在通过对语言数据的分析,揭示语言的内在规律和现象,为语言学、语言教学、翻译等领域提供科学依据。
(二)语料库语言学的历史语料库语言学起源于20世纪50年代的美国,当时ChomSky等人提出了生成文法理论,但是这个理论无法解释自然语言的很多现象。
50年代后期,美国普林斯顿大学的SinClair教授提出了使用实际语言数据进行语言研究的观点,并开始编制语料库,由此开启了语料库语言学的先河。
之后,随着计算机技术的发展,语料库语言学得以快速发展,成为现代语言学研究和应用的重要领域。
二、语料库语言学的重要性(一)提供真实语言数据语料库收集大量的自然语言文本,包括书面语和口语,具有代表性和真实性。
这些数据包含了语言使用中的各种现象和规律,是研究语言的最基本素材。
(二)揭示语言规律和现象语料库语言学可以对语言数据进行分析、计算和比较,从而揭示语言的内在规律和现象。
语料库语言学
![语料库语言学](https://img.taocdn.com/s3/m/8386a97c195f312b3069a540.png)
我们认为较为准确全面定义:
语料库(corpus 或corpora [复数]) :是指按 照一定的语言学原则, 运用随机抽样方,收 集自然出现的连续语言运用文本或话语片 段而建成的具有一定容量的大型电子文本 库。
语料库语言学:在文本语料的基础上进行 语言研究的一门学科。
语料库语言学的研究对象
语料库语言学是以语料库中收集储存的真实语言材 料做为唯一的研究对象,以语言现象出现的概率为 依据。因此,语料库语言学为语言学研究提供了一 种全新的研究思路。一个合格的语料库必须以电子 计算机为载体来存放语言材料,这些存放在电子计 算机中的语言材料是在语言的实际使用中真实出现 过的。因此,它们可以如实地反映语言现象,克服 语言学家观察语言现象时的主观性。
(7)语料库语言学与语用学和语篇分析。语料库 常常是把话语从上下文或语篇中分离出来,因此
其所收语料在很大程度上脱离了上下文或社会背
景,而语用学和语篇分析对于场景和上下文又具
有一定的依赖性。故以语料库为基础的语用或语
篇研究相对较少,但语料库为这些领域所作的贡
献是不可否认的。语用学及相关领域的研究通常 是以会话为基础的,如伦敦—伦特语料库 (London - Lund Corpus) 和柯林斯出版公司与伯 明翰大学联合开发的“英语库”( The Bank of Eng2lish ,简称BOE) ,前者收集的是日常会话, 后者的口语部分包括日常会话会议、讨论、采访、 电台广播等。
3、语料库语言学与辞典编纂
语料库不仅能够提供更完备和详尽的关于词义和 词汇搭配的信息,而且利用语料库中的频率统计 可以直观的反映词汇用法的使用情况。如英国考 林斯出版社和伯明翰大学编辑出版的《国际通用 词典》在很大程度上打破了词典编撰的传统,从 词条的选定及解释、用法到释义的先后顺序等都 依据了由2亿词次的COBUILD语料库中统计出的 频率。由于语料库的素材来自实际使用的语言, 利用其素材作为词典的例句更具真实性和准确性。 利用语料库编撰词典不仅能反映语言的真实变化, 而且编撰周期也会大大缩短。
浅谈语料库语言学在的应用以及在中国的发展趋势
![浅谈语料库语言学在的应用以及在中国的发展趋势](https://img.taocdn.com/s3/m/d1b6398084868762caaed5dd.png)
浅谈语料库语言学在的应用以及在中国的发展趋势一、语料库语言学的兴起与发展语料库语言学是基于大量真实的语言资料,从调查语言信息的分布频率入手来研究语言在现实使用中的规律和模式。
自20世纪中后期,电脑被大量使用在语料的存储上,兴起了专门针对大规模储存于计算机里的语料库所进行的研究,自此语料库语言学进入了现代语料库语言学时期。
由于电脑语料库容量大、语料真实、检索快捷,它在现代语言学研究和语言教育中正发挥着越来越重要的作用。
在我国,从20世纪20年代开始,有学者为制定基础汉字字表开始建立文本语料库;70年代末以来,汉语现代文学作品语料库(1979年)、现代汉语语料库(1983年)等机器可读语料库开始建设。
90年代后,以《人民日报》光盘数据库、北大语料库为代表的大型汉语语料库日益发展,语料库成为研究中文信息处理的基本语言资源。
在英语语料库建设方面,杨惠中教授80年代主持建成的上海交通大学科技英语语料库(JDEST),是当时世界上第一个同类语料库,也是国内最大最完备的英语语料库之一。
1996年广州外国语学院开始建立中国学生交际英语语料库。
此外由广东外语外贸大学桂诗春教授和上海交通大学杨惠中教授牵头开发的“中国学习者语料库”(CLEC)于1999年建成,该语料库广泛收集了包括我国中学生、大学生在内的一百多万词的各种书面语资料,并对所有的语料进行语法标注和言语失误标注,对研究中国学习者的英语特点具有开创性意义。
二、语料库语言学发展趋势语料库语言学研究的发展总是以语料库的建设为基础的。
没有语料库的建设,语料库语言学所进行的研究只能是纸上谈兵。
近十多年来,国内语料库的建设取得了一定的成就,主要建设的语料库有英语学习者语料库、平行语料库、特殊英语语料库、汉语语料库四种类型。
(一)英语学习者语料库。
其中包括书面语和口语。
有广东外语外贸大学和上海交通大学合作建设的中国学习者英语语料库CLEC,100万词次;上海交通大学建设的大学英语学习者口语语料库COLSEC,5万词次;香港科技大学建设的香港科技大学学习者语料库HKUST Learner Corpus;南京大学建设的中国英语专业语料库CEMC,148万词次;南京大学建设的中国英语学习者口语语料库SECCL,100万词次;华中科技大学建设的硕士写作语料库MWC,12万词次。
语料库语言学的理论解析
![语料库语言学的理论解析](https://img.taocdn.com/s3/m/4564a162492fb4daa58da0116c175f0e7cd1192e.png)
一、图式理论应用
3、形式图式:形式图式是指学生对所学语言的语篇结构、修辞手法和表达方 式等方面的掌握程度。在外语教学中,教师应注重培养学生的语篇分析能力,帮 助他们了解不同语篇类型的结构特点和修辞手法,以提高他们的口语和写作能力。
二、语料库语言学在外语教学中 的应用
二、语料库语言学在外语教学中的应用
英语语料库语言学的发展与国际语料库语言学年会ICAME
在今年的ICAME年会上,来自世界各地的学者、专家和从业者齐聚一堂,共同 探讨语料库语言学的未来发展。在会议上,一些领先的英语语料库研究者分享了 他们的最新研究成果,包括大规模语料库的建设、文本数据的自动标注、语料库 数据的可视化呈现以及基于语料库的语言模型的开发等。
内容摘要
在语料库在自然语言处理中的应用方面,学者们重点探讨了如何利用语料库 提高自然语言处理的性能和效率。例如,利用语料库进行词性标注、命名实体识 别、情感分析等方面的研究,为机器翻译、智能客服等应用提供了更加准确和高 效的技术支持。
内容摘要
总之,通过这次语料库语言学国际会议,我们对语料库语言学发展趋势有了 更加清晰的认识。未来,语料库语言学将继续发挥重要作用,推动自然语言处理 技术的不断进步。同时,我们也应该认识到语料库建设与标注的瓶颈问题,以及 自然语言处理技
内容摘要
念进行深入解析,并举例说明其在实际应用中的价值。
理论基础和概念
理论基础和概念
语料库语言学以语言学、统计学和计算机科学为基础,强调对语言数据的分 析和研究。其核心概念包括:
理论基础和概念
1、语料库:语料库是语料库语言学同的领域和语种,以满足研 究者的需求。
挑战与解决方案
2、数据代表性:建立语料库需要收集大量的语言数据,但数据的代表性是一 个关键问题。为了确保语料库能够涵盖各种语言现象和表达方式,需要采取多种 策略和方法来收集和处理数据,包括选择多样化的语料来源、进行数据平衡和处 理等。
语料库语言学
![语料库语言学](https://img.taocdn.com/s3/m/99798e3f02020740be1e9b9f.png)
1959-1991年语料库研究项目统计表
语料库语言学的主要研究内容
• 语料库的建设与编纂 • 语料库的加工和管理技术 • 语言研究中语料库的使用 • 语料库在计算语言学中的应用
语料库设计和编纂中的问题
• 语料库设计和编纂的出发点是:如何使得在其基础上开展 的语言调查是合理的和可靠的。因此Kennedy(1998)指出 了语料库设计师所面临的最基本问题:这个语料库所采集 的语言数据是否真正代表了某种期望的语言或语体。在语 料库的建设和编纂过程中应考虑的问题包括:
• (1)数据的区别性特征:语料库语言学数据以其验证性、大数
量性、自动化、计量性等特征有别于其它类型的数据。
• (2)特征性分析技术:包括频数统计、词语索引分析、搭配分
析、词从、主题词等。
• (3)自下而上与自上而下兼用的精密分析过程 :经典语料
库语言学研究中的归纳与推演,数据观察与理论讨论,往往 是层层展开,步步深入,穷尽一切可能,逐渐逼近,到达结论。
语言研究中语料库的使用
1.言语研究: (1)语言学理论 。
(2)语言史研究。 (3)句法、词法及自动语法分析。
2.词汇研究: 编纂词典及工具参考书。 3.语义学 4.语用学和话语分析(很少) 4.社会语言学 5.心理语言学 6.外语教学
语料库语言学在计算语言学中的应用
• 20世纪90年代以来在自然语言处理(NLP)和计 算语言学的研究中,语料库方法和统计语言模型 迅速崛起,成为主流技术。主要用法如下: 1)汉语文本中交集型切分歧义的研究 2)汉语基本名词短语识别研究 3)基于结构词义空间的汉语词义排歧模型
语料库研究方法的局限性
• (1)语料库语言学理论尚需要体系化和简约化。 • (2)其研究思路和方法存在一定的分歧。 • (3)分析方法和技术需要进一步突破 • (4)语料库研究的应用尚需要更深入的探讨。
语料库语言学的发展及研究现状
![语料库语言学的发展及研究现状](https://img.taocdn.com/s3/m/3276cdea172ded630b1cb6b6.png)
当代语言学(试刊)1998年第1期4-12页,北京语料库语言学的发展及研究现状丁信善1.0引言语料库语言学已经成为语言研究的主流。
基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。
这是J.Thomas等人1996年为祝贺语料库语言学的主要奠基人和倡导者G.Leech六十诞辰而出的语料库语言学研究论集的开场白。
近年来,对语料库语言学类似的评说频频见于导论和方法论的书及教科书中,它不仅仅是语料库语言学家们的自誉,而正在成为整个语言学界的共识。
2.0语料库语言学的定义关于语料库语言学的定义,现引述三例:a. 根据篇章材料对语言的研究称为语料库语言学。
(K.Aijmer&B.Aitenberg,1991,p.1)b. 基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。
(T.M c Enery&A.Wilson,1996,p.1)c. 以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。
(D.Crystal,1991,p.86)由上述几个定义可见,语料库语言学不是研究语言自身某个方面,而是一种以语料库为基础的语言研究方法。
它实际上包括两个方面:一是对自然语料进行标注,二是对已经标注的语料的研究和利用的方法。
从方法论的角度,它不仅可以用于研究语言系统的各个层面,而且可以应用于语言学之外的其他领域。
3.0语料库语言学的历史发展语料库语言学作为一种研究语言的方法,可以追溯到上个世纪,甚至更为久远。
现在一般以乔姆斯基转换生成语法的兴衰时间为参照,将其发展大致分为以下几个阶段:3.1语料库语言学的早期发展早期的语料库语言学指的是本世纪五十年代中期以前,即乔姆斯基提出转换生成语法理论之前的所有基于语言材料的语言研究。
此类研究主要集中在以下几个方面:(1)语言习得是应用语料研究方法较早且较普遍的领域。
19世纪70年代在欧洲兴起了儿童语言习得研究的第一个热潮,当时的许多研究就是基于父母详细记载其子女话语发展的大量日记的。
语料库语言学
![语料库语言学](https://img.taocdn.com/s3/m/3c4a3b24915f804d2b16c190.png)
• 1)2010 首届广外应用语言学论坛。由广东外语 外贸大学外国语言学及应用语言学研究中心于 2010 年9 月24-25日成功举办了备受瞩目的首届 广外应用语言学论坛。语料库语言学首次以独立 议题的形式提出。会议包括:1.语料库的资源共 享;2.双语语料库建设,我国单语语料库很多, 还没有高质量的英汉双语语料库;3.语料库促进 外语教学发展。外语学习者语料库等在外语教学 中的应用,推动外语教学的发展;4.语料库语言 学的现状和未来。桂诗春肯定了语料学对外语教 学的积极作用,并大力提倡资源共享,互助互利。
• 自 2010 年10 月29 日,首次中国外语教育研 究中心“语料库语言学沙龙”(Corpus Research Group)在北京外国语大学成功举 行之后,分别举行了2010 年秋季,2011 年春 季,2011 年秋季2012 年四期有关语料库语言 学研究的名家及学者的交流活动。沙龙由语言 学界的相关大家,许家金、文秋芳、冯志伟、 王克非,熊文新等参与讲座,对语料库语言学 的研究发展具有启发式的引导。 • 1.语料库建设。文秋芳的“学习者语料库的创 建与研究”。在介绍国内研究现状的同时,还 重点分析了语料库语言学研究方法的优势和局 限。
2.发展
• 语料语言学受行为主义的影响下,从60年代开始 发展,迄今已经有近五十年的历史。 • 语料库在发展的初期,只进行词的一般分析,如 词频统计等,后来增加了词的语法属性标注(如, 词性等),直到现在,人们越来越开始重视对语 料库作不同层次的标注,如:语音、构词、句法、 语义以及语用等层次的标注。 • 语料语言学在其发展的初期并没有引起太大的共 鸣,但是现代语料语言学已经得到越来越多人的 承认,其应用也越来越广泛,从语言分析、语言 教学、词典编撰到人工智能等领域都开始应用语 料库。
语料库语言学综述
![语料库语言学综述](https://img.taocdn.com/s3/m/ad5fd8c99ec3d5bbfd0a746c.png)
语料库语言学综述【摘要】语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。
语料库分为很多类型,现在已有相当数量的语料库可供语言研究使用。
语料库语言学作为语言学的一个新的分支,当然离不开语料库。
本文解释了语料库语言学的定义及其内涵,介绍了英语语料库的发展和现状,并对语料库语言学的未来发展进行了展望。
【关键词】语料库;语料库语言学;发展一、引言语料库自从20世纪60年代初出现至今,已经经历了半个多世纪的发展。
随着计算机技术的不断进步,语料库的研究已经不再是某些人的专利。
同时语料库的发展也正在以惊人的速度对语言研究的很多领域产生着愈来愈大的影响。
语料库语言学,是一种基于语料库的全新的研究技术和方法。
可以毫不夸张地说,语料库语言学开辟了语言研究的一个全新的领域。
本文拟对语料库的建设,语料语言学的研究特点,语料库及语料语言学的发展现状以及存在问题等角度对于语料库及语料语言学进行一次梳理。
二、理论回顾1.什么是语料库、语料库语言学?语料又称为素材,是自然发生的语言材料包括书面语和口语的集合。
“可以用来作为描述一种语言的出发点或用于证实有关一种语言的假设的手段”(Crystal,1991)。
语料库(corpus)亦称语库,是存放语言材料的仓库。
语料库是收集并科学地组织起来的语言材料数据库,这种材料是某种语言中自然出现的,可以是书面的,也可以是口头的(申厚坤,2005)。
通常地讲,语料库就是指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。
2.语料库及语料库语言学的的产生与发展。
有人认为语料库研究的发展经历了三个阶段:运用语料库进行语言研究最早可以追溯到19世纪末,当时的研究手段还只停留在卡片制作和人工检索的阶段,其成果也仅用作编纂语法书或词典的参考。
20世纪60年代至90年代是语料库语言学发展的第二个阶段,世界各地都开始建设自己的语料库并且开始跨国联合建立国际性的语料库。
语料库语言学简史
![语料库语言学简史](https://img.taocdn.com/s3/m/d2c021f93c1ec5da51e2707c.png)
语料库语言学简史语料库语言学及语料库方法的作用在今天已不容忽视,但是语料库语言学的发展却经历了一段长期曲折的过程。
以1957年Chomsky《句法结构》的发表为界,此前的语料库研究被语言学界广泛称为“早期的语料库语言学”;从上世纪50年代至80年代语料库语言学进入低谷;从80年代开始,语料库语言学迎来了它的“复苏期”。
1 早期的语料库语言学利用真实语言资料进行研究,是词汇学家和语法学家的优良传统。
早在1747年英语词典编纂的鼻祖Samuel Johnson就发表了Plan of an English Dictionary,将前人收集资料的最好方法作了总结,他所编的英语词典含15万条以上的引证说明,可见其所收集的资料库已相当可观。
Oxford English Dictionary于1928年完成,所用的引证达400多万条,卡片1100多万张,还专门出版了中古英语手稿与文章350册,供编写OED时参考。
Webster’s New International Dictionary第二版的编写参照了100多万条引证,第三版于1961年付印时,新旧引证共达1000多万条。
英语语法大师Jesperson在编写《英语语法大全》(1909-1949)时,所使用的卡片数目多达30至40万张。
(王建新,1998:52)20世纪40年代,美国的语言学家Boas在研究美洲印第安语言时就使用了语料库的方法(corpus-based methodology),后来的结构主义语言学家更是如此。
只不过当时还没有出现一个专门叫“语料库语言学”的词汇而已。
下面是早期语料库语言学的一些主要研究领域:1.1 语言习得研究19世纪70年代,语言学家就系统地对幼儿语言习得进行了研究。
这些研究都基于父母对幼儿话语及时记录的日记材料。
即使在现代,基于原始语料的语言习得研究也没有停止(Ingram,1978)。
在以日记材料为语料的研究风行过后(通常认为从1876年至1926年),语言习得的研究主要表现为下面两种方式:(1)以大量的、不同年龄段的儿童为语言素材的来源(informant),进行语言发展和成熟的研究;(2)以少量的儿童为语言素材的来源,长期跟踪记录他们使用的语言而进行的历时研究(McEnery,Wilson,2001:3)。
近十年国内语料库语言学研究综述
![近十年国内语料库语言学研究综述](https://img.taocdn.com/s3/m/b5af358fba4cf7ec4afe04a1b0717fd5360cb2b9.png)
近十年国内语料库语言学研究综述一、本文概述近年来,随着信息技术的飞速发展和大数据时代的来临,语料库语言学在国内语言学界的影响力逐渐增强。
本文旨在全面梳理近十年国内语料库语言学研究的发展脉络,总结研究成果,分析存在的问题,并展望未来的发展趋势。
本文将从语料库的建设、语料库语言学理论、语料库在语言教学和研究中的应用等方面展开综述,以期为国内语料库语言学的研究者提供一个清晰的研究全景和参考框架。
通过对近十年国内语料库语言学研究的系统回顾,本文旨在推动语料库语言学在国内的深入发展,为语言学研究的创新提供新的视角和方法。
二、语料库建设与研究近十年,我国语料库语言学在语料库建设方面取得了显著进展。
语料库作为语言学研究的基础资源,其规模和质量直接影响到研究的深度和广度。
在这一时期,我国学者和机构积极投入语料库的建设工作,不仅扩充了语料库的种类和数量,还提高了语料的质量和标注精度。
在语料库种类方面,除了传统的通用语料库外,还出现了专门针对某一领域或语体的语料库,如法律语料库、医学语料库、社交媒体语料库等。
这些专业语料库为相关领域的研究提供了丰富的数据支持。
在语料库规模方面,随着大数据技术的发展,语料库的规模不断扩大。
大型语料库如“国家语委现代汉语语料库”“古代汉语语料库”等,为语言学研究提供了海量的语料资源。
在语料质量方面,我国语料库建设注重语料的真实性和代表性。
通过严格的语料采集和筛选流程,确保语料的质量和准确性。
同时,采用自动化和半自动化的方法对语料进行预处理和标注,提高了语料的处理效率和质量。
在语料库研究方面,我国学者充分利用语料库资源进行各种语言学研究。
通过语料库的统计分析,揭示语言现象的本质和规律。
还利用语料库进行语言对比研究、语言演变研究、语言教学研究等,推动了语言学研究的深入发展。
近十年我国语料库语言学在语料库建设与研究方面取得了显著成就。
语料库的规模和质量不断提升,为语言学研究提供了强大的数据支持。
语料库语言学PPT
![语料库语言学PPT](https://img.taocdn.com/s3/m/d581b7da360cba1aa911da05.png)
用途
第一个大型计算机语料库
以计算机自动化处理方式获取SEU语 料库的英语口语原始语料
SEU
LLC BROWN LOB COBUILD LONGMAN
1959年起
1975-1981 1960s 1970s 1980s 1988-1990
100万
50万 100万 100万 3.2亿 2800万
口语 书面语 书面语
语料库语言学的发展史
一般以乔姆斯基(N.Chomsky)转换生成 语法的兴衰史为参照点,将语料库语言学 的发展史大致分为三个时期: • 早期的语料库语言学 • 乔姆斯基的转换生成语法时期 • 语料库语言学的复苏时期
早期的语料库语言学
早期的语料库语言学是指20世纪50年代中期以前, 即以乔姆斯基提出转换生成语法理论之前的所有 基于语言材料的语言研究。在50年代,语料库语 言学曾被广泛使用,主要集中体现在以下几个方 面: 1)语言习得 2)方言学 3)语言教学 4)句法和语义 5)音系研究
基于语料库的方法 corpus-based approach
• 由研究者根据以往的语言研究成果或对语言的认 识,首先提出假设,然后到语料库中去验证假设。 假设是否成立取决于语料库中的语言实例。基于 语料库的研究方法以概率为基础,是统计学和实 证研究方法在语料库语言学领域的具体应用。 17
语料库驱动的方法 corpus-driven approach
语料库研究方法的局限性
• • • • (1)语料库语言学理论尚需要体系化和简约化。 (2)其研究思路和方法存在一定的分歧。 (3)分析方法和技术需要进一步突破 (4)语料库研究的应用尚需要更深入的探讨。
国内语料库研究的局限性
(1)缺乏应有的精密分析过程,显示不出应有的分析力 量(analytical power)。 (2)一些研究将事实与译论混在一起,将语料库数据与 直觉数据杂合,宏观概述多而语境分析少。 (3)数据与观察与结论之间,不同理论之间跳跃大,缺 失环节多,没有语料库语言学所熟悉的范式特征。
近十年国内语料库语言学研究综述
![近十年国内语料库语言学研究综述](https://img.taocdn.com/s3/m/13eaa5a7bb0d4a7302768e9951e79b8968026807.png)
近十年国内语料库语言学研究综述一、概述近十年来,语料库语言学在国内的研究取得了显著的发展和突破。
随着信息技术的飞速进步和大数据时代的到来,语料库语言学在语言学研究中的地位日益凸显。
它基于大规模真实文本数据,运用统计学和计算机技术,对语言现象进行定量和定性的分析,为语言学研究提供了全新的视角和方法。
国内语料库语言学的研究范围广泛,涉及语言结构、语言变异、语言使用、语言教学等多个领域。
研究者们利用语料库资源,深入探讨了词汇、语法、语义、语用等层面的语言问题,揭示了语言现象的内在规律和特点。
同时,随着语料库建设的不断完善,语料库语言学在国内的应用也愈加广泛,为自然语言处理、机器翻译、信息检索等领域提供了强大的数据支持和技术基础。
近十年内,国内语料库语言学的研究呈现出以下几个特点:一是研究方法的多样化,不仅注重传统的统计分析方法,还引入了机器学习、深度学习等先进技术二是研究领域的拓展,语料库语言学不再局限于传统的语言结构研究,而是向语言教学、语言规划等应用领域延伸三是语料库资源的不断丰富,各类专题语料库、多语种语料库等不断涌现,为语料库语言学的研究提供了更为丰富和多样的数据来源。
总体而言,近十年国内语料库语言学的研究取得了丰硕的成果,不仅推动了语言学理论的发展,也为语言实践提供了有力的支持。
未来,随着技术的不断进步和语料库资源的日益丰富,语料库语言学在国内的研究将更加深入和广泛,为语言学研究和社会应用带来更多的创新和突破。
1. 语料库语言学的定义与重要性语料库语言学,作为一种独特的语言学研究方法,主要依赖于大规模、结构化的语言数据集合,即语料库,来进行语言分析和研究。
它通过对真实语料进行定量和定性的分析,旨在揭示语言的实际使用情况和内在规律。
近十年来,随着信息技术的飞速发展和语料库规模的日益扩大,语料库语言学在国内语言学界的地位逐渐提升,其重要性也日益凸显。
语料库语言学的定义在于其研究方法和数据基础。
其研究方法强调实证和量化,通过计算机技术和统计手段对语料库中的语言数据进行处理和分析,进而揭示语言的实际使用情况。
自然语言理解-语料库
![自然语言理解-语料库](https://img.taocdn.com/s3/m/f6b1576da417866fb84a8eb1.png)
已有的相关研究成果
3.《现代汉语语料库文本分词规范》 北京语言文化大学语言信息处理研究所 清华大学计算机科学与技术系 1998年 4.《北大语料库加工规范: 切分、词性标注、注音》 北京大学计算语言学研究所 2003年 5.《資讯处理用中文分词标准》 台湾计算语言学学会 ,1996年
语料库加工规范的总原则
汉语语料库建设规范 ——语料库分词和标注规范
语料库建设规范
选材规范 文本描述规范 加工规范 体系构造规范
主要内容
已有的相关内容 语料库的加工规范的总原则 结构化词表构造原则 切分标注原则
已有的相关研究成果
1.《信息处理用现代汉语分词规范》 中国国家标准GB13715,1992年 2.《信息处理用现代汉语词类标记集规范》 教育部语言文字应用研究所 2002年
第一代语料库2
LOB语料库
始建于1970年代初 由英国 Lancaster大学著名语言学家 Geoffrey Leech 倡议 挪威Oslo大学StigJohansson主持完成 安装在挪威Bergen大学挪威人文科学计算中心 规模于Brown语料库相当 主要代表当代英国英语
不矛盾性原则:指切分标注时不能出现两可 的情况,即可以同时适用两条或两条以上的 规则的情况。
完备性原则:指规范能够覆盖文本的全部, 即不能出现没有适用的规则的情况。
词表原则
切分标注一般都遵循一个原则——词表原则 把词表中已经收录的词语都作为一个分词单位,不再切分, 所以几乎每一个规范的背后都有一个相应的词表。
转引自Tony McEnery& Andrew Wilson, 1996, Corpus Linguistics, p55,
中国语料库研究的历史与现状
![中国语料库研究的历史与现状](https://img.taocdn.com/s3/m/3f8bb2c13186bceb19e8bb60.png)
语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。
传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。
计算机出现后,人们可以把这些工作交给计算机去作,大大地减轻了人们的劳动。
后来,在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科——语料库语言学(corpus linguistics),并成为了自然语言处理的一个分支学科。
语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。
多年来,机器翻译和自然语言理解的研究中, 分析语言的主要方法是句法语义分析。
因此,在很长一段时间内,许多系统都是基于规则的,而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来,这样,这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言(sub-language)中获得一定的成功。
为了摆脱困境,自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计,以便采用一种基于统计的模型来处理大量的非受限语言。
不言而喻,语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论,从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。
本文首先简要介绍国外语料库的发展情况,然后,比较详细地介绍中国语料库的发展情况和主要的成绩,使我们对于语料库研究得到一个鸟瞰式的认识。
一、国外语料库概况现在,国外的主要语料库还有:london-lund口语语料库:收篇目87篇,每篇5000词,共为43.4万词,有详细的韵律标注(prosodic marking)。
ahi语料库:美国heritage出版社为编纂heritage词典而建立,有400万词。
【汉语言文学】外语教学语料库思索
![【汉语言文学】外语教学语料库思索](https://img.taocdn.com/s3/m/e669b71478563c1ec5da50e2524de518964bd3a1.png)
【汉语言文学】外语教学语料库思索外语教学语料库思考1引言语料库语言学〔CorpusLinguistics〕兴起于20世纪中后期,是基于大量真实的语言资料,从调查语言信息的分布频率入手,对语言使用规律和模式进行讨论的语言科学。
语料库语言学孕育着对语言观念和语言描述框架的不断更新,是语言讨论方法论的一个重大突破,现已经成为语言学的主流分支。
随着计算机技术的迅猛进展,电子语料库语言学以其大容量的语言信息和高效的检索结果对语言讨论产生了很大的影响,使得语料库渐渐成为语言学理论讨论、应用讨论的重要资源之一。
20世纪60年月至70年月,G.Leech和T.Johns曾指出,语料库在语言教学的应用是语料库语言学的一个重要分支,由于两者是一种相互渗透的综合体。
语料库在语言教学的应用可以分为直接应用和间接应用两个方面。
直接应用指直接教授语料库的相关学问和方法体系,并利用语料库资源进行语言教学;间接应用指基于语料库资源编纂教材、参考书,开发多媒体课件等。
作为信息技术的产物,语料库语言学的消失在很大程度上冲击了外语语言教学的讨论与实践。
由语言习得的规律可知,单纯地记忆语言学问并不能保证语言的正确使用。
只有通过大量真实自然的语言输入〔input〕和输出才能实现真正的语言习得。
在传统语言学指导下的外语语言教学模式里,语言学习者只能通过记忆语言规章、理解教科书上的实例来完成语言习得。
而语料库语言学在外语教学中的应用则表达为既能供应高频率消失的语言信息,又能供应真实自然的语言环境,进而关心外语学习者发挥主观能动性,进行自主学习。
由此可见,外语老师借助计算机对语料库所供应的大量语言材料进行相应的分析、统计和应用,必将能为外语课堂教学掀开崭新的一页。
2语料库语言学对外语教学资源的影响长期以来,外语教学讨论者们始终在商量“教什么”和“如何教”的问题。
传统的外语教学一味强调语法系统的完好性,却往往忽视了语法规章在详细语言环境中的应用。
语料库语言学与英语教育研究
![语料库语言学与英语教育研究](https://img.taocdn.com/s3/m/d996bb8f360cba1aa911da47.png)
语料库语言学与英语教育研究1语料库语言学的发展语料库语言学发展早期,人们将语料库语言学作为一种利用语料库提供的各种语言资料实行语言研究的一种方法,这种方法在18世纪的欧洲得到应用1。
而这种应用的应用范围持续扩大,逐渐在语法研究领域和词典编纂领域初露光芒。
在二十世纪中期之前,受传统思想的影响,语言研究家们大多认为只有通过收集实际中应用的语言,以此统计作为资料实行语言学研究才更具有可靠性。
所以,在此期间,语料库语言学的研究一直受到语言学家们的追捧。
到二十世纪中期之后Chomsky 倡导的转换生成语法学派兴起从而使得局面被扭转,在此期间,他通过预料研究方向有错误和预料具有不完整性和不充分性的观点否定了语料库语言学的价值。
就这样,语料库语言学研究沉寂了20年,20年之后,Quirk建立了第一代语料库语言学才使得语料库语言学的研究价值再次被人们所发现。
2语料库语言学与高职英语教育之间的关系语言学的研究对语言教学方法变更具有重要的影响,语言学研究为教学方法的改进提供了坚实的理论基础2。
早期人们实行语言学研究更加注重语法研究,这就造成最早期的语言教学课堂以教师为课堂的主体,以教师实行语法讲解和语句翻译为教学的主要方式。
随后,语言学的结构理论和语法功能理论产生,这就使得在语言教学界,教学的重点由书本上的语法研究,语句翻译转变为句型练习,教师在课堂上的主体地位被淡化,学生在课堂上的角色由一味被灌输变为句型练习的参与者。
然后出现了语料库语言学研究,语料库语言学的研究更加注重实际应用语言研究,所以,语言教学界开始将教师在课堂中的主体地位进一步淡化,而学生变为课堂的主要操控者和参与者,教学内容也由语法结构教学转变为实际生活中交际用语的教学。
语料库语言学通过计算机收集并存储大量的被人们在生活中使用的语言资料,并对这些资料实行分类统计,然后对统计中体现的语言规律和特征实行分析,从而为英语教学方法的改进,英语教学内容的变更提供理论依据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语料库语言学简史语料库语言学及语料库方法的作用在今天已不容忽视,但是语料库语言学的发展却经历了一段长期曲折的过程。
以1957年Chomsky《句法结构》的发表为界,此前的语料库研究被语言学界广泛称为“早期的语料库语言学”;从上世纪50年代至80年代语料库语言学进入低谷;从80年代开始,语料库语言学迎来了它的“复苏期”。
1 早期的语料库语言学利用真实语言资料进行研究,是词汇学家和语法学家的优良传统。
早在1747年英语词典编纂的鼻祖Samuel Johnson就发表了Plan of an English Dictionary,将前人收集资料的最好方法作了总结,他所编的英语词典含15万条以上的引证说明,可见其所收集的资料库已相当可观。
Oxford English Dictionary于1928年完成,所用的引证达400多万条,卡片1100多万张,还专门出版了中古英语手稿与文章350册,供编写OED时参考。
Webster’s New International Dictionary第二版的编写参照了100多万条引证,第三版于1961年付印时,新旧引证共达1000多万条。
英语语法大师Jesperson在编写《英语语法大全》(1909-1949)时,所使用的卡片数目多达30至40万张。
(王建新,1998:52)20世纪40年代,美国的语言学家Boas在研究美洲印第安语言时就使用了语料库的方法(corpus-based methodology),后来的结构主义语言学家更是如此。
只不过当时还没有出现一个专门叫“语料库语言学”的词汇而已。
下面是早期语料库语言学的一些主要研究领域:1.1 语言习得研究19世纪70年代,语言学家就系统地对幼儿语言习得进行了研究。
这些研究都基于父母对幼儿话语及时记录的日记材料。
即使在现代,基于原始语料的语言习得研究也没有停止(Ingram,1978)。
在以日记材料为语料的研究风行过后(通常认为从1876年至1926年),语言习得的研究主要表现为下面两种方式:(1)以大量的、不同年龄段的儿童为语言素材的来源(informant),进行语言发展和成熟的研究;(2)以少量的儿童为语言素材的来源,长期跟踪记录他们使用的语言而进行的历时研究(McEnery,Wilson,2001:3)。
1.2 拼写规范研究德国语言学家Kading以德语大型语料(1100万词次)为基础,对德语各字母在文本中的出现频率以及字母串进行了研究。
1.3 语言教学研究20世纪20年代,由于大量移民涌向北美,以及各英属殖民地对英语教学的需要,有好几项工程都把寻找英语语言中最常用的词汇作为了主要的研究目标(Fries 和Traver,1940;Bongers,1947)。
1921年,Thorndike借助于语料库发布了英语词汇的使用频率研究报告。
此项研究对后来美国以及世界其他地区的英语教学都产生了巨大的影响。
1944年,Thorndike进一步完善了他的早期研究,发表了“教师3万词汇手册”(The Teacher’s Wordbook of 30,000 words)。
此时,Thorndike 研究所依据的语料库已达到1800万词次。
出于教学目的而对英语词汇进行基于语料库研究最著名的例子是Michael West的“实用英语词汇表”(General Service List of English Words)。
此项成果发表于1953年,它对当时英语书面语中最常用的2,000个词汇进行了具体的描述,不仅有不同词义的使用频率情况,还有用法说明。
这些早期研究都得出这样的结论:不论在何种语体和文本中,都是为数不多的常用词占据了文本的大部分篇幅。
1.4 对比语言学研究在对比语言学领域,语料库方法很早前就得到了应用。
最有代表性的例子是Eaton在1940年对荷兰语、法语、德语和意大利语词义频率的对比研究。
即使从今天的眼光看,这也是一项非常复杂的工作。
1.5 句法学和语义学研究对词义频率的研究也出现在单语研究领域,Lorge的研究(1949)是这方面的例子之一。
与此同时,句法研究也使用了语料库的方法。
Fries (1952)以电话听抄稿为语料,对英语语法进行了系统分析,这项研究是早期描写语法的一个代表。
从以上的诸多例证可以看出,语料库方法在语言研究领域很早以前就已经被使用。
但语料库语言学的发展却有一个明显的低谷时期,它从20世纪50年代开始,以Chomsky的著作《句法结构》的发表为标志。
因为Chomsky在书中对语料库方法的批评,语料库方法和语料库语言学曾一度极度低落,几近死亡。
2 语料库语言学的低谷时期Chomsky的转换生成语法在很短的时间内就在语言学界引起了一场革命,经验主义(empiricism)也很快被理性主义(rationalism)所取代。
Chomsky对语料库方法进行了直截了当的批评,他认为语料库永远也不会成为语言研究的有用工具,因为语言研究的最终目的是寻找语言能力(language competence)而不是语言行为(language performance)。
语言能力是所有说本族语的人可以理解并且说出从来没有听过的句子的能力,这是人人都共有的、内在的语言知识。
语言行为只是语言能力在特定场合下的表现,它是支离破碎的,不能反映语言能力的实际情况。
语言行为受到很多外部事物的影响,说话人是否饮了酒、说话时的环境等都会对语言行为产生影响。
因此,Chomsky认为语料库充其量只是对语言能力的外在表现——语言行为即言语的一种收集,这些数据无法指导语言学家获得语言能力的模型。
除此之外,Chomsky还对语料库语言学进行了进一步的批评。
早期的语料库语言学的做法会使人得出这样的两条假设:(1)自然语言中的句子是有限的;(2)自然语言中的句子是可以被收集的。
Chomsky批评说:很显然自然语言的句子是无限的,任何人都有说出或写出从未听过的句子的能力。
此外,英语的句子结构具有循环性(recursiveness)的特点,例如“The man that the cat saw that the dog ate that the man knew that the…”。
循环性进一步证明了自然语言中句子的无限性。
退一步说,假设自然语言中的句子是有限的,语料库方法会不会是研究语言的最佳方法呢?Chomsky也给出了否定的答案。
他认为语料库方法是多余的,语言学家只要通过内省(introspection)就可以进入思维活动的中心,从而对语言能力进行考察。
很多时候,语言直觉(intuition)比在语料库中搜索更节省时间。
像下面这样的句子是不大可能在语料库中出现的,如果不是靠内省,我们该如何将合乎语法的句子和不合乎语法的句子区分开来。
He shines Smith books.我们怎么知道这是一个不合乎语法的句子呢?在语料库中,我们会找到大量与此结构类似的句子。
He gives Smith books.He lends Smith books.He owes Smith books.语料库在这里毫无用处,反而给人以假象:这样的句子是可以接受的。
另外,歧义结构也只有通过内省才能够得到甄别,光靠对句子结构的观察是不够的。
例如:Tom and Ruby sat down---he read a book of medicine.Tom and Ruby sat down---he ate a can of dog food.如果遇到像这样的句子,我们只有知道Ruby是一条狗的名字才能够理解句义。
除Chomsky之外,早期的语料库语言学也受到其他学者的质疑,这些质疑主要表现在语料库方法的“可信性”方面。
Abercrombie(1965)称语料库语言学的研究方法为“伪方法”(pseudo-procedures)。
在计算机技术还很落后的年代,这样的批评并不是空穴来风。
谁能想象语言学家们如何对大型语料库(如Kading的1100万字次的语料库)进行检索?在没有检索软件支持的情况下,光凭人工是无法实现科学、全面的检索和统计的。
因此可以说,由于计算机技术的限制,早期语料库语言学进行研究的基本条件在当时并不具备。
虽然Chomsky的批评对语料库语言学是致命的一击,但基于语料库的研究却从来没有停止过。
例如在语音学领域,对实际话语的记录材料一直是语言学研究的主要素材。
同样的情况也出现在语言习得的研究方面。
从20世纪50年代至80年代,语料库语言学领域仍有下面这些显著的成就:1959年,英国伦敦大学的Randolph Quirk提出建立“英语用法调查”语料库(Survey of English Usage,SEU)。
不久以后,Nelson Francis和Henry Kucera在美国Brown大学召集了一些“语料库的有识之士”,开始了最终被称为Brown语料库的建设工作。
Brown语料库是世界上第一个根据系统性原则采集样本的标准语料库,规模为100万词次,主要代表了当代美国英语。
在当时的学术环境下,他们的研究是逆流而动的。
尽管受到许多语言学家的质疑,但他们对语料库的信心却没有动摇。
上述语料库的最终成功也极大地鼓舞了同行专家,为建设更大规模的语料库积累了经验。
1970年,在英国Lancaster大学的著名语言学家Geoffrey Leech的倡议下,LOB 语料库开始建设。
这项工作由挪威Oslo大学的Stig Johansson主持,完成于1978年,最后安装在挪威Bergen大学挪威人文科学计算中心。
LOB语料库与Brown 语料库相当,主要代表当代英国英语。
20世纪60年代初,Randolph Quirk主持的英语用法调查课题组曾收集了2000个小时的谈话和广播等口语素材,并整理成了书面材料。
这些材料后来由瑞典Lund 大学J. Svartvik教授主持全面录入计算机,这就是1975年建成的London-Lund英语口语语料库。
除了上面的语料库研究之外,这一时期还有“美国传统中级英语语料库”(The American Heritage Intermediate Corpus)和“康乃尔语料库”(The Cornell Corpus)等。
尽管在20世纪80年代之前,语料库的研究一天也没有真正停止,但应该承认这个阶段语料库语言学的发展步履维艰,语料库的建设也由于受诸多负面因素的影响而进展缓慢。
另外,这个阶段的语料库普遍规模小、加工深度低,除了对原始语料的简单处理外,对语料本身没有做什么分析和标注。
因此,这一时期的语料库被后人称为第一代语料库。
3.语料库语言学的复苏语料库语言学的复苏始于20世纪80年代①。
第一代电子语料库有其时代局限性,Brown语料库和LOB语料库可以在计算机上使用,但所含的语料均为书面语,缺乏口语与手稿。