中国语料库研究的历史与现状

合集下载

语料库研究与综述.

语料库研究与综述.

语料库研究与应用综述一概述语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。

经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。

人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。

语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。

语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。

有人曾经把语料库分成四种类型:(1)异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的(Homogeneous):只收集同一类内容的语料;(3)系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的(Specialized):只收集用于某一特定用途的语料。

除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。

按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。

双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。

语料库建设中涉及的主要问题包括:(1)设计和规划:主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。

(2)语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持平衡性等。

(3)语料的加工:包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。

(4)语料管理系统的建设:包括数据维护(语料录入、校对、存储、修改、删除及语料描述信息项目管理)、语料自动加工(分词、标注、文本分割、合并、标记处理等)、用户功能(查询、检索、统计、打印等)。

浅谈语料库语言学在的应用以及在中国的发展趋势

浅谈语料库语言学在的应用以及在中国的发展趋势

浅谈语料库语言学在的应用以及在中国的发展趋势一、语料库语言学的兴起与发展语料库语言学是基于大量真实的语言资料,从调查语言信息的分布频率入手来研究语言在现实使用中的规律和模式。

自20世纪中后期,电脑被大量使用在语料的存储上,兴起了专门针对大规模储存于计算机里的语料库所进行的研究,自此语料库语言学进入了现代语料库语言学时期。

由于电脑语料库容量大、语料真实、检索快捷,它在现代语言学研究和语言教育中正发挥着越来越重要的作用。

在我国,从20世纪20年代开始,有学者为制定基础汉字字表开始建立文本语料库;70年代末以来,汉语现代文学作品语料库(1979年)、现代汉语语料库(1983年)等机器可读语料库开始建设。

90年代后,以《人民日报》光盘数据库、北大语料库为代表的大型汉语语料库日益发展,语料库成为研究中文信息处理的基本语言资源。

在英语语料库建设方面,杨惠中教授80年代主持建成的上海交通大学科技英语语料库(JDEST),是当时世界上第一个同类语料库,也是国内最大最完备的英语语料库之一。

1996年广州外国语学院开始建立中国学生交际英语语料库。

此外由广东外语外贸大学桂诗春教授和上海交通大学杨惠中教授牵头开发的“中国学习者语料库”(CLEC)于1999年建成,该语料库广泛收集了包括我国中学生、大学生在内的一百多万词的各种书面语资料,并对所有的语料进行语法标注和言语失误标注,对研究中国学习者的英语特点具有开创性意义。

二、语料库语言学发展趋势语料库语言学研究的发展总是以语料库的建设为基础的。

没有语料库的建设,语料库语言学所进行的研究只能是纸上谈兵。

近十多年来,国内语料库的建设取得了一定的成就,主要建设的语料库有英语学习者语料库、平行语料库、特殊英语语料库、汉语语料库四种类型。

(一)英语学习者语料库。

其中包括书面语和口语。

有广东外语外贸大学和上海交通大学合作建设的中国学习者英语语料库CLEC,100万词次;上海交通大学建设的大学英语学习者口语语料库COLSEC,5万词次;香港科技大学建设的香港科技大学学习者语料库HKUST Learner Corpus;南京大学建设的中国英语专业语料库CEMC,148万词次;南京大学建设的中国英语学习者口语语料库SECCL,100万词次;华中科技大学建设的硕士写作语料库MWC,12万词次。

语料库语言学研究发展现状浅析

语料库语言学研究发展现状浅析

语料库语言学研究发展现状浅析【摘要】语料库语言学过去几十年中在我国的研究取得了丰硕的成果,也日益引起国外同行的关注。

本文以语料库及语料库语言学在外语教学和翻译教学方面的应用为脉络,回顾了近年来语料库语言学研究所取得的成果,并讨论了语料库语言学在中国的发展趋势。

【关键词】语料库;语料库语言学;外语教学;翻译研究;研究;发展状况兴起于20世纪80年代的语料库语言学是一门新兴的学科,主要致力于文本的检索、取样、分析以及统计,从建立之初就为语言学研究注入了新的活力。

近年来,语料库语言学得到了大量中国学者与专家的广泛关注,不仅建成了一批具有国际水准的高水平、高质量的诸如平行语料库、专门用途语料库、和用于研究学习者口语和书面语特征的学习者口笔语语料库等各种类型的语料库,研究方向也从以往单一枯燥的语法、词汇和词典编纂扩展到涵盖二语习得、外语教学与研究、翻译理论、翻译实践、话语分析、错误分析和语言处理等更为专业和全面的诸多语言学研究的领域之中,吸引着越来越多的具有不同研究背景和研究方向的学者投入到语料库语言学的研究之中,使得语料库语言学得到空前的发展。

此外,国内以及国际间的各层次和领域的合作与交流也为语料库语言学的研究和发展创造了优越的环境。

一、外语教学与研究与语料库语言学以语料库为基础的外语教学研究始终是语料库语言学研究的主要领域,也一直是国内外语言学家和语言教育家关注的焦点。

在中国,语料库语言学与外语教学一直保持着紧密的联系。

首先,基于语料库的外语教学的两个最基本的问题是“教什么”和“怎么教”的问题。

关于这些问题,国际、国内的专家和学者纷纷给出了各自的理解。

Sinclair强调学习者可直接通过相关语料库资源,凭借相应的分析软件,分析观察词汇索引和扩展语境,从而自觉得形成对语言形式的归纳和自我发现。

此外,教师也可根据实际教学需求自建小型语料库或基于现有的大型语料库建立更为细致和专业的子语料库,并将其与实际的语言教学活动相结合,切实地体现语料库对语言教学的辅助作用。

《2024年语料库研究》范文

《2024年语料库研究》范文

《语料库研究》篇一一、引言语料库作为一种资源丰富的语言数据集合,已成为语言学、语言学研究以及相关领域的热点研究对象。

它能够为语言分析、语言教学、翻译、词典编纂等多个领域提供支持。

本文将介绍语料库研究的重要性,并就当前语料库研究的现状进行梳理,进而分析其中存在的挑战和问题,并探讨未来的发展趋势。

二、语料库研究的现状1. 语料库类型及建设随着技术的进步,语料库建设日趋成熟。

根据不同领域和用途,语料库可大致分为通用型和专用型。

其中,通用型语料库如COCA、BNC等,涵盖了广泛的语言使用场景;专用型语料库则针对特定领域或主题进行收集,如法律、医学等。

此外,还有多媒体语料库和口语语料库等类型。

在建设过程中,研究者需考虑语料库的规模、代表性、时效性等因素。

2. 语料库应用领域语料库在多个领域得到了广泛应用。

在语言学领域,语料库为语言研究提供了丰富的数据支持;在翻译领域,语料库可帮助提高翻译的准确性和效率;在词典编纂方面,语料库为词汇的收集和释义提供了有力支持。

此外,在语言教学、自然语言处理等领域,语料库也发挥着重要作用。

三、当前挑战与问题尽管语料库研究取得了显著成果,但仍面临诸多挑战和问题。

首先,在语料库建设方面,如何确保数据的代表性和真实性是一个亟待解决的问题。

此外,随着技术的发展,如何利用人工智能等手段对语料库进行智能化处理和利用也是一大挑战。

其次,在应用方面,如何将语料库与实际需求相结合,提高应用效果也是一个难题。

此外,不同领域和行业对语料库的需求存在差异,如何满足这些不同需求也是一项挑战。

四、未来展望面对未来的发展,语料库研究将呈现以下几个趋势:1. 多样化与个性化:随着用户需求的多样化与个性化发展,未来的语料库将更加关注用户需求和实际应用场景的差异。

研究者需要设计更多类型的语料库来满足不同领域和行业的需求。

2. 智能化与自动化:人工智能技术的不断发展将促进语料库的智能化和自动化处理。

例如,利用自然语言处理技术对语料进行自动标注、分类和分析等操作,提高处理效率和准确性。

中国语料库研究的历史与现状

中国语料库研究的历史与现状

中国语料库研究的历史与现状推荐文章•汉语社会中识字社群的汉字字形思维例析热度:•结构主义语言学及其源流热度:•我国汉字识别研究的新进展热度:•关于汉语词汇层的研究热度:•“语法化”问题热度:中国语料库研究的历史与现状语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。

传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。

计算机出现后,人们可以把这些工作交给计算机去作,大大地减轻了人们的劳动。

后来,在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科——语料库语言学(corpus linguistics),并成为了自然语言处理的一个分支学科。

语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。

多年来,机器翻译和自然语言理解的研究中, 分析语言的主要方法是句法语义分析。

因此,在很长一段时间内,许多系统都是基于规则的,而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来,这样,这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言(sub- language)中获得一定的成功。

为了摆脱困境,自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计,以便采用一种基于统计的模型来处理大量的非受限语言。

不言而喻,语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论,从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。

本文首先简要介绍国外语料库的发展情况,然后,比较详细地介绍中国语料库的发展情况和主要的成绩,使我们对于语料库研究得到一个鸟瞰式的认识。

2024年语料库软件市场分析现状

2024年语料库软件市场分析现状

2024年语料库软件市场分析现状引言语料库(Corpus)是自然语言处理和文本数据分析领域中的重要资源,可用于构建语言模型、分析语义、计算词频等。

语料库软件是支持语料库管理和分析的工具,提供了丰富的功能和服务,可以帮助用户更好地进行文本数据的处理和分析。

本文将对当前语料库软件市场进行分析,探讨市场现状和未来发展趋势。

语料库软件市场概况语料库软件市场在过去几年间持续扩大,主要受到以下几个因素的推动:1.良好的数据基础:随着互联网和数字化技术的发展,大量的文本数据得以数字化存储和获取。

这为语料库软件市场提供了丰富的数据基础。

2.增强的文本分析需求:随着人工智能和自然语言处理技术的不断进步,对文本数据的分析需求越来越高。

语料库软件能够提供高效、准确的文本分析功能,满足市场上的需求。

3.不同领域的应用需求:语料库软件不仅仅在学术研究领域有广泛应用,还被越来越多的行业和领域所认可和采用。

例如在商业领域中,语料库软件可以用于市场调研、竞争分析、舆情监测等。

主要市场参与者目前,语料库软件市场中存在着多个主要的参与者,涵盖了不同规模和定位的企业。

以下是一些重要的市场参与者:1.AntConc:AntConc是一款免费开源的语料库分析软件,提供丰富的功能和易于使用的界面。

它在学术界有着广泛的应用和良好的口碑。

2.WordSmith Tools:WordSmith Tools是一款商业化的语料库软件,也是目前市场上最为知名的语料库工具之一。

它提供了强大的文本分析功能和用户友好的界面,被广泛应用于学术研究和商业领域。

3.GATE:GATE(General Architecture for Text Engineering)是一款开源的文本工程软件,提供了丰富的文本处理和语言分析功能。

它具有高度的灵活性和可扩展性,深受开发者和研究者的喜爱。

4.谷歌语料库:谷歌语料库是一个庞大的在线语料库资源,提供了大量的文本数据和查询功能。

语料库翻译研究的历史与进展兼评《语料库翻译研究理论 发现和应用》

语料库翻译研究的历史与进展兼评《语料库翻译研究理论 发现和应用》

其次,明确化也是翻译中常见的一种策略。在Maeve的翻译作品中,这种策 略也被广泛应用。例如,在一些情况下,原文中的隐含意义或暗示在译文中被明 确表达出来,使得读者更容易理解原文的含义。这种明确化的翻译策略在一定程 度上增加了译文的冗余性,但同时也提高了译文的可读性。
此外,规范化也是翻译中常见的一种现象。在Maeve的翻译作品中,我们也 发现了这种现象。例如,在某些情况下,原文中的语言习惯或修辞手法被规范化, 取而代之的是更符合目标语言习惯的表达方式。这种规范化的翻译策略在一定程 度上削弱了原文的个性和风格,但同时也使得译文更加地道、自然。
在撰写正文部分,胡开宝教授运用平实准确的语言,逐步引入语料库翻译学 的各个概念和研究方法。他不仅介绍了语料库翻译学的基本概念、发展历程和理 论基础,还详细阐述了语料库翻译学的研究方法、翻译语料库的建立与应用等核 心内容。与此他还从实践角度出发,通过具体的案例分析,使读者更好地理解和 掌握语料库翻译学在实践中的应用。
4、跨文化交流:通过对不同文化背景下的翻译语料库进行分析,可以了解 不同文化之间的差异和相似之处,有助于促进跨文化交流和理解。
参考内容
随着语言学和翻译学的不断发展,语料库翻译研究逐渐成为一种重要的研究 方法。这种研究方法以真实的语言使用情况为基础,通过大量的语料分析,揭示 翻译的普遍特征和规律。其中,Maeve是一个备受的人物,她的作品既具有独特 的风格,又具有深厚的文化内涵,为翻译研究提供了丰富的素材。
最后,整齐化和集中化也是翻译中常见的一种策略。在Maeve的翻译作品中, 我们也发现了这种现象。例如,在某些情况下,原文中的信息结构或语言表达方 式被整齐化和集中化,使得译文的节奏感和韵律感更加鲜明。这种整齐化和集中 化的翻译策略在一定程度上增加了译文的难度,但同时也提高了译文的文学性和 艺术性。

国内语料库研究综述

国内语料库研究综述

国内语料库研究综述摘要本文旨在回顾国内语料库研究的发展历程、现状,并探讨未来研究方向。

通过分析相关文献资料,文章总结了国内语料库研究的主要成果、不足之处,并提出了针对性的建议。

本文旨在为语料库研究领域的学者提供参考,以推动国内语料库研究的发展。

关键词:语料库、国内研究、发展历程、现状、未来研究方向引言语料库是指为语言研究而收集的、有一定规模的、有代表性的语言材料集合。

自20世纪中期以来,语料库在国外得到了广泛应用,并在多个领域取得了显著的成果。

近年来,随着国内语言学、计算语言学等学科的快速发展,语料库在国内的研究和应用也逐渐受到重视。

本文将重点探讨国内语料库研究的现状、成果及未来研究方向。

研究现状1.国内语料库的发展历程和现状自20世纪80年代起,国内开始出现一些小型语料库的建设和研究,如国家语委现代汉语通用词库等。

随着计算机技术的不断发展,90年代中后期以来,国内开始大力推进语料库的建设和研究,涉及的领域也日益广泛。

目前,国内已经建立了一系列不同规模、不同类型的语料库,如中国传媒大学的中国广播电视媒体语言语料库、上海交通大学的中文文本分类语料库等。

2.基于不同领域语料库的研究成果和不足语料库在多个领域得到了广泛应用,如语言教学、词典编纂、语言政策研究等。

在语言教学领域,语料库可以提供真实的语言材料和语境,有助于提高语言学习者的兴趣和理解能力。

在词典编纂领域,语料库可以提供大量的实例和用法,有助于提高词典的准确性和实用性。

在语言政策研究领域,语料库可以提供真实的语言使用情况和发展趋势,有助于制定科学的语言政策和发展规划。

然而,国内基于不同领域语料库的研究成果尚不够丰富,且在某些领域还存在着研究空白。

例如,针对特定领域的语料库建设和研究尚不够深入,部分领域的语料库仍存在着规模较小、代表性不足等问题。

此外,针对语料库在二语习得、语言演化等领域的研究尚不够充分。

3.国内语料库在语言教学中的应用语料库在语言教学中的应用已经得到了广泛的认可。

语料库语言学的发展及研究现状

语料库语言学的发展及研究现状

当代语言学(试刊)1998年第1期4-12页,北京语料库语言学的发展及研究现状丁信善1.0引言语料库语言学已经成为语言研究的主流。

基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。

这是J.Thomas等人1996年为祝贺语料库语言学的主要奠基人和倡导者G.Leech六十诞辰而出的语料库语言学研究论集的开场白。

近年来,对语料库语言学类似的评说频频见于导论和方法论的书及教科书中,它不仅仅是语料库语言学家们的自誉,而正在成为整个语言学界的共识。

2.0语料库语言学的定义关于语料库语言学的定义,现引述三例:a. 根据篇章材料对语言的研究称为语料库语言学。

(K.Aijmer&B.Aitenberg,1991,p.1)b. 基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。

(T.M c Enery&A.Wilson,1996,p.1)c. 以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。

(D.Crystal,1991,p.86)由上述几个定义可见,语料库语言学不是研究语言自身某个方面,而是一种以语料库为基础的语言研究方法。

它实际上包括两个方面:一是对自然语料进行标注,二是对已经标注的语料的研究和利用的方法。

从方法论的角度,它不仅可以用于研究语言系统的各个层面,而且可以应用于语言学之外的其他领域。

3.0语料库语言学的历史发展语料库语言学作为一种研究语言的方法,可以追溯到上个世纪,甚至更为久远。

现在一般以乔姆斯基转换生成语法的兴衰时间为参照,将其发展大致分为以下几个阶段:3.1语料库语言学的早期发展早期的语料库语言学指的是本世纪五十年代中期以前,即乔姆斯基提出转换生成语法理论之前的所有基于语言材料的语言研究。

此类研究主要集中在以下几个方面:(1)语言习得是应用语料研究方法较早且较普遍的领域。

19世纪70年代在欧洲兴起了儿童语言习得研究的第一个热潮,当时的许多研究就是基于父母详细记载其子女话语发展的大量日记的。

《2024年语料库研究》范文

《2024年语料库研究》范文

《语料库研究》篇一一、引言语料库研究作为一门新兴的跨学科研究领域,已经逐渐成为语言学、计算机科学、人工智能等多个领域的研究热点。

语料库的建立和应用,为语言研究提供了丰富的数据资源,使得我们能够更深入地探索语言的奥秘,推动语言研究的快速发展。

本文将介绍语料库研究的重要性和应用价值,以及其发展现状和未来趋势。

二、语料库研究的重要性与价值1. 丰富语言资源语料库研究为语言研究者提供了丰富的语言资源。

通过收集大量的文本数据,我们可以了解不同地域、不同文化、不同时代的语言特点和使用情况,为语言研究和教学提供有力的支持。

2. 推动语言学研究发展语料库研究为语言学研究提供了新的方法和手段。

通过对语料库进行统计分析,我们可以发现语言的规律和特点,揭示语言的内在机制和演变规律,推动语言学研究的深入发展。

3. 促进跨学科研究语料库研究不仅在语言学领域有着广泛的应用,还涉及到计算机科学、人工智能、社会学等多个领域。

通过跨学科的合作和研究,我们可以将语料库应用于更广泛的领域,推动相关领域的快速发展。

三、语料库的建立与应用1. 语料库的建立语料库的建立需要大量的文本数据和先进的技术手段。

在收集文本数据时,需要考虑数据的来源、规模、质量等因素。

同时,还需要使用先进的技术手段对数据进行处理和标注,以便于后续的研究和应用。

2. 语料库的应用语料库的应用范围非常广泛,包括语言教学、机器翻译、自然语言处理、情感分析等多个领域。

通过应用语料库,我们可以更好地了解语言的特点和使用情况,提高语言教学的效果和机器翻译的准确性。

四、语料库研究的现状与未来趋势1. 现状目前,语料库研究已经取得了重要的进展和成果。

许多大型的语料库已经建立起来,为语言研究和应用提供了有力的支持。

同时,随着计算机技术和人工智能技术的不断发展,语料库的研究和应用也在不断拓展和深化。

2. 未来趋势未来,语料库研究将继续朝着更加深入和广泛的方向发展。

一方面,随着技术的不断进步和数据的不断增加,我们将能够建立更大规模、更全面的语料库,为语言研究和应用提供更加丰富的数据资源。

国内外英语学习者语料库的发展现状与方法

国内外英语学习者语料库的发展现状与方法

三、研究结果与讨论
为了进一步探讨这些现象的原因,我们对比了本族语者和学习者在写作中使 用的词块。发现本族语者更加倾向于使用灵活的搭配,而学习者则更倾向于使用 固定的词组。我们认为,这可能是由于学习者在语言学习过程中过于依赖记忆而 非语法规则所致。
四、教学启示
四、教学启示
本研究结果表明,中国高级英语学习者在英语写作中使用的词块存在一定的 问题。因此,教师在教学过程中应注意以下几点:
主题词的发展趋势
主题词的发展趋势
随着技术的不断进步,主题词的发展趋势也日益明显。特别是人工智能和自 然语言处理技术的快速发展,对主题词的研究和应用将产生深远影响。以下是未 来主题词可能的几个发展趋势:
主题词的发展趋势
1、自动主题词提取:利用人工智能技术,可以自动从大规模文本数据中提取 出关键主题词,提高主题词提取的效率和准确性。
五、展望未来
五、展望未来
在总结前人研究的基础上,我们对国内外英语学习者语料库的未来发展进行 展望。首先,随着技术的不断发展,多模态数据处理能力将得到提升。这将使我 们能够更加全面地了解英语学习者的语言使用情况,进一步深化对语言学习的认 识。其次,语料库的标准化和数据偏差问题将得到更好的解决,提高研究的可靠 性和准确性。
2、主题词排序:根据主题词在文本中出现的频率进行排序,可以帮助研究者 了解语料库文本中的重点和趋势。
主题词的应用
3、主题词共现分析:通过分析主题词与其他词汇的共现关系,可以挖掘语料 库中文本之间的和语义关系。
主题词的应用
4、主题词情感分析:通过判断文本中主题词的情感倾向,可以对语料库中的 文本进行情感分类或评估。
3、语义丰富性:主题词具有丰富的语义信息,能够表达多种含义和概念,有 助于研究者深入挖掘语料库中的信息。

国内基于语料库的翻译研究二十年综述(1999—2018)

国内基于语料库的翻译研究二十年综述(1999—2018)

国内基于语料库的翻译研究二十年综述(1999—2018)1. 引言1.1 研究背景语料库翻译研究作为一门交叉学科,融合了语言学、计算机科学、信息学等多个领域的知识,其发展历程与语料库研究紧密相连。

20世纪90年代以来,随着计算机和互联网的普及,国内关于语料库研究的兴起,为语料库翻译研究奠定了基础。

语料库是指包含真实语言使用情况的大规模文本数据库,研究者通过对语料库的收集、整理和分析,探索语言规律和语言现象,为翻译研究提供丰富的实证数据。

语料库研究在翻译领域的应用日益广泛,不仅可以帮助翻译人员提高翻译质量和效率,还可以促进研究者对翻译过程和机制的深入理解。

然而,国内关于基于语料库的翻译研究相对较晚起步,虽然近年来取得了一些成果,但整体发展还存在一定的不足。

因此,对这一领域进行综述,总结其发展历程、应用情况、研究方法和技术以及存在的问题和挑战,对于推动语料库翻译研究的发展具有重要意义。

这也是本综述的出发点和重要意义所在。

1.2 研究目的语料库翻译研究的目的主要包括以下几个方面:1. 探讨语料库在翻译领域的应用:通过分析语料库中的大量实际语言数据,揭示翻译过程中存在的规律和特点,为翻译实践提供科学依据和方法论支持。

2. 提高翻译质量和效率:通过分析语料库数据,挖掘翻译中常见的问题和错误,并提供相应的解决方案和改进措施,帮助翻译人员提高翻译质量和效率。

3. 探讨语言间的特点和差异:语料库研究可以帮助我们深入了解不同语言之间的差异和联系,从而为跨语言翻译和跨文化交流提供更加科学和准确的信息基础。

4. 推动翻译技术的发展和应用:借助语料库研究的成果,可以为机器翻译、计算机辅助翻译等翻译技术的发展提供重要参考和支持,推动翻译技术向更加智能化和人性化的方向发展。

1.3 研究意义语料库研究是翻译领域中一项重要的研究方向。

通过对大规模语料库的分析和应用,可以更好地理解翻译规律、提高翻译质量、加速翻译速度,从而为翻译工作者提供更有效的工具和方法。

语料库语言学的研究现状和发展展望

语料库语言学的研究现状和发展展望

使 得 对于 语 言学 的 研究 又 基于 现 实
,
学科 相 结合 的 趋势 及翻译学等

如语 言 教学
政治 学

社会学
索 不够

从 这 一 点 来看
语料 库 语言 学 对于 语 言
最 先 与 语 料 库 相 结 合 并 且 研 究数 量
,


结语
,
学 研究 方法 的 影 响要胜于 它 对语 言 学理 论 研究 的 影 响


二 十 世 纪 中后 期 出

语语 料 库研 究 为主 料库
,
但 国 内已 经 建 立 了 多 个汉 语 语
,
专 业相 关 的专 用 语料 库
现 了一 个新 兴 的学 科 即 语 料 库语 言 学
语 料库 是指
其 中的 大多 数 是基 于 文本 建 立的

基 于 口语
语 料 库 语 言 学 跨 学 科 研究 将 进 一 步 增 强
;
发 展 展望

,
包 括通 用 语料 库


专 用 语料 库

平 行 语料 库

包 含更 多 的材 料
如 声音
,

图片
和视 频 等

同时
,
可 比语 料库 随 着 人类 进 入 科 技 时 代
,
学 习 者 语料 库
,
语 料 库主 要 还是 以 英
也 会有 多维 度 的语 料库 专 门行 业

即 不 同领域 的语 料库
认知语
技 能 够 发 现 语 料 之 间存 在 的 规 律
库 的建 立只 存 在小 型 的研 究 中不 给 你不 成 规模 和体 系

近十年国内语料库语言学研究综述

近十年国内语料库语言学研究综述

近十年国内语料库语言学研究综述一、本文概述近年来,随着信息技术的飞速发展和大数据时代的来临,语料库语言学在国内语言学界的影响力逐渐增强。

本文旨在全面梳理近十年国内语料库语言学研究的发展脉络,总结研究成果,分析存在的问题,并展望未来的发展趋势。

本文将从语料库的建设、语料库语言学理论、语料库在语言教学和研究中的应用等方面展开综述,以期为国内语料库语言学的研究者提供一个清晰的研究全景和参考框架。

通过对近十年国内语料库语言学研究的系统回顾,本文旨在推动语料库语言学在国内的深入发展,为语言学研究的创新提供新的视角和方法。

二、语料库建设与研究近十年,我国语料库语言学在语料库建设方面取得了显著进展。

语料库作为语言学研究的基础资源,其规模和质量直接影响到研究的深度和广度。

在这一时期,我国学者和机构积极投入语料库的建设工作,不仅扩充了语料库的种类和数量,还提高了语料的质量和标注精度。

在语料库种类方面,除了传统的通用语料库外,还出现了专门针对某一领域或语体的语料库,如法律语料库、医学语料库、社交媒体语料库等。

这些专业语料库为相关领域的研究提供了丰富的数据支持。

在语料库规模方面,随着大数据技术的发展,语料库的规模不断扩大。

大型语料库如“国家语委现代汉语语料库”“古代汉语语料库”等,为语言学研究提供了海量的语料资源。

在语料质量方面,我国语料库建设注重语料的真实性和代表性。

通过严格的语料采集和筛选流程,确保语料的质量和准确性。

同时,采用自动化和半自动化的方法对语料进行预处理和标注,提高了语料的处理效率和质量。

在语料库研究方面,我国学者充分利用语料库资源进行各种语言学研究。

通过语料库的统计分析,揭示语言现象的本质和规律。

还利用语料库进行语言对比研究、语言演变研究、语言教学研究等,推动了语言学研究的深入发展。

近十年我国语料库语言学在语料库建设与研究方面取得了显著成就。

语料库的规模和质量不断提升,为语言学研究提供了强大的数据支持。

语料库在中国的研究发展与趋势

语料库在中国的研究发展与趋势

语料库在中国的研究发展与趋势作者:刘皓来源:《现代交际》2017年第08期摘要:中国语料库的研究历经了30多年的发展,已经取得了长足的进步,并呈现出了一定的发展趋势。

本文通过文献计量法分析语料库在中国的研究发展趋势:整理了中国知网(CNKI)1982年至2016年与语料库研究有关的文献11056篇;对文献年度数量、文献来源、研究层次、研究学科、发表机构、论文作者、科技成果、经费支持、人才培养等进行了详细分析。

将语料库研究在中国的发展划分为3个阶段:1982年至1999年的萌芽阶段,2000年至2010年的快速增长阶段,2011年至2016年的高速成长阶段。

总结和探索了语料库在中国的研究变化趋势,指出目前语料库研究存在的不足。

旨在进一步服务和推动中国语料库研究的持续健康发展。

关键词:文献计量学 CNKI 语料库中图分类号:H0 文献标识码:A 文章编号:1009-5349(2017)08-0170-04语料库语言学是在文本语料的基础上进行语言研究的一门学科(杨惠中,2002),被称为结构主义语言学派与功能主义语言学派,“两阵对垒天平上的一个举足轻重的砝码”(刘杨,2009),亦是语言学科中飙升最快的学科之一。

现代大型电子语料库及相关研究,始于20世纪60年代大西洋两岸。

今年是世界上第一个机读英语语料库(布朗语料库,Brown Corpus)建立50周年的时候。

50年来,西方学者在语料库研究成果应用方面已积累了大量的经验,以语料库为基础的语言学研究在语言学和计算机科学研究中都取得了丰硕的成果,语料库的建设得到了世界各国的广泛重视。

世界上的主要语言都建立了许多不同规模、不同类型的语料库,语料库的加工程度越来越深,语料库的应用范围也越来越广,语料库在语言学研究和自然语言处理中发挥了越来越重要的作用。

语料库已经成为现代语言学研究的重要基础,在语法书编写、词典编纂、教育教学上都有诸多经典案例。

20世纪80年代以来,随着计算机应用技术的不断发展,在中国,语料库语言学从萌芽到蓬勃发展。

近十年国内语料库语言学研究综述

近十年国内语料库语言学研究综述

近十年国内语料库语言学研究综述一、概述近十年来,语料库语言学在国内的研究取得了显著的发展和突破。

随着信息技术的飞速进步和大数据时代的到来,语料库语言学在语言学研究中的地位日益凸显。

它基于大规模真实文本数据,运用统计学和计算机技术,对语言现象进行定量和定性的分析,为语言学研究提供了全新的视角和方法。

国内语料库语言学的研究范围广泛,涉及语言结构、语言变异、语言使用、语言教学等多个领域。

研究者们利用语料库资源,深入探讨了词汇、语法、语义、语用等层面的语言问题,揭示了语言现象的内在规律和特点。

同时,随着语料库建设的不断完善,语料库语言学在国内的应用也愈加广泛,为自然语言处理、机器翻译、信息检索等领域提供了强大的数据支持和技术基础。

近十年内,国内语料库语言学的研究呈现出以下几个特点:一是研究方法的多样化,不仅注重传统的统计分析方法,还引入了机器学习、深度学习等先进技术二是研究领域的拓展,语料库语言学不再局限于传统的语言结构研究,而是向语言教学、语言规划等应用领域延伸三是语料库资源的不断丰富,各类专题语料库、多语种语料库等不断涌现,为语料库语言学的研究提供了更为丰富和多样的数据来源。

总体而言,近十年国内语料库语言学的研究取得了丰硕的成果,不仅推动了语言学理论的发展,也为语言实践提供了有力的支持。

未来,随着技术的不断进步和语料库资源的日益丰富,语料库语言学在国内的研究将更加深入和广泛,为语言学研究和社会应用带来更多的创新和突破。

1. 语料库语言学的定义与重要性语料库语言学,作为一种独特的语言学研究方法,主要依赖于大规模、结构化的语言数据集合,即语料库,来进行语言分析和研究。

它通过对真实语料进行定量和定性的分析,旨在揭示语言的实际使用情况和内在规律。

近十年来,随着信息技术的飞速发展和语料库规模的日益扩大,语料库语言学在国内语言学界的地位逐渐提升,其重要性也日益凸显。

语料库语言学的定义在于其研究方法和数据基础。

其研究方法强调实证和量化,通过计算机技术和统计手段对语料库中的语言数据进行处理和分析,进而揭示语言的实际使用情况。

国内语料库翻译研究综述

国内语料库翻译研究综述

重视标准化和共享
建议制定统一的规范和标准,促进语 料库的标准化和共享,提高语料库的 质量和利用效率。
探索新的翻译理论和方 法
建议加强对翻译理论的研究,探索新 的翻译理论和方法,以更好地指导语 料库翻译实践。
THANKS
感谢观看
结论总结:根据数据分析结果,总结出翻译的规律、技 巧、策略等结论,并对翻译实践和教学提出建议和启示
03
语料库的构建与使用
语料库的构建原则
01
02
代表性
平衡性
选用的语料应具有广泛的代表性,能 够反映目标语言的不同方面,包括语 法、词汇、修辞等。
在选取语料时,应考虑到语料的来源 和领域,确保各领域、各类型的文本 都能得到合理的体现。
03
标注性
对语料进行标注,如词性标注、句法 结构标注等,以方便后续分析和研究 。
语料库的构建方法
网络抓取
利用网络爬虫技术,从各大网站、论坛、博客等获取原始 语料。
公开资源
利用已有的公开语料库,如联合国文档、新闻报道等。
合作收集
与相关机构合作,获取特定领域的语料资源。
自建语料库
根据特定研究需求,自行收集和整理语料,建立个性化的 语料库。
语料库翻译研究的进展
随着计算机技术和自然语言处理技术的发展,语料库翻译研究取得了长足的进步。
国内语料库翻译研究的现状
国内语料库翻译研究虽然起步较晚,但也取得了一定的研究成果。
研究意义
理论意义
语料库翻译研究能够为翻译研究提供更加客观、精确的数据 支持,有助于完善翻译理论体系。
应用价值
语料库翻译研究可以为翻译实践提供更加准确、可靠的翻译 参考,有助于提高翻译质量和效率。
在翻译教学领域,语料库可以帮助学生更好地掌 握翻译技能,提高翻译教学质量
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中国语料库研究的历史与现状
语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。

传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。

计算机出现后,人们可以把这些工作交给计算机去作,大大地减轻了人们的劳动。

后来,在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科——语料库语言学(corpus linguistics),并成为了自然语言处理的一
个分支学科。

语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。

多年来,机器翻译和自然语言理解的研究中, 分
析语言的主要方法是句法语义分析。

因此,在很长一段时间内,许多系统都是基于规则的,而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来,这样,这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言(sub- language)中获得一定的成功。

为了摆脱困境,自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计,以便采用一种基于统计的模型来处理大量的非受限语言。

不言而喻,语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论,从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。

本文首先简要介绍国外语料库的发展情况,然后,比较详细地介绍中国语料库的发展情况和主要的成绩,使我们对于语料库研究得到一个鸟瞰式的认识。

一、国外语料库概况
现在,美国Brown大学建立了BROWN语料库(布朗语料库),英国Lancaster大学与
挪威Oslo大学与Bergen大学联合建立了 LOB 语料库。

欧美各国学者利用这两个语料库
开展了大规模的研究,其中最引人注目的是对语料库进行语法标注的研究。

他们设计了基于规则的自动标注系统 TAGGIT 来给布朗语料库的 100 万词的语料作自动标注,正确率为77%. 他们还设计了 CLAWS 系统来给 LOB 语料库的100万词的语料作自动标注,根据统
计信息来建立算法,自动标注正确率达 96%, 比基于规则的 TAGGIT 系统提高了将近 20%. 最近他们同时考察三个相邻标记的同现频率,使自动语法标注的正确率达到 99.5%。

这个指标已经超过了人工标注所能达到的最高正确率。

现在,国外的主要语料库还有:
London-Lund口语语料库:收篇目87篇,每篇5000词,共为43.4万词,有详细的韵律标注(prosodic marking)。

AHI语料库:美国Heritage出版社为编纂Heritage词典而建立,有400万词。

OTA牛津文本档案库(Oxford Text Archive):英国牛津大学计算中心建立,有10亿字节。

BNC英国国家语料库(British National Corpus):1995年正式发布,使用TEI编码(Text Encoding Initiative)和SGML通用标准置标语言的国际标准(The Standard Generalized Mark up Language, ISO 8879, 1986年公布)。

ACL/DCI美国计算语言学学会数据采集计划:美国计算语言学学会(The association
for Computational Linguistics, ACL)倡议的数据采集计划(Data Collection Initiative, DCI),
其宗旨是向非赢利的学术团体提供语料,以免除费用和版权的困扰,用标准通用置标语言SGML统一置标,以便于数据交换。

LDC语言数据联合会 (Linguistic data Consortium): 设在美国宾州大学,实行会员制,有163 个语料库 (包括Text的以及 speech的),共享语言资源。

RWC日语语料库:日本新情报处理开发机构RWCP研制,包括《每日新闻》4年的全文
语料,语素标注量达1亿条。

亚洲各语种对译作文语料库:日本国立国语研究所研制,中野洋主持,北京外国语大学参加。

为了推进语料库研究的发展,欧洲成立了TELRI和ELRA等专门学会。

TELRI 是跨欧洲语言资源基础建设学会(Trans-European Language Resources Infrastructure )的首字母缩写,John Sinclair担任主席,由欧洲共同体提供经费,其目的在于建立欧洲诸语言的语料库,
现已经建成柏拉图(Plato)的《理想国》(Politeia) 多语语料库,建立了计算工具和资源的
研究文档TRACTOR (Research Archive of Computational Tools and Resources),正在语料
库的基础上建立欧洲语言词库EUROVOCA。

TELRI每年召开一次Seminar 。

最近的一次Seminar在Lubljana, (Slovenia)召开(22.September – 26.September.2000),主题是从语料
库中自动抽取知识(Automatic knowledge extraction)。

ELRA是欧洲语言资源学会(European Language Resources Associationi)的首字母缩写,由Zampolli担任主席,ELRA负责搜集、传播语言资源并使之商品化,对于语言资源的使用提供法律支持。

ELRA建立了欧洲语言资源分布服务处ELDA (European Language resources Distribution Agency),负责研制并推行ELRA的战略和计划。

ELRA还组织语言资源和评价国际会议
LREC (Language Resources & Evaluation Congress), 每两年一次。

第一次会议于1998年
在西班牙的Grenade举行;第二次会议在Athens(Greece)召开(31.May –
02.June.2000),第三次会议于2002年在西班牙的Las Palmas de Gran Canaria 召开(27.May – 02.June 2002)。

二、我国语料库的发展概况
(一)早期的汉语语料库
1、我国语料库研究的先河
在我国,从20世纪20年代开始,就有学者建立文本的语料库,采用统计的方法来研究
汉字的频率,其目的在于制定基础汉字的字表。

当然,这样的语料库不是机器可读的,规模也很小,它是现代语料库的雏形,开我国语料库研究的先河,在我国语料库的发展史上是功不可没功的。

著名教育学家陈鹤琴为了教学的目的,在对语料统计的基础上,编写了《语体文应用字汇》,于1925年完成,于1928年由商务印书馆出版,陈书前有“绪论”,说明“ 中文应用字汇”曾有多种,其中包括P.克仑茨(Pastor P. Kronz)的研究和他自己的编
写的《常用四千字表》。

陈鹤琴做过两次统计,第一次统计使用了六种材料,包含
554,478个汉字的语料,得不同汉字 4261个;第二次使用包含34,818个汉字的语料,
得出与4261个汉字相异的汉字458个。

第二次统计所得的成果毁于战火,在《语体文应用字汇》中印出的只是第一次统计的结果。

相关文档
最新文档