语料库研究与综述.
语料库研究方法在话语研究领域的应用综述
2252020年42期总第534期ENGLISH ON CAMPUS语料库研究方法在话语研究领域的应用综述文/孟 莹话语研究提供一些参考意见。
一、语料库与话语研究的核心特征许家金在其著作《语料库与话语研究》中指出,语料库研究的核心特征可概括为“用”“量”“器”“聚”四个方面。
“用” 即尊重语言事实和关注用法。
语料库研究以对语言使用的充分描写为根本。
“量”主要是指需要通过“量化”的分析方法进行语言学研究。
“量”在统计上,主要通过频次得以体现。
根据语料库研究的基本思想,语言属于概率性现象。
Halliday认为概率性是对语言实例的模仿,也是一种理论构念,并且这种构念体现为一种“聚合”或是“共现”关系,我们称之为“聚”。
不论是语言成分之间的关联,还是语言成分与社会学变量之间的共选关系,最终都要通过概率统计以及语料库分析工具来揭示,即“器”。
在这四项特征中,“用”“量”“器”涉及语料采集、语言特征的量化统计分析及语料库工具的运用,它们都与研究方法紧密相关,而“聚”则体现语言学理论的最终归宿。
话语研究现已成为一个独立的语言学分支学科,批判性话语分析学者倡导使用“话语研究”(discourse study)这一概念来代替“话语分析”(discourse analysis)。
The Handbook of引言语料库研究与话语研究之间存在天然的亲和力和兼容性。
不难发现很多语料库学者同时也是话语研究专家,例如Paul Baker、Douglas Biber、Michael Hoey等。
究其根本,语料库与话语研究都关注自然语言,并且都将语义研究作为重要目标。
语料库和话语研究的融合,一方面能为揭示话语意义提供丰富的语言例证和强大的分析方法;另一方面,语料库中的词汇共现、语言特征共现等创新思路为话语研究增添了理论维度。
另外,在语料库领域的代表性期刊International Journal of Corpus Linguistics 和Corpora 上总能见到较多的话语研究论文,而在话语语用研究期刊Discourse Studies 和Journal of Pragmatics 上,也有相当比重的研究采用的是语料库方法。
语料库研究与应用综述
科
商
语料库研究与应用综述
彭 刚 刘 岩
( 黑龙 江省 富裕 县 电子政 务 管 理 中心 , 龙 江 富裕 1 10 ) 黑 620
摘 要: 语科库通常指为语言研究收集的、 子形式保存的语言材料, 然出 用电 由自 现的书面语或口 语的样本汇集而成, 景 特定的语言或语言变体。 用来 关键词: 语料库 ; 究; 用 研 应
在应用语言学领域,词典编纂和语言教学同 是语料库的最大受益者。 目前 已有多部诃典杏 岛 兰 纂 或修订 过程中, 不同程度地使用语料库或电子文档 收集词语数据 , 用于收词、 释义、 例句、 属性标注等。 结束语 语料库作为 自然语言处理和应用的基础, 在 自然语言处理 要的作用。当然 , 要想使语料库更好的为我们做出 更大的贡献, 在以后的道路 E直该花更大的人力和 财力来研究和发展它。 通过 查阅 有关 语料 库 的研究 与发 展 的相关 资 料, 使我对自认语言和语料库的研究和发展有了一 定的认识。在阅读相关资料的过程中, 我了解到了 语料库的各种资源都是来源于我们的日常生活, 并 在此基础上以实用为目的, 来组建各种类型的语料 库。 同时 , ^ ^ , 我个 t为 随着计算语言学和自 然语言 信息 处理的综合发展, 语料库在计算机应用的各个 领域必将有不可估量的发展前景 , 例如在智能信息 管理 和检索方 面 。
1 述 概 语结构法”“ 、 专家系统法”“ 、 隐马尔科夫模型”“ 应用上还处于起步阶段 , 、串 在计算语言学和语言信息 在自 然语言信息处理领域 , 语言资源指的是 频统计和词匹配” 等辩识歧义 自 。识别未登录 处理领域 , 语料库主要用来为统计语言模型提供语 动分诃研究的 二 第 个重点。 词性 自 动标注通 青净,氲息 正 和既萼 据,在语言研究的其他领域, 磺 语料库和语言知识库。 语料库用来收录原始的语言 词是 自 材料, 语言知识库则收录的是反映语言内部结构规 常与 自 动分词同时进行, 根据带 有词类信息的分词 词典, 给切分出来的词语标 匕 初始的词类标记。对 近年来在语料库的支持下,从信息处理的角 律和言 糊 程 认知规律 的知识 。 语料库通常指为语言研究收集的、用电子形 于兼类词, 必须在句子里判断类别。因此需要分析 度研究汉语词汇、 语法和语义问题的报告也 日渐增 并用 多。这些研究包括 : 式保存的语言材料 , 由自然出现的书面语或口语的 兼类词语在上下文中的分布特点和语法功能 , 根据逐诃索引作汉语词义的调 样本汇集而成,甩来代表特定的语言或语言变体。 形式化的方式表达出来 , 查; 对词语搭配进行计量分析 ; 利用量词——名词 经过科学选材和标注、 具有适当规模的语料库能够 类 的规 则 。 的搭配数据研 究汉语名词分类 题; a 进行现代汉语 反映和记录语言的实际使用情况。 人伸 百 过语料库 经过分词的语料 , 除了标注词性以外 , 还可以 句型的统计和研究 ; 做短语 自动识别( 例如基本名 观察和把握语言事实 , 分析和研究语言系统的规 进一步标注其他语言学属性, 譬如韵律、 语调、 短语 词短语、 动宾结构) 自 和 动句法分析的试验 ; 研究在 律。语料库已经成为语言学理论研究 五 月 研究和 结构、 句法结构、 义关系等等。 语 句子的语法结构需 句子里为词语排除歧义的算法 ; 分析和统计汉语词 语言工程不可缺少的基础资源。 要有形式化的方式来表达, 大多数语料库或者采用 语重叠结构的深层结构类型及产生方式 , 等等。 或者采用依存语法树的方式, 这样标 语料库与语言信息处理有着某种天然的联 短语结构树, 对于词汇学、 语法学、 语言理论、 历史语苣 等 系。当人们还不了解语料库方法的时候, 自然语 注过的语料库就成为短语树库或句法树库。 在 —般情 研究来说, 语料库的作用 目前大多还是通过语料检 言理解和生成、 机器翻译等研究中, 分析语言的主 况下, 在词性标注的基础 E 再作进一步的语法标注 索和频率统计,帮助 ^ 们观察和把握语言事实, 分 要方 法是 基= 呗Ⅱ Ruebsd。 于 肆 了 的( l- ae )对 呗 0 加工, 无 多以人工为主, 也有关于 自动短语定界和句 析和研究语言的规律。 语料库方法的发展会使这种 法表达或不能涵盖的语言事实 , 计算机就很准处 法信息 自 动标注的研究和实验。 前已有的汉语短 仅起辅助作用的手段逐步变成必备的应用资源和 目 理。语料库出现以后, 人们利用它对大规模的 自然 语库、 句法树库规模都不大, 至多百万词级。 工具。 利用语料库 , 人们可以把指定的语法现象加 语言进行调查和统计 , 建立统计语言模型 , 研究和 2 2语料库管理系统 以量化, 并且检测和验证语言理论 、 规则或假设。 应用基于统计的(tita- ae 言处理技术 , Sa sclbsd ti 经过科学选材和标注、具有适 当规模的语料 在少数民族语言和方言调查研究方面,比较 还应该有—个功能齐备的管理系统, 包括数据 有代表眭的] { ‘ 在信息检索、 文本分类 、 文本过滤、 信息抽取等应用 库 , 二 铺缅语语料库及比较研究的计 f黾 方向取得了 进展。另—方面, 语言信息处理技术的 维护( 语料录入 、 、 校对 存储、 、 修改 删除及语料描述 量描写” 。它建立了我国境内藏缅语族五大语支 8 2 发展也为语料库的建设提供了支持。从字符编码、 信息项目 管理) 、 自 语料 动加工( 分词、 标注、 文本分 个语言点 l 万词条的词汇语音数据库 , 6 对藏语方 文本输入和整理, 语料的 自动分词和标注 , 到语料 割、 合并 、 语料对齐、 标记处理等 ) 、 用户服务功能 言的音节、 音位、 声母、 韵母、 声词、 词素、 阋能力 构 的绚|卜 t司 胁睑索 , 自然语言信 息瘦 理的研究 吾料 ( 查询、 检索、 统计、 作了分布和对 比分析。 0 的加工提供了 关键性的技术。 要涉及汉字字符处理、 文本处理、 文件管理等计算 对藏语 1 个方言点 5 作了语音对应关系和音系对 比 2 语料库的加工、 管理 机程序设计技术。 语料 自动加工部分的主要内容是 关系的量f 描述, 艺 并且在这 做出具有历时 2l 语料的加工 自动分词 、 各种语言学属性的标注技术 , 已经在前 和共时比皎研究意义的相关分析 , 得出了语言分类 与三 个 因素有 面专 门介 绍过 了。最 重 要的是 面 向用 户 的语 料 检
《2024年语料库研究》范文
《语料库研究》篇一一、引言语料库作为一种资源丰富的语言数据集合,已成为语言学、语言学研究以及相关领域的热点研究对象。
它能够为语言分析、语言教学、翻译、词典编纂等多个领域提供支持。
本文将介绍语料库研究的重要性,并就当前语料库研究的现状进行梳理,进而分析其中存在的挑战和问题,并探讨未来的发展趋势。
二、语料库研究的现状1. 语料库类型及建设随着技术的进步,语料库建设日趋成熟。
根据不同领域和用途,语料库可大致分为通用型和专用型。
其中,通用型语料库如COCA、BNC等,涵盖了广泛的语言使用场景;专用型语料库则针对特定领域或主题进行收集,如法律、医学等。
此外,还有多媒体语料库和口语语料库等类型。
在建设过程中,研究者需考虑语料库的规模、代表性、时效性等因素。
2. 语料库应用领域语料库在多个领域得到了广泛应用。
在语言学领域,语料库为语言研究提供了丰富的数据支持;在翻译领域,语料库可帮助提高翻译的准确性和效率;在词典编纂方面,语料库为词汇的收集和释义提供了有力支持。
此外,在语言教学、自然语言处理等领域,语料库也发挥着重要作用。
三、当前挑战与问题尽管语料库研究取得了显著成果,但仍面临诸多挑战和问题。
首先,在语料库建设方面,如何确保数据的代表性和真实性是一个亟待解决的问题。
此外,随着技术的发展,如何利用人工智能等手段对语料库进行智能化处理和利用也是一大挑战。
其次,在应用方面,如何将语料库与实际需求相结合,提高应用效果也是一个难题。
此外,不同领域和行业对语料库的需求存在差异,如何满足这些不同需求也是一项挑战。
四、未来展望面对未来的发展,语料库研究将呈现以下几个趋势:1. 多样化与个性化:随着用户需求的多样化与个性化发展,未来的语料库将更加关注用户需求和实际应用场景的差异。
研究者需要设计更多类型的语料库来满足不同领域和行业的需求。
2. 智能化与自动化:人工智能技术的不断发展将促进语料库的智能化和自动化处理。
例如,利用自然语言处理技术对语料进行自动标注、分类和分析等操作,提高处理效率和准确性。
可比语料库构建与可比度计算研究综述
可比语料库构建与可比度计算研究综述随着全球化的发展以及科技的进步,跨国交流和合作呈现出日益紧密的态势。
然而,由于语言的差异,不同国家和地区之间的交流仍存在一定的困难,因此研究可比语料库构建与可比度计算具有重要的意义。
本文将综述相关研究的进展和现状。
一、可比语料库构建可比语料库是指在对比两种或多种语言时,通过建立一定数量的相互翻译的语料库,达到了研究语言差异和相似性的目的。
可比语料库的构建一般包括四个步骤:语料筛选、翻译、对齐和清理。
1.语料筛选语料筛选是构建可比语料库的第一步,目的是从文本库中选择出符合研究要求的文本,使得语料库的内容能够保持一定的平衡,并且具有代表性。
在语料筛选过程中,需要考虑以下因素:文本主题、文本来源、文本作者、文本语言、文本类型等。
2.翻译翻译是可比语料库构建的关键步骤。
在翻译过程中需要考虑到不同语言之间的语法、词汇、语义等问题,确保翻译结果的准确性和可信度。
传统的翻译方法是人工翻译,虽然能够有效保证翻译质量,但是需要耗费大量的时间和人力。
近年来,基于统计机器翻译和神经网络机器翻译的自动翻译技术得到了广泛的应用,可以大幅提高翻译效率和准确率。
3.对齐对齐是确保语料库中不同语言文本之间已经被正确定位的重要步骤。
对齐可以分为句子级对齐和词语级对齐,其中词语级对齐更加复杂和耗时。
传统对齐方法是基于手动或半自动的方法进行对齐,但这种方法难以扩展到大规模的语料库中。
近年来,应用基于机器学习和人工智能技术的自动对齐方法越来越受到关注。
4.清理清理是指删除语料库中的非目标文本和不合法的文本。
语料库清理一般包括去除停用词、去除无效符号和字符、统一命名等工作。
清理的过程一般是手动进行,借助于一些文本编辑器或者编程工具。
清理的好坏直接影响到可比度计算的准确性和可信度。
二、可比度计算方法可比度计算是衡量两个相似文本之间的相似度的量化指标。
对于可比语料库的研究,可比度计算是必不可少的一个环节。
通常,在计算可比度时,需要考虑以下因素:词频、词性、上下文等。
国内基于语料库的批评话语分析研究综述
国内基于语料库的批评话语分析研究综述一、本文概述随着语言学研究的深入发展,批评话语分析(Critical Discourse Analysis, CDA)作为一种重要的语言学研究方法,在国内语言学界逐渐受到广泛关注。
本文旨在综述国内基于语料库的批评话语分析研究的现状和发展趋势,以期为相关研究提供有益的参考和启示。
本文将简要介绍批评话语分析的基本理论框架和研究方法,阐述其在语言学研究中的重要地位和作用。
本文将重点回顾和分析国内基于语料库的批评话语分析研究的主要成果和贡献,包括研究主题、研究方法、研究数据等方面的内容。
在此基础上,本文将探讨当前研究中存在的问题和不足,并展望未来的研究方向和发展趋势。
通过本文的综述,我们希望能够为国内批评话语分析的研究者提供全面的研究视角和深入的理论思考,推动国内批评话语分析研究的进一步发展。
本文也期望能够引起更多学者对批评话语分析的关注和兴趣,共同推动语言学研究的深入和创新。
二、国内批评话语分析的发展历程批评话语分析(Critical Discourse Analysis, CDA)作为一种语言学研究方法,自20世纪70年代末在西方兴起以来,逐渐受到国内外学者的关注。
在中国,批评话语分析经历了从引进介绍到自主研究的发展历程,成为语言学领域的一个研究热点。
早期的研究主要集中在翻译和介绍西方的批评话语分析理论和方法,如Fairclough的三维分析框架、Wodak的话语-历史分析方法等。
这些研究不仅为国内学者提供了理论支撑,也为后续的实证研究奠定了基础。
随着研究的深入,国内学者开始结合中国的社会文化背景,对批评话语分析进行本土化改造。
他们运用批评话语分析的理论框架,分析中国的社会问题,如贫富差距、性别歧视、环境污染等。
这些研究不仅揭示了社会问题的语言表征,也提出了相应的解决策略。
近年来,随着语料库语言学的发展,基于语料库的批评话语分析逐渐成为国内研究的新趋势。
学者们利用大规模语料库,对特定话题或事件进行定量和定性分析,揭示其背后的社会、政治和文化因素。
语料库研究综述
语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型:
(1)异质的(Heterogeneous):
没有特定的语料收集原则,广泛收集并原样存储各种语料;
(2)同质的(Homogeneous):
只收集同一类内容的语料;
(3)系统的(Systematic):
下面先简要叙述1998年到2003年中国语料库建设的基本情况,然后介绍语料库的加工、管理和规范问题,最后谈谈语料库方法在语言研究和语言工程等方面的应用。由于以前的《中国语言学年鉴》很少谈及语料库问题,为了尽可能全面地反映我国语料库研究和应用的情况,必要时会将时间上限向前延伸几年。
二中国语料库建设的基本情况
这个语料库收录的语料以书面语为主、以书面语转述的口语为辅。语料来源是19年至今,主要是1977年至今出版的教材、报纸、综合性刊物、专业刊物和图书。在设计原则上,讲求通用性、描述性、实用性和抽样的科学性。在语料分类方面,以“门类为主,语体为辅”为原则制定三个大类:
国内语料库研究综述
国内语料库研究综述摘要本文旨在回顾国内语料库研究的发展历程、现状,并探讨未来研究方向。
通过分析相关文献资料,文章总结了国内语料库研究的主要成果、不足之处,并提出了针对性的建议。
本文旨在为语料库研究领域的学者提供参考,以推动国内语料库研究的发展。
关键词:语料库、国内研究、发展历程、现状、未来研究方向引言语料库是指为语言研究而收集的、有一定规模的、有代表性的语言材料集合。
自20世纪中期以来,语料库在国外得到了广泛应用,并在多个领域取得了显著的成果。
近年来,随着国内语言学、计算语言学等学科的快速发展,语料库在国内的研究和应用也逐渐受到重视。
本文将重点探讨国内语料库研究的现状、成果及未来研究方向。
研究现状1.国内语料库的发展历程和现状自20世纪80年代起,国内开始出现一些小型语料库的建设和研究,如国家语委现代汉语通用词库等。
随着计算机技术的不断发展,90年代中后期以来,国内开始大力推进语料库的建设和研究,涉及的领域也日益广泛。
目前,国内已经建立了一系列不同规模、不同类型的语料库,如中国传媒大学的中国广播电视媒体语言语料库、上海交通大学的中文文本分类语料库等。
2.基于不同领域语料库的研究成果和不足语料库在多个领域得到了广泛应用,如语言教学、词典编纂、语言政策研究等。
在语言教学领域,语料库可以提供真实的语言材料和语境,有助于提高语言学习者的兴趣和理解能力。
在词典编纂领域,语料库可以提供大量的实例和用法,有助于提高词典的准确性和实用性。
在语言政策研究领域,语料库可以提供真实的语言使用情况和发展趋势,有助于制定科学的语言政策和发展规划。
然而,国内基于不同领域语料库的研究成果尚不够丰富,且在某些领域还存在着研究空白。
例如,针对特定领域的语料库建设和研究尚不够深入,部分领域的语料库仍存在着规模较小、代表性不足等问题。
此外,针对语料库在二语习得、语言演化等领域的研究尚不够充分。
3.国内语料库在语言教学中的应用语料库在语言教学中的应用已经得到了广泛的认可。
可比语料库构建与可比度计算研究综述
可比语料库构建与可比度计算研究综述近年来,随着全球化进程的加速推进,各种语言之间的比较和对比研究变得越来越重要。
在这样的背景下,可比语料库的构建和可比度计算成为了研究的热点之一。
本文将就可比语料库构建与可比度计算进行综述,以期能够对相关研究进行系统性的总结和分析。
一、可比语料库构建可比语料库是指用于比较不同语言或者不同语言变体的语料库,是进行跨语言研究的重要工具。
可比语料库的构建涉及到多个方面的工作,包括语料库的收集、清洗和组织等。
语料库的收集是首要的工作,通常可以通过网络爬虫和大规模文本数据挖掘的方式来获取相关语料。
而语料库的清洗则包括对文本数据的去重、去噪和标注等工作,以确保语料库的质量和可用性。
语料库的组织则涉及到对语料进行分块、索引和标引等操作,以方便后续的使用和分析。
在可比语料库的构建过程中,有一些关键的技术挑战需要面对。
不同语言之间存在着差异性,包括语法、词汇和语言结构等方面,因此如何进行跨语言对比和对齐是一个难点。
不同语料库之间存在着数据格式和标注方式的差异,如何将不同语料库进行整合和统一也是一个挑战。
语料库的规模和质量也对后续的分析和研究产生着重要影响,因此如何构建高质量的可比语料库是一个需要深入研究的问题。
二、可比度计算可比度是指在不同语言或者不同语言变体之间进行比较时所需要考虑的一个重要指标,通常可以通过计算语言之间的相似性和差异性来进行度量。
可比度计算涉及到多个方面的内容,包括语言之间的词汇对齐、句法结构比对和语义相似度计算等。
词汇对齐是最基本的工作,通常可以通过统计方法和机器学习方法来进行词汇的对齐和映射。
而句法结构比对涉及到对句子的分析和比对,通常可以通过语法树和依存关系来进行句法结构的比对。
语义相似度计算则涉及到对词语和句子的语义信息进行度量,通常可以通过语义网络和词向量等方式来进行语义相似度的计算。
在可比度计算的过程中,也存在着一些技术挑战和难点。
不同语言之间存在着巨大的差异性,如何将差异转化为可比的度量指标是一个难题。
国内语料库翻译研究综述
2023-10-30
目录
• 引言 • 语料库翻译研究概述 • 语料库翻译技术研究 • 语料库翻译应用研究 • 语料库翻译研究趋势与挑战 • 结论
01
引言
研究背景与意义
背景
随着语料库翻译研究的不断发展,越来越多的学者开始关注语料库在翻译研究中的应用。通过对语料 库的深入挖掘和分析,可以揭示翻译过程中的规律、特点和问题,为翻译理论研究和翻译实践提供有 力支持。
翻译理论构建
研究关注翻译理论的构建,探讨语料库翻译研究与翻译理 论的关联,以及基于语料库的翻译理论体系的构建。
研究不足与展望
研究广度与深度
国内语料库翻译研究在广度和深度上 仍需加强,拓展研究领域和问题,深
化对翻译现象的探究。
技术应用与创新
进一步推动语料库技术在翻译研究 中的应用与创新,开发更具创新性
语料库翻译研究趋势
语料库翻译研究在近年来得到 了广泛的关注,其研究范围和 深度不断拓展。
跨学科的研究方法逐渐成为主 流,包括语言学、计算机科学 、心理学等。
随着大数据技术的不断发展, 语料库翻译研究正朝着大规模 、多语种、多层次的方向发展 。
语料库翻译研究的理论和实践 相结合,不断推动翻译学科的 发展。
翻译产业化发展
语料库翻译在翻译产业化发展中的应用有助于实现翻译 的规模化和产业化,促进翻译产业的快速发展。
跨文化交流应用
文化差异研究
语料库翻译在跨文化交流中的应用有助于研究不同文化之间的差异和相似之处,通过对比和分析不同文化背景下的翻译语料 ,可以更好地理解不同文化的特点和价值。
跨文化交际能力培养
意义
通过对语料库翻译研究的应用,可以更加客观、全面地了解翻译现象的本质和规律,进一步推动翻译 学科的发展,提高翻译质量和效率。此外,语料库翻译研究还可以为跨文化交流、语言习得等领域提 供有益的启示和研究方法。
国外语料库隐喻研究综述
感谢观看
在社会学领域,研究者们则了隐喻在社会交流和社会建构中的积极作用,并 探讨了隐喻在社会批判和文化重构中的重要地位。
然而,国外隐喻研究也存在不足之处。首先,不同领域的隐喻研究存在孤立 现象,缺乏跨学科的交流和合作。其次,隐喻研究中的主观性和任意性较大,缺 乏统一的评价标准。最后,对于隐喻的认知机制和功能仍需进一步深入研究。
尽管国外隐喻研究已经取得了丰硕的成果,但也存在一些问题。首先,不同 领域的隐喻研究存在孤立现象,缺乏跨学科的交流和合作。其次,隐喻研究中的 主观性和任意性较大,缺乏统一的评价标准。最后,对于隐喻的认知机制和功能 仍需进一步深入研究。
三、国外隐喻研究的成果和不足
国外隐喻研究取得了很多成果。在语言学领域,研究者们发现隐喻在语言的 运用和理解中具有重要作用,可以帮助人们更好地认知和理解抽象概念。在文学 领域,研究者们探究了隐喻在作品中的艺术表现和文化内涵,深入剖析了隐喻在 文学作品中的审美功能。在心理学领域,研究者们通过实验和观察等方法,揭示 了隐喻在思维和行为中的重要作用和机制。
3、隐喻的语境和意义
基于语料库的隐喻研究还能够探讨隐喻的语境和意义。通过对大量含有隐喻 的语言实例进行对比分析,研究者可以发现隐喻在不同语境下的使用和意义变化 情况。例如,通过对英语新闻语料库中的政治隐喻进行分析,研究者发现政治家 们使用隐喻来形象地表达政治观点和政策,而这些隐喻的意义往往因政治立场和 意识形态的不同而有所差异。
3、深化对隐喻认知机制的研究:目前对于隐喻的认知机制和功能仍需进一 步深入研究。未来的研究需要运用更加先进的神经科学、心理学等方法和技术, 探究隐喻在大脑中的认知过程和神经基础。
4、研究隐喻在不同领域的应用:未来的研究可以进一步拓展隐喻在不同领 域的应用价值。例如,在教育、广告、外交等领域中,隐喻的使用具有重要的意 义和作用。对这些领域中的隐喻应用进行研究,可以进一步提高隐喻研究的实用 价值和社会影响力。
《2024年语料库研究》范文
《语料库研究》篇一一、引言随着信息技术和人工智能的快速发展,语料库研究已经成为了语言学、文学和人类学等领域内的一项重要研究手段。
语料库(corpus)即大量的电子文本资料,为我们提供了探究语言使用模式、词汇搭配、句法结构、语言变迁等重要问题的强大工具。
本文将围绕语料库研究的理论背景、研究方法以及在语言与文化领域的应用进行详细阐述。
二、语料库研究的理论背景语料库研究基于大量真实的文本数据,通过对这些数据的分析,我们可以获取关于语言使用的大量信息。
这些信息对于研究语言结构、语言演变、语言教学以及跨文化交际等方面具有重要的价值。
此外,语料库的多样性使得我们能够从不同角度、不同层面探究语言现象,为语言学和其他相关学科的研究提供了丰富的资源。
三、语料库研究的方法1. 语料库的构建:首先需要收集大量的文本数据,并按照一定的规则和标准进行整理和分类,构建成一个可供研究的语料库。
2. 数据处理:对语料库中的数据进行清洗和预处理,以便进行后续的分析和研究。
3. 统计分析:运用统计学和计算机辅助技术对数据进行处理和分析,提取出有用的信息。
4. 结果解读:根据分析结果,结合语言学、文学和人类学等相关知识,对结果进行解读和解释。
四、语料库在语言与文化领域的应用1. 语言结构研究:通过语料库分析,我们可以了解语言的词汇搭配、句法结构等语言特征,从而揭示语言的内在规律。
2. 语言教学:语料库可以用于语言教学,帮助教师和学生了解真实语言环境中的语言使用情况,提高语言学习的效果。
3. 文化研究:通过分析不同语料库中的文本数据,我们可以探究不同文化背景下语言使用的差异,揭示文化对语言的影响。
五、结论语料库研究作为一项重要的研究手段,已经广泛应用于语言学、文学和人类学等领域。
通过对语料库的深入研究,我们可以更好地了解语言的内在规律,揭示文化对语言的影响,为相关领域的研究提供有力的支持。
然而,语料库研究仍面临一些挑战,如语料库的构建、数据的处理和分析等。
语料库研究综述
语料库研究与应用综述目录一概述二中国语料库建设的基本情况三语料库的加工、管理和规范四语料库在语言研究中的的应用五参考文献语料库研究与应用综述一概述语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。
经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。
人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。
语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。
语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。
有人曾经把语料库分成四种类型:(1)异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的(Homogeneous):只收集同一类内容的语料;(3)系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的(Specialized):只收集用于某一特定用途的语料。
除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。
按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。
双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。
语料库建设中涉及的主要问题包括:(1)设计和规划:主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。
(2)语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持平衡性等。
(3)语料的加工:包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。
近十年国内语料库语言学研究综述
近十年国内语料库语言学研究综述一、本文概述近年来,随着信息技术的飞速发展和大数据时代的来临,语料库语言学在国内语言学界的影响力逐渐增强。
本文旨在全面梳理近十年国内语料库语言学研究的发展脉络,总结研究成果,分析存在的问题,并展望未来的发展趋势。
本文将从语料库的建设、语料库语言学理论、语料库在语言教学和研究中的应用等方面展开综述,以期为国内语料库语言学的研究者提供一个清晰的研究全景和参考框架。
通过对近十年国内语料库语言学研究的系统回顾,本文旨在推动语料库语言学在国内的深入发展,为语言学研究的创新提供新的视角和方法。
二、语料库建设与研究近十年,我国语料库语言学在语料库建设方面取得了显著进展。
语料库作为语言学研究的基础资源,其规模和质量直接影响到研究的深度和广度。
在这一时期,我国学者和机构积极投入语料库的建设工作,不仅扩充了语料库的种类和数量,还提高了语料的质量和标注精度。
在语料库种类方面,除了传统的通用语料库外,还出现了专门针对某一领域或语体的语料库,如法律语料库、医学语料库、社交媒体语料库等。
这些专业语料库为相关领域的研究提供了丰富的数据支持。
在语料库规模方面,随着大数据技术的发展,语料库的规模不断扩大。
大型语料库如“国家语委现代汉语语料库”“古代汉语语料库”等,为语言学研究提供了海量的语料资源。
在语料质量方面,我国语料库建设注重语料的真实性和代表性。
通过严格的语料采集和筛选流程,确保语料的质量和准确性。
同时,采用自动化和半自动化的方法对语料进行预处理和标注,提高了语料的处理效率和质量。
在语料库研究方面,我国学者充分利用语料库资源进行各种语言学研究。
通过语料库的统计分析,揭示语言现象的本质和规律。
还利用语料库进行语言对比研究、语言演变研究、语言教学研究等,推动了语言学研究的深入发展。
近十年我国语料库语言学在语料库建设与研究方面取得了显著成就。
语料库的规模和质量不断提升,为语言学研究提供了强大的数据支持。
近十年国内语料库语言学研究综述
近十年国内语料库语言学研究综述一、概述近十年来,语料库语言学在国内的研究取得了显著的发展和突破。
随着信息技术的飞速进步和大数据时代的到来,语料库语言学在语言学研究中的地位日益凸显。
它基于大规模真实文本数据,运用统计学和计算机技术,对语言现象进行定量和定性的分析,为语言学研究提供了全新的视角和方法。
国内语料库语言学的研究范围广泛,涉及语言结构、语言变异、语言使用、语言教学等多个领域。
研究者们利用语料库资源,深入探讨了词汇、语法、语义、语用等层面的语言问题,揭示了语言现象的内在规律和特点。
同时,随着语料库建设的不断完善,语料库语言学在国内的应用也愈加广泛,为自然语言处理、机器翻译、信息检索等领域提供了强大的数据支持和技术基础。
近十年内,国内语料库语言学的研究呈现出以下几个特点:一是研究方法的多样化,不仅注重传统的统计分析方法,还引入了机器学习、深度学习等先进技术二是研究领域的拓展,语料库语言学不再局限于传统的语言结构研究,而是向语言教学、语言规划等应用领域延伸三是语料库资源的不断丰富,各类专题语料库、多语种语料库等不断涌现,为语料库语言学的研究提供了更为丰富和多样的数据来源。
总体而言,近十年国内语料库语言学的研究取得了丰硕的成果,不仅推动了语言学理论的发展,也为语言实践提供了有力的支持。
未来,随着技术的不断进步和语料库资源的日益丰富,语料库语言学在国内的研究将更加深入和广泛,为语言学研究和社会应用带来更多的创新和突破。
1. 语料库语言学的定义与重要性语料库语言学,作为一种独特的语言学研究方法,主要依赖于大规模、结构化的语言数据集合,即语料库,来进行语言分析和研究。
它通过对真实语料进行定量和定性的分析,旨在揭示语言的实际使用情况和内在规律。
近十年来,随着信息技术的飞速发展和语料库规模的日益扩大,语料库语言学在国内语言学界的地位逐渐提升,其重要性也日益凸显。
语料库语言学的定义在于其研究方法和数据基础。
其研究方法强调实证和量化,通过计算机技术和统计手段对语料库中的语言数据进行处理和分析,进而揭示语言的实际使用情况。
《2024年语料库研究》范文
《语料库研究》篇一一、引言随着科技的不断发展和信息化时代的到来,语言信息已经成为社会发展和科技进步的重要组成部分。
在这个大背景下,语料库研究作为一项重要工作,其意义日益凸显。
本文旨在探讨语料库研究的概念、目的、方法及其在语言学、文学、计算机科学等领域的应用,并着重分析其对于学术研究的重要性和作用。
二、语料库研究的概念与目的语料库研究是指以大量真实语言材料为基础,通过收集、整理、标注和统计等方法,对语言现象进行深入研究的一种方法。
其目的在于通过对大规模语料的分析,揭示语言的规律和特点,为语言学、文学、计算机科学等领域提供重要的数据支持。
三、语料库研究的方法语料库研究的方法主要包括以下几个方面:1. 语料收集:根据研究目的和需求,从各种渠道收集真实语言材料,如书籍、报纸、杂志、网络等。
2. 语料整理:对收集到的语料进行清洗、标注和分类等处理,以便于后续的统计分析。
3. 统计分析:利用计算机技术对语料进行统计分析,如词频统计、语义分析、情感分析等。
4. 结果解读:根据统计分析结果,结合语言学、文学等相关知识,对语言现象进行解读和解释。
四、语料库研究的应用1. 语言学领域:语料库研究为语言学提供了大量的真实语言材料,有助于揭示语言的规律和特点,为语言理论研究和语言教学提供重要的数据支持。
2. 文学领域:语料库研究可以用于文学作品的风格分析、作者识别、文本分类等方面,有助于深入挖掘文学作品的价值和特点。
3. 计算机科学领域:语料库研究在自然语言处理、机器翻译、智能问答等领域具有广泛的应用,为人工智能技术的发展提供了重要的数据支持。
五、语料库研究的重要性和作用1. 推动学术研究:语料库研究为学术研究提供了大量的真实语言材料和数据分析支持,有助于推动语言学、文学、计算机科学等领域的学术研究进展。
2. 促进跨学科交流:语料库研究涉及多个学科领域,有助于促进不同学科之间的交流和合作,推动跨学科研究的开展。
3. 服务社会:语料库研究可以为社会提供重要的数据支持和服务,如语言教学、文化传承、社会调查等方面。
国内语料库翻译研究综述
重视标准化和共享
建议制定统一的规范和标准,促进语 料库的标准化和共享,提高语料库的 质量和利用效率。
探索新的翻译理论和方 法
建议加强对翻译理论的研究,探索新 的翻译理论和方法,以更好地指导语 料库翻译实践。
THANKS
感谢观看
结论总结:根据数据分析结果,总结出翻译的规律、技 巧、策略等结论,并对翻译实践和教学提出建议和启示
03
语料库的构建与使用
语料库的构建原则
01
02
代表性
平衡性
选用的语料应具有广泛的代表性,能 够反映目标语言的不同方面,包括语 法、词汇、修辞等。
在选取语料时,应考虑到语料的来源 和领域,确保各领域、各类型的文本 都能得到合理的体现。
03
标注性
对语料进行标注,如词性标注、句法 结构标注等,以方便后续分析和研究 。
语料库的构建方法
网络抓取
利用网络爬虫技术,从各大网站、论坛、博客等获取原始 语料。
公开资源
利用已有的公开语料库,如联合国文档、新闻报道等。
合作收集
与相关机构合作,获取特定领域的语料资源。
自建语料库
根据特定研究需求,自行收集和整理语料,建立个性化的 语料库。
语料库翻译研究的进展
随着计算机技术和自然语言处理技术的发展,语料库翻译研究取得了长足的进步。
国内语料库翻译研究的现状
国内语料库翻译研究虽然起步较晚,但也取得了一定的研究成果。
研究意义
理论意义
语料库翻译研究能够为翻译研究提供更加客观、精确的数据 支持,有助于完善翻译理论体系。
应用价值
语料库翻译研究可以为翻译实践提供更加准确、可靠的翻译 参考,有助于提高翻译质量和效率。
在翻译教学领域,语料库可以帮助学生更好地掌 握翻译技能,提高翻译教学质量
可比语料库构建与可比度计算研究综述
可比语料库构建与可比度计算研究综述随着全球化和信息技术的发展,不同语言间的比较研究变得越来越重要。
在跨语言交流、语言学习和翻译领域,人们需要能够找到可比的语料库进行研究和分析。
可比语料库构建与可比度计算是语言比较研究中的重要问题,本文将对相关研究进行综述,探讨可比语料库构建和可比度计算的方法和应用。
一、可比语料库构建方法1.基于平行语料的构建平行语料是同一语料的不同翻译版本,是构建可比语料库的重要来源之一。
通过收集不同语言的平行语料,可以构建出具有高质量的可比语料库。
平行语料的获取途径包括翻译文本、双语字典、国际组织文档等。
平行语料的获取和处理成本较高,而且覆盖范围有限,不能涵盖所有需要比较的语言。
非平行语料指同一主题或领域的不同语言文本,但它们并非原文和翻译的关系。
构建可比语料库的方法之一是通过自动翻译技术将非平行语料翻译成目标语言,然后将其与目标语言的原始文本进行对比,找到相似的句子或段落。
另一种方法是通过主题模型或文本分类技术将非平行语料进行匹配和对比。
与平行语料相比,非平行语料的获取成本低,但匹配和对比的准确度较低。
二、可比度计算方法1.基于词汇和短语的计算方法可比度的计算可以从词汇和短语的角度入手,比较两种语言中的词汇和短语的共现频率、语义相似度等指标。
通过统计词汇和短语在语料库中的分布和共现情况,可以计算出它们在不同语言中的可比度。
这种方法简单直观,可以用来评估单词和短语之间的可比度,但忽略了句子和段落的整体语境。
另一种可比度计算方法是从句子和段落的角度出发,比较两种语言中相似句子或段落的数量和质量。
通过计算句子和段落之间的相似度,可以评估两种语言的可比度。
这种方法考虑了句子和段落的整体语境,但需要大量的文本匹配和对比工作,计算成本较高。
1. 跨语言研究可比语料库构建和可比度计算为跨语言研究提供了重要的方法和工具。
研究人员可以利用可比语料库进行不同语言的对比分析,发现语言间的异同之处,探讨语言演化和联系的规律。
可比语料库构建与可比度计算研究综述
可比语料库构建与可比度计算研究综述可比语料库构建与可比度计算是自然语言处理领域一个重要的研究方向。
可比语料库是指由不同语言或者不同领域的文本构成的语料库,有助于进行跨语言和跨领域的研究。
可比度计算是衡量可比语料库中文本之间相似度的方法,对于机器翻译、文本对齐等任务有着重要的应用价值。
本文将从可比语料库的构建和可比度计算两个方面对相关的研究进行综述。
一、可比语料库的构建方法1. 平行语料法:利用已有的平行语料库,在翻译或者校对的过程中加入与目标语言不同的语料,构建可比语料库。
2. 引用法:通过引用其他语料库中的文本,并结合机器翻译和术语对齐等技术,将其转化为可比语料。
3. 混合法:结合多种方法,从多个渠道获取可比语料,例如从互联网或者社交媒体上搜集相关文本,再进行清洗和筛选。
二、可比度计算方法1. 基于词汇的方法:主要利用词汇的覆盖度、频率和相似度等来衡量文本之间的可比度。
常用的方法包括计算词汇的共现频率、计算词汇之间的相似度等。
2. 基于短语的方法:将文本划分为短语,并计算短语之间的相似度。
常用的方法包括计算短语的共现频率、计算短语之间的语义相似度等。
3. 基于句子的方法:将文本划分为句子,并计算句子之间的相似度。
常用的方法包括计算句子的结构相似度、计算句子的语义相似度等。
4. 基于主题的方法:利用主题模型等技术,将文本转化为主题分布,然后计算主题之间的相似度。
常用的方法包括计算主题的概率分布、计算主题之间的KL散度等。
三、可比语料库构建与可比度计算的挑战和发展趋势1. 数据规模和质量的问题:可比语料库的构建既面临数据规模较小的问题,也面临质量不高的问题。
未来的研究需要找到更多的方法来获取大规模高质量的可比语料。
2. 语言和领域的多样性:不同语言和领域的可比语料库构建和可比度计算可能存在一些特殊的问题,需要针对性地进行研究和改进。
3. 结合机器学习和深度学习:利用机器学习和深度学习的方法,能够更好地挖掘文本之间的潜在关系和相似度,提高可比度计算的准确性和效果。
可比语料库构建与可比度计算研究综述
可比语料库构建与可比度计算研究综述语言是人类沟通交流的重要工具,不同语言之间的可比度计算是自然语言处理和机器翻译领域的一个重要问题。
在实际应用中,我们经常需要比较不同语言之间的相似度和差异度,以便进行跨语言的信息检索、机器翻译和语言理解等任务。
构建可比语料库和计算语言之间的可比度是十分重要的研究课题。
本文将围绕可比语料库构建和可比度计算这两个研究方向展开综述,首先对可比语料库构建的方法和技术进行介绍,然后介绍可比度计算的常见算法和模型。
一、可比语料库构建可比语料库是实现不同语言之间可比度计算的基础,构建可比语料库是一个复杂而繁琐的工作。
一般而言,可比语料库构建可以从以下几个方面入手:1. 数据搜集:搜集不同语言的文本数据,可以通过互联网上的开放资源、新闻报道、科技论文等多种渠道获取。
2. 数据清理:清理和预处理文本数据,包括分词、去除停用词、词干提取、标点符号去除等操作,以确保语料库的质量和可比性。
3. 句对齐:对两种语言的文本进行句对齐,即找出两种语言中相互对应的句子,确保句子级别的可比性。
4. 主题匹配:使用主题模型和主题匹配算法,对文本进行主题匹配,以保证语料库中文本的主题一致性,增强可比度。
5. 平行语料构建:利用对齐的文本构建平行语料,为跨语言翻译和可比度计算提供基础数据。
上述工作中,句对齐和主题匹配是可比语料库构建中的关键环节,句对齐方法包括基于规则、基于统计和基于机器学习的方法,主题匹配则可以利用LDA、LSI等主题模型算法进行匹配。
二、可比度计算在构建了可比语料库之后,我们需要对不同语言的文本进行可比度计算。
可比度计算是指通过一些定量的方式来衡量不同语言文本之间的相似度和差异度。
1. 词级别的计算方法:词级别的可比度计算主要包括词频统计、词语的共现关系和词义的相似度计算。
常用的算法包括余弦相似度、Jaccard相似系数等。
2. 句子级别的计算方法:在句子级别上,我们可以使用句子向量表示来计算句子的相似度,如使用词袋模型、TF-IDF模型、词嵌入模型等。
可比语料库构建与可比度计算研究综述
可比语料库构建与可比度计算研究综述近年来,随着跨语言信息处理任务的兴起,可比语料库的构建和可比度计算成为自然语言处理领域的热点研究方向。
可比语料库是指在不同语种之间有相似主题或相关领域的语料库,可以用于跨语言信息检索、机器翻译、多语言问答等任务。
本文将对可比语料库的构建和可比度计算进行综述。
可比语料库的构建是指从各种渠道收集和整理大规模的可比语料,其中包括平行语料和非平行语料。
平行语料是指同一文本在不同语种之间的对应关系明确的语料,例如以句子或段落为单位的翻译文本。
非平行语料则是指语种之间没有明确对应关系的语料,例如相同主题的文本集合。
可比语料库的构建可以从互联网、新闻媒体、多语种网站等多个渠道进行。
可比度计算是指衡量两个语言之间的相似度或相关度的方法。
可比度计算的目标是将不同语种的语料转化为统一的表示形式,以便于后续的跨语言信息处理任务。
常用的可比度计算方法有基于词级的方法和基于句子级的方法。
基于词级的方法主要是通过计算两个语言之间的共现词频、关键词提取和词语对齐等方式来计算可比度。
基于句子级的方法则是通过计算两个语言之间的句子结构、句法特征和主题模型等方式来计算可比度。
在可比语料库构建和可比度计算的研究中,面临着一些挑战和问题。
由于语料库的规模庞大,如何高效地进行可比语料的采集和整理是一个挑战。
不同语种之间的文化差异和语言差异会影响到可比度计算的准确性和效果。
由于语料库中可能存在翻译错误、噪音和不准确的信息,如何对这些问题进行处理也是一个难题。
当前的研究工作主要集中在可比语料库的构建和可比度计算方法的改进上。
一些研究者利用深度学习和神经网络等技术来提高可比度计算的准确性和效果。
另一些研究者通过引入外部知识和资源,如词典和语义信息,来增强可比度计算的能力。
一些研究者还关注可比度计算在具体跨语言信息处理任务中的应用,如多语言信息检索和机器翻译等。
可比语料库的构建和可比度计算是跨语言信息处理任务中的重要研究方向。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语料库研究与应用综述一概述语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。
经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。
人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。
语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。
语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。
有人曾经把语料库分成四种类型:(1)异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的(Homogeneous):只收集同一类内容的语料;(3)系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的(Specialized):只收集用于某一特定用途的语料。
除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。
按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。
双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。
语料库建设中涉及的主要问题包括:(1)设计和规划:主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。
(2)语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持平衡性等。
(3)语料的加工:包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。
(4)语料管理系统的建设:包括数据维护(语料录入、校对、存储、修改、删除及语料描述信息项目管理)、语料自动加工(分词、标注、文本分割、合并、标记处理等)、用户功能(查询、检索、统计、打印等)。
(5)语料库的应用:针对语言学理论和应用领域中的各种问题,研究和开发处理语料的算法和软件工具。
我国语料库的建设始于80年代,当时的主要目标是汉语词汇统计研究。
进入90年代以后,语料库方法在自然语言信息处理领域得到了广泛的应用,建立了各种类型的语料库,研究的内容涉及语料库建设中的各个问题。
90年代末到新世纪初这几年是语料库开发和应用的进一步发展时期,除了语言信息处理和言语工程领域以外,语料库方法在语言教学、词典编纂、现代汉语和汉语史研究等方面也得到了越来越多的应用。
语料库与语言信息处理有着某种天然的联系。
当人们还不了解语料库方法的时候,在自然语言理解和生成、机器翻译等研究中,分析语言的主要方法是基于规则的(Rule-based)。
对于用规则无法表达或不能涵盖的语言事实,计算机就很难处理。
语料库出现以后,人们利用它对大规模的自然语言进行调查和统计,建立统计语言模型,研究和应用基于统计的(Statistical-based)语言处理技术,在信息检索、文本分类、文本过滤、信息抽取等应用方向取得了进展。
另一方面,语言信息处理技术的发展也为语料库的建设提供了支持。
从字符编码、文本输入和整理,语料的自动分词和标注,到语料的统计和检索,自然语言信息处理的研究都为语料的加工提供了关键性的技术。
下面先简要叙述1998年到2003年中国语料库建设的基本情况,然后介绍语料库的加工、管理和规范问题,最后谈谈语料库方法在语言研究和语言工程等方面的应用。
由于以前的《中国语言学年鉴》很少谈及语料库问题,为了尽可能全面地反映我国语料库研究和应用的情况,必要时会将时间上限向前延伸几年。
二中国语料库建设的基本情况90年代末到新世纪初这几年投入建设或开始使用的语料库有数十个之多,不同的应用目的使这些语料库的类型各不相同,对语料的加工方法也各不相同。
下面是其中已开始使用并且具有一定代表性的语料库。
(一)现代汉语通用语料库这是一个由国家语言文字工作委员会主持建立、面向全社会应用需求的大型通用语料库,从90年代初开始建设,计划规模7000万字,主要应用目标是语言文字信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育、以及语言文字的社会应用。
这个语料库收录的语料以书面语为主、以书面语转述的口语为辅。
语料来源是1919年至今,主要是1977年至今出版的教材、报纸、综合性刊物、专业刊物和图书。
在设计原则上,讲求通用性、描述性、实用性和抽样的科学性。
在语料分类方面,以“门类为主,语体为辅”为原则制定三个大类:第一类:人文与社会科学类(包括8个次类、30个细类)1.政法类:哲学政治宗教法律2.历史类:历史考古民族3.社会类:社会学心理语言文字教育文艺理论新闻民俗4.经济类:工业经济农业经济政治经济财贸经济5.艺术类:音乐美术舞蹈戏剧6.文学类:小说散文传记报告文学科幻口语7.军体类:军事体育8.生活类第二类:自然科学类(包括6个次类)1.数理类2.生化类3.天文地理类4.海洋气象类5.农林类6.医药卫生类第三类:综合类(包括6个次类,30多个细类)1.行政公文类:请示报告批复命令指示布告纪要通知等2.章程法规类:章程条例细则制度公约办法法律条文等3.司法文书类:诉讼辩护词控告信委托书等4.商业文告类:说明广告调查报告经济合同等5.礼仪辞令类:欢迎词贺电讣告唁电慰问信祝酒词等6.实用文书类:请假条检讨申请书请愿书等在不同类别、不同来源、不同时期的语言材料中,按照不等密度的思路确定合适的语料选取比例,从共时和历时两个角度保证入选语料的平衡性,是这个语料库的特点。
譬如,在语言材料的年限方面,选材比例是:1919年– 1925年 5% 1926年– 1949年 15%1950年– 1965年 25% 1966年– 1976年 5%1977年以后 50%在语言材料的门类、语体和来源方面,选材比例是:人文与社会科学类占59.6%。
其中各个次类在本大类中的比例是:政法 12.7% 历史 8.4% 社会 14.0% 经济 9.8%艺术 6.7% 文学 44.9% 军体 2.3% 生活 1.4%自然科学类占17.24%。
其中各个次类在本大类中的比例是:数理 17.2% 生化 19.1% 天文地理 14.1%海洋气象 9.1% 农林 22.8% 医药卫生 17.7%综合类占9.36%。
其中各个次类在本大类中的比例是:各类应用文 91.1% 其他 8.9%报纸类占13.79%。
其中各个次类在本大类中的比例是:全国性报刊 25% 省市报刊 75%这个语料库在选材过程中收集和记录语料的有关描述信息,为每个语料样本设立了20个描述项目:总号、分类号、样本名称、类别、作者、写作时间、书刊名称、编著者、出版者、出版日期、期号(版面号)、版次(初版日期)、印册数、总页数、开本、选样方式、样本起止页数、样本字数、样本总数、繁简字。
用户可以利用这些语料描述标记根据各自的需要进行各种方式的检索。
语料库的建库工作分为两步,第一步先建立核心语料库(由7000万字的语料中筛选出2000万字语料组成)。
到90年代末,完成了2000万字生语料的收录工作。
从2001年开始,对2000万字核心语料进行分词和词性标注加工。
(二)《人民日报》标注语料库《人民日报》标注语料库由北京大学计算语言学研究所和日本富士通公司合作,从1999年开始,到2002年完成,原始语料取自1998年全年的《人民日报》,共约2700万字,到2003年又扩充到3500万字,是我国第一个大型的现代汉语标注语料库。
这个语料库加工的项目有词语切分和词性标注,还有专有名词(人名、地名、团体机构名称等)标注、语素子类标注、动词、形容词的特殊用法标注和短语型标注。
下面是一段语料标注的示例,对于1998年1月1日第5版第1篇文章的第11段:我国的国有企业改革见成效。
位于河南的中国一拖集团有限责任公司面向市场,积极调整产品结构,加快技术改造和新产品研制步伐。
图为东方红牌履带拖拉机生产线。
(赵鹏摄)标注后的形式是:19980101-05-001-011/m 我国/n 的/u 国有/vn 企业/n 改革/v 见/v 成效/n 。
/w 位于/v 河南/ns 的/u [中国/ns 一拖/j 集团/n 有限/a 责任/n 公司/n]nt 面向/v 市场/n ,/w 积极/ad 调整/v 产品/n 结构/n ,/w 加快/v 技术/n 改造/vn 和/c 新/a 产品/n 研制/vn 步伐/n 。
/w 图/n 为/v 东方红牌/nz 履带/n 拖拉机/n 生产线/n 。
/w (/w 赵/nr 鹏/nr 摄/Vg )/w 在每一个切分出来的词和标点符号后面,是该词语的标记。
譬如词性标记(n,v,a,u,m,w等),专有名词标记(nr,ns,nz等),语素子类标记(Vg等),动词和形容词特殊用法标记(vn,ad)。
所有的标记都是以北京大学的《现代汉语语法信息词典》为基础词库,在一个加工规范的指导下标注的。
利用《人民日报》标注语料库,人们可以从各个角度考察和分析语言事实,统计各种语言单位出现的频率,譬如,词语或词类的分布、搭配和共现,专有名词的结构方式、兼类词在句子中的表现,语素字的使用情况,等等。
也可以从语料里提取各种语言单位或语句片段作为研究实例。
与仅仅以汉字串的形式表示的“生语料”相比,经过标注的“熟语料”显然含有更多的语言学特征信息,对汉语词汇研究、语法研究和汉语信息处理系统来说是更好的语言知识资源。
《人民日报》标注语料库中一半的语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权。
其中一个月的语料(1998年1月)近200万字在互联网上公布,供自由下载。
(三)用于语言教学和研究的现代汉语语料库建立现代汉语语料库的主要目的之一是对外汉语教学和现代汉语研究,可以分为书面语语料库和以文本形式表示的口语语料库两类。
前者如北京语言大学的汉语中介语语料库、现代汉语研究语料库,后者如中国社会科学院语言研究所的北京地区现场即席话语语料库。
汉语中介语语料库的建设目标是为对外汉语教学、中介语研究、偏误分析和汉语本体研究提供资源,因此它的语料来源很有对外汉语教学的特点。
作者先在北京和其他省市的9所高等院校里,从来自96个国家和地区的1635位外国留学生那里收集了成篇成段的汉语作文或练习材料5774篇,共3528988字。
再从中抽取了740人的1731篇语料,共有44218句,1041274字。
全部语料都记录了学生姓名、性别、年龄、国别、是否华裔、第一语言、文化程度、所学主要教材、语料类别、写作时间、提供者等23项属性。