基于语料库和 语料库驱动的研究方法
基于语料库和 语料库驱动的研究方法
分歧与前景展望
The neo-Firthians: aim to build theory from scratch, completely free from pre-corpus theoretical premises; base theories exclusively on corpus data; often reject corpus annotation (as a precorpus theoretical commitment).
‘Corpus-as-theory’: corpus linguistics is a separate sub-field of linguistics and that there is no role in corpus linguistics for theories of language that do not emerge from the study of corpus data.
语料库研究方法的起源
语言研究方法 基于直觉:理性主义的方法 内省数据 基于实证:经验主义的方法 诱发数据 真实数据
基于语料库的研究方法
University College London Univ. of Lancaster, Univ. of Oslo, Univ. of Bergen The Survey of English Usage (1950’s) London-Lund Corpus (Svartvik 1990), LOB, FLOB, Frown, BNC, ICE B. Aarts, J. Aarts, Aijmer, Baker, Biber, Greenbaun, Johansson, Leech, Mair, Quirk, Svartvik Methodologists
语料库驱动研究范式特点
语料库驱动研究范式特点
语料库驱动研究范式是一种研究方法,其特点如下:
1. 基于大规模语料库:语料库驱动研究范式基于大规模的语料库数据,通过对语料库进行分析和挖掘,来获取研究所需的信息。
这些语料库可以是已有的公开语料库,也可以是自己构建的专门用于研究的语料库。
2. 数据驱动:语料库驱动研究范式以数据为驱动,通过对语料库中的数据进行统计和分析,来得出研究结论。
这种方法强调实证研究,通过大量的数据支持来验证研究假设,而不是仅仅依靠理论推理。
3. 统计分析:语料库驱动研究范式采用统计分析方法来处理语料库中的数据。
通过统计分析,可以得出数据的分布、相关性等信息,从而帮助研究者发现规律和趋势。
4. 实用性:语料库驱动研究范式注重实际应用和实用性。
通过对语料库的分析,可以得出实际问题的解决方案,帮助改进产品、提升服务质量等。
5. 多学科交叉:语料库驱动研究范式涉及多个学科领域,如语言学、计算机科学、统计学等。
通过多学科的交叉合作,可以更全面地理解语料库数据,并开展相关的研究。
总的来说,语料库驱动研究范式通过对大规模语料库数据的统计分
析,实证验证研究假设,以解决实际问题为目标,涉及多学科交叉,具有实用性。
语言的语料库建设:利用语料库进行语言研究和教学
03
利用语料库进行语言研究
基于语料库的词汇研究
词汇的统计与分析
• 词频:统计词语在语料库中的出现次 数 • 词性分布:分析词语在不同词性中的 分布情况 • 词汇搭配:研究词语之间的组合关系 和搭配规律
词汇的变异与演变
• 词义变异:分析词语在特定语境中的 意义变化 • 词形演变:研究词语在不同历史时期 的形式变化 • 词汇创新:探讨新词的产生、发展和 传播过程
DOCS SMART CREATE
语言的语料库建设:利用语料库进行语言研究 和教学
CREATE TOGETHER
DOCS
01
语料库的基本概念与重要性
什么是语料库及其发展历程
01
语料库的定义
• 语料库是一个大型、有代表性的 文本集合 • 用于语言研究、教学和自然语言 处理等领域
02
语料库的发展历程
语料库的整理与标注
语料库的整理方法
• 数据分类:将文本数据按照主题、体裁、来源等进行分类 • 数据存储:将整理好的数据归档、备份,便于后续使用 • 数据维护:定期更新、维护语料库,确保数据的时效性和准确性
语料库的标注方法
• 词性标注:为文本中的每个词分配词性标签 • 句法标注:为文本中的每个句子分配句法结构标签 • 语义标注:为文本中的每个词分配语义角色标签
语料库在语言测试中的应用
语料库辅助语言测试
• 测试题设计:利用语料库提供真实、具有挑战性的测试题 • 评分标准:根据语料库制定客观、公正的评分标准 • 测试反馈:通过语料库提供详细、准确的测试反馈,帮助学生提高语言能力
语料库驱动语言测试
• 测试模式:利用语料库开发多样化、个性化的语言测试模式 • 测试评估:通过语料库进行全面、持续的测试评估,了解学生的学习进度和需求 • 测试资源:提供基于语料库的丰富、实用的测试资源,满足不同学生的测试需求
基于语料库的现代汉语研究方法综述
基于语料库的现代汉语研究方法综述一、绪论正如Sinclair所言:语料库所提供的海量语料使研究者系统地对大量文本语料进行审视,使我们有可能发现一些新的未发现的语言事实。
语料库在语言研究中能提供空前广泛的语言资料,使得对语言多方面、多层次的研究成为可能。
本文以2000年以来基于语料库的现代汉语研究的文献为依托,深入分析文献中基于语料库的研究方法,并从借助的语料库类型进行具体综述,据此对研究中存在的问题进行了分析。
二、借助的语料库类型语料库为语言描述提供了丰富的数据资源,在基于语料库的语言研究中,语言学家利用机储数据库去描写语言的词汇和语法。
基于语料库的研究方法,方便研究者统计数据,并在已有成果基础上,深化对某一类词群的研究。
然而,语料库种类众多,现代汉语研究方向也是多方面的,选择与研究内容相适应的语料库类型才能更好地提高研究效率,取得更佳的研究成果。
笔者通过归纳2000年以来基于语料库的现代汉语研究的文献,总结以下几种常用的语料库类型。
(一)基于标注语料库的研究标注就是使语料的某些单位(词、句、段等)和表示对这些单位的某种层次的理解的知识信息(标记符)相关联。
标记语料库即含有这些加工者添加其对语料的理解信息的语料库。
这样的语料库可以作为句法规律研究的重要参考。
孙建功等,基于标记语料库对单句句型句模对应关系进行研究,归纳总结出现代汉语单句句型和句模对应关系的主要特点。
杜婷借助《国家语委现代汉语通用平衡语料库》的标注语料库(在线提供免费检索的语料约2000万字),对现代汉语中小类词口部动词的频度进行了统计,进而发现其语法语用规律。
对语料库的标注工作,既是语料库建设中的一个重要环节,也丰富了语料库的利用价值,使其在句型、词汇等方面的研究中可以发挥出更大的作用。
(二)基于静态语料库的研究静态语料库是收集某一固定时期的共时语言使用样本构成的语料库,属于共时语料库的一种。
现有的许多类型的词典,被众多语言研究者运用到语言学研究中,形成基于静态语料库的现代汉语研究范式。
基于语料库的研究范式
基于语料库的研究范式是一种以语料库为基础,通过对大量真实语言数据的分析和处理来研究语言现象、语言使用和语言变化的方法。
这种范式通常包括以下几个步骤:
1. 语料库建设:收集大量的语言数据,并建立语料库。
这些数据可以来自不同的来源,如文学作品、新闻媒体、社交媒体等。
2. 语料处理:对语料库中的数据进行预处理,包括文本清洗、分词、词性标注等。
3. 语料分析:使用各种统计和分析方法来处理语料库中的数据。
这可能包括频率分析、关键词提取、主题建模等。
4. 结论得出:根据语料分析的结果,得出关于语言现象、语言使用和语言变化的结论。
这些结论可以为语言学、文学、文化等领域的研究提供有益的启示和证据。
基于语料库的研究范式具有以下优点:
1. 大量的语言数据支持:语料库可以包含大量的真实语言数据,使得研究者可以对语言现象进行深入的研究和分析。
2. 定量与定性相结合:基于语料库的研究范式可以将定性和定量的方法相结合,从而更全面地了解语言现象的本质和规律。
3. 跨学科性:基于语料库的研究范式可以应用于多个学科领域,如语言学、文学、文化学等,使得不同学科之间的交流和合作更加便捷。
总之,基于语料库的研究范式是一种重要的语言研究方法,可以帮助我们更好地了解语言的本质和规律,进一步拓展和丰富世界
文化多样性。
基于语料库和语料库驱动的研究方法
基于语料库和语料库驱动的研究方法基于语料库和语料库驱动的研究方法,在语言学、计算语言学以及其他相关领域中被广泛应用。
语料库是一种包含大量文本材料的电子数据库,可以支持研究者对文本进行各种分析和研究。
语料库驱动的研究方法是通过利用语料库中的数据来驱动研究的过程。
语料库驱动的研究方法有多种应用,包括语言描述、语言学理论验证、语言变体研究、语言教学和自然语言处理等。
下面将详细介绍几个常见的应用领域。
首先,语言描述是语料库驱动研究方法的重要应用之一、通过分析语料库中的大量文本数据,研究者可以获得有关特定语言的详细描述。
例如,研究者可以通过语料库研究其中一种语言的词汇、语法结构、语用规则等方面的特征,从而对这种语言进行全面且准确的描述。
其次,语言学理论验证也是语料库驱动研究方法的重要应用之一、通过对语料库中的数据进行统计分析,研究者可以验证其中一语言学理论是否符合实际语言使用的情况。
以句法理论为例,研究者可以利用语料库中的数据来验证句法规则的适用性和普遍性,从而对该句法理论进行评估和验证。
此外,语料库驱动的研究方法也被广泛应用于语言变体研究。
通过对不同语言变体的语料库进行比较和分析,研究者可以揭示不同语言变体之间的差异和变化规律。
例如,在英语研究中,研究者可以通过对美式英语和英式英语语料库的比较,来探讨这两种语言变体之间的差异和变化。
此外,语料库驱动的研究方法在语言教学中也具有重要意义。
通过对语料库中的实际语言使用数据进行分析,研究者可以更好地了解学习者在语言使用上的困难和需求,从而指导语言教学中的教学内容和方法。
例如,在英语教学中,研究者可以通过对学习者使用英语时的常见错误进行分析,来改进教学材料和教学策略,提高学习者的语言能力。
最后,语料库驱动的研究方法在自然语言处理领域也得到了广泛应用。
通过对大规模语料库中的数据进行分析和建模,研究者可以开发各种自然语言处理技术和工具,例如文本分类、信息检索、机器翻译等。
大学英语自主学习研究——基于语料库的数据驱动学习模式
是 学 习者 在 一 定 的情 境 ( 即社 会 文 化背 景 ) , 助 下 借 他人 ( 师 和 学 习 伙伴 ) 帮 助 , 用 一定 的 学 习 资 教 的 利
料 ,通 过 意义 建 构 的方 式 而 习得 。“ 情境 ” “ 作 ” 、协 、 “ 话 ” “ 义 建构 ” 会 和 意 被认 为是 学 习环境 中的 四大 要 素或 四大 属性 。皮 亚杰 ( i e,9 0 提 出认 知 发 展 Pa t17 ) g 涉及 到 图式 、 同化 、 应 和 平衡 四个 方 面 , 习 者 能 顺 学 利用 自己原有 认 知结 构 中 的有关 经 验去 同化 和 索 引 当前 学 习到 的新 知识 , 而 赋予新 知 识 以某 种 意义 ; 从 如果 原有 经 验 不 能 同化 新知 识 , 则要 引起 “ 应 ” 顺 过
21 0 2年 1 月
韶关 学院学 报 ・社会 科学
J u a f h o u n Unv ri ・S ca ce c o r l a g a iest n oS y o ilS in e
J n2 1 a .0 2
V0 . No 1 1 33 .
第 3 3卷
第 1 期
一
、
引言
用 数据 驱 动 学 习这 个 术 语 来 描述 。”】 ec ( 9 7 _ eh 19 ) ] L 也 提 出“ 学时研 究 的 自然延 伸 。 教 语料 驱 动学 习可 以
教育 部 于 2 0 0 7年 颁布 了《 学英 语课 程教 学要 大
求》 以下 简 称 《 程要 求 》 , ( 课 )要求 “ 充 分利 用 现 代 应
性 的研究 , 证性 的研 究较 少 。 实 本文 结合 我 国大 学英语 教 学实 际 ,将 互联 网技
基于语料库和语料库驱动的词语搭配研究
基于语料库和语料库驱动的词语搭配研究一、本文概述随着语言学研究的深入发展,语料库语言学逐渐成为语言学研究的重要分支。
语料库作为一种大规模、系统化的语言数据集合,为语言研究提供了丰富、真实的语言材料。
基于语料库和语料库驱动的词语搭配研究,正是利用语料库的优势,对词语搭配进行深入挖掘和分析的一种研究方法。
本文旨在探讨基于语料库和语料库驱动的词语搭配研究的重要性、方法、应用及其未来发展趋势,以期为语言学研究提供新的视角和思路。
本文将简要介绍语料库语言学的基本概念、发展历程及其在语言学研究中的应用。
重点阐述基于语料库和语料库驱动的词语搭配研究的基本理论和方法,包括词语搭配的定义、分类、提取和分析等。
接着,通过具体实例,展示该方法在实际研究中的应用效果,如揭示词语搭配的规律、揭示语言使用者的习惯用法等。
本文将展望基于语料库和语料库驱动的词语搭配研究的未来发展趋势,探讨其在自然语言处理、机器翻译、语言教学等领域的应用前景。
通过本文的阐述,希望能够使读者对基于语料库和语料库驱动的词语搭配研究有更深入的了解,为推动语言学研究的发展贡献一份力量。
二、语料库简介语料库,又称为文本数据库,是一个包含大量真实文本的电子数据库,用于存储、检索和分析自然语言数据。
语料库语言学是语言学的一个分支,它利用计算机技术对大规模语料进行量化分析,以揭示语言的实际使用情况。
近年来,随着计算机技术的飞速发展和自然语言处理技术的日益成熟,语料库在语言学研究中的应用越来越广泛。
在词语搭配研究中,语料库发挥着至关重要的作用。
一个高质量的语料库不仅提供了丰富的语言数据,还为研究者提供了客观、准确的搭配信息。
语料库中的文本数据往往来源于真实的语言环境,因此其反映的语言现象具有很高的可信度和代表性。
通过语料库,研究者可以系统地考察词语在不同语境中的搭配情况,进而揭示词语搭配的规律和特点。
本研究所使用的语料库是一个大型、多领域的综合性语料库,包含了各个领域、各个时代的文本数据。
基于语料库的语言学研究
基于语料库的语言学研究一、引言语言作为人类最为重要也是最为复杂的交流工具之一,其背后的语言学研究不断地推进着人类文明的发展。
语言学研究可以追溯到古代,一直发展到现代,其中最为重要的发展之一就是基于语料库的语言学研究。
语料库是大量有意(corpus)或无意(text)地搜集了一定时期,一定范围内的语言素材,并且还可以通过计算机的技术手段对其进行快速存储、处理、分析的语言学工具,在语言学领域发挥着极为重要的作用。
二、背景基于语料库的语言学研究的兴起得益于现代计算机技术的进步。
在计算机技术的支持下,基于语料库的语言学方法可以更快速、更准确地获取数据和做语言学分析。
此外,基于语料库的语言学方法还能够涵盖更广泛的语言现象,而且也能够获取到更为真实的语言使用数据。
三、分类基于语料库的语言学研究主要可以分为三类,分别是词汇、语法和语效三类。
1. 词汇语料库中的词汇是基于语言学研究必不可少的组成部分。
通过语料库的数据,语言学家可以从词汇角度对语言做大规模研究。
通常采用的方式是计算出词频、词形变化和同义词等,并且研究不同词汇所组成的词组、短语以及它们的用法等。
通过这种方式,可以揭示语言的使用频率、句法结构和语言之间的相互作用。
2. 语法语料库还可以帮助人们做大量的语法研究。
在语料库中,语言学家可以对不同语言中的语法结构和语法现象做有机的分析。
更多的是,可以对语言中的句法结构、语法规则等进行实证研究,或者是研究不同语言之间的语法结构方面的差异。
研究语法现象的一个重要目的是为了帮助人们更好地理解话语的结构和语段之间的连贯性。
3. 语效语效也是另一个基于语料库的语言使用研究。
通过语料库,可以分析不同场合下、不同语用目的、不同语者的语言使用特征。
这在语言学习、文化研究和语言治疗等方面有着重要的应用。
四、应用基于语料库的语言学方法在许多领域得到了广泛应用,例如:1. 语言学教育:通过语料库收集并分析具体的语言数据,帮助学生更好地掌握语言。
语料库研究选题
19篇,北核
1978 2010
3.3 语料库语言学与话语分析研究
批评话语分析视角下的《政府工作报告》英译 研究(一)——基于语料库的第一人称代词复数 考察. 外语研究
伊拉克战争合法性的话语重建——一项基于布 什伊战演讲语料库的评价研究. 外语研究
中国英语学习者对因果类话语标记语的使用情 况——基于语料库的研究. 国外外语教学
阐析——基于态度立场标记的自建语料库研究 外 语电化教学
大学生英语写作中分裂句的特征——基于语料库的 考察 外语教学与研究
语料库辅助下的词块习得与写作能力的相关性研究 英语研究
39篇, CSSCI期刊, 北核,C类期刊
55篇, CSSCI期刊, 北核,A类期刊
3.8 语料库语言学与语言变化研究
白皮书英译文本中动宾搭配调查与汉英翻译策略— —一项基于汉英对比语料库的研究 上海翻译
基于语料库和语料库驱动的词语搭配研究 当代语 言学
一项基于语料库的英语写作研究——大学英语写作 中词语搭配的实证研究 外国语言文学
72篇,北核
30篇, CSSCI期刊, 北核,A类期刊
语义韵研究
平行语料库与应用翻译研究
“一……就”的英译——兼谈英汉平行语料 库辅助汉译英调查
析“不A不B”式的英译——基于同源多译本 汉英平行语料库的个案分析
3.9 语料库语言学与翻译研究
对翻译小说语法标记显化的语料库研究 外语研究
语料库的“代表性”问题及其对英汉翻译语料库建 设的启示 外语研究
戴光荣. 汉语译文中习语与词簇的使用特征:基于语 料库的研究 外语研究
翻译引发现代汉语欧化结构的机制——基于语料库 的五四时期汉语欧化结构研究
基于平行语料库的《红楼梦》意义显化翻译考察— —以霍译本林黛玉人物特征为例 外语教学与研究
【经管类】第六章 语料库研究方法概要
B. 确定可靠的分类体系和操作方案
C. 选定或建立合适的语料库
D. 选定合适的语料库处理工具
E. 相关语言特征的标注和提取
F.
统计分析
G. 数据的解释
H. 得出结论
A. 提出研究假设
研究假设:是对有关自变量(independent variable)和因变量 (dependent variable)之间关系的一种预测(prediction)
G. 数据的解释
统计分析后,可以发现两个语料库之间存在显著差异 或某种相关性
结合理论和前人的相关研究成果,对所得数据作出解 释
对于同样的数据,不同的研究者基于不同的理论对数 据作出不同的解释,重在自圆其说。
H. 得出结论 结论一般只有两种可能性 假设成立或不成立
2. 语料库研究方法的局限性及研究创新
专用语料库处理工具:处理特定格式的语料库(如XML格式) 自行开发的专用语料库工具:特定研究目的
E. 相关语言特征的标注和提取
生文本(词汇、搭配、语义韵等) 自动或手工标注(词性标注、句法标注、错误标注等) 标注之后,提取相关特征所出现的频数、语境等相关
信息。频数分析是进一步分析的基础。
Smadja:又加入了搭配词的词性信息。 搭配统计需要计算:在线性序列中的位置分布;3)搭 配词与节点词在语法关系上的互相选择 问题:到这一步也只是能获得两个词的搭配序列(多 个词?)
5) CIA (Contrastive Interlanguage Analysis) A. 定义:通过对比本族语与学习者的英语运用,对比差异来判断 学习者的典型困难和不足,从而作为进一步补偿教学的依据。
C. 选定或建立合适的语料库
中国英语学习者语料库 英国国家语料库 比较:观察语料库(observed corpus)
歌词语言研究——基于语料库的英汉对比分析
华中师范大学硕士学位论文歌词语言研究——基于语料库的英汉对比分析姓名:***申请学位级别:硕士专业:英语语言文学指导教师:***20050401硕士学位论文MASTER’STHESIS内容摘要语言学研究者传统上将口头或书面上的语言作为研究对象,而对于以演唱形式赖以实现的歌词语言则关注较少。
本文所做的就是针对歌词语言的一项试探性研究。
这里把歌词作为语言研究对象是有一定意义的,因为歌词作为音乐的载体无疑是当代文化生活中最具普遍性和影响力的一种。
它的普遍性同时体现在时间的延续性和空间的广泛性上;而其影响力不仅体现在它的抒情写意、娱乐休闲、安抚激励、教育启迪等诸项功能上,还体现在它所具备的独立文学价值之中。
此外,研究歌词语言还对歌词创作、演唱和受众三个群体具有实际指导意义。
语言体裁中诗歌与歌词最为相似,二者同源异流,但是现代歌词在语音特点、书写排列、欣赏途径、正式程度等多层面己明显有别于诗歌语言。
故将歌词视为一种独立的语体来研究,即“为唱而写”的口头语篇。
目前国内外对于歌词语言的研究主要集中于哲学、美学、文学、社会、文化、心理等非语言学领域。
真正从语言学角度进行的歌词研究不多且散见于语音、语法、修辞、翻译、教学应用等范畴中的某些方面,而且主要基于传统的定性研究方法,缺乏大量真实数据的支持。
日益成为语言研究主流的语料库语言学方法对定量语言特征做出定性、功能的解释,兼有结构主义归纳法的优点和心灵主义内省法长处。
本文采用基于语料库和语料库驱动的方法,着眼于英、汉语通俗歌曲歌词的一些语言特点的异同,同时涉及某些文化层面。
本研究综合考虑辛克莱(Sinclair)关于建立语料库的基本原则,利用网络资源,采取分层随机抽样的方法,搜集包括十大类音乐风格的英汉语歌词各500首,共计1000首,构成了近20万字的小型双语歌词生语料库。
然后采用语料库分析软件Concordance3.0,对英汉语两个子语料库在基于语料的总体统计特征和语料驱动的其他语言学层面上的特征进行计算机的自动与互动对比研究。
基于语料库和语料库驱动的程式语系统、功能、结构研究程式语研究
程式语研究方法概述
6.1 引言
第5章构拟了程式语实现三种意义的系统,即程式语通过一定的结构和非结构系统实现表征意义、协商意义和语篇意义。
换言之,这些结构和非结构系统通过一定的语言表述构型实现不同的意义。
那么,在具体分析时,采用哪些方法获取并分析语料呢?本章将进行具体、深入的讨论。
6.2 研究方法
6.2.1 研究方法回顾
如何研究程式化的固定说法(包括习语)一直是程式语研究者关注的重要话题。
在该语言现象研究的历史长河中,不少研究者提出的研究方法主要针对的是习语。
但正如前文所说的,本研究所用的术语“程式语”涵盖了习语、固定说法等,因此,本章所论述的研究方法也包括了针对习语的一些重要的研究方法。
下面,本章将按照时间和研究视角对现在已有的研究方法进行分类和论说。
首先是20世纪60年代后期至70年代初期以Weinreich(1972),Fraser(1970)和Makkai(1972)为代表的语义学、转换语法学及层次语法学的研究方法。
Weinreich在其《语义理论探索》(Explorations in Semantic Theory)一书中将习语界定为“一个复杂的表达式,其意义不能从其构成成分的意义。
两种范式
Sinclair 退休, the Tuscan Word Centre E. Tognini-Bonelli (2001) “激进的经验主义”与“温和的经验主 义”(Gast 2006) The Bootcamp Discussion
两种研究范式的分歧
2008年8月12日,Stefan Th. Gries: Bootcamp: Quantitative Corpus Linguistics with R 8月12日,Bill Louw
Corpus-driven grammar is not theoryfree.
渊源(2)
贡献
phraseology and the Idiom Principle Michael Hoey: Lexical priming Pattern Grammar
Semantic Prosody
两种研究范式的分歧
渊源(1)
University College London (UCL)
Randolph Quirk at UCL the Survey of English Usage “Gang of Four” f English Usage
A Grammar of Contemporary English (1972) A Comprehensive Grammar of the English Language (1985)
渊源(1)
合作与交流
Nelson Francis Quirk Leech ICAME Brown, UCL, Lancaster 同根同源
渊源(2)
J. R. Firth 其人 简历
Leeds India SOAS
学术贡献
韵律分析 语境论
语料库驱动下的词语搭配研究
语料库驱动下的词语搭配研究作者:岳士君来源:《艺术科技》2016年第03期摘要:文章通过语料库驱动的方法,研究“保持”和“维持”与前后搭配词的关系,使用相关对“保持”和“维持”的词语搭配作了定量与定性分析。
得出结论:“保持”前只能加“还、仍然、一直”等副词,而“维持”还可以加“只、才、只能”等副词;“保持”后还常常跟与人心理有关的形容词搭配,且常常是积极的,维持后接的名词常常是个人的最低需求,如生活、生计、生命,维持后最常接名词“秩序”。
关键词:语料库;词语搭配;保持;维持0 引言自20世纪60年代人类历史上第一个计算机语料库——Brown语料库问世以来,语言学界越来越认识到用计算机采集的大规模语料库对于语言学实证研究的重要作用。
运用语料库,我们可以进行词语、句子甚至是语篇的研究。
而词语搭配是当今语料库语言学最为活跃的领域。
在我国,特别是2000年以来,它越来越受到人们的重视。
相关的研究包括词语搭配的概念界定如林杏光(1994)、[1]卫乃兴(2002))、[2]词语搭配研究的理论框架(李文中(2004)、[3]缪海燕、孙蓝(2005)[4])、基于语料库和语料库驱动的研究方法(如卫乃兴(2002a)[5])等,其研究成果主要运用于外语教学、词典编纂等领域。
1 研究缘由及方法1.1 研究缘由查北语HSK动态作文语料库,维持用错共9例,应该为保持的有3例,占33.33%,比如我希望爸爸在光州经常你一个人生活{CJZR},还是能保持{CC维持}健康,过得开心。
保持用错共36例,应该为维持的有8例,占22.22%。
比如:人类为了维持{CC保持}自己的生活才种粮食{CC食[C]物}。
《现代汉语词典》(第6版)对保持的解释为:动:维持(原状),使不消失或不减弱。
对维持的解释:动①使继续存在下去;保持②保护;维护支持。
我们可以看到,词典释词始终不能避免循环释义的弊端。
本文将采用语料库的数据对保持和维持的前后搭配词作定量分析,分析它们的共性和差异,并通过个例研究对语料库语言学的词语搭配研究起到一定的启示作用。
语料库概念与语料库语言学基础知识
语料库概念与语料库语言学基础知识语料库语言学是以语料库为基础的语言学研究方法。
语料库指的是大量真实语言使用情况的集合,可以包含各种类型的语言材料,例如口语、书面语和专业语言等。
语料库语言学主要涉及以下几个方面:1、语言描述和分析:通过对语料库中的语言数据进行收集、注释和分析,得到关于语言结构和功能的描述和分析。
2、语言学习和教育:通过语料库分析和应用,为语言学习者提供更真实、生动和有效的语言学习材料,同时也可以开发出更优质的语言教学软件。
3、自然语言处理:语料库作为自然语言处理技术的基础数据,能够为机器翻译、文本分类、信息检索等领域提供重要支持。
4、语言变化研究:通过比较不同时间段、地区和社会群体的语料库,可以研究语言变化的规律和特点。
在实际应用中,语料库语言学能够促进语言技术的发展,提高语言学研究的精度和可靠性,同时也给我们带来了更深入的语言理解和认知。
标题:语料库语言学研究的重要性一、语料库语言学的概念及发展历程语料库语言学,是指使用语料库进行研究的语言学分支,其研究对象是自然语言。
语料库是一个按照某种原则建立的、用于语言研究的庞大数据集合。
语料库语言学的理论基础是结构主义语言学、生成语法和实证语言学。
随着计算机技术的飞速发展,语料库规模越来越大,语料质量也越来越高,语料库语言学得以迅速发展。
二、语料库语言学的重要性1、提高语言教学效果语料库语言学可以通过收集大量语言数据来提高语音、词汇、语法和语用的教学效果。
比如,通过语料库分析来确定常见的语言错误类型,帮助学生避免这些错误;通过语料库调查来了解实际使用情况,让教学更接近实际使用。
2、推动语言研究发展语料库语言学以语料为基础,通过数据驱动的方法对语言进行分析,可以帮助我们更好地理解语言的本质和变化规律。
语料库语言学可以帮助我们更好地研究语音、词汇、句法和语用等多个方面,也能够关注不同社会群体间语言使用的差异,因此为语言研究提供了新的视角。
3、促进跨学科研究语料库语言学的方法论在不同领域都有应用。
基于语料库和语料库驱动的程式语系统、功能、结构研究程式语术语
程式语:术语多样性及界定复杂性的相关研究3.1 引言近些年来,程式语已经成为西方理论语言学和应用语言学的重要研究领域之一。
研究者们就程式语的名称、性质、范畴、研究方法及程式语的理论研究在实践中的应用等话题进行了深入而细致的探讨,成果显著,确立了程式语作为一个独立研究领域的理论地位。
目前,关于程式语的研究已经日趋成熟。
其重大标志有两个:第一,重要的国际会议,包括1994年和1996年分别在利兹(Leeds)和莫斯科(Moscow)召开的“国际程式语专题讨论会”(The·International·Symposia·on·Phraseology)以及1992年和1996年分别在萨尔布吕肯(Saarbrucken)和格拉茨(Graz)召开的“欧洲国际程式语会议”(The·International·EUROPHRAS·Congress);第二,以程式语为主要焦点的大规模的研究项目的开展(Cowie,1998:1)。
程式语受到广泛关注是话语研究在语言学研究史上占据重要地位的标志。
那么,程式语对应的英语翻译是什么?研究者对程式语是如何界定·的?界定程式语的组织原则是什么?程式语的本质特征又是什么?程式语到底该如何定义?下文将对这些问题进行一一论述。
3.2 程式语的名称问题程式语在汉语中还被称为“公式语”“语块”“多词单位”等。
它对应的英语翻译有很多,如·formulaic·utterance,·formulaic·speech等。
Formulaic(程式化的),以某些常用语的重复为特征的语言现象称为程式语(formulae)。
许多口头诗歌,尤其是史诗,都是程式化的,它们重复使用相同的表述形容词或修饰语及相同形式的引言。
从另一种意义上看,如果一个作品与一种体裁的固定模式可以与预期的相一致,那它就可以称为程式化的作品。
《基于语料库的蒙古语简单句施事和当事语义角色特征研究》范文
《基于语料库的蒙古语简单句施事和当事语义角色特征研究》篇一一、引言在自然语言处理和计算语言学的研究领域中,蒙古语的语义角色分析已经成为研究语言特性的重要方法。
语料库作为一种大数据研究资源,对语言分析有着深远影响。
本研究主要基于语料库的蒙古语简单句进行施事和当事语义角色特征的研究,以期对蒙古语的语言结构、语义关系以及语言使用习惯有更深入的理解。
二、蒙古语简单句的施事和当事语义角色在蒙古语的简单句中,施事和当事是重要的语义角色。
施事指的是执行动作或行为的主体,而当事则是在特定情境或事件中直接参与的角色。
对这两种语义角色的研究,有助于我们更深入地理解蒙古语句子的语义结构。
三、研究方法本研究采用基于语料库的研究方法,通过收集大量的蒙古语简单句语料,利用自然语言处理技术进行数据清洗、标注和解析,进而提取出施事和当事的语义角色。
我们使用的语料库包含了各种文体、领域的文本,以确保研究的全面性和准确性。
四、施事和当事的语义角色特征通过对语料库的分析,我们发现蒙古语简单句的施事和当事具有以下语义角色特征:1. 施事的语义角色特征:在蒙古语简单句中,施事通常是句子中的主语,执行动作或行为。
施事的语义角色具有明确的主体性,其语义指向清晰,与动作的关联性很强。
此外,施事的角色还可以表现出不同的动作类型,如物理动作、心理动作等。
2. 当事的语义角色特征:当事在蒙古语简单句中,通常是与动作或状态有直接关系的主体。
与施事相比,当事的语义角色更加灵活,可能是一个独立的主体,也可能是一个由多个主体构成的复合体。
当事的语义角色还常常表现出一定的情境性,与特定的环境或背景密切相关。
五、讨论本研究通过语料库的方法,对蒙古语简单句的施事和当事的语义角色进行了深入研究。
我们发现,蒙古语的施事和当事具有明确的语义指向和丰富的动作类型,这体现了蒙古语在表达动作和行为方面的丰富性。
同时,我们也发现蒙古语的语义结构具有一定的灵活性,这表现在当事的语义角色上。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语料库驱动的研究方法
University of Birmingham (1970’s) Rooted in the work of J. R. Firth The COBUILD corpus, the Bank of English John Sinclair Carter, Hoey, Hunston, Krishnamurthy, Louw, Scott, Teubert, and Tognini-Bonelli ‘Theoretical status’
分歧与前景展望
The neo-Firthians: aim to build theory from scratch, completely free from pre-corpus theoretical premises; base theories exclusively on corpus data; often reject corpus annotation (as a precorpus theoretical commitment).
分歧与前景展望
研究者需要做什么? 研究中应该使用什么样的数据? 这些数据用来做什么? 研究方法上存在什么差异?
分歧与前景展望
The neo-Firthian priority: they believe the methodologist approach to corpus linguistics is a degeneration or a hijacking of neoFirthian corpus linguistics.
主要内容
语料库研究方法的起源 基于语料库的研究方法 语料库驱动的研究方法 两种方法对语言研究的贡献 分歧与前景展望
语料库研究方法的起源
语言研究方法 基于直觉:理性主义的方法 内省数据 基于实证:经验主义的方法 诱发数据 真实数据
基于语料库的研究方法
University College London Univ. of Lancaster, Univ. of Oslo, Univ. of Bergen The Survey of English Usage (1950’s) London-Lund Corpus (Svartvik 1990), LOB, FLOB, Frown, BNC, ICE B. Aarts, J. Aarts, Aijmer, Baker, Biber, Greenbaun, Johansson, Leech, Mair, Quirk, Svartvik Methodolos-based linguists approach corpus data with moderate corpus-external premises, with the aim of testing and improving such theories, and often use corpus annotation.
分歧与前景展望
Many corpus-driven studies start out from some notion of a word;
POS are not uncommon in so-called corpusdriven studies (Linear Unit Grammar at least starts out without POS);
‘Corpus-as-theory’: corpus linguistics is a separate sub-field of linguistics and that there is no role in corpus linguistics for theories of language that do not emerge from the study of corpus data.
Even Halliday (2005), revered by many corpus-driven linguists, writes “a corpusdriven grammar is not one that is theoryfree”.
研究方法的差异:并非分歧
Trust the text, corpus-internal Trust the clean text Bottom-up Concordance, node, context Collocation, colligation, semantic preference, semantic prosody
基于语料库和 语料库驱动的研究方法
梁茂成
Many of the ideas in this presentation come from Hardie & McEnery (2010) , S. Th. Gries (2010) and some other papers in the bootcamp debate.
两种方法对语言研究的贡献
Grammar: Quirk et al. (1985) and Biber et al. (1999) Corpus annotation: Garside et al. (1997) Diachronic and synchronic work Language variation
研究方法的差异:并非分歧
Hypothesis-testing
分歧与前景展望
互相交流; 互通思想; A major point of distinction between neoFirthian and methodologist traditions seems likely to diminish in impact over time.
分歧与前景展望
‘Corpus-as-methodology’: corpus methodology can be applied in different fields of language study, and within different theoretical frameworks.
两种方法对语言研究的贡献
Lexicography: Collins COBUILD dictionaries Centrality of meaning across context Centrality of collocation (Idiom Principle, Pattern Grammar) The linking of the study of discourse to the study of lexis