【经管类】第六章语料库研究方法概要

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

B. 确定可靠的分类体系和操作方案
C. 选定或建立合适的语料库
D. 选定合适的语料库处理工具
E. 相关语言特征的标注和提取
F.
统计分析
G. 数据的解释
H. 得出结论
A. 提出研究假设
研究假设：是对有关自变量(independent variable)和因变量 (dependent variable)之间关系的一种预测(prediction)
G. 数据的解释
统计分析后，可以发现两个语料库之间存在显著差异或某种相关性
结合理论和前人的相关研究成果，对所得数据作出解释
对于同样的数据，不同的研究者基于不同的理论对数据作出不同的解释，重在自圆其说。
H. 得出结论结论一般只有两种可能性假设成立或不成立
2. 语料库研究方法的局限性及研究创新
专用语料库处理工具:处理特定格式的语料库（如XML格式）自行开发的专用语料库工具：特定研究目的
E. 相关语言特征的标注和提取
生文本（词汇、搭配、语义韵等）自动或手工标注（词性标注、句法标注、错误标注等）标注之后，提取相关特征所出现的频数、语境等相关
信息。频数分析是进一步分析的基础。
Smadja:又加入了搭配词的词性信息。搭配统计需要计算：在线性序列中的位置分布；3）搭配词与节点词在语法关系上的互相选择问题：到这一步也只是能获得两个词的搭配序列（多个词？）
5) CIA (Contrastive Interlanguage Analysis) A. 定义：通过对比本族语与学习者的英语运用，对比差异来判断学习者的典型困难和不足，从而作为进一步补偿教学的依据。
C. 选定或建立合适的语料库
中国英语学习者语料库英国国家语料库比较：观察语料库(observed corpus)
参照语料库(reference corpus) *用于比较的两个语料库应该在尽可能多的维度上具有一
致性。（中国学生的英语作文与美国英语口语×）
D. 选定合适的语料库处理工具
通用语料库处理工具：功能全面，处理纯文本(AntConc, WordSmith Tools)
对语料库进行分析之前无任何假设对语料库中的所有例证进行穷尽性分析和归类，得出
有关语言使用情况的假设乃至结论。基本程序“观察—假设—归纳—理论整合” 探索/描述法(exploratory/descriptive)
2）基于语料库的方法(corpus-based approach)
A. 提出研究假设
例：假设一：被动语态是学术英语的重要特征；假设二：被动语态的使用频率与学习者作文的质量有关
B. 确定可靠的分类体系和操作方案
分类：同样的事物可以采用不同的分类方法操作化：选择合适的方式对某种概念性的东西进行测量，进行量
化研究。适用于大多数实证研究。例：被动态可分为长被动结构（带by+施动者）和短被动结构也可以按其中的助动词是否有be动词来分 The road is being repaired. He got injured in an accident.
由研究者根据以往的语言研究成果或对语言的认识，首先提出假设，然后到语料库中去验证假设。
假设是否成立取决于语料库中的语言实例一些传统的概念和理论被进一步验证或延伸以概率为基础，是统计学和实证研究方法在语料库语言学领域的
具体应用验证假设法(hypothesis-testing)
3）语料库驱动的方法(corpus-driven approach)
1）学科属性及定位问题人文学科 or 自然科学是否已达到独立学科的地位
2）语料库驱动方法 or 基于语料库的方法以往语言学研究模式：我的思想、我的框架、我的例
子（例子为理论服务，甚至临时想出来一个） Sinclair主张“干净文本原则”，对语料附码不以为然 Tognini-Bonelli提出语料库驱动这一主张，排斥使用先
验的理论和分类框架进行语料库研究的方法，提倡从语料中获得理论和分类依据
语
3) 语料库分析的层次及设计问题目前研究：局限于词语及短语水平
话语文本群落
文本句子词语、短语、音韵句法形态
4）词语搭配统计及相关问题
（learn)
搭配词
共现频数
总频数
Z值
knowledge 136
489
34.693
第六章语料库研究方法概要
1. 语料库研究方法简介
语料库语言学是20世纪50年代就流行的，以实证和统计为主要手段的研究方法
根据研究中对语料库依赖程度的不同，分为：
1）语料库指导的方法(corpus-informed approach) 2）基于语料库的方法(corpus-based approach) 3）语料库驱动的方法(corpus-driven approach)
1）语料库指导的方法(corpus-informed approach)
Michael McCarthy在多年编写教学材料过程中，倡导：对语料库进行分析，得到各种词语、搭配和结构在预料库中的出现频率、使用场合、语体等信息，然后在这些信息的指导下编写合适的教学材料。
2）基于语料库的方法(corpus-based approach)
we
538
8099
22.929
English
153
1170
22.335
to
403
9918
9.254
问题：只获得了在某一个设定的跨距内词语同现的大
致印象，无法确切知道某一个搭配词与节点词的横向
位置关系（位置、方向）。
u
Wordsmith Tools: 标注了每一个搭配词在节点词左右位置上的分布。
F. 统计分析
卡方检验（不需标准化，也可比较）对数似然率（不需标准化，也可比较）相关性分析频数标准化处理(normalization),得到标准化频率，然后进一步比较和分
析聚类分析(cluster analysis) 对应分析(correspondence analysis) 相关分析(correlation analysis) 多元回归(multiple regression)

【经管类】第六章 语料库研究方法概要

【经管类】第六章语料库研究方法概要