【经管类】第六章 语料库研究方法概要

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1)学科属性及定位问题 人文学科 or 自然科学 是否已达到独立学科的地位
2)语料库驱动方法 or 基于语料库的方法 以往语言学研究模式:我的思想、我的框架、我的例
子(例子为理论服务,甚至临时想出来一个) Sinclair主张“干净文本原则”,对语料附码不以为然 Tognini-Bonelli提出语料库驱动这一主张,排斥使用先
专用语料库处理工具:处理特定格式的语料库(如XML格式) 自行开发的专用语料库工具:特定研究目的
E. 相关语言特征的标注和提取
生文本(词汇、搭配、语义韵等) 自动或手工标注(词性标注、句法标注、错误标注等) 标注之后,提取相关特征所出现的频数、语境等相关
信息。频数分析是进一步分析的基础。
C. 选定或建立合适的语料库
中国英语学习者语料库 英国国家语料库 比较:观察语料库(observed corpus)
参照语料库(reference corpus) *用于比较的两个语料库应该在尽可能多的维度上具有一
致性。(中国学生的英语作文与美国英语口语×)
D. 选定合适的语料库处理工具
通用语料库处理工具:功能全面,处理纯文本(AntConc, WordSmith Tools)
F. 统计分析
卡方检验(不需标准化,也可比较) 对数似然率(不需标准化,也可比较) 相关性分析 频数标准化处理(normalization),得到标准化频率,然后进一步比较和分
析 聚类分析(cluster analysis) 对应分析(correspondence analysis) 相关分析(correlation analysis) 多元回归(multiple regression)
第六章 语料库研究方法概要
1. 语料库研究方法简介
语料库语言学是20世纪50年代就流行的,以实证和统计为主要手 段的研究方法
根据研究中对语料库依赖程度的不同,分为:
1)语料库指导的方法(corpus-informed approach) 2)基于语料库的方法(corpus-based approach) 3)语料库驱动的方法(corpus-driven approach)
B. 确定可靠的分类体系和操作方案
C. 选定或建立合适的语料库
D. 选定合适的语料库处理工具
E. 相关语言特征的标注和提取
F.
统计分析
G. 数据的解释
H. 得出结论
A. 提出研究假设
研究假设:是对有关自变量(independent variable)和因变量 (dependent variable)之间关系的一种预测(prediction)
G. 数据的解释
统计分析后,可以发现两个语料库之间存在显著差异 或某种相关性
结合理论和前人的相关研究成果,对所得数据作出解 释
对于同样的数据,不同的研究者基于不同的理论对数 据作出不同的解释,重在自圆其说。
H. 得出结论 结论一般只有两种可能性 假设成立或不成立
2. 语料库研究方法的局限性及研究创新
由研究者根据以往的语言研究成果或对语言的认识,首先提出假 设,然后到语料库中去验证假设。
假设是否成立取决于语料库中的语言实例 一些传统的概念和理论被进一步验证或延伸 以概率为基础,是统计学和实证研究方法在语料库语言学领域的
具体应用 验证假设法(hypothesis-testing)
3)语料库驱动的方法(corpus-driven approach)
例: 假设一:被动语态是学术英语的重要特征; 假设二:被动语态的使用频率与学习者作文的质量有关
B. 确定可靠的分类体系和操作方案
分类:同样的事物可以采用不同的分类方法 操作化:选择合适的方式对某种概念性的东西进行测量,进行量
化研究Байду номын сангаас适用于大多数实证研究。 例: 被动态可分为长被动结构(带by+施动者)和短被动结构 也可以按其中的助动词是否有be动词来分 The road is being repaired. He got injured in an accident.
1)语料库指导的方法(corpus-informed approach)
Michael McCarthy在多年编写教学材料过程中,倡 导:对语料库进行分析,得到各种词语、搭配和结 构在预料库中的出现频率、使用场合、语体等信息, 然后在这些信息的指导下编写合适的教学材料。
2)基于语料库的方法(corpus-based approach)
Smadja:又加入了搭配词的词性信息。 搭配统计需要计算:1)搭配词与节点词的同现频率及
分布;2)该搭配词在线性序列中的位置分布;3)搭 配词与节点词在语法关系上的互相选择 问题:到这一步也只是能获得两个词的搭配序列(多 个词?)
5) CIA (Contrastive Interlanguage Analysis) A. 定义:通过对比本族语与学习者的英语运用,对比差异来判断 学习者的典型困难和不足,从而作为进一步补偿教学的依据。
we
538
8099
22.929
English
153
1170
22.335
to
403
9918
9.254
问题:只获得了在某一个设定的跨距内词语同现的大
致印象 ,无法确切知道某一个搭配词与节点词的横向
位置关系(位置、方向)。
u
Wordsmith Tools: 标注了每一个搭配词在节点词左右 位置上的分布。
验的理论和分类框架进行语料库研究的方法,提倡从 语料中获得理论和分类依据

3) 语料库分析的层次及设计问题 目前研究:局限于词语及短语水平
话语 文本群落
文本 句子 词语、短语、音韵句法 形态
4)词语搭配统计及相关问题
(learn)
搭配词
共现频数
总频数
Z值
knowledge 136
489
34.693
对语料库进行分析之前无任何假设 对语料库中的所有例证进行穷尽性分析和归类,得出
有关语言使用情况的假设乃至结论。 基本程序“观察—假设—归纳—理论整合” 探索/描述法(exploratory/descriptive)
2)基于语料库的方法(corpus-based approach)
A. 提出研究假设
相关文档
最新文档