短语学的研究方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• Chomsky 把语言学视为认知心理学的一部分, 区分了语言能力和语言运用, 认为语言学 的研究对象是人的语言能力, 这种语言能 力存在于理想的本族语言者的大脑中, 因 此语言研究可以依赖直觉数据, 不需要搜 集大量语料。 • Chomsky (1965: 19-20) 认为 “现在语法研究 的关键问题不是缺乏证据, 而是当前语言 理论无法圆满地解释大量的证据”。
短语学的主要路径和研究方法
短语学的主要研究路径
• 短语学路径 (phraseological approach)
• 基于分布/频率的路径(distribution/frequencybased approach)
短语学路径
• Also called rule-driven approach. 短语学的研 究路径属于传统的形式主义(formalism) 的结构(structuralism)研究范式。其研究 脱离语境和语言使用,不能对语言现象进 行全面充分的描述和解释。 • 短语学研究路径靠人工识别短语,具有操 作的便捷性(尤其是对小型的语料),但 由于主观性较强,其结论往往缺乏准确性 和科学性。
• Corpus linguistics is more than a simple set of techniques, but it is a field where technological advancement and theoretical development go hand in hand. • For example, one of the most basic corpus linguistics practices—isolating a node word (节点词)and its immediate co-text in each instance of occurrence, and manipulating that output to highlight similarity in co-text (i.e. sorting concordance lines)—was developed because words were considered to be more important than grammatical categories, and the immediate co-text of a word, including its significant collocations, was considered to offer the most important information about it. • In turn, the prevalence of concordancing software has facilitated the observation of language patterning and so influenced the development of theories based on that phenomenon.
• 观察数据:主要指语言研究者作为观察者所 收集的实际使用的语言材料, 研究者不参与 提供数据的过程。 • 当前语料库语言学研究者所普遍采用的数据 属于观察数据。 • 随着计算机技术的发展,语 料库数量不断增 加, 语料库数据在语言研究中的 地位愈来愈 重要。 语料库语言学一般采用自下而 上的研 究方法, 通过对真实语言数据的观察来抽象 出语言研究的范畴和理论。
基于分布/频率的路径
• 基于分布/频率的研究方法依赖于自然语言 语料库,即通过语料库检索的方式对短语 的搭配情况进行研究。 • 优点:能穷尽特定语料库中所有相关的语 言单位,使研究更全面,解释更充分,结 论更具有说服力。 • 由于采用自然语言语料库,即基于用法 (usage-based)的研究,使对短语的研究 与真实的语境结合起来,从而更好地对活 生生的语言进行描写。
2. 基于语料库的研究方法
• J.R. Firth最早提出用语料库的研究方法对 词项共现现象进行研究,之后韩礼德和辛 克莱(Sinclair, 1996)继承并发展了弗斯的 理论,并提出了包括节点词、搭配词等一整 套的概念和方法从语料库提取搭配例证。
• 基于语料库的研究方法本质是定量的、归纳推理的,它采 取了语料库驱动的自上而下的分析处理程序对词项共现现 象进行研究分析。基于语料库的新型研究方法最早是 Sinclair在词汇编纂中提出的,之后被Evert (2004)借 用并称之为“分布法(distributional approach)”。语 料库研究是基于真实证据的提取分析。随着短语学研究热 潮日益高涨,亟待分析的数据急速膨胀。语料库语言学数 据驱动的研究方法毅然成为主流。Sinclair (1991)就首 次用语料库数据驱动的研究方法。总之,这一研究方法以 真实的语言现象为基础,通过对语言形式的频数统计并确 定研究对象,因而其涵盖了丰富多样而又复杂的语言形式。 该方法的应用极大开拓了赋有短语特征词项组合关系的研 究范畴和视野。
3. 整合分析法
• 本世纪80年代短语学正式独立为一门系统的 学科领域后,其研究方法仍是传统理论驱动 和语料库数据驱动两大类,然而由于短语学 自身的广泛性和多样性使得对其研究方法遭 遇瓶颈,Willy Martin(2008)提出的整合分析 法则使得短语学研究柳暗花明。
语料库语言学和传统语言学的区别
基于语料库的研究方法
• 语料库语言学近年来的蓬勃发展,对语言研究的 方法、内容和理念带来深远的影响。大量的机读 语料库以及相关的计算技术不仅改变了语言学的 研究方法,还改变了传统的语言研究范畴,为探 讨语言交际中的意义单位、 词语关系开辟了新的 路径。 • 在传统语言学中,语言由语法与词汇两部分构 成, 语法是语言构造的规则,词汇是构建语言的材料, 语法的地位高于词汇。 • 语料库语言学的发展使语言学家重新看待语言的 本质,认为词汇和语法是密不可分的一个整体, 词汇和语法往往互相选择, 特定的句法结构常常 和某些词语有关。
Corpus-based
• Corpus linguistics : collecting quantities of text in electronic form so that they are open to data-manipulation techniques. • Such techniques range from finding a search term and observing its immediate environments (key-word-in-context or concordance lines) to calculations of relative frequency (as in, for example, collocation studies);to annotation(注释) for such categories as word class, grammatical function or semantic class; and frequency calculations based on such categories. • Frequencies of various kinds can be compared in different corpora, leading to observations about different registers or different languages and about the development of a language over time.
• Sinclair (2004)描述了意义单位,认为它是语 法和词汇共选关系的体现。在语料驱动的研 究中,研究者首先要从语料库中提取有关语 言现象的数据,对数据和语 料进行观察,获 得必要的数据分布信息,分析具体语言形式 的意义和功能特征。(卫乃兴,2009) • 新兴 的短语学研究表明,短语单位作为语法 与词汇的界 面,可以实现完整的意义,从而 建立新的语言范畴。 语料库驱动的短语学研 究支持词汇和语法的整体性,认为意义单位 多以短语的形式出现。
• 首先,在语义学角度的短语学研究中,传统方
法侧重于依照语义学用途功能的规范来界定并 解释词项共现现象,换句话说就是短语就是约 定俗成的习惯搭配,例如,“太阳”不但可以 “照耀”,还可以来“晒”。值得注意的是, 不同的语言文化有着不同的词语搭配习惯。此 外,传统方法把语义合成性作为筛选非短语词 语组合的重要标准。其次,在局法学角度的短 语学研究中,传统方法派一个区分了甚至割裂 了短语现象中词项和句法间的关系。
• 在语言学研究中, 人们运用各种数据来构建 理论模型。Widdowson (2000)根据语言研究 者的观察视角将数据分为三种类型:内省数据、 诱导数据和观察数据。 内省数据:在传统语言学研究中,研究者 往往通 过思考语言经验构建语言理论,并根 据本族语者 的语言能力来检验, 可以说主要 依赖于内省数据 即直觉数据。 语言研究者根 据自身的语言直觉产生数据, 不仅是数据的 分析者, 又是数据的提供者。
• 诱导数据: 主要指研究者通过实验、 问卷调 查 等方法实地调查所获得的数据。 • 这种数据和内省 数据相比,具有更强的客观 性,在实验心理语言学研究中被广泛采用。 不足之处在于调查往往花费 大量时间和人力 物力, 而且诱导数据有时不够真实自然。 • 内省数据和诱导数据在语言学研究,尤其 是 过去计算机技术不太发达的传统语言学研究 中,发挥了自身的价值和作用,但由于内省数 据单单依赖语言研究者的经验和直觉, 诱导 数据只依 靠有限的实验或问卷调查, 得出的 结论有时难免偏颇。 • 要想对语言进行科学系统的研究,必须依赖大 量实际语言使用中的真实语料。
•
短语学的研究方法
1. 基于语言模型的研究方法
• 短语学作为语言学各个领域的附属研究项目 在过去的几十年中一直是语言学研究领域的 擦边球,对其研究也大都沿用了传统的百度文库于 语言模型的词汇语法研究方法,通过词根、 意义、语法句法限制等对短语现象界定和研 究,并且传统的研究多基于直觉。
• 基于语言模型的传统研究方法则可视为理论导向、 理论驱动的研究方法。毋庸置疑,传统研究方法 能对语言现象进行细致入微的分析,无论是在词 义释义还是在辨析词项的搭配形式方面,都有着 优势。该方法认为,短语学是语言学的特殊分支, 且将短语界定为多词词组。另一类是具有灵活性 搭配能力的词组。尊崇传统研究法的学者对短语 学的研究,通常是遵照语言学规范准则,采取以 模型为基准定性地依照主观判断和直觉,筛选区 分具有短语学特征的组合和搭配现象,并严格划 分其与自由组合搭配词组的界限。
• 以 Sinclair 为首的语料库语言学家反对 Chomsky 的观点, 认为语言研究应该建立 在可验证的真实语料基础上, 而不是依赖 直觉,编造脱离语境的句子。人类语言的 心智过程非常复杂, 而直觉和真实语言使 用有很大差 距, 因此直觉的有效性受到质 疑。 • Sinclair 提出要尊重语料库数据,因为它们 是语言的原材料,尽管观察大量的语料库 数据要比研究生造的例子困难。 他用了一 个非常形象的比喻来说明语言研究 不能依 赖少量生造的例子,“我们总不能靠几朵 人造花来研究植物学”(Sinclair, 1991: 6)。
• 传统语言研究一般采用自上而下的方法,根 据预设的理论框架来确定研究步骤并搜集证 据, 研究焦点是语言中的聚合关系, 将语 法范畴作为语言描述的起点和重中之重。 Quirk (1985:15)等人认为,“语法说明可以 加以高度概括的结构,词 汇则说明可以形成 最低概括的结构”。功能语法学 家 Halliday (1994:15)则认为,词汇是最精密的语 法, 词汇和语法处于同一个连续统,都是构建意 义 的源泉。语言的内核是词汇语法,它包含 词汇、语法两部分,两者是密不可分的。