什么是语言学里的事实(白硕)

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

什么是语言学里的“事实”?

白硕

(2011-04-06 20:27:14发表于新浪博客)

从学术研究角度看,任何一门学科都要既有理论概括,也有事实罗列。事实是科学的底线。理论概括必须是基于事实的概括,而不是无中生有。概括的抽象程度可以不同,但最终都要受到事实的检验。而事实,特别是对于新的理论发现、理论概括有重要意义的事实的搜集,在任何一门科学中都是至关重要的。理论概括和事实罗列,二者缺一不可,偏废是要不得的。语言学也不例外。但什么是语言学的事实,这是一个需要认真反省的问题,本文将就这点展开详细讨论。

一般来说,语言学界面对的语料有三种:(1)活语料,即说本族语言的人;(2)生语料,即不夹带任何标记的原始语料(录音、文本等);(3)熟语料,即在原始语料的基础上,参照一定的体系和原则,人工标注过的语料。让我们逐一进行分析。

使用活语料的语言学研究,有两种做法。一种是“内省式”做法,即研究者把自己当成是活语料的源泉。需要语言事实的时候,就去拍脑袋想例句。不可否认,一些语感极好的语言学家,用这种方式可以成功地举出在局外人看来颇有些“刁钻”的例句,利用这些例句来甄别一个语言学论断的是与非。第二种是“问卷式”做法,即研究者把一个被试群体当做是活语料的源泉,通过设计一定的场景和问题,诱使被试说出自己认定的语言事实。和内省式做法不同的是,问卷式做法应极力避免问卷中出现语言学特有的概念,以免对被试造成主观干扰。比如,不能问被试某个词能不能做主语,但是可以通过问被试那个词可以装进哪些句式中相当于主语的位置,变相地把主语这个概念体现出来。

我们绝对不可以低估内省式活语料的价值——毕竟又有敏锐母语语感又有

语言学学术素养的人是很少的,这些人能在片刻之间化解长时间困扰非母语研究者的难题,对于提高语言学研究的效率功不可没。但是内省式活语料的使用也有其风险——如果不刻意“消毒”,这些人总有一种将本来是人为总结出来的理论、每天熟视无睹使用的概念视为理所当然的惯性,而这些理论、概念所渗透的东西,也许恰恰是需要质疑的!所以,要对准备充当内省式活语料的语言学家进行科学精神、科学方法论的教育,让他们知道去除一切可能带来偏见和盲点的障碍的重要性,在充当内省式活语料的时候,首先能自觉回归语言学的“理论原点”。

对于作为问卷调查被试的活语料,我们同样要警惕几个问题。第一,被试受教育程度越高,对语法特别是西式语法、中学及大学期间学过的那些并非金科玉律的语言学知识就越在意和迎合,就越难以发挥独立的、不受既有语言学理论左右的被试的作用。第二,被试无法分清“合语法性”、“可接受性”、“可理解性”、“现实性”和“可流通性”之间的微妙区别,如果仅仅问“能不能说”,

恐怕给出的答案会令许多人大跌眼镜,这样的数据用作总结语言规律的素材,也将很成问题。第三,被试很难截然区分语言的时代和区域界限。他们对于自己所处时代之前的时代的母语、对于自己母语在其他方言区内的情况、对于因人口流动和语言融合造成的方言变体的把握、对于普通话甚至港台方言的推广带来的语言浑浊的不自觉跟随,都会影响和干扰被试的“纯正母语语感”的判断。所以,问卷式做法引入的活语料,也有程度不等的不可信性。如果不在问卷设计、被试选择和被试辅导等环节把工作作细,怕是很难得出有说服力的调查结果。

下面谈谈生语料,即未作任何人工标注的、处于发布时原始状态的文本。生语料在互联网时代可以说俯拾皆是,而且抓过来就是计算机直接可处理的,这是之前所不敢想象的优越条件。但是,即使在这样优越的条件下,语言学研究单靠生语料也难取得多少实质性进展,这也许超出了很多人的想象。过去没有这样的条件时,学者们为能够取得几百万字的生语料而不惜付出很大的代价,现在上百亿的生语料摆在互联网上,学者们仍然不满足。这说明,生语料的价值没有想象的那么大。究其原因,第一,生语料直接转化成数据特别是N元统计模型所使用的数据,一定是极其稀疏的超高维矩阵,因为其本质是词例对词例,而不是标记对标记。这样无结构、无标记的语料,统计意义已经打了很大的折扣。第二,生语料中的例句往往都是单复句混杂的,特别是汉语中那些一逗到底的流水句,如果没有合适的手段还原成单句,是不适合直接作为研究单句规律的素材的。第三,也是最重要的,生语料不反映否定式的事实。生语料体量再大也不具有逻辑上的穷尽性,生语料不包含的或者极低频的表达方式,未必就一定是不合法的表达方式。一个缺乏否定式事实的证据集,对于语言规律的揭示作用是天生有盲点的。对于以区分语言事实中的“二元对立”作为理论体现价值的当然尺度的语言学来说,生语料显得力有不逮。

最后我们看熟语料,也就是经过标注的语料。这里的标注,有两种含义:第一种,标注是语言事实的一部分,比如对例句可接受性的是非判断、对字间间隔是否构成词间间隔的是非判断、对双语例句是否构成保语义对译关系的判断、对一个已知答案的问题的回答是否正确,等等。这些标注本身相当于活语料的延伸,相当于语言事实的形式化表述,是一种客观性的标注。因此,假定做标注的人是以目标语言为母语的而且对待标注是诚实的,那么由原始语料加上这样的客观性标注得出的熟语料,是可信的。但是标注也有可能出现第二种含义,即标注不是语言事实的一部分,而是标注者根据某种理念附加到生语料上去的。这里说的“理念”,既可能体现为标注体系本身的设计理念,也可能体现为标注过程中的操作理念。因此,在第二种含义下标注出来的熟语料,渗透了标注体系设计者和标注者的对目标语言的某种理念性的东西,已经不是纯粹客观意义上的事实了。

从实际情况来看,活语料多见于传统的语言学研究。纯粹的生语料在实用中价值不大。真正在实用领域发挥有限但有效作用的,是那些通过熟语料特别是第二种熟语料总结提炼出来的语言模型。在这里我们看到了两个因素的决定作用:一方面,语言模型的一般框架(比如,HMM)的规定性,决定了模型本身表达能力的上限;另一方面,标注体系和标注过程所体现的理念(比如,北大标注体系)的合理性,决定了熟语料可靠程度的上限。因此,当我们针对一种特定的应用(比如说输入法),拿第二种熟语料在特定语言模型一般框架下训练出一个具体的语言模型的时候,这个模型的局限,也就由上面说的两个上限所决定。注意,我们

相关文档
最新文档