语料库常用统计方法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

3.5语料库常用统计方法
第3章前几节对语料库应用中的几种主要技术做了介绍。

通过语料检索、词表和主题词表的生成，可以得到一定数量的句子、词汇或结构。

为能更好说明所得到的结果的真正意义，常常需要对它们加以统计学分析。

本章主要介绍语料分析中的一些常用统计方法。

3.5.1 语料库与统计方法
介绍相关统计方法之前，首先需要了解为什么语料库应用中需要运用统计方法。

在2.1节讲到文本采集时，我们知道文本或会话构成了最终的语料库样本。

这些样本是通过一定的抽样方法获得的。

研究中，我们需要描述这些样本的出现和分布情况。

此外，我们还经常需要观察不同语言项目之间在一定语境中共同出现（简称共现）的概率；以及观察某个（些）语言项目在不同文本之间出现多少的差异性。

这些需要借助统计学知识来加以描写和分析。

理论上说，几乎所有统计方法都可以用于语料库分析。

本章只择其中一些常用方法做一介绍。

我们更注重相关统计方法的实际应用，不过多探讨其统计学原理。

这一章我们主要介绍语料分析中的频数标准化（normalization ）、频数差异检验和搭配强度的计算方法。

3.5.2 频数标准化
基本原理
通常语料检索、词表生成结果中都会报告频数（frequency, freq 或raw frequency ）。

那么某词（如many ）在某语料库中出现频数为100次说明什么呢？这个词在另一个语料库中出现频数为105次，是否可以说many 在第二个语料库中更常用呢？显然，不能因为105大于100，就认定many 在第二个语料库中更常用。

这里大家很容易想到，两个语料库的大小未必相同。

按照通常的思维，我们可以算出many 在两个语料库中的出现百分比，这样就可比了。

这种情况下，我们是将many 在两个语料库中的出现频数归到一个共同基数100之上，即每100词中出现多少个many 。

这里通过百分比得到的频率即是一种标准化频率。

有些文献中标准化频率也称归一频率或标称频率，即基于一个统一基准得出的频率。

实例及操作
频数标准化，首先需要用某个（些）检索项的实际观察频数（原始频数，raw frequency ）除以总体频数（通常为文本或语料库的总词数），这样得到每一个单词里会出现该检索项多少次。

在频数标准化操作中，我们通常会在此基础上乘以1千（1万、1百万）得到平均每千（万、百万）词的出现频率。

即：
1000⨯=总体频数
观测频数标准化频率（每千词）（注：观测频数即检索词项实际出现的次数；总体频数即语料库的大小或总形符数。

）
例如，more 在中国学生的作文里出现251次，在英语母语者语料中出现475次。

两个语料库的大小分别为37,655词次和174,676词次。

我们可以根据上面的公式很容易计算出251和475对应的标准化频率。

另外，我们还可以利用Excel 或SPSS 等工具来计算标准化
频率。

比如，可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格，然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more约为6.67次。

要得到母语者more使用的每千词频率，只需点击C1单元格，将光标移至单元格右下角直至光标变为黑+时，按住鼠标左键，顺势下拉至C2格即可得到母语者每千词使用more的次数约为2.72次。

如有更多频数数据需要标准化处理，可依同样方法求得。

图3.5.1 频数标准化
3.5.3 频数差异检验
上节，我们通过将频数归到一个共同的基数，从而可以对不同频数加以比较。

然而，在统计学中，常常需要对参与比较的数据之间的差异是否具有显著性加以综合检验。

在语料库数据分析中，最常用的是卡方检验（chi-square或χ2）和对数似然比（log-likelihood ratio，常简写为LL）。

两种检验方法的作用和实际操作类似，以下我们重点讲解卡方检验。

这两种检验方法也可以用作搭配强度计算。

基本原理
与频数标准化不同，卡方检验除了考虑到某个检索项在两个不同语料库中的出现频数和语料库大小外，还考虑到检索项在语料库不出现的情况。

例如，在1000词的文本中the出现50次，那么它不出现的情况就是余下的950次。

类似的频数数据，我们用到的是2×2连列表（contingency table）方法的卡方检验。

在统计学上，综合该检索项在两个语料库中出现和不出现的情况，统计学家提出了该检索项理论上的预期频数，其算法是：
表3.5.1 2×2连列表
某检索项出现频数所有词出现
频数
合计
语料库A 语料库B a
c
b
d
a +b
c + d
合计 a +c b + d a +b + c + d
其中：
a = 检索项X在语料库A中的实际频数
b = 检索项X在语料库A中的不出现的频数
c = 检索项X在语料库B中的实际频数
d = 检索项X在语料库B中的不出现的频数
N = a + b +c + d = 各项频数总和，即两个语料库累计大小
d
c b a *+++=列频数之和行频数之和预期频数
而卡方检验的基本公式为：
预期频数预期频数）（观测频数22
-=∑χ 卡方检验的具体计算公式为：
E E O 22
）（-=∑χ = d) (c *d) (b *c)(a *b) (a *bc ad 2++++-N ）（
实例及操作
研究问题：有两个语料库，一个为口语语料库，总词数为1,714,443，另一个为书面语语料库，总词数2,593,452。

其中填充停顿（filled pause ）词er 分别出现9,589次和9,307次。

那么9,589和9,307是否存在显著性差异呢？
这里可以采用卡方检验的方法（参见图3.5.2）。

在配套光盘中，找到名为X2的Excel 文件。

在打开的工作表中，按界面提示，分别输入Corpus 1的总字数1,714,443和Corpus 2的总字数2,593,452。

然后，在主体数据表框中Freq in Corpus 1和Freq in Corpus 2分别输入er 分别的次数9,589和9,307。

这时，Chi-square 列会自动出现相应的卡方值，这里是949.5474。

卡方值（自由度为1时）如果大于临界值3.83, 6.64和10.83，则表明该值在显著性水平0.05, 0.01和0.001的情况下是有意义的，即参与比较的两个数值（9,589和9,307）具有显著性差异。

为便于辨识和解读卡方值，我们将所得的卡方值对应的显著性水平的p 值也同时提供，并按所处的置信区间标定星号（*），在0.05, 0.01和0.001显著性水平下分别标为*、**和***。

表格最后一列的“+”表明er 在Corpus 1中使用频数要多于其在Corpus 2中的频数，即我们常说的频数过多使用（overuse ）；反之，“-”号为使用不足（underuse ）。

回到我们的问题，er 一词在两个语料库中的使用频数具有显著性差异，且er 明显在第一个口语语料库较多使用，可理解为属于口语特征词。

为方便批量实施卡方检验，判别词项在两个语料库中出现频数的差异。

该卡方检验计算器支持一次完成多个卡方检验运算。

操作方法是，先输入Corpus 1的总字数和Corpus 2的总字数，然后将某组词项在Corpus 1和Corpus 2中的出现频数分别拷贝到Freq in Corpus 1和Freq in Corpus 2列中，即可得到所有词项跨语料库差异的卡方值和显著性水平。

图3.5.2 卡方检验计算器界面
配套光盘中同时附有对数似然比计算工具（Log-likelihood Ratio Calculator），文件名为LL.xls。

也是检验词项跨语料库差异显著性的常用方法。

其操作步骤与卡方检验计算器相同，数据的解读方法也一样。

在此不赘述。

3.5.4 搭配强度计算
基本原理
搭配分析的计算方法在实际应用中主要有两种处理方法：以Mike Scott的WordSmith 为代表的经典搭配计算法，以及以Stefan Evert提出的BNCweb的搭配计算方法。

两种方法的主要不同在于是否将跨距作为搭配的核心考查要素（WordSmith计算Z值时用到跨距，BNCweb的算法中多数都用到跨距）。

计算搭配强度的主要算法包括：互信息（MI，mutual information和MI3）、Z值（Z score）、T值（T score）、Log-Log值、卡方值（χ2）、对数似然比（Log-likelihood）、Dice系数等。

这些方法各有优劣。

需要略加说明的是，卡方和对数似然比既可用作检验单个词项跨语料库频数差异的显著性。

也可作为检验两个词在同一个语料库中，一定跨距内的共现强度。

以下对不同搭配强度计算方法的适用性做一简介（这里以BFSU Collocator工具为例）。

更多相关介绍可参阅本章结尾处提供的相关参考文献和网络上有关collocation的讨论。

以下是利用BFSU Collocator工具提取的but一词的搭配情况。

在下面的示例中，我们选用的是光盘中NS_written\raw文件夹下的TEXT001.txt。

【Settings】中【Set Data Type】选的是【Raw】。

点击【Collocate】选项卡后，跨距设为左5右5。

点击【Run】即可得结果。

图3.5.3显示的结果是以搭配词的实际出现频数排序的。

双击搭配结果的每一行，界面窗口下方即会显示含节点词和搭配词的索引行。

本节所举实例使用的检索词（节点词）为but。

搭配强度值小于0的情况，在BFSU Collocator工具里都归为零。

图3.5.3 按搭配词频数高低排序的搭配结果
从图3.5.3可以看出BFSU Collocator工具运行后可以一次同时得到MI、MI3、Z值、T 值、Log-log值和对数似然比。

如果我们需要得到按互信息值排序的搭配词时，只需点击MI（或MI3列的标题行即可，如果点击第一次所列结果为升序排列，再点击一次，则可获得降序排列的结果）。

图3.5.3中的结果显示的是以第3列f(c)，即搭配词（collocates）的频数降序排列的，界面下方窗口显示的是含but和最高频搭配词the的索引行。

互信息（MI，mutual information和MI3）
图3.5.4 按互信息值高低排序的搭配结果
互信息值体现的是节点词和搭配词之间的互相吸引关系。

互信息值越大，说明两个词之间的搭配强度越高。

互信息值可能为正值或负值。

如互信息值为负，则表明两词之间出现互相排斥的现象，即两词不倾向于在一定语境内共现。

Hunston（2002：71）提出在实际操作中以互信息值3作为临界值，即互信息值大于3的搭配词视作强搭配词。

然而，从图3.5.4中的结果可以看出，互信息值算法存在一个明显不足，即互信息容易将低频词（如出现2次的cannon和出现一次的数字词255-page等）视作强搭配。

为了降低低频词在经典互信息算法中的权重，有学者将低频词同节点词的共现频数做了立方处理，经过取对数后，最终的互信息值大大降低了。

这即是下面看到的互信息3（MI3）值的算法。

MI3
图3.5.5 按互信息3值高低排序的搭配结果
从图3.5.5中可以看到，高频词the、of、a，以及标点符号（，）。

这些本身在语料库中的总体频数很高，同时也与节点词but共现频数非常高的词被提到前面。

这些词项被认定为强搭配词比经典互信息算法所得的搭配词似乎更符合but的语言使用实际。

Z值
图3.5.6 按Z值高低排序的搭配结果
虽然同互信息算法和原理不一样，但Z值计算出的搭配词结果与经典互信息得出的结果有些相似，依然有偏重低频词的问题。

T值
图3.5.7 按T值高低排序的搭配结果
在我们这个例子中（见图3.5.7），出现的搭配词以高频词为主。

文献中一般认为T值搭配计算有偏重高频词的问题。

T值的约定俗成的临界值是2。

Log-log值
为避免搭配计算中偏重高频词（以功能词居多靠前）的问题，英国学者Adam Kilgarriff 提出了搭配log-log计算公式，主要是在公式中增加了节点词和搭配词共现频数的对数值，将高频词的权重降低，从而使其他实词搭配词的权重得以提高。

从图3.5.8可以看到，排在前面的搭配词是以实义词为主。

如果我们要借助搭配词进行内容分析的话，那么log-log似乎更适合。

图3.5.8 按log-log值高低排序的搭配结果对数似然比
图3.5.9 按对数似然比高低排序的搭配结果
对数似然比是被认为比较好的一种搭配发现方法。

然而，一般认为各种搭配统计方法，很难说哪种方法是最合理或最正确。

我们建议一方面可根据研究实际选择搭配统计方法；另一方面，还可以兼顾不同的统计方法，关注不同统计方法中都排在前面的一些词。

3.5.5 小结
不同工具（WordSmith、AntConc、BNCweb、Co-occurrence、Collocate、BFSU Collocator 等）得出的MI值、Z值、T值、χ2值、对数似然比值常常有差别。

这些差别一种情况是由公式不同引起的，即我们上面提到的以Mike Scott的WordSmith为代表的经典搭配计算法和以Stefan Evert提出的BNCweb的搭配计算方法。

在相同计算公式下，如果出现数值差别，可能有如下原因：各软件对形符或单词的定义不一致，比如BFSU Collocator中，我们将数字和不同的标点符号视作单独的形符。

再有，含有连字符的单词（如255-page）视作一个单词，而不是两个。

有些工具中会将所有的阿拉伯数字都归并成一个#。

这些都是造成最后的搭配统计值不一致的一些可能因素。

所得的不同搭配强度值，一般来说无对错之虞，只是我们需要弄清产生数值差异的主要原因。

另外，我们应该在同一个课题中坚持用同一种搭配计算工具，并在报告结果时言明。

从搭配信息的结果呈现方式来说，有两种，一种是基于整个语料库中每个词项的所有强搭配的整体呈现。

WordSmith和BNCweb都提供这种搭配信息。

另一种更常见的基于检索项的搭配信息抽取。

包括WordSmith和BNCweb在内的搭配提取工具都可以提供这种搭配获取方式。

我们这里主要介绍第二种方法，即挖掘某个检索项的强搭配信息。

有关借助词语搭配可以开展的研究，可参阅本书7.2节。

其他的统计方法还有因子分析、回归分析等，因为不是语料分析特别常用的方法，在此便不作介绍。

相关文献
Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge University Press. McEnery, Tony, Richard Xiao and Yukio Tono. 2006. Corpus-Based Language Studies: An Advanced Resource Book. London: Routledge. 52-58.
Oakes, Michael. 1998. Statistics for Corpus Linguistics. Edinburgh: Edinburgh University Press.
卫乃兴、李文中、濮建忠等，2005，《语料库应用研究》。

上海：上海外语教育出版社。

113-129。

马广惠，2003，《外国语言学及应用语言学统计方法》。

杨凌：西北农林科技大学出版社。

108-115。