语料库常用统计方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3.5语料库常用统计方法
第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成,可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义,常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。
3.5.1 语料库与统计方法
介绍相关统计方法之前,首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时,我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中,我们需要描述这些样本的出现和分布情况。此外,我们还经常需要观察不同语言项目之间在一定语境中共同出现(简称共现)的概率;以及观察某个(些)语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。 理论上说,几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用,不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化(normalization )、频数差异检验和搭配强度的计算方法。
3.5.2 频数标准化
基本原理
通常语料检索、词表生成结果中都会报告频数(frequency, freq 或raw frequency )。那么某词(如many )在某语料库中出现频数为100次说明什么呢?这个词在另一个语料库中出现频数为105次,是否可以说many 在第二个语料库中更常用呢?显然,不能因为105大于100,就认定many 在第二个语料库中更常用。这里大家很容易想到,两个语料库的大小未必相同。按照通常的思维,我们可以算出many 在两个语料库中的出现百分比,这样就可比了。这种情况下,我们是将many 在两个语料库中的出现频数归到一个共同基数100之上,即每100词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率,即基于一个统一基准得出的频率。
实例及操作
频数标准化,首先需要用某个(些)检索项的实际观察频数(原始频数,raw frequency )除以总体频数(通常为文本或语料库的总词数),这样得到每一个单词里会出现该检索项多少次。在频数标准化操作中,我们通常会在此基础上乘以1千(1万、1百万)得到平均每千(万、百万)词的出现频率。即:
1000⨯=总体频数
观测频数标准化频率(每千词) (注:观测频数即检索词项实际出现的次数;总体频数即语料库的大小或总形符数。)
例如,more 在中国学生的作文里出现251次,在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外,我们还可以利用Excel 或SPSS 等工具来计算标准化
频率。比如,可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格,然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more约为6.67次。要得到母语者more使用的每千词频率,只需点击C1单元格,将光标移至单元格右下角直至光标变为黑+时,按住鼠标左键,顺势下拉至C2格即可得到母语者每千词使用more的次数约为2.72次。如有更多频数数据需要标准化处理,可依同样方法求得。
图3.5.1 频数标准化
3.5.3 频数差异检验
上节,我们通过将频数归到一个共同的基数,从而可以对不同频数加以比较。然而,在统计学中,常常需要对参与比较的数据之间的差异是否具有显著性加以综合检验。在语料库数据分析中,最常用的是卡方检验(chi-square或χ2)和对数似然比(log-likelihood ratio,常简写为LL)。两种检验方法的作用和实际操作类似,以下我们重点讲解卡方检验。这两种检验方法也可以用作搭配强度计算。
基本原理
与频数标准化不同,卡方检验除了考虑到某个检索项在两个不同语料库中的出现频数和语料库大小外,还考虑到检索项在语料库不出现的情况。例如,在1000词的文本中the出现50次,那么它不出现的情况就是余下的950次。类似的频数数据,我们用到的是2×2连列表(contingency table)方法的卡方检验。在统计学上,综合该检索项在两个语料库中出现和不出现的情况,统计学家提出了该检索项理论上的预期频数,其算法是:
表3.5.1 2×2连列表
某检索项出现频数所有词出现
频数
合计
语料库A 语料库B a
c
b
d
a +b
c + d
合计 a +c b + d a +b + c + d
其中:
a = 检索项X在语料库A中的实际频数
b = 检索项X在语料库A中的不出现的频数
c = 检索项X在语料库B中的实际频数
d = 检索项X在语料库B中的不出现的频数
N = a + b +c + d = 各项频数总和,即两个语料库累计大小
d
c b a *+++=列频数之和行频数之和预期频数
而卡方检验的基本公式为:
预期频数预期频数)(观测频数22
-=∑χ 卡方检验的具体计算公式为:
E E O 22
)(-=∑χ = d) (c *d) (b *c)(a *b) (a *bc ad 2++++-N )(
实例及操作
研究问题:有两个语料库,一个为口语语料库,总词数为1,714,443,另一个为书面语语料库,总词数2,593,452。其中填充停顿(filled pause )词er 分别出现9,589次和9,307次。那么9,589和9,307是否存在显著性差异呢?
这里可以采用卡方检验的方法(参见图3.5.2)。在配套光盘中,找到名为X2的Excel 文件。在打开的工作表中,按界面提示,分别输入Corpus 1的总字数1,714,443和Corpus 2的总字数2,593,452。然后,在主体数据表框中Freq in Corpus 1和Freq in Corpus 2分别输入er 分别的次数9,589和9,307。这时,Chi-square 列会自动出现相应的卡方值,这里是949.5474。卡方值(自由度为1时)如果大于临界值3.83, 6.64和10.83,则表明该值在显著性水平0.05, 0.01和0.001的情况下是有意义的,即参与比较的两个数值(9,589和9,307)具有显著性差异。为便于辨识和解读卡方值,我们将所得的卡方值对应的显著性水平的p 值也同时提供,并按所处的置信区间标定星号(*),在0.05, 0.01和0.001显著性水平下分别标为*、**和***。表格最后一列的“+”表明er 在Corpus 1中使用频数要多于其在Corpus 2中的频数,即我们常说的频数过多使用(overuse );反之,“-”号为使用不足(underuse )。回到我们的问题,er 一词在两个语料库中的使用频数具有显著性差异,且er 明显在第一个口语语料库较多使用,可理解为属于口语特征词。
为方便批量实施卡方检验,判别词项在两个语料库中出现频数的差异。该卡方检验计算器支持一次完成多个卡方检验运算。操作方法是,先输入Corpus 1的总字数和Corpus 2的总字数,然后将某组词项在Corpus 1和Corpus 2中的出现频数分别拷贝到Freq in Corpus 1和Freq in Corpus 2列中,即可得到所有词项跨语料库差异的卡方值和显著性水平。