混合效应逻辑斯蒂回归模型的原理及其应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语料库语言学 2020年 第7卷 第2期
混合效应逻辑斯蒂回归模型的原理及其应用
北京航空航天大学 张 懂
提要:近年来,混合效应逻辑斯蒂回归模型(mixed-effects logistic regression model)在社会语言学、心理语言学、语料库语言学和认知语言学等领域中得到广泛应用。

本文旨在介绍混合效应逻辑斯蒂回归建模的原理,并以英语与格交替研究作为案例,展示混合效应逻辑斯蒂回归模型在语言研究中的具体应用。

关键词:混合效应逻辑斯蒂回归模型、多变量统计分析、英语与格交替
1. 引言
基于用法的语言观认为,语言的使用和选择往往受多个因素的共同影响(Gries 2013)。

因此要考察真实使用中的语言选择,需同时考察多个因素及其交互作用。

多变量统计分析方法为同时考察多个因素对语言使用的影响提供了有效的技术支撑。

近年来,使用多变量统计分析方法的语言学研究日益增多(如Gries 2003;Gries & Divjak 2009;Glynn & Fischer 2010;Glynn & Robinson 2014;Divjak et al. 2016 ;Szmrecsanyi et al. 2017;Röthlisberger et al. 2017;许家金、陈哲 2018;房印杰、梁茂成 2019)。

多变量统计分析方法包括众多不同的统计方法,大致可分为探索型统计分析方法和验证型统计分析方法,前者包括聚类分析、对应分析、因子分析和多维尺度等;后者包括多元线性回归分析、逻辑斯蒂回归分析和线性判别分析等。

本文拟简述混合效应逻辑斯蒂回归模型的原理,并通过研究案例,展示混合效应逻辑斯蒂回归分析在语言研究中的具体应用。

本文重点在于呈现混合效应逻辑斯蒂回归分析的操作过程和分析步骤。

2. 混合效应逻辑斯蒂回归模型简介
逻辑斯蒂回归分析是一种重要的多变量统计分析方法。

逻辑斯蒂回归模型的反应变量要求是类别型变量(categorical variables)(通常是二分类),符合二项分布( binomial distribution)。

逻辑斯蒂回归模型属于广义线性模型(generalized
100
张 懂
linear model),其反应变量的取值范围要求为“[0,1]”。

因此,需要使用Logit连接函数(link function),将线性回归函数转换为反应变量取值为“[0,1]”的逻辑斯蒂回归模型(Baayen 2008:196)。

Logit函数的形式为:
y = f (x) = 1/ 1+e-x
逻辑斯蒂回归的反应变量通常为符合二项分布的随机变量,设P为y=1的概率,则P与解释变量之间呈曲线关系,二者之间的关系可以表示为(王斌会 2011:110):
P = P (y = 1 | X) = exp (Xβ) / (1+ exp(Xβ))
经过Logit变换后,得到逻辑斯蒂回归模型:
Xβ = Logit (y) =In (P/(1- P) ) = β
+β1X1+β2X2+β3X3+…+βp X p
因此,构建逻辑斯蒂回归模型即是对β0,β1,β2,β3,…βp进行参数估计。

逻辑斯蒂回归模型的参数估计方法通常使用极大似然估计法(maximum likelihood estimation)(Baayen 2008:195;王斌会 2011:111)。

混合效应逻辑斯蒂回归模型是在逻辑斯蒂回归模型的基础上添加了随机效应的统计模型,某个随机变量的随机效应值通过参数估计得到,代表其与总体随机效应平均值之间的方差,通常其围绕0左右变化,在模型中表现为对模型截距项的调整(Baayen 2008:242-247)。

混合效应逻辑斯蒂回归分析解决了数据互相独立的统计假定问题和数据不平衡的问题,而且混合效应逻辑斯蒂回归模型的分类准确度通常更高(Gries 2015:66)。

3. 混合效应逻辑斯蒂回归分析应用案例
逻辑斯蒂回归模型可以用于统计和预测语言研究中词汇和论元结构构式的选择问题。

下面本文以英语中常见的与格交替现象为例,展示混合效应逻辑斯蒂回归分析的具体操作方法和分析步骤。

3.1 语料的获取与标注
英语与格交替指双宾构式(如1a)和介词与格构式(如1b)两个表示物体转移事件的近义构式之间的交替使用现象。

(1)a. John
sent Mary与事 the book受事.
施事
b. John施事 sent the book受事 to Mary与事.
(Gries & Stefanowitsch 2004:104)
101
混合效应逻辑斯蒂回归模型的原理及其应用
虽然二者语义相近,但在实际语言使用中,二者的选择受多层面语言特征的共同制约。

已有研究发现,论元的有生性、有定性、语篇可及性、成分重量、具体性、代词性及动词语义均对构式的选择有一定的影响(Thompson 1990;Collins 1995;Snyder 2003;Bresnan et al. 2007;Bresnan & Hay 2008;Bresnan & Ford 2010;Gries & Bernaisch 2016;Szmrecsanyi et al. 2017;Röthlisberger et al. 2017)。

本文以英语与格交替为例,旨在展示混合效应逻辑斯蒂回归分析的操作过程。

首先,本文选取了8个常用的与格动词(dative verbs),包括:BRING、GIVE、HAND、OFFER、PASS、SELL、SEND、TELL1,以上述动词及其屈折变化形式为关键词,在BNC语料库中进行检索,随机抽取包含每一个动词的1,000条索引行,经人工核查,删去不属于与格交替的例句,得到本文用于标注和分析的与格交替语料2,语料的总体分布如表1所示。

表1 英语与格交替语料的总体分布
与格动词双宾构式介词与格构式总计
BRING292453
GIVE370104474
HAND12279201
OFFER514293
PASS61218
SELL84856
SEND5453107
TELL62365
通过以上方法,共得到1,067句与格交替例句,其中包括702句双宾构式例句和365句介词与格构式例句。

其次,对上述与格交替例句的词汇、句法、语义和语用等层面的使用特征进行定性分析和人工标注。

标注框架见表23。

102
张 懂
表2 标注因素及其水平
因素类型因素名称因素水平标注名称
解释变量
与事有生性有生;无生ReciAnim 受事有生性有生;无生ThemeAnim 与事可及性已知;未知ReciAcc 受事可及性已知;未知ThemeAcc 与事代词性代词;非代词ReciPron 受事代词性代词;非代词ThemePron 与事有定性有定;无定ReciDef 受事有定性有定;无定ThemeDef 受事具体性具体;抽象ThemeCon 与事句法复杂性简单;复杂ReciCom 受事句法复杂性简单;复杂ThemeCom 长度差异受事长于/短于/等于与事LengthDiff 动词与格动词的词元Verb
反应变量构式变体双宾构式;介词与格构式Dative
具体而言,本文将有生性标为两个水平:有生(标注编码为1)和无生(标注编码为0)4。

人和动物标为有生;其他事物标为无生(Bresnan & Ford 2010)。

可及性标为可及(标注编码为1)和不可及(标注编码为0)。

名词性短语的所指在语篇的前10句有提及时,以及其为第一或第二人称代词时,视为可及;其余情况标为不可及(Bresnan & Ford 2010)。

代词性标注为代词性成分(标注编码为1)及非代词性成分(标注编码为0)(Bresnan & Ford 2010)。

有定性标为有定成分(标注编码为1)和无定成分(标注编码为0),有定成分主要包括定冠词、指示代词、人称代词、反身代词、物主代词、专有名词、全称量词等(Garretson 2004)。

具有原型性的、能被五官感知到的物质实体标为具体(标注编码为1),其余标为抽象(标注编码为0)(Garretson 2004;Bresnan & Ford 2010)。

句法复杂性标注为复杂成分(标注编码为1)和简单成分(标注编码为0):对于有限定成分,且限定成分具有句子功能的名词短语,标注为复杂成分;对于无限定成分,或其限定成分不具有句子功能的名词短语,标注为简单成分(Wasow & Arnold 2003)。

长度差异分为三个水平:受事包含的词数多于与事包含的词数(标注编码为1)、受事包含的词数等于与事包含的词数(标注编码为2),以及受事包含的词数少于与事包含的词数(标注编码为0)。

动词即标注为语料中使用的与格动词词元。

反应变量标注为双宾构式(标注编码为1)或介词与格构式(标注编码为0)两种构式变体。

103
混合效应逻辑斯蒂回归模型的原理及其应用
3.2 混合效应逻辑斯蒂回归分析
本文在Excel软件中对语料进行特征标注。

其中,每一列为标注的变量,每一行为每一个实例构式的属性特征,即观测值。

对所有例子进行特征标注后,即可得到本文要统计和分析的数据集。

对上述标注数据进行混合效应逻辑斯蒂回归分析的具体过程如下。

首先,将xls格式的标注数据转换成csv格式,然后将数据导入到R语言软件(R Core Team 2017)。

使用的代码是:
导入到R语言软件后,可以查看已导入数据的前6行,以确认数据集导入无误:然后,可以使用str()函数,查看数据结构,得到如下输出结果:
可以看出,R语言软件中将数据中除动词之外的其他变量都视为数值型变量。

因此,在进行混合效应逻辑斯蒂回归建模前,需要使用as.factor()函数,将数值型变量转换为因子型变量。

使用的代码是:
104
张 懂
执行上述代码后,再使用str()函数,查看数据结构,得到如下输出结果:
可见,数据集中的所有变量都已为因子型变量。

接下来,使用混合效应逻辑斯蒂回归分析方法,对数据进行统计分析。

本文使用的是R语言软件{lme4}程序包中的glmer()函数(Bates et al. 2015),对数据进行混合效应逻辑斯蒂回归统计分析。

首先构建最大回归模型5,代码是:
其中,~号前的Dative表示要解释和预测的反应变量,~号后的ReciAnim+ ReciAcc+ThemeAcc+ReciPron+ThemePron+LengthDiff+ReciDef+ThemeDef+The meCon+ThemeCom表示要统计的固定变量(即名词性论元的使用特征)同时对反应变量产生的影响,(1|Verb)表示统计随机变量(即动词)对反应变量产生的影响。

执行上述代码后,使用summary(model1),得到模型的统计结果:
105
混合效应逻辑斯蒂回归模型的原理及其应用
可见,最大模型中的受事具体性因素并不显著。

根据模型简洁性要求,需要删除不显著的变量,重新对数据进行混合效应逻辑斯蒂回归建模,构建最优模型6。

代码是:
执行上述代码后,使用summary(model2),得到模型的统计结果:
106
张 懂
可见,上述模型中的变量均对与格交替具有显著影响。

然后,通过使用卡方检验,对两个模型的差异显著性进行统计分析,发现两个模型并无显著差异(p = 0.68)。

统计结果如下:
因此,根据模型简洁性的要求,model2即为最优模型。

衡量模型拟合度有两个基本指标:模型的总体分类准确度和模型的C值。

首先对最优模型的分类准确度进行统计,使用的代码为:
由此可知,最优模型的分类准确度约为93%(997/1067),远高于基准分类准确度(baseline accuracy)66%(702/1067),证明模型具有较好的分类和预测能力。

统计最优模型的C值,可得到模型的C值约为0.98。

使用的代码如下:
由此可见,模型对数据的拟合度较高7,表明可以使用该模型对英语与格交替使用特征数据进行分类和预测。

3.3 混合效应逻辑斯蒂回归模型的解读
3.3.1 固定效应
本研究中的固定效应指的是论元的句法、语义、语用等层面的使用特征对与格构式变体选择产生的影响效应。

已有研究发现,与事和受事的句法、语义、语用等使用特征对与格构式变体选择有一定影响(如Thompson 1990;Collins 1995;Snyder 2003;Wasow & Arnold 2003;Bresnan et al. 2007;Bresnan & Ford 2010;
107
混合效应逻辑斯蒂回归模型的原理及其应用
Gries & Bernaisch 2016;Szmrecsanyi et al. 2017;Röthlisberger et al. 2017)。

通过观察最优模型统计结果中回归系数的参数估计值(estimate)和p值,可以发现:与事有生性、与事可及性、受事可及性、与事代词性、受事代词性、长度差异、与事有定性、受事有定性和受事句法复杂性对英语与格交替构式变体选择具有显著影响。

回归系数参数估计值可以反映因素不同水平对构式变体选择的影响。

回归系数为对数优势比(log odds ratio)。

通过回归系数,可以判断各因素的不同水平对与格构式变体选择的影响效应量,例如,当与事为有生实体时,句子使用双宾构式的发生比是与事为无生实体时的4.57(e1.52)倍。

简言之,某一因素水平的回归系数参数估计值为正,表明相较于其参照水平,该因素水平增加了双宾构式的使用几率;某一因素水平的回归系数参数估计值为负,表明相较于其参照水平,该因素水平增加了介词与格构式的使用几率。

因此,通过观察不同因素水平的回归系数,可知与事为有生、可及、代词、有定、长度短于或等于受事及受事的句法复杂性较高时,英语显著倾向使用双宾构式;受事为可及、代词、有定时,英语显著倾向使用介词与格构式。

3.3.2 随机效应
本研究中的随机效应指的是动词对与格构式变体选择产生的影响效应。

已有研究发现,不同动词对与格构式变体有不同的选择倾向(如Levin 1993;Hovav & Levin 2008;Gries & Stefanowitsch 2004;Bresnan & Ford 2010)。

观察最优模型统计结果中的随机效应,可以发现动词产生的随机效应的方差是5.021,标准差是2.241。

统计不同动词分别产生的随机效应的代码和统计结果如下所示:
本研究中动词的调整截距值大于0,说明该动词倾向于出现在双宾构式中;动词的调整截距值小于0,说明该动词倾向于出现在介词与格构式中。

此外,还可以通过使用可视化的方法,将动词的随机效应呈现出来。

使用的代码是:
不同动词的随机效应可视化结果如下:
108
张 懂
由此可见,tell和give明显倾向选择双宾构式,而hand、offer、bring、pass、send和sell则明显倾向选择介词与格构式。

换言之,虽然上述与格动词既可以用于双宾构式,又可以用于介词与格构式,但其对构式的使用选择表现出明显不同的偏好和概率性差异。

4. 结语
本文以英语与格交替为例,介绍了混合效应逻辑斯蒂回归分析的操作方法。

需要指出的是,本文旨在通过英语与格交替现象,介绍混合效应逻辑斯蒂回归分析的具体操作过程和实现方法,重点在于介绍混合效应逻辑斯蒂回归分析方法。

未来可将混合效应逻辑斯蒂回归分析方法应用到其他语言现象的研究。

注 释
1. 大写字母表示词元,包括动词的各种屈折变化形式。

2. 本文用于标注和分析的英语与格交替语料抽取自张懂(2019)。

3. 本文标注框架和标注方案总体上采取张懂(2019)的做法。

4. 需要注意的是,本文使用的标注编码“1”和“0”为虚拟编码,用于区分类
别性变量(定性变量)的不同水平,而非数值型变量的不同取值。

因此,在
109
混合效应逻辑斯蒂回归模型的原理及其应用
导入R语言软件进行统计时,需先将其转换为因子型变量。

5. 由于本文数据集中受事有生性和与事复杂性变量的分布极其偏态(其中受事
为无生事物占比约98.8%,与事为简单成分占比约94.6%),因此在进行统计分析之前剔除了上述两个变量。

6. 混合效应逻辑斯蒂回归模型非常复杂,模型选择过程以及对模型结果的解读
尚存争议(Gries 2013:335-336)。

7. 模型C值大于0.8,则可认为模型对数据具有较高的拟合度(Baayen 2008;
Gries 2013)。

参考文献
Baayen, R. 2008. Analyzing Linguistic Data: A Practical Introduction to Statistics Using R [M]. Cambridge: CUP.
Bates, D., M. Mächler, B. M. Bolker & S. C. Walker. 2015. Fitting linear mixed effect models using lme4 [J]. Journal of Statistical Software 67 (1): 1-48.
Bresnan, J., A. Cueni, T. Nikitina & R. Baayen. 2007. Predicting the dative alternation
[A]. In G. Bouma, I. Kraemer & J. Zwarts (eds.). Cognitive Foundations of
Interpretation [C]. Amsterdam: Royal Netherlands Academy of Science. Bresnan, J. & J. Hay. 2008. Gradient grammar: An effect of animacy on the syntax of give in New Zealand and American English [J]. Lingua 118: 245-259.
Bresnan, J. & M. Ford. 2010. Predicting syntax: Processing dative constructions in American and Australian varieties of English [J]. Language 86: 168-213.
Collins, P. 1995. The indirect object construction in English: An informational approach [J]. Linguistics 33: 35-49.
Divjak, D., E. Dąbrowska & A. Arppe. 2016. Machine meets man: Evaluating the psychological reality of corpus-based probabilistic models [J]. Cognitive Linguistics
27 (1): 1-33.
Garretson, G. 2004. Coding Practices Used in the Project Optimal Typology of Determiner Phrases [D]. Boston: Boston University.
Glynn, D. & J. Robinson (eds.). 2014. Corpus Methods for Semantics: Quantitative Studies in Polysemy and Synonymy [C]. Amsterdam: John Benjamins.
Glynn, D. & K. Fischer (eds.). 2010. Quantitative Methods in Cognitive Semantics: Corpus-driven Approaches [C]. Berlin: Mouton de Gruyter.
Gries, S. 2003. Multifactorial Analysis in Corpus Linguistics: A Study of Particle Placement [M]. New York: Continuum.
Gries, S. 2013. Statistics for Linguistics with R: A Practical Introduction. Second Edition [M]. Berlin: Mouton de Gruyter.
Gries, S. 2015. Quantitative designs and statistical techniques [A]. In D. Biber & R. 110
张 懂
Reppen (eds.). The Cambridge Handbook of English Corpus Linguistics [C].
Cambridge: CUP. 50-71.
Gries, S. & A. Stefanowitsch. 2004. Extending collostructional analysis: A corpus-based perspective on “alternations” [J]. International Journal of Corpus Linguistics 9: 97-129. Gries, S. & D. Divjak. 2009. Behavioral profiles: A corpus-based approach to cognitive semantic analysis [A]. In V. Evans & S. Pourcel (eds.). New Directions in Cognitive Linguistics [C]. Amsterdam: John Benjamins. 57-75.
Gries, S. & T. Bernaisch. 2016. Exploring epicentres empirically: Focus on South Asian Englishes [J]. English World-Wide 37: 1-25.
Hovav, M. & B. Levin. 2008. The English dative alternation: The case for verb sensitivity [J]. Journal of Linguistics 44 (1): 129-167.
Levin, B. 1993. English Verb Classes and Alternations: A Preliminary Investigation [M].
Chicago: The University of Chicago Press.
Röthlisberger, M., J. Grafmiller & B. Szmrecsanyi. 2017. Cognitive indigenization effects in the English dative alternation [J]. Cognitive Linguistics 28: 673-710. Snyder, K. 2003. The Relationship Between Form and Function in Ditransitive Constructions [D]. Philadephia: University of Pennsylvania.
Szmrecsanyi, B., J. Grafmiller, J. Bresnan, A. Rosenbach, S. Tagliamonte & S. Todd.
2017. Spoken syntax in a comparative perspective: The dative and genitive alternation in varieties of English [J]. Glossa 2 (1): 1-27.
Thompson, S. 1990. Information flow and dative shift in English discourse [A]. In J. Edmondson, C. Feagin & P. Mühlhäusler (eds.). Development and Diversity, Language Variation across Time and Space [C]. Dallas: The Summer Institute of Linguistics and The University of Texas at Arlington. 239-253.
Wasow, T. & J. Arnold. 2003. Post-verbal constituent ordering in English [A]. In G.
Rohdenburg & B. Mondorf (eds.). Determinants of Grammatical Variation in English [C]. Bern: Mouton de Gruyter. 119-154.
房印杰、梁茂成,2019,可比语境下关系代词取舍的多因素分析 [J],《外语教学与研究》(3): 435-446。

许家金、陈哲,2018,中国大学生英语口语中不定式和动名词述补行为的多因素分析 [J],《外语教学与研究》(3):380-392。

王斌会,2011,《多元统计分析及R语言建模(第二版)》[M]。

广州:暨南大学出版社。

张懂,2019,英汉与格交替的多因素对比分析 [D]。

北京:北京外国语大学。

通信地址: 100191 北京市北京航空航天大学外国语学院
111。

相关文档
最新文档