统计模型的“不确定性”问题与倾向值方法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

统计模型的“不确定性”问题与倾向值方法

统计模型的“不确定性”问题与倾向值方法统计模型的“不确定性”问题与倾向值方法胡安宁摘要：量化社会学研究往往基于特定的统计模型展开。近十几年来日益流行的倾向值方法也不例外，其在实施过程中需要同时拟合估计倾向值得分的“倾向值模型”与估计因果关系的“结果模型”。然而，无论是其模型形式还是系数估计，统计模型本身都具有不可忽视的“不确定性”问题。本研究在倾向值分析方法的框架下，系统梳理和阐释了模型形式不确定性与模型系数不确定性

的内涵及其处理方法。通过分析“蒙特卡洛模拟”数据与经验调查数据，本文展示了在使用倾向值方法进行因果估计的过程中，研究者如何通过“贝叶斯平均法”进行多个备选倾向值模型的选择，以及如何通过联合估计解决倾向值模型与估计模型中的系数不确定性问题。本文的研究也表明，在考虑倾向值估计过程的不确定性之后，结果模型中对于因果关系的估计呈现更小的置信区间和更高的统计效率。关键词：模型形式不确定性模型系数不确定性贝叶斯平均倾向值方法统计效率实质上，所有的模型都是错的，只是一些有用而已。(Essentially，all models are wrong，but some are useful.) ——乔治·鲍克斯(George E. P. Box)，诺尔曼·德雷珀(Norman R. Draper) 一、导言大量的社会学量化研究是

基于特定的统计模型展开的(Raftery，2001)。通过这些统

计模型，研究者能够确认变量之间的概率关系，并依据统计推论(statistical inference)的基本原则将此关系由随机样本

推广至研究总体。这一量化研究范式随着近十几年来各种因果推论模型(causal model)的开发与推广，展现出越来越强

的影响力(Morgan，2014)。在这些因果推论模型中，“倾向值方法”(propensity score method)因其方便、易操作得到国内外很多社会学研究者的青睐(Rosenbaum and Rubin，1983；Rubin，1997；胡安宁，2012；Imbens and Rubin, 2015)。从本质上讲，基于统计模型估计出的变量间关系代表的是一种概率关系而非决定性关系，对于这一点，目前社会学量化研究还没有给予足够的重视。在诠释量化模型结果的时候，很多学者倾向于采用一种“决定论”(deterministic)式的态度。比如，对于线性模型E(Y)=βX，一般会将其诠释为：X变动一个单位会带来Y的期望值E(Y)变动β个单位。这种诠释

虽不错误，却片面的关注点估计(point estimate)结果，忽视了系数β本身也是存在变异(variation)的情况。换句话说，β的“不确定性”(uncertainties)没有被考虑到。1. 例如，当用样本收入均值估算总体收入均值时，我们无法知道总体收入均值的具体值，而只能估算出其可能取值的区间。这一区间的大小和我们希望达到的统计效率(efficiency)有关。2. 一

般而言，所有的备选模型构成了一个模型空间(model space)。

3. 结果模型是指因变量为我们需要解释的变量的模型。与结果模型相比，倾向值方法中还涉及估算倾向值的广义线性模型，后者的因变量为处理变量(treatment)。

4. 混淆变量是

指同时与因变量和自变量相关的变量。由于混淆变量的存在，自变量和因变量之间的关系有可能是虚假的。按照统计学

家德雷珀(Draper, 1995)的定义，一个统计模型至少存在两

种“不确定性”。第一种被称为“参数(parametric)的不确定性”。意指我们在利用样本数据估计整体(population)模型系数的

时候，由于样本本身的随机抽样，最后研究者得到的只能是一个关于某系数的变动区间，而不可能是一个百分之百确定的数值。1第二种“不确定性”是“模型形式(model form)的不

确定性”。这种“不确定性”是指在分析特定研究问题的时候，研究者通常会面临很多备选模型，从而带来模型拟合形式上的不确定。2这两种统计模型的“不确定性”在当下逐渐兴起

的倾向值方法中尤为突出。通常而言，倾向值分析要求研究者通过一个广义线性模型(例如逻辑斯蒂回归)计算出每个被

研究个体的倾向值得分(此模型被称为“倾向值模型”)，然后再将此倾向值得分通过细分(sub-classification)、加权(weighting)、回归调整(regression adjustment)等方式纳入结果模型(outcome model)。3在这样一个分析过程中，一方面，我们基于样本得到的广义线性回归模型系数会随着不同的

抽样样本而变化，这就决定了我们基于此模型计算出的每个

个体的倾向值得分也必然是一个随机变量，从而间接体现系数的不确定性。另一方面，预测倾向值得分的时候，我们会考虑很多的混淆变量(confounding variables)。4但是，社会学研究者在通常情况下需要自主决定应当采用哪些混淆变

量来预测倾向值(Western，1996)。所以，在大多数情况下，混淆变量的纳入依据颇具主观性。此时，不同的混淆变量组合就会就产生多个备选模型，从而带来模型形式的不确定性。在倾向值方法中，这两种不确定性同时存在。也即，每一个备选模型都会存在一个倾向值的变动区间。很明显，这两类模型不确定性的共同作用使得倾向值方法最终的分析结果

存在不容忽视的不确定性问题。在此背景下，本研究的目

标有三：第一，通过系统梳理目前统计学、经济学、政治学、社会学、心理学等不同学科对于统计模型不确定性问题的讨论，帮助量化社会学研究者对于模型不确定性问题有一个系统和清晰的了解与把握。第二，目前对于统计模型不确定性问题的探讨往往片面关注上述两种不确定中的一种。本文通过“蒙特卡洛模拟”与经验实例，展示这两类不确定性如何共

同作用，以影响倾向值分析的结果。此外，通过综合运用“贝叶斯模型平均法”与“似然函数联合估计法”，本研究提供了一种同时处理两种不确定性问题的实践策略(有关这一部分的

讨论下面有专门展开)。第三，基于对模型不确定性的理论探讨和经验分析，本文进一步论述了统计模型不确定性问题对