双重差分模型介绍及其应用_叶芳

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

（ 4）
在（ 4）式中，Y 为被解释变量（ dependent），T 和 A
是分别代表时间和分组的虚拟变量（ dummy varia-
ble）。T·A 即为时间和分组虚拟变量的交互作用。
在回归分析中，被解释变量不仅受到一些定量变量的
影响（如年龄、收入、体重等等），还受到一些定性变量
“LINE”条件，则需要对数据进行进一步转化、分层以
及使用广义最小二乘等方法来进行模型的构造。
（ 2）适用于综列数据（ panel data / longitudinal da-
ta）的 DID 模型
综列数据同时兼有横截面数据和时间序列数据的
特点，要求在不同时点调查相同的研究对象。它与独立
混合横截面数据最大的不同在于，不同时点的观测值并
（ 6）
那么，干预的实际效果，即干预组和对照组在随访前后
被解释变量的差△△Yi 为：
△△Yi = △Yi（ 1）－ △Yi（ 0） = （ b1 + b3 ）－ b1 = b3
（ 7）
因此，b3 就是我们最感兴趣的双重差分估计量。
由于混合独立横截面的一大特点：数据集都是由
独立抽取的观测值构成的，因此可以满足残差项与分
预组结局变量的值 Btreat 减去对照组结局变量的值
Bcontrol ，如下式： d = Btreat － Bcontrol
（ 2）
该方法的使用需建立在一个重要的假设基础之
上，即干预实施前干预组和对照组之间需考察的结局
变量没有差异。在小范围、通过随机分组得到的研究
对象可满足这一假设，而对于大规模、规定区域分组的
DID 模型正是基于自然试验得到的数据，通过建模来有效控制研究对象间的事前差异，将政策影响的真正结果有效分离出来。
医疗卫生领域常用于差异比较的统计方法
1．“前后”差异比较是将研究对象干预后结局
变量的值 A t1 减去干预前的值 A t0 ，所得之差即为干预
效果 d，如下式： d = A t1 － A t0
干预措施，则很难满足该假设或为了满足假设而导致
很高的成本。
3．协方差分析通过对干预以外的影响因素采取
数理统计方法进行控制，使这些因素尽量保持一致，同
时结合方差分析的方法，对某一控制变量进行分组，以
提高研究的精确性和准确性。按照此方法，将干预前
结局变量的值作为控制因素之一，而将干预后的值作
△通信作者：王燕 E-mail： w angyan@ bjmu． edu． cn
进一步通过计量经济学方法对其进行分析。
3．一般化 DID 模型
由于一般大规模的人群调查存在较大的变异性问
题，仅在模型中纳入虚拟变量“分组（ A） ”、“时间（ T） ”是远远不够的。为了提高解释系数 R2 ，需要加
入其他可能影响被解释变量的因素，即控制除分组、时
间变量以外的其他变量。对于结局变量是一些偏态分
珔Y ） treatment，t0 －（珔Ycontrol，t1 －珔Ycontrol，t0 ）
（ 3）
其中，d 就是双重差分估计量，Y 为研究的结局变
量，右侧脚标中 treatment 和 control 分布代表干预组和
对照组，t0 和 t1 分别代表干预前和干预后。构造了差
分估计量之后，就要根据不同的数据类型和不同的结
中国卫生统计 2013 年 2 月第 30 卷第 1 期
·131·
双重差分模型介绍及其应用
北京大学公共卫生学院（ 100191）叶芳王燕△
双重差分模型（ difference-in-difference，DID）近年来多用于计量经济学中对于公共政策或项目实施效果的定量评估。
通常大范围的公共政策有别于普通科研性研究，难以保证对于政策实施组和对照组在样本分配上的完全随机。非随机分配政策实施组和对照组的试验称为自然试验（ natural trial），此类试验存在较显著的特点，即不同组间样本在政策实施前可能存在事前差异，仅通过单一前后对比或横向对比的分析方法会忽略这种差异，继而导致对政策实施效果的有偏估计。
异”和“有无差异”有效结合，一定程度上控制了某些
除干预因素以外其他因素的影响；同时在模型中加入
其他可能影响结局变量的协变量，又进一步控制了干
预组和对照组中存在的某些“疑似”影响因素，来补充
“自然试验”在样本分配上不能完全随机这一缺陷，因
而得到对干预效果的真实评估；另外，构造模型所需满
足的条件较少，又成为该模型在计量经济学界广为应
局变量 Y，分别选用相应的参数检验方法来进行建模。
·132·
Chinese Journal of Health Statistics，Feb 2013，Vol． 30，No． 1
2．不同数据类型的基本 DID 模型
对于不同的数据类型，DID 模型的双重差分估计
量的估算方法有所不同。
（ 1）适用于独立混合横截面数据（ independent
布的连续性变量，可通过非线性处理（如取自然对数）
后再行建模，而进一步提高模型的拟合度。
DID 模型的国内外应用现状
1． DID 发展历史 1985 年普林斯顿大学的 Ashenfelter 和 Card 的一
中国卫生统计 2013 年 2 月第 30 卷第 1 期
·133·
篇项目评价的文章〔3〕，第一次引入了 DID 模型。随后的十多年间，该模型在计量经济学界以及社会学界被广泛应用。
用的原因之一。
1． DID 模型构造
在使用 DID 模型之前，要确保数据满足三个假
设；（ 1）在干预组项目的开展对对照组的相关研究变
量不产生任何影响，即项目实施仅造成干预组相关研
究变量的改变。例如，对一项营养干预项目进行效果
评价，干预组内的所有 5 岁以下儿童均可得到免费的Leabharlann Baidu
来，从而可以加大样本量以获得更精密的估计量和更
具功效的检验统计量；也可加入新的变量———时间
（即干预前后），以便判断干预前后的差别。对于总体
一致、范围较大、涉及不同时间点的调查研究，多收集此类数据〔2〕。
这类数据的 DID 模型基本形式为：
Yit = b0 + b1 ·Tit + b2 ·A it + b3 ·Tit ·A it + e it
为应变量，即可解决干预前干预组和对照组业已存在的差异问题。协方差分析通过分离干预组和对照组可消除其他影响因素，并考虑到干预实施前存在的应变量的事前差异，可在理论上保证分析结果的真实可靠性，然而过多、过于严格的应用条件使得协方差分析在实际工作中并不能得到广泛使用。
DID 模型介绍
在干预效果评价方面，DID 模型通过将“前后差
不是独立分布的。这类数据的特点在于： ①由于研究的
个体相同，一些不随时间改变的不可观测的因素（如个
人特质等）对不同时点的观测值会产生影响，可以通过
控制这些影响从而得到较为真实的结果； ②由于综列数
据要求随访相同的研究对象，使得数据收集工作的难度明显增加，不太适用于大规模的调查研究〔2〕。
多数情况下，我们无法保证与个体自身有关的因
△Yi = d0 + b3 ·D（ T·G ） + △e it
（ 11）
经过差分和简化后，就可以通过普通最小二乘法来对
综列数据进行回归了。
以上分析仅针对最简单的两时期综列数据进行分
析，通过差分来移除固定效应。而综列数据同样具有
时间序列的性质，对于多于两期的综列数据而言，还应
考虑到滞后性等问题，需要结合时间序列数据的特点，
组解释变量完全独立，即：
E（ e it | A it） = 0
（ 8）
在确定满足条件（ 8 ）以及满足回归方程要求的
“LINE”条件（线性、独立、正态分布、方差齐）后，该模
型可采用普通最小二乘（ OLS）来进行回归，并得到无
偏的估计量。若在实际情况中得到的数据不满足以上
展期间保持稳定。
DID 模型的核心是构造双重差分估计量（ DID es-
timator），通过对单纯前后比较（干预前 vs．干预后）和
单纯截面比较（干预组 vs．对照组）的结合，得到如下
公式： dID = △珔Ytreatment － △珔Ycontrol = （珔Ytreatment，t1 －
通的较大范围的调查，很难收集到所有与 ai 有关的信息，无法得到这个参数的某个无偏估计系数或关系式，
因此通常进行差分来移除 ai 而不影响对双重差分估计量的无偏估计，即
△Yi（ t（ 1）－ t（ 0）） = b1 ·△T + b3 ·△（ T·G ） + △e it （ 10）由于 DT 为固定不变的参数，用 d0 来代表截距 b1 · △T，因此将（ 10）式略微修改并进一步简化就成为：
（ 1）
该方法简单明了，可操作性强，然而，由于研究对
象干预期间有可能受到其他因素的影响，如特殊事件、
宏观因素影响等，简单的“前后”差异比较法并不能分
离出这些影响，可能得到干预效果的有偏估计。
2．“有无”差异比较它考虑到了干预效果中可
能掺杂其他因素的影响，因而通过设立对照组来消除
这种影响。干预效果的实际影响 d 即为干预实施后干
营养支持，而对照组无。若有部分对照组研究对象通
过各种办法也获得了该项免费营养支持，则违反了本
模型的第一项假设，造成干预效果的低估。（ 2）项目
开展期间，宏观环境（除项目实施以外的因素）对干预
组和对照组的影响相同〔1〕。（ 3）干预组和对照组的某
些重要特征分布稳定，不随时间变化，即在整个项目开
△Yi（ 1） = △Yi1 － △Yi0 = （ b0 + b1 + b2 + b3 ）－（ b0 + b2 ）
= b1 + b3
（ 5）
同样，当个体 i 属于对照组时，被解释变量 Y 在随访和
基线期间的差△Yi（ 0）为：
△Yi（ 0） = △Yi1 － △Yi0 = （ b0 + b1 ）－ b0 = b1
我国学者周黎安、陈烨借鉴 DID 模型的思路，运用全国 591 个县市级数据对我国农村税费改革政策的效果进行系统的评价〔6〕，这也是国内医疗卫生领域首次运用该模型对政策效果进行评价。
2． DID 模型的国外应用现状通过对 pubmed 进行检索，从 2001 年至 2011 年 11 月共检索到 124 篇文献应用到 DID 模型对医疗卫生相关领域数据进行分析，DID 模型的应用呈递增趋势（图 1）。
的影响（如性别、婚姻关系、是否患病等等），这些定性
变量称之为虚拟变量。e 代表残差。角标 i 代表每一
个个体，角标 t 代表不同时间点。i = 0 和 1 时分别代
表对照组和干预组，t = 0 和 1 时分别代表基线和随访。
当个体 i 属于干预组时，被解释变量 Y 在随访和
基线期间的差 VYi（ 1）为：
pooled cross-sectional data / repeated cross-sectional da-
ta）的 DID 模型
独立混合横截面数据是在不同时点从同一个的大
总体内部分别进行随机抽样，将所得的数据混合起来
的一种数据集。该类数据的特点为每一条数据都是独
立的观测值。通过将不同时点的多个观测值结合起
2001 年 6 月哈佛大学公共卫生学院学者 Yip W 与 Eggleston K 对中国海南省的医疗报销付费制度改革进行了分析〔4〕。同年 12 月，杜克大学卫生政策研究中心学者 Conover C J 等人，对美国保险制度 M edicaid 对于妇幼健康结局的影响进行了研究〔5〕。这两篇文章将 DID 模型引入医学和公共卫生领域，随后带动了一批学者使用该模型进行相关研究。
素与分组变量完全无关，这样就不能保证（ 8）式，即残
差独立于分组变量。为了解决该问题，需将这些因素
从残差 e it 中分离出来。于是我们引入变量 ai ，称为固定效应（ fixed effect），代表不同个体的自身相关因素。
因为它不随时间变化，因此右下角脚标为 i。即有：
Yit = b0 + b1 ·Tit + b2 ·A it + b3 ·Tit ·A it + ai + e it ' （ 9）相比（ 4）式，（ 9）式增加了新变量 ai。这样就在一定程度上保证了残差项独立于解释变量这个条件。对于普