双重差分模型介绍及其应用_叶芳
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
来,从而可以加大样本量以获得更精密的估计量和更
具功效 的 检 验 统 计 量; 也 可 加 入 新 的 变 量———时 间
( 即干预前后) ,以便判断干预前后的差别。对于总体
一致、范围较大、涉及不同时间点的调查研究,多收集 此类数据〔2〕。
这类数据的 DID 模型基本形式为:
Yit = b0 + b1 ·Tit + b2 ·A it + b3 ·Tit ·A it + e it
局变量 Y,分别选用相应的参数检验方法来进行建模。
·132·
Chinese Journal of Health Statistics,Feb 2013,Vol. 30,No. 1
2. 不同数据类型的基本 DID 模型
对于不同的数据类型,DID 模型的双重差分估计
量的估算方法有所不同。
( 1) 适 用 于 独 立 混 合 横 截 面 数 据 ( independent
珔Y ) treatment,t0 - ( 珔Ycontrol,t1 - 珔Ycontrol,t0 )
( 3)
其中,d 就是双重差分估计量,Y 为研究的结局变
量,右侧脚标中 treatment 和 control 分布代表干预组和
对照组,t0 和 t1 分别代表干预前和干预后。构造了差
分估计量之后,就要根据不同的数据类型和不同的结
为应变量,即可解决干预前干预组和对照组业已存在 的差异问题。协方差分析通过分离干预组和对照组可 消除其他影响因素,并考虑到干预实施前存在的应变 量的事前差异,可在理论上保证分析结果的真实可靠 性,然而过多、过于严格的应用条件使得协方差分析在 实际工作中并不能得到广泛使用。
DID 模型介绍
在干预效果评价方面,DID 模型通过将“前后差
的影响( 如性别、婚姻关系、是否患病等等) ,这些定性
变量称之为虚拟变量。e 代表残差。角标 i 代表每一
个个体,角标 t 代表不同时间点。i = 0 和 1 时分别代
表对照组和干预组,t = 0 和 1 时分别代表基线和随访。
当个体 i 属于干预组时,被解释变量 Y 在随访和
基线期间的差 VYi( 1) 为:
( 1)
该方法简单明了,可操作性强,然而,由于研究对
象干预期间有可能受到其他因素的影响,如特殊事件、
宏观因素影响等,简单的“前后”差异比较法并不能分
离出这些影响,可能得到干预效果的有偏估计。
2.“有无”差异比较 它考虑到了干预效果中可
能掺杂其他因素的影响,因而通过设立对照组来消除
这种影响。干预效果的实际影响 d 即为干预实施后干
我国学者周黎安、陈烨借鉴 DID 模型的思路,运 用全国 591 个县市级数据对我国农村税费改革政策的 效果进行系统的评价〔6〕,这也是国内医疗卫生领域首 次运用该模型对政策效果进行评价。
2. DID 模型的国外应用现状 通过对 pubmed 进行检索,从 2001 年至 2011 年 11 月共检索到 124 篇文献应用到 DID 模型对医疗卫 生相关领域数据进行分析,DID 模型的应用呈递增趋 势( 图 1) 。
pooled cross-sectional data / repeated cross-sectional da-
ta) 的 DID 模型
独立混合横截面数据是在不同时点从同一个的大
总体内部分别进行随机抽样,将所得的数据混合起来
的一种数据集。该类数据的特点为每一条数据都是独
立的观测值。通过将不同时点的多个观测值结合起
( 4)
在( 4) 式中,Y 为被解释变量( dependent) ,T 和 A
是分别 代 表 时 间 和 分 组 的 虚 拟 变 量 ( dummy varia-
ble) 。T·A 即为时间和分组虚拟变量的交互作用。
在回归分析中,被解释变量不仅受到一些定量变量的
影响( 如年龄、收入、体重等等) ,还受到一些定性变量
用的原因之一。
1. DID 模型构造
在使用 DID 模 型 之 前,要 确 保 数 据 满 足 三 个 假
设; ( 1) 在干预组项目的开展对对照组的相关研究变
量不产生任何影响,即项目实施仅造成干预组相关研
究变量的改变。例如,对一项营养干预项目进行效果
评价,干预组内的所有 5 岁以下儿童均可得到免费的
( 6)
那么,干预的实际效果,即干预组和对照组在随访前后
被解释变量的差△△Yi 为:
△△Yi = △Yi( 1) - △Yi( 0) = ( b1 + b3 ) - b1 = b3
( 7)
因此,b3 就是我们最感兴趣的双重差分估计量。
由于混合独立横截面的一大特点: 数据集都是由
独立抽取的观测值构成的,因此可以满足残差项与分
布的连续性变量,可通过非线性处理( 如取自然对数)
后再行建模,而进一步提高模型的拟合度。
DID 模型的国内外应用现状
1. DID 发展历史 1985 年普林斯顿大学的 Ashenfelter 和 Card 的一
中国卫生统计 2013 年 2 月第 30 卷第 1 期
·133·
篇项目评价的文章〔3〕,第一次引入了 DID 模型。随后 的十多年间,该模型在计量经济学界以及社会学界被 广泛应用。
组解释变量完全独立,即:
E( e it | A it) = 0
( 8)
在确定 满 足 条 件 ( 8 ) 以 及 满 足 回 归 方 程 要 求 的
“LINE”条件( 线性、独立、正态分布、方差齐) 后,该模
型可采用普通最小二乘( OLS) 来进行回归,并得到无
偏的估计量。若在实际情况中得到的数据不满足以上
干预措施,则很难满足该假设或为了满足假设而导致
很高的成本。
3. 协方差分析 通过对干预以外的影响因素采取
数理统计方法进行控制,使这些因素尽量保持一致,同
时结合方差分析的方法,对某一控制变量进行分组,以
提高研究的精确性和准确性。按照此方法,将干预前
结局变量的值作为控制因素之一,而将干预后的值作
△通信作者: 王燕 E-mail: w angyan@ bjmu. edu. cn
不是独立分布的。这类数据的特点在于: ①由于研究的
个体相同,一些不随时间改变的不可观测的因素( 如个
人特质等) 对不同时点的观测值会产生影响,可以通过
控制这些影响从而得到较为真实的结果; ②由于综列数
据要求随访相同的研究对象,使得数据收集工作的难度 明显增加,不太适用于大规模的调查研究〔2〕。
多数情况下,我们无法保证与个体自身有关的因
△Yi = d0 + b3 ·D( T·G ) + △e it
( 11)
经过差分和简化后,就可以通过普通最小二乘法来对
综列数据进行回归了。
以上分析仅针对最简单的两时期综列数据进行分
析,通过差分来移除固定效应。而综列数据同样具有
时间序列的性质,对于多于两期的综列数据而言,还应
考虑到滞后性等问题,需要结合时间序列数据的特点,
营养支持,而对照组无。若有部分对照组研究对象通
过各种办法也获得了该项免费营养支持,则违反了本
模型的第一项假设,造成干预效果的低估。( 2) 项目
开展期间,宏观环境( 除项目实施以外的因素) 对干预
组和对照组的影响相同〔1〕。( 3) 干预组和对照组的某
些重要特征分布稳定,不随时间变化,即在整个项目开
DID 模型正是基于自然试验得到的数据,通过建 模来有效控制研究对象间的事前差异,将政策影响的 真正结果有效分离出来。
医疗卫生领域常用于差异比较的统计方法
1.“前后”差异比较 是将研究对象干预后结局
变量的值 A t1 减去干预前的值 A t0 ,所得之差即为干预
效果 d,如下式: d = A t1 - A t0
2001 年 6 月哈佛大学公共卫生学院学者 Yip W 与 Eggleston K 对中国海南省的医疗报销付费制度改 革进行了分析〔4〕。同年 12 月,杜克大学卫生政策研究 中心学者 Conover C J 等人,对美国保险制度 M edicaid 对于妇幼 健 康 结 局 的 影 响 进 行 了 研 究〔5〕。 这 两 篇 文 章将 DID 模型引入医学和公共卫生领域,随后带动了 一批学者使用该模型进行相关研究。
预组结 局 变 量 的 值 Btreat 减 去 对 照 组 结 局 变 量 的 值
Bcontrol ,如下式: d = Btreat - Bcontrol
( 2)
该方法的使用需建立在一个重要的假设基础之
上,即干预实施前干预组和对照组之间需考察的结局
变量没有差异。在小范围、通过随机分组得到的研究
对象可满足这一假设,而对于大规模、规定区域分组的
进一步通过计量经济学方法对其进行分析。
3. 一般化 DID 模型
由于一般大规模的人群调查存在较大的变异性问
题,仅 在 模 型 中 纳 入 虚 拟 变 量“分 组 ( A) ”、“时 间 ( T) ”是远远不够的。为了提高解释系数 R2 ,需要加
入其他可能影响被解释变量的因素,即控制除分组、时
间变量以外的其他变量。对于结局变量是一些偏态分
素与分组变量完全无关,这样就不能保证( 8) 式,即残
差独立于分组变量。为了解决该问题,需将这些因素
从残差 e it 中分离出来。于是我们引入变量 ai ,称为固 定效应( fixed effect) ,代表不同个体的自身相关因素。
因为它不随时间变化,因此右下角脚标为 i。即有:
Yit = b0 + b1 ·Tit + b2 ·A it + b3 ·Tit ·A it + ai + e it ' ( 9) 相比( 4) 式,( 9) 式增加了新变量 ai。这样就在一定程 度上保证了残差项独立于解释变量这个条件。对于普
“LINE”条件,则需要对数据进行进一步转化、分层以
及使用广义最小二乘等方法来进行模型的构造。
( 2) 适用于综列数据 ( panel data / longitudinal da-
ta) 的 DID 模型
综列数据同时兼有横截面数据和时间序列数据的
特点,要求在不同时点调查相同的研究对象。它与独立
混合横截面数据最大的不同在于,不同时点的观测值并
通的较大范围的调查,很难收集到所有与 ai 有关的信 息,无法得到这个参数的某个无偏估计系数或关系式,
因此通常进行差分来移除 ai 而不影响对双重差分估 计量的无偏估计,即
△Yi( t( 1) - t( 0) ) = b1 ·△T + b3 ·△( T·G ) + △e it ( ห้องสมุดไป่ตู้0) 由于 DT 为固定不变的参数,用 d0 来代表截距 b1 · △T,因此将( 10) 式略微修改并进一步简化就成为:
△Yi( 1) = △Yi1 - △Yi0 = ( b0 + b1 + b2 + b3 ) - ( b0 + b2 )
= b1 + b3
( 5)
同样,当个体 i 属于对照组时,被解释变量 Y 在随访和
基线期间的差△Yi( 0) 为:
△Yi( 0) = △Yi1 - △Yi0 = ( b0 + b1 ) - b0 = b1
异”和“有无差异”有效结合,一定程度上控制了某些
除干预因素以外其他因素的影响; 同时在模型中加入
其他可能影响结局变量的协变量,又进一步控制了干
预组和对照组中存在的某些“疑似”影响因素,来补充
“自然试验”在样本分配上不能完全随机这一缺陷,因
而得到对干预效果的真实评估; 另外,构造模型所需满
足的条件较少,又成为该模型在计量经济学界广为应
展期间保持稳定。
DID 模型的核心是构造双重差分估计量( DID es-
timator) ,通过对单纯前后比较( 干预前 vs. 干预后) 和
单纯截面比较( 干预组 vs. 对照组) 的结合,得到如下
公 式: dID = △珔Ytreatment - △珔Ycontrol = ( 珔Ytreatment,t1 -
中国卫生统计 2013 年 2 月第 30 卷第 1 期
·131·
双重差分模型介绍及其应用
北京大学公共卫生学院( 100191) 叶 芳 王 燕△
双重差分模型( difference-in-difference,DID) 近年 来多用于计量经济学中对于公共政策或项目实施效果 的定量评估。
通常大范围的公共政策有别于普通科研性研究, 难以保证对于政策实施组和对照组在样本分配上的完 全随机。非随机分配政策实施组和对照组的试验称为 自然试验( natural trial) ,此类试验存在较显著的特点, 即不同组间样本在政策实施前可能存在事前差异,仅 通过单一前后对比或横向对比的分析方法会忽略这种 差异,继而导致对政策实施效果的有偏估计。