倾向值匹配法(PSM)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
变量定义
re78
1978年实际工资
u74 agesq
当在1974年失业,u74=1 age*age
educsq educ*educ
re74sq re74*re74
re75sq re75*re75
u74blcak u74*blcak
倾向打分
OLS回归结果
工资的变化到底是来自个体的异质性 性还是培训?
A2:stu c3是最佳配对对象,比较容易满足平行假设 (balancing assumption)
ATT(Average Treatment Effect on the Treated) 平均处理效应的衡量
运用得分进行样本匹配并比较,估计出ATT值。
ATT=E[Y(1)-Y(0) |T=1]
block中的描述性统计
运用得分进行样本匹配并比较
方法一:最邻近方法 (nearest neighbor matching)
含义:最邻近匹配法是最常用的一种匹配方法, 它把控制组中找到的与处理组个体倾向得分差 异最小的个体,作为自己的比较对象 。
优点:按处理个体找控制个体,所有处理个体 都会配对成功,处理组的信息得以充分使用。
实例介绍
分组:在倾向值匹配法中,根据处理指示变量 将样本分为两个组。处理组,在本例中就是在 NSW(国家支持工作示范项目)实施后接受培训 的组;控制组,在本例中就是在NSW实施后不接 受培训的组。
研究目的:通过对处理组和对照组的匹配,在 其他条件完全相同的情况下,通过接受培训的 组(处理组)与不接受培训的组(控制组)在 工资表现上的差异来判断接受培训的行为与工 资之间的因果关系。
变量定义
变量 treat age educ black hsip marr re74 re75
定义 接受培训(处理组)表示1,没有接受培训(控制组)表示0 年龄 受教育年数 种族虚拟变量,黑人时,black=1 民族虚拟变量,西班牙人时,hsip=1 婚姻状况虚拟变量,已婚,marr=1 1974年实际工资 1975年实际工资
缺点:如果在每个区内找不到对照个体,那么 这类个体的信息,会丢弃不用。总体配对的数Fra Baidu bibliotek量减少。
Y(1):Stu PK 上北大后的年薪
Y(0): Stu PK 假如不上北大的年薪
可观测数据
ATT=12W-9W=3W
不可观测数据, 采用配对者的
收入来代替
实例介绍
实例介绍
研究问题:培训对工资的效应 基本思想:分析接受培训行为与不接受培训行为在工资
表现上的差异。但是,现实可以观测到的是处理组接受 培训的事实,而如果处理组没有接受培训会怎么样是不 可观测的,这种状态称为反事实。匹配法就是为了解决 这种不可观测的事实的方法。
方法二:半径匹配法 (radius matching)
命令 set seed 10101 attr re78 treat $x,comsup
dots logit radius(0.001)
boot
reps($breps)
方法二:半径匹配法 (radius matching)
方法三:分层匹配法 (stratification matching)
dots logit
reps($breps)
方法一:最邻近方法 (nearest neighbor matching)
方法二:半径匹配法 (radius matching)
半径匹配法是事先设定半径,找到所有设定半径范围内 的单位圆中的控制样本,半径取值为正。随着半径的降 低,匹配的要求越来越严。
倾向打分
1.设定宏变量 (1)设定宏变量breps表示重复抽样200次 命令:global breps 200 (2)设定宏变量x,表示age agesq educ educsq
married black hisp re74 re75 re74sq re75sq u74black 命 令 : global x age agesq educ educsq married black hisp re74 re75 re74sq re75sq u74black
缺点:由于不舍弃任何一个处理组,很可能有 些配对组的倾向得分差距很大,也将其配对, 导致配对质量不高,而处理效应ATT的结果中也 会包含这一差距,使得ATT精确度下降。
方法一:最邻近方法 (nearest neighbor matching)
命令 set seed 10101(产生随机数种子) attnd re78 treat $x,comsup boot
倾向值匹配法(PSM)
Q:为什么要使用PSM?
A:解决样本选择偏误带来的内生性问题 例:上北大有助于提高收入吗? 样本选择偏误:考上北大的孩子本身就很出色(聪明、
有毅力、能力强…) 解决方法:样本配对
配对方法
同行业(一维配对) 同行业、规模相当(二维配对) 同 行 业 、 规 模 相 当 、 股 权 结 构 相 当 、 …… ( 多 维 配
内容:分层匹配法是根据估计的倾向得分将全 部样本分块,使得每块的平均倾向得分在处理 组和控制组中相等。
优点:Cochrane ,Chambers(1965)指出五个 区就可以消除95%的与协变量相关的偏差。这个 方法考虑到了样本的分层问题或聚类问题。就 是假定:每一层内的个体样本具有相关性,而 各层之间的样本不具有相关性。
对)??? PSM:把多个维度的信息浓缩成一个(降维:多维到一
维)
配对过程中的两个核心问题(1)
Q1:哪个样本更好一些?
A1:Sample2较好:比较容易满足共 同支撑假设(common support assumption)
配对过程中的两个核心问题(2)
Q2:stu c1,c2,c3三人中,谁是stu PK的最佳配对对象?
倾向打分
2.通过logit模型进行倾向打分 命 令 : pscore treat $x,pscore(mypscore)
blockid(myblock) comsup numblo(5) level(0.05) logit
注:$表示引用宏变量
pscore结果
倾向值分布
倾向值分布
block中样本的分布