倾向值匹配法(PSM)
倾向得分匹配法(PSM)举例及stata实现
倾向得分匹配法(PSM )举例及stata 实现——读书笔记【例】培训对工资的效应1政策背景:国家支持工作示范项目(National Supported Work,NSW )研究目的:检验接受该项目(培训)与不接受该项目(培训)对工资的影响。
基本思想:分析接受培训组(处理组,treatment group )接受培训行为与不接受培训行为在工资表现上的差异。
但是,现实可以观测到的是处理组接受培训的事实,而处理组没有接受培训会怎样是不可能观测到的,这种状态也成为反事实(counterfactual )。
匹配法就是为了解决这种不可观测事实的方法。
在倾向得分匹配方法(Propensity Score Matching )中,根据处理指示变量将样本分为两个组,一是处理组,在本例中就是在NSW 实施后接受培训的组;二是对照组(comparison group ),在本例中就是在NSW 实施后不接受培训的组。
倾向得分匹配方法的基本思想是,在处理组和对照组样本通过一定的方式匹配后,在其他条件完全相同的情况下,通过接受培训的组(处理组)与不接受培训的组(对照组)在工资表现上的差异来判断接受培训的行为与工资之间的因果关系。
变量定义:变量 定义TREAT * 处理指示变量,1表示接受培训(处理组),0表示没有接受培训(对照组)AGE 年龄(年)EDUC 受教育年数(年)BLACK 种族虚拟变量,黑人时,1BLACK =HSIP 民族虚拟变量,西班牙人时,=1HSIPMARR婚姻状况虚拟变量,已婚,1MARR = 74RE 1974年实际工资(1982年美元)75RE 1975年实际工资78RE 1978年实际工资74U 当在1974年失业,741U =75U当在1975年失业,751U = NODEGREE 当12EDUC <时,1NODEGREE =,否则为0 AGESQAGE AGE × 1 本例选自Cameron&Trivedi 《微观计量经济学:方法与应用》(中译本,上海财经大学出版社,2010)pp794-800 所有数据及程序均来自于本书的配套网站(/mmabook/mmaprograms.html )。
倾向得分匹配法(PSM)举例及stata实现
倾向得分匹配法(PSM )举例及stata 实现——读书笔记【例】培训对工资的效应1政策背景:国家支持工作示范项目(National Supported Work,NSW )研究目的:检验接受该项目(培训)与不接受该项目(培训)对工资的影响。
基本思想:分析接受培训组(处理组,treatment group )接受培训行为与不接受培训行为在工资表现上的差异。
但是,现实可以观测到的是处理组接受培训的事实,而处理组没有接受培训会怎样是不可能观测到的,这种状态也成为反事实(counterfactual )。
匹配法就是为了解决这种不可观测事实的方法。
在倾向得分匹配方法(Propensity Score Matching )中,根据处理指示变量将样本分为两个组,一是处理组,在本例中就是在NSW 实施后接受培训的组;二是对照组(comparison group ),在本例中就是在NSW 实施后不接受培训的组。
倾向得分匹配方法的基本思想是,在处理组和对照组样本通过一定的方式匹配后,在其他条件完全相同的情况下,通过接受培训的组(处理组)与不接受培训的组(对照组)在工资表现上的差异来判断接受培训的行为与工资之间的因果关系。
变量定义:变量 定义TREAT * 处理指示变量,1表示接受培训(处理组),0表示没有接受培训(对照组)AGE 年龄(年)EDUC 受教育年数(年)BLACK 种族虚拟变量,黑人时,1BLACK =HSIP 民族虚拟变量,西班牙人时,=1HSIPMARR婚姻状况虚拟变量,已婚,1MARR = 74RE 1974年实际工资(1982年美元)75RE 1975年实际工资78RE 1978年实际工资74U 当在1974年失业,741U =75U当在1975年失业,751U = NODEGREE 当12EDUC <时,1NODEGREE =,否则为0 AGESQAGE AGE × 1 本例选自Cameron&Trivedi 《微观计量经济学:方法与应用》(中译本,上海财经大学出版社,2010)pp794-800 所有数据及程序均来自于本书的配套网站(/mmabook/mmaprograms.html )。
propensity-score matched analysis
propensity-score matched
analysis
倾向性评分匹配(propensity score matching,PSM)是一种统计学
方法,旨在减少研究中的偏差和混杂变量影响,以便对观察组和对照
组进行更合理的比较。
这种方法最早由Paul Rosenbaum和Donald Rubin在1983年提出,此后获得了快速发展并且在各个方面不断改进。
倾向性评分匹配的基本原理是用一个分值来替代多个协变量,均衡处
理组和对照组之间的协变量的分布。
通过匹配倾向性评分,可以使得
两个组之间的比较更加合理和公正。
倾向性评分匹配被广泛应用于观察性临床研究和临床试验研究的亚组
分析中,可以有效降低混杂偏倚,并在整个研究设计阶段,得到类似
随机对照研究的效果。
在观察性临床研究和RCT研究亚组分析中,由于种种原因,导致偏倚
和混杂变量较多,PSM可以有效减少这些偏差和混杂变量的影响,以便对观察组和对照组进行更合理的比较。
倾向值匹配
2、PSM简介
• 倾向值指被研究的个体在控制可观测到的 混淆变量的情况下受到某种自变量影响的 条件概率。 • 匹配的基本逻辑是将受到自变量影响的个 体与没有受到影响的个体进行配对。 • 倾向值匹配就是保证匹配起来的个体的倾 向值相等或者近似。
2、PSM简介
• 为何不将混淆变量作为控制变量纳入回归 模型?
T = E Y1 | 1 E Y0 | 1
1 E Y1 | 0 E Y0 | 0
E Y0 | 1 实验组的人放置在对照组时因变量的均值 反事实 E Y1 | 0 对照组的人放置在实验组时因变量的均值 反事实 E Y0 | 0 对照组的人放置在对照组时因变量的均值 事实 1 指对照组的比例 T指因果关系, 指实验组的比例, 因果关系表示为实验组中的个体其“事实”与“反事实”之 间的差异与对照组中个体“事实”与“反事实”之间的差异 的加权平均值。
非混淆假设通过控制倾向值P来满足: E Y1| =0,P =E Y1| =1,P
E Y0 | =0,P =E Y0 | =1,P
3、PSM与因果推论
• 统计学角度
如果非混淆假设满足,反事实框架下的因果推论 公式就简化为:
T =E Y E Y0 |=0 1| =1 —
E Y1 | 1 实验组的人放置在实验组时因变量的均值 事实
3、PSM与因果推论
• 统计学角度
问题在于,我们永远也不可能观测到反事实是什么。 所以要用可观测到的事实来简化因果推论公式,具 体而言,要满足统计学上的“非混淆假设”:
E Y1| =0 =E Y1| =1 E Y0 | =0 =E Y0 | =1
然而,在探索因果关系时,我们所关心的问题是: a.任取一原本受自变量影响的样本,如果一开始 不受自变量影响,那么他的因变量是什么水平? b.任取一原本不受自变量影响的样本,如果一开 始受到自变量影响,那么他的因变量是什么水平?
倾向得分匹配法原理及其实现
倾向得分匹配法(Propensity Score Matching,简称PSM)是一种在经济学和其他社会科学中广泛使用的统计方法,主要用于处理自选择偏误和观察数据中的潜在偏差。
其基本原理是通过计算一个倾向得分,将处理组(例如,接受某种干预或处理的对象)与控制组(未接受处理的对象)进行匹配,以消除非处理因素(即干扰因素)的影响,从而更准确地估计处理效应。
原理:倾向得分匹配法的核心在于建立一个倾向得分模型。
这个模型基于一系列可能影响处理分配的协变量(即特征变量),计算每个观察对象接受处理的概率,即倾向得分。
这个得分反映了观察对象在给定其协变量特征的情况下,接受处理的倾向程度。
通过倾向得分,我们可以将处理组和控制组中的观察对象进行匹配。
匹配的目标是找到与处理组对象在协变量特征上尽可能相似的控制组对象。
这样,匹配后的处理组和控制组在协变量上应该是平衡的,即它们在这些特征上的分布应该是相似的。
因此,处理效应的估计就可以更准确地归因于处理本身,而不是其他潜在的干扰因素。
实现:倾向得分匹配法的实现通常包括以下步骤:1.选择协变量:首先,需要确定哪些协变量可能影响处理分配和结果变量。
这些协变量应该被包括在倾向得分模型中。
2.估计倾向得分:使用逻辑回归或其他适当的模型来估计倾向得分。
这个模型以处理分配为因变量,以选定的协变量为自变量。
3.进行倾向得分匹配:根据估计得到的倾向得分,使用适当的匹配方法(如k近邻匹配、卡尺匹配等)将处理组和控制组进行匹配。
4.计算处理效应:在匹配后的样本上计算处理效应。
这通常涉及到比较处理组和控制组在结果变量上的差异。
在实际应用中,倾向得分匹配法可以通过各种统计软件来实现,如Stata、R和Python等。
这些软件提供了丰富的功能和工具,可以帮助研究者进行倾向得分估计、匹配和处理效应的计算。
需要注意的是,倾向得分匹配法虽然可以有效地处理自选择偏误和潜在偏差,但它也有一些局限性和假设条件。
倾向得分匹配法原理 -回复
倾向得分匹配法原理-回复倾向得分匹配法(Propensity Score Matching,PSM)是一种常用于处理因果推断问题的统计方法。
它的基本原理是通过构建倾向得分模型,将被处理的个体(处理组)与未处理的个体(对照组)进行配对,以便在某些特定的变量上达到类似或相同的分布,从而减少处理选择引起的偏倚。
PSM方法主要适用于在实验条件不具备的情况下进行因果推断。
在实验研究中,研究人员可以通过随机分组将个体分配到处理组和对照组,从而控制潜在的混淆因素。
然而,在实际应用中,一些因果问题无法通过实验进行研究,因此需要使用非实验数据来进行推断。
在这种情况下,倾向得分匹配法就能派上用场。
PSM方法的核心思想是通过估计个体的倾向得分,来度量个体进入处理组的概率。
倾向得分(Propensity Score)是指个体进入处理组的条件概率。
我们可以使用一些统计模型,例如逻辑回归模型,来估计这个得分。
这个模型会基于一系列观察到的协变量(confounding variables),也就是可能影响个体进入处理组的变量,比如年龄、性别、教育水平等,来预测个体进入处理组的概率。
在得到个体的倾向得分后,我们可以使用这个得分来进行配对。
具体来说,我们首先将处理组中的个体与对照组中的个体按照倾向得分进行配对。
一般可以使用一对一匹配、一对多匹配或者多对多匹配等方式。
匹配的目标是使处理组和对照组在倾向得分上的分布相似。
配对完成后,我们可以比较处理组和对照组在结果变量上的差异,来得到处理的因果效应。
这种比较可以通过计算平均处理效应(Average Treatment Effect,ATE)来实现。
ATE表示处理组与对照组在结果变量上的平均差异。
在计算ATE时,常常还会考虑到一些非随机选择问题带来的偏倚。
例如,可能存在选择性个体退出、数据缺失或者其他特殊情况。
为了解决这些问题,可以使用倾向得分匹配法的改进方法,如加权倾向得分匹配法(Weighted Propensity Score Matching)或者可接受性函数(Acceptance Function)等。
psm倾向得分匹配法
psm倾向得分匹配法参差不齐的数据已经成为现在最普遍的存在,来自不同源的数据和模型在预测分析、推荐系统、大数据搜索等领域中得到了极大的应用。
而PSM倾向得分匹配法,作为一种简单有效的非监督学习方法,在众多数据挖掘技术中脱颖而出,以其简单而可视化的处理数据差异的优势受到广泛关注和认可。
PSM倾向得分匹配法是一种基于数据特征的个性化数据建模技术,其目的在于改善由多源数据组成的无结构数据,使得用户可以更好的理解和挖掘数据中的有用信息。
它以某一源数据作为参考,从而使得不同源数据都能够以相同的测度标准进行评价,有效的实现了数据转换。
PSM所采用的倾向得分匹配方法是一种基于数据和特征的数据建模技术,主要应用于大规模多源数据分析,利用朴素贝叶斯、K-means 聚类算法和其他机器学习技术,实现了对不同源数据的一致性建模和分析。
首先,PSM倾向得分匹配法通过将所有源数据通过特征属性聚类,构建出特征模型,以此捕获源数据中共有和异同之处;其次,倾向得分匹配法把不同源数据进行倾向得分匹配,将不同源数据的相似属性进行叠加,从而计算每一个样本的个性分值;最后,PSM倾向得分匹配法还提供了一种可视化的处理方法,在可视化界面以饼图的形式展示各个源数据的对比,进而实现数据的处理和分析。
PSM倾向得分匹配法在解决复杂的大规模数据挖掘上表现出了出色的性能,可以更有效的挖掘数据中隐藏的深层知识,并且可以很好的用于各种市场营销、客户画像以及个性化推荐等应用场景中。
以上是PSM倾向得分匹配法的基本内容,它不仅是一种准确的数据分析模型,而且也是一种有效的推理智能机器学习技术,能够为商业决策者提供准确的洞见及个性化解决方案。
一般来说,应用PSM倾向得分匹配法的主要步骤如下:1、收集和准备数据:采集各种业务中的原始数据,并将其进行数据清洗,筛检,格式化等处理,使其具备分析所需的质量。
2、建模:根据数据特征,建立一个模型,以计算多源数据的相似性。
SPSS—倾向性评分匹配法(PSM)
SPSS—倾向性评分匹配法(PSM)倾向评分匹配(propensity score matching, PSM)的概念由Rosenbaum和Rubin在1983年首次提出。
2010年之后,这一方法日益受到人们的关注。
国际上越来越多的研究者将倾向指数法应用到流行病学、健康服务研究、经济学以及社会科学等许多领域。
在流行病学研究中,该方法可以在分析和设计阶段有效平衡非随机对照研究中的混杂偏倚,使研究结果接近随机对照研究的效果。
在观察性研究中,如病例对照研究,经常会见到匹配的概念,即按照某些因素或特征,将病例组(或暴露组)和对照组的研究对象进行匹配,以保证两组研究对象具有可比性,从而排除匹配因素的干扰。
同样,既然倾向性评分是一个能够反映多个混杂因素影响的综合评分,我们也可以将两组人群按照倾向性评分从小到大来进行匹配,仅用匹配倾向性评分一个指标来达到同时控制多个混杂因素的目的。
倾向性评分匹配是倾向性分析中应用最为广泛的一种方法。
首先我们要计算出每一个研究对象的倾向性评分,然后从小到大进行排序,对于每一个暴露/处理组的研究对象,从对照组中选取与其倾向性评分最为接近的所有个体,并从中随机抽取一个或N个研究对象作为匹配对象,直至所有的研究对象均匹配完毕,未匹配上的研究对象则进行舍去。
当然,有多少研究对象可以成功匹配,常常与选择匹配的比例和匹配的标准有关。
匹配的比例最常见的为1:1匹配,需要根据两组人群的数量来决定合适的匹配比例,建议不要超过1:4匹配。
对于匹配标准,如果匹配的标准很高,则能够成功匹配的对象就可能会少,甚至出现匹配不上的现象,造成研究对象信息的浪费,如果匹配的标准很宽泛,则匹配的效果就会较差,有可能出现两组人群在匹配后依然存在混杂因素分布不均衡的现象。
例如某个个体的倾向性评分为0.8,如果设定匹配标准为±0.02,则需要为其寻找倾向性评分在0.78-0.82之间的对照进行匹配,匹配范围太窄就可能出现匹配不上的情况;如果设定匹配标准为±0.2,则需要为其寻找倾向性评分在0.8-1.0之间的对照进行匹配,匹配范围太宽则可能降低匹配的效果。
倾向得分匹配法命令 -回复
倾向得分匹配法命令-回复倾向得分匹配法命令的使用指南引言:倾向得分匹配法(Propensity Score Matching,PSM)是一种常用的非实验研究设计方法,用于评估某个干预对于特定结果的影响。
本文将一步一步介绍如何使用倾向得分匹配法命令进行数据分析。
第一步:定义研究目标在使用倾向得分匹配法前,首先需要明确研究的目标是什么。
例如,我们想评估某种药物对患者生存率的影响。
这个目标会指导我们后续的研究设计和数据分析。
第二步:准备数据倾向得分匹配法需要有一组观测数据,包括干预组和对照组。
干预组是接受干预的个体/单位,而对照组是没有接受干预的个体/单位。
这两组个体/单位应当具有相似的特征,以便进行可靠的比较。
通常,我们会根据实际情况选择与研究目标相关的变量,如性别、年龄、病史等作为控制变量。
第三步:估计倾向得分倾向得分是根据个体特征而计算的一个概率值,用于评估个体被分配到干预组的倾向程度。
估计倾向得分有多种方法,包括逻辑回归、矩阵分解等。
常见的统计软件都提供了相应的命令,如R语言的"MatchIt"包中的"matchit"命令。
该命令可以帮助我们估计倾向得分,并生成用于匹配的变量。
第四步:匹配样本在得到倾向得分后,我们需要将干预组和对照组进行匹配,以便比较它们的特征。
匹配样本可以采用一对一匹配、多对一匹配等方法。
常见的匹配算法有最近邻匹配、卡尔曼滤波匹配等。
在R语言中,可以使用"MatchIt"包中的"match.data"命令实现样本匹配。
第五步:比较结果匹配样本后,我们可以进行结果比较。
通常会比较干预组和对照组在某个特定结果上的差异,如患者生存率。
可以使用各种统计方法,如t检验、卡方检验等,来评估差异的显著性。
同时,我们也可以计算倾向得分匹配法的保守性、平衡性等指标,以评估匹配的质量。
第六步:结果解释和结论在得到结果后,我们需要解释和分析结果。
倾向值评分匹配方法PSMppt课件
1
RCT:很多限制,如费用,伦理学要 求,操作困难,不适合发病率很低的 疾病 非RCT:避免以上繁杂的问题,容易 组间基线不齐,使之成为处理效应的 混杂因素从而产生偏移
2
• 为了消除混杂因素的影响,传统的解决方式是,用多变 量配对,多变量分析模型,M-H分层分析,协变量分析。
14
• 比较的效果是接受治疗后1 年内的生存率,成本是所有疾病相关 的医疗成本,研究分别对成本和效果未经过调整的结果、多元回 归结果、基于倾向值匹配的结果和基于倾向值分层的结果进行了 比较。
15
讨论
倾向值分析只能尽量减少混杂因素产生的影响,并不能完全消除, 其消除程度取决于可以被观测和控制的变量数量以及匹配的质量。 此外,倾向值分析只能对可观测的混杂因素进行平衡和控制,并不 能够控制不可观测的混杂因素,当有重要的混杂因素缺失或不可观 测时,采用倾向值分析所得结果可能与真实值存在较大偏差。
8
估计倾向值
• Logistic 回归模型 • 令y=组别,x为各协变量 每个个体在给定可观测混杂因素的条件下接受干预的条件概率。
9
选择匹配方法
最近邻匹配
卡钳匹配 马氏距离匹配
贪婪匹配法
10
匹配后的均衡性检验
• 协变量的平衡可通过均值上的绝对标准化差值来衡量
• 通常dX>dXm,说明在匹配后样本的平衡程度有所改善。
• 目的:将多个变量(多维)转化为一个中间变量(一维) • 特点:不在关注每个需要控制的混杂因素的具体取值,转为关注将这
些变量纳入logistic回归方程后预测出来的倾向值。只要保证倾向值匹 配,这些所有需要控制的混杂因素都考虑了。
5
PSM适用情形
• 前提:logistic多因素分析已经无法校正 • 1:实验组与对照组人数相差甚远(>4:1) • 2:两组变量差异太大,可比性差,如基线不齐,或混杂因素多 • 3:变量过多,样本量偏少
倾向值匹配法(PSM)
ATT(Average Treatment Effect on the Treated) 平均处理效应的衡量
运用得分进行样本匹配并比较,估计出 ATT值。
ATT=E[Y(1)-Y(0) |T=1] 可观测数据 Y(1):Stu PK 上北大后的年薪 Y(0): Stu PK 假如不上北大的年薪
2023最新整理收集 do something
倾向值匹配法(PSM)
Q:为什么要使用PSM?
A:解决样本选择偏误带来的内生性问题 例:上北大有助于提高收入吗? 样本选择偏误:考上北大的孩子本身就
很出色(聪明、有毅力、能力强…) 解决方法:样本配对
配对方法
同行业(一维配对) 同行业、规模相当(二维配对) 同行业、规模相当、股权结构相
命令 set seed 10101 attk re78 treat $x,comsup boot
reps($breps) dots logit
方法四:核匹配法 (kernel matching)
psmatch2
匹配变量的筛选
1.设定宏变量 设定宏变量x,表示age agesq educ
方法二:半径匹配法 (radius matching)
命令 set seed 10101 attr re78 treat $x,comsup boot
reps($breps) dots logit radius(0.001)
方法二:半径匹配法 (radius matching)
方法三:分层匹配法 (stratification matching)
倾向打分
1.设定宏变量 (1)设定宏变量breps表示重复抽样200次 命令:global breps 200 (2)设定宏变量x,表示age agesq educ educsq
倾向得分匹配法对样本再回归的结果
倾向得分匹配法对样本再回归的结果引言在社会科学研究中,倾向得分匹配法(Propensity Score Matching,简称PSM)是一种常用的因果推断方法。
它通过建立一个倾向得分模型,将样本划分为具有相似倾向得分的处理组和对照组,从而实现减少选择偏差、估计处理效应的目的。
当我们使用PSM进行因果推断时,需要对样本再回归以验证PSM方法的有效性和可靠性。
本文将详细介绍倾向得分匹配法对样本再回归的结果。
首先,我们将介绍PSM方法的基本原理和步骤。
然后,我们将讨论如何进行样本再回归,并解释其背后的统计原理。
最后,我们将总结并提出一些建议,以便更好地理解和应用倾向得分匹配法对样本再回归结果。
一、倾向得分匹配法基本原理和步骤1.1 倾向得分匹配法基本原理倾向得分匹配法是一种非随机实验设计的因果推断方法。
它通过建立一个预测个体被处理(接受处理)的概率的模型,即倾向得分模型,来估计处理效应。
倾向得分模型的核心思想是利用个体的观测特征(协变量)来预测其被处理的概率,进而将样本划分为处理组和对照组。
1.2 倾向得分匹配法步骤倾向得分匹配法的步骤如下: 1. 确定研究目标和问题。
明确需要评估的处理效应和相关变量。
2. 收集数据并进行预处理。
包括数据清洗、缺失值处理等。
3. 构建倾向得分模型。
根据研究问题选择适当的方法(如Logistic回归、Probit回归等)建立倾向得分模型,并根据模型结果计算每个个体的倾向得分。
4. 进行匹配。
根据个体的倾向得分进行匹配,将具有相似倾向得分的处理组和对照组配对。
5. 检验匹配结果。
使用标准化差异检验或基于Bootstrap方法进行检验,评估匹配结果是否有效。
6. 进行样本再回归。
在进行样本再回归之前,需要先检查匹配后样本是否平衡,并选取合适的回归方法进行分析。
7. 分析结果和解释。
根据样本再回归的结果,评估处理效应的大小、显著性和可信度。
二、样本再回归的方法和统计原理样本再回归是对倾向得分匹配法的一个重要补充,它可以进一步验证PSM方法的有效性和可靠性。
倾向评分匹配法典例
倾向评分匹配法典例倾向评分匹配法(Propensity Score Matching,PSM)是一种常用的统计方法,用于解决因果推断问题。
它通过匹配处理组和对照组的个体,从而减少处理组和对照组之间的选择偏差,使得两组之间的比较更加准确和可靠。
下面将通过一个典型的例子来介绍倾向评分匹配法的应用。
假设我们想研究某种新药对患者生存率的影响。
为了进行实验,我们将一部分患者随机分配到接受新药治疗的处理组,另一部分患者则不接受治疗,作为对照组。
然而,由于患者的个体特征存在差异,比如年龄、性别、病情严重程度等,可能会导致处理组和对照组之间的选择偏差。
为了解决这个问题,我们可以使用倾向评分匹配法。
首先,我们需要根据患者的个体特征,建立一个预测模型,即倾向评分模型。
这个模型可以预测每个患者接受治疗的概率,即倾向评分。
常用的建模方法包括逻辑回归、决策树等。
通过这个模型,我们可以得到每个患者的倾向评分。
接下来,我们需要根据倾向评分,对处理组和对照组进行匹配。
匹配的目标是使得处理组和对照组在个体特征上尽可能相似。
常用的匹配方法包括最近邻匹配、卡尺匹配等。
通过匹配,我们可以得到一组处理组和对照组之间个体特征相似的样本。
然后,我们可以比较处理组和对照组在生存率上的差异。
由于匹配后的样本在个体特征上更加相似,因此比较结果更加准确和可靠。
我们可以使用统计方法,如t检验、卡方检验等,来评估处理组和对照组之间的差异是否显著。
最后,我们可以根据比较结果得出结论。
如果处理组的生存率显著高于对照组,那么我们可以认为新药对患者生存率有积极影响。
反之,如果处理组的生存率与对照组没有显著差异,那么我们可以认为新药对患者生存率没有明显影响。
需要注意的是,倾向评分匹配法并不能完全消除选择偏差,但可以减少其影响。
此外,倾向评分匹配法的有效性依赖于倾向评分模型的准确性和匹配方法的合理性。
因此,在使用倾向评分匹配法时,我们需要仔细选择合适的模型和方法,并进行敏感性分析,以确保结果的可靠性。
倾向得分匹配法(PSM)举例及stata实现
倾向得分匹配法(PSM )举例及stata 实现——读书笔记【例】培训对工资的效应1政策背景:国家支持工作示范项目(National Supported Work,NSW )研究目的:检验接受该项目(培训)与不接受该项目(培训)对工资的影响。
基本思想:分析接受培训组(处理组,treatment group )接受培训行为与不接受培训行为在工资表现上的差异。
但是,现实可以观测到的是处理组接受培训的事实,而处理组没有接受培训会怎样是不可能观测到的,这种状态也成为反事实(counterfactual )。
匹配法就是为了解决这种不可观测事实的方法。
在倾向得分匹配方法(Propensity Score Matching )中,根据处理指示变量将样本分为两个组,一是处理组,在本例中就是在NSW 实施后接受培训的组;二是对照组(comparison group ),在本例中就是在NSW 实施后不接受培训的组。
倾向得分匹配方法的基本思想是,在处理组和对照组样本通过一定的方式匹配后,在其他条件完全相同的情况下,通过接受培训的组(处理组)与不接受培训的组(对照组)在工资表现上的差异来判断接受培训的行为与工资之间的因果关系。
变量定义:变量 定义TREAT * 处理指示变量,1表示接受培训(处理组),0表示没有接受培训(对照组)AGE 年龄(年)EDUC 受教育年数(年)BLACK 种族虚拟变量,黑人时,1BLACK =HSIP 民族虚拟变量,西班牙人时,=1HSIPMARR婚姻状况虚拟变量,已婚,1MARR = 74RE 1974年实际工资(1982年美元)75RE 1975年实际工资78RE 1978年实际工资74U 当在1974年失业,741U =75U当在1975年失业,751U = NODEGREE 当12EDUC <时,1NODEGREE =,否则为0 AGESQAGE AGE × 1 本例选自Cameron&Trivedi 《微观计量经济学:方法与应用》(中译本,上海财经大学出版社,2010)pp794-800 所有数据及程序均来自于本书的配套网站(/mmabook/mmaprograms.html )。
倾向评分匹配法
倾向评分匹配法(Propensity Score Matching, PSM)是一种常用的非实验研究方法,用于解决因果推断问题。
它通过将参与某个处理(例如接受某项政策、干预或治疗)的个体与没有参与该处理的个体进行匹配,以消除因群体选择偏差带来的潜在混杂变量的影响。
PSM的基本步骤如下:
1. 确定研究问题和处理变量:明确需要进行因果分析的研究问题,并确定影响因变量的处理变量。
2. 构建倾向评分模型:利用回归分析等方法,建立一个预测参与处理的倾向评分模型,该模型能够根据个体的特征预测其选择处理的概率。
3. 匹配样本:根据个体的倾向评分,将参与处理的个体与未参与处理的个体进行配对匹配,使得两组个体在处理前的特征上尽可能相似。
4. 检验平衡性:检验匹配后的样本是否在处理前的特征上达到平衡状态,以确保匹配的有效性。
5. 进行因果推断:比较处理组和对照组在因变量上的差异,以得出因果效应的估计结果。
6. 敏感性分析:进行敏感性分析,检验倾向评分模型的稳健性,并评估结果对潜在假设的依赖程度。
PSM方法在通过实验研究来解决问题存在困难或不可行的情况下,为研究人员提供了一种处理群体选择偏差的有效工具。
然而,PSM也有
一些限制,如依赖于建模假设、匹配质量和结果的解释等方面存在一定挑战。
因此,在应用PSM时需要谨慎选择合适的方法和适用范围,并结合其他方法进行结果验证和分析。
倾向得分匹配法(PSM)举例及stata实现
倾向得分匹配法(PSM )举例及stata 实现——读书笔记【例】培训对工资的效应1政策背景:国家支持工作示范项目(National Supported Work,NSW )研究目的:检验接受该项目(培训)与不接受该项目(培训)对工资的影响。
基本思想:分析接受培训组(处理组,treatment group )接受培训行为与不接受培训行为在工资表现上的差异。
但是,现实可以观测到的是处理组接受培训的事实,而处理组没有接受培训会怎样是不可能观测到的,这种状态也成为反事实(counterfactual )。
匹配法就是为了解决这种不可观测事实的方法。
在倾向得分匹配方法(Propensity Score Matching )中,根据处理指示变量将样本分为两个组,一是处理组,在本例中就是在NSW 实施后接受培训的组;二是对照组(comparison group ),在本例中就是在NSW 实施后不接受培训的组。
倾向得分匹配方法的基本思想是,在处理组和对照组样本通过一定的方式匹配后,在其他条件完全相同的情况下,通过接受培训的组(处理组)与不接受培训的组(对照组)在工资表现上的差异来判断接受培训的行为与工资之间的因果关系。
变量定义:变量 定义TREAT * 处理指示变量,1表示接受培训(处理组),0表示没有接受培训(对照组)AGE 年龄(年)EDUC 受教育年数(年)BLACK 种族虚拟变量,黑人时,1BLACK =HSIP 民族虚拟变量,西班牙人时,=1HSIPMARR婚姻状况虚拟变量,已婚,1MARR = 74RE 1974年实际工资(1982年美元)75RE 1975年实际工资78RE 1978年实际工资74U 当在1974年失业,741U =75U当在1975年失业,751U = NODEGREE 当12EDUC <时,1NODEGREE =,否则为0 AGESQAGE AGE × 1 本例选自Cameron&Trivedi 《微观计量经济学:方法与应用》(中译本,上海财经大学出版社,2010)pp794-800 所有数据及程序均来自于本书的配套网站(/mmabook/mmaprograms.html )。
倾向值评分匹配方法PSM
些变量纳入logistic回归方程后预测出来的倾向值。只要保证倾向值匹 配,这些所有需要控制的混杂因素都考虑了。
PSM适用情形
• 前提:logistic多因素分析已经无法校正 • 1:实验组与对照组人数相差甚远(>4:1) • 2:两组变量差异太大,可比性差,如基线不齐,或混杂因素多 • 3:变量过多,样本量偏少
倾向值匹配法(PSM)
RCT:很多限制,如费用,伦理学要 求,操作困难,不适合发病率很低的 疾病
非RCT:避免以上繁杂的问题,容易 组间基线不齐,使之成为处理效应的 混杂因素从而产生偏移
• 为了消除混杂因素的影响,传统的解决方式是,用多变 量配对,多变量分析模型,M-H分层分析,协变量分析。
• 当需要匹配的变量很多时,多变量配对通常是不可行的; 当混杂因素很多或有多个亚组时,分层分析也是不可行 的;多因素回归则要求不同组间的协变量具有一致的分 布
• 比较的效果是接受治疗后1 年内的生存率,成本是所有疾病相关 的医疗成本,研究分别对成本和效果未经过调整的结果、多元回 归结果、基于倾向值匹配的结果和基于倾向值分层的结果进行了 比较。
讨论
倾向值分析只能尽量减少混杂因素产生的影响,并不能完全消除, 其消除程度取决于可以被观测和控制的变量数量以及匹配的质量。 此外,倾向值分析只能对可观测的混杂因素进行平衡和控制,并不 能够控制不可观测的混杂因素,当有重要的混杂因素缺失或不可观 测时,采用倾向值分析所得结果可能与真实值存在较大偏差。
估计倾向值
• Logistic 回归模型 • 令y=组别,x为各协变量
每个个体在给定可观测混杂因素的条件下接受干预的条件概率。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
变量定义
变量 treat age educ black hsip marr re74 re75
定义 接受培训(处理组)表示1,没有接受培训(控制组)表示0 年龄 受教育年数 种族虚拟变量,黑人时,black=1 民族虚拟变量,西班牙人时,hsip=1 婚姻状况虚拟变量,已婚,marr=1 1974年实际工资 1975年实际工资
缺点:如果在每个区内找不到对照个体,那么 这类个体的信息,会丢弃不用。总体配对的数 量减少。
A2:stu c3是最佳配对对象,比较容易满足平行假设 (balancing assumption)
ATT(Average Treatment Effect on the Treated) 平均处理效应的衡量
运用得分进行样本匹配并比较,估计出ATT值。
ATT=E[Y(1)-Y(0) |T=1]
变量定义
re78
1978年实际工资
u74 agesq
当在1974年失业,u74=1 age*age
educsq educ*educ
re74sq re74*re74
re75sq re75*re75
u74blcak u74*blcak
倾向打分
OLS回归结果
工资的变化到底是来自个体的异质性 性还是培训?
倾向打分
2.通过logit模型进行倾向打分 命 令 : pscore treat $x,pscore(mypscore)
blockid(myblock) comsup numblo(5) level(0.05) logit
注:$表示引用宏变量
pscore结果
倾向值分布
倾向值分布
block中样本的分布
Y(1):Stu PK 上北大后的年薪
Y(0): Stu PK 假如不上北大的年薪
可观测数据
ATT=12W-9W=3W
不可观测数据, 采用配对者的
收入来代替
实例介绍
实例介绍
研究问题:培训对工资的效应 基本思想:分析接受培训行为与不接受培训行为在工资
表现上的差异。但是,现实可以观测到的是处理组接受 培训的事实,而如果处理组没有接受培训会怎么样是不 可观测的,这种状态称为反事实。匹配法就是为了解决 这种不可观测的事实的方法。
内容:分层匹配法是根据估计的倾向得分将全 部样本分块,使得每块的平均倾向得分在处理 组和控制组中相等。
优点:Cochrane ,Chambers(1965)指出五个 区就可以消除95%的与协变量相关的偏差。这个 方法考虑到了样本的分层问题或聚类问题。就 是假定:每一层内的个体样本具有相关性,而 各层之间的样本不具有相关性。
倾向打分
1.设定宏变量 (1)设定宏变量breps表示重复抽样200次 命令:global breps 200 (2)设定宏变量x,表示age agesq educ educsq
married black hisp re74 re75 re74sq re75sq u74black 命 令 : global x age agesq educ educsq married black hisp re74 re75 re74sq re75sq u74black
方法二:半径匹配法 (radius matching)
命令 set seed 10101 attr re78 treat $x,comsup
dots logit radius(0.0
方法二:半径匹配法 (radius matching)
方法三:分层匹配法 (stratification matching)
block中的描述性统计
运用得分进行样本匹配并比较
方法一:最邻近方法 (nearest neighbor matching)
含义:最邻近匹配法是最常用的一种匹配方法, 它把控制组中找到的与处理组个体倾向得分差 异最小的个体,作为自己的比较对象 。
优点:按处理个体找控制个体,所有处理个体 都会配对成功,处理组的信息得以充分使用。
实例介绍
分组:在倾向值匹配法中,根据处理指示变量 将样本分为两个组。处理组,在本例中就是在 NSW(国家支持工作示范项目)实施后接受培训 的组;控制组,在本例中就是在NSW实施后不接 受培训的组。
研究目的:通过对处理组和对照组的匹配,在 其他条件完全相同的情况下,通过接受培训的 组(处理组)与不接受培训的组(控制组)在 工资表现上的差异来判断接受培训的行为与工 资之间的因果关系。
倾向值匹配法(PSM)
Q:为什么要使用PSM?
A:解决样本选择偏误带来的内生性问题 例:上北大有助于提高收入吗? 样本选择偏误:考上北大的孩子本身就很出色(聪明、
有毅力、能力强…) 解决方法:样本配对
配对方法
同行业(一维配对) 同行业、规模相当(二维配对) 同 行 业 、 规 模 相 当 、 股 权 结 构 相 当 、 …… ( 多 维 配
对)??? PSM:把多个维度的信息浓缩成一个(降维:多维到一
维)
配对过程中的两个核心问题(1)
Q1:哪个样本更好一些?
A1:Sample2较好:比较容易满足共 同支撑假设(common support assumption)
配对过程中的两个核心问题(2)
Q2:stu c1,c2,c3三人中,谁是stu PK的最佳配对对象?
缺点:由于不舍弃任何一个处理组,很可能有 些配对组的倾向得分差距很大,也将其配对, 导致配对质量不高,而处理效应ATT的结果中也 会包含这一差距,使得ATT精确度下降。
方法一:最邻近方法 (nearest neighbor matching)
命令 set seed 10101(产生随机数种子) attnd re78 treat $x,comsup boot
dots logit
reps($breps)
方法一:最邻近方法 (nearest neighbor matching)
方法二:半径匹配法 (radius matching)
半径匹配法是事先设定半径,找到所有设定半径范围内 的单位圆中的控制样本,半径取值为正。随着半径的降 低,匹配的要求越来越严。