最新倾向值匹配法(PSM)

合集下载

倾向得分匹配方法步骤

倾向得分匹配方法步骤

倾向得分匹配方法步骤倾向得分匹配方法(Propensity Score Matching, PSM)是一种用于评估因果效应的经典方法之一。

该方法通过倾向得分(Propensity Score)将处理组和对照组进行配对,以减少处理组和对照组之间的混淆偏倚。

下面是倾向得分匹配方法的步骤:1. 研究问题和数据准备:首先明确研究问题,并收集相关的观测数据。

数据应包括处理组和对照组的特征变量,以及因果变量。

2. 变量选择:根据研究问题,选择适当的特征变量作为倾向得分模型的输入变量。

这些变量应具有影响处理组选择的潜在因素,且与因果变量相关。

通常选择的变量包括年龄、性别、教育水平、收入水平等。

3. 倾向得分估计:倾向得分是处理组与对照组之间的条件概率,表示个体被分到处理组的概率。

可以使用各种统计方法来估计倾向得分,包括逻辑回归、梯度提升树等。

估计得到的倾向得分应在0到1之间。

4. 匹配样本选择:通过选择与处理组匹配的对照组样本,减少混淆偏倚。

常见的匹配方法包括最近邻匹配、卡尔曼匹配等。

匹配前,可以根据倾向得分的近似程度设置质量标准,例如最大汉明距离。

5. 匹配效果评估:在匹配完成后,对匹配样本进行处理效果评估。

通常使用平均处理效应(Average Treatment Effect, ATE)或平均处理效应对受处理样本的平均效应(Average Treatment Effect on the Treated, ATT)进行估计。

处理效果的估计可以使用插补法、回归法等。

6. 效果检验和敏感性分析:对匹配效果进行检验,常用的方法有t检验、Bootstrap法等。

此外,还需要进行敏感性分析,检验结果对于倾向得分估计的敏感性。

常见的敏感性分析方法包括皮贝根评分、加入未观测因素等。

7. 结果解读:根据匹配效果评估、效果检验和敏感性分析的结果,对研究问题进行解读。

解读应注意结果的可靠性、合理性和一致性,并结合文献综述和实证研究来进行解释。

倾向得分匹配法(PSM)举例及stata实现

倾向得分匹配法(PSM)举例及stata实现

倾向得分匹配法(PSM )举例及stata 实现——读书笔记【例】培训对工资的效应1政策背景:国家支持工作示范项目(National Supported Work,NSW )研究目的:检验接受该项目(培训)与不接受该项目(培训)对工资的影响。

基本思想:分析接受培训组(处理组,treatment group )接受培训行为与不接受培训行为在工资表现上的差异。

但是,现实可以观测到的是处理组接受培训的事实,而处理组没有接受培训会怎样是不可能观测到的,这种状态也成为反事实(counterfactual )。

匹配法就是为了解决这种不可观测事实的方法。

在倾向得分匹配方法(Propensity Score Matching )中,根据处理指示变量将样本分为两个组,一是处理组,在本例中就是在NSW 实施后接受培训的组;二是对照组(comparison group ),在本例中就是在NSW 实施后不接受培训的组。

倾向得分匹配方法的基本思想是,在处理组和对照组样本通过一定的方式匹配后,在其他条件完全相同的情况下,通过接受培训的组(处理组)与不接受培训的组(对照组)在工资表现上的差异来判断接受培训的行为与工资之间的因果关系。

变量定义:变量 定义TREAT * 处理指示变量,1表示接受培训(处理组),0表示没有接受培训(对照组)AGE 年龄(年)EDUC 受教育年数(年)BLACK 种族虚拟变量,黑人时,1BLACK =HSIP 民族虚拟变量,西班牙人时,=1HSIPMARR婚姻状况虚拟变量,已婚,1MARR = 74RE 1974年实际工资(1982年美元)75RE 1975年实际工资78RE 1978年实际工资74U 当在1974年失业,741U =75U当在1975年失业,751U = NODEGREE 当12EDUC <时,1NODEGREE =,否则为0 AGESQAGE AGE × 1 本例选自Cameron&Trivedi 《微观计量经济学:方法与应用》(中译本,上海财经大学出版社,2010)pp794-800 所有数据及程序均来自于本书的配套网站(/mmabook/mmaprograms.html )。

倾向得分匹配法步骤

倾向得分匹配法步骤

倾向得分匹配法步骤
倾向得分匹配法(Propensity Score Matching, PSM)是一种常用的统计方法,用于处理因果推断中的选择偏差。

下面我将从多个角度介绍倾向得分匹配法的步骤。

1. 确定研究目的,在使用倾向得分匹配法之前,首先需要明确研究的目的和问题,确定需要进行匹配的变量和研究对象。

2. 计算倾向得分,倾向得分是指个体被暴露于某个处理(例如接受某种治疗)的概率。

通常使用logistic回归等方法来计算每个个体的倾向得分,得到一个介于0到1之间的概率值。

3. 匹配处理组和对照组,根据计算得到的倾向得分,将处理组和对照组中的个体进行配对,使得处理组和对照组在倾向得分上尽可能接近,从而达到减少选择偏差的效果。

4. 检验匹配质量,匹配完成后,需要进行匹配质量的检验,通常会使用标准化差异(Standardized Mean Difference, SMD)等指标来评估匹配的效果,确保处理组和对照组在匹配后的特征上没有显著差异。

5. 进行因果推断,匹配完成后,可以利用匹配后的样本进行因果效应估计,比较处理组和对照组在结果变量上的差异,从而得出处理对结果变量的影响。

6. 稳健性检验,最后,为了确保结果的稳健性,可以进行一些敏感性分析,例如倾向得分模型的选择、不同的匹配算法等,来检验结果的稳健性。

综上所述,倾向得分匹配法的步骤包括确定研究目的、计算倾向得分、匹配处理组和对照组、检验匹配质量、进行因果推断以及稳健性检验。

这些步骤有助于减少因果推断中的选择偏差,提高研究结论的可信度。

stata:倾向得分匹配(PSM)

stata:倾向得分匹配(PSM)

stata:倾向得分匹配(PSM)导读:在经济学中,我们常常希望评估项目实施后的效应,一般的做法是加入虚拟变量,但是这种做法并不科学。

例如政府推行就业培训计划,该项目的参与者,我们将其称作处理组(treatment group),未参与的培训的样本称作控制组(control group)也叫对照组。

PSM考虑就业培训的处理效应评估。

我们一般的做法是比较两组的收入状况。

如果这样处理,可能得到的结论是参加培训的收入低于未参加培训者。

这是由于一开始选择控制组的样本时,选择范围比较广阔,存在选择偏差。

所以在此介绍倾向得分匹配方法(PSM)。

本文在此就不介绍相关理论了,因为小编的理论也不是特别的好,如果想学习的可以参阅连玉君老师的相关视频(重点推介),大概有5个课时;同时也可以参考陈强老师的《高级计量经济学及stata应用》中的第28章处理效应。

在此小编仅仅介绍stata的相关操作。

1、安装psmatch2ssc install psmatch2,replace2、导入数据,方法比较多,可以粘贴复制、也可以使用命令use E:\BaiduNetdiskDownload\A\labor.dta,clear3、命令语法格式介绍psmatch2 D x1 x2 x3 ,outcome(y) logit ties ate common odds /// pscore(varname) qui对以上的标准命令进行解析D为处理变量,是虚拟变量即是否参加培训x1 x2 x3是协变量,一般的称呼也叫解释变量outcome(varname)是输出变量,例如收入logit 表示计算得分的时候使用logit模型,如果不写Logit,默认为probit模型计算得分,在连玉君的视频中论述了二者并不存在明显的差异。

ties表示包括所有倾向得分相同的并列个体,默认按照数据排序选择其中一位个体。

ATE表示同是汇报ATE、ATU、ATT,大家看书重点了解common表示仅对共同取值范围内的个体进行匹配odds使用几率比(odds ratio)算法为p/(1-p),熟悉logit模型的应该了解qui屏幕中不显示logit模型估计过程,可以节省运算时间4 匹配方法连玉君的视频教程讲了三种:最近0匹配、半径匹配、核匹配;陈强老师讲了6种,如果想详细学习,可以参考他们的相关视频与书籍。

倾向得分匹配法(PSM)举例及stata实现

倾向得分匹配法(PSM)举例及stata实现

倾向得分匹配法(PSM )举例及stata 实现——读书笔记【例】培训对工资的效应1政策背景:国家支持工作示范项目(National Supported Work,NSW )研究目的:检验接受该项目(培训)与不接受该项目(培训)对工资的影响。

基本思想:分析接受培训组(处理组,treatment group )接受培训行为与不接受培训行为在工资表现上的差异。

但是,现实可以观测到的是处理组接受培训的事实,而处理组没有接受培训会怎样是不可能观测到的,这种状态也成为反事实(counterfactual )。

匹配法就是为了解决这种不可观测事实的方法。

在倾向得分匹配方法(Propensity Score Matching )中,根据处理指示变量将样本分为两个组,一是处理组,在本例中就是在NSW 实施后接受培训的组;二是对照组(comparison group ),在本例中就是在NSW 实施后不接受培训的组。

倾向得分匹配方法的基本思想是,在处理组和对照组样本通过一定的方式匹配后,在其他条件完全相同的情况下,通过接受培训的组(处理组)与不接受培训的组(对照组)在工资表现上的差异来判断接受培训的行为与工资之间的因果关系。

变量定义:变量 定义TREAT * 处理指示变量,1表示接受培训(处理组),0表示没有接受培训(对照组)AGE 年龄(年)EDUC 受教育年数(年)BLACK 种族虚拟变量,黑人时,1BLACK =HSIP 民族虚拟变量,西班牙人时,=1HSIPMARR婚姻状况虚拟变量,已婚,1MARR = 74RE 1974年实际工资(1982年美元)75RE 1975年实际工资78RE 1978年实际工资74U 当在1974年失业,741U =75U当在1975年失业,751U = NODEGREE 当12EDUC <时,1NODEGREE =,否则为0 AGESQAGE AGE × 1 本例选自Cameron&Trivedi 《微观计量经济学:方法与应用》(中译本,上海财经大学出版社,2010)pp794-800 所有数据及程序均来自于本书的配套网站(/mmabook/mmaprograms.html )。

倾向值匹配

倾向值匹配

2、PSM简介
• 倾向值指被研究的个体在控制可观测到的 混淆变量的情况下受到某种自变量影响的 条件概率。 • 匹配的基本逻辑是将受到自变量影响的个 体与没有受到影响的个体进行配对。 • 倾向值匹配就是保证匹配起来的个体的倾 向值相等或者近似。
2、PSM简介
• 为何不将混淆变量作为控制变量纳入回归 模型?
T = E Y1 | 1 E Y0 | 1
1 E Y1 | 0 E Y0 | 0
E Y0 | 1 实验组的人放置在对照组时因变量的均值 反事实 E Y1 | 0 对照组的人放置在实验组时因变量的均值 反事实 E Y0 | 0 对照组的人放置在对照组时因变量的均值 事实 1 指对照组的比例 T指因果关系, 指实验组的比例, 因果关系表示为实验组中的个体其“事实”与“反事实”之 间的差异与对照组中个体“事实”与“反事实”之间的差异 的加权平均值。
非混淆假设通过控制倾向值P来满足: E Y1| =0,P =E Y1| =1,P
E Y0 | =0,P =E Y0 | =1,P
3、PSM与因果推论
• 统计学角度
如果非混淆假设满足,反事实框架下的因果推论 公式就简化为:
T =E Y E Y0 |=0 1| =1 —
E Y1 | 1 实验组的人放置在实验组时因变量的均值 事实
3、PSM与因果推论
• 统计学角度
问题在于,我们永远也不可能观测到反事实是什么。 所以要用可观测到的事实来简化因果推论公式,具 体而言,要满足统计学上的“非混淆假设”:
E Y1| =0 =E Y1| =1 E Y0 | =0 =E Y0 | =1
然而,在探索因果关系时,我们所关心的问题是: a.任取一原本受自变量影响的样本,如果一开始 不受自变量影响,那么他的因变量是什么水平? b.任取一原本不受自变量影响的样本,如果一开 始受到自变量影响,那么他的因变量是什么水平?

psm倾向得分匹配法

psm倾向得分匹配法

psm倾向得分匹配法参差不齐的数据已经成为现在最普遍的存在,来自不同源的数据和模型在预测分析、推荐系统、大数据搜索等领域中得到了极大的应用。

而PSM倾向得分匹配法,作为一种简单有效的非监督学习方法,在众多数据挖掘技术中脱颖而出,以其简单而可视化的处理数据差异的优势受到广泛关注和认可。

PSM倾向得分匹配法是一种基于数据特征的个性化数据建模技术,其目的在于改善由多源数据组成的无结构数据,使得用户可以更好的理解和挖掘数据中的有用信息。

它以某一源数据作为参考,从而使得不同源数据都能够以相同的测度标准进行评价,有效的实现了数据转换。

PSM所采用的倾向得分匹配方法是一种基于数据和特征的数据建模技术,主要应用于大规模多源数据分析,利用朴素贝叶斯、K-means 聚类算法和其他机器学习技术,实现了对不同源数据的一致性建模和分析。

首先,PSM倾向得分匹配法通过将所有源数据通过特征属性聚类,构建出特征模型,以此捕获源数据中共有和异同之处;其次,倾向得分匹配法把不同源数据进行倾向得分匹配,将不同源数据的相似属性进行叠加,从而计算每一个样本的个性分值;最后,PSM倾向得分匹配法还提供了一种可视化的处理方法,在可视化界面以饼图的形式展示各个源数据的对比,进而实现数据的处理和分析。

PSM倾向得分匹配法在解决复杂的大规模数据挖掘上表现出了出色的性能,可以更有效的挖掘数据中隐藏的深层知识,并且可以很好的用于各种市场营销、客户画像以及个性化推荐等应用场景中。

以上是PSM倾向得分匹配法的基本内容,它不仅是一种准确的数据分析模型,而且也是一种有效的推理智能机器学习技术,能够为商业决策者提供准确的洞见及个性化解决方案。

一般来说,应用PSM倾向得分匹配法的主要步骤如下:1、收集和准备数据:采集各种业务中的原始数据,并将其进行数据清洗,筛检,格式化等处理,使其具备分析所需的质量。

2、建模:根据数据特征,建立一个模型,以计算多源数据的相似性。

SPSS—倾向性评分匹配法(PSM)

SPSS—倾向性评分匹配法(PSM)

SPSS—倾向性评分匹配法(PSM)倾向评分匹配(propensity score matching, PSM)的概念由Rosenbaum和Rubin在1983年首次提出。

2010年之后,这一方法日益受到人们的关注。

国际上越来越多的研究者将倾向指数法应用到流行病学、健康服务研究、经济学以及社会科学等许多领域。

在流行病学研究中,该方法可以在分析和设计阶段有效平衡非随机对照研究中的混杂偏倚,使研究结果接近随机对照研究的效果。

在观察性研究中,如病例对照研究,经常会见到匹配的概念,即按照某些因素或特征,将病例组(或暴露组)和对照组的研究对象进行匹配,以保证两组研究对象具有可比性,从而排除匹配因素的干扰。

同样,既然倾向性评分是一个能够反映多个混杂因素影响的综合评分,我们也可以将两组人群按照倾向性评分从小到大来进行匹配,仅用匹配倾向性评分一个指标来达到同时控制多个混杂因素的目的。

倾向性评分匹配是倾向性分析中应用最为广泛的一种方法。

首先我们要计算出每一个研究对象的倾向性评分,然后从小到大进行排序,对于每一个暴露/处理组的研究对象,从对照组中选取与其倾向性评分最为接近的所有个体,并从中随机抽取一个或N个研究对象作为匹配对象,直至所有的研究对象均匹配完毕,未匹配上的研究对象则进行舍去。

当然,有多少研究对象可以成功匹配,常常与选择匹配的比例和匹配的标准有关。

匹配的比例最常见的为1:1匹配,需要根据两组人群的数量来决定合适的匹配比例,建议不要超过1:4匹配。

对于匹配标准,如果匹配的标准很高,则能够成功匹配的对象就可能会少,甚至出现匹配不上的现象,造成研究对象信息的浪费,如果匹配的标准很宽泛,则匹配的效果就会较差,有可能出现两组人群在匹配后依然存在混杂因素分布不均衡的现象。

例如某个个体的倾向性评分为0.8,如果设定匹配标准为±0.02,则需要为其寻找倾向性评分在0.78-0.82之间的对照进行匹配,匹配范围太窄就可能出现匹配不上的情况;如果设定匹配标准为±0.2,则需要为其寻找倾向性评分在0.8-1.0之间的对照进行匹配,匹配范围太宽则可能降低匹配的效果。

真实世界研究统计分析方法(二):倾向性评分匹配(PSM)

真实世界研究统计分析方法(二):倾向性评分匹配(PSM)

真实世界研究统计分析方法(二):倾向性评分匹配(PSM)试验性研究(例如RCT)做随机化分组目的是:控制混杂。

真实世界研究,不人为分配X(Assigned Exposure X),不做随机分组,需要通过数据分析的方法控制混杂。

2006年美国流行病学杂志Am J Epidemiol 总结了真实世界研究控制混杂常用的五种方法[1],包括:1. 多元回归模型调整混杂2. 倾向性评分匹配(PSM)后构建回归模型3. 回归模型调整倾向性评分(PS)4. 回归模型加权(IPTW)处理5. 回归模型加权(SMR)处理本文分享第二种方法:倾向性评分匹配(PSM)往期相关资料:真实世界研究统计分析方法(一):调整混杂2015年在NEJM发表了一项研究[2],支架和CABG手术相比,对于多支病变的冠心病的疗效。

研究对象:冠心病患者X:两种治疗方式,第二代药物支架(PCI)与冠脉搭桥(CABG)相比Y:预后包括死亡、心梗、再次血运重建和卒中研究设计:观察性研究(observational)中的队列(cohort)研究。

没有随机分配治疗方案,不是RCT,是在真实世界中观察不同治疗方案的疗效。

纳入了3万多人,PSM后剩下不到2万人,样本量少了很多。

目的是控制混杂:挑出一部分人,使得接受不同治疗方案(X)的患者基线情况相似。

这一点非常重要。

试想,如果病情重的人偏向于做搭桥手术,病情重的人预后不好,就会得出搭桥手术疗效差的假象。

解决办法:研究设计时通过PSM的方法选择患者,使得不同X组的人基线相似。

即纳入的人既有可能接受PCI,又有可能接受CABG。

给定一个病例,从数据库里找出满足配对条件的所有可能的对照,然后根据匹配数随机选择对照。

如1:1匹配,随机选一个作对照;1:2匹配,随机选2个配对。

因此PSM的方法又被成为事后随机化,相当于在队列里面构建RCT。

这个就厉害了!正因为倾向性评分(Propensity score ,PS)在控制混杂方面有独特的优势,肿瘤领域的真实世界研究,近年运用PS方法论文的比例出现了爆发[3]:使用PS分析方法的论文数量随发表年份的变化图2017年发布了PS论文报告标准,规范了19条需要在论文中描述的重要内容[3]。

倾向得分匹配法结果解读

倾向得分匹配法结果解读

倾向得分匹配法结果解读倾向得分匹配法(Propensity Score Matching,PSM)是一种常用的统计方法,用于处理观察性数据中的因果推断问题。

它通过建立一个倾向得分模型,将处理组(接受某种处理或干预)与对照组(未接受处理或干预)进行匹配,从而消除处理组和对照组之间的潜在选择偏差,使得比较更具可靠性。

解读倾向得分匹配法的结果需要考虑以下几个方面:1. 倾向得分模型的质量,首先需要评估倾向得分模型的拟合程度和预测准确性。

常用的评估指标包括C统计量(C-statistic)、区分度指数(Discrimination Index)等。

较高的指标值表明模型的质量较好,倾向得分的预测能力较强。

2. 平衡性检验,在进行倾向得分匹配后,需要检验处理组和对照组之间的基线特征是否得到平衡。

常用的平衡性检验方法包括t 检验、卡方检验等。

如果处理组和对照组在倾向得分匹配后的基线特征上没有显著差异,说明匹配效果较好,处理组和对照组的比较更具可靠性。

3. 效应估计与统计显著性,倾向得分匹配后,可以通过比较处理组和对照组之间的平均差异来估计处理效应。

常见的效应估计方法包括平均处理效应(Average Treatment Effect,ATE)、平均处理效应对于受处理的人群(Average Treatment Effect on the Treated,ATT)等。

此外,还需要进行统计显著性检验,判断处理效应是否显著。

4. 敏感性分析,倾向得分匹配方法对于倾向得分模型的假设敏感,因此需要进行敏感性分析,检验结果的稳健性。

常见的敏感性分析方法包括倾向得分模型的功能形式敏感性分析、倾向得分模型的变量选择敏感性分析等。

综上所述,解读倾向得分匹配法的结果需要综合考虑倾向得分模型的质量、平衡性检验、效应估计与统计显著性以及敏感性分析等多个方面,以确保结果的可靠性和有效性。

倾向值评分匹配方法PSMppt课件

倾向值评分匹配方法PSMppt课件
倾向值匹配法(PSM)
1
RCT:很多限制,如费用,伦理学要 求,操作困难,不适合发病率很低的 疾病 非RCT:避免以上繁杂的问题,容易 组间基线不齐,使之成为处理效应的 混杂因素从而产生偏移
2
• 为了消除混杂因素的影响,传统的解决方式是,用多变 量配对,多变量分析模型,M-H分层分析,协变量分析。
14
• 比较的效果是接受治疗后1 年内的生存率,成本是所有疾病相关 的医疗成本,研究分别对成本和效果未经过调整的结果、多元回 归结果、基于倾向值匹配的结果和基于倾向值分层的结果进行了 比较。
15
讨论
倾向值分析只能尽量减少混杂因素产生的影响,并不能完全消除, 其消除程度取决于可以被观测和控制的变量数量以及匹配的质量。 此外,倾向值分析只能对可观测的混杂因素进行平衡和控制,并不 能够控制不可观测的混杂因素,当有重要的混杂因素缺失或不可观 测时,采用倾向值分析所得结果可能与真实值存在较大偏差。
8
估计倾向值
• Logistic 回归模型 • 令y=组别,x为各协变量 每个个体在给定可观测混杂因素的条件下接受干预的条件概率。
9
选择匹配方法
最近邻匹配
卡钳匹配 马氏距离匹配
贪婪匹配法
10
匹配后的均衡性检验
• 协变量的平衡可通过均值上的绝对标准化差值来衡量
• 通常dX>dXm,说明在匹配后样本的平衡程度有所改善。
• 目的:将多个变量(多维)转化为一个中间变量(一维) • 特点:不在关注每个需要控制的混杂因素的具体取值,转为关注将这
些变量纳入logistic回归方程后预测出来的倾向值。只要保证倾向值匹 配,这些所有需要控制的混杂因素都考虑了。
5
PSM适用情形
• 前提:logistic多因素分析已经无法校正 • 1:实验组与对照组人数相差甚远(>4:1) • 2:两组变量差异太大,可比性差,如基线不齐,或混杂因素多 • 3:变量过多,样本量偏少

倾向评分匹配法典例

倾向评分匹配法典例

倾向评分匹配法典例倾向评分匹配法(Propensity Score Matching,PSM)是一种常用的统计方法,用于解决因果推断问题。

它通过匹配处理组和对照组的个体,从而减少处理组和对照组之间的选择偏差,使得两组之间的比较更加准确和可靠。

下面将通过一个典型的例子来介绍倾向评分匹配法的应用。

假设我们想研究某种新药对患者生存率的影响。

为了进行实验,我们将一部分患者随机分配到接受新药治疗的处理组,另一部分患者则不接受治疗,作为对照组。

然而,由于患者的个体特征存在差异,比如年龄、性别、病情严重程度等,可能会导致处理组和对照组之间的选择偏差。

为了解决这个问题,我们可以使用倾向评分匹配法。

首先,我们需要根据患者的个体特征,建立一个预测模型,即倾向评分模型。

这个模型可以预测每个患者接受治疗的概率,即倾向评分。

常用的建模方法包括逻辑回归、决策树等。

通过这个模型,我们可以得到每个患者的倾向评分。

接下来,我们需要根据倾向评分,对处理组和对照组进行匹配。

匹配的目标是使得处理组和对照组在个体特征上尽可能相似。

常用的匹配方法包括最近邻匹配、卡尺匹配等。

通过匹配,我们可以得到一组处理组和对照组之间个体特征相似的样本。

然后,我们可以比较处理组和对照组在生存率上的差异。

由于匹配后的样本在个体特征上更加相似,因此比较结果更加准确和可靠。

我们可以使用统计方法,如t检验、卡方检验等,来评估处理组和对照组之间的差异是否显著。

最后,我们可以根据比较结果得出结论。

如果处理组的生存率显著高于对照组,那么我们可以认为新药对患者生存率有积极影响。

反之,如果处理组的生存率与对照组没有显著差异,那么我们可以认为新药对患者生存率没有明显影响。

需要注意的是,倾向评分匹配法并不能完全消除选择偏差,但可以减少其影响。

此外,倾向评分匹配法的有效性依赖于倾向评分模型的准确性和匹配方法的合理性。

因此,在使用倾向评分匹配法时,我们需要仔细选择合适的模型和方法,并进行敏感性分析,以确保结果的可靠性。

倾向得分匹配法(PSM)举例及stata实现

倾向得分匹配法(PSM)举例及stata实现

倾向得分匹配法(PSM )举例及stata 实现——读书笔记【例】培训对工资的效应1政策背景:国家支持工作示范项目(National Supported Work,NSW )研究目的:检验接受该项目(培训)与不接受该项目(培训)对工资的影响。

基本思想:分析接受培训组(处理组,treatment group )接受培训行为与不接受培训行为在工资表现上的差异。

但是,现实可以观测到的是处理组接受培训的事实,而处理组没有接受培训会怎样是不可能观测到的,这种状态也成为反事实(counterfactual )。

匹配法就是为了解决这种不可观测事实的方法。

在倾向得分匹配方法(Propensity Score Matching )中,根据处理指示变量将样本分为两个组,一是处理组,在本例中就是在NSW 实施后接受培训的组;二是对照组(comparison group ),在本例中就是在NSW 实施后不接受培训的组。

倾向得分匹配方法的基本思想是,在处理组和对照组样本通过一定的方式匹配后,在其他条件完全相同的情况下,通过接受培训的组(处理组)与不接受培训的组(对照组)在工资表现上的差异来判断接受培训的行为与工资之间的因果关系。

变量定义:变量 定义TREAT * 处理指示变量,1表示接受培训(处理组),0表示没有接受培训(对照组)AGE 年龄(年)EDUC 受教育年数(年)BLACK 种族虚拟变量,黑人时,1BLACK =HSIP 民族虚拟变量,西班牙人时,=1HSIPMARR婚姻状况虚拟变量,已婚,1MARR = 74RE 1974年实际工资(1982年美元)75RE 1975年实际工资78RE 1978年实际工资74U 当在1974年失业,741U =75U当在1975年失业,751U = NODEGREE 当12EDUC <时,1NODEGREE =,否则为0 AGESQAGE AGE × 1 本例选自Cameron&Trivedi 《微观计量经济学:方法与应用》(中译本,上海财经大学出版社,2010)pp794-800 所有数据及程序均来自于本书的配套网站(/mmabook/mmaprograms.html )。

倾向评分匹配法

倾向评分匹配法

倾向评分匹配法(Propensity Score Matching, PSM)是一种常用的非实验研究方法,用于解决因果推断问题。

它通过将参与某个处理(例如接受某项政策、干预或治疗)的个体与没有参与该处理的个体进行匹配,以消除因群体选择偏差带来的潜在混杂变量的影响。

PSM的基本步骤如下:
1. 确定研究问题和处理变量:明确需要进行因果分析的研究问题,并确定影响因变量的处理变量。

2. 构建倾向评分模型:利用回归分析等方法,建立一个预测参与处理的倾向评分模型,该模型能够根据个体的特征预测其选择处理的概率。

3. 匹配样本:根据个体的倾向评分,将参与处理的个体与未参与处理的个体进行配对匹配,使得两组个体在处理前的特征上尽可能相似。

4. 检验平衡性:检验匹配后的样本是否在处理前的特征上达到平衡状态,以确保匹配的有效性。

5. 进行因果推断:比较处理组和对照组在因变量上的差异,以得出因果效应的估计结果。

6. 敏感性分析:进行敏感性分析,检验倾向评分模型的稳健性,并评估结果对潜在假设的依赖程度。

PSM方法在通过实验研究来解决问题存在困难或不可行的情况下,为研究人员提供了一种处理群体选择偏差的有效工具。

然而,PSM也有
一些限制,如依赖于建模假设、匹配质量和结果的解释等方面存在一定挑战。

因此,在应用PSM时需要谨慎选择合适的方法和适用范围,并结合其他方法进行结果验证和分析。

psm倾向得分匹配法

psm倾向得分匹配法

psm倾向得分匹配法倾向得分匹配(PSM)是一种新型的统计数据分析技术,可以用来研究在相关性调查中发现的群体差异。

它旨在解决以下类型的问题:如何确定属于不同组别的每个参与者之间是否存在可比较的差异性质,以及它们与组别之间的关系?本文将讨论PSM的基本概念,以及它如何被用于研究不同群体之间的结构性差异的应用。

倾向得分匹配是一种反映每位受访者在性别、年龄和社会经济地位等维度的个性化得分的技术。

倾向得分通过应用特定的统计技术(如卡方检验)来度量基于整体调查结果所计算出来的偏差。

通过比较不同组别之间的倾向得分,可以发现他们之间的任何差异化特征。

PSM的优势在于,它比两组均值比较法(T-test)更佳的处理多变量数据的能力。

如果调查涉及到超过两个变量,则可以使用倾向得分匹配法来确定可比性。

例如,一个调查可以是比较男性和女性之间的态度,同时涉及到年龄、受教育程度等多个变量,在这种情况下,可以使用PSM来确定参与者态度的可比性。

此外,PSM具有解释能力,可以帮助研究人员了解由不同群体组成的结构性差异。

他们可以从调查的结果中推断出,某些变量和态度之间可能存在的相关性。

例如,一项调查可以比较受教育程度与政治参与的不同群体之间的差异,这可以帮助研究人员了解教育程度对政治参与的影响程度。

PSM还可以用于研究被动性社会组织状况。

被动性社会组织状况是指一个团体成员(通常是社会弱势群体成员)在经济、文化和社会等方面受到不平等待遇的状况。

在反映被动性社会组织状况方面,PSM 也可以有所作为,通过比较不同群体的倾向得分,可以捕捉到个体在社会群体中的处境无论是被主流社会阶层当作因素,还是被贫困群体当作因素。

PSM的被动性社会组织状况的研究可以有效帮助社会工作者和政策制定者了解社会群体的多样性,从而支持政策制定者制定更好的政策,以消除贫困群体所面临的种种不。

虽然PSM具有多种优势,但在某些情况下仍然存在一些局限性。

例如,PSM无法用于研究受访者之间内在联系的模式,即由受访者之间的模式得出结论。

倾向值评分匹配方法PSM

倾向值评分匹配方法PSM
• 目的:将多个变量(多维)转化为一个中间变量(一维) • 特点:不在关注每个需要控制的混杂因素的具体取值,转为关注将这
些变量纳入logistic回归方程后预测出来的倾向值。只要保证倾向值匹 配,这些所有需要控制的混杂因素都考虑了。
PSM适用情形
• 前提:logistic多因素分析已经无法校正 • 1:实验组与对照组人数相差甚远(>4:1) • 2:两组变量差异太大,可比性差,如基线不齐,或混杂因素多 • 3:变量过多,样本量偏少
倾向值匹配法(PSM)
RCT:很多限制,如费用,伦理学要 求,操作困难,不适合发病率很低的 疾病
非RCT:避免以上繁杂的问题,容易 组间基线不齐,使之成为处理效应的 混杂因素从而产生偏移
• 为了消除混杂因素的影响,传统的解决方式是,用多变 量配对,多变量分析模型,M-H分层分析,协变量分析。
• 当需要匹配的变量很多时,多变量配对通常是不可行的; 当混杂因素很多或有多个亚组时,分层分析也是不可行 的;多因素回归则要求不同组间的协变量具有一致的分 布
• 比较的效果是接受治疗后1 年内的生存率,成本是所有疾病相关 的医疗成本,研究分别对成本和效果未经过调整的结果、多元回 归结果、基于倾向值匹配的结果和基于倾向值分层的结果进行了 比较。
讨论
倾向值分析只能尽量减少混杂因素产生的影响,并不能完全消除, 其消除程度取决于可以被观测和控制的变量数量以及匹配的质量。 此外,倾向值分析只能对可观测的混杂因素进行平衡和控制,并不 能够控制不可观测的混杂因素,当有重要的混杂因素缺失或不可观 测时,采用倾向值分析所得结果可能与真实值存在较大偏差。
估计倾向值
• Logistic 回归模型 • 令y=组别,x为各协变量
每个个体在给定可观测混杂因素的条件下接受干预的条件概率。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

方法二:半径匹配法 (radius matching)
命令 set seed 10101 attr re78 treat $x,comsup boot
reps($breps) dots logit radius(0.001)
方法二:半径匹配法 (radius matching)
方法三:分层匹配法 (stratification matching)
变量定义
变量定义
倾向打分
OLS回归结果
工资的变化到底是来自个体的异质性 性还是培训?
倾向打分
1.设定宏变量 (1)设定宏变量breps表示重复抽样200次 命令:global breps 200 (2)设定宏变量x,表示age agesq educ educsq
married black hisp re74 re75 re74sq re75sq u74black 命令:global x age agesq educ educsq married black hisp re74 re75 re74sq re75sq u74black
缺点:如果在每个区内找不到对照个体,那么 这类个体的信息,会丢弃不用。总体配对的数 量减少。
方法三:分层匹配法 (stratification matching)
命令 set seed 10101 atts re78 treat,pscore(mypscore)
blockid(myblock) comsup boot reps($breps) dots
倾向值匹配法(PSM)
Q:为什么要使用PSM?
A:解决样本选择偏误带来的内生性问题 例:上北大有助于提高收入吗? 样本选择偏误:考上北大的孩子本身就
很出色(聪明、有毅力、能力强…) 解决方法:样本配对
配对方法
同行业(一维配对) 同行业、规模相当(二维配对) 同行业、规模相当、股权结构相
ATT=12W-9W=3W
不可观测数据, 采用配对者的
收入来代替
实例介绍
实例介绍
研究问题:培训对工资的效应
基本思想:分析接受培训行为与不接受 培训行为在工资表现上的差异。但是, 现实可以观测到的是处理组接受培训的 事实,而如果处理组没有接受培训会怎 么样是不可观测的,这种状态称为反事 实。匹配法就是为了解决这种不可观测 的事进行倾向打分 命令:pscore treat $x,pscore(mypscore)
blockid(myblock) comsup numblo(5) level(0.05) logit
注:$表示引用宏变量
pscore结果
倾向值分布
倾向值分布
block中样本的分布
方法三:分层匹配法 (stratification matching)
方法四:核匹配法 (kernel matching)
核匹配是构造一个虚拟对象来匹配处理 组,构造的原则是对现有的控制变量做 权重平均,权重的取值与处理组、控制 组PS值差距呈反向相关关系。
方法四:核匹配法 (kernel matching)
内容:分层匹配法是根据估计的倾向得分将全 部样本分块,使得每块的平均倾向得分在处理 组和控制组中相等。
优点:Cochrane ,Chambers(1965)指出五 个区就可以消除95%的与协变量相关的偏差。 这个方法考虑到了样本的分层问题或聚类问题。 就是假定:每一层内的个体样本具有相关性, 而各层之间的样本不具有相关性。
A2:stu c3是最佳配对对象,比较容易 满足平行假设(balancing assumption)
ATT(Average Treatment Effect on the Treated) 平均处理效应的衡量
运用得分进行样本匹配并比较,估计出 ATT值。
ATT=E[Y(1)-Y(0) |T=1] 可观测数据 Y(1):Stu PK 上北大后的年薪 Y(0): Stu PK 假如不上北大的年薪
reps($breps) dots logit
方法一:最邻近方法 (nearest neighbor matching)
方法二:半径匹配法 (radius matching)
半径匹配法是事先设定半径,找到所有 设定半径范围内的单位圆中的控制样本, 半径取值为正。随着半径的降低,匹配 的要求越来越严。
缺点:由于不舍弃任何一个处理组,很可能有 些配对组的倾向得分差距很大,也将其配对, 导致配对质量不高,而处理效应ATT的结果中 也会包含这一差距,使得ATT精确度下降。
方法一:最邻近方法 (nearest neighbor matching)
命令 set seed 10101(产生随机数种子) attnd re78 treat $x,comsup boot
实例介绍
分组:在倾向值匹配法中,根据处理指示变量 将样本分为两个组。处理组,在本例中就是在 NSW(国家支持工作示范项目)实施后接受培 训的组;控制组,在本例中就是在NSW实施后 不接受培训的组。
研究目的:通过对处理组和对照组的匹配,在 其他条件完全相同的情况下,通过接受培训的 组(处理组)与不接受培训的组(控制组)在 工资表现上的差异来判断接受培训的行为与工 资之间的因果关系。
当、……(多维配对)??? PSM:把多个维度的信息浓缩成一个
(降维:多维到一维)
配对过程中的两个核心问题(1)
Q1:哪个样本更好一些?
A1:Sample2较好:比较容易满足共 同支撑假设(common support assumption)
配对过程中的两个核心问题(2)
Q2:stu c1,c2,c3三人中,谁是stu PK的 最佳配对对象?
block中的描述性统计
运用得分进行样本匹配并比较
方法一:最邻近方法 (nearest neighbor matching)
含义:最邻近匹配法是最常用的一种匹配方法, 它把控制组中找到的与处理组个体倾向得分差 异最小的个体,作为自己的比较对象 。
优点:按处理个体找控制个体,所有处理个体 都会配对成功,处理组的信息得以充分使用。
相关文档
最新文档