倾向值匹配法(PSM)教学内容

合集下载

倾向值匹配法(PSM)教学内容共47页

Thank you
ห้องสมุดไป่ตู้
倾向值匹配法(PSM)教学内容
51、没有哪个社会可以制订一部永远适用的宪法，甚至一条永远适用的法律。 ——杰斐逊 52、法律源于人的自卫本能。——英格索尔
53、人们通常会发现，法律就是这样一种的网，触犯法律的人，小的可以穿网而过，大的可以破网而出，只有中等的才会坠入网中。 ——申斯通 54、法律就是法律它是一座雄伟的大夏，庇护着我们大家；它的每一块砖石都垒在另一块砖石上。 ——高尔斯华绥 55、今天的法律未必明天仍是法律。 ——罗·伯顿
6、最大的骄傲于最大的自卑都表示心灵的最软弱无力。——斯宾诺莎 7、自知之明是最难得的知识。——西班牙 8、勇气通往天堂，怯懦通往地狱。——塞内加 9、有时候读书是一种巧妙地避开思考的方法。——赫尔普斯 10、阅读一切好书如同和过去最杰出的人谈话。——笛卡儿

倾向匹配得分教程（附PSM操作应用、平衡性检验、共同取值范围、?核密度函数图）

倾向匹配得分教程（附PSM操作应用、平衡性检验、共同取值范围、核密度函数图）展开全文本文主要包括倾向匹配得分命令简介、语法格式、倾向匹配得分操作步骤思路，涉及倾向匹配得分应用、平衡性检验、共同取值范围检验、核密度函数图等内容。

1命令简介Stata does not have a built-in command for propensity score matching, a non-experimental method of sampling that produces a control group whose distribution of covariates is similar to that of the treated group. However, there are several user-written modules for this method. The following modules are among the most popular:Stata没有一个内置的倾向评分匹配的命令，一种非实验性的抽样方法，它产生一个控制组，它的协变量分布与被处理组的分布相似。

但是，这个方法有几个用户编写的模块。

以下是最受欢迎的模块（主要有如下几个外部命令）psmatch2.adopscore.adonnmatch.adopsmatch2.ado was developed by Leuven and Sianesi (2003) and pscore.ado by Becker and Ichino (2002). More recently, Abadie, Drukker, Herr, and Imbens (2004) introduced nnmatch.ado. All three modules support pair-matching as well as subclassification.You can find these modules using the .net command as follows:net search psmatch2net search pscorenet search nnmatchYou can install these modules using the .ssc or .net command, for example:ssc install psmatch2, replaceAfter installation, read the help files to find the correct usage, for example:help psmatch2上述主要介绍了如何获得PSM相关的命令，总结一下目前市面上用的较好的命令为psmatch2.PSM 相关命令help psmatch2help nnmatchhelp psmatchhelp pscore持续获取最新的 PSM 信息和程序findit propensity scorefindit matchingpsmatch2 is being continuously improved and developed. Make sure to keep your version up-to-date as follows ssc install psmatch2, replacewhere you can check your version as follows:which psmatch22语法格式语法格式为：help psmatch2••••••psmatch2 depvar [indepvars] [if exp] [in range] [, outcome(varlist) pscore(varname) neighbor(integer) radius caliper(real) mahalanobis(varlist) ai(integer) population altvariance kernel llr kerneltype(type) b width(real) spline nknots(integer) common trim(real ) noreplacement descending odds index logit ties q uietly w(matrix) ate]选项含义为：depvar因变量；indepvars表示协变量；outcome(varlist)表示结果变量；logit指定使用logit模型进行拟合，默认的是probit模型；neighbor(1)指定按照1:1进行匹配，如果要按照1:3进行匹配，则设定为neighbor(3)；radius表示半径匹配核匹配 (Kernel matching)其他匹配方法广义精确匹配(Coarsened Exact Matching) || help cem局部线性回归匹配 (Local linear regression matching)样条匹配 (Spline matching)马氏匹配 (Mahalanobis matching)pstest $X, both做匹配前后的均衡性检验，理论上说此处只能对连续变量做均衡性检验，对分类变量的均衡性检验应该重新整理数据后运用χ2检验或者秩和检验。

倾向值匹配专题教育课件

措施三： Stratification Matching（提成匹配法）
. set seed 10101 . attsRE78 TREAT, pscore(myscore) blockid(myblock) sup boot reps($breps) dots
措施四：Kernel Matching（核匹配措施） . set seed 10101 . attkRE78 TREAT $XDW02, sup boot reps($breps) dots logit
倾向得分匹配举例——培训对工资旳效应
第三张表格
第一张表与第三张表旳差别在于原则差旳估计，第一张表使用旳是解析原则差，第三张表使用自助法得到原则差。当然t统计量也随之发生变化。
倾向得分匹配举例——培训对工资旳效应
措施二：Radius matching（半径匹配法）
set seed 10101 attrRE78 TREAT $XDW02, sup boot reps($breps) dots logit radius(0.001)
理论根据：假如可忽视性假定成立，则只需给定p（x）旳情况下，（ y0i,y1i）独立于 Di
倾向得分定理（因为D为虚拟变量，故只需证明P[D=1|y0,y1,p(x)]与y0,y1无关即可）
重叠假定：对于x旳任何可能取值，都有0<p(x)<1
倾向值匹配(Propensity Matching)环节
基于可忽视性假设，则个体i与个体j进入处理组旳概率相近，具有可比性，故可将yj作为y0i旳估计量
目旳：
在一般旳实证研究中，因为存在诸多其他变量混同自变量和因变量之间旳关系，研究者极难直接探索两者之间旳净效果( net effects)。这些混同变量旳影响一般被称为选择性误差 ( selectionbias) ，而经过倾向值匹配旳方式来控制和消除选择性误差

psm方法

psm方法PSM方法。

PSM（Propensity Score Matching）方法是一种常用的处理因果推断问题的统计方法，它通过匹配处理组和对照组的潜在得分，来减小因变量与自变量之间的干扰，从而更准确地估计处理效应。

本文将对PSM方法的原理、步骤和应用进行详细介绍。

一、原理。

PSM方法的核心原理是通过建立处理组和对照组之间的潜在得分（即倾向得分）来实现处理效应的估计。

在实际应用中，通常使用Logistic回归模型来预测处理组的概率，得到每个个体的倾向得分。

然后，根据倾向得分进行处理组和对照组的匹配，使得两组个体在倾向得分上尽可能接近，从而消除了因变量与自变量之间的干扰，更准确地估计处理效应。

二、步骤。

PSM方法的实施步骤通常包括以下几个步骤：1. 建立倾向得分模型，使用Logistic回归模型，以处理变量为因变量，其他自变量为自变量，预测处理组的概率，得到每个个体的倾向得分。

2. 匹配处理组和对照组，根据倾向得分，采用不同的匹配算法（如最近邻匹配、最优匹配等），将处理组和对照组进行一对一的匹配。

3. 检验匹配质量，对匹配后的样本进行倾向得分平衡检验，确保匹配后处理组和对照组之间的倾向得分分布差异较小。

4. 估计处理效应，在匹配后的样本中，使用各种统计方法（如 t 检验、回归分析等）估计处理效应，并进行稳健性检验。

5. 结果解释，根据估计的处理效应，对研究结果进行解释和讨论，得出结论。

三、应用。

PSM方法广泛应用于医学、经济学、社会学等领域的因果推断问题中。

例如，在医学研究中，研究者常常面临着无法进行随机对照实验的情况，此时可以利用PSM方法来减小观测数据中的选择偏差，更准确地估计治疗效应。

在教育政策评估中，PSM方法也被广泛应用于评估政策对学生学业成绩、就业情况等的影响。

总之，PSM方法作为一种处理因果推断问题的有效工具，具有较强的实用性和灵活性，能够在一定程度上弥补观测数据中的选择偏差，为研究者提供了一种有效的因果推断方法。

倾向值匹配模型 (PSM模型)ppt课件

14
倾向打分
2.通过logit模型进行倾向打分命令：pscore treat $x,pscore(mypscore) blockid(myblock) comsup numblo(5) level(0.05) logit
注:$表示引用宏变量
15
pscore结果
16
倾向值分布
17
倾向值分布
18
10
变量定义
re78
1978年实际工资
u74 agesq
当在1974年失业，u74=1 age*age
educsq educ*educ
re74sq re74*re74
re75sq re75*re75
u74blcak u74*blcak
11
倾向打分
12
OLS回归结果
工资的变化到底是来自个体的异质性性还是培训？
命令 set seed 10101 attr re78 treat $x,comsup boot reps($breps) dots logit radius(0.001)
26
方法二：半径匹配法（radius matching）
27
方法三：分层匹配法（stratification matching）
13
倾向打分
1.设定宏变量 (1)设定宏变量breps表示重复抽样200次命令：global breps 200 (2)设定宏变量x，表示age agesq educ educsq married black hisp re74 re75 re74sq re75sq u74black 命令：global x age agesq educ educsq married black hisp re74 re75 re74sq re75sq u74black

PSM

PSM（倾向得分匹配）
——一种反事实分析方法丁志超 njau 根据高级计量经济学即 stata应用（第二版）
考研好不好？
• 小明考研了，如何评价其读完研之后的就业机会？ • 读完研之后的就业机会比没读研时候大多少？ • 时间不能倒流，事情发生不能修改，怎么办？
• 如果在另一个平行时空里有另一个小明，除了没考上研之外，跟咱们时空里这个小明一模一样。将另一个时空里的小明定义为小明二号。 • 那么小明二号和小明在小明研究生毕业时的就业机会差别就是ATE（平均处理效应）
• 如果结果变量和x之间存在线性关系（上图），则D=1 的处理效应就是使得这种线性关系在x=c处出现一个向上的跳跃断点。由于其他系统性因素不存在于个体间，可将此跳跃视为x=c处D对y 的因果效应。 • 这种线性关系我们可以写成
yi ( xi c) Di ( xi c)Di i
PSM具体步骤
• 1、选择协变量x。要求尽可能与D相关的变量全部包括，以保证可忽略性假设成立。 • 2、估计倾向得分。使用logit或probit，并巧妙利用高次项和交互项。 • 3、进行匹配。比较准确的匹配应使得x在匹配后的处理组和控制组之间分布较为均匀。即在此需要进行匹配的平衡性检验，主要要求是标准化偏差<=10%。 • 4、计算ATT。
• 匹配估计
• 即找到x尽可能相似的两个人，进行比较。 • 关键就在于如何找到x尽可能相同的个体。 • 这就是匹配方法的不同，具体有两个技术细节需要考虑：
• （1）有无放回。放回可能导致一个个体和多位不同个体比较。 • （2）是否允许并列。是否允许两个跟要比较的个体一样接近的两个个体并列，即如果允许并列，则y0i=(yj+yk)/2

倾向得分匹配法原理及其实现

倾向得分匹配法（Propensity Score Matching，简称PSM）是一种在经济学和其他社会科学中广泛使用的统计方法，主要用于处理自选择偏误和观察数据中的潜在偏差。

其基本原理是通过计算一个倾向得分，将处理组（例如，接受某种干预或处理的对象）与控制组（未接受处理的对象）进行匹配，以消除非处理因素（即干扰因素）的影响，从而更准确地估计处理效应。

原理：倾向得分匹配法的核心在于建立一个倾向得分模型。

这个模型基于一系列可能影响处理分配的协变量（即特征变量），计算每个观察对象接受处理的概率，即倾向得分。

这个得分反映了观察对象在给定其协变量特征的情况下，接受处理的倾向程度。

通过倾向得分，我们可以将处理组和控制组中的观察对象进行匹配。

匹配的目标是找到与处理组对象在协变量特征上尽可能相似的控制组对象。

这样，匹配后的处理组和控制组在协变量上应该是平衡的，即它们在这些特征上的分布应该是相似的。

因此，处理效应的估计就可以更准确地归因于处理本身，而不是其他潜在的干扰因素。

实现：倾向得分匹配法的实现通常包括以下步骤：1.选择协变量：首先，需要确定哪些协变量可能影响处理分配和结果变量。

这些协变量应该被包括在倾向得分模型中。

2.估计倾向得分：使用逻辑回归或其他适当的模型来估计倾向得分。

这个模型以处理分配为因变量，以选定的协变量为自变量。

3.进行倾向得分匹配：根据估计得到的倾向得分，使用适当的匹配方法（如k近邻匹配、卡尺匹配等）将处理组和控制组进行匹配。

4.计算处理效应：在匹配后的样本上计算处理效应。

这通常涉及到比较处理组和控制组在结果变量上的差异。

在实际应用中，倾向得分匹配法可以通过各种统计软件来实现，如Stata、R和Python等。

这些软件提供了丰富的功能和工具，可以帮助研究者进行倾向得分估计、匹配和处理效应的计算。

需要注意的是，倾向得分匹配法虽然可以有效地处理自选择偏误和潜在偏差，但它也有一些局限性和假设条件。

1:1倾向性评分匹配(PSM)-SPSS教程

1:1倾向性评分匹配(PSM)-SPSS教程一、问题与数据谈起临床研究，如何设立一个靠谱的对照，有时候成为整个研究成败的关键。

对照设立的一个非常重要的原则就是可比性，简单说就是对照组除了研究因素外，其他的因素应该尽可能和试验组保持一致，这里就不得不提随机对照试验。

众所周知，随机对照试验中研究对象是否接受干预是随机的，这就保证了组间其他混杂因素均衡可比。

但是有些时候并不能实现随机化，比如说观察性研究。

这时候倾向性评分匹配(propensity score matching, PSM)可以有效降低混杂偏倚，并且在整个研究设计阶段，得到类似随机对照研究的效果。

与常规匹配相比，倾向性评分匹配能考虑更多匹配因素，提高研究效率。

这么“高大上”的倾向性评分匹配，是不是超级难学？错矣！今天就带大家轻松搞定1:1倾向性评分匹配。

作为“稀罕”大招，并不是在所有版本的SPSS都可以实现倾向性评分匹配，仅在SPSS22及以上自带简易版PSM。

本次使用SPSS22为大家演示1:1倾向性评分匹配。

某研究小白想搞明白吸烟和高血压之间的关系，准备利用某项调查的资料进一步随访研究吸烟和高血压的关联，该项研究包括233名吸烟者，949 名不吸烟者。

如果全部随访，研究小白感觉鸭梨山大，所以打算从中选取部分可比的个体进行随访。

这两组人群一些主要特征的分布存在显著差异（见表1），现准备采用PS最邻近匹配法选取可比的个体作为随访对象。

表1. 两组基线情况比较（匹配前）二、SPSS操作1. 数据录入(1) 变量视图(2) 数据视图2. 倾向性评分匹配选择Data→Propensity Score Matching，就进入倾向性评分匹配的主对话框。

将分组变量Smoke放入Group Indicator中（一般处理组赋值为“1”，对照组赋值为“0”）；将需要匹配的变量放入Predictors中；Name for Propensity Variable为倾向性评分设定一个变量名PS；Match Tolerance用来设置倾向性评分匹配标准（学名“卡钳值”），这里设定为0.02，即吸烟组和不吸烟组按照倾向性评分±0.02进行1：1匹配（当然，卡钳值设置的越小，吸烟组和不吸烟组匹配后可比性越好，但是凡事有个度，太小的卡钳值也意味着匹配难度会加大，成功匹配的对子数会减少，需要综合考虑~~~）；Case ID确定观测对象的ID；Match ID Variable Name设定一个变量，用来明确对照组中匹配成功的Match_ID；Output Dataset Name这里把匹配的观测对象单独输出一个数据集Match。

倾向匹配得分教程（附PSM操作应用、平衡性检验、共同取值范围、

核密度函数图）倾向匹配得分教程（附PSM操作应⽤、平衡性检验、共同取值范围、核密度函数图）本⽂主要包括倾向匹配得分命令简介、语法格式、倾向匹配得分操作步骤思路，涉及倾向匹配得分应⽤、平衡性检验、共同取值范围检验、核密度函数图等内容。

1命令简介Stata does not have a built-in command for propensity score matching, a non-experimental method of sampling that produces a control group whose distribution of covariates is similar to that of the treated group. How following modules are among the most popular:Stata没有⼀个内置的倾向评分匹配的命令，⼀种⾮实验性的抽样⽅法，它产⽣⼀个控制组，它的协变量分布与被处理组的分布相似。

但是，这个⽅法有⼏个⽤户编写的模块。

以下是最受欢迎的模块（主要有如下⼏个psmatch2.adopscore.adonnmatch.adopsmatch2.ado was developed by Leuven and Sianesi (2003) and pscore.ado by Becker and Ichino (2002). More recently, Abadie, Drukker, Herr, and Imbens (2004) introduced nnmatch.ado. All three modules suppo You can find these modules using the .net command as follows:net search psmatch2net search pscorenet search nnmatchYou can install these modules using the .ssc or .net command, for example:ssc install psmatch2, replaceAfter installation, read the help files to find the correct usage, for example:help psmatch2上述主要介绍了如何获得PSM相关的命令，总结⼀下⽬前市⾯上⽤的较好的命令为psmatch2.PSM 相关命令help psmatch2help nnmatchhelp psmatchhelp pscore持续获取最新的 PSM 信息和程序findit propensity scorefindit matchingpsmatch2 is being continuously improved and developed. Make sure to keep your version up-to-date as followsssc install psmatch2, replacewhere you can check your version as follows:which psmatch22语法格式语法格式为：help psmatch2psmatch2 depvar [indepvars] [if exp] [in range] [,outcome(varlist) pscore(varname) neighbor(integer) radius caliper(real) mahalanobis(varlist) ai(integer) population altvariance kernel llr kerneltype(type) bwidth(real) spline nknots(integer) common trim(real) no 选项含义为：depvar因变量；indepvars表⽰协变量；outcome(varlist)表⽰结果变量；logit指定使⽤logit模型进⾏拟合，默认的是probit模型；neighbor(1)指定按照1:1进⾏匹配，如果要按照1:3进⾏匹配，则设定为neighbor(3)；radius表⽰半径匹配核匹配 (Kernel matching)其他匹配⽅法⼴义精确匹配(Coarsened Exact Matching) || help cem局部线性回归匹配 (Local linear regression matching)样条匹配 (Spline matching)马⽒匹配 (Mahalanobis matching)pstest $X, both做匹配前后的均衡性检验，理论上说此处只能对连续变量做均衡性检验，对分类变量的均衡性检验应该重新整理数据后运⽤χ2检验或者秩和检验。

SPSS—倾向性评分匹配法（PSM）

SPSS—倾向性评分匹配法（PSM）倾向评分匹配(propensity score matching, PSM)的概念由Rosenbaum和Rubin在1983年首次提出。

2010年之后，这一方法日益受到人们的关注。

国际上越来越多的研究者将倾向指数法应用到流行病学、健康服务研究、经济学以及社会科学等许多领域。

在流行病学研究中，该方法可以在分析和设计阶段有效平衡非随机对照研究中的混杂偏倚，使研究结果接近随机对照研究的效果。

在观察性研究中，如病例对照研究，经常会见到匹配的概念，即按照某些因素或特征，将病例组（或暴露组）和对照组的研究对象进行匹配，以保证两组研究对象具有可比性，从而排除匹配因素的干扰。

同样，既然倾向性评分是一个能够反映多个混杂因素影响的综合评分，我们也可以将两组人群按照倾向性评分从小到大来进行匹配，仅用匹配倾向性评分一个指标来达到同时控制多个混杂因素的目的。

倾向性评分匹配是倾向性分析中应用最为广泛的一种方法。

首先我们要计算出每一个研究对象的倾向性评分，然后从小到大进行排序，对于每一个暴露/处理组的研究对象，从对照组中选取与其倾向性评分最为接近的所有个体，并从中随机抽取一个或N个研究对象作为匹配对象，直至所有的研究对象均匹配完毕，未匹配上的研究对象则进行舍去。

当然，有多少研究对象可以成功匹配，常常与选择匹配的比例和匹配的标准有关。

匹配的比例最常见的为1:1匹配，需要根据两组人群的数量来决定合适的匹配比例，建议不要超过1:4匹配。

对于匹配标准，如果匹配的标准很高，则能够成功匹配的对象就可能会少，甚至出现匹配不上的现象，造成研究对象信息的浪费，如果匹配的标准很宽泛，则匹配的效果就会较差，有可能出现两组人群在匹配后依然存在混杂因素分布不均衡的现象。

例如某个个体的倾向性评分为0.8，如果设定匹配标准为±0.02，则需要为其寻找倾向性评分在0.78-0.82之间的对照进行匹配，匹配范围太窄就可能出现匹配不上的情况；如果设定匹配标准为±0.2，则需要为其寻找倾向性评分在0.8-1.0之间的对照进行匹配，匹配范围太宽则可能降低匹配的效果。

倾向得分匹配法介绍

倾向得分匹配法介绍本研究主要考察政府对企业研究开发补贴的影响，由于传统的模型例如采用普通最小二乘法（OLS）估计的多元线性模型难以有效地解决可能存在的样本选择性偏差和遗漏关键变量所造成的内生性这两个关键性问题。

因此，本研究主要采用倾向得分匹配法（propensityscorematching，PSM）对政府对企业研究开发的补贴与企业发展水平的实证关系进行稳健性的因果推断。

一、模型构建）；另一D s={0，1}lnincome1Rubin（ATT）、。

样本（获取政府补贴的企业样本）在获取政府补贴前后发展水平变化的期望值；控制组平均处理效应（ATU）测度的是对照组样本（未获取政府补贴的企业样本）在获取政府补贴前后发展水平变化的期望值；平均处理效应（ATE）测度的是样本满足“个体处理效应稳定假设”前提下，同一样本企业在获取政府补贴前后发展变化的期望值。

3、倾向得分匹配过程（matching）在公式（1）和（2）中，E(lnincome0|X,subside=1)表示获得补贴的企业如果不接受政府补贴时的企业发展水平，E(lnincome1|X,subside=0)表示没有获得补贴的企业如果接受政府补贴时的企业发展水平，由此可以看出，这两个期望均值是非事实以及不可观测的。

解决这一问题的关键思路是，如果可以找到与获得政府补贴的企业“相似”的未获取政府补贴的企业，那么，就可以通过观察未获取补贴企业来判断接受补贴的企业在反事实情况下的发展水平，这一过程被称之为匹配过程（matching）。

通过匹配，可以使得获取补贴的企业和未获取补贴的企业所有的特征变量都尽量相同，但这些特征变量的权重在很多情况下难以衡量。

基于此，采用倾向得分匹配法则可以将众多指标合成（。

倾向匹配得分教程（附PSM操作应用、平衡性检验、共同取值范围、?核密度函数图）

倾向匹配得分教程（附PSM操作应用、平衡性检验、共同取值范围、核密度函数图）本文主要包括倾向匹配得分命令简介、语法格式、倾向匹配得分操作步骤思路，涉及倾向匹配得分应用、平衡性检验、共同取值范围检验、核密度函数图等内容。

但是，这个方法有几个用户编写的模块。

倾向值评分匹配方法PSMppt课件

倾向值匹配法（PSM）
1
RCT：很多限制，如费用，伦理学要求，操作困难，不适合发病率很低的疾病非RCT：避免以上繁杂的问题，容易组间基线不齐，使之成为处理效应的混杂因素从而产生偏移
2
• 为了消除混杂因素的影响，传统的解决方式是，用多变量配对，多变量分析模型，M-H分层分析，协变量分析。
14
• 比较的效果是接受治疗后1 年内的生存率，成本是所有疾病相关的医疗成本，研究分别对成本和效果未经过调整的结果、多元回归结果、基于倾向值匹配的结果和基于倾向值分层的结果进行了比较。
15
讨论
倾向值分析只能尽量减少混杂因素产生的影响，并不能完全消除，其消除程度取决于可以被观测和控制的变量数量以及匹配的质量。此外，倾向值分析只能对可观测的混杂因素进行平衡和控制，并不能够控制不可观测的混杂因素，当有重要的混杂因素缺失或不可观测时，采用倾向值分析所得结果可能与真实值存在较大偏差。
8
估计倾向值
• Logistic 回归模型 • 令y=组别，x为各协变量每个个体在给定可观测混杂因素的条件下接受干预的条件概率。
9
选择匹配方法
最近邻匹配
卡钳匹配马氏距离匹配
贪婪匹配法
10
匹配后的均衡性检验
• 协变量的平衡可通过均值上的绝对标准化差值来衡量
• 通常dX＞dXm，说明在匹配后样本的平衡程度有所改善。
• 目的：将多个变量（多维）转化为一个中间变量（一维） • 特点：不在关注每个需要控制的混杂因素的具体取值，转为关注将这
些变量纳入logistic回归方程后预测出来的倾向值。只要保证倾向值匹配，这些所有需要控制的混杂因素都考虑了。
5
PSM适用情形
• 前提：logistic多因素分析已经无法校正 • 1：实验组与对照组人数相差甚远（＞4:1） • 2：两组变量差异太大，可比性差，如基线不齐，或混杂因素多 • 3：变量过多，样本量偏少

倾向匹配得分教程（附PSM操作应用、平衡性检验、共同取值范围、

核密度函数图）倾向匹配得分教程（附PSM操作应用、平衡性检验、共同取值范围、核密度函数本文主要包括倾向匹配得分命令简介、语法格式、倾向匹配得分操作步骤思路，涉及倾向匹配得分应用、平衡性检验、共同取值范围检验、核密度函数图等内容。

1命令简介Stata does not have a built-in command for propensity score matching, a non-experimental method of sampling that produces a control group whose distribution of covariates is similar to that of the treated grou Stata没有一个内置的倾向评分匹配的命令，一种非实验性的抽样方法，它产生一个控制组，它的协变量分布与被处理组的分布相似。

但是，这个方法有几个用户编写的模块。

以下是最受欢迎的模块（主要有如下几个psmatch2.adopscore.adonnmatch.adopsmatch2.ado was developed by Leuven and Sianesi (2003) and pscore.ado by Becker and Ichino (2002). More recently, Abadie, Drukker, Herr, and Imbens (2004) introduced nnmatch.ado. All three modules suppor You can find these modules using the .net command as follows:net search psmatch2net search pscorenet search nnmatchYou can install these modules using the .ssc or .net command, for example:ssc install psmatch2, replaceAfter installation, read the help files to find the correct usage, for example:help psmatch2上述主要介绍了如何获得PSM相关的命令，总结一下目前市面上用的较好的命令为psmatch2.PSM 相关命令help psmatch2help nnmatchhelp psmatchhelp pscore持续获取最新的 PSM 信息和程序findit propensity scorefindit matchingpsmatch2 is being continuously improved and developed. Make sure to keep your version up-to-date as followsssc install psmatch2, replacewhere you can check your version as follows:which psmatch22语法格式语法格式为：help psmatch2psmatch2 depvar [indepvars] [if exp] [in range] [,outcome(varlist) pscore(varname) neighbor(integer) radius caliper(real) mahalanobis(varlist) ai(integer) population altvariance k 选项含义为：depvar因变量；indepvars表示协变量；outcome(varlist)表示结果变量；logit指定使用logit模型进行拟合，默认的是probit模型；neighbor(1)指定按照1:1进行匹配，如果要按照1:3进行匹配，则设定为neighbor(3)；radius表示半径匹配核匹配 (Kernel matching)其他匹配方法广义精确匹配(Coarsened Exact Matching) || help cem局部线性回归匹配 (Local linear regression matching)样条匹配 (Spline matching)马氏匹配 (Mahalanobis matching)pstest $X, both做匹配前后的均衡性检验，理论上说此处只能对连续变量做均衡性检验，对分类变量的均衡性检验应该重新整理数据后运用χ2检验或者秩和检验。

倾向得分匹配法(PSM)举例及stata实现

倾向得分匹配法（PSM ）举例及stata 实现——读书笔记【例】培训对工资的效应1政策背景：国家支持工作示范项目（National Supported Work,NSW ）研究目的：检验接受该项目（培训）与不接受该项目（培训）对工资的影响。

基本思想：分析接受培训组（处理组，treatment group ）接受培训行为与不接受培训行为在工资表现上的差异。

但是，现实可以观测到的是处理组接受培训的事实，而处理组没有接受培训会怎样是不可能观测到的，这种状态也成为反事实（counterfactual ）。

匹配法就是为了解决这种不可观测事实的方法。

在倾向得分匹配方法（Propensity Score Matching ）中，根据处理指示变量将样本分为两个组，一是处理组，在本例中就是在NSW 实施后接受培训的组；二是对照组（comparison group ），在本例中就是在NSW 实施后不接受培训的组。

倾向得分匹配方法的基本思想是，在处理组和对照组样本通过一定的方式匹配后，在其他条件完全相同的情况下，通过接受培训的组（处理组）与不接受培训的组（对照组）在工资表现上的差异来判断接受培训的行为与工资之间的因果关系。

变量定义：变量定义TREAT * 处理指示变量，1表示接受培训（处理组），0表示没有接受培训（对照组）AGE 年龄（年）EDUC 受教育年数（年）BLACK 种族虚拟变量，黑人时，1BLACK =HSIP 民族虚拟变量，西班牙人时，=1HSIPMARR婚姻状况虚拟变量，已婚，1MARR = 74RE 1974年实际工资（1982年美元）75RE 1975年实际工资78RE 1978年实际工资74U 当在1974年失业，741U =75U当在1975年失业，751U = NODEGREE 当12EDUC <时，1NODEGREE =，否则为0 AGESQAGE AGE × 1 本例选自Cameron&Trivedi 《微观计量经济学：方法与应用》（中译本，上海财经大学出版社，2010）pp794-800 所有数据及程序均来自于本书的配套网站（/mmabook/mmaprograms.html ）。

倾向评分匹配法

倾向评分匹配法（Propensity Score Matching, PSM）是一种常用的非实验研究方法，用于解决因果推断问题。

它通过将参与某个处理（例如接受某项政策、干预或治疗）的个体与没有参与该处理的个体进行匹配，以消除因群体选择偏差带来的潜在混杂变量的影响。

PSM的基本步骤如下：
1. 确定研究问题和处理变量：明确需要进行因果分析的研究问题，并确定影响因变量的处理变量。

2. 构建倾向评分模型：利用回归分析等方法，建立一个预测参与处理的倾向评分模型，该模型能够根据个体的特征预测其选择处理的概率。

3. 匹配样本：根据个体的倾向评分，将参与处理的个体与未参与处理的个体进行配对匹配，使得两组个体在处理前的特征上尽可能相似。

4. 检验平衡性：检验匹配后的样本是否在处理前的特征上达到平衡状态，以确保匹配的有效性。

5. 进行因果推断：比较处理组和对照组在因变量上的差异，以得出因果效应的估计结果。

6. 敏感性分析：进行敏感性分析，检验倾向评分模型的稳健性，并评估结果对潜在假设的依赖程度。

PSM方法在通过实验研究来解决问题存在困难或不可行的情况下，为研究人员提供了一种处理群体选择偏差的有效工具。

然而，PSM也有
一些限制，如依赖于建模假设、匹配质量和结果的解释等方面存在一定挑战。

因此，在应用PSM时需要谨慎选择合适的方法和适用范围，并结合其他方法进行结果验证和分析。

真实世界研究统计分析方法（二）：倾向性评分匹配（PSM）

真实世界研究统计分析⽅法（⼆）：倾向性评分匹配（PSM）试验性研究（例如RCT）做随机化分组⽬的是：控制混杂。

真实世界研究，不⼈为分配X（Assigned Exposure X），不做随机分组，需要通过数据分析的⽅法控制混杂。

2006年美国流⾏病学杂志Am J Epidemiol 总结了真实世界研究控制混杂常⽤的五种⽅法[1]，包括：1. 多元回归模型调整混杂2. 倾向性评分匹配（PSM）后构建回归模型3. 回归模型调整倾向性评分（PS）4. 回归模型加权（IPTW）处理5. 回归模型加权（SMR）处理本⽂分享第⼆种⽅法：倾向性评分匹配（PSM）往期相关资料：真实世界研究统计分析⽅法（⼀）：调整混杂2015年在NEJM发表了⼀项研究[2]，⽀架和CABG⼿术相⽐，对于多⽀病变的冠⼼病的疗效。

研究对象：冠⼼病患者X：两种治疗⽅式，第⼆代药物⽀架（PCI）与冠脉搭桥（CABG）相⽐Y：预后包括死亡、⼼梗、再次⾎运重建和卒中研究设计：观察性研究（observational）中的队列（cohort）研究。

没有随机分配治疗⽅案，不是RCT，是在真实世界中观察不同治疗⽅案的疗效。

纳⼊了3万多⼈，PSM后剩下不到2万⼈，样本量少了很多。

⽬的是控制混杂：挑出⼀部分⼈，使得接受不同治疗⽅案（X）的患者基线情况相似。

这⼀点⾮常重要。

试想，如果病情重的⼈偏向于做搭桥⼿术，病情重的⼈预后不好，就会得出搭桥⼿术疗效差的假象。

解决办法：研究设计时通过PSM的⽅法选择患者，使得不同X组的⼈基线相似。

即纳⼊的⼈既有可能接受PCI，⼜有可能接受CABG。

给定⼀个病例，从数据库⾥找出满⾜配对条件的所有可能的对照，然后根据匹配数随机选择对照。

如1：1匹配，随机选⼀个作对照；1：2匹配，随机选2个配对。

因此PSM的⽅法⼜被成为事后随机化，相当于在队列⾥⾯构建RCT。

这个就厉害了！正因为倾向性评分（Propensity score ，PS）在控制混杂⽅⾯有独特的优势，肿瘤领域的真实世界研究，近年运⽤PS⽅法论⽂的⽐例出现了爆发[3]：使⽤PS分析⽅法的论⽂数量随发表年份的变化图2017年发布了PS论⽂报告标准，规范了19条需要在论⽂中描述的重要内容[3]。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

倾向打分
1.设定宏变量 (1)设定宏变量breps表示重复抽样200次命令：global breps 200 (2)设定宏变量x，表示age agesq educ educsq
married black hisp re74 re75 re74sq re75sq u74black 命令：global x age agesq educ educsq married black hisp re74 re75 re74sq re75sq u74black
变量定义
re78
1978年实际工资
u74 agesq
当在1974年失业，u74=1 age*age
educsq educ*educ
re74sq re74*re74
re75sq re75*re75
u74blcak u74*blcak
倾向打分
OLS回归结果
工资的变化到底是来自个体的异质性性还是培训？
缺点：由于不舍弃任何一个处理组，很可能有些配对组的倾向得分差距很大，也将其配对，导致配对质量不高，而处理效应ATT的结果中也会包含这一差距，使得ATT精确度下降。
方法一：最邻近方法（nearest neighbor matching）
命令 set seed 10101（产生随机数种子） attnd re78 treat $x,comsup boot
A2：stu c3是最佳配对对象，比较容易满足平行假设（balancing assumption）
ATT（Average Treatment Effect on the Treated）平均处理效应的衡量
运用得分进行样本匹配并比较，估计出 ATT值。
ATT=E[Y(1)-Y(0) |T=1] 可观测数据 Y(1):Stu PK 上北大后的年薪 Y(0): Stu PK 假如不上北大的年薪
变量定义
变量 treat age educ black hsip marr re74 re75
定义接受培训（处理组）表示1，没有接受培训（控制组）表示0 年龄受教育年数种族虚拟变量，黑人时，black=1 民族虚拟变量，西班牙人时，hsip=1 婚姻状况虚拟变量，已婚，marr=1 1974年实际工资 1975年实际工资
方法二：半径匹配法（radius matching）
命令 set seed 10101 attr re78 treat $x,comsup boot
reps($breps) dots logit radius(0.001)
方法二：半径匹配法（radius matching）
方法三：分层匹配法（stratification matching）
内容：分层匹配法是根据估计的倾向得分将全部样本分块，使得每块的平均倾向得分在处理组和控制组中相等。
优点：Cochrane ,Chambers（1965）指出五个区就可以消除95%的与协变量相关的偏差。这个方法考虑到了样本的分层问题或聚类问题。就是假定：每一层内的个体样本具有相关性，而各层之间的样本不具有相关性。
倾向值匹配法（PSM）
Q：为什么要使用PSM？
A：解决样本选择偏误带来的内生性问题例：上北大有助于提高收入吗？样本选择偏误：考上北大的孩子本身就
很出色（聪明、有毅力、能力强…）解决方法：样本配对
配对方法
同行业（一维配对）同行业、规模相当（二维配对）同行业、规模相当、股权结构相
缺点：如果在每个区内找不到对照个体，那么这类个体的信息，会丢弃不用。总体配对的数量减少。
方法三：分层匹配法（stratification matching）
block中的描述性统计
运用得分进行样本匹配并比较
方法一：最邻近方法（nearest neighbor matching）
含义：最邻近匹配法是最常用的一种匹配方法，它把控制组中找到的与处理组个体倾向得分差异最小的个体，作为自己的比较对象。
优点：按处理个体找控制个体，所有处理个体都会配对成功，处理组的信息得以充分使用。
实例介绍
分组：在倾向值匹配法中，根据处理指示变量将样本分为两个组。处理组，在本例中就是在 NSW（国家支持工作示范项目）实施后接受培训的组；控制组，在本例中就是在NSW实施后不接受培训的组。
研究目的：通过对处理组和对照组的匹配，在其他条件完全相同的情况下，通过接受培训的组（处理组）与不接受培训的组（控制组）在工资表现上的差异来判断接受培训的行为与工资之间的因果关系。
倾向打分
2.通过logit模型进行倾向打分命令：pscore treat $x,pscore(mypscore)
blockid(myblock) comsup numblo(5) level(0.05) logit
注:$表示引用宏变量
pscore结果
Hale Waihona Puke 倾向值分布倾向值分布block中样本的分布
ATT=12W-9W=3W
不可观测数据，采用配对者的
收入来代替
实例介绍
实例介绍
研究问题：培训对工资的效应
基本思想：分析接受培训行为与不接受培训行为在工资表现上的差异。但是，现实可以观测到的是处理组接受培训的事实，而如果处理组没有接受培训会怎么样是不可观测的，这种状态称为反事实。匹配法就是为了解决这种不可观测的事实的方法。
reps($breps) dots logit
方法一：最邻近方法（nearest neighbor matching）
方法二：半径匹配法（radius matching）
半径匹配法是事先设定半径，找到所有设定半径范围内的单位圆中的控制样本，半径取值为正。随着半径的降低，匹配的要求越来越严。
当、……（多维配对）？？？ PSM：把多个维度的信息浓缩成一个
（降维：多维到一维）
配对过程中的两个核心问题（1）
Q1：哪个样本更好一些？
A1:Sample2较好：比较容易满足共同支撑假设（common support assumption）
配对过程中的两个核心问题（2）
Q2：stu c1,c2,c3三人中，谁是stu PK的最佳配对对象？