(参考课件)倾向值评分匹配方法PSM

合集下载

倾向得分匹配法(PSM)举例及stata实现

倾向得分匹配法（PSM ）举例及stata 实现——读书笔记【例】培训对工资的效应1政策背景：国家支持工作示范项目（National Supported Work,NSW ）研究目的：检验接受该项目（培训）与不接受该项目（培训）对工资的影响。

基本思想：分析接受培训组（处理组，treatment group ）接受培训行为与不接受培训行为在工资表现上的差异。

但是，现实可以观测到的是处理组接受培训的事实，而处理组没有接受培训会怎样是不可能观测到的，这种状态也成为反事实（counterfactual ）。

匹配法就是为了解决这种不可观测事实的方法。

在倾向得分匹配方法（Propensity Score Matching ）中，根据处理指示变量将样本分为两个组，一是处理组，在本例中就是在NSW 实施后接受培训的组；二是对照组（comparison group ），在本例中就是在NSW 实施后不接受培训的组。

倾向得分匹配方法的基本思想是，在处理组和对照组样本通过一定的方式匹配后，在其他条件完全相同的情况下，通过接受培训的组（处理组）与不接受培训的组（对照组）在工资表现上的差异来判断接受培训的行为与工资之间的因果关系。

变量定义：变量定义TREAT * 处理指示变量，1表示接受培训（处理组），0表示没有接受培训（对照组）AGE 年龄（年）EDUC 受教育年数（年）BLACK 种族虚拟变量，黑人时，1BLACK =HSIP 民族虚拟变量，西班牙人时，=1HSIPMARR婚姻状况虚拟变量，已婚，1MARR = 74RE 1974年实际工资（1982年美元）75RE 1975年实际工资78RE 1978年实际工资74U 当在1974年失业，741U =75U当在1975年失业，751U = NODEGREE 当12EDUC <时，1NODEGREE =，否则为0 AGESQAGE AGE × 1 本例选自Cameron&Trivedi 《微观计量经济学：方法与应用》（中译本，上海财经大学出版社，2010）pp794-800 所有数据及程序均来自于本书的配套网站（/mmabook/mmaprograms.html ）。

倾向匹配得分教程（附PSM操作应用、平衡性检验、共同取值范围、?核密度函数图）

倾向匹配得分教程（附PSM操作应用、平衡性检验、共同取值范围、核密度函数图）展开全文本文主要包括倾向匹配得分命令简介、语法格式、倾向匹配得分操作步骤思路，涉及倾向匹配得分应用、平衡性检验、共同取值范围检验、核密度函数图等内容。

1命令简介Stata does not have a built-in command for propensity score matching, a non-experimental method of sampling that produces a control group whose distribution of covariates is similar to that of the treated group. However, there are several user-written modules for this method. The following modules are among the most popular:Stata没有一个内置的倾向评分匹配的命令，一种非实验性的抽样方法，它产生一个控制组，它的协变量分布与被处理组的分布相似。

但是，这个方法有几个用户编写的模块。

以下是最受欢迎的模块（主要有如下几个外部命令）psmatch2.adopscore.adonnmatch.adopsmatch2.ado was developed by Leuven and Sianesi (2003) and pscore.ado by Becker and Ichino (2002). More recently, Abadie, Drukker, Herr, and Imbens (2004) introduced nnmatch.ado. All three modules support pair-matching as well as subclassification.You can find these modules using the .net command as follows:net search psmatch2net search pscorenet search nnmatchYou can install these modules using the .ssc or .net command, for example:ssc install psmatch2, replaceAfter installation, read the help files to find the correct usage, for example:help psmatch2上述主要介绍了如何获得PSM相关的命令，总结一下目前市面上用的较好的命令为psmatch2.PSM 相关命令help psmatch2help nnmatchhelp psmatchhelp pscore持续获取最新的 PSM 信息和程序findit propensity scorefindit matchingpsmatch2 is being continuously improved and developed. Make sure to keep your version up-to-date as follows ssc install psmatch2, replacewhere you can check your version as follows:which psmatch22语法格式语法格式为：help psmatch2••••••psmatch2 depvar [indepvars] [if exp] [in range] [, outcome(varlist) pscore(varname) neighbor(integer) radius caliper(real) mahalanobis(varlist) ai(integer) population altvariance kernel llr kerneltype(type) b width(real) spline nknots(integer) common trim(real ) noreplacement descending odds index logit ties q uietly w(matrix) ate]选项含义为：depvar因变量；indepvars表示协变量；outcome(varlist)表示结果变量；logit指定使用logit模型进行拟合，默认的是probit模型；neighbor(1)指定按照1:1进行匹配，如果要按照1:3进行匹配，则设定为neighbor(3)；radius表示半径匹配核匹配 (Kernel matching)其他匹配方法广义精确匹配(Coarsened Exact Matching) || help cem局部线性回归匹配 (Local linear regression matching)样条匹配 (Spline matching)马氏匹配 (Mahalanobis matching)pstest $X, both做匹配前后的均衡性检验，理论上说此处只能对连续变量做均衡性检验，对分类变量的均衡性检验应该重新整理数据后运用χ2检验或者秩和检验。

倾向值匹配专题教育课件

措施三： Stratification Matching（提成匹配法）
. set seed 10101 . attsRE78 TREAT, pscore(myscore) blockid(myblock) sup boot reps($breps) dots
措施四：Kernel Matching（核匹配措施） . set seed 10101 . attkRE78 TREAT $XDW02, sup boot reps($breps) dots logit
倾向得分匹配举例——培训对工资旳效应
第三张表格
第一张表与第三张表旳差别在于原则差旳估计，第一张表使用旳是解析原则差，第三张表使用自助法得到原则差。当然t统计量也随之发生变化。
倾向得分匹配举例——培训对工资旳效应
措施二：Radius matching（半径匹配法）
set seed 10101 attrRE78 TREAT $XDW02, sup boot reps($breps) dots logit radius(0.001)
理论根据：假如可忽视性假定成立，则只需给定p（x）旳情况下，（ y0i,y1i）独立于 Di
倾向得分定理（因为D为虚拟变量，故只需证明P[D=1|y0,y1,p(x)]与y0,y1无关即可）
重叠假定：对于x旳任何可能取值，都有0<p(x)<1
倾向值匹配(Propensity Matching)环节
基于可忽视性假设，则个体i与个体j进入处理组旳概率相近，具有可比性，故可将yj作为y0i旳估计量
目旳：
在一般旳实证研究中，因为存在诸多其他变量混同自变量和因变量之间旳关系，研究者极难直接探索两者之间旳净效果( net effects)。这些混同变量旳影响一般被称为选择性误差 ( selectionbias) ，而经过倾向值匹配旳方式来控制和消除选择性误差

PSM原理及软件操作-课件PPT

36
3.实例操作 ④匹配后数据展示
打开EXCEL后PP.score变量展示的是所有记录的倾向性评分。
37
3.实例操作 ④匹配后数据展示
再回到软件左侧“病例对照配对”分支树里的“PROJ1_1tbl.htm”处单击右键，选择PROJ1_1_tbl_NLR_pps_match_ddxls表格再单击，在弹出的对话框中选择“是”，软件将会自动打开EXCEL表格。
17
3.倾向性评分匹配的原理介绍
倾向性评分匹配的研究步骤：
①根据临床经验和实际要求，以处理因素为应变量（Y），混杂因素为自变量(X)来构建回归模型； ②由大量观察性数据拟合回归模型的参数； ③根据拟合的回归模型计算每个个体的倾向指数，指数范围为0-1之间，反映个体被分到实验组的概率； ④以倾向指数为依据，通过倾向评分匹配方法来均衡组间协变量的分布；
③RCT研究对试验条件要求高，投入也大，一般的小医院很难开展高质量、大样本的RCT。
8
1.RCT研究
上市后药物扩大适应症的研究属于药品补充注册的一种，需要研究者进行药物临床研究, 再上报国家食品药品监督管理局，审批通过后才允许在说明书上面增加新适应症。
9
2.观察性研究简介上面的时髦名词“真实世界研究”,其实也就是观察性的临床研究，相对于RCT研究，观察性临床研究的研究对象所具有的各种特征是客观存在的，研究者不能对其进行干预，其研究结果更接近实际情况，同时因其较宽的纳入排除标准，使其研究结果更具外推性，实用性更好。
将软件生成的匹配数据与原始研究数据，利用vlookup函数进行比对，去掉没有配对成功的3个病例数据和对照组数据，生成一个新的表格。
40
3.实例操作 ④匹配后数据展示

倾向值评分匹配方法PSM-PPT参考幻灯片

2020/3/5
5
PSM适用情形
• 前提：logistic多因素分析已经无法校正 • 1：实验组与对照组人数相差甚远（＞4:1） • 2：两组变量差异太大，可比性差，如基线不齐，或混杂因素多 • 3：变量过多，样本量偏少
2020/3/5
6
步骤
Select covariates
Estimate propensity-
• 当需要匹配的变量很多时，多变量配对通常是不可行的；当混杂因素很多或有多个亚组时，分层分析也是不可行的；多因素回归则要求不同组间的协变量具有一致的分布
2020/3/5
3
倾向值分析是分析观察性数据常用的一类方法，目前也越来越多地用于采用观察性数据开展的药物经济学评价。
2020/3/5
4
倾向值分析简介
• 倾向值（propensity score）是在控制其他混杂因素的条件下个体接受干预的概率，对其在干预组和控制组间进行控制或匹配以估计干预效果，可以用来控制大量的混杂因素变量。
• 目的：将多个变量（多维）转化为一个中间变量（一维）
• 特点：不在关注每个需要控制的混杂因素的具体取值，转为关注将这些变量纳入logistic回归方程后预测出来的倾向值。只要保证倾向值匹配，这些所有需要控制的混杂因素都考虑了。
2020/3/5
16
2020/3/5
17
• 该研究中用到的混杂因素包括患者年龄、性别、心源性休克、急性和慢性肾衰竭、有并发症的糖尿病、充血性心力衰竭、脑血管疾病、恶性肿瘤、肺水肿、心律失常、Charlson 合并症指数和家庭中位收入。对两组基线协变量的比较发现，大多数协变量存在显著性差异，即两组患者的基线信息不平衡。

倾向值匹配模型 (PSM模型)ppt课件

14
倾向打分
2.通过logit模型进行倾向打分命令：pscore treat $x,pscore(mypscore) blockid(myblock) comsup numblo(5) level(0.05) logit
注:$表示引用宏变量
15
pscore结果
16
倾向值分布
17
倾向值分布
18
10
变量定义
re78
1978年实际工资
u74 agesq
当在1974年失业，u74=1 age*age
educsq educ*educ
re74sq re74*re74
re75sq re75*re75
u74blcak u74*blcak
11
倾向打分
12
OLS回归结果
工资的变化到底是来自个体的异质性性还是培训？
命令 set seed 10101 attr re78 treat $x,comsup boot reps($breps) dots logit radius(0.001)
26
方法二：半径匹配法（radius matching）
27
方法三：分层匹配法（stratification matching）
13
倾向打分
1.设定宏变量 (1)设定宏变量breps表示重复抽样200次命令：global breps 200 (2)设定宏变量x，表示age agesq educ educsq married black hisp re74 re75 re74sq re75sq u74black 命令：global x age agesq educ educsq married black hisp re74 re75 re74sq re75sq u74black

倾向值匹配

2、PSM简介
• 倾向值指被研究的个体在控制可观测到的混淆变量的情况下受到某种自变量影响的条件概率。 • 匹配的基本逻辑是将受到自变量影响的个体与没有受到影响的个体进行配对。 • 倾向值匹配就是保证匹配起来的个体的倾向值相等或者近似。
2、PSM简介
• 为何不将混淆变量作为控制变量纳入回归模型？
T = E Y1 | 1 E Y0 | 1
1 E Y1 | 0 E Y0 | 0
E Y0 | 1 实验组的人放置在对照组时因变量的均值反事实 E Y1 | 0 对照组的人放置在实验组时因变量的均值反事实 E Y0 | 0 对照组的人放置在对照组时因变量的均值事实 1 指对照组的比例 T指因果关系，指实验组的比例，因果关系表示为实验组中的个体其“事实”与“反事实”之间的差异与对照组中个体“事实”与“反事实”之间的差异的加权平均值。
非混淆假设通过控制倾向值P来满足： E Y1| =0,P =E Y1| =1,P
E Y0 | =0,P =E Y0 | =1,P
3、PSM与因果推论
• 统计学角度
如果非混淆假设满足，反事实框架下的因果推论公式就简化为：
T =E Y E Y0 |=0 1| =1 —
E Y1 | 1 实验组的人放置在实验组时因变量的均值事实
3、PSM与因果推论
• 统计学角度
问题在于，我们永远也不可能观测到反事实是什么。所以要用可观测到的事实来简化因果推论公式，具体而言，要满足统计学上的“非混淆假设”：
E Y1| =0 =E Y1| =1 E Y0 | =0 =E Y0 | =1
然而，在探索因果关系时，我们所关心的问题是： a.任取一原本受自变量影响的样本，如果一开始不受自变量影响，那么他的因变量是什么水平？ b.任取一原本不受自变量影响的样本，如果一开始受到自变量影响，那么他的因变量是什么水平？

PSM-DID分析ppt课件

问万题一是铁就路算穿不过修的长铁城还路市是，在会穿建增过铁长的路的这之！些前！城G！市DP，就经高济呢该？增5
修建铁路对沿线城市经济的影响
• 为了解决以上问题，我们需要观察到至少两期，第一期是建铁路之前， T=0；第二期是建铁路之后， T=1 。
• 设穿过Di=1，否则Di=0。
• 两次差分，（1）先求出在修建铁路前后每一个
期肯定没有建铁路，第一期只有Di=1的城市建了铁路。基本模型为：
Yit β0 β1Di β2T β3 (Di T ) β4 Xit εit
• 对时间差分： Yi β2 β3Di εit • 再次差分： Y β3 εit
• 所以实际做的时候，可以直接跑这个式子的回归，得到的交乘项的系数就是所要估计的处理效应。
• 如果我们简单地将是否执行了某项事件作为虚拟
变量，而对总体进行回归的话，参数估计就会产
生偏误，因为在这样的情况下，我们只观察到了
某一个对象他因为发生了某一事件后产生的表现，
并且拿这种表现去和另一些没有发生这件事情的
其他对象去做比较。这样的比较显然是不科学的，
因为比较的基础并不同。
4
修建铁路对沿线城市经济的影响
PSM—DID及其应用
1
1、介绍PSM-DID方法 2、分析论文
——西部大开发是增长驱动还是政策陷阱
3、stata操作过程
2
双重差分法
• 双重差分（difference in differences，DID）嘛，就是差分两次。
• 一种专门用于分析政策效果的计量方法。 • 将制度变迁和新政策视为一次外生于经济系统的“自然实
• 现在要修一条铁路，铁路是条线，所以必然会有穿过的城市和没有被穿过的城市；

1:1倾向性评分匹配(PSM)-SPSS教程

1:1倾向性评分匹配(PSM)-SPSS教程一、问题与数据谈起临床研究，如何设立一个靠谱的对照，有时候成为整个研究成败的关键。

对照设立的一个非常重要的原则就是可比性，简单说就是对照组除了研究因素外，其他的因素应该尽可能和试验组保持一致，这里就不得不提随机对照试验。

众所周知，随机对照试验中研究对象是否接受干预是随机的，这就保证了组间其他混杂因素均衡可比。

但是有些时候并不能实现随机化，比如说观察性研究。

这时候倾向性评分匹配(propensity score matching, PSM)可以有效降低混杂偏倚，并且在整个研究设计阶段，得到类似随机对照研究的效果。

与常规匹配相比，倾向性评分匹配能考虑更多匹配因素，提高研究效率。

这么“高大上”的倾向性评分匹配，是不是超级难学？错矣！今天就带大家轻松搞定1:1倾向性评分匹配。

作为“稀罕”大招，并不是在所有版本的SPSS都可以实现倾向性评分匹配，仅在SPSS22及以上自带简易版PSM。

本次使用SPSS22为大家演示1:1倾向性评分匹配。

某研究小白想搞明白吸烟和高血压之间的关系，准备利用某项调查的资料进一步随访研究吸烟和高血压的关联，该项研究包括233名吸烟者，949 名不吸烟者。

如果全部随访，研究小白感觉鸭梨山大，所以打算从中选取部分可比的个体进行随访。

这两组人群一些主要特征的分布存在显著差异（见表1），现准备采用PS最邻近匹配法选取可比的个体作为随访对象。

表1. 两组基线情况比较（匹配前）二、SPSS操作1. 数据录入(1) 变量视图(2) 数据视图2. 倾向性评分匹配选择Data→Propensity Score Matching，就进入倾向性评分匹配的主对话框。

将分组变量Smoke放入Group Indicator中（一般处理组赋值为“1”，对照组赋值为“0”）；将需要匹配的变量放入Predictors中；Name for Propensity Variable为倾向性评分设定一个变量名PS；Match Tolerance用来设置倾向性评分匹配标准（学名“卡钳值”），这里设定为0.02，即吸烟组和不吸烟组按照倾向性评分±0.02进行1：1匹配（当然，卡钳值设置的越小，吸烟组和不吸烟组匹配后可比性越好，但是凡事有个度，太小的卡钳值也意味着匹配难度会加大，成功匹配的对子数会减少，需要综合考虑~~~）；Case ID确定观测对象的ID；Match ID Variable Name设定一个变量，用来明确对照组中匹配成功的Match_ID；Output Dataset Name这里把匹配的观测对象单独输出一个数据集Match。

倾向评分配对简介课件

文档仅供参考，不能作为科学依据，请勿模仿；如有不当之处，请联系本人改正。
Why PSM? (2)
Y i W iXi'i
The independent variable w is usually correlated with the error term . The consequence is inconsistent and biased estimate about the treatment effect .
accomplish raConsider E(Y1|W=1) – E(Y0|W=0) . Add and subtract
E(Y0|W=1), we have E{E(Y(Y0|W1|W=0=)1}) – E(Y0|W=1)} + {E(Y0|W=1) Crucial: E(Y0|W=1) E(Y0|W=0)
• What are the effects of bureaucratic performance standards,
local labor markets and individual characteristics on administrative decisions to accept applicants and place them in specific programs?
Day 2
• Practical issues, concerns, and strategies • Questions and discussions
文档仅供参考，不能作为科学依据，请勿模仿；如有不当之处，请联系本人改正。
PSM References
Check website: /VRC/Lectures/index.htm

倾向匹配得分教程（附PSM操作应用、平衡性检验、共同取值范围、

核密度函数图）倾向匹配得分教程（附PSM操作应⽤、平衡性检验、共同取值范围、核密度函数图）本⽂主要包括倾向匹配得分命令简介、语法格式、倾向匹配得分操作步骤思路，涉及倾向匹配得分应⽤、平衡性检验、共同取值范围检验、核密度函数图等内容。

1命令简介Stata does not have a built-in command for propensity score matching, a non-experimental method of sampling that produces a control group whose distribution of covariates is similar to that of the treated group. How following modules are among the most popular:Stata没有⼀个内置的倾向评分匹配的命令，⼀种⾮实验性的抽样⽅法，它产⽣⼀个控制组，它的协变量分布与被处理组的分布相似。

但是，这个⽅法有⼏个⽤户编写的模块。

以下是最受欢迎的模块（主要有如下⼏个psmatch2.adopscore.adonnmatch.adopsmatch2.ado was developed by Leuven and Sianesi (2003) and pscore.ado by Becker and Ichino (2002). More recently, Abadie, Drukker, Herr, and Imbens (2004) introduced nnmatch.ado. All three modules suppo You can find these modules using the .net command as follows:net search psmatch2net search pscorenet search nnmatchYou can install these modules using the .ssc or .net command, for example:ssc install psmatch2, replaceAfter installation, read the help files to find the correct usage, for example:help psmatch2上述主要介绍了如何获得PSM相关的命令，总结⼀下⽬前市⾯上⽤的较好的命令为psmatch2.PSM 相关命令help psmatch2help nnmatchhelp psmatchhelp pscore持续获取最新的 PSM 信息和程序findit propensity scorefindit matchingpsmatch2 is being continuously improved and developed. Make sure to keep your version up-to-date as followsssc install psmatch2, replacewhere you can check your version as follows:which psmatch22语法格式语法格式为：help psmatch2psmatch2 depvar [indepvars] [if exp] [in range] [,outcome(varlist) pscore(varname) neighbor(integer) radius caliper(real) mahalanobis(varlist) ai(integer) population altvariance kernel llr kerneltype(type) bwidth(real) spline nknots(integer) common trim(real) no 选项含义为：depvar因变量；indepvars表⽰协变量；outcome(varlist)表⽰结果变量；logit指定使⽤logit模型进⾏拟合，默认的是probit模型；neighbor(1)指定按照1:1进⾏匹配，如果要按照1:3进⾏匹配，则设定为neighbor(3)；radius表⽰半径匹配核匹配 (Kernel matching)其他匹配⽅法⼴义精确匹配(Coarsened Exact Matching) || help cem局部线性回归匹配 (Local linear regression matching)样条匹配 (Spline matching)马⽒匹配 (Mahalanobis matching)pstest $X, both做匹配前后的均衡性检验，理论上说此处只能对连续变量做均衡性检验，对分类变量的均衡性检验应该重新整理数据后运⽤χ2检验或者秩和检验。

倾向匹配得分教程（附PSM操作应用、平衡性检验、共同取值范围、?核密度函数图）

倾向匹配得分教程（附PSM操作应用、平衡性检验、共同取值范围、核密度函数图）本文主要包括倾向匹配得分命令简介、语法格式、倾向匹配得分操作步骤思路，涉及倾向匹配得分应用、平衡性检验、共同取值范围检验、核密度函数图等内容。

但是，这个方法有几个用户编写的模块。

真实世界研究统计分析方法（二）：倾向性评分匹配（PSM）

真实世界研究统计分析方法（二）：倾向性评分匹配（PSM）试验性研究（例如RCT）做随机化分组目的是：控制混杂。

真实世界研究，不人为分配X（Assigned Exposure X），不做随机分组，需要通过数据分析的方法控制混杂。

2006年美国流行病学杂志Am J Epidemiol 总结了真实世界研究控制混杂常用的五种方法[1]，包括：1. 多元回归模型调整混杂2. 倾向性评分匹配（PSM）后构建回归模型3. 回归模型调整倾向性评分（PS）4. 回归模型加权（IPTW）处理5. 回归模型加权（SMR）处理本文分享第二种方法：倾向性评分匹配（PSM）往期相关资料：真实世界研究统计分析方法（一）：调整混杂2015年在NEJM发表了一项研究[2]，支架和CABG手术相比，对于多支病变的冠心病的疗效。

研究对象：冠心病患者X：两种治疗方式，第二代药物支架（PCI）与冠脉搭桥（CABG）相比Y：预后包括死亡、心梗、再次血运重建和卒中研究设计：观察性研究（observational）中的队列（cohort）研究。

没有随机分配治疗方案，不是RCT，是在真实世界中观察不同治疗方案的疗效。

纳入了3万多人，PSM后剩下不到2万人，样本量少了很多。

目的是控制混杂：挑出一部分人，使得接受不同治疗方案（X）的患者基线情况相似。

这一点非常重要。

试想，如果病情重的人偏向于做搭桥手术，病情重的人预后不好，就会得出搭桥手术疗效差的假象。

解决办法：研究设计时通过PSM的方法选择患者，使得不同X组的人基线相似。

即纳入的人既有可能接受PCI，又有可能接受CABG。

给定一个病例，从数据库里找出满足配对条件的所有可能的对照，然后根据匹配数随机选择对照。

如1：1匹配，随机选一个作对照；1：2匹配，随机选2个配对。

因此PSM的方法又被成为事后随机化，相当于在队列里面构建RCT。

这个就厉害了！正因为倾向性评分（Propensity score ，PS）在控制混杂方面有独特的优势，肿瘤领域的真实世界研究，近年运用PS方法论文的比例出现了爆发[3]：使用PS分析方法的论文数量随发表年份的变化图2017年发布了PS论文报告标准，规范了19条需要在论文中描述的重要内容[3]。

倾向值评分匹配方法PSMppt课件

倾向值匹配法（PSM）
1
RCT：很多限制，如费用，伦理学要求，操作困难，不适合发病率很低的疾病非RCT：避免以上繁杂的问题，容易组间基线不齐，使之成为处理效应的混杂因素从而产生偏移
2
• 为了消除混杂因素的影响，传统的解决方式是，用多变量配对，多变量分析模型，M-H分层分析，协变量分析。
14
• 比较的效果是接受治疗后1 年内的生存率，成本是所有疾病相关的医疗成本，研究分别对成本和效果未经过调整的结果、多元回归结果、基于倾向值匹配的结果和基于倾向值分层的结果进行了比较。
15
讨论
倾向值分析只能尽量减少混杂因素产生的影响，并不能完全消除，其消除程度取决于可以被观测和控制的变量数量以及匹配的质量。此外，倾向值分析只能对可观测的混杂因素进行平衡和控制，并不能够控制不可观测的混杂因素，当有重要的混杂因素缺失或不可观测时，采用倾向值分析所得结果可能与真实值存在较大偏差。
8
估计倾向值
• Logistic 回归模型 • 令y=组别，x为各协变量每个个体在给定可观测混杂因素的条件下接受干预的条件概率。
9
选择匹配方法
最近邻匹配
卡钳匹配马氏距离匹配
贪婪匹配法
10
匹配后的均衡性检验
• 协变量的平衡可通过均值上的绝对标准化差值来衡量
• 通常dX＞dXm，说明在匹配后样本的平衡程度有所改善。
• 目的：将多个变量（多维）转化为一个中间变量（一维） • 特点：不在关注每个需要控制的混杂因素的具体取值，转为关注将这
些变量纳入logistic回归方程后预测出来的倾向值。只要保证倾向值匹配，这些所有需要控制的混杂因素都考虑了。
5
PSM适用情形
• 前提：logistic多因素分析已经无法校正 • 1：实验组与对照组人数相差甚远（＞4:1） • 2：两组变量差异太大，可比性差，如基线不齐，或混杂因素多 • 3：变量过多，样本量偏少

倾向评分匹配法

倾向评分匹配法（Propensity Score Matching, PSM）是一种常用的非实验研究方法，用于解决因果推断问题。

它通过将参与某个处理（例如接受某项政策、干预或治疗）的个体与没有参与该处理的个体进行匹配，以消除因群体选择偏差带来的潜在混杂变量的影响。

PSM的基本步骤如下：
1. 确定研究问题和处理变量：明确需要进行因果分析的研究问题，并确定影响因变量的处理变量。

2. 构建倾向评分模型：利用回归分析等方法，建立一个预测参与处理的倾向评分模型，该模型能够根据个体的特征预测其选择处理的概率。

3. 匹配样本：根据个体的倾向评分，将参与处理的个体与未参与处理的个体进行配对匹配，使得两组个体在处理前的特征上尽可能相似。

4. 检验平衡性：检验匹配后的样本是否在处理前的特征上达到平衡状态，以确保匹配的有效性。

5. 进行因果推断：比较处理组和对照组在因变量上的差异，以得出因果效应的估计结果。

6. 敏感性分析：进行敏感性分析，检验倾向评分模型的稳健性，并评估结果对潜在假设的依赖程度。

PSM方法在通过实验研究来解决问题存在困难或不可行的情况下，为研究人员提供了一种处理群体选择偏差的有效工具。

然而，PSM也有
一些限制，如依赖于建模假设、匹配质量和结果的解释等方面存在一定挑战。

因此，在应用PSM时需要谨慎选择合适的方法和适用范围，并结合其他方法进行结果验证和分析。

倾向性得分匹配（PSM）

倾向性得分匹配（PSM）倾向值（Propensity Score，倾向性得分）分析近些年来火的一塌糊涂，PubMed自由词搜索Propensity Score，相关文章近些年大有井喷之势（图标数据截止2020.05.21）。

但严格来说，倾向性得分算不得一种“分析”方法，而是一种用于数据处理的方式，常用于观察性研究混杂因素的控制。

比如你想研究施加某种干预对结局指标是否有改善，数据来自回顾性的既有资料的收集，由于是观察性研究，大概率存在混杂因素在组间不均衡的问题（如基线不平），这个时候你就可以考虑倾向性得分分析了。

PS就是以干预因素（组别）为因变量，以所有观测到的非研究性因素为自变量进行logistic或probit回归，在给定的协变量条件下，个体接受干预因素处理的概率。

根据PS，我们就可以对试验组和对照组进行筛选，使得不同组的非研究性因素实现均衡，从而达到控制的目的。

倾向性得分本身并不能控制混杂，而是通过PS匹配、加权、分层或进入回归模型直接调整混杂等方式，不同程度地提高对比组间的均衡性，从而削弱或平衡协变量对效应估计的影响，达到“类随机化”的效果，又称为事后随机化。

简单理解，就是从大量的样本数据中将具有共同特征的干预组和对照组样本挑选出来，然后对这些符合要求的样本进行分析。

倾向性得分可以同时调整大量的混杂因素，省时间省钱，但是需要的样本量较大，只能均衡已观测的指标变量，而且可能会以丢失样本为代价。

大部分软件给出的是两水平的干预因素的倾向性得分，SPSS直接给出了1:1的倾向性得分匹配结果。

数据来自STATA16的自带数据，是一项关于孕期妇女吸烟对新生儿体重的影响的观察性研究，由Cattaneo (2010)报道。

调查数据涉及众多变量包括新生儿出生体重(bweight)外，还有孕母的婚姻状况(mmarried)、孕期是否饮酒(alcohol)、年龄(mage)、教育水平(medu)、是否吸烟(mbsmoke)、母亲是否白人(mrace)、是否首胎(fbaby)、首次产前检查是否在头三个月内(prenatal1)以及父亲的年龄(fage)、是否白人(frace)等众多变量。

psm倾向得分匹配法

psm倾向得分匹配法倾向得分匹配（PSM）是一种新型的统计数据分析技术，可以用来研究在相关性调查中发现的群体差异。

它旨在解决以下类型的问题：如何确定属于不同组别的每个参与者之间是否存在可比较的差异性质，以及它们与组别之间的关系？本文将讨论PSM的基本概念，以及它如何被用于研究不同群体之间的结构性差异的应用。

倾向得分匹配是一种反映每位受访者在性别、年龄和社会经济地位等维度的个性化得分的技术。

倾向得分通过应用特定的统计技术（如卡方检验）来度量基于整体调查结果所计算出来的偏差。

通过比较不同组别之间的倾向得分，可以发现他们之间的任何差异化特征。

PSM的优势在于，它比两组均值比较法（T-test）更佳的处理多变量数据的能力。

如果调查涉及到超过两个变量，则可以使用倾向得分匹配法来确定可比性。

例如，一个调查可以是比较男性和女性之间的态度，同时涉及到年龄、受教育程度等多个变量，在这种情况下，可以使用PSM来确定参与者态度的可比性。

此外，PSM具有解释能力，可以帮助研究人员了解由不同群体组成的结构性差异。

他们可以从调查的结果中推断出，某些变量和态度之间可能存在的相关性。

例如，一项调查可以比较受教育程度与政治参与的不同群体之间的差异，这可以帮助研究人员了解教育程度对政治参与的影响程度。

PSM还可以用于研究被动性社会组织状况。

被动性社会组织状况是指一个团体成员（通常是社会弱势群体成员）在经济、文化和社会等方面受到不平等待遇的状况。

在反映被动性社会组织状况方面，PSM 也可以有所作为，通过比较不同群体的倾向得分，可以捕捉到个体在社会群体中的处境无论是被主流社会阶层当作因素，还是被贫困群体当作因素。

PSM的被动性社会组织状况的研究可以有效帮助社会工作者和政策制定者了解社会群体的多样性，从而支持政策制定者制定更好的政策，以消除贫困群体所面临的种种不。

虽然PSM具有多种优势，但在某些情况下仍然存在一些局限性。

例如，PSM无法用于研究受访者之间内在联系的模式，即由受访者之间的模式得出结论。

倾向值匹配模型 (PSM模型)精编版共47页PPT

6、最大的骄傲于最大的自卑都表示心灵的最软弱无力。——斯宾诺莎 7、自知之明是最难得的知识。——西班牙 8、勇气通往天堂，怯懦通往地狱。——塞内加 9、有时候读书是一种巧妙地避开思考的方法。——赫尔普斯 10、阅读一切好书如同和过去最杰出的人谈话。——笛卡儿
倾向值匹配模型 (PSM模型)精编版
6、有两种和平的暴力，那就是法律和礼节。——歌德
8、法律就是秩序，有好的法律才有好的秩序。——亚里士多德 9、上帝把法律和公平凑合在一起，可是人类却把它拆开。——查·科尔顿 10、一切法律都是无用的，因为好人用不着它们，而坏人又不会因为它们而变得规矩起来。——德谟耶克斯
Thank you

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

11
使用倾向值加权
• 还可在不匹配的情况下使用倾向值，将倾向值作为抽样权重进行多元分析。倾向值加权的目的在于对干预组和控制组的成员分配权重，使其能够代表研究总体。可以对加权后的总体直接进行多元分析，也可用于非参数回归的倾向值分析，进行基于内核的匹配。
• 最大的优点：不丢失样本量。
12
应用
14
• 比较的效果是接受治疗后1 年内的生存率，成本是所有疾病相关的医疗成本，研究分别对成本和效果未经过调整的结果、多元回归结果、基于倾向值匹配的结果和基于倾向值分层的结果进行了比较。
15
讨论
倾向值分析只能尽量减少混杂因素产生的影响，并不能完全消除，其消除程度取决于可以被观测和控制的变量数量以及匹配的质量。此外，倾向值分析只能对可观测的混杂因素进行平衡和控制，并不能够控制不可观测的混杂因素，当有重要的混杂因素缺失或不可观测时，采用倾向值分析所得结果可能与真实值存在较大偏差。
倾向值匹配法（PSM）
1
RCT：很多限制，如费用，伦理学要求，操作困难，不适合发病率很低的疾病非RCT：避免以上繁杂的问题，容易组间基线不齐，使之成为处理效应的混杂因素从而产生偏移
2
• 为了消除混杂因素的影响，传统的解决方式是，用多变量配对，多变量分析模型，M-H分层分析，协变量分析。
6
步骤
Select covariates
Estimate propensity-
score
Select the matching method
Assessing balance （test
model)
Estimating the
treatment effeቤተ መጻሕፍቲ ባይዱt
7
选择协变量
找出既影响干预分组又影响结果的混杂因素：一般协变量是根据已有经验或理论依据来选取的。通过双变量检验，与干预分组变量和结果变量都相关的协变量均应包含在估计倾向值的模型中；与结果变量相关的协变量也应包含在估计倾向值的模型中（不管其与分组变量是否相关），这样有助于降低估计结果的方差；而只与协变量不应包含在估计倾向值的模型中。干预分组相关，但与结果变量无关的
• 1：关注的结果变量只考察成本或效果 • 2：分开检验混杂因素对成本和效果的影响
13
• Manca 等应用倾向值分析对不同手术方案的成本和效果进行研究 • 通过加拿大安大略湖省的心肌梗死数据库（OMID），对经皮腔内冠状动脉成形
术（PTCA）和冠状动脉旁路移植手术（CABG）对因急性心肌梗死（AMI）入院患者的成本和效果进行评价。 • 该研究中用到的混杂因素包括患者年龄、性别、心源性休克、急性和慢性肾衰竭、有并发症的糖尿病、充血性心力衰竭、脑血管疾病、恶性肿瘤、肺水肿、心律失常、Charlson 合并症指数和家庭中位收入。对两组基线协变量的比较发现，大多数协变量存在显著性差异，即两组患者的基线信息不平衡。
• 目的：将多个变量（多维）转化为一个中间变量（一维） • 特点：不在关注每个需要控制的混杂因素的具体取值，转为关注将这
些变量纳入logistic回归方程后预测出来的倾向值。只要保证倾向值匹配，这些所有需要控制的混杂因素都考虑了。
5
PSM适用情形
• 前提：logistic多因素分析已经无法校正 • 1：实验组与对照组人数相差甚远（＞4:1） • 2：两组变量差异太大，可比性差，如基线不齐，或混杂因素多 • 3：变量过多，样本量偏少
16
17
8
估计倾向值
• Logistic 回归模型 • 令y=组别，x为各协变量每个个体在给定可观测混杂因素的条件下接受干预的条件概率。
9
选择匹配方法
最近邻匹配
卡钳匹配马氏距离匹配
贪婪匹配法
10
匹配后的均衡性检验
• 协变量的平衡可通过均值上的绝对标准化差值来衡量
• 通常dX＞dXm，说明在匹配后样本的平衡程度有所改善。
• 当需要匹配的变量很多时，多变量配对通常是不可行的；当混杂因素很多或有多个亚组时，分层分析也是不可行的；多因素回归则要求不同组间的协变量具有一致的分布
3
倾向值分析是分析观察性数据常用的一类方法，目前也越来越多地用于采用观察性数据开展的药物经济学评价。
4
倾向值分析简介
• 倾向值（propensity score）是在控制其他混杂因素的条件下个体接受干预的概率，对其在干预组和控制组间进行控制或匹配以估计干预效果，可以用来控制大量的混杂因素变量。