倾向值评分匹配方法PSM_ppt课件
倾向性评分匹配的原理及文献解读PPT课件
3.实例操作 图3
A是未配对人群中做的KM曲线图,很明显RFA生存更好。B是在PSM配对人群中做的,同样 的结果,可以作为比较证明结果稳定性(敏感性分析)
2021
结果解读
结果
C是IPTW下做的图,也是同样的结果,所以进一步证明结果 的稳定性(说明样本量即使损失也可以得出相似的结论)
2021
2021匹配算法radius匹配2021最邻近匹配先将处理组的研究对象随机排序然后从处理组的第一个研究对象开始为其在对照组寻找一个倾向性评分值最邻近的个体作为匹配对象直到所有处理组的对象均在对照组找到匹配对象为止卡钳匹配卡钳匹配是指在最邻近匹配的基础上设定一个卡钳值只有当不同组间个体的倾向性评分值之差小于或等于卡钳值时才允许匹配马氏距离匹配马氏距离匹配是通过矩阵计算不同组间个体马氏距离利用马氏距离进行匹配的一种匹配方法匹配算法20212021射频消融vs立体定向谁才是非手术治疗局限性肝癌的最佳治疗方案
2021
上市后药物扩大适应症的研究 属于药品补充注册的一种,需要研 究者进行药物临床研究, 再上报国家 食品药品监督管理局,审批通过后 才允许在说明书上面增加新适应症。
2021
2.观察性研究简介
时下“真实世界研究”,其实也就是观察性的临床研究,相对于RCT研究,观察性 临床研究的研究对象所具有的各种特征是客观存在的,研究者不能对其进行干预,其 研究结果更接近实际情况,同时因其较宽的纳入排除标准,使其研究结果更具外推性, 实用性更好。
2021
倾向性评分匹配SCI论文的写作套路 近年来,倾向性评分的应用越来越火爆,pubmed数据库在2010年专门为使用这 一类方法的论文指定了一个主题词。
"propensity score"[MeSH Terms] OR (propensity score matching[Title/Abstract]) OR (propensitymatched analysis[Title/Abstract]) OR (propensitymatched study[Title/Abstract]) OR (propensity score based analysis[Title/Abstract]) OR propensity score[Title/Abstract]
倾向性评分匹配的原理及文献解读PPT课件
真实世界研究控制混杂方法
2006年美国流行病学杂志Am J Epidemiol总结了真实世界研究 控制混杂常用的五种方法,包括: 1. 多元回归模型调整混杂 2. 倾向性评分匹配(PSM)后构建回归模型 3. 回归模型调整倾向性评分(PS) 4. 回归模型+加权(IPTW)处理 5. 回归模型+加权(SMR)处理
倾向性评分匹配原理及文献解读
目录
CONTENTE
01 倾向性评分匹配的原理介绍
02 倾向性评分匹配的实例
03 倾向性评分匹配应用的注意事项
01 倾向性评分匹配的原理介绍
临床研究常见的类型
X是否人为分配?Assigned
exposure X?
No
Yes
观察性 Observational
实验性 Experimental
1.RCT研究简介 药物临床试验(GCP)采用的就是严格按照RCT研究研究也有其不可避免的缺陷: ①有些研究无法解决伦理问题。如吸烟和肺癌,就不能做RCT研究
②RCT研究是在理想条件下对特定人群的干预结局,并不能很好的外推到真实的临 床环境中,如:药物的RCT一般都会限制研究人群,年龄有限制,小孩不要,老人 不要,有基础疾病的不要,但在真实的临床环境中,如果遇到了这些人群,究竟用 不用这个药,用多少,有什么风险…,这些都不清楚。
3.倾向性评分匹配的原理介绍
混杂偏倚可能改变着研究结果的真实性,从而使观察性临床研究结果的实际运用价 值受到相应的限制。观察性临床研究中,是否有效控制偏倚成为其成功与否的关键,在 这种情况下,倾向性评分匹配就横空出世了。
20世纪80年代Rosenbaum和Rubin首次提出了了倾向性评分法这一概念。倾向性 评分法是运用倾向性评分值来综合所有的观察变量信息从而达到均衡变量、减少偏倚的 目的。
倾向值匹配
2、PSM简介
• 倾向值指被研究的个体在控制可观测到的 混淆变量的情况下受到某种自变量影响的 条件概率。 • 匹配的基本逻辑是将受到自变量影响的个 体与没有受到影响的个体进行配对。 • 倾向值匹配就是保证匹配起来的个体的倾 向值相等或者近似。
2、PSM简介
• 为何不将混淆变量作为控制变量纳入回归 模型?
T = E Y1 | 1 E Y0 | 1
1 E Y1 | 0 E Y0 | 0
E Y0 | 1 实验组的人放置在对照组时因变量的均值 反事实 E Y1 | 0 对照组的人放置在实验组时因变量的均值 反事实 E Y0 | 0 对照组的人放置在对照组时因变量的均值 事实 1 指对照组的比例 T指因果关系, 指实验组的比例, 因果关系表示为实验组中的个体其“事实”与“反事实”之 间的差异与对照组中个体“事实”与“反事实”之间的差异 的加权平均值。
非混淆假设通过控制倾向值P来满足: E Y1| =0,P =E Y1| =1,P
E Y0 | =0,P =E Y0 | =1,P
3、PSM与因果推论
• 统计学角度
如果非混淆假设满足,反事实框架下的因果推论 公式就简化为:
T =E Y E Y0 |=0 1| =1 —
E Y1 | 1 实验组的人放置在实验组时因变量的均值 事实
3、PSM与因果推论
• 统计学角度
问题在于,我们永远也不可能观测到反事实是什么。 所以要用可观测到的事实来简化因果推论公式,具 体而言,要满足统计学上的“非混淆假设”:
E Y1| =0 =E Y1| =1 E Y0 | =0 =E Y0 | =1
然而,在探索因果关系时,我们所关心的问题是: a.任取一原本受自变量影响的样本,如果一开始 不受自变量影响,那么他的因变量是什么水平? b.任取一原本不受自变量影响的样本,如果一开 始受到自变量影响,那么他的因变量是什么水平?
倾向评分配对简介课件
文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系本人改正。
Why PSM? (2)
Y i W iXi'i
The independent variable w is usually correlated with the error term . The consequence is inconsistent and biased estimate about the treatment effect .
accomplish raConsider E(Y1|W=1) – E(Y0|W=0) . Add and subtract
E(Y0|W=1), we have E{E(Y(Y0|W1|W=0=)1}) – E(Y0|W=1)} + {E(Y0|W=1) Crucial: E(Y0|W=1) E(Y0|W=0)
• What are the effects of bureaucratic performance standards,
local labor markets and individual characteristics on administrative decisions to accept applicants and place them in specific programs?
Day 2
• Practical issues, concerns, and strategies • Questions and discussions
文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系本人改正。
PSM References
Check website: /VRC/Lectures/index.htm
倾向性评分匹配的原理及文献解读48页PPT
31、只有永远躺在泥坑里的人,才不会再掉进坑里。——黑格尔 32、希望的灯一旦熄灭,生活刹那间变成了一片黑暗。——普列姆昌德 33、希望是人生的乳母。——科策布 34、形成天才的决定因素应该是勤奋。——郭沫若 35、学到很多东西的诀窍,就是一下子不要学很多。——洛克
倾向性评分匹配的原理及文献解读
1、战鼓一响,法律无声。——英国 2、任何法律的根本;不,不成文法本 身就是 讲是最保险的头盔。——爱·科 克 4、一个国家如果纲纪不正,其国风一 定颓败 。—— 塞内加 5、法律不能使人人平等,但是在法律 面前人 人是平 等的。 ——波 洛克
倾向值评分匹配方法PSMppt课件
1
RCT:很多限制,如费用,伦理学要 求,操作困难,不适合发病率很低的 疾病 非RCT:避免以上繁杂的问题,容易 组间基线不齐,使之成为处理效应的 混杂因素从而产生偏移
2
• 为了消除混杂因素的影响,传统的解决方式是,用多变 量配对,多变量分析模型,M-H分层分析,协变量分析。
14
• 比较的效果是接受治疗后1 年内的生存率,成本是所有疾病相关 的医疗成本,研究分别对成本和效果未经过调整的结果、多元回 归结果、基于倾向值匹配的结果和基于倾向值分层的结果进行了 比较。
15
讨论
倾向值分析只能尽量减少混杂因素产生的影响,并不能完全消除, 其消除程度取决于可以被观测和控制的变量数量以及匹配的质量。 此外,倾向值分析只能对可观测的混杂因素进行平衡和控制,并不 能够控制不可观测的混杂因素,当有重要的混杂因素缺失或不可观 测时,采用倾向值分析所得结果可能与真实值存在较大偏差。
8
估计倾向值
• Logistic 回归模型 • 令y=组别,x为各协变量 每个个体在给定可观测混杂因素的条件下接受干预的条件概率。
9
选择匹配方法
最近邻匹配
卡钳匹配 马氏距离匹配
贪婪匹配法
10
匹配后的均衡性检验
• 协变量的平衡可通过均值上的绝对标准化差值来衡量
• 通常dX>dXm,说明在匹配后样本的平衡程度有所改善。
• 目的:将多个变量(多维)转化为一个中间变量(一维) • 特点:不在关注每个需要控制的混杂因素的具体取值,转为关注将这
些变量纳入logistic回归方程后预测出来的倾向值。只要保证倾向值匹 配,这些所有需要控制的混杂因素都考虑了。
5
PSM适用情形
• 前提:logistic多因素分析已经无法校正 • 1:实验组与对照组人数相差甚远(>4:1) • 2:两组变量差异太大,可比性差,如基线不齐,或混杂因素多 • 3:变量过多,样本量偏少
倾向值匹配法(PSM)教学内容共47页文档
6、法律的基础有两个,而且只有两个……公平和实用。——伯克 7、有两种和平的暴力,那就是法律和礼节。——歌德
8、法律就是秩序,有好的法律才有好的秩序。——亚里士多德 9、上帝把法律和公平凑合在一起,可是人类却把它拆开。——查·科尔顿 10、一切法律都是无用的,因为好人用不着它们,而坏人又不会因为它们而变得规矩起来。——德谟耶克斯
ቤተ መጻሕፍቲ ባይዱ 46、我们若已接受最坏的,就再没有什么损失。——卡耐基 47、书到用时方恨少、事非经过不知难。——陆游 48、书籍把我们引入最美好的社会,使我们认识各个时代的伟大智者。——史美尔斯 49、熟读唐诗三百首,不会作诗也会吟。——孙洙 50、谁和我一样用功,谁就会和我一样成功。——莫扎特
倾向值匹配研究43页PPT
40、学而不思则罔,思而不学则殆。——孔子
倾向值匹配研究
51、没有哪个社会可以制订一部永远 适用的 宪法, 甚至一 条永远 适用的 法律。 ——杰 斐逊 52、法律源于人的自卫本能。——英 格索尔
53、人们通常会发现,法律就是这样 一种的 网,触 犯法律 的人, 小的可 以穿网 而过, 大的可 以破网 而出, 只有中 等的才 会坠入 网中。 ——申 斯通 54、法律就是法律它是一座雄伟的大 夏,庇 护着我 们大家 ;它的 每一块 砖石都 垒在另 一块砖 石上。 ——高 尔斯华 绥 55、今天的法律未必明天仍是法律。 ——罗·伯顿
谢谢!
36、自己的鞋子,自己知道紧在哪里。——西班牙
37、我们唯一不会改正的缺点是软弱。——拉罗什福科
xiexie! 38、我这个人走得很慢,但是我从不后退。——亚伯拉罕·林肯
ቤተ መጻሕፍቲ ባይዱ
39、勿问成功的秘诀为何,且尽全力做你应该做的事吧。——美华纳
PSM原理及软件操作-课件PPT
3.实例操作 ④匹配后数据展示
打开EXCEL后PP.score变量展示的是所有记录的倾向性评分。
37
3.实例操作 ④匹配后数据展示
再回到软件左侧“病例对照配对”分支树里的“PROJ1_1tbl.htm”处单击右键,选 择PROJ1_1_tbl_NLR_pps_match_ddxls表格再单击,在弹出的对话框中选择“是”, 软件将会自动打开EXCEL表格。
17
3.倾向性评分匹配的原理介绍
倾向性评分匹配的研究步骤:
①根据临床经验和实际要求,以处理因素为应变量(Y),混杂因素为自变量(X)来构建 回归模型; ②由大量观察性数据拟合回归模型的参数; ③根据拟合的回归模型计算每个个体的倾向指数,指数范围为0-1之间,反映个体被分到 实验组的概率; ④以倾向指数为依据,通过倾向评分匹配方法来均衡组间协变量的分布;
③RCT研究对试验条件要求高,投入也大,一般的小医院很难开展高质量、大样本 的RCT。
8
1.RCT研究
上市后药物扩大适应症的研究 属于药品补充注册的一种,需要研 究者进行药物临床研究, 再上报国家 食品药品监督管理局,审批通过后 才允许在说明书上面增加新适应症。
9
2.观察性研究简介 上面的时髦名词“真实世界研究”,其实也就是观察性的临床研究,相对于RCT研 究,观察性临床研究的研究对象所具有的各种特征是客观存在的,研究者不能对其进 行干预,其研究结果更接近实际情况,同时因其较宽的纳入排除标准,使其研究结果 更具外推性,实用性更好。
将软件生成的匹配数据与原始研究数据,利用vlookup函数进行比对,去掉没有 配对成功的3个病例数据和对照组数据,生成一个新的表格。
40
3.实例操作 ④匹配后数据展示
倾向性得分匹配(PSM)
倾向性得分匹配(PSM)倾向值(Propensity Score,倾向性得分)分析近些年来火的一塌糊涂,PubMed自由词搜索Propensity Score,相关文章近些年大有井喷之势(图标数据截止2020.05.21)。
但严格来说,倾向性得分算不得一种“分析”方法,而是一种用于数据处理的方式,常用于观察性研究混杂因素的控制。
比如你想研究施加某种干预对结局指标是否有改善,数据来自回顾性的既有资料的收集,由于是观察性研究,大概率存在混杂因素在组间不均衡的问题(如基线不平),这个时候你就可以考虑倾向性得分分析了。
PS就是以干预因素(组别)为因变量,以所有观测到的非研究性因素为自变量进行logistic或probit回归,在给定的协变量条件下,个体接受干预因素处理的概率。
根据PS,我们就可以对试验组和对照组进行筛选,使得不同组的非研究性因素实现均衡,从而达到控制的目的。
倾向性得分本身并不能控制混杂,而是通过PS匹配、加权、分层或进入回归模型直接调整混杂等方式,不同程度地提高对比组间的均衡性,从而削弱或平衡协变量对效应估计的影响,达到“类随机化”的效果,又称为事后随机化。
简单理解,就是从大量的样本数据中将具有共同特征的干预组和对照组样本挑选出来,然后对这些符合要求的样本进行分析。
倾向性得分可以同时调整大量的混杂因素,省时间省钱,但是需要的样本量较大,只能均衡已观测的指标变量,而且可能会以丢失样本为代价。
大部分软件给出的是两水平的干预因素的倾向性得分,SPSS直接给出了1:1的倾向性得分匹配结果。
数据来自STATA16的自带数据,是一项关于孕期妇女吸烟对新生儿体重的影响的观察性研究,由Cattaneo (2010)报道。
调查数据涉及众多变量包括新生儿出生体重(bweight)外,还有孕母的婚姻状况(mmarried)、孕期是否饮酒(alcohol)、年龄(mage)、教育水平(medu)、是否吸烟(mbsmoke)、母亲是否白人(mrace)、是否首胎(fbaby)、首次产前检查是否在头三个月内(prenatal1)以及父亲的年龄(fage)、是否白人(frace)等众多变量。
倾向得分匹配原理
倾向得分匹配原理PSM方法的主要思想是通过匹配处理组和对照组中个体的资料,利用个体的自变量,建立一个倾向得分模型,将个体与处理组中的个体进行一对一的匹配,使得处理组和对照组在自变量上尽可能保持均衡,从而减少混杂的影响,提高因果效应的估计准确性。
PSM方法的步骤一般如下:1. 收集数据:首先需要收集处理组和对照组的数据,包括处理变量、干扰变量和结果变量。
2. 建立倾向得分模型:利用处理组和对照组的数据,建立一个倾向得分模型,该模型是根据个体的自变量来预测个体属于处理组的概率。
3. 匹配个体:根据建立的倾向得分模型,将处理组中的个体与对照组中的个体进行匹配,使得处理组和对照组在自变量上尽可能保持均衡。
4. 估计因果效应:通过比较处理组和对照组在结果变量上的均值差异,估计处理的因果效应。
5. 进行统计检验:对估计的因果效应进行统计检验,判断其是否显著。
PSM方法的优点在于可以减少混杂的影响,提高因果效应的估计准确性。
同时,PSM方法比传统的随机对照试验更加灵活和便捷,尤其适用于在实践中难以实施随机对照试验的情况下。
然而,PSM方法也存在一些局限性。
首先,倾向得分模型的建立需要满足一些假设,如无反事实偏差等,如果这些假设不成立,可能会导致倾向得分模型产生偏误。
其次,PSM方法无法消除未观测的混杂因素,因此在应用时需要谨慎处理。
另外,PSM方法也存在匹配质量和样本量不足等问题,可能会影响因果效应的估计结果。
在实际应用中,研究者需要根据具体情况选择合适的因果推断方法,综合考虑PSM方法的优点和局限性,并结合实际问题进行分析和讨论。
在使用PSM方法时,研究者应该充分了解其原理和步骤,合理地选择自变量和结果变量,确保建立的倾向得分模型符合相关假设,从而提高因果效应的估计准确性。
总的来说,倾向得分匹配原理是一种有效的因果推断方法,可以帮助研究者减少混杂的影响,提高因果效应的估计准确性。
然而,PSM方法也存在一些局限性,需要在实际应用中予以考虑。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
RCT:很多限制,如费用,伦理学要 求,操作困难,不适合发病率很低的 疾病 非RCT:避免以上繁杂的问题,容易 组间基线不齐,使之成为处理效应的 混杂因素从而产生偏移
• 为了消除混杂因素的影响,传统的解决方式是,用多变 量配对,多变量分析模型,M-H分层分析,协变量分析。 • 当需要匹配的变量很多时,多变量配对通常是不可行的; 当混杂因素很多或有多个亚组时,分层分析也是不可行 的;多因素回归则要求不同组间的协变量具有一致的分 布
而只与协变量不应包含在估计倾向值的模型中。干预分组相关,但与结果变量
无关的
估计倾向值
• Logistic 回归模型
• 令y=组别,x为各协变量
每个个体在给定可观测混杂因素的条件下接受干预的条件概率。
选择匹配方法
最近邻匹配
贪婪匹配法
可通过均值上的绝对标准化差值来衡量
配。
• 最大的优点:不丢失样本量。
应用
• 1:关注的结果变量只考察成本或效果
• 2:分开检验混杂因素对成本和效果的影响
• Manca 等应用倾向值分析对不同手术方案的成本和效果进行研究 • 通过加拿大安大略湖省的心肌梗死数据库(OMID),对经皮腔内冠状动脉成形 术(PTCA)和冠状动脉旁路移植手术(CABG)对因急性心肌梗死(AMI)入院 患者的成本和效果进行评价。 • 该研究中用到的混杂因素包括患者年龄、性别、心源性休克、急性和慢性肾衰竭、 有并发症的糖尿病、充血性心力衰竭、脑血管疾病、恶性肿瘤、肺水肿、心律失 常、Charlson 合并症指数和家庭中位收入。对两组基线协变量的比较发现,大多 数协变量存在显著性差异,即两组患者的基线信息不平衡。
PSM适用情形
• 前提:logistic多因素分析已经无法校正
• 1:实验组与对照组人数相差甚远(>4:1)
• 2:两组变量差异太大,可比性差,如基线不齐,或混杂因素多 • 3:变量过多,样本量偏少
步骤
Select covariates
Estimate propensityscore
Select the matching method
此外,倾向值分析只能对可观测的混杂因素进行平衡和控制,并不
能够控制不可观测的混杂因素,当有重要的混杂因素缺失或不可观
测时,采用倾向值分析所得结果可能与真实值存在较大偏差。
Assessing balance (test model)
Estimating the treatment effect
7
选择协变量
找出既影响干预分组又影响结果的混杂因素:
一般协变量是根据已有经验或理论依据来选取的。
通过双变量检验,与干预分组变量和结果变量都相关的协变量均应包含在估计 倾向值的模型中; 与结果变量相关的协变量也应包含在估计倾向值的模型中(不管其与分组变量 是否相关),这样有助于降低估计结果的方差;
• 通常dX>dXm,说明在匹配后样本的平衡程度有所改善。
使用倾向值加权
• 还可在不匹配的情况下使用倾向值,将倾向值作为抽样权重进行
多元分析。倾向值加权的目的在于对干预组和控制组的成员分配
权重,使其能够代表研究总体。可以对加权后的总体直接进行多
元分析,也可用于非参数回归的倾向值分析,进行基于内核的匹
倾向值分析是分析观察性数据常用的一类
方法,目前也越来越多地用于采用观察性
数据开展的药物经济学评价。
倾向值分析简介
• 倾向值(propensity score)是在控制其他混杂因素的条件下个体接 受
干预的概率,对其在干预组和控制组间进行控制或匹配以估计干 预效
果,可以用来控制大量的混杂因素变量。 • 目的:将多个变量(多维)转化为一个中间变量(一维) • 特点:不在关注每个需要控制的混杂因素的具体取值,转为关注将这 些变量纳入logistic回归方程后预测出来的倾向值。只要保证倾向值匹 配,这些所有需要控制的混杂因素都考虑了。
• 比较的效果是接受治疗后1 年内的生存率,成本是所有疾病相关
的医疗成本,研究分别对成本和效果未经过调整的结果、多元回
归结果、基于倾向值匹配的结果和基于倾向值分层的结果进行了
比较。
讨论
倾向值分析只能尽量减少混杂因素产生的影响,并不能完全消除,
其消除程度取决于可以被观测和控制的变量数量以及匹配的质量。