倾向匹配评分法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
倾向匹配法——回顾性研究中提高试验质量的利器
大连医科大学附属第二医院张策总结
欢迎您提出宝贵意见!
在临床中离不开回顾性研究,也就是总结以往的临床数据,得到结果。
但回顾性研究中的一切都是已经发生的,其中“干扰因素”(混杂因素)不能在试验中控制,造成组间比较失败,而倾向匹配法就是去除混杂因素的关键方法。
用统计学方法把我们回顾性研究效能提升为与前瞻性研究同等质量,今天就和大家一起通过一个SPSS操作实例介绍这种方法的具体使用过程。
这种方法在以后论文发表中起到至关重要的作用,大大提高回顾性文章的科学性和中稿率。
一、再次强调本方法的作用
倾向匹配方法到底达到什么作用,用下图说明:
性别
年龄RGB Hb
性别年龄RGB Hb
组
1 组2
回顾性研究
组间有差异
组间有差异
我们想考察两组Hb的差异,但其余三项都有差异,不知这种Hb的差异是否是其余三项差异带来的
采用倾向匹配法
性别
年龄
RGB
Hb
性别
年龄
RGB
Hb
组1 组2
回顾性研究
组间无差异
组间有差异
达到前瞻性比较质量
二、要利用的软件
要SPSS22.0以上才有此项功能,SPSS20.0需要安装插件完成,相关插件安装要点我在后面作为附件说明。
在这里感谢大连医科大学附属第二医院内分泌苏本利主任向我提供SPSS22.0的版本。
三、用一个例子说明
1、要解决的问题
数据如下图,取937例患者,NUMBER是顺序号,在后续统计中作为标识用,非常重要;GROUP是分组,两组必须用“1”和“0”表示,最终系统将“0组”病例向“1组”病例匹配。
本实验目的是均衡AGE、SBP、WBC、RBC、PLT的影响后,考察Hb在两组间的差别。
2、通过SPSS软件比较组间差异,结果如下:
发现两组间除AGE(P>0.05)没有差别外,其余都有差异(P<0.05),故混杂因素实在是太多,不能得出Hb在两组间有差异的结论。
P值
Mean Difference
-.182
-.182
-5.8568
-5.8568
-7.9226
-7.9226
-.51743
-.51743
-.63723
-.63723
-22.8902
-22.8902
25.6905
25.6905
3.下面用软件消除混杂因素的差异-倾向匹配法
SPSS22.0在安装过程中,要注意选择安装“Python”项目,否则将没有
“倾向匹配”选项。
首先按下图打开“倾向匹配法”对话框(数据>>倾向得分匹配)
打开对话框后,进行相应的设置:
注意:这里要注意所有的字段名都要用英文名称,用中文名称将导致回归模型建立失败,程序中断。
结果如下图所示,可以看到,我们原始数据表中多出了“defen”和“pipei”两个字段,“defen”字段是各指标的“倾向评分”,这是匹配的依据。
pipei字段是最终的匹配结果,可见第一个匹配成功的是NUMBER 号第8条记录,在“1”组,与“0”组的NUMBER号的第546号相匹配,pipei 字段中空格部分是没有匹配成功的字段,将在我们的试验中删除。
将标有“0”和“1”的组别GROUP字段选到这里
我们要比较Hb,所以不选,把其它干扰因素都选到这里
这里输入一个列名,用来放各病例匹配依据“倾向评分”,可以自己取名,不与现有字段重复即可
“匹配容差”输入一个0-1的数,越接近0约完全匹配,越接近于1,匹配越不严格,这里要试着找最佳点。
当然“完全匹配”要丢失更多的病例,如果选0,有可能找不到匹配的记录,这点大家注意,别误认为软件不好用了
“个案标识”,将序号NUMBER变量字段选入,匹配结果将用各病例序号进行匹配
这里输入字段名称,用于储存数据匹配后的结果。
随意起名,不与现有字段重复就可以
这里输入一个数据表名,系统将建立一个匹配后的数据表,这里用以指定新数据表名称,名字不与现有数据表重复即可
如何删除不匹配记录呢
采用菜单栏宏的数据>>选择个案,选择“如果条件满足”,然后在对话框中将PIPEI选入,输入公式,如下图所示。
这样确定后我们看到pipei为空的字段被删除了,在序号中出现了一条斜线,在以后的计算中将不参与计算。
进行如上删除处理后我们再做一次两独立样本的t检验,结果如下图:
我们发现,除Hb(我要考虑组间差异的变量),P=0,差异具有显著
性意义,其余干扰因素在组间的P值均>0.05,组间统计没有差异,结果非
常可信。
P值
Sig. (2-tailed)
.530
.530
.784
.784
.788
.788
.586
.586
.140
.140
.000
.000
.904
.904 当然,我们也因此损失了大量不能匹配的数据,本文的973条数据,到最
后匹配成功(匹配容差0.1)剩余270条数据,但这270条数据具有前瞻性研
究的数据质量。
4、和大家说说“匹配容差”
如何得到最佳匹配容差呢,我的经验如下:
a)先设置为“0”,有成功匹配记录,则做组间独立样本t检验,是否能均衡混杂因素。
如果能试试0.5,看看能否也能控制混杂因素并纳入更多的病例。
b)如不成功设置为“1”,再试做两独立样本t检验。
c)如不成功设置为“0.5”,再试做两独立样本t检验。
d)如不成功设置为“0.3”,再试做两独立样本t检验。
e)如不成功设置为“0.1”,再试做两独立样本t检验。
总之要在控制混杂因素的基础上,获得更多的有效病例。
最后谢谢大家的关注,您的关注是我最大的动力。