国家自然科学奖推荐书式样
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
国家自然科学奖推荐书式样
国家自然科学奖推荐书
( 年度)
一、项目基本情况
学科评审组:序号:编号:
项目名称
中文名统计因果推断
英文名Statistical Causal Inference 主要完成人耿直
推荐单位(盖章)
或推荐专家
中国数学学会
学科分类名称1 多元分析代码
1101755
2 统计计算代码1101764
3 代码
所属科学技术领域数理统计, 多元统计, 生物统计
任务来源国家自然科学基金委
具体计划、基金的名称和编号:
项目完成人耿直1997年获教育部跨世纪优秀人才项目;1999-2002获国家杰出青年基金项目();1999-2003,主持国家基金委重点项目:应用统计(),此后参与应用统计重点项目三次:2005-2008()、2010-2013()、2014-2017()。
承担了国家基金委面上项目():<图模型的结构学习及因果推断>和()<因果推断的统计方法>,负责973项目子项目(2003CB715902)<蛋白质网络拓扑结构及动力学研究>。
探讨因果推断的统计方法:1)研究Simpson悖论、因果推断和不完全数据;2)提出替代指标悖论,又称中间变量悖论、工具变量悖论,研究不可忽略缺失数据机制和分析方法;3)研究网络图模型,探讨因果机制和因果网络的结构学习。
已呈交的科技报告编号:
项目起止时间起始:2000年1月 1 日完成: 2015年12月1日
国家科学技术奖励工作办公室制
二、项目简介
(限1200字)
本项目研究因果作用的评价方法和因果网络的参数学习和结构学习方法,探讨因果推断在生物医学中的统计问题。
近年来,有关因果推断的研究成为了统计学最关注的热点研究方向之一。
我们在因果推断方向作出了一系列成果.关于著名的Yule-Simpson悖论,国内学者提出了一系列避免虚假相关性的条件和统计推断方法(JRSSB 1992,1993,1995,2002,2006等)。
针对生物医学中现有的替代指标准则,国内学者提出了替代指标悖论(又称中间变量悖论、工具变量悖论)(JRSSB, 2007, 2010等)。
针对临床试验不依从情况,我们论证了因果作用的可识别性和统计推断方法,该成果为2009年Biometrics的唯一讨论文章。
在因果网络方面,我们提出了不完全数据学习因果网络的方法 (Artifficial Intelligengce, 2006),将大规模网络的学习问题分解为小网络学习问题的递归分解学习方法,提出因果网络的主动学习方法,利用最少的干预次数确定因果方向的最佳干预试验方法(3篇论文发表在J Mach Learn Research 2008)。
另外,我们参加了2008年World Congress on Comput. Intelligence 组织了因果挑战,并获得了Best Overall Contribution Award。
我们在因果推断和因果机制方向的研究成果受到国际同行的关注,曾应邀在ICIAM 2011做1小时大会报告、日本统计计算大会做1小时特别讲座、CSPS-IMS 2005的55分钟特别讲座, IMS-APRM 2012做了45分钟特邀报告等。
本项目探索因果推断,主要研究内容为:
1.替代指标(Surrogate)准则和替代指标悖论
因果推断中的替代指标的准则是因果推断和医学研究的重要问题。
Chen, Geng & Jia (2007)提出了“替代指标悖论”,指出Prentice的条件独立性准则、Rubin等的主分层准则和Lauritzen的强替代指标准则都不能避免替代指标悖论。
替代指标悖论也称为“中间变量悖论”和“工具变量悖论”,描述了统计推断中更广泛的问题。
该悖论向因果推断提出了一个挑战性问题。
我们(JRSSB 2007,2010)针对该悖论提出了一致替代指标和严格一致替代指标的概念,给出了避免替代指标悖论发生的条件。
2.因果网络的结构学习和参数学习
Geng,Wang&Zhao(JMVA 2005)提出了判断网络中V-结构的分解方法。
Xie,Geng & Zhao(AI 2006)提出根据观测数据建立多因素之间因果网络的分解方法,将一个大网络的学习分解为若干小网络的学习。
Xie & Geng(JMLR2008)提出了因果网络结构学习的递归算法,Ma,Xie &
Geng(2008)提出了有向边和无向边混合的链图结构学习的算法,He & Geng(2008)提出了因果网络的主动学习方法。
Geng,Wan & Tao(2000)提出了不完全数据情况下图模型参数估计的部分填补EM算法,证明了填补数据的数量越小,该算法的收敛速度越快。
Geng等(2003)和Geng & Li(2003)提出了部分填补Bayesian方法,论证了收敛速度优越性。
3.可压缩性和混杂因素
Ma,Xie & Geng(JRSSB 2006)和Xie,Ma & Geng(SS 2008)探讨了一般分布情况下因果作用的可压缩性。
Xie&Geng(SJS 2009)研究了有向无环图的可压缩性。
Geng,Guo & Fung(JRSSB 2002)探讨了混杂因素的定义和准则,除去了常用的可忽略性假定。
Geng & Li(SJS 2002)基于不完全因果网络提出了判断混杂因素的条件。
Wang, Geng et al.(SS 2007)探讨了调整非混杂因素对因果作用估计的影响。
Wang, Geng et al.(JSPI 2009)提出了多混杂因素的判断准则和条件。
4.非随机缺失数据和不依从数据情况下因果作用的可识别性
不可忽略缺失机制情况下,因果作用的可识别性: Chen, Geng & Zhou (Biometrics, Discussion Paper, 2009)探讨了不可忽略缺失数据和随机试验中不依从情况下因果作用的可识别性。
期刊主编推荐该论文为Discussion Paper,是2009年Biometrics百余篇论文中唯一的一篇Discussion Paper。
Ma, Geng & Hu (JMVA 2003)探讨了纵向数据的不可忽略缺失机制情况下分布的可识别性。
三、重要科学发现
1. 重要科学发现(限5页)
本项目研究内容为因果推断、混杂因素的判断条件、因果网络模型的参数和结构学习、中间因素和替代指标的准则、生物医学和流行病学中的统计方法,所属学科是数理统计。
因果推断根据观察性研究探索因果作用和因果关系,是统计学中的一个重要的难题。
自高尔顿(Galton, 1888)提出相关系数和Pearson (1911)提出拟合优度卡方检验以来,统计学在相关(关系)方面的研究取得了丰硕的成果。
但是Yule-Simpson悖论(Yule, Biometrika 1903; Simpson, JRSSB 1951)的发现说明了相关不是因果,为统计学提出了挑战性的问题。
统计学在因果方面的研究步履艰难,正如Holland(1986,JASA)所说:‘Problems involving causal inference have dogged at the heels of statistics since earlest days.’尽管目前人们在自然科学和社会科学的研究中可以利用先进的设备获得大量的数据,但是人们认识自然和社会的最大障碍之一也许是缺乏从获得的大量数据中认知因果关系的方法。
Pearl (Causality, 2009, 2nd Ed):“在过去的一个世纪中,许多发现被推迟是由于缺少描述因果的数学语言。
”现在因果推断主要采用两种数学模型:潜在结果模型(Neyman, 1923; Rubin, 1974)和因果网络模型 (Pearl, 2000;Spirtes et al. 2000)。
我们研究这两种因果模型,探讨因果作用的可识别性和因果网络的学习。
主要创新点和贡献如下:
1)提出了替代指标悖论,探讨了替代指标的准则(多元统计1101755;代表性论文JRSS B 2007, JRSS B
2010, Stat Med 2011等)
在很多科学研究中终点指标(Endpoint)的观测非常困难、代价高或时间长。
所以,常需要寻找替代指标(Surrogate)观测。
例如,临床试验评价治疗AIDS病药物,常用CD4作为替代指标,而难以用10年生存期的终点指标评价疗效。
因此确定替代指标的准则是因果推断和医学临床试验的重要问题。
目前已经提出了很多替代指标的准则,华盛顿大学Prentice院士(Statist. Med., 1989)提出了替代指标的条件独立性准则,称为统计替代指标,该论文成为这个刊物被引用最高的论文。
Prentice准则已经被临床疗效评价广泛使用。
哈佛大学Rubin院士等人 (Frangakis and Rubin,Biometrics, 2002;Rubin,SJS, 2004)发现统计替代指标不满足因果必要性(因果必要性:处理对替代指标没有因果作用,则处理对终点指标没有因果作用)。
他们对Prentice准则进行了批判,提出了主分层替代指标的准则。
牛津大学统计系主任Lauritzen (SJS, 2004)利用因果网络提出了强替代指标的准则,比主分层准则更严格地描述了替代指标与终点指标的因果路径的关系。
我们(JRSS B 2007 & 2010; Statist Med, 2011)发现Prentice统计替代指标准则、Rubin主分层准则和Lauritzen强替代指标准则都存在一个严重的问题,即用这些替代指标可能会得出与事实相悖的结论,这就是我们(JRSS B 2007)提出的“替代指标悖论(Surrogate Paradox)”:治疗T对替代指标S有正的平均因果作用(ACE),这些替代指标S对终点指标T也有正的因果作用,但是,该治疗T对终点指标Y有负的因果作用。
该悖论可以表示为
这个发现说明了目前的几种替代指标准则都存在严重的问题。
Moore (Deadly Medicine, 1995)报道过著名的医药临床的惨案事件,描述了将抑制心律失常作为降低猝死的替代指标,最终发现上市的药物不但不能降低,反而增加了猝死的比率,导致数万人死于这类药物。
& (2010,Surrogate end points: hopes and perils)对判断替代指标的准则提出了挑战问题,指出我们(JRSS B 2007)的方法和Frangakis & Rubin的主分层替代指标是建立在因果推断基础上的新方法,是一个有前景的方法。
哈佛大学VanderWeele (2011)引用我们(JRSS B 2007 & 2010)提出的Surrogate Paradox对Frangakis & Rubin的主分层替代指标提出了质疑和批评,他指出:However, identification is not the only difficulty with a principal stratification approach to the analysis of surrogate outcomes. Chen, Geng & Jia (2007) and Ju & Geng (2010) note that a principal surrogate as defined by Frangakis and Robin (2002) does not
avert the so called “surrogate paradox.”That is to say, a variable S may be a principal surrogate and the treatment may have a positive effect on the surrogate and the surrogate may have a positive effect on the outcome but it may still be the case the effect of the treatment on the outcome is negative! Che n et al. (2007) and Ju et al. (2010) discuss conditions beyond “principal surrogacy” that ensure that the surrogate paradox is avoided.
替代指标悖论也可称为“中间变量悖论”,描述了统计推断中更广泛的问题。
还原论的方法将整体分解为局部,综合局部得到的结论推断出整体的结论。
但是该悖论指出了综合局部统计结论得出整体统计结论将在原理上遇到本质的困难和问题。
该悖论向统计推断和因果推断提出了一个新的挑战性问题。
尽管人们在科学研究中积累了大量利用统计方法得到的结论和知识,但是如何综合这些统计结论,必须谨慎。
我们(JRSS B 2007)提出了替代指标悖论,进一步提出了一致替代指标和严格一致替代指标的概念。
为了保证处理对替代指标的平均因果作用与处理对终点指标的平均因果作用的正负方向的一致性,我们利用因果网络的方法,给出了一致替代指标和严格一致替代指标的充分条件。
我们(JRSS B 2010)发现尽管一致替代指标能够避免平均因果作用的悖论现象,但是避免不了分布因果作用的悖论现象,分布因果作用比平均因果作用能更细致刻画因果作用。
针对连续和有序离散变量的分布因果作用,我们提出了利用替代指标定性地评价处理对终点指标评价的充分条件,论证了在更广义的线性方程组模型下中间变量作为替代指标不会出现替代指标悖论,还给出了非参数模型下替代指标的准则。
我们(Wu et al. 2011, Stat Med)进一步提出了在处理对终点有直接作用的情况下避免替代指标悖论的充分条件和充要条件。
通常一个替代指标不能切断所有处理变量到终点变量的因果路径,这篇论文放松了无其他因果路径的假定,更加符合实际应用。
更重要地,与JRSSB 2007和2010的结果不同,该论文给出的条件是基于关联度量的,如果在以前的临床试验中曾观测过终点指标的话,这些条件是可以用数据检验的。
证明了:当替代指标S服从单参数指数族分布时,治疗T对替代指标S的因果作用的正负号等于治疗T对终点指标Y的因果作用的正负号。
即,不但治疗对替代指标有正(负或零)作用蕴含治疗对终点指标有正(负或零)作用,而且治疗对终点指标有正(负或零)作用也蕴含治疗对替代指标有正(负或零)作用。
哈佛大学VanderWeele (2013, Biometrics,讨论文章)详细介绍和讨论了我们有关替代指标悖论的成果(Chen, Geng & Jia, 2007,JRSSB; Ju & Geng, 2010, JRSSB; Wu, He & Geng, 2013, Stat Med)。
在他的论文中用了两个章节介绍了我们的成果,文中写到:“Sections 2 and 3 summarize the results of Chen et al. (2007) and Ju et al. (2010) on consistent surrogates and then extend their results further to allow for more general settings and to provide a characterization of conditions which are necessary for the surrogate paradox to occur (analogously,are sufficient to avoid it). The conditions and the results of the article are important because they allow investigators to predict the direction of the effect of the treatment on the outcome simply from the direction of the effect of the treatment on the surrogate.”
2)因果网络的结构学习和参数学习(统计计算1101764;2篇JMLR 2008, AI 2006, SJS 2000和1
篇专著中的论文等)
因果网络和贝叶斯网络在计算机科学、医学和流行病学、生物信息、模式识别等很多领域有广泛的应用。
挖掘高维数据学习众多因素之间的因果网络和贝叶斯网络是一个统计学和机器学习领域中的重要难题和热点研究问题。
国际机器学习的核心刊物J Machine Learning Research组织了专刊,见网页:。
另外,2008年World Congress on Computational Intelligence(2008 WCCI)国际会议组织了因果挑战(Causal Challenge Competition)。
从海量数据中挖掘因果关系,进行外部干预环境下的预测是一个因果推断和计量经济学中的挑战问题。
与传统的基于相关关系的预测不同,基于因果关系的预测具有外延性,可用于在外部干预情况下,待预测的环境与建模用的历史数据的环境不同情况下的预测,详见2008 WCCI因果挑战和诺贝尔经济奖获得者Heckman (Internat Statist Reviewe,2008, 76, 1-27)的论文: Econometric Causality.
目前很多关于高维数据学习网络图模型的方法都是研究无向图的问题,不能描述因果关系。
尽管有一
些有向图的学习方法,但是这些方法随着结点数的增加,有向图的个数指数上升,网络结构的学习变得非常复杂。
有向图结构学习的IC算法和IP算法(Pearl, 2009; Spirtes et al. 2000)在高维数据情况下计算复杂性和统计检验功效等方面都有困难。
我们(AI 2006)提出利用不完全数据学习有向图的方法。
我们(Xie & Geng, JMLR 2008; Ma, Xie & Geng, JMLR 2008)提出大规模网络学习分解为小规模网络学习的递归学习方法。
我们(SJS 2000)提出局部缺失数据填补EM算法,并应用于图模型参数学习。
因果网络学习的另一个主要困难是仅利用观测数据不能完全确定变量之间的因果方向。
我们(He & Geng, JMLR 2008)提出最佳干预试验设计的主动学习方法,设计最少干预试验次数,确定因果网络中所有无向边的因果方向。
我们(AI 2006) 提出了有向非循环图的分解学习算法。
当数据来自不同的研究,观测的变量集合可能是不同的。
针对具有佷多变量的统计调查,Little & Rubin(2002),Rassler(2002)提出file-matching Split和Split questionnaire survey sampling方法,各个调查数据库有不同的变量集合。
我们探讨了利用不完全观测数据集合进行网络结构的分解学习算法,提出用超图的每一条超边表示一个观测变量集合,利用超图结构分解,进行局部网络学习的方法。
该算法建立了多个数据库进行网络结构学习的理论和方法。
我们从理论上论证了该方法的正确性,并用模拟对算法进行了比较和评价。
Li et al.(Int J AI 2008)介绍了我们的方法,Liu et al.(AI 2011)在我们的基础上进一步探讨了分解算法(见他引论文5)。
我们(Xie & Geng, JMLR 2008)提出了将一个大网络的结构学习递归分解为若干小网络的结构学习递归方法。
在该算法中,首先构造一个初步的无向网络;然后,根据得到的无向网络将一个大的变量集合分解成两个有重叠的变量集合,重叠部分称为分离集,它将变量集合分为两个条件独立的变量集合;再对两个分解得到的变量集合重复该分解,直至不可分解为止;在每个不可分解的变量集合进行局部图的结构学习;最后将这些局部网络图进行合并、修正和定向;最终得到完整的等价类因果网络。
我们从理论上论证了这个递归分解算法能够得到正确的网络。
该分解算法能够有效地利用独立性,降低了网络算法的计算复杂性,并能够提高统计推断的功效。
Dunson et al. (JASA 2009,p1042)指出我们的递归方法是一个有效的方法,应用于多元属性数据Bayes模型。
我们(Ma, Xie & Geng, JMLR 2008)提出了链图学习的算法,链图比有向网络更复杂,链图包含有无向边和有向边的混合图,无向边描述变量之间相互影响的关系。
目前,关于因果网络的学习,有观测数据和试验数据的学习方法,但是,还没有干预试验设计的方法。
我们(He & Geng, JMLR 2008)提出了最佳干预试验的主动学习方法,对不能确定因果方向的网络图设计最佳干预方案。
在最小干预的情况下,确定所有无向边的因果方向。
根据观察性研究的数据,常不能完全确定因果方向,学习得到的因果等价类网络含有很多不能确定因果方向的无向边。
我们提出了几种最佳干预的设计方法。
一种是成批最佳干预一个最小变量集合使得所有无向边都能同时确定因果方向的方法。
另外,两种是序贯最佳干预设计,一种序贯方法是选择一个在最大熵意义下的最佳变量进行干预,另一种序贯方法是选择一个变量,使得干预该变量得到的所有可能结果中最大的网络个数集合最小;这两种序贯干预方法根据每次干预的结果,逐步选择下一个最佳变量进行干预,最终确定所有因果方向。
Spirtes(JMLR 2010, p1657,见附件他引论文)和Daly(Knowl Eng Rev 2011)介绍了我们的方法,Spirtes(2010)在Open Questions中提出组合试验数据和观察数据是因果模型的重要研究问题。
我们(Yin, Geng, et al. 2008)参加了2008 WCCI的因果挑战。
该挑战提出在外部干预情况下进行预测的重要问题。
这个问题的困难在于两个变量有相关关系,但是外部干预其中一个变量,另一个变量是否会跟着改变?例如,公鸡打鸣与太阳生起有很强的相关关系,但是人为干预阻止公鸡打鸣,不能阻止太阳生起。
如果发现某个基因与癌症有很强的相关,抑制该基因的表达是否能预防癌症的发生?该挑战给出了3个实际数据集合(生物芯片数据,社会经济数据,医药研发数据),为了评价方法的性能,还在数据中设置了测试变量。
针对有外部干预情况,我们提出了新的预测方法。
首先从数据发现因果关系,构建因果网络或者构建局部因果网络,然后根据因果关系进行预测。
为了预测干预某个变量X将如何影响目标变量Y,我们不必构建完整的因果网络,提出了只在局部就可以发现目标变量Y的原因变量和发现结果变量的逐步学习方法。
采用传统的变量选择方法只能得到目标变量Y的相关变量集合(Markov Blanket)X,使得给定X后其他变量与目标变量不相关,但是不能识别哪些变量是原因,哪些是结果,因此不能根据变量集合X对目标Y进行干预预测。
我们获得了Best Overall Contribution奖,因而该竞赛没有再发Best Paper
奖。
相关成果发表在专著:Causation and Prediction Challenge:Challenges in Machine Learning, Volume 2
该专著的第一篇论文(见附件他引论文): Design and Analysis of the Causation and Prediction Challenge对我们的因果挖掘方法进行了详细的讨论和分析,与其他学者提出的方法进行了比较,其中描述到:
§5. Result Analysis … § Best challenge results
We declared three winne rs of the challenge: … …
• Jianxin Yin and Zhi Geng’s group (Peking University, Beijing, China):Best overall contribution, using Partial Orientation and Local Structural Learning (new original causal discovery algorithm and best on Pareto front causation/prediction, ., with smallest Euclidian distance to the extreme point with zero error and zero features).
能否正确发现结果变量集合的得分与能否正确预测目标变量的得分有很强相关性。
详细描述,见附件材料。
关于图模型参数学习,我们(SJS 2000)提出不完全数据的超图表示方法,提出局部填补EM算法(PIEM)和局部填补MCMC算法,并论证了收敛速度。
采用超图的每一个超边表示一个不完全观测的变量集合,结合超图和模型图的结构进行分解,然后只对不可分解的子图中的变量进行缺失数据的填补。
这种方法避免了对整个变量集合进行大规模的缺失数据填补。
我们利用缺失信息矩阵的特征根从理论上证明了:填补数据的集合越小,EM算法的收敛速度越快。
该成果应邀在日本统计计算大会上作了1小时的特邀报告,在德国的专题讨论会上作了邀请报告。
被国外同行多次引用,Ng et al.(SS 2009)利用我们的PIEM研究NDD分布的Bayes估计,Tang et al.(CSDA 2007)在我们最大特征根准则的基础上讨论了迹准则。
我们(Geng & Li, SPL 2003)提出了部分填补的MCMC算法,并从理论上证明了该算法能够加快MCMC算法的收敛速度。
我们(Geng et al. CSDA, 2003)提出贝叶斯网络的不完全数据推断,给出后验估计的递推公式。
我们(Wang, …Geng, Compu Stat 2003; Kuroda, …Geng, SPL 2003)提出了利用Delta和Epsilon算法加速EM算法收敛速度的方法,这种加速算法只需要使用EM算法得到的估计序列,不需计算信息阵等附加计算。
3)可压缩性和混杂因素(多元统计1101755; JRSS B 2002,JRSS B 2006等)
我们(JRSSB 2006)探讨一般分布的关联度量的可压缩性。
两个变量的关联度量的正负号可能被一个混杂因素改变,称为Simpson悖论。
Cox & Wermuth (JRSSB, 2003)提出了度量一般分布的关联度量,并探讨了影响该度量的混杂因素的条件。
我们(JRSS B, 2006)提出了关于连续背景变量一致可压缩性(Uniform collapsibility)的概念,给出了一般分布关联度量可压缩的充要条件。
研究一般分布的关联度量和模型参数可压缩的条件,以及参数估计的精度问题。
我们提出的可压缩性比Cox & Wermuth的避免因果作用逆转的结论更强,而且我们给出了充要条件,该条件就是Cox & Wermuth的避免因果作用逆转的充分条件,因此,我们在相同条件下得到了更强的结果。
该结论可以指导如何利用先验知识和观察设计确保得到正确结论,避免混杂偏倚。
该结果被Wermuth, Cox等(Biometrika, 2008; Ele J Stat 2009)引用。
进一步,我们(Stat Sinica 2008)提出了多种关联度量之间强度的蕴含关系,探讨了各种关联度量可压缩性的条件。
目前,所有因果推断几乎都要求不可忽略性假定,它是关键假定之一。
我们(JRSSB 2002)在不需要这个可忽略性假定下探讨了混杂因素的提议和判断准则。
流行病学研究中存在着不同的混杂定义,一直采用经验归纳出来的判别混杂因素的准则. 我们提出了混杂的形式定义, 并且提出偶然混杂因素的概念,给出了无混杂的充分必要条件,在此基础上论证了判断混杂因素的准则.判断混杂因素时常使用两个准则:可压缩性准则与可比较性准则.流行病学者对这两个准则存在争议.我们论证它们之间的关系和互补性。
我们(Wang, Geng et al. SS 2007 ) 探讨因果分布作用的估计精度,论证了调整混杂因素能消除偏倚,但是调整非混杂因素将会降低估计精度,该结果同样适应于小样本的情况。
很多学者只是在大样本下比较估计量的渐近方差探讨是否有必要调整非混杂因素。
我们(W a n g,G e n g e t a l.J S P I,2009)探讨了如何确定和筛选多混杂因素的方法。
我们(G e n g&L i,S J S2002)提出在不完全因果网络图的情况下,进行因果推断的方法和判断混杂因素的准则。
采用因果网络图进行因果推
断的关键是需要事先根据主观知识构造一个完整的因果网络图。
但是,在数据获得之前,构造这样一个完整的复杂因果网络是非常困难的。
我们的准则不需要完整的因果网络先验知识。
我们(S J S2009)探讨了有向无环图模型(D A G)的估计可压缩性、条件独立性可压缩性和D A G模型可压缩性,给出寻找最小变量集合使得感兴趣的统计推断在该最小变量集合上保持不变的方法,该方法可用于D A G模型的局部推断和不完全数据分析。
4)非随机缺失数据和不依从数据情况下因果作用的可识别性(多元统计1101755;Biometrics 2009,
Discussion Paper 等)
我们(Biometrics 2009)研究了关于医学临床试验中出现非随机缺失和不依从现象情况的参数可识别性和统计分析方法。
Biometrics是国际生物统计学会会刊,主编推荐我们的论文为2009年的讨论文章,也是Biometrics 2009年发表的百余篇中唯一的一篇讨论文章。
在临床试验中常出现患者不依从随机化分配的现象,另一方面,终点变量也常出现缺失数据,特别是非随机缺失,例如,未治愈的患者出现中途退出等现象。
在不依从和非随机缺失中任意一种情况出现时,疗效的因果作用的可识别性和可估计问题都会变得十分困难。
到目前为止,所有论文只讨论其中一个困难出现的情况,而且通常假定(1)随机缺失数据,或(2)潜在可忽略缺失机制。
我们针对非随机缺失数据和不依从现象,引入表示数据缺失与否的示性变量,利用随机化分配独立于所有治疗前协变量建立因果图模型,论证了因果作用的可识别性,给出了有效的估计方法,并进行了敏感性分析。
在该论文的后面,这一领域的著名学者在讨论中积极评价了我们的方法(详见附件的代表性论文Biometrics 2009后面有11页关于该论文的讨论),摘自其中:
Small & Cheng (Biometrics 2009): We congratulate Chen, Geng and Zhou (CGZ) on an important contribution to the analysis of randomized trials with noncompliance and missing data, two common complications in randomized trials. Most previous methods for analyzing trials in which noncompliance and missing data occur together have either assumed (i) the outcomes are missing at random or (ii) latent ignorability. Missing at random or latent ignorability assume that missingness is not related to the outcome within certain strata of random assignment, compliance, and treatment received. For situations in which these strata, CGZ develop novel methods of identifying causal effects.
To emphasize the importance of CGZ’s methods and illustrate several points, we consider
a trial in which missingness might be related to outcome. We use the same notation as CGZ
throughout. …
CGZ make a valuable contribution to the analysis of randomized trials with noncompliance and missing outcomes by formulating identifiable models that allow for the outcome to affect missingness. In our discussion, we have shown how CGZ’s models related to a larger class of models. We also discussed test of CGZ’s models and an approach to sensitivity analysis Vansteelandt (Biometrics 2009):Chen, Geng and Zhou develop inference for the complier average causal effect in settings where the outcome is categorical, but incompletely observed.
Motivated by the fact that information on the missingness mechanism is frequently lacking, they focus on a non-ignorable missing data mechanism which allows for missingness to be related to the outcome, but assume that it has no residual dependence on assigned and received treatment and on compliance class. Such a mechanism may have greater relevance for data analysis than the more common latent ignorability assumption because, in many practical settings, missingness in the outcome may be more strongly related to the outcome itself than the principal strata. …
In summary, the authors’ proposal to allow for a direct dependence of missingness on the outcome is inspiring. Its attraction lies in the fact that missingness in the outcome may often be most strongly related to the outcome itself.。