基线资料均衡性检验存在的问题与探讨

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基线资料均衡性检验存在的问题与探讨*
王永吉1 蔡宏伟2△ 夏结来1△ 李婵娟1 蒋志伟1 陈冬1
【摘要】【提要】目的选择恰当的均衡性检验方法,探讨均衡性检验的必要性。

方法采用Monte Carlo模拟比较假设检验和标准化差异检验基线资料均衡性的能力。

结果随机化研究中,大样本情况下出现不均衡的可能性很小;而在样本量相对较小的情况下,很难保证基线资料的均衡性。

结论标准化差异是一种有效的均衡性检验方法。

非随机化研究中,均衡性检验必不可少;随机化研究中,样本相对较小情况下也需要作均衡性检验。

【期刊名称】中国卫生统计
【年(卷),期】2011(028)002
【总页数】3
【关键词】【关键词】标准化差异假设检验均衡 Monte Carlo模拟
均衡性原则是指除了处理因素不同外,其他对观察结果有影响的因素应尽量一致〔1〕。

组间基线资料的均衡性是为了保证反应变量观察结果的组间可比性,以便在相似的基线条件下考察处理因素对观察结果的真实影响。

目前基线资料均衡性的检验方法常用的是假设检验。

随机化是假设检验应用的前提,只有满足了随机化原则的资料才能应用假设检验做统计推断。

在非随机化研究中用假设检验来检验基线资料的均衡性显然是不合理的;虽然随机化分组在大样本的情况下能较好的保持组间均衡性〔2〕,但在样本量相对较小的情况下即使采用了随机化分组也有较大的可能出现组间基线资料不均衡。

另外文献报道了其他的检验基线资料均衡性方法,如描述性统计、图示法(如Q-Q图、箱式图)、标准化差异(standardized difference)和方差比(variance ratios)等
〔3〕,其中标准化差异在近年的研究中应用较多〔4〕。

本文的目的是通过理论阐述与模拟研究探讨均衡性检验必要性的问题,以及如何选择恰当的统计方法有效地评价组间的不均衡性。

假设检验与标准化差异的适用性
假设检验的目的是通过样本对总体进行推断,而基线均衡性比较的目的是比较样本间的可比性,因此前者的意义在总体层面,后者的意义则在样本层面上。

另外根据假设检验和样本量的关系可知,即使样本实际的均衡性没有变化,随着样本量的减少,检验效能降低,也会得出较大的P值,即均衡性变好的假相,所以通过假设检验得出的基线“均衡”是不可靠的。

假设检验用于基线均衡性比较本质上只能考察随机化是否正确实施。

我们需要一种恰当的方法来作均衡性检验,标准化差异满足了Imai等提出的均衡性检验方法应该具备的两个性质:首先,它应该是针对样本而不是总体;其次,样本量不应该影响统计量的值〔5〕。

标准化差异的定义由Flury和Reidwyl在1986年首次提出〔6〕。

对于连续性变量,其定义是:
其中和分别表示处理组和对照组中待检验变量的均值和分别表示处理组和对照组中待检验变量的方差。

对于分类变量,其定义是:
其中,pT和pC分别表示处理组和对照组中待检验变量的阳性率。

一般地,当标准化差异小于0.1时,认为组间该变量的均衡性较好〔4〕。

M o n t e C a r l o模拟
1.模拟方法及步骤
采用Monte Carlo模拟比较假设检验和标准化差异在检验基线资料均衡性中的应用。

本研究所有数据均由模拟产生,数据模拟及统计分析程序采用SAS 9.1
统计软件。

模拟主要分为模型建立和统计分析两部分,其中模型建立主要是建立处理因素与协变量的关系。

具体模拟过程如下:
(1)假定样本量为500,设定种子数,根据Bernoulli分布产生两个独立的随机二分类变量x1和x2,模拟保证两个变量各自阳性数与阴性数比例都约为1:1,利用 SAS函数rand(’bernoulli’,P)生成,P 均设为0.5。

(2)模拟以处理因素T为应变量,x1和x2为协变量建立如下模型:
其中,T为二分类处理因素,利用SAS函数rand(’bernoulli’,P)求得,T=rand(’bernoulli’,PT);a0为常数项,调整a0可以控制处理因素T阳性结果发生率,即处理组与对照组间样本比例,为了方便模拟,将处理组和对照组样本量比例控制在1:1;ai(i=1,2)为回归系数,其中ORi=exp(ai),设OR1=1,OR2=1.5,数据集模拟完成。

(3)采用c2检验和标准化差异法分别对步骤(2)中产生的数据集进行均衡性评价。

(4)保持OR1和OR2值不变,重复(1)~(3)1000次,记录1000次中变量x1组间不均衡的次数,计算检出率。

(5)保持OR1和OR2值不变,逐渐增大OR1,并同时调整a0保证处理组与对照组间样本比例不变,重复(1)~(4)11次,每重复一次OR1值增加0.1,OR1值的变化范围在1~2之间,结果见图1。

(6)固定OR1=1.5,OR2=1.5,逐渐增大样本量,分别对样本量50和100~1000之间进行模拟。

当样本量变化范围在100~1000之间时,每重复一次样本量增加100,即假定基线资料总体不均衡情况下,评价采用c2检验的P值(α取0.05)和标准化差异比较均衡性检验结果的差异,结果见图2。

(7)固定OR1=1,OR2=1.5,逐渐增大样本量,分别对样本量50和500~
4000之间进行模拟。

当样本量变化范围在500~4000之间时,每重复一次样本量增加500,评价采用c2检验和标准化差异法比较均衡性检验结果的差异,结果见图3。

2.模拟结果
假设检验和标准化差异法的检出率随OR1值变化的曲线如图1所示;OR1≠1和OR1=1时,假设检验和标准化差异法的检出率随样本量变化的曲线如图2,图3所示。

由图1可知,OR1值较小时,标准化差异法的检出率高于假设检验,随着OR1值的增大,标准化差异法和假设检验的检出率趋于一致。

进一步模拟研究证明,如果改变样本量,结果不变。

结果提示,标准化差异检验变量不均衡的能力要高于假设检验。

由图2可知,在OR1≠1的情况下,假设检验的检出率随样本量增大而降低,标准化差异的检出率高于假设检验,并且一直处于相对平稳的状态。

结果提示,标准化差异不受样本量的影响,而假设检验受样本量的影响,即使在小样本情况下,标准化差异也可以检验出变量的不均衡性。

在OR1=1的情况下,假设检验由于Ⅰ型错误的控制,检出率一直处于5%左右。

小样本时,标准化差异的检出率高于假设检验,标准化差异的检出率随样本量增大而降低,当样本量达到4000时,标准化差异的检出率趋于0。

讨论
非随机化研究中,通常会存在基线资料不均衡的情况,导致估计处理效应时产生偏倚,均衡性检验是必不可少的。

随机化研究中,由图3的模拟结果可知,当样本量达到1500时,出现不均衡的可能性就很小了(小于0.05),因此,大
样本情况下,不需要作均衡性检验;而在样本量相对较小的情况下,即使经过随机化分组,也很难保证基线资料的均衡性,需要作均衡性检验保证组间的可比性,提高试验的可靠性。

标准化差异正是在小样本情况下也可以检验出基线资料不均衡性的方法。

标准化差异同时适用于连续型变量和分类变量的均衡性比较,且不受度量衡的影响。

标准化差异的优点还在于可以量化指标差异的大小,也可以结合示意图直观地表示〔7〕。

本研究的局限性在于只模拟研究了两分组,基线资料为分类变量的情况。

基线资料是多分类变量时,建议根据各分类样本量大小加权后,再计算标准化差异。

对于多分组资料,建议进行组间两两比较,选择标准化差异最大的两组作为均衡性评价的标准。

而对于基线资料为非正态连续型变量的情况有待进一步研究。

1.孙振球,徐勇勇,等.医学统计学.第2版.北京:人民卫生出版社,2006:618-619.
2.Senn S.T esting for baseline balance in clinical trials.Statistics in Medicine,1994,13:1715-1726.
3.Ho DE,Imai K,King G,et al.Matching as nonparametric preprocessing in parametric causal inference.Political Analysis,2007,15:199-236.
4.Austin PC.A critical appraisal of propensity-score matching in the medical literature between 1996 and 2003.Statistics in Medicine,2008,27:2037-2049.
5.Imai K,King G,Stuart EA.Misunderstandings among experimentalists and observationalists:balance test fallacies in causal
inference.Journal of the Royal Statistical Society,2008,171:481-502.6.Flury BK,Reidwyl H.Standard distance in univariate and multivariate analysis.The American Statistician,1986,40:249-251.7.王永吉,蔡宏伟,夏结来,等.倾向指数(第三讲)——应用中的关键问题.中华流行病学杂志,2010,31(7):823-8244.
参考文献
*:国家自然科学基金资助(30800952,81001290)
1.第四军医大学预防医学系卫生统计学教研室(710032);
2.第四军医大学口腔医学院信息中心(710032)
△:通讯作者。

相关文档
最新文档