非线性混合效应模型拟合Logistic回归在临床试验中的应用

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

非线性混合效应模型拟合Logistic回归在临床试验中的应用袁岱菁;杨志雄
【摘要】目的探讨非线性混合效应模型拟合Logistic回归在临床试验中的应用.方法采用SAS软件包的NLMIXED过程拟合模型,并以两例药物临床试验资料进行实例分析.结果获得了各参数及其标准误的估计值,并可以对各因素进行直观的解释.结论非线性混合效应模型允许固定效应和随机效应进入模型的非线性部分,可以拟合具有非线性的Logistic回归模型,是临床试验中分析二项分布数据有效方法.【期刊名称】《南方医科大学学报》
【年(卷),期】2010(030)008
【总页数】4页(P1923-1925,1929)
【关键词】非线性混合效应模型;Logistic回归;二项分布数
据;NLMIXED;SAS;Emax
【作者】袁岱菁;杨志雄
【作者单位】华东师范大学金融统计学院,上海,200241;上海第六人民医院普外科,上海,200233
【正文语种】中文
【中图分类】R195.1
1 简介
在临床药物试验中药物疗效的评价经常遇到二分类资料，即反应变量有两个水平如
有效和无效、成功和失败等。

二分类变量服从二项分布，可采用Logistic回归模型。

Logistic回归（logistic regression）是分析反应变量为独立分类资料的常用统计分析方法。

由于它对资料的正态性和方差齐性不做要求、对自变量类型也不做要求等，使得近年来Logistic回归模型在临床试验中被广泛应用。

但是这并不意味着只要因变量是分类变量就可以直接采用Logistic回归。

Logistic回归要求自变量与logit（y）符合线性关系，所谓 logit（y）实际上就是 log（P/1-P），也就是说，自变量应与log（P/1-P）呈线性关系。

而且，Logistic回归模型只能处理具有独立性的资料，即观测数据应来自完全独立的随机样本。

当自变量与ln（P/1-P）不呈线性关系，或者样本之间具有相互关系，就增加了传统统计方法对该类数据分析的难度。

适合此类数据的统计分析方法大多是传统Logistic回归的扩展。

如果自变量与ln（P/1-P）呈非线性关系，可以采用非线性混合效应模型来拟合Logistic回归。

如果数据间存在自相关性，Logistic回归大致可扩展为两类：边际模型（Marginal model）和随机效应模型（Random effect model）[1]。

对于随机效应的Logistic回归模型，也可以采用非线性混合效应模型来拟合。

本文就两个临床试验的例子来介绍用非线性混合效应模型拟合Logistic回归。

2 模型
非线性混合效应模型亦称为多水平非线性模型、非线性随机效应模型或非线性分层模型。

它可以直接拟合非线性模型，不仅能识别和估计个体间和个体内的变异，而且也考虑了解释变量与反应变量参数间的非线性关系，允许固定效应和随机效应进入模型的非线性部分，相对于线性模型的正态假定，非线性模型对资料的分布无特殊要求，资料可以是正态，也可以是二项分布、Poisson分布等。

非线性混合效应模型可作如下表述：
其中，yij为第i个体第j次测量预测值，或经过某种单调联系函数（1ink function）转换的值；f(·)为非线性函数，如果其为线性，则退化为线性的混合效应模型；xij为P维解释变量向量；eij为独立正态分布随机误差向量；β为P维固定效应参数；bi为随机效应因子；Ai、Bi为已知的设计矩阵。

其参数估计可以通过伪数据步（pseudo-data step）和线性混合效应步（1inear mixed effects step）两步之间的迭代完成，可分别使用Gauss-Newton迭代法和EM算法解决
[2]。

3 应用举例
3.1 例一：非线性混合效应模型拟合随机效应Logistic回归
某公司开发一种新药用于治疗周围神经痛。

以安慰剂为对照，将所有患者随机分为两组，一组患者先服用新药A，再服用安慰剂B；另一组患者顺序相反，即先服用安慰剂B，再服用新药A，每个阶段用药2周，期间洗脱期1周，进行2×2交叉设计试验，共纳入病例30例。

主要结果指标疗效为每阶段结束后用CGI （Clinical Global Impression）量表评价疼痛的缓解状况。

与基线相比，当疼痛缓解1个分值时，认为有效，赋值为1。

否则认为无效，赋值为0。

统计分析方法以病人疼痛缓解即药物是否有效为应变量，处理(treat)、阶段(period)、受试者(subject)为解释变量，其中处理和阶段纳入为固定效应，受试者(subject)作为随机效应，建立非线性混合效应模型。

其模型基本形式为：
yij表示第i个受试者第j个研究药物是否有效。

随机效应 ui～Normal(0,δ2)
所有分析过程在SAS软件中完成，使用PROC NLMIXED过程所建立的模型在经
过2次迭代后收敛。

采用常用的Dual quasi-Newton最优化技术与Adaptive Gaussian 积分方法，-2Loglikelihood=88.21，参数估计结果见表1。

此表是非线性混合效应模型参数估计值的分析结果，也是较为关键的一部分。

本表列出了4个参数和它们的最大似然估计值、标准误，以及统计推断。

beta0是截距，表示处理和阶段效应为0时的对数优势（log-odds）。

接下来几行分别是处理(beta1)、阶段(beta2)、随机效应(s2u)的估计。

每个系数都可以通过取幂来转换成优势比。

结果表示阶段效应和受试者效应均无统计学意义，但在α=0.2的显著性水平下处理效应显著，统计学解释为，在控制了有关混杂因素后的受试药A的疗效优势是对照药B的exp(0.8239)=2.28倍。

表1 NLMIXED过程拟合随机效应Logistic回归参数估计结果参数估计值标准误自由度 t值 P值α 下限上限梯度beta0 0.3285 0.3337 28 0.98 0.33340.2-0.10950.7665-8.59E-7 beta1 0.8239 0.6046 28 1.36
0.18380.20.030391.61742.894E-7 beta2 0.2020 0.5806 28 0.35 0.73060.2-0.56000.9640-1.79E-7 s2u 0.6770 1.2602 28 0.54 0.59530.2-0.97702.3311-4.69E-8
3.2 例二：非线性混合效应模型拟合自变量与logit(P/1-P)不成线性关系logistic 回归
这是一个关于避孕药物的二期临床研究。

为了研究药物的剂量效应关系，将所有患者随机分为4组人群，每组按照4∶1比例分别进入药物组和安慰剂组。

4 组的药物组剂量分别 10、50、100、200 mg。

第 1 组有10人有8人剂量10 mg，2人服用安慰剂。

第2组有10人有8人剂量50 mg，2人服用安慰剂。

依次类推。

第1组连续用药14 d后测量药物对排卵的抑制。

接着第2组也连续用药14 d检查药物对排卵的抑制。

然后是第3组用药和评价，直至第4组用药和评价完毕，试验结束。

为了便于分析，将抑制排卵的作用分为即有效和无效，分别赋值为1，
0。

进行n次试验成功的概率为：
随机变量Y有二项分布Y～Bin(n,p)，其中n是观测总数和P的成功概率。

进入非线性模型作为独立变量Y。

用以下3个参数的Emax模型来估计剂量反应关系[3]。

其中E是Logit(p)，E0是基线反应，Emax是药物所能产生的最大效应，ED50是产生50%最大效应的剂量。

εij是受试者的随机效应，εij～Normal(0,δ2)。

使用PROC NLMIXED过程建立非线性Logistic回归模型。

所建立的模型在经过28次迭代后收敛。

采用常用的Dual quasi-Newton最优化技术与Adaptive Gaussian积分方法，-2Loglikelihood=13.5，参数估计结果见表2。

从上表可以得到3个参数的估计值，据此可以推算出非线性方程。

根据以下公式
可以计算出0、10、50、100、200 mg不同剂量组抑制排卵的概率分别为0.20、0.24、0.38、0.54、0.73。

表2 NLMIXED过程拟合Emax模型参数估计结果参数估计值标准误自由度 t值P值α 下限上限梯度E0 -1.38143 0.673906 5 -2.04988 0.0956570.05-
3.113760.3509036.5E-08 Emax 5.454734 9.532441 5 0.572228
0.5919340.05-19.049229.958653.21E-08 ED50 254.4097 752.8559 5
0.337926 0.7491450.05-1680.872189.687-4.7E-10
4 讨论
临床药物试验中常会遇到重复观测二项分布数据分析的问题。

对于此类数据的分析，常用Logistic回归模型，但是标准Logistic回归模型要求数据之间相互独立，重
复观测的数据不独立。

如例1中交叉设计的临床试验数据，数据间存在自相关性
且随机误差至少分为两个层次，即个体间误差和个体内重复测量误差。

分析此类数据不仅需要考虑不同层次的误差，而且也需要考虑参数间的非线性关系[4]。

非线性混合效应模型考虑了不同层次的误差和参数间的非线性关系，允许固定效应和随机效应进入模型的非线性部分，可以拟合具有随机效应的Logistic回归模型。

由于其非线性的特征，它也可以拟合自变量和logit函数不呈线性关系的Logistic 回归模型。

如例2药物代谢动力学临床试验中，由于药物在体内吸收、分布、代
谢和排泄过程的复杂性，常常不能通过简单的算术表达式来建立模型。

而非线性混合效应模型能够很好地模拟药物在体内的过程，可以用来估计模型的参数，解释变异，近年来在群体药代动力学中也有广泛应用[5]。

实例中，采用SAS软件中的PROC NLMIXED过程来分析数据。

PROC NLMIXED是一个开发性的SAS过程，可以用来分析非线性混合效应模型。

它可
以使用随机效应的经验Bayes估计方法来构建任意自定义函数，也可以对非随机
效应参数的任意自定义函数进行估计，通过delta方法计算其近似的标准误。

与PROC MIXED过程比较，PROC NLMIXED可以被看作是通过PROC MIXED过
程拟合的随机效应模型的推广，可以允许随机效应以非线性的形式加入模型。

而在PROC MIXED中随机效应则以线性形式加入模型。

正是由于非线性的特点，PROC NLMIXED不能用REML方法，只能用标准最大似然估计。

这一点与PROC MIXED不同。

另外，PROC MIXED假定数据是正态分布。

但是PROC NLMIXED分析的数据类型可以是正态，二项或者泊松分布。

PROC NLMIXED利用高斯积分来积分近似，可以产生真实的对数似然拟合模型，允许用户写出自己的函数，使用上有相当大的弹性去定义似然函数。

不足之处是PROC NLMIXED所能处理的随机效应少于 5 个[6]。

值得一提的是，PROC NLMIXED的用户必须先产生参数的初值然后把初值代入SAS程序中。

参数估计对初值非常敏感，初值的设定对模型是否收敛起着重要的
作用。

如果设定不好，很可能会导致模型不收敛，无法计算出可靠的估计。

模型不收敛是NLMIXED过程比较常见的问题，因为它涉及两个复杂的算法：第一个，通过高斯积分算出随机效应，从而得到最大似然估计；第二个步骤是quasi-Newton算法。

初值设定越准确，模型就越有可能收敛。

因为准确的初值会使回归参数估计算法的迭代次数减少，从而收敛成功的机会增大。

所以在NLMIXED 过程中提供合理准确的初始参数估计，是非常关键的一步。

一般地，可以使用PROC MIXED或PROC GENMOD来产生PROC NLMIXED的初值。

积累初值的设定经验、判断模型是否收敛及掌握模型评价的标准对于非线性混合效应模型的分析非常重要[7]。

5 附录
用PROC NLMIXED分析数据，两个例子相应的SAS程序分别为：
参考文献：
[1]王全众.两类分析相关数据的Logistic回归模型[J].统计研究,2007,24(2):81-3.
[2]陈卫中,杨晓虹,陈朝琼,等.非线性混合效应模型在交叉设计等级资料分析中的应用[J].成都医学院学报,2007,2(3-4):181-3.
[3]Macdouga ll J. Dose Finding in Drug [M]//Analysis of Dose-Response Studies-Emax Model.New York:Springer,2006:127-45.
[4]罗天娥,刘桂芬.重复测量资料非线性混合效应模型应用与实现[J].中国卫生统计,2006,23(2):104-7.
[5]FDA guidelines.Guidance for industry:population pharmacokinetics[C].Washington:FDA,1999:12-4.
[6]Flom PL,McMahon JM,Pouget ing PROC NLMIXED and PROC
GLMMIX to analyze dyadic data with a dichotomous dependent variable[C].SAS Global Forum 2007 Proceedings.2007:179.
[7]SAS Institute Inc.SAS/STAT 9.2 User's Guide[M].Cary:SAS Institute Inc.,2008:4337-40.。