17-多元logistics回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SC 2 log(L) ( g k ) log(n)
似然比检验法(G= -2log L)。用于检验全部自变量(包括常数项)对因变量的 联合作用。它的计算公式是:
G 2 log(L)
计分检验法(Score)。用于检验全部自变量(不包括常数项)对因变量的联合 作用。
平行性检验 当因变量为多值变量时,模型包含多个回归方程。Logistic回归 分析要求这多个回归方程中自变量的系数是相等的。因此对于 多值变量的logistic回归模型,要求作平行性检验,也称为比例 比数假设检验(test for the proportional odds assumption),使用
从数学角度看,很难找到一个函数y=f (x),当x变化时,它对应的函数 值y仅取两个或几个有限值。 研究者将所要研究的问题转换了一个角度,不是直接分析y与x的关系, 而是分析y取某个值的概率p与x的关系。
分析因变量y取某个值的概率p与自变量x的关系,等价于寻找一个连续 函数p=p(x),使得当x变化时,它对应的函数值p不超出[0,1]范围。数学上这 样的函数是存在且不唯一的,logistic回归模型就是满足这种要求的函数之一。 从数学角度看,logistic回归模型非常巧妙地避开了分类型变量的分布 问题,补充完善了线性回归模型和广义线性回归分析的缺陷。
基本原理 数学模型 方法步骤 系数解释 条件Logistics分析 应用
条件似然函数 共有n个匹配组,1:m配对,p个变量资料的条件似然函数:
L
i 1
n
1 1 1 xij1 xi 01 p xijp xi 0 p
m j 1
再用最大似然法求解参数估计值,由于匹配关系,在模型中不含常数项。
根据数据的类型,logistic回归分析分为两种:
一种是条件logistic回归(conditional logistic regression),用 于分析配对病例对照研究数据。
另一种是非条件logistic回归(unconditional logistic regression),用于分析成组数据或非配对的病例对照研究。
e x exp x p p ( y 1 x) x 1 e 1 exp( x)
p 1 p=p(x) 0.5
0
-α /β 图7-1 变量 p 与 x 的关系
x
多元 logistic回归模型
exp 1 x1 2 x2 k xx p p ( y 1 x) 1 exp( 1 x1 2 x2 k xk )
j x) exp( ,当1 j g 1 p j p( y j x) 1 exp( j x) 1,当j g
第一个模型表示了y 取第一个值的概率p1与x的关系;第二个模型表示了y 取前两个值的累积概率p2与x的关系。这两个模型的常数项不同,回归系 数完全相同的。 y 取第一个值的概率p(1)=p1 ,y 取第二个值的概率 p(2)=p2 -p1,y 取第三个值的概率p(3)=1- p2 。它们的截距不同,斜率相 同,所以是g-1条平行直线族。多值因变量logistic回归模型要求进行数据的 平行性检验。
如果对模型的概率 p 进行logit 变换
p logit ( p) ln 1 p
logistic回归模型的另一种形式,它给出的是变量z=logit(p)关于x 的线性函数
p logit ( p) ln 1 p 1 x1 2 x2 k xk
量反应的趋势分析等。
内容
• • • • • •
基本原理 数学模型 方法步骤 系数解释 条件Logistics分析 应用
-
实例分析
某大学医院外科采用两种不同的绷带(bandage-4-layer和convatee)和两种不同的包 扎方式(Granuflex和Na)进行腿溃疡的治疗处理。治疗的结果分三种:不愈、有效和 痊愈。治疗方式和治疗效果列在表7-6中。试分析治疗方法对治疗效果的影响。 设因变量 y 表示治疗效果,0=不愈、1=有效、2=痊愈。设因变量 x 1表示绷带种类, 1=bandage-4-layer、2=convatee。自变量 x 2 表示包扎方式,1=Granuflex、2=Na。
有交互影响的多元logistic回归模型的系数解释 设因变量 y 取值1和0,分别表示患病和未患病。设自变量 x 1取值1和 0,设自变量 x 2取值1和0。这样 x 1 和 x 2 的交叉水平有四个,它们 是(1,1)、(1,0)、(0,1)、(1,1),建立四个哑变量分别代表这四个水平, 记为 x11、 x 10、 x 01、 x 00 ,它们表示了四种不同的方式。将前 三个哑变量放进模型,则可以得前三种方式相对于最后一种方式患病 的相对危险度。
多值变量的 logistic回归模型
pj log it ( p j ) ln 1 p j
j 1 x1 2 x2 k xk
p j = p( y≤ j | x ),它表示了 y 取前 j 个值的累积概率(cumulative probability)。 累积概率函数
的方法是计分检验法。 当检验结果p>0.05时,没有理由拒绝上述无效假设,这时,多
值变量的logistic回归模型有统计意义。否则,应当将因变量的 某些值合并,减少因变量的取值个数,使得多值变量logistic回 归模型的平行性成立。
内容
• • • • • •
基本原理 数学模型 方法步骤 系数解释 条件Logistics分析 应用
非条件logistic回归分析也简称为logistic回归分析。
内容
• • • • • •
基本原理 数学模型 方法步骤 系数解释 条件Logistics分析 应用
logistic回归模型对变量的要求
Logistic回归分析要求因变量是分类变量,包括顺序变量和名义变量。
不论是哪种变量都要用数字来表示它的取值。自变量可以是数值型连续 变量,也可以是顺序型分类变量,如果是名义变量,则需要转换成哑变 量来处理。
多元Logistics回归分析
内容
• • • • • •
基本原理 数学模型 方法步骤 系数解释 条件Logistics分析 应用
内容
Βιβλιοθήκη Baidu
• • • • • •
基本原理 数学模型 方法步骤 系数解释 条件Logistics分析 应用
因变量y 是分类型变量,自变量x是与之有关的一些因素。但是,这样 的问题却不能直接用线性回归分析方法来解决,其根本原因就在于因变量是 分类型变量,严重违背了线性回归分析对数据的假设条件。
如果模型中因变量y=1,0分别表示有胃病和无胃病;自变量 x 1 =1,0 分别表示吸烟和不吸烟;自变量 x 2 =1,0分别表示饮酒和不饮酒, 那么,eβ1 近似地表示消去了饮酒因素的影响后吸烟者患胃病的几
率与不吸烟者患胃病的几率之比。eβ2 近似地表示消去了吸烟因素
的影响后饮酒者患胃病的几率与不饮酒者患胃病的几率之比。
内容
• 基本原理 • 数学模型 • 方法步骤
参数估计 检验参数 模型检验 平行性检验
• 系数解释 • 条件Logistics分析 • 应用
参数估计 在logistic回归分析模型中,回归系数的估计方法通常是最大似然 法(Maximum Likelihood method)。最大似然法就是选取使得总体 真参数落在样本观察值领域里的概率达到最大的参数值作为真参 数的估计值。 为了得到一个非偏估计(non-biased estimate),需采用重复递推 的方法,将最大似然估计值不断修正。软件系统使用的是重复加 权最小二乘递推法(iteratively reweighted least squares algorithm) 来估计回归系数。 和线性回归分析一样,logistic回归模型的回归系数是自变量对应 变量作用大小的一种度量。因为自变量的单位不同,不能用回归 系数的估计值来判断哪一个自变量对因变量的影响作用最大。为 了要进行比较,需要计算出标准回归系数。计算原理和线性回归 分析一样。在标准回归系数估计值中,绝对值最大的标准回归系 数对应的 x 变量对 y 变量的影响最大。
logistic回归模型的个数 取决于因变量的取值个数。因为 logistic回归模型描述的是因变量取每 个值的概率与自变量的关系,因此因变量的每一个值都对应一个模型。 但是由于概率之和为1,所以当因变量是g值变量时,只需要估计g-1 个模型
二值因变量的 logistic回归模型 假设因变量 y是一个取值为1和0的二值变量(binary variable),x 是一个影响y 的危险因子(risk factor)。令在x 条件下y=1的概率是 p=p(y=1| x),那么,表达式 :
一元logistic回归模型系数的解释 当发病率很低时,OR≈RR,因此这时e β≈RR,也就是说,e β近似 地表示了相对危险度,即暴露下的发病率与非暴露下的发病率之比。 有哑变量的logistic回归模型系数的解释 每一个组与对照组的相对危险度的估计值。
任意两组间的OR=eβi / eβj 无交互影响的多元Logistic回归模型的系数解释
复习相关概念 相对危险
RR
p1 p2 p1 1 p1 p2 1 p2
比数比
OR
相对危险RR表示暴露在危险因子下的发病率与不暴露在危险因子下的 发病率的比。例如,如果RR=2.5,那么,暴露下的发病率是非暴露下 的发病率的2.5倍。比数比OR表示暴露在危险因子下的发病率与不发病 率之比与非暴露在危险因子下的发病率与不发病率之比的比。比较以上 公式可以看出,当发病率很低时,OR≈RR。因此,当发病率很低时, OR=2.5也可以解释为:暴露下的发病率是非暴露下的发病率的2.5倍, 或暴露下发病的几率比非暴露下发病的几率高150% 。
模型检验 logistic回归模型的总体检验常用的方法有: AIC检验法(Akaike Information Criterion)。用于比较同一数据下的不同模 型(含自变量个数不同)。AIC值越小,模型越合适。AIC值的计算公式是:
AIC 2 log(L) 2( g k )
SC检验法(Schwarte Coriterion)。和AIC一样,用于比较同一数据下的不 同模型(含自变量个数不同)。SC值越小,模型越合适。SC的计算公式是:
数据资料特征 1:3配对
内容
• • • • • •
基本原理 数学模型 方法步骤 系数解释 条件Logistics分析 应用
Logistic回归分析在医学研究中有着相当广泛的应用价值。归纳起来主要的应用 有: 1)筛选危险因子。它常用在流行病学的病因学研究中。 2)校正混杂因子,校正非研究因素对研究因素的混杂作用。如它可以消除性别、 年龄、病情等对治疗效果分析的干扰,消除年龄、职业、收入等对生活嗜好与疾病 关系分析的干扰等。 3)预测疾病或事件发生的概率。非条件logistic回归模型是一个概率模型,它可 以用来预测事件发生的概率,如暴露在某些危险因素下得病的概率,这是其它模型 不具有特性。 4)将样本进行判别分类。它起的作用和判别分析(第十三章,例13-2)一样,但它 对数据的分布没有严格要求,在医学研究中使用很方便。 5)logistic曲线的拟和。医学中不少指标变量之间的关系呈现如图7-1所示的 logistic曲线形状。例如剂量和反应的关系。根据拟和曲线可以作有效剂量估计,剂
多值变量的logistic回归模型的系数解释 对于多值因变量模型,平行性假设决定了每个自变量的OR值对于前g1个模型是相同的。例如,变量x1的OR=5.172,它表示使用第一种的 可能性是使用第二种的5.172倍;它也表示使用第一种至少有效的可能 性是使用第二种的5.172倍。
内容
• • • • • •
检验参数
统计假设常用的方法是Ward卡方检验。当大于样本对应的Ward 卡方值的概率小于0.05时,在统计意义上可以拒绝上述零假设。 即,可以认为第 j个 x 变量对y=1的概率p有显著性影响,其犯第 一类错误的可能性不超过5% 。和线性回归分析一样,当自变量 个数较多时,可采用逐步回归分析方法来筛选危险因子。