logistic回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Cp准则的计算公式
1964 年CL Mallows 提出 ( SS 残 ) p Cp (n 2 p) ( MS 残 ) m ( n p 1)( MS 残 ) p ( MS 残 ) m (n 2 p)
C p 接近( p 1)的模型为最佳
AIC准则的计算公式
1973 年由日本学者赤池提出 AIC n ln[( n (最小二乘法 ) AIC 越小越好
回归的发展
加权回归 有重复测量的回归分析:对每一个回归 变量x的y有多次重复的测量值。 岭回归分析:改进的最小二乘方,用于 自变量相关性大,或某些变量变化范围 太小。可用sas实现。
Logistic回归
实际上属于判别分析,因拥有很差的判 别效率而不常用。
适用于流行病学资料的因素分析 实验室中药物的剂量-反应关系 临床试验评价 疾病的预后因素分析
自变量的选择
全局择优法:
求出所有可能的回归模型(共有2m-1个)对应的准则值; 按R2,Cp准则,AIC准则等统计量选择最优模型。求出所有
可能的回归模型(共有2m-1个)对应的 准则值;按上述准则选择最优模型 缺点:
如果自变量个数为4,则所有的回归有24-1= 15个; 当自变量数个数为10时,所有可能的回归为 210-1= 1023个;……;当自变量数个数为50时,所有可能的 回归为250-1≈1015个。
In univariate analysis, the family histories of SAH and ICH were positively associated with each of the subtypes of stroke. whereas after adjustment for potential risk factors, family history of ICH no longer showed a significant association with haematoma.
回归的实际应用
在影响因素分析中
一种是探索模式,在回归模型中探索所有
可能的自变量与应变量的关系 一种是控制模式,即控制混杂因素的影响
后者对回归模型的要求要小的多,不出现异常 情况,可仅对模型拟合稍作考虑。
SPSS菜单
analyze-regression-linear
变量的数量化
(1)自变量为连续型变量 :必要时作变换 (2)自变量为有序变量:依次赋值,如疗 效好中差,可分别赋值3、2、1 (3)自变量为二分类:如令男=1,女=0 (4)自变量为名义分类:需要采用哑变量 (dummy variables)进行编码
自变量到底如何选择
两种方法结合手工选择,逐步选择法选 择后手工增减变量看校正决定系数(R2c) 等方程拟合优劣指标的好坏 放宽或限制进入方程的标准,特别是在 逐步回归的时候 硬性进入方程最感兴趣的研究变量
统计“最优”与专业的“最优”
不同准则、方法得出的“最优”方程 不同; 不同的引入、剔除标准获得的“最优 ”方程不同; 方程还受数据的正确性、共线性影响
SPSS菜单在处理回归中选项较少,
线性回归的注意事项
但完全可以满足一般模型的拟合。 应变量为连续变量,自变量可以为连续变量、分类变 量或有序变量 其syntax模式应该有更多选项,但鉴 样本含量:一般要求样本量 n至少是方程中自变量个数 于介绍这方面内容的书籍文献较少。 m的5-10倍 如确实需要严格的模型拟合, 逐步回归不是万能的,一个good of fit好的模型建立需 SAS可能是更好的选择 要多方面考证。 共线性很大 多重共线性:自变量存在较强的线性关系 检验两变量间有无交互作用,普遍的做法是在方程中 加入它们的乘积项再做检验。但共线性的问题会因此 而突出,举例
强影响点,记录的选择 变量
记录
强影响点,记录的选择
从理论上讲,每一个样本点对回归模型 的影响应该是同等的,实际并非如此。 有些样本点(记录)对回归模型影响很 大。对由过失或错误造成的点应删去 没有错误的强影响点可能和自变量与应 变量的相关有关,不可轻易删除。
判断强影响点的指标
SPSS软件中的指标 analyze-regression-linear-save Save中的选项均进入数据库,而不出现 在output中 各种残差越大,单一记录对方程的影响 越大
这样,一个回归方程就建立了,回归方 程的建立就是如此easy。
线性与拟合优度
有线性关系拟合优度不一定很好 上述F和t检验有统计学意义,只是说明 自变量 与y有线性关系,但未能表示“关系有多大” 举例:上述方程的R2很小,但因为样本量大, F值很大 R2的意义:可以由BMI,age和膳食口味解释 SBP的4.3%变化 我认为,因素分析可以只考虑线性关系的有无。 特别是在控制模式中。
控制:指定应变量Y的值查看自变量的改变量
后两种用途对模 型要求严格
二、应用条件
回归系数符号反常与主要变量选不进方程 的原因分析 有重要影响的因素未包括在内 某些变量个体间的差异很大 样本内突出点上数据误差大 变量的变化范围较小 样本数太少 上述各项在用最小二乘法求解方程过程中 对残差等重要中间指标的影响大,造成 最小二乘法的失效。
2 p) / n S y.12 p ] 2 p
自变量的选择逐步选择法
逐步选择法:
(一)前进法(forward) (二)后退法(backward) (三)逐步回归法(stepwise)
小样本检验水准定为0.10或0.15,大样本把值 定为0.05。值越小表示选取自变量的标准越严。
注意,引入变量的检验水准要小于或等于剔除变 量的检验水准。
全局择优法
决定系数(R2)和校正决定系数(R2c),可以 用来评价回归方程的优劣。【 R2随着自变量
个数的增加而增加,所以需要校正】
校正决定系数(R2c)越大,方程越优。 Cp选择法:选择Cp最接近p或p+1的方程 (不同学者解释不同)。 Cp无法用Spss直接计算,可能需要手工。 其中p为方程中自变量的个数,m为自变量 总个数
复制的BMI根本 无法进入方程
后面讨论交互作用的时候 我们还要提到共线性 容许度越近于0 共线性越大,等于0,完全共线
在医学研究中最为长用,个人认为 对模型拟合要求较低,特别在 控制混杂的控制模式中 影响因素分析,控制混杂因素 预测:由自变量值推出应变量Y的值
影响因素分析,控制混杂因素 一、应用
为等级或计数 资料
有统计学家持反对意见 认为损失信息
26例冠心病病人和28例对照者进行 病例对照研究(数据格式)
Logistic回归方程的建立
建立方程就是求解b0,b1…bp
参数意义
Logistic回归中的常数项(b0)表示,在不接 触任何潜在危险/保护因素条件下,效应指标 发生与不发生事来自百度文库的概率之比的对数值。
共线性 collinearity:自变量间存在着线性关系
各自变量的假设检验与评价,检 验各自变量和应变量是否有线性 回归方程的建立 关系,P<(可放宽)说明有线性关 系,同样t值不说明线性关系的强 就是求解b0和bi的过程 弱, 将回归方程中的所有自变量作为一个整体来 矩阵的各种计算(求解线性方程) 检验他们于应变量之间是否具有线性关系, SPSS的实现: P<0.05,说明所拟合的方程具有统计学意义, analyze-regression-linear 但并不说明模型拟合的好坏
Is family history an independent risk factor for stroke? J Neurol Neurosurg Psychiatry. 1997 Jan;62(1):66-70.
多元线性回归(简单步骤)
指标多,难以理解。在 计算自动化时代,这是 回归的难点,我们不懂 如何判断我们的模型的 好坏
Logistic回归中的回归系数( bi )表示,某一 因素改变一个单位时,效应指标发生与不发生 事件的概率之比的对数变化值,即OR或RR的 对数值。
回归系数的意义
单纯从数学上讲,与多元线性回
归分析中回归系数的解释并无不 同,亦即bi表示xi改变一个单位 时, logit P的平均变化量。
多重共线性的诊断
SPSS中的指标
容许度:越近似于0,共线性越强 特征根:越近似于0,共线性越强 条件指数:越大,共线性越强
Spss的实现与结果
analyze-regression-linear-statistics
实例
不过两者的共线性 对方程的影响并不大
从第四个特 以BMI为应变量,SBP,DBP和年龄为自 征根看,特 变量进行回归。结果如图 征根小,条 件指数大, 极端例子:以SBP为应变量,BMI和复制 从变量的方 BMI为自变量,结果为其中之一无法进 差比例来看, SBP和DBP在 入方程 其中贡献最 大,可以说 两者有近似 共线性
我们要讨论的是
• • • • • SPSS建立方程 检验方程总体和各自变量的统计学意义 自变量的筛选 Case的剔除(强影响点) 共线性诊断
建立方程的 计算量很大, 一般需软件 线性回归 完成。前人 手工计算这 Logistic 回归 两种回归 注:完全可以用于单因素分析,从这一点也可以看出统计学的方 (借助科学 法是相通的。 计算器), SPSS无法进行条件Logistic回归 ,就像sas没有专门针对配对资 精神可嘉
Family
history of intracerebral haematoma was not an independent risk factor for haematoma, but it might be a good predictor, which indirectly influences the pathogenesis of intracerebral haematoma via certain hereditary components such as hypertension, and even lifestyle factors such as alcohol consumption.
二、 Logistic回归模型
Logistic回归的分类
二分类 多分类 其中二分较为常用
条件Logistic回归 非条件Logistic回归 两者针对的资料类型不一样,后者 者针对 成组研究,前者针对配对或配伍研究。
26例冠心病病人和28例对照者进行 自变量为连续 病例对照研究(变量赋值表) 变量,最好变
名义分类变量的哑变量化
假如职业分类为工、农、商、学、兵5 类,则可定义比分类数少1个,即4个哑变 量。编码方法如下:
数据格式
回归的一些定义
yi=b0+b1x1i+b2x2i+…+bnxni
应变量(dependent variable) 自变量( independent variable) 偏回归系数 pertial regression coefficient 常数项b0 决定系数 determination coefficient,R square
料的语句一样,任何统计软件均有局限性。 80 年代,一个
多元统计方法
Logistic回归即 使用计算机,计 算的时间也以天 计。
调整或控制
多变量的控制或调整法就是同时记录可 能有影响的因素,把他们与可能的危险 因素一起作分析 单因素分析有统计学意义,多因素分析 没有意义的解释,举例
单因素分析有意义,多因素没有意义的解释
判断强影响点的指标(2)
距1越远,越是强影响点 其余指标绝对值越大越 是强影响点
多重共线性
自变量间存在着线性关系,使一个或几个 自变量可以由另外的自变量线性表示时,称为 该变量与另外的自变量间存在有共线性 (collinearity)。容易出现: 回归系数的符号与由专业知识不符 变量的重要性与专业不符 整个方程决定系数R2高,但各自变 量对应的回归系数均不显著。