论文经典方法:Logistic回归分析及其应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

输出结果的解释
回归系数的解释
系数的正负值: 系数的正负值:正(负)系数表示随自变量的 增加因变量logit值的增加(减少)。 值的增加( 增加因变量 值的增加 减少)。 二分类自变量 系数为比数比的对数值,由此比数比=e 系数为比数比的对数值,由此比数比 b 多分类自变量 以第i类作参照 比较相邻或相隔的两个类别。 类作参照, 以第 类作参照,比较相邻或相隔的两个类别。 连续型自变量 当自变量改变一个单位时,比数比为e 当自变量改变一个单位时,比数比为 b
2011-3-21
5
简单的解决方法
固定其他因素, 固定其他因素,研究有影响的一两个因 素; 分层分析: 分层分析:按1~2个因素组成的层进行 个因素组成的层进行 层内分析和综合。 层内分析和综合。 统计模型
2011-3-21
ห้องสมุดไป่ตู้
6
寻找合适的模型
进行logit变换 变换 进行
logit(p) = ln( 1 - p ), p为y=1所对应的概率 —— , 为 所对应的概率 0.1 logit(0.1) = ln( ——— ) = ln(0.1/0.9) 1 - 0.1
Logistic回归分析 Logistic回归分析 及其应用
温泽淮 DME中心 中心
2011-3-21 1
概述
1967年Truelt J,Connifield J和 年 , 和 Kannel W在《Journal of Chronic 在 Disease》上发表了冠心病危险因素 》 的研究,较早将Logistic回归用于医 的研究,较早将 回归用于医 学研究。 学研究。 一般概念
15
1 1 1 1 0 0
2.哑变量的设置和引入 2.哑变量的设置和引入
哑变量,又称指示变量或 哑变量,又称指示变量或设计矩 指示变量 阵。 有利于检验等级变量各个等级间 的变化是否相同。 的变化是否相同。 一个k分类的分类变量 可以用k分类的分类变量, 一个 分类的分类变量,可以用 1个哑变量来表示。 个哑变量来表示。 个哑变量来表示
变量名 SEX EDU 变量标识 性别 教育程度 变量值 1 2 0 1 2 值标识 男 女 文盲 小学 初中及以上
2011-3-21
14
variable labels qnum rnum pnum hnum chname drugroup name sex age value labels sex /hisc /nsex /demdx /addx /edu
交互作用的定义
当自变量和因变量的关系随第三个变量 的变化而改变时, 的变化而改变时,则存在交互作用
交互作用项的引入
基于临床实际认为对结果有重要影响 基于模型应用条件的分析 引入两个自变量的乘积项
交互作用的检验 交互作用的解释
2011-3-21 23
6.建立多个模型 6.建立多个模型
饱和模型 自定义的模型
2011-3-21
25
8.模型应用条件的评价 8.模型应用条件的评价
残差分析
残差是观察值与估计值之差
合理的logistic回归模型也可能得到 回归模型也可能得到 合理的 不理想的残差, 不理想的残差,这在自变量是二分类 变量时更易出现。 变量时更易出现。 增加交互作用项可能增加模型的效能
2011-3-21
30
非条件logistic回归 非条件logistic回归 logistic
研究对象之间是否发生某事件 是独立的。 是独立的。 适用于: 适用于:
成组的病例-对照研究 成组的病例 对照研究 无分层的队列研究或横断面调查 诊断性试验
2011-3-21 31
条件logistic回归 条件logistic回归 logistic
21
变量的筛选
变量筛选的可用方法
逐步logistic回归:自动选择有显著性的自变 回归: 逐步 回归 不仅用于自变量的剔选, 量,不仅用于自变量的剔选,也用于交互作 用项是否显著的判断。 用项是否显著的判断。 前进法:逐个引入模型外的变量 前进法: 后退法:放入所有变量, 后退法:放入所有变量,再逐个筛选
2011-3-21
'问卷序号' '录入序号' '病人编号' '住院号/门诊号' '患者中文姓名' '组别' '患者姓名' '患者性别' '患者年龄' '男' 2 '女' '是' 0 '否' 9 '无法判断' '正常' 0 '异常' 9 '未检' '有' 0 '无' '无' 1 '危险性' 2 '可能' 3 '很可能' ‘文盲’ 1 ‘小学程度’ 2 ‘初中及以上'
从饱和模型中选择自变量 再建立模型
2011-3-21
24
7.选择较优的模型 7.选择较优的模型
模型拟合优度检验
AIC(Akaike information criterion): ( ): 同一资料的多个模型的比较,此值越小,模型越合适。 同一资料的多个模型的比较,此值越小,模型越合适。 SC(Schwartz criterion):同上 ):同上 ( ): Score统计量 同上,但不包括截距项。 Score统计量:同上,但不包括截距项。 统计量: -2logL(似然比检验,Omnibus Test):检验全部自 (似然比检验, ) 变量的作用是否显著。较为可靠。 变量的作用是否显著。较为可靠。适用于含连续性变 量的情况。模型拟合好, 值大, 值小 值小。 量的情况。模型拟合好, x2值大,P值小。 Hosmer-Lemeshow检验:评价估计概率和观察概率 检验: 检验 接近的程度。适用于含连续性变量的情况。模型好, 接近的程度。适用于含连续性变量的情况。模型好, x2值小,P值大。 值小, 值大 值大。
2011-3-21
10
概述小结
logistic回归对因变量的比数的对数值 回归对因变量的比数的对数值 回归 ( logit值)建立模型 值 因变量的logit值的改变与多个自变量的 因变量的 值 加权和呈线性关系 加权和呈线性关系 因变量呈二项分布
2011-3-21
11
分析的一般步骤
变量的编码 哑变量的设置和引入 各个自变量的单因素分析 变量的筛选 交互作用的引入 建立多个模型 选择较优的模型 模型应用条件的评价 输出结果的解释
正确选择预测概率界值, 正确选择预测概率界值,简单地以 0.5为界值,但并不是最好的。 为界值, 为界值 但并不是最好的。
C指数 指数
预测结果与观察结果的一致性的度 值越大( ),模型预 量。C值越大(最大为 ),模型预 值越大 最大为1), 测结果的能力越强。 测结果的能力越强。
2011-3-21
Z = a + b1x1 + b2x2 + … + bkxk
称此为logistic回归模型 回归模型 称此为
2011-3-21
8
P = ez / (1 + ez ) ea+b1x1+b2x2+… +bkxk P= 1 + ea+b1x1+b2x2+… +bkxk 此为非条件logistic回归模型 回归模型 此为非条件 应用于成组数据的分析
2011-3-21
9
自变量取定一些值时,因变量取0 自变量取定一些值时,因变量取0、1的概率就 是条件概率,对条件概率进行logistic回归, logistic回归 是条件概率,对条件概率进行logistic回归,称 条件logistic logistic回归 为条件logistic回归
表达式: 表达式: eb1x1+b2x2+… +bkxk P= 1 - eb1x1+b2x2+… +bkxk 常用于分析配比的资料
2011-3-21 28
输出结果的解释
模型拟合的优劣
自变量与结果变量(因变量) 自变量与结果变量(因变量)有无关系
确认因变量与自变量的编码 模型包含的各个自变量的临床意义 由模型回归系数计算得到的各个自变 量的比数比的临床意义
2011-3-21
29
输出结果的解释
模型的预测结果的评价 敏感度、 敏感度、特异度和阳性预测值
0.00 -4.00 -2.00 0.00 2.00 4.00
X:自变量
2011-3-21 4
一般直线回归难以解决的问题
医学数据的复杂、 医学数据的复杂、多样
连续型和离散型数据
医学研究中疾病的复杂性
一种疾病可能有多种致病因素或与多种危 险因素有关 疾病转归的影响因素也可能多种多样 临床治疗结局的综合性
p
2011-3-21
7
logit(p) = ln( —— )
1-p
p
p=0或1时,此式失效 或 时
以 p = r/n 代之 logit(p) = ln [ (r + 0.5) / (n – r + 0.5) ]
此称经验 此称经验logistic变换 经验 变换
代上式的logit(p), 以Z代上式的 代上式的
研究中有N个配比组,每组中 个病 研究中有 个配比组,每组中n个病 个配比组 例配m个对照者 这时, 个对照者。 例配 个对照者。这时,各个研究 对象发生某事件的概率即为条件概 率。 适用于 配比设计的病例-对照研究 配比设计的病例 对照研究 精细分层设计的队列研究
理论上看,前进法选择变量的经验公式缺乏总体概念, 理论上看,前进法选择变量的经验公式缺乏总体概念, 当用于因素分析时,建议用后退法。 当用于因素分析时,建议用后退法。当变量间有完全相 关性时,后退法无法使用,可用前进法。 关性时,后退法无法使用,可用前进法。
2011-3-21
22
5.交互作用的引入 5.交互作用的引入
26
9.输出结果的解释 9.输出结果的解释
模型中各个系数的显著性检验
Wald检验:类似于直线回归系数的 检验: 检验 t检验 检验 Wald x2检验:同上 检验: 似然比检验: 似然比检验:自变量不在模型中与 在模型中的似然值比较。 在模型中的似然值比较。 Score检验 检验
2011-3-21 27
2011-3-21 12
1.变量的编码 1.变量的编码
变量的编码要易于识别 注意编码的等级关系 改变分类变量的编码, 改变分类变量的编码,其分析的意 义并不改变。 义并不改变。 牢记编码
使用变量数值标识( 使用变量数值标识(value labels) ) 记录编码内容
2011-3-21 13
变量的编码
一元直线回归 多元直线回归
2011-3-21
2
一元直线回归模型 y=a+bx+e 多元直线回归模型 y = a + b1x1 + b2x2 + … + bkxk + e
2011-3-21
3
F(y) :因变量的logit值
1.00
0.75
0.50
0.25
如果一定要进 行直线回归也 可以做出结果, 但此时效果不 佳。当自变量 取一定值时, 因变量的预测 值可能为负数。
2011-3-21
19
3.自变量的单因素分析 3.自变量的单因素分析
了解自变量与因变量的分布 检验是否符合建立模型的应用条件
偏离应用条件时,进行数据变换 偏离应用条件时,
各个自变量两组间的比较
计数资料 计量资料
双变量分析
2011-3-21
20
4.变量的筛选 4.变量的筛选
变量筛选的原则
专业上考虑 测量上考虑
2011-3-21 16
哑变量的设置
文盲,小学,初中, 教育程度:文盲,小学,初中,高中以上 教育程度
X1 0 1 0 0
X2 0 0 1 0
X3 0 0 0 1
文盲:0 小学:1 初中:2 高中:3
2011-3-21
17
以高中作为参照
教育程度
X1 1 0 0 0
X2 0 1 0 0
X3 0 0 1 0
共线性问题:计算相关矩阵,相关系数0.8共线性问题:计算相关矩阵,相关系数0.80.9,则选其一。 ,则选其一。 缺失数据少、 缺失数据少、测量误差低的优先选择
经验上考虑
双变量分析中有显著性的自变量( 0 ) 双变量分析中有显著性的自变量(P ≤0.15) 选择那些改变主效应的自变量
2011-3-21
文盲:0 小学:1 初中:2 高中:3
2011-3-21
18
SPSS提供的方法
Indicator: 默认。以第1 或最后1类作对照,其他每类 与对照比较; Sample: 以第1 或最后1类作对照,其他每类与对照比 较,但反映平均效应。 Difference: 除第1类外各分类与其前各类平均效应比较; Helmert: 除最后1类外各分类与其前各类平均效应比较; Repeated: 除第1类外各分类与其前一类比较; Polynomial: 假设类间距相等,用于数值型变量。 Deviation: 以第1 或最后1类作对照,其余每类与总效 应比较。
相关文档
最新文档