第九讲 Modeler分类预测:logistic回归.

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

吸烟与不吸烟组的方程分别是:
两组发生比的比率为:
OR S VS. NS odds (smokers ) e ( 0 1 ) e 1 0 odds (nosmokers ) e
可见,当解释变量是1/0二组时,两组间的发生比比 率是回归方程相应回归系数的函数,它反映了当输 入变量取不同值所导致的发生比的变化率
k P ln( ) 0 i xi 1 P i 1
Logit P 0 i xi
i 1
k
二项Logistic回归
P与自变量间是否为非线性关系:
k P exp( 0 i xi ) 1 P i 1
P (1 P) exp( 0 i xi )
logit[ pr(Y 1)] ln(odds ( X A )) 0 1 1 2 45 3 1 logit[ pr(Y 1)] ln(odds ( X B )) 0 1 0 2 45 3 1
两组发生比的比率为:
OR XA VS. XB odds (X A ) e (10) 1 ( 4545) 2 (11) 3 e 1 odds (X B )
二项Logistic回归
当被解释变量为二项(0/1)分类变量时,被变量的取值范 围和与自变量的关系问题: 根据回归模型的意义,可知:
E ( y i ) 0 i xi
i 1 k
Py 1 0 i xi
i 1
k
一般回归模型下的被解释变量的取值范围是-∞~+∞ 这里,被解释变量的取值范围是0~1 一般回归分析建立模型,解释变量与P间的关系只能是 线性的
二项Logistic回归 ---发生比
发生比Ω =P/(1-P),即某事件发生的概率与不发生的 概率之比 利用发生比比率可以进行组之间风险的对比分析 例如,如果吸烟得肺癌的概率是0.25,不吸烟得肺 癌得概率是0.10,则两组的发生比比率为:
ORA VS..B pr( D A ) pr( DB ) 1 1 / / 3 1 pr( D A ) 1 pr( DB ) 3 9
分类预测:Logistic回归
二项Logistic回归 ---问题提出
研究二项分类变量与其他变量之间的关系
例如:研究吸烟对是否得肺癌的影响,并以年龄和 性别作为控制变量,特点: 被解释变量是二分类变量 解释变量有品质变量和定距变量 吸烟与肺癌之间并非一种线性关系
对二项分类的被解释变量可否直接采用一般多 元线性回归分析方法? 结论:不可以
二项Logistic回归
解决问题的方向 能否对概率P进行转换处理后,使其取值范围与一般线 性回归模型吻合 对概率P应采用非线性转化处理 所有的转化都不应改变解释变量和被解释变量之间关 系的方向
二项Logistic回归 ---理论上的处理
进行两步转换处理: 第一步,将P转换成Ω
P 1 P
Ω 称为发生比或相对风险 对P的转化是非线性的 Ω 是P的单调增函数 发生比的取值范围:0~+∞
吸烟的发生比是不吸烟的三倍,吸烟组得肺癌的风 险高于不吸烟组
二项Logistic回归 ---发生比
如果被解释变量y(肺癌1=得/0=没),自变量x只有一 个(x1吸烟1=吸烟/0=不吸烟),则logistic方程为:
logit[ pr(Y 1)] 0 1 X 1 logit[ pr(Y 1)] ln(odds (smoker )) 0 1 1 0 1 logit[ pr(Y 1)] ln(odds (nonsmkers )) 0 1 0 0
i 1
k
P exp( 0 i xi ) P exp( 0 i xi )
i 1 i 1
k
k
(0,1)型Sigmoid 函数
P[1 exp( 0 i xi )] exp( 0 i xi )
i 1 i 1
k
k
P
1 1 exp[( 0 i xi )]
二项Logistic回归 ---理论上的处理
进行两步转换处理: P ln() ln( ) 第二步,Ω 转换成lnΩ 1 P –lnΩ 称为Logit P –Logit P与Ω 仍呈增长(或下降)的一致性关系 –Logit P的取值于-∞~+∞
二项Logistic回归 ---理论上的处理
二项Logistic模型:
二项Logistic回归 ---发生比
如果被解释变量y(肺癌1=得/0=没),自变量x有三个 (x1吸烟/x2年龄/x3性别),则logistic方程为:
logit[ pr(Y 1)] 0 1 X 1 2 X 2 3 X 3
XA=(1,45,1)与XB=(0,45,1)的方程分别是:
当其他解释变量保持不变而研究观测变量变化一个单 位对Ω 的影响时,可将新的发生比设为Ω *,则有发生 比比率为:
这里的主要目的是研究吸烟对肺癌的影响,因此年 龄和性别是作为控制变量存在的,该发生比比率为 调整的发生比比率,它与不包括控制变量在内的比 率是不相等的。(也可将定距变量作观测变量)
二项Logistic回归 ---发生比
自变量对发生比Ω 的影响
exp( 0 i xi )
i 1 k
i 1 k
P
exp( 0

i 1 k i 1
k
i
xi )
i
1 exp(Βιβλιοθήκη Baidu0

xi )
神经网络节点
二项Logistic回归 ---回归系数的含义
回归系数表示当其他自变量取值保持不变时,某自变 量取值增加一个单位引起Logit P平均变化β i个单位 在模型的实际应用关心的是自变量变化引起事件发 生概率P变化的程度 当自变量xi变化时,对概率P的影响程度是非线性的, 不易直观理解 • 更注重自变量对发生比Ω 的影响
相关文档
最新文档