Logistic回归分析(LogisticRegressionAnalysis)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 由于
模型参数的意义
log it( ) ln( ) ln(Odds) 1
Odds e(0X )
模型参数的意义
• 例中
“超重或肥胖”组(X=1)患高血压的优势
为:
Odds1 e(0 1) e(0 )
“正常”组(XO=d0d)s0患高e(血0 压0的) 优e势0为:
两组O的R优势 比o(doddds1s odds0
log it( ) ln( ) ln(Odds) 1
• 这个变换将取值在0-1间的值转换为值域在
( , )的值。
• 建立log it( )与X的线性模型:
• log it( ) 0 X

ln( 1
)
0
X
Logistic回归模型
• 求解
•ln( 1
)
0
X
e(0X ) 1
e(0X )
• 当变量Xj的回归系数Βj >0时, Xj增加1个单位后与 增加前相比,事件的优势比ORj >1,表明Xj为危险 因素;
• Βj <0时, Xj增加1个单位后与增加前相比,事件的 优势比ORj <1 ,表明Xj 为保护因素;
• Βj =0 , Xj增加1个单位后与增加前相比,事件的 优势比, ORj =1,表明Xj对结果变量不起作用。
1 e e(0 1X1P X P )
1 e 1 (0 1X1P X P )
模型参数的意义
• Β0 :常数项(截距),表示模型中所有自变 量均为0时,log it( ) 的值;
• β1 , β2 、... βP:回归系数 ,表示在控 制其他自变量时,自变量变化一个单位所引
起的
log it( ) 改变量。
Logistic 回归分析 (Logistic Regression Analysis)
Logistic 回归分析
多重线性回归分析的前提条件 • 线性;独立;正态;等方差
医学中还常研究二分类因变量(如患病与 未患病、阳性与阴性等)或多分类因变量 与一组自变量(X1,X2,...Xm,)的 关系,线性回归分析方法就无能为力。
0

1X1i
P
X
i p
)
]1Yi
Logistic回归的参数估计
• 对于n个独立个体,给定自变量时,出现当 前观察结果的概率为上述n个概率的乘积
P(Y1,Y2 ,,Yn X 1, X 2 , X n )
n
1 1 Yi
[1 e ] [1 1 e ] i1
(
0
1
X1i
P
X
i p
)
1Yi
(
0
1
X
i 1
P
X
Logistic回归模型
• 例 为探讨超重和肥胖对高血压病的影响, 2004年,某研究者采用整群抽样的方法, 对某地6个镇35周岁以上的常住人口进行高 血压普查,同时收集了身高、体重等相关 信息。整理后资料见下表。
• 目的:建立高血压患病率与体质指数间的 数量关系模型,估计超重与肥胖对高血压 患病的风险。
Logistic 回归分析
Logistic 回归分析可解决: 应变量为: • 二分类; • 无序多分类; • 有序多分类; • 本次教学主要介绍应变量为二分类的
Logistic 回归分析
Logistic 回归分析
按设计, Logistic 回归分析分为:
• 成组:非条件Logistic 回归分析 • 配对:条件Logistic 回归分析
Logistic回归的参数估计
• 假设n例观察对象彼此独立,其自变量为,
Xi
(
X
i 1
,
X
i 2
,...
X
i P
)
• 因变量为Yi(0-1变量),i 1,2,。, n
对于第i个体,给定Xi时,出现观察结果Yi
的概率为:
P(Yi
Xi)
[1 e 1 (
0
1X1i
P
X
i p
)
1 Yi
] [1 1 e(
i p
)
Logistic回归的参数估计
• 上式为似然函数(likelihood function),记为 L。求解β0 , β1 , β2 、… βP ,使似然函 数达到极大,或使似然函数的对数达到极大, 这样得到的解记为b1 , b1 , b2 、… bP , 称为参数 的极大似然估计值。
1 e(0X )
1
1 e ( 0
X
)
• 右端在数学上属于Logistic函数,所以称其为 Logistic回归模型 。
Logistic回归模型
• 若自变量扩展到个P个,(X1, X2,...XP,),则多个自变量的回归模 型为 log it( ) 0 1 X 1 p X p
( 0 1X1P X P )
Logistic回归的参数估计
• Logistic回归模型中的参数β1 , β2 、… βP 需要通过样本资料,按照一定方法进行估 计,估计量记为b1 , b2 、… bP。
• 参数估计方法有多种,极大似然估计 ( MLE)最为常用
Logistic回归的参数估计
• 极大似然估计基本思想 选择能有最大概率获得当前样本的参数值 作为参数的估计值。
不同体质指数组高血压患病率
体质指 数X
正常 X=0
调查人 数
6792
患病 Y=1 1331
未患病 患病率 Y=0 (%)
5461 19.60
超重或 肥胖 X=1
合计
4148 10940
1656 2987
2492 7953
39.92 27.30
Logistic回归模型
• 因变量为二分类变量,不满足线性回归分析条件, 首先对进行数据变换:
ratioe,(eO0R0))为:e
模型参数的意义
• 一般地,根据多个自变量的回归模型,在其 他变量取值不变的情形下,与变量Xj的二个 水平C1与C2(C2>C1)相对应的事件的优 势比为 :
OR e j (C2C1)
• 当XJ的二个水平相差1个单位时,
ORj e j
模型参数的意义
• Logistic回归分析广泛用于流行病学中前瞻性的队 列研究、回顾性的病例-对照研究以及现况研究。
相关文档
最新文档