Logistic回归的参数估计

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
i Yi
i 1
i 2
i P
1
1
1Yi
Logistic回归的参数估计
• 对于n个独立个体,给定自变量时,出现当 前观察结果的概率为上述n个概率的乘积
P(Y1 , Y2 ,, Yn X , X , X )
1 2 n 1Yi [ ] [ 1 ] i i ( 0 1 X 1 P X ip ) ( 0 1 X 1 P X ip ) i 1 1 e 1 e Yi n
• 若自变量扩展到个P个,(X1, X2,...XP,),则多个自变量的回归模 型为 logit ( ) 0 1 X 1 p X p
e ( 0 1 X 1 P X P ) 1 e
( 0 1 X 1 P X P )

模型参数的意义
• 由于
log it ( ) ln(

1
) ln(Odds )
Odds e
( 0 X )
源自文库
模型参数的意义
• 例中 “超重或肥胖”组(X=1)患高血压的优势 ( 0 1) ( 0 ) 为: Odds e e
1
( 0 0) 0 “正常”组(X=0 )患高血压的优势为: Odds e e 0
Logistic 回归分析 (Logistic Regression Analysis)
Logistic 回归分析
多重线性回归分析的前提条件 • 线性;独立;正态;等方差
医学中还常研究二分类因变量(如患病与 未患病、阳性与阴性等)或多分类因变量 与一组自变量(X1,X2,...Xm,)的 关系,线性回归分析方法就无能为力。
1 1 e
( 0 1 X1 P X P )
模型参数的意义
• Β0 :常数项(截距),表示模型中所有自变 量均为0时,log it ( ) 的值; • β1 , β2 、... βP:回归系数 ,表示在控 制其他自变量时,自变量变化一个单位所引 log it ( ) 改变量。 起的
1
1
Logistic回归的参数估计
• 求解
•ln(


) 0 X
( 0 X )

1
1
e
( 0 X )
e ( 0 X ) 1 e

1 1 e
( 0 X )
• 右端在数学上属于Logistic函数,所以称其为 Logistic回归模型 。
Logistic回归模型
• Βj <0时, Xj增加1个单位后与增加前相比,事件的 优势比ORj <1 ,表明Xj 为保护因素; • Βj =0 , Xj增加1个单位后与增加前相比,事件的 优势比, ORj =1,表明Xj对结果变量不起作用。
Logistic回归的参数估计
• Logistic回归模型中的参数β1 , β2 、… βP
Logistic 回归分析
Logistic 回归分析可解决: 应变量为: • 二分类; • 无序多分类; • 有序多分类; • 本次教学主要介绍应变量为二分类的 Logistic 回归分析
Logistic 回归分析
按设计, Logistic 回归分析分为:
• 成组:非条件Logistic 回归分析 • 配对:条件Logistic 回归分析
X ( X , X ,...X )
i

i 1 , 2 , , n 因变量为Yi(0-1变量), 。
对于第i个体,给定Xi时,出现观察结果Yi 的概率为:
P(Yi X ) [ ( X i X i ) ] [1 i i ] ( X X 0 1 1 P p 0 1 1 P p) 1 e 1 e
Logistic回归模型
• 例 为探讨超重和肥胖对高血压病的影响, 2004年,某研究者采用整群抽样的方法, 对某地6个镇35周岁以上的常住人口进行高 血压普查,同时收集了身高、体重等相关 信息。整理后资料见下表。 • 目的:建立高血压患病率与体质指数间的 数量关系模型,估计超重与肥胖对高血压 患病的风险。
两组的优势比(odds ratio,( OR) 为: 0 )
odds e 1 OR 0 odds e 0
e

模型参数的意义
• 一般地,根据多个自变量的回归模型,在其 他变量取值不变的情形下,与变量Xj的二个 水平C1与C2(C2>C1)相对应的事件的优 势比为 : j ( C2 C1 )
不同体质指数组高血压患病率
体质指 数X 正常 X=0
超重或 肥胖 X=1 合计
调查人 数 6792
4148
患病 Y=1 1331
1656
未患病 Y=0 5461
2492
患病率 (%) 19.60
39.92
10940
2987
7953
27.30
Logistic回归模型
• 因变量为二分类变量,不满足线性回归分析条件, 首先对进行数据变换:
log it ( ) ln(

1
) ln(Odds )
• 这个变换将取值在0-1间的值转换为值域在 ( )的值。

• 建立log it ( ) 与X的线性模型:

logit ( ) 0 X 或 ln(1 ) 0 X

Logistic回归模型
需要通过样本资料,按照一定方法进行估 计,估计量记为b1 , b2 、… bP。 • 参数估计方法有多种,极大似然估计 ( MLE)最为常用
Logistic回归的参数估计
• 极大似然估计基本思想 选择能有最大概率获得当前样本的参数值 作为参数的估计值。
Logistic回归的参数估计
• 假设n例观察对象彼此独立,其自变量为,
OR e
• 当XJ的二个水平相差1个单位时,
OR j e
j
模型参数的意义
• Logistic回归分析广泛用于流行病学中前瞻性的队 列研究、回顾性的病例-对照研究以及现况研究。 • 当变量Xj的回归系数Βj >0时, Xj增加1个单位后与 增加前相比,事件的优势比ORj >1,表明Xj为危险 因素;
相关文档
最新文档