9logistic回归分析共24页
Logistic 回归分析
10
分层分析的局限性
只能控制少数因素(分层因素过多, 每个格子中的样本例数太少) 定量资料需要分组,信息丢失 不能对因素作用大小进行定量分析 (交互作用)
11
y = log2x y
二、Logistic 回归原理
0
1
经过数理统计学家证明:把疾病概率 P 转换成
p ln 1 − p ,会使该回归方程的统计性能更好一些。而且,
≈
当发病率低的时候ac所占的比例非常小, 当发病率低的时候 所占的比例非常小, 所占的比例非常小 公式中忽略ac后对 在RR公式中忽略 后对 值的影响非常小 公式中忽略 后对RR值的影响非常小 则有: 则有: RR
≈
(ad)/(bc) = OR
5
举例1 举例 口服避孕药与心肌梗塞的流行病学研究
(病例对照,曾光《现代流行病学方法与应用》,P90) 病例对照,曾光《现代流行病学方法与应用》 P90)
β1
ORX1 =
p X1 =1 q X1 =1 p X 1 =0 q X 1 =0
=
...... ...... 1 − p x1 =1 p x1 =0 1 − p x1 =0
e
14
假设建立了如下的logistic回归方程: 回归方程: 假设建立了如下的 回归方程 Logit P = α + βx x 为二分变量,当暴露时,取值为1; 为二分变量,当暴露时,取值为1 不暴露时,取值为0 不暴露时,取值为0。 暴露时 Logit(P1) = α + β, 所以暴露 , 所以暴露时, 比值(odds) = exp(α + β ) 比值 所以不暴露时 所以不暴露时, 不暴露 Logit(P0) = α , 比值(odds) = exp(α) 比值
Logistic回归分析
• Wald检验( wald test)
即广义的t检验,统计量为u
u= bi s bi
u服从正态分布,即为标准正态离差。
Logistic回归系数的区间估计
bi u Sbi
第十八页,共52页。
上述三种方法中,似然比检验最可靠, 比分检验一般与它相一致,但两者均要求较 大的计算量;而Wald检验未考虑各因素间 的综合作用,在因素间有共线性时结果不如 其它两者可靠。
Odds=P/(1-P)
比数比
OR=[P1/(1-P1)]/[P2/(1-P2)]
在患病率较小情况下,OR≈RR
第二十二页,共52页。
设P表示暴露因素X时个体发病的概率, 则发病的概率P与未发病的概率1-P 之比 为优势(odds), logit P就是odds的对数
值。
• 优势比 • 常把出现某种结果的概率与不出现的概率之
P=1 Logit(P)=Ln(1/0)=+无穷大
Logit(P )取值范围扩展为(-,+ -)
第十页,共52页。
• Logit变换
也称对数单位转换
logit P=
ln
P 1 P
第十一页,
P 1e e( 1x12x2 nxn ) 1
1 P 1 e( 1x12x2 nxn )
• 分析因素xi为连续性变量时, e(bi)表示xi增加 一个计量单位时的优势比。
第二十七页,共52页。
多因素Logistic回归分析时,对回归系
数的解释都是指在其它所有自变量固定的情 况下的优势比。存在因素间交互作用时,
Logistic回归系数的解释变得更为复杂,应
特别小心。
第二十八页,共52页。
其中,为常数项,为偏回归系数。
LOGISTIC回归分析
LOGISTIC回归分析前⾯的博客有介绍过对连续的变量进⾏线性回归分析,从⽽达到对因变量的预测或者解释作⽤。
那么如果因变量是离散变量呢?在做⾏为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别,这是我们就要⽤到logistic分析(逻辑回归分析,⾮线性模型)。
参数解释(对变量的评价)发⽣⽐(odds): ODDS=事件发⽣概率/事件不发⽣的概率=P/(1-P)发⽣⽐率(odds ratio):odds ratio=odds B/odds A (组B相对于组A更容易发⽣的⽐率)注:odds ratio⼤于1或者⼩于1都有意义,代表⾃变量的两个分组有差异性,对因变量的发⽣概率有作⽤。
若等于1的话,该组变量对事件发⽣概率没有任何作⽤。
参数估计⽅法线性回归中,主要是采⽤最⼩⼆乘法进⾏参数估计,使其残差平⽅和最⼩。
同时在线性回归中最⼤似然估计和最⼩⼆乘发估计结果是⼀致的,但不同的是极⼤似然法可以⽤于⾮线性模型,⼜因为逻辑回归是⾮线性模型,所以逻辑回归最常⽤的估计⽅法是极⼤似然法。
极⼤似然公式:L(Θ)=P(Y1)P(Y2)...p(Y N) P为事件发⽣概率P I=1/(1+E-(α+βX I))在样本较⼤时,极⼤似然估计满⾜相合性、渐进有效性、渐进正太性。
但是在样本观测少于100时,估计的风险会⽐较⼤,⼤于100可以介绍⼤于500则更加充分。
模型评价这⾥介绍拟合优度的评价的两个标准:AIC准则和SC准则,两统计量越⼩说明模型拟合的越好,越可信。
若事件发⽣的观测有n条,时间不发⽣的观测有M条,则称该数据有n*m个观测数据对,在⼀个观测数据对中,P>1-P,则为和谐对(concordant)。
P<1-P,则为不和谐对(discordant)。
P=1-P,则称为结。
在预测准确性有⼀个统计量C=(NC-0.5ND+0.5T)/T,其中NC为和谐对数,ND为不和谐对数,这⾥我们就可以根据C统计量来表明模型的区分度,例如C=0.68,则表⽰事件发⽣的概率⽐不发⽣的概率⼤的可能性为0.68。
logistic回归模型分析和总结
含有名义数据的logit
含有名义数据的logit
• 例:某地25岁及以上人中各类婚姻状况居民的死
亡情况见表,试建立死亡率关于年龄和婚姻状况
的logit模型。
ln p 1 p
A 1M1
2M 2
3M3
• 其中,A表示年龄(取中值),M1、M2、M3表示婚 姻状况
• 于是,估计的logit方程为:
多项logit模型
【例】研究三个学校、两个课程计划对学生偏好何 种学习方式的影响。调查数据见表:
• 其中,三个学校对应两个哑变量x1和x2,两个课 程计划为常规(x3=1)和附加(x3=0),学习方式分 为:自修(y=1)、小组(y=2)、上课(y=3)
• 从题目可以看出,响应变量是学习方式有三类, 属于多项逻辑斯蒂回归问题。于是,建模为:
ln ln
p1 p3 p2 p3
10 11x1 12 x2 13 x3 20 21x1 22 x2 23x3
多项logit模型
多项logit模型
• 应用统计软件可以得到模型的参数估计和回归方程:
ln
p1 p3
0.5931.134 x1 0.618 x3
ln
p2 p3
0.603 0.635 x3
ln p A E
1 p
• 其中A为年龄,E为文化程度
含有有序数据的logit
含有有序数据的logit
• 于是,估计的logit方程为:
ln p 11.637 0.124A 0.164E 1 p
• 其中,年龄的系数0.124,说明年龄越大死亡率会 越高;
• 文化程度的系数-0.164,说明文化程度与死亡率 呈负相关,文化程度越高,死亡率越低。
9logistic回归分析共25页文档
.4626866
|
+-----------------------------------------------
chi2(1) = 28.94 Pr>chi2 = 0.0000
方法2:logistic回归—输出回归系数
logit case exposure [fw=f]
Logit estimates Log likelihood = -90.024994
cc case exposure [fw=f]
Proportion
| Exposed Unexposed | Total Exposed
-----------------+------------------------+----------------------
Cases |
40
36 |
76
0.5263
|------------------------+----------------------
Odds ratio |
8.271605
| 3.4193 21.33091 (exact)
Attr. frac. ex. |
.8791045
| .7075425 .9531197 (exact)
Attr. frac. pop |
9logistic回归分析
36、如果我们国家的法律中只有某种 神灵, 而不是 殚精竭 虑将神 灵揉进 宪法, 总体上 来说, 法律就 会更好 。—— 马克·吐 温 37、纲纪废弃之日,便是暴政兴起之 时。— —威·皮 物特
38、若是没有公众舆论的支持,法律 是丝毫 没有力 量的。 ——菲 力普斯 39、一个判例造出另一个判例,它们 迅速累 聚,进 而变成 法律。 ——朱 尼厄斯
Logistic回归分析
注:因为p>a,所以认为样本实际值得到的分布与 预测值得到的分布无显著差异,模型拟合优度较好 。
33
注:模型整体的准确度不高,对不购买人群的准确 率极高,对购买人群的准确率很低。
34
注:预测类别图上可以看出,预测概率在0.4附近的 样本预测准确率相对最低。事实上,无论用什么分 类方法,这类样本身就是最难预测的。
Hosmer—Lemeshow检验:通过模型可以计算出给 定解释变量取值时被解释变量取1的概率预测。如 果模型拟合较好,则应给实际值为1的样本以较高 的概率,给实际值为0的样本以低的概率预测值。 于是对概率预测值进行分位数分组(通常为10分位 数,将样本分为10组),预测概率大小分得的10组 和实际观测值0/1类别分组形成了交叉列联表。由 观测频数和期望频数计算卡方统计量,即Hosmer— Lemeshow统计量,它服从自由度为n-2的卡方分布 ,n为组数。
39
模型拟合优度的评价与检验 目的:第一,回归方程能够解释被解释变量变差的 程度,即线性回归的部分能解释LogitP的程度,这 一点与一般线性回归分析是相同的;第二,由回归 方程得到的概率进行分别判别的准确率。 方法: 第一目的:Cox &Snell R2 统计量和 Nagel ker ke R2 统计量 第二目的:混淆矩阵(错判矩阵)和 Hosmer-Lemeshow检验
16
2 L0 N 1 ( ) 2 Cox & Snell R 统计量= L1
,N为样本容量。 该统计量类似于一般线性模型中的R方,统计量的值 越大表明模型的拟合优度越高。不足之处在于其取值 范围无法确定,不利于模型之间的比较。
Cox &Snell R 2
Logistic回归分析及应用讲课文档
第三十页,共76页。
第三十一页,共76页。
第三十二页,共76页。
第三十三页,共76页。
第三十四页,共76页。
第三十五页,共76页。
第三十六页,共76页。
3、逐步Logistic回归分析
(1)向前法(forward selection)
开始方程中没有变量,自变量由 少到多一个一个引入回归方程。按自 变量对因变量的贡献(P值的大小)由 小到大依次挑选,变量入选的条件是 其P值小于规定进入方程的P界值Enter, 缺省值 P(0.05)。
除变量量纲的影响,为此计算标准化回归系数
bi' bi *Si / Sy,其中 Si为Xi的标准差 Sy为y的标准差。
第十五页,共76页。
5.假设检验
• (1)回归方程的假设检验
• H0:所有 i0,i0,1,2,,p H1:某个 i 0
• 计算统计量为:G=-2lnL,服从自由度等于n-p
• 的 2 分布
• 对子号
病例
对照
•
x1 x2 x3 x1 x2 x3
•1
13 0
101
•2
03 1
130
•3
01 2
020
•…
… … … ………
• 10
22 2
000
• 注:X1蛋白质摄入量,取值:0,1,2,3
•
X2不良饮食习惯,取值:0,1,2,3
•
X3精神状况 ,取值:0,1,2
•
第十页,共76页。
Logistic回归
Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X31.3037X4.
logistic回归分析PPT精品课程课件讲义
问题的提出(续)
• 但在医学研究中常碰到因变量的取值仅有两个, 如是否发病、死亡或痊愈等;
• 分析“母亲怀孕期间体重增加”对“新生儿出 生低体重”的影响
二、概念的引入
• 如按线性回归思想建立模型: P=α +βX • P的意义是发生出生低体重的概率
• 在线性回归模型中,X的取值是任意的,P值可能大 于1或小于0,无法从医学意义进行解释, 显然不适 宜用线性回归建立预测模型。
表明ECG异常者CHD发病是正常者的2.056倍。 (3) 比较各变量对方程贡献的大小: 根据标化的值大小,确定各因素对CHD发病影响的 大小。在此项研究中,危险因素中吸烟对方程贡献最大 ,其他依次为相对体重、年龄、 胆固醇、ECG和BP。
4) 用于预测发病率: 可根据该公式预测某人在不同因素暴露条件下 CHD的发病率。如某受试者A暴露于因素xi的情况 为: X=(45, 210, 130, 100, 120, 0, 0) 利用该模型计算该受试者A在暴露上述各种研究因 素的条件下,12年间CHD的发病率为: PA1 = 1/{1+exp[-(-13.2573 + 0.1216 x 45 + 0.0070 x 210 + +0.7206 x 0)]} = 1/[1+exp(-2.9813)] = 0.048
小 结
• (1)logistic回归分析要求因变量是二分变量,或任何取值
为0或1的属性数据。
• (2)logistic回归分析中对自变量的正态性、方差齐性不作
要求,对自变量类型也不作要求;
• (3)自变量与因变量(y)之间是非线性关系,但是与logit y之
间应符合线性关系。
1. 定群研究资料分析…弗明汉心脏研究 742 名居住在弗明汉年龄为 40-49 岁的男性,在各自暴露不 同水平的影响因素(详见下表中的7种因素),经 12年追踪观察 CHD发病情况。根据此742名受试者每人暴露各项因素的水平 和 CHD 发病与否的资料,采用多因素 LOGISTIC 回归模型进
Logistic回归分析及其应用.ppt
2020/4/19
5
简单的解决方法
固定其他因素,研究有影响的一两个因 素; 分层分析:按1~2个因素组成的层进行 层内分析和综合。 统计模型
2020/4/19
6
寻找合适的模型
进行logit变换
logit(p)
=
ln(
p
1 —-—p
),
p为y=1所对应的概率
0.1 logit(0.1) = ln( ——— ) = ln(0.1/0.9)
1 - 0.1
2020/4/19
7
p
logit(p) = ln( —— )
p=0或1时,此式失效
1-p
以 p = r/n 代之 logit(p) = ln [ (r + 0.5) / (n – r + 0.5) ]
此称经验logistic变换
以Z代上式的logit(p),
Z = a + b1x1 + b2x2 + … + bkxk
使用变量数值标识(value labels) 记录编码内容
2020/4/19
13
变量的编码
变量名 SEX
EDU
变量标识 性别
教育程度
变量值
1 2 0 1 2
值标识
男 女 文盲 小学 初中及以上
2020/4/19
14
variable labels qnum rnum pnum hnum chname drugroup name sex age
X:自变量
2020/4/19
如果一定要进 行直线回归也 可以做出结果, 但此时效果不 佳。当自变量 取一定值时, 因变量的预测 值可能为负数。
《logistic回归》课件
易于理解和实现: 由于基于逻辑函数,模型输出结 果易于解释,且实现简单。
Logistic回归的优势与不足
• 稳定性好: 在数据量较小或特征维度较高 时,Logistic回归的预测结果相对稳定。
Logistic回归的优势与不足
01
不足:
02
对数据预处理要求高: 需要对输入数据进行标准化或归一化处理,以 避免特征间的尺度差异对模型的影响。
模型假设
01
线性关系
因变量与自变量之间存在线性关系 。
无自相关
因变量与自变量之间不存在自相关 。
03
02
无多重共线性
自变量之间不存在多重共线性,即 自变量之间相互独立。
随机误差项
误差项是独立的,且服从二项分布 。
04
模型参数求解
最大似然估计法
通过最大化似然函数来求解模型参数。
梯度下降法
通过最小化损失函数来求解模型参数。
特征选择与降维
在处理大数据集时,特征选择和降维是提高模 型性能和可解释性的重要手段。
通过使用诸如逐步回归、LASSO回归等方法, 可以自动选择对模型贡献最大的特征,从而减 少特征数量并提高模型的泛化能力。
降维技术如主成分分析(PCA)可以将高维特 征转换为低维特征,简化数据结构并揭示数据 中的潜在模式。
迭代法
通过迭代的方式逐步逼近最优解。
牛顿法
利用牛顿迭代公式求解模型参数。
模型评估指标
准确率
正确预测的样本数占总样本数的比例 。
精度
预测为正例的样本中实际为正例的比 例。
召回率
实际为正例的样本中被预测为正例的 比例。
F1分数
精度和召回率的调和平均数,用于综 合评估模型性能。
logistic回归分析
表13-7 例13-2的logistic回归模型自变量筛选结果
模型
因素 X
第1步 常数项
回归系数 标准误
b
Sb
-2.528 0.238
Wald χ2 P值 112.433 <0.001
OR值
OR值95%可信区间 下限 上限
0.080
治疗11周
2.149 0.289 55.267 <0.001 8.578 4.867 15.117
因素 X 常数项
回归系数 标准误
Waldχ2 P值 OR值
b
Sb
-0.910 0.136 44.870 0.000 0.403
OR值95%可信区间
下限
上限
吸烟
0.886 0.150 34.862 0.000 2.424 1.807
3.253
饮酒
0.526 0.157 11.207 0.001 1.692 1.244
logistic回归分析
Logistic regression analysis
• 医学研究中应变量有时是二分类结果,如发病与不 发病、死亡与生存、有效与无效、复发与未复发等, 当需要研究二分类应变量的影响因素时,适合采用 logistic回归分析。
logistic回归属于概率型非线性回归,它是研究二 分类(可以扩展到多分类)反应变量与多个影响 因素之间关系的一种多变量分析方法。logistic回 归模型参数具有明确的实际意义。
OR值的可信区间:
exp(bj - zα/2 Sbj ) ORj exp(bj zα/2 Sb j )
• 例13-1 研究吸烟(X1)、饮酒(X2)与食道癌 (Y)关系的病例-对照资料,试作logistic回归 分析。
logistic回归分析(精选PPT)
14
在其它影响因素相同的情况下,某危险因素 X j 两个
不同暴露水平 c1 和 c0 发病优势比的自然对数为:
ln OR j
ln
P1 P0
(1 (1
P1 ) P0 )
=
ln( P1 ) ln( P0 )
1 P1
1 P0
= j (c1 c0 )
则该因素的优势比: OR j exp[ j (c1 c0 )]
多个因变量
2
• logistic回归(logistic regression)是研究因变量为二分类或 多分类观察结果与影响因素(自变量)之间关系的一种多 变量分析方法,属概率型非线性回归。
• 在流行病学研究中,常需要分析疾病与各种危险因素间的 定量关系,同时为了能真实反映暴露因素与观察结果间的 关系,需要控制混杂因素的影响。
第十五章 logistic回归分析
Logistic Regression Analysis
山东大学公共卫生学院
1
回归分析的分类
一个 因变 量y
连续型因变量 (y) --- 线性回归分析 分类型因变量 (y) ---Logistic 回归分析 生存时间因变量 (t) ---生存风险回归分析 时间序列因变量 (t) ---时间序列分析
2 2
X X
2 2
L L
mXm) mXm)
]
1 exp(0 1X1 2 X 2 L m X m )
ln[exp(0 1X1 2 X 2 L m X m )]
0 1X1 2 X 2 L m X m
(15.2)
13
模型参数的流行病学含义
当各种暴露因素为 0 时:
ln( P ) 1 P
相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率 之比。但病例对照研究不能计算发病率,只能计算比值比OR值。 OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组 的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。
Logistic回归分析方法
• 分析因素xi为等级变量时,如果每个等级的作用相同,可按计量资料处理:如以最 小或最大等级作参考组,并按等级顺序依次取为0,1,2,…。此时, e(bi) 表示xi 增加一个等级时的优势比, e(k* bi)表示xi增加k个等级时的优势比。如果每个等级 的作用不相同,则应按多分类资料处理。
第13页/共29页
Logistic回归系数的意义
• 分析因素xi为二分类变量时,存在(暴 露)xi =1,不存在(未暴露)xi = 0,则Logistic回归中xi的系数bi就是 暴露与非暴露优势比的对数值.即 OR=exp(bi)=e (bi)
第14页/共29页
• 分析因素xi为多分类变量时,为方便 起见,常用1,2,…,k分别表示k个 不同的类别。进行Logistic回归分析 前需将该变量转换成k-1个指示变量 或哑变量( ),这样指示 design/dummy variable 变量都是一个二分变量,每一个指示 变量均有一个估计系数,即回归系数, 其解释同前。
一、前言
•应变量为分类指标的资料 •线性回归分析:
应变量为连续计量资料
第1页/共29页
二、 Logistic回归模型
•Logistic回归的分类
二分类 多分类
条件Logistic回归 非条件Logistic回归
第2页/共29页
• Logit变换
也称对数单位转换
logit P=
ln
P 1 P
第3页/共29页
• 条件Logistic回归的回归系数检验与 分析,和非条件Logistic回归完全相 同。
第23页/共29页
八、 Logistic回归的应用
• 危险/保健因素的筛选,并确定其作 用大小。 • 预测:预测某种情况下或者某个病例, 某特定事件发生的概率。
《logistic回归分析》课件
信用卡欺诈检测
应用逻辑回归模型检测信用 卡交易中的欺诈行为,保护 用户利益和减少风险。
电影推荐
利用逻辑回归模型根据用户 的历史行为和偏好进行电影 推荐,提供个性化的影片推 荐。
总结与展望
Logistic回归分析的优点和不足
总结逻辑回归分析的优点和限制,讨论其适用范围和局限性。
发展前景
展望逻辑回归分析在未来的发展趋势和应用领域。
探讨Logistic回归分析在实际问题中的广泛应用。
Logistic回归与线性回归的区别
比较Logistic回归和线性回归之间的差异和适用情况。
逻辑回归模型及其基本假设
1 Sigmoid函数
2 逻辑回归的数学模
型
介绍Sigmoid函数及其在
3 基本假设
描述逻辑回归模型中的
逻辑回归中的作用。
解释逻辑回归的数学模
《logistic回归分析》PPT 课件
介绍logistic回归分析的PPT课件,涵盖课程内容、逻辑回归模型、参数估计与 模型拟合、分类结果与型诊断、实战案例、总结与展望以及参考文献。
课程介绍
什么是Logistic回归分析
介绍Logistic回归分析的基本概念和原理。
Logistic回归分析的应用
• [3]C. Bishop (2006) Pattern recognition and machine learning. Springer.
讨论如何评估逻辑回归模型的分类结果,确定 哪些样本属于正类和负类。
ROC曲线
解释ROC曲线在逻辑回归模型中的作用,用于评 估模型的分类性能。
混淆矩阵
介绍混淆矩阵,用于评估逻辑回归模型的分类 准确性和误判情况。
模型的诊断
logistic回归模型
简单分析实例
第6页,共25页。
简单分析实例
选入应变量
第7页,共25页。
选入自 变量
简单分析实例
结果分析
此表为应变量取值水平编码,SPSS默认取值水平高的为阳
性结果。
第8页,共25页。
简单分析实例
结果分析
本表输出当前模型的-2log(似然值)和两个伪决定系数 ,但对于logistic回归而言,通常看见的伪决定系数不像
第11页,共25页。
模型的诊断与修正 多重共线性的识别:
多重共线性的对偏回归系数的影响与线性回归模型中的表现一致 ,如增加或删除一条记录,模型中偏回归系数值发生较大变化, 专业上认为有意义的因素无统计学意义等等。 如果在进行logistic模型分析中,尤其是在向模型中引入交互作用项时
出现了回归结果反常现象,则自变量之间的多重共线性是需要排除的一 种可能。
自变量与logit(P)之间为线性关系; 残差合计为0,且服从二项分布;
各观测间相互独立。 logistic回归模型应该使用最大似然法来解决方程的估计和 检验问题,不应当使用以前的最小二乘法进行参数估计。
第4页,共25页。
简单分析实例
例1 某医师希望研究病人的年龄age、性别sex(0为女 性、1为男性)、心电图检验是否异常ecg(ST段压低 、0为正常、1为轻度异常、2为重度异常)与冠心病 ca是否有关,数据见logistic_binary.sav。
据见1_1_logistic.sav。
第17页,共25页。
条件logistic回归-实例分析
由于本例是1:1配对,可以使用变量差值方式加以拟合。 首先运用compute过程产生配对logistic回归的分析变量,或用 以下程序予以实现:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Number of obs =
LR chi2(1)
=
Prob > chi2
=
Pseudo R2
=
152 30.67 0.0000 0.1455
------------------------------------------------------------------------------
case |
Controls |
9
67 |
76
0.1184
-----------------+------------------------+----------------------
Total |
49
103 |
152
0.3224
|
|
|
Point estimate | [95% Conf. Interval]
并按等级顺序依次取为0,1,2,…。此时,
OR=exp()表示X增加一个等级时,发病危险变为原
来的几倍。 连续性变量:表示增加1(个计量单位)时,发病危险
变为原来的几倍。
回归系数的解释
多分类变量:哑变量(dummy variable)
x=1时: x1=1, x2=0, x3=0, x4=0 表示A型血 x=2时: x1=0, x2=1, x3=0, x4=0 表示B型血 x=3时: x1=0, x2=0, x3=1, x4=0 表示AB型血 x=4时: x1=0, x2=0, x3=0, x4=1 表示O型血
lo i( p t ) g eo xs p 0 u .6 r 2 2 .1 e 1 e 1 1 o x 2 s p 8 ure
方法2:logistic回归—输出OR
logit case exposure [fw=f],or
Logit estimates Log likelihood = -90.024994
似然比检验: G=-2lnL-(-2lnL’)
Wald检验: z 检验
i2
(
ˆi SE(ˆi
)2 )
回归系数的解释
回归系数 表示当其它自变量固定不变时, X每改变一个单位,优势对数的改变量(优 势比的对数)。
回归系数的解释
回归系数的解释
二分类变量: OR=exp()表示暴露组发病的危险是
非暴露组的几倍。 等级变量:一般以最小等级或最大等级作为参考组,
_cons | -.6211737 .2066474 -3.01 0.003 -1.026195 -.2161522
------------------------------------------------------------------------------
似然比2 =30.67,P=0.0000,因此可以认为模型有意义。
.4626866
|
+-----------------------------------------------
chi2(1) = 28.94 Pr>chi2 = 0.0000
方法2:logistic回归—输出回归系数
logit case exposure [fw=f]
Logit estimates Log likelihood = -90.024994
Number of obs =
LR chi2(1)
=
Prob > chi2
=
Pseudo R2
=
152 30.67 0.0000 0.1455
------------------------------------------------------------------------------
组别 间皮瘤病例
对照 合计
表 1 胸膜间皮瘤与接触石棉的关系
以往接触过石棉
未接触过石棉
40
36
9
67
49
103
合计 76 76 152
方法1:卡方检验 方法2:拟合logistic回归模型,即
loig (tp)exopsure
数据结构
case
exposure
f
1
1
40
1
0
36
0
1
9
0
0
67
方法1:2 检验
|------------------------+----------------------
Odds ratio |
8.271605
| 3.4193 21.33091 (exact)
Attr. frac. ex. |
.8791045
| .7075425 .9531197 (exact)
Attr. frac. pop |
条件logistic模型:配比病例对照研究资料
非条件logistic回归模型
lo ( p ) g0 + it 1 X = 1 + 2 X 2 k X k
01X1+ 2X2+ + kXk
p1ee01X12X2kXk 1
p1e ( 01X1+ 2X2+ + kXk)
参数估计与假设检验
参数的估计:极大似然(MLE) 假设检验:
产生哑变量: tab x,gen(x)
非条件logistic回归
logit 因变量 自变量,[选择项]
sw logit 因变量 自变量,[选择项]
选择项: or 指定结果中给出OR值,缺失时输出回归系数 pr(#)是剔除变量的P值 pe(#)是选入变量的P值
例1(成组病例对照研究) 某单位研究胸膜间皮瘤与接触 石棉的关系,资料见下表。试对其进行分析。
数据特征
因变量(结局):分类变量 二分类变量(二分类logistic回归) 有序多分类变量(有序多分类logistic回归) 无序多分类变量(无序多分类logistic回归)
自变量(各种影响因素) :可以是分类变量,也可 以是连续型变量。
二分类资料的分析
非条件logistic模型:成组病例对照研究资料
cc case exposure [fw=f]
Proportion
| Exposed Unexposed | Total Exposed
-----------------+------------------------+----------------------
Cases |
40
36 |
76
0.5263
Coef. Std. Err.
z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
exposure | 2.112829 .4228578 5.00 0.000 1.284043 2.941615