Logistic回归分析(1)

合集下载

LOGISTIC回归分析

LOGISTIC回归分析

LOGISTIC回归分析前⾯的博客有介绍过对连续的变量进⾏线性回归分析,从⽽达到对因变量的预测或者解释作⽤。

那么如果因变量是离散变量呢?在做⾏为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别,这是我们就要⽤到logistic分析(逻辑回归分析,⾮线性模型)。

参数解释(对变量的评价)发⽣⽐(odds): ODDS=事件发⽣概率/事件不发⽣的概率=P/(1-P)发⽣⽐率(odds ratio):odds ratio=odds B/odds A (组B相对于组A更容易发⽣的⽐率)注:odds ratio⼤于1或者⼩于1都有意义,代表⾃变量的两个分组有差异性,对因变量的发⽣概率有作⽤。

若等于1的话,该组变量对事件发⽣概率没有任何作⽤。

参数估计⽅法线性回归中,主要是采⽤最⼩⼆乘法进⾏参数估计,使其残差平⽅和最⼩。

同时在线性回归中最⼤似然估计和最⼩⼆乘发估计结果是⼀致的,但不同的是极⼤似然法可以⽤于⾮线性模型,⼜因为逻辑回归是⾮线性模型,所以逻辑回归最常⽤的估计⽅法是极⼤似然法。

极⼤似然公式:L(Θ)=P(Y1)P(Y2)...p(Y N) P为事件发⽣概率P I=1/(1+E-(α+βX I))在样本较⼤时,极⼤似然估计满⾜相合性、渐进有效性、渐进正太性。

但是在样本观测少于100时,估计的风险会⽐较⼤,⼤于100可以介绍⼤于500则更加充分。

模型评价这⾥介绍拟合优度的评价的两个标准:AIC准则和SC准则,两统计量越⼩说明模型拟合的越好,越可信。

若事件发⽣的观测有n条,时间不发⽣的观测有M条,则称该数据有n*m个观测数据对,在⼀个观测数据对中,P>1-P,则为和谐对(concordant)。

P<1-P,则为不和谐对(discordant)。

P=1-P,则称为结。

在预测准确性有⼀个统计量C=(NC-0.5ND+0.5T)/T,其中NC为和谐对数,ND为不和谐对数,这⾥我们就可以根据C统计量来表明模型的区分度,例如C=0.68,则表⽰事件发⽣的概率⽐不发⽣的概率⼤的可能性为0.68。

统计学中的Logistic回归分析

统计学中的Logistic回归分析

统计学中的Logistic回归分析Logistic回归是一种常用的统计学方法,用于建立并探索自变量与二分类因变量之间的关系。

它在医学、社会科学、市场营销等领域得到广泛应用,能够帮助研究者理解和预测特定事件发生的概率。

本文将介绍Logistic回归的基本原理、应用领域以及模型评估方法。

一、Logistic回归的基本原理Logistic回归是一种广义线性回归模型,通过对数据的处理,将线性回归模型的预测结果转化为概率值。

其基本原理在于将一个线性函数与一个非线性函数进行组合,以适应因变量概率为S形曲线的特性。

该非线性函数被称为logit函数,可以将概率转化为对数几率。

Logistic回归模型的表达式如下:\[P(Y=1|X) = \frac{1}{1+e^{-(\beta_0+\beta_1X_1+...+\beta_pX_p)}}\]其中,P(Y=1|X)表示在给定自变量X的条件下,因变量为1的概率。

而\(\beta_0\)、\(\beta_1\)、...\(\beta_p\)则是待估计的参数。

二、Logistic回归的应用领域1. 医学领域Logistic回归在医学领域中具有重要的应用。

例如,研究者可以使用Logistic回归分析,探索某种疾病与一系列潜在风险因素之间的关系。

通过对患病和非患病个体的数据进行回归分析,可以估计各个风险因素对疾病患病的影响程度,进而预测某个个体患病的概率。

2. 社会科学领域在社会科学研究中,研究者常常使用Logistic回归来探索特定变量对于某种行为、态度或事件发生的影响程度。

例如,研究者可能想要了解不同性别、教育程度、收入水平对于选民投票行为的影响。

通过Logistic回归分析,可以对不同自变量对于投票行为的作用进行量化,进而预测某个选民投票候选人的概率。

3. 市场营销领域在市场营销中,Logistic回归也被广泛应用于客户分类、市场细分以及产品销量预测等方面。

通过分析客户的个人特征、购买习惯和消费行为等因素,可以建立Logistic回归模型,预测不同客户购买某一产品的概率,以便制定个性化的市场营销策略。

logistic回归模型分析和总结

logistic回归模型分析和总结

含有名义数据的logit
含有名义数据的logit
• 例:某地25岁及以上人中各类婚姻状况居民的死
亡情况见表,试建立死亡率关于年龄和婚姻状况
的logit模型。
ln p 1 p

A 1M1
2M 2
3M3
• 其中,A表示年龄(取中值),M1、M2、M3表示婚 姻状况
• 于是,估计的logit方程为:
多项logit模型
【例】研究三个学校、两个课程计划对学生偏好何 种学习方式的影响。调查数据见表:
• 其中,三个学校对应两个哑变量x1和x2,两个课 程计划为常规(x3=1)和附加(x3=0),学习方式分 为:自修(y=1)、小组(y=2)、上课(y=3)
• 从题目可以看出,响应变量是学习方式有三类, 属于多项逻辑斯蒂回归问题。于是,建模为:
ln ln
p1 p3 p2 p3
10 11x1 12 x2 13 x3 20 21x1 22 x2 23x3
多项logit模型
多项logit模型
• 应用统计软件可以得到模型的参数估计和回归方程:
ln
p1 p3
0.5931.134 x1 0.618 x3
ln
p2 p3
0.603 0.635 x3
ln p A E
1 p
• 其中A为年龄,E为文化程度
含有有序数据的logit
含有有序数据的logit
• 于是,估计的logit方程为:
ln p 11.637 0.124A 0.164E 1 p
• 其中,年龄的系数0.124,说明年龄越大死亡率会 越高;
• 文化程度的系数-0.164,说明文化程度与死亡率 呈负相关,文化程度越高,死亡率越低。

ICU综合征多因素Logistic回归分析及风险模型的建立1 (1)

ICU综合征多因素Logistic回归分析及风险模型的建立1 (1)
sydrome and establishment of risk model YANG Xia,LIU Yi—
Logistic analysis of ICU
lan,CHENDong—e,HUANG Hai-yah.The
AffiliatedXiehe
Hospital
ofTonal Medical
(31.425+2.61lXl+&188Xz--2.677X3+7.474X 4“312X5_v6.153X6)】,
其中P值越接近于1,患者发生ICU综合征的可能性越大;P值 越接近于0,患者发生ICU综合征的可能性越小见表3。 4.预测模型的评价。将包含常数项与6个变量的模型以 概率值0.5作为交界点,得出的预测值与实际数据结果显示:
score
income,education degree,primary disease,character type,A-
was
and
et
a1.Case・control study
used
to
retrospectively investigate the clinical data of ICU
sydrome.Firstly.single factor sion
Prac Nuts。November 1st
2009,V01.25 1塑坐!n
・49・
ICU综合征是危重患者在ICU监护过程中出现的以精 神障碍为主,兼具其他表现的一组I临床综合征,它是伴随社 会的发展和科学的进步,危重症诊治水平提高而出现的一 种疾患【1.:1。它不仅加重患者的既有疾患,还明显延长ICU监 护时间,影响患者预后。而目前国内ICU医护人员多关注患者 生理疾病的诊治,对ICU综合征关注较少,对其相关因素分析 不够全面,不能制定有效的医疗护理措施,降低其发生率。 2007年6-9月本研究收集所有入住我科的危重症患者的相 关资料,以分析ICU综合征发生的相关因素,并建立风险模 型,现报道如下。 资料与方法 1.一般资料。2007年6—9月所有入住我科的危重症患者 232例,年龄15—8l岁,平均年龄(62.5±17.2)岁,本组患者中 有24例在ICU治疗期间死亡,另有7例患者在结束ICU治疗 时意识未恢复,实际进入本研究的患者201例,男72例,女 129例。呼吸系统疾病38例,神经系统疾病11例,消化系统疾 病63例,妇产科疾病19例,循环系统疾病17例,运动系统疾 病31例,其他疾病33例。其中接受呼吸机治疗者94例。 2.方法。数据采集包括:(1)一般资料,所有患者在入住 ICU即刻,由当班护士通过询问患者及家属收集,包括年龄、 性别、文化程度、宗教信仰、家庭收入、医疗费报销情况、是否 有家庭成员缺失、原发病、患病时间、性格类型,其中性格类 型根据张伯源主持的全国性协作组修订的A型行为类型量 表测查I 31;(2)疾病危重情况,由经治医生每日行APACHE

Logisti回归方程1

Logisti回归方程1

Wald检验( wald test) 即广义的t检验,统计量为u
bi u= s bi
u服从正态分布,即为标准正态离 差。
以上三种方法中,似然比检 验最可靠,比分检验一般与它相 一致,但两者计算量均较大;而 Wald检验未考虑各因素间的综合 作用,在因素间有共线性存在时, 结果不像其它两者可靠。
• 分析因素xi为等级变量时,如以最小或
exp表示指数函数。
Logistic 回归模型是一种概率模 型, 它是以疾病,死亡等结果发生的概 率为因变量, 影响疾病发生的因素为 自变量建立回归模型。 它特别适用 于因变量为二项, 多项分类的资料。 在临床医学中多用于鉴别诊断 , 评价治疗措施的好坏及分析与疾病预 后有关的因素等。
3、
软件的要求
Logistic Regression Analysis
Logistic回归分析
陈新
Logistic回归分析
在医学研究中, 经常要分析某种结 果的产生与哪些因素有关。 例如:生 存与死亡 , 发病与未发病 , 阴性与阳性 等结果的产生可能与病人的年龄、性别、 生活习惯、体质、遗传等许多因素有关。 如何找出其中哪些因素对结果的产生有 显著性影响呢? Logistic回归分析能较 好地解决这类问题。
四、Logistic分析的具体任务:
1) 采用极大似然估计或加权最小二乘估 计确定方程中系数β i=0,1,2,3…; 2) 采用(剩余)卡方检验对回归方程进 行检验;
3) 采用U检验对方程中的每个系数bi进行 显著性检验。
5、参数检验
n较大时, G近似服从自由度为待检验
因素个数的2分布。
比分检验(score test)
以未包含某个或几个变量的模型 计算保留模型中参数的估计值,并假 设新增参数为零,计算似然函数的一 价偏导数及信息距阵,两者相乘便得 比分检验的统计量S 。n 较大时, S 近似服从自由度为待检因素个数的2 分布。

logistic回归分析

logistic回归分析

队列研究(cohort study):也称前瞻性研究、随访研究等。是一种由因及果的研
究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴 露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。如果两 组人群发病率或死亡率差别有统计学意义,则认为暴露和疾病间存在联系。队 列研究验证的暴露因素在研究开始前已存在,研究者知道每个研究对象的暴露 情况。
调查方向:追踪收集资料 暴露 疾病 +
人数
比较
aபைடு நூலகம்
b c
+
研究人群
a/(a+b)
+ -
-
c/(c+d)
d
队列研究原理示意图
暴露组 非暴露组
病例 a c
非病例 b d
合计 n1=a+b n0=c+d
发病率 a/ n1 c/ n0
相对危险度(relative risk, RR)也称危险比(risk ratio) 或率比(rate ratio) RR I e a / n1 、 I e a / n1 、 I 0 c / n2 。
研究,先按疾病状态确定调查对象,分为病例(case)和对照 (control)两组,然后利用已有的记录、或采用询问、填写调查表 等方式,了解其发病前的暴露情况,并进行比较,推测疾病与 暴露间的关系。
调查方向:收集回顾性资料
比较 a/(a+b)
人数 a b c
暴露 +
疾病 病例
+ 对照 -
c/(c+d) d
二、 logistic回归模型的参数估计
logistic 回归模型的参数估计常采用最大似然估计。 其基本思想是先建立似然函数与对数似然函数, 求使对数似然函数最大时的参数值,其估计值即 为最大似然估计值。 建立样本似然函数:

Logistic回归分析

Logistic回归分析

Logistic 回归分析Logistic 回归分析是与线性回归分析方法非常相似的一种多元统计方法。

适用于因变量的取值仅有两个(即二分类变量,一般用1和0表示)的情况,如发病与未发病、阳性与阴性、死亡与生存、治愈与未治愈、暴露与未暴露等,对于这类数据如果采用线性回归方法则效果很不理想,此时用Logistic 回归分析则可以很好的解决问题。

一、Logistic 回归模型设Y 是一个二分类变量,取值只可能为1和0,另外有影响Y 取值的n 个自变量12,,...,n X X X ,记12(1|,,...,)n P P Y X X X ==表示在n 个自变量的作用下Y 取值为1的概率,则Logistic 回归模型为:[]0112211exp (...)n n P X X X ββββ=+-++++它可以化成如下的线性形式:01122ln ...1n n P X X X P ββββ⎛⎫=++++ ⎪-⎝⎭通常用最大似然估计法估计模型中的参数。

二、Logistic 回归模型的检验与变量筛选根据R Square 的值评价模型的拟合效果。

变量筛选的原理与普通的回归分析方法是一样的,不再重复。

三、Logistic 回归的应用(1)可以进行危险因素分析计算结果各关于各变量系数的Wald 统计量和Sig 水平就直接反映了因素i X 对因变量Y 的危险性或重要性的大小。

(2)预测与判别Logistic回归是一个概率模型,可以利用它预测某事件发生的概率。

当然也可以进行判别分析,而且可以给出概率,并且对数据的要求不是很高。

四、SPSS操作方法1.选择菜单2.概率预测值和分类预测结果作为变量保存其它使用默认选项即可。

例:试对临床422名病人的资料进行分析,研究急性肾衰竭患者死亡的危险因素和统计规律。

Logistic回归分析.sav解:在SPSS中采用Logistic回归全变量方式分析得到:(1)模型的拟合优度为0.755。

Logistic回归分析(1)

Logistic回归分析(1)
5
53例接受手术的前列腺癌患者情况
6
26例冠心病病人和28例对照者进行 病例对照研究
7
26例冠心病病人和28例对照者进行 病例对照研究
8
根据研究设计不同
• Logistic回归的分类
Logistic回归 二分类 多分类
非条件 :成组资料 1:1配对资料
条件Logistic回归 1:m配对资料 m:n配对资料
24
• 分析因素xi为多分类变量时,为方便起 见,常用1,2,…,k分别表示k个不同 的类别。进行Logistic回归分析前需将 该变量转换成k-1个指示变量或哑变量 (design/dummy variable),这样指示变 量都是一个二分变量,每一个指示变 量均有一个估计系数,即回归系数, 其解释同前。
由于 OR j 值与模型中的常数项 0 无关,
0 在危险因素分析中通常视其为无效参数。
18
回归系数的解释
• 建立Logistic回归方程就是求和i • 意义:常数项是当各种暴露因素为0时,个体发
病与不发病概率之比的自然对数值。
• i意义 • 偏回归系数,表示在其它自变量固定的 • 条件下,第i个自变量每改变一个单位时logit的改
雌激素
使用过
未使用过
病例 对照
55(a) 19(c)
128(b) 164(d)
OR P1 (1 P1 ) ad 55164 3.7089 P0 (1 P0 ) bc 19128
95%CI :
3.7089 exp 1.96
1 1 1 1 55 128 19 164
2.0964 ~ 6.5616
31
四格表资料的logistic回归
• X=1 表示使用过雌激素 • X=0 表示未使用过雌激素

(卫生统计学)第十九章 Logistic回归分析

(卫生统计学)第十九章 Logistic回归分析
由于各变量指标单位不同,不能用βj的大小比较各xi的作用大小,而须用标准化 偏回归系数β’j 来比较 。
结果解释
3个βi的估计值都是正数,表明这三个因素都是危险因素且都有统计学意 义。从优势比OR上可以看出,在因素x2和x3固定不变时,因素x1每增加一个 等级所引起的优势比为增加前的3.034倍;在因素X1和X3固定不变时,因素x2 每增加一个等级所引起的优势比为增加前的2.019倍 。在因素x1和x2固定不变 时,因素x3每增加一个等级所引起的优势比为增加前的2.651倍。同时在考察 因素相对贡献大小时,从标准系数看, β'1> β' 3 > β'2 ,故x1的相对贡献比x2和 x3大。
OR
P1 P0
/1 /1
P1 P0
e i
亦称比数比
反映某一个危险因素 xi在不同暴露水平下发病 与不发病的比。
当阳性率 P 1时, OR RR
二、参数估计
由于Logistic回归是一种概率模型,通常采用最大似然估计法(maximum likelihood estimate)求解模型中的参数βj的估计值 bj (j=0,1,2,….k)。
1. 相对危险度 RR( Re lative Risk ) RR P1 P0
反映某一个危险因素 xi两个不同暴露水平 1与 0的发病率的比
2. 优势 Odds
Odds P1 P1 1 P1 q1
亦称比数
反映某一个危险因素 xi在暴露水平 1下发病率与不发病率的 比
3. 优势比 OR ( Odds Ratio )
个例预测
设某AMI患者在症状5小时内送到医院(x3=0),未发生休克(x1=0), 已有心衰(x2=1),求抢救成功的概率。

logistic回归分析

logistic回归分析

表13-7 例13-2的logistic回归模型自变量筛选结果
模型
因素 X
第1步 常数项
回归系数 标准误
b
Sb
-2.528 0.238
Wald χ2 P值 112.433 <0.001
OR值
OR值95%可信区间 下限 上限
0.080
治疗11周
2.149 0.289 55.267 <0.001 8.578 4.867 15.117
因素 X 常数项
回归系数 标准误
Waldχ2 P值 OR值
b
Sb
-0.910 0.136 44.870 0.000 0.403
OR值95%可信区间
下限
上限
吸烟
0.886 0.150 34.862 0.000 2.424 1.807
3.253
饮酒
0.526 0.157 11.207 0.001 1.692 1.244
logistic回归分析
Logistic regression analysis
• 医学研究中应变量有时是二分类结果,如发病与不 发病、死亡与生存、有效与无效、复发与未复发等, 当需要研究二分类应变量的影响因素时,适合采用 logistic回归分析。
logistic回归属于概率型非线性回归,它是研究二 分类(可以扩展到多分类)反应变量与多个影响 因素之间关系的一种多变量分析方法。logistic回 归模型参数具有明确的实际意义。
OR值的可信区间:
exp(bj - zα/2 Sbj ) ORj exp(bj zα/2 Sb j )
• 例13-1 研究吸烟(X1)、饮酒(X2)与食道癌 (Y)关系的病例-对照资料,试作logistic回归 分析。

多项分类Logistic回归分析的功能与意义 (1)

多项分类Logistic回归分析的功能与意义 (1)

多项分类Logistic回归分析的功能与意义我们经常会遇到因变量有多个取值而且无大小顺序的情况,比如职业、婚姻情况等等,这时一般的线性回归分析无法准确地刻画变量之间的因果关系,需要用其它回归分析方法来进行拟合模型。

SPSS的多项分类Logistic回归便是一种简便的处理该类因变量问题的分析方法。

例子:下表给出了对山东省某中学20名视力低下学生视力监测的结果数据。

试用多项分类Logistic回归分析方法分析视力低下程度(由轻到重共3级)与年龄、性别(1代表男性,2代表女性)之间的关系。

并单击向右的箭头按钮使之进入“因变量”列表框,选择“性别”使之进入“因子”列表框,选择“年龄”使之进入“协变量”列表框。

还是以教程“blankloan.sav"数据为例,研究银行客户贷款是否违约(拖欠)的问题,数据如下所示:上面的数据是大约700个申请贷款的客户,我们需要进行随机抽样,来进行二元Logistic回归分析,上图中的“0”表示没有拖欠贷款,“1”表示拖欠贷款,接下来,步骤如下:1:设置随机抽样的随机种子,如下图所示:选择“设置起点”选择“固定值”即可,本人感觉200万的容量已经足够了,就采用的默认值,点击确定,返回原界面、2:进行“转换”—计算变量“生成一个变量(validate),进入如下界面:在数字表达式中,输入公式:rv.bernoulli(0.7),这个表达式的意思为:返回概率为0.7的bernoulli分布随机值如果在0.7的概率下能够成功,那么就为1,失败的话,就为"0"为了保持数据分析的有效性,对于样本中“违约”变量取缺失值的部分,validate变量也取缺失值,所以,需要设置一个“选择条件”点击“如果”按钮,进入如下界面:如果“违约”变量中,确实存在缺失值,那么当使用"missing”函数的时候,它的返回值应该为“1”或者为“true",为了剔除”缺失值“所以,结果必须等于“0“也就是不存在缺失值的现象点击”继续“按钮,返回原界面,如下所示:将是“是否曾经违约”作为“因变量”拖入因变量选框,分别将其他8个变量拖入“协变量”选框内,在方法中,选择:forward.LR方法将生成的新变量“validate" 拖入"选择变量“框内,并点击”规则“设置相应的规则内容,如下所示:设置validate 值为1,此处我们只将取值为1的记录纳入模型建立过程,其它值(例如:0)将用来做结论的验证或者预测分析,当然你可以反推,采用0作为取值记录点击继续,返回,再点击“分类”按钮,进入如下页面在所有的8个自变量中,只有“教育水平”这个变量能够作为“分类协变量” 因为其它变量都没有做分类,本例中,教育水平分为:初中,高中,大专,本科,研究生等等, 参考类别选择:“最后一个”在对比中选择“指示符”点击继续按钮,返回再点击—“保存”按钮,进入界面:在“预测值"中选择”概率,在“影响”中选择“Cook距离” 在“残差”中选择“学生化”点击继续,返回,再点击“选项”按钮,进入如下界面:分析结果如下:1:在“案例处理汇总”中可以看出:选定的案例489个,未选定的案例361个,这个结果是根据设定的validate = 1得到的,在“因变量编码”中可以看出“违约”的两种结果“是”或者“否” 分别用值“1“和“0”代替,在“分类变量编码”中教育水平分为5类,如果选中“为完成高中,高中,大专,大学等,其中的任何一个,那么就取值为1,未选中的为0,如果四个都未被选中,那么就是”研究生“ 频率分别代表了处在某个教育水平的个数,总和应该为489个1:在“分类表”中可以看出:预测有360个是“否”(未违约)有129个是“是”(违约)2:在“方程中的变量”表中可以看出:最初是对“常数项”记性赋值,B为-1.026,标准误差为:0.103那么wald =( B/S.E)²=(-1.026/0.103)² = 99.2248, 跟表中的“100.029几乎接近,是因为我对数据进行的向下舍入的关系,所以数据会稍微偏小,B和Exp(B) 是对数关系,将B进行对数抓换后,可以得到:Exp(B) = e^-1.026 = 0.358, 其中自由度为1,sig为0.000,非常显著1:从“不在方程中的变量”可以看出,最初模型,只有“常数项”被纳入了模型,其它变量都不在最初模型内表中分别给出了,得分,df , Sig三个值, 而其中得分(Score)计算公式如下:(公式中(Xi- X¯) 少了一个平方)下面来举例说明这个计算过程:(“年龄”自变量的得分为例)从“分类表”中可以看出:有129人违约,违约记为“1”则违约总和为129,选定案例总和为489那么:y¯ = 129/489 = 0.2638036809816x¯ = 16951 / 489 = 34.664621676892所以:∑(Xi-x¯)² = 30074.9979y¯(1-y¯)=0.2638036809816 *(1-0.2638036809816 )=0.19421129888216 则:y¯(1-y¯)* ∑(Xi-x¯)² =0.19421129888216 * 30074.9979 = 5 840.9044060372 则:[∑Xi(yi - y¯)]^2 = 43570.8所以:=43570.8 / 5 840.9044060372 =7.4595982010876 = 7.46 (四舍五入)计算过程采用的是在EXCEL 里面计算出来的,截图如下所示:从“不在方程的变量中”可以看出,年龄的“得分”为7.46,刚好跟计算结果吻合!!答案得到验证~1:从“块1” 中可以看出:采用的是:向前步进的方法,在“模型系数的综合检验”表中可以看出:所有的SIG 几乎都为“0”而且随着模型的逐渐步进,卡方值越来越大,说明模型越来越显著,在第4步后,终止,根据设定的显著性值和自由度,可以算出卡方临界值,公式为:=CHIINV(显著性值,自由度) ,放入excel就可以得到结果2:在“模型汇总“中可以看出:Cox&SnellR方和Nagelkerke R方拟合效果都不太理想,最终理想模型也才:0.305 和0.446,最大似然平方的对数值都比较大,明显是显著的似然数对数计算公式为:计算过程太费时间了,我就不举例说明计算过程了Cox&SnellR方的计算值是根据:1:先拟合不包含待检验因素的Logistic模型,求对数似然函数值INL0 (指只包含“常数项”的检验)2:再拟合包含待检验因素的Logistic模型,求新的对数似然函数值InLB (包含自变量的检验)再根据公式:即可算出:Cox&SnellR方的值!提示:将Hosmer 和Lemeshow 检验和“随机性表” 结合一起来分析1:从 Hosmer 和Lemeshow 检验表中,可以看出:经过4次迭代后,最终的卡方统计量为:11.919,而临界值为:CHINV(0.05,8) = 15.507卡方统计量< 临界值,从SIG 角度来看:0.155 > 0.05 , 说明模型能够很好的拟合整体,不存在显著的差异。

Logistic回归分析(重点、难点)

Logistic回归分析(重点、难点)

1
p2 p2
,通通常常在在流流行行病病研研究究中中p1
为病例
p1为组病的暴例露组率的,暴p露2 是率指,对p2照为组对的照暴组露的率暴。露率。
对发病对率发较病低率的较疾低的病疾,病一,般一有般R有R≈RORR OR 。
比数比
病例对照研究
暴露 未暴露
病例 a b
对照 c
d
OR a/(ab) / c/(cd) b/(ab) d/(cd)
理解 非条件Logistic回归和条件Logistic回归的 区别
1. Logistic回归分析结果及解释 掌握 2. Logistic回归变量筛选方法
3. Logistic回归系数的流行病学意义 4. Logistic回归的应用及注意事项
几个重要的流行病学概念
病因分析(预后分析)的目的:找出影响疾 病发生(或预后好坏)的影响因素及其影响的强 度。
ORj 1无作用
则有ORj expj, j >0,ORj 1 危险因子
0,ORj 1 保护因子
模型参数的意义
当 P 1 , 则 有 O RP 1/(1P 1) R R P 0/(1P 0)
由 于 Oj值 R 与 模 型 中 的 常 数 项 0α 无 关 ,
α0在 危 险 因 素 分 析 中 通 常 视 其 为 无 效 参 数 。
实例分析
❖ Analyze ▪ Regression
• Binary Logistic
实例分析
❖ 应变量编码Depen dent Variabl e Enco din g
Original ValuIenternal Value
.00
0
1.00
1
❖ 模型拟合结果

logistic_回归分析1

logistic_回归分析1
0
74
55
104663
212555
选择0和1使似然函数L达到最大,即最 大似然估计。
17
STATA命令
Expand f Logit y x Logit, or 或直接logisitc y x
18
expand f (317343 observations created)
OR e
0.4117232
1.509417
21
OR的95%可信区间为(1.06,2.14)
应用Logistic模型校正混杂作用
实例2:上例没有考虑吸烟情况,故将吸烟作 为分层加入,资料如下:
吸烟 不吸烟 饮酒 不饮酒 饮酒 不饮酒 患病 33 21 22 53 未患病 22331 14210 82332 198345 合计 22364 14231 82354 198398
. logistic y x Logistic regression Log likelihood = -1133.5955 Number of obs = 317347 LR chi2(1) = 5.20 (模型检验) Prob > chi2 = 0.0225 Pseudo R2 = 0.0023
----------------------------------------------------------------------------- y | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval] -------------+--------------------------------------------------------------- x1 | .999979 .1877859 -0.00 1.000 .6920603 1.4449 x2 | 5.530467 1.0412 9.08 0.000 3.823925 7.998605 ------------------------------------------------------------------------------

有序logistic回归结果解读

有序logistic回归结果解读

有序logistic回归结果解读(原创实用版)目录1.引言2.有序 logistic 回归的基本概念3.有序 logistic 回归的结果解读方法4.实际案例分析5.总结正文1.引言有序 logistic 回归是一种用于解决有序变量问题的回归分析方法。

在实际应用中,有时需要对有序变量进行预测,如对某产品的销售等级进行预测,这时就需要用到有序 logistic 回归。

本文将介绍如何解读有序logistic 回归的结果。

2.有序 logistic 回归的基本概念有序 logistic 回归是 logistic 回归的一种扩展,主要用于解决有序变量问题。

它的基本思想是利用 logistic 函数将自变量预测为因变量的概率,然后根据概率的大小进行排序。

在解释有序 logistic 回归结果时,通常关注以下几个指标:系数、标准误差、z 值、p 值等。

3.有序 logistic 回归的结果解读方法(1)系数:系数表示自变量对因变量的影响程度。

当系数为正时,表示自变量与因变量正相关;当系数为负时,表示自变量与因变量负相关。

(2)标准误差:标准误差是用来衡量回归系数的精确程度。

标准误差越小,表示回归系数越精确;反之,标准误差越大,表示回归系数越不精确。

(3)z 值:z 值是通过系数除以标准误差得到的。

z 值越大,表示自变量对因变量的影响越大;反之,z 值越小,表示自变量对因变量的影响越小。

(4)p 值:p 值是用来检验回归系数是否显著的。

当 p 值小于显著性水平时,表示回归系数显著;反之,当 p 值大于显著性水平时,表示回归系数不显著。

4.实际案例分析假设我们想要预测某产品的销售等级,其中销售等级分为 I、II、III 三个等级。

我们通过有序 logistic 回归分析发现,产品的价格(自变量)对销售等级有显著影响。

具体来说,价格越高,销售等级越高。

通过解读回归结果,我们可以了解到价格对销售等级的影响程度,从而制定合理的定价策略。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


• 对子号
表4 配对资料(1:1)
病例
对照

x1 x2 x3 x1 x2 x3
•1
13 0
101
•2
03 1
130
•3
01 2
020
•…
… … … ………
• 10
22 2
000
• 注:X1蛋白质摄入量,取值:0,1,2,3

X2不良饮食习惯,取值:0,1,2,3

X3精神状况 ,取值:0,1,2

Logistic回归
-- Logistic回归与多重线性回归联系与区别
联系:
用于分析多个自变量与一个因变量的关 系,目的是矫正混杂因素、筛选自变量和更 精确地对因变量作预测等。
区别:
线性模型中因变量为连续性随机变量, 且要求呈正态分布. Logistic回归因变量的 取值仅有两个,不满足正态分布。
0
1
Overall Percentage
a. The cut value is .500
Y 0
14 2
Percentage
1
Correct
1
93.3
13
86.7
90.0
Variables in the Equation
Satep X1 1 X2
B
S.E.
Wald
df
2.520 1.821 1.916
Exp(B) 12.431 54.568 1.208 .271 .000
• 由上最大似然估计分析知因素X2(吸烟), X3(年龄) 对肺癌的发生有影响。 所得的回归方程为:
Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X31.3037X4.
2.条件logistic回归分析
Change From Previous Block
Step Likelihood Chi-square df
Sig. Chi-square df
Sig.
2
1.920
7.093
2
.029 11.943
2
.003
a. Beginning Block Number 1. Method: Forward Stepwise (Likelihood Ratio)
非S条SPP件SSSSL操操og作作is步步ti骤骤c回::归
• Analyze-----Regression-----Binary Logistic • -----Dependent框(y)-----Covariates框
(x1,x2,…)------ok
单因素分析的结果
Variables not in the Equation
开始方程中没有变量,自变量 由少到多一个一个引入回归方程。 按自变量对因变量的贡献(P值的大 小)由小到大依次挑选,变量入选 的条件是其P值小于规定进入方程的 P界值Enter, 缺省值 P(0.05)。
(2)后退法(backward selection)
开始变量都在方程中,然后 按自变量因变量的贡献(P值的大 小)由大到小依次剔除,变量剔 除的条件是其P值小于规定的剔除 标准Remove, 缺省值 p(0.10)。
bi为i的估计值,此值越大, 其因素对Y影响越大。
• 故对于样本资料OR=exp(bi )
• 95%置信区间为:exp(bi 1.96SE(bi )) • 可见 i 是影响因素Xi增加一个单位所引起的对数
优势的增量,反映了其对Y作用大小。 • 如果要比较不同因素对Y作用大小,需要消
除变量量纲的影响,为此计算标准化回归系数
bi ' bi * Si / S y , 其中Si为X i的标准差, S y为y的标准差。
5.假设检验
• (1)回归方程的假设检验
• H0:所有 i 0, i 0,1,2,, p H1:某个 i 0
• 计算统计量为:G=-2lnL,服从自由度等于n-p
• 的 2 分布
多因素分析的结果
Model Summar y
-2 Log Cox & Snell Nagelk erk e R
Step lik elihood R Square
S qu ar e
1
14.006
.601
.802
Classification Tablea
Predicted
Observed
Step 1 Y
4、回归系数βi的意义
流行病学的常用指标优势比(odds ratio,OR)或称比数比,定义为:暴露 人群发病优势与非暴露人群发病优势 之比。
即Xi的优势比为:OR P1 /(1 P1 ) P0 /(1 P0 )
Ln(OR) log it[P(1)] log it[P(0)]
(0 i 1) (0 i 0) i
• 表1 多元线性回归分析的数据结构
实验对象 y
1
y1
2
y2
3
y3
X1
X2
a11 a12
a21 a22
a31 a32
X3 …. XP
a13 … a1p a23 … a2p a33 … a3p
… ……… ………
n
yn an1 an2
an3 … anp
━━━━━━━━━━━━━━━━━━
其中:y取值是服从正态分布
… ……… ………
n
yn an1 an2
an3 … anp
━━━━━━━━━━━━━━━━━━
其中:y取值是二值或多项分类
例号 1 2 3 …
30
表3 肺癌与危险因素的调查分析 是否患病 性别 吸烟 年龄 地区
1
1
0 30 0
1
0
1 46 1
0
0
0 35 1

… ………
0
0
0 26 1
注:是否患病中,‘0’代表否,‘1’代表是。 性别中‘1’代表男,‘0’代表女,吸烟中‘1’代 表吸烟,‘0’代表不吸烟。地区中,‘1’代表农 村,‘0’代表城市。
• 配对设计的类型:1:1、1:m、n:m • (可采用分层COX模型来拟合)。 • 例如:某市调查三种生活因素与胃
癌的关系,资料见表5。
表6 配对x3 x1 x2 x3
1
13 0
101
2
03 1
130
3
01 2
020

… … … ………
10
22 2
000
注:X1蛋白质摄入量,取值:0,1,2,3
logistic regression analysis
(一)基本概念和原理
1.应用背景 Logistic回归模型是一种概率模 型,适合于病例—对照研究、随访研究 和横断面研究,且结果发生的变量取值 必须是二分的或多项分类。可用影响结 果变量发生的因素为自变量与因变量, 建立回归方程。
2、Logistic回归模型的数据结构
3、 Logistic回归模型
令: y=1 发病(阳性、死亡、治愈等)

y=0 未发病(阴性、生存、未治愈等)
将发病的概率记为P,它与自变量x1, x2,…,xp之间的Logistic回归模型为:
p exp( 0 1 X 1 p X p ) 1 exp( 0 1 X 1 p X p )
多元线性回归模型
通过实验测得含有p个自变量x1,x2,x3,…,xp 及一个因变量y的n个观察对象值, 利用最小二乘法 原理, 建立多元线性回归模型:
yˆ b0 b1x1 b2 x2 bp xp
其中b0为截距, b1 ,b2 …bp称为偏回归系数. bi表示当将其它p-1个变量的作用加以固定后, Xi 改变1个单位时Y将改变bi个单位.
• 某研讨究者调查了30名成年人,记录 了同肺癌发病的有关因素情况, 数据见表 4。其中是否患病中, ‘0’代表否, ‘1’代表 是;性别中 ‘1’代表男, ‘0’代表女;吸 烟中 ‘1’代表吸烟, ‘0’代表不吸烟;地 区中, ‘1’代表农村, ‘0’代表城市。试分 析各因素与肺癌间的关系。

表5 肺癌与危险因素的调查分析
• (2)回归系数的假设检验 • H0: i 0 H1:i 0
计算统计量为:Wald 2 ,自由度等于1。
(二) Logistic回归类型及其实例分析
• 1、非条件Logistic回归 • 当研究设计为队列研究、横
断面研究或成组病例对照研究时, 可以用非条件Logistic回归。
实例1
1
3.999 1.975 4.101
1
X3
.189
.079 5.708
1
X4
-1.306 1.583
.681
1
Constant -9.781 4.099 5.694
1
a. Variable(s) entered on step 1: X1, X2, X3, X4.
Sig. .166 .043 .017 .409 .017
N 10 10 20 0 0
0
0
Total
20
a. Dependent Variable: OUTCOME
P erc en t 50.0% 50.0% 100.0% .0% .0%
.0%
.0% 100.0%
Omnibus Tests of Model Coefficientsa
-2 Log
Overall (score)
X2不良饮食习惯,取值:0,1,2,3
X3精神状况 ,取值:0,1,2
配对Logistic回归SPSS操作步骤:
相关文档
最新文档