统计学-logistic回归分析
医学统计学:Logistic回归分析

析包含某个或某几个变量的模型是否有统计学意义。
模型s的对数似然函数
模型s的对数似然函数 大样本
G = -2 ( ln Ls- ln LP ) ~ 2 ( p -s)
模型s嵌套 于模型p内
LS :包含s个回归系数的模型的似然函数对数值; LP:包含p个回归系数的模型的似然函数对数值,p > s ;
• G值的大小反映增加某个或某几个自变量的模型拟合优度提高的程度。 • s=0时,是对模型的整体检验;p=s+1时,是对某个自变量的检验。
包括:多元线性回归模型,logistic回归模型,Probit回归模型,
Poisson回归模型,负二项回归模型
2
当因变量是分类变量时,其自变量与因变量更多的是 非线性关系,严重违背了线性回归模型的假设条件。 故直接应用线性回归分析不合理;
不能直接分析 y 与 x 的关系 y=f(x) ,因y仅取有 限的几个值
23
2019/6/6
Logistic回归模型的统计推断 • Logistic回归方程(系数)的假设检验 • Logistic回归模型的拟合优度检验 • Logistic回归模型预测准确度的检验
22
(1) 似然比检验(likelihood ratio test)
通过比较两个相嵌套模型的对数似然函数统计量G (又称Deviance):来分
对数似然 ln L a(0 1) a ln[1 exp(0 1)] b ln[1 exp(0 1)] c0 c ln[1 exp(0)] d ln[1 exp(0 )]
求一非阶线偏性导迭,代并方令法一阶偏导数=0 ——Newton-Raphson迭代法
最大似然估计
ˆ0
ln
c d
医学统计学Logistic回归分析简介(四)

1
1 exp(0 1 X1 p X p )
2019年7月7日星期日
重庆交通大学管理学院
21:05:13
模型简介-适用条件
反应变量为二分类变量或某事件的发生率; 自变量与logit(P)之间为线性关系; 残差合计为0,且服从二项分布; 各观测间相互独立。
logistic回归模型应该使用最大似然法来解决方程的 估计和检验问题,不应当使用以前的最小二乘法进行参数 估计。
-1.062
S.E. .317 .175 .318 .616
.184
Wal d 6.391
30.370 6.683 4.270
33.224
df 1 1 1 1
1
Sctep lwt
3
ptl
-.015
.007
5.584
1
.728
.327
4.961
1
ht
1.789
.694
6.639
1
Constant
.893
.038
race(2)
.329
.534
.380
1
.537
sm oke
.927
.399
5552
.345
2.562
1
.109
ht
1.763
.689
6.541
1
.011
ui
.649
.468
1.925
1
.165
ftv
.032
.171
.035
1
.851
Constant
1.143
1.087
2019年7月7日星期日
重庆交通大学管理学院
13.Logistc回归分析

Wald检验的统计量为
z b0 Sb
2 ( b )2 Sb
v 1
可以证明,在 H0成立的条件下,如果样本量较大, z近似地服从标准正态分布 N(0, 1) , 2 近似地 服从自由度为1的 2 分布。
(二)回归系数的区间估计 当样本含量较大时, 已知总体回归系数 的抽样分布近似地服从正态分布, 根据正态分布理论,总
n
1 1 Yi
[1 e ] [1 1 e ] i1
(
0
1
X 1i
...
P
X
i p
)
1Yi
(
0
1
X 1i
...
P
X
i p
)
称为似然函数(1ikelihood function),记为 。 L(0, 1,..., p )
ln L(0 , 1,..., p )
体回归系数β 的(1-α )置信区间为 ,则OR 的估计值为 eb ,(1- α) 置信区间为
e(b z / 2Sb )
例l8-2 针对例l8-1资料,建立 与 关系的1ogistic回归方程,并对大肠癌患者5年生存状态进行预 测。
本例因 (Dure's分期)为无序多分类变量资料,以最高值为参照水平,产生3个哑变量(表18-2),故 最终方程中自变量数增至9个。基于SAS的输出结果如表18-3 所示 。
由于因变量 Y为二分类变量, 不满足线性回归分析条件, 首先对π进行数据变换:
logit() ln( ) ln(Odds) 1
这个变换将取值在0-1间的 π 值转换为值域在(- ∞ ,+ ∞ )的 logit()值
统计学中的Logistic回归分析

统计学中的Logistic回归分析Logistic回归是一种常用的统计学方法,用于建立并探索自变量与二分类因变量之间的关系。
它在医学、社会科学、市场营销等领域得到广泛应用,能够帮助研究者理解和预测特定事件发生的概率。
本文将介绍Logistic回归的基本原理、应用领域以及模型评估方法。
一、Logistic回归的基本原理Logistic回归是一种广义线性回归模型,通过对数据的处理,将线性回归模型的预测结果转化为概率值。
其基本原理在于将一个线性函数与一个非线性函数进行组合,以适应因变量概率为S形曲线的特性。
该非线性函数被称为logit函数,可以将概率转化为对数几率。
Logistic回归模型的表达式如下:\[P(Y=1|X) = \frac{1}{1+e^{-(\beta_0+\beta_1X_1+...+\beta_pX_p)}}\]其中,P(Y=1|X)表示在给定自变量X的条件下,因变量为1的概率。
而\(\beta_0\)、\(\beta_1\)、...\(\beta_p\)则是待估计的参数。
二、Logistic回归的应用领域1. 医学领域Logistic回归在医学领域中具有重要的应用。
例如,研究者可以使用Logistic回归分析,探索某种疾病与一系列潜在风险因素之间的关系。
通过对患病和非患病个体的数据进行回归分析,可以估计各个风险因素对疾病患病的影响程度,进而预测某个个体患病的概率。
2. 社会科学领域在社会科学研究中,研究者常常使用Logistic回归来探索特定变量对于某种行为、态度或事件发生的影响程度。
例如,研究者可能想要了解不同性别、教育程度、收入水平对于选民投票行为的影响。
通过Logistic回归分析,可以对不同自变量对于投票行为的作用进行量化,进而预测某个选民投票候选人的概率。
3. 市场营销领域在市场营销中,Logistic回归也被广泛应用于客户分类、市场细分以及产品销量预测等方面。
通过分析客户的个人特征、购买习惯和消费行为等因素,可以建立Logistic回归模型,预测不同客户购买某一产品的概率,以便制定个性化的市场营销策略。
医学统计学13.Logistic回归分析(15)课件

H0 : 1 2 m 0
H1 : 各(j j 1,2,,m)不全为0
ln
1
P P
=
0
1X1
2 X 2
mXm
模型中某β是否为0进行检验
说明某自变量对Y的作用是否有统计意义
H0 :j 0 H1 : j 0
6、回归模型或回归系数的假设检验
检验方法:
1)似然比检验 (likelihood ratio test) 2)Wald检验 3)计分检验(score test)
统计学中,把ln(P/Q)称为 P 的Logit 转换或对 数转换,记为Logit P。由此得到的回归方程,称 为Logistic回归方程。
或: P
1
1 EXP[(0 1X1 2 X 2 m X m )]
P
1
P概率 1
1 exp[(0 x)]
Z 0 1x
0.5
β为正值,x 越
.793
12.726
Cons tant
1.697
.659
6.635
a. V ariable(s ) entered on step 1: x 1, x 2, x3.
df 1 1 1 1
Sig. .682 .104 .000 .010
Ex p(B) .998
2.208 .059
5.455
2 ( bj )2
当某影响因素Xi仅为两个水平 (1暴露,0非暴露),则:
OR exp b
i
i
当bi=0时,ORi=1,说明因素Xi对疾病发生不起作用; 当bi>0时,ORi>1,说明因素Xi对疾病发生是危险因素; 当bi<0时,ORi<1,说明因素Xi对疾病发生是保护因素。
回归分析线性回归Logistic回归对数线性模型

逻辑回归的模型为 (P(Y=1) = frac{1}{1+e^{-z}}),其中 (z = beta_0 + beta_1X_1 + beta_2X_2 + ... + beta_nX_n)。
逻辑斯蒂函数
பைடு நூலகம்
定义
逻辑斯蒂函数是逻辑回归模型中用来描述自变量与因变量之 间关系的函数,其形式为 (f(x) = frac{1}{1+e^{-x}})。
。
在样本量较小的情况下, logistic回归的预测精度可能高 于线性回归。
线性回归的系数解释较为直观 ,而logistic回归的系数解释相 对较为复杂。
对数线性模型与其他模型的比较
对数线性模型假设因变量和自变量之间存在对 数关系,而其他模型的假设条件各不相同。
对数线性模型的解释性较强,可以用于探索自变量之 间的交互作用和效应大小。
THANKS
感谢您的观看
预测市场细分中的消费者行为等。
对数线性模型还可以用于探索性数据分析,以发现数 据中的模式和关联。
Part
04
比较与选择
线性回归与logistic回归的比较
线性回归适用于因变量和自变 量之间存在线性关系的场景, 而logistic回归适用于因变量为
二分类或多分类的场景。
线性回归的假设条件较为严格 ,要求因变量和自变量之间存 在严格的线性关系,而logistic 回归的假设条件相对较为宽松
最小二乘法
最小二乘法是一种数学优化技术,用于最小化预测值与实际观测值之间的平方误差总和。
通过最小二乘法,可以估计回归系数,使得预测值与实际观测值之间的差距最小化。
最小二乘法的数学公式为:最小化 Σ(Yi - (β0 + β1X1i + β2X2i + ...))^2,其中Yi是实际观 测值,X1i, X2i, ...是自变量的观测值。
Logistic回归

2 2 2 3
0 1 1 1
1 1 0 1
1 1 1 0
0 0 0 1
1 0 0 0
2 2 1 3
1 1 1 1
1 1 1 1
学会看结果!
表16-4 例16-2进入方程中的自变量及有关参数的估计值 选入 回归系 标准误 Wald 标准回归 ˆ 2 P值 OR Sb 变量 数b 系数 b’
常数项 X1 X5 X6 X8
单纯从数学上讲,与多元线性 回归分析中回归系数的解释并无不 同,亦即bi表示xi改变一个单位时, logit P的平均变化量。
变量筛选
方法:前进法、后退法和逐步法。 Wald 统计量和计分统计量之一。
检验统计量:不是 F 统计量,而是似然比统计量、
例16-2 为了探讨冠心病发生的有关危险因素,对26
第三节 Logistic回归分析的方法与步骤
一.准备资料:
(一)资料审核: 1.资料的性质: (1)因变量P必须是限于0-1之间的数据或二分类数据(0,1) (2)自变量的要求则随所用的Logistic回归分析方法不同而有所区别。 若采用Logistic判别法,则要求自变量X1,X2,…,XP服从下列①或②或 ③或④。若采用Logistic最大似然法,则要求自变量X1,X2,…,XP服从 下列②或③或④或⑤。 ①要服从多元正态分布且协方差距阵相同 ②自变量X1,X2,…,XP为多元独立的二分类变量 ③自变量X1,X2,…,XP都服从对数正态的离散变量 ④为①和③两项同时存在 ⑤自变量X1,X2,…,XP不一定符合正态分布
例冠心病病人和28例对照者进行病例对照研究,各
因素的说明及资料见表16-2和表16-3。试用logistic 逐
步回归分析方法筛选危险因素。
logistic回归分析

队列研究(cohort study):也称前瞻性研究、随访研究等。是一种由因及果的研
究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴 露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。如果两 组人群发病率或死亡率差别有统计学意义,则认为暴露和疾病间存在联系。队 列研究验证的暴露因素在研究开始前已存在,研究者知道每个研究对象的暴露 情况。
调查方向:追踪收集资料 暴露 疾病 +
人数
比较
aபைடு நூலகம்
b c
+
研究人群
a/(a+b)
+ -
-
c/(c+d)
d
队列研究原理示意图
暴露组 非暴露组
病例 a c
非病例 b d
合计 n1=a+b n0=c+d
发病率 a/ n1 c/ n0
相对危险度(relative risk, RR)也称危险比(risk ratio) 或率比(rate ratio) RR I e a / n1 、 I e a / n1 、 I 0 c / n2 。
研究,先按疾病状态确定调查对象,分为病例(case)和对照 (control)两组,然后利用已有的记录、或采用询问、填写调查表 等方式,了解其发病前的暴露情况,并进行比较,推测疾病与 暴露间的关系。
调查方向:收集回顾性资料
比较 a/(a+b)
人数 a b c
暴露 +
疾病 病例
+ 对照 -
c/(c+d) d
二、 logistic回归模型的参数估计
logistic 回归模型的参数估计常采用最大似然估计。 其基本思想是先建立似然函数与对数似然函数, 求使对数似然函数最大时的参数值,其估计值即 为最大似然估计值。 建立样本似然函数:
12 logistic回归分析

Logistic回归分析(Logistic Regression)施红英主讲温州医科大学预防医学系肺癌心理遗传慢支smokeLogistic回归分析解决的问题医学研究中,有关生存与死亡,发病与未发病,阴性与阳性等结果的产生,可能与病人的年龄、性别、生活习惯、体质、遗传、心理等许多因素有关。
如何找出其中哪些因素对结果有影响?以及影响有多大?Logistic回归:概率型回归用于分析某类事件发生的概率与自变量之间的关系。
适用于因变量是分类变量的资料,尤其是二分类的情形。
线性回归:应变量是连续型变量分类二分类logistic回归模型◆非条件logistic回归模型-成组资料◆条件logistic回归模型-配对资料 多分类logistic回归模型内容提要♦非条件logistic回归☻数据库格式☻Logistic回归模型的基本结构☻参数估计☻假设检验☻变量筛选☻模型拟合效果的判断♦条件logistic回归♦应用及其注意事项案例1为了探讨冠心病发生的有关影响因素,对26例冠心病病人和28例对照者进行病例-对照研究,试用logistic回归分析筛选冠心病发生的有关因素。
(data:gxb.sav)冠心病8个可能的危险因素与赋值因素变量名赋值说明<45=1,45~=2,55~=3,65~=4年龄(岁)X1无=0,有=1高血压史X2无=0,有=1高血压家族史X3吸烟X不吸=0,吸=14无=0,有=1高血脂史X5低=0,高=1动物脂肪摄入X6<24=1,24~=2,26~=3体重指数(BMI)X7否=0,是=1A型性格X8冠心病Y对照=0,病例=11、数据库格式2、Logistic 回归模型的基本结构011011exp()1exp()p p p p X X P X X ββββββ+++=++++L L 设X 1,X 2,……,X p 是一组自变量,Y 是应变量(阳性记为y =1,阴性记为y =0),用P 表示发生阳性结果的概率。
logistic回归分析(2)

8
非条件logistic回归
logit 因变量 自变量,[选择项]
sw logit 因变量 自变量,[选择项]
选择项: or 指定结果中给出OR值,缺失时输出回归系数 pr(#)是剔除变量的P值 pe(#)是选入变量的P值
9
例1(成组病例对照研究) 某单位研究胸膜间皮瘤与接触石 棉的关系,资料见下表。试对其进行分析。
begin with full model
p = 0.7439 >= 0.1100 removing ht
p = 0.1314 >= 0.1100 removing drug
Conditional (fixed-effects) logistic regression Number of obs = 315
4
参数估计与假设检验
参数的估计:极大似然(MLE) 假设检验:
似然比检验: G=-2lnL-(-2lnL’)
Wald检验: z 检验
2 i
(
ˆi SE(ˆi
)
)
2
5
回归系数的解释
回归系数 表示当其它自变量固定不变时, X每改变一个单位,优势对数的改变量(优 势比的对数)。
6
回归系数的解释
7
回归系数的解释
多分类变量:哑变量(dummy variable)
x=1时: x1=1, x2=0, x3=0, x4=0 表示A型血 x=2时: x1=0, x2=1, x3=0, x4=0 表示B型血 x=3时: x1=0, x2=0, x3=1, x4=0 表示AB型血 x=4时: x1=0, x2=0, x3=0, x4=1 表示O型血
➢ 回归系数β:表示病例与对照变量值之差与患病 优势的关系,即exp(β)表示病例与对照暴露水平 相差一个单位时患病的优势比。
LOGISTIC回归

一、回归分析的分类logistic回归(logistic regression)是研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。
根据1个因变量与多个因变量之分,有以下区分:①一个因变量y:I连续形因变量(y)——线性回归分析II分类型因变量(y)——Logistic 回归分析III 生存时间因变量(y)——生存风险回归分析IV时间序列因变量(y)——时间序列分析②多个因变量(y1,y2,……yn):I 路径分析II 结构方程模型分析在流行病学研究中,常需要分析疾病与各种危险因素间的定量关系,同时为了能真实反映暴露因素与观察结果间的关系,需要控制混杂因素的影响。
(1)Mantel-Haenszel分层分析:适用于样本量大、分析因素较少的情况。
当分层较多时,由于要求各格子中例数不能太少,所需样本较大,往往难以做到;当混杂因素较多时,分层数也呈几何倍数增长,这将导致部分层中某个格子的频数为零,无法利用其信息。
(2)线性回归分析:由于因变量是分类变量,不能满足其正态性要求;有些自变量对因变量的影响并非线性。
(3)logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研究某个二分类(或无序及有序多分类)目标变量与有关因素的关系。
二、logistic回归分析(一)logistic回归的分类(1)二分类资料logistic回归:因变量为两分类变量的资料,可用非条件logistic回归和条件logistic回归进行分析。
非条件logistic回归多用于非配比病例-对照研究或队列研究资料,条件logistic回归多用于配对或配比资料。
(2)多分类资料logistic回归:因变量为多项分类的资料,可用多项分类logistic回归模型或有序分类logistic回归模型进行分析。
队列研究(cohort study):也称前瞻性研究、随访研究等。
是一种由因及果的研究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。
(卫生统计学)第十九章 Logistic回归分析

结果解释
3个βi的估计值都是正数,表明这三个因素都是危险因素且都有统计学意 义。从优势比OR上可以看出,在因素x2和x3固定不变时,因素x1每增加一个 等级所引起的优势比为增加前的3.034倍;在因素X1和X3固定不变时,因素x2 每增加一个等级所引起的优势比为增加前的2.019倍 。在因素x1和x2固定不变 时,因素x3每增加一个等级所引起的优势比为增加前的2.651倍。同时在考察 因素相对贡献大小时,从标准系数看, β'1> β' 3 > β'2 ,故x1的相对贡献比x2和 x3大。
OR
P1 P0
/1 /1
P1 P0
e i
亦称比数比
反映某一个危险因素 xi在不同暴露水平下发病 与不发病的比。
当阳性率 P 1时, OR RR
二、参数估计
由于Logistic回归是一种概率模型,通常采用最大似然估计法(maximum likelihood estimate)求解模型中的参数βj的估计值 bj (j=0,1,2,….k)。
1. 相对危险度 RR( Re lative Risk ) RR P1 P0
反映某一个危险因素 xi两个不同暴露水平 1与 0的发病率的比
2. 优势 Odds
Odds P1 P1 1 P1 q1
亦称比数
反映某一个危险因素 xi在暴露水平 1下发病率与不发病率的 比
3. 优势比 OR ( Odds Ratio )
个例预测
设某AMI患者在症状5小时内送到医院(x3=0),未发生休克(x1=0), 已有心衰(x2=1),求抢救成功的概率。
logistic回归分析

表13-7 例13-2的logistic回归模型自变量筛选结果
模型
因素 X
第1步 常数项
回归系数 标准误
b
Sb
-2.528 0.238
Wald χ2 P值 112.433 <0.001
OR值
OR值95%可信区间 下限 上限
0.080
治疗11周
2.149 0.289 55.267 <0.001 8.578 4.867 15.117
因素 X 常数项
回归系数 标准误
Waldχ2 P值 OR值
b
Sb
-0.910 0.136 44.870 0.000 0.403
OR值95%可信区间
下限
上限
吸烟
0.886 0.150 34.862 0.000 2.424 1.807
3.253
饮酒
0.526 0.157 11.207 0.001 1.692 1.244
logistic回归分析
Logistic regression analysis
• 医学研究中应变量有时是二分类结果,如发病与不 发病、死亡与生存、有效与无效、复发与未复发等, 当需要研究二分类应变量的影响因素时,适合采用 logistic回归分析。
logistic回归属于概率型非线性回归,它是研究二 分类(可以扩展到多分类)反应变量与多个影响 因素之间关系的一种多变量分析方法。logistic回 归模型参数具有明确的实际意义。
OR值的可信区间:
exp(bj - zα/2 Sbj ) ORj exp(bj zα/2 Sb j )
• 例13-1 研究吸烟(X1)、饮酒(X2)与食道癌 (Y)关系的病例-对照资料,试作logistic回归 分析。
统计学中的Logistic回归模型

统计学中的Logistic回归模型统计学是一门研究数据收集、分析和解释的学科,它在各个领域都有广泛的应用。
其中,Logistic回归模型是一种常用的统计方法,用于预测和解释二元或多元因变量与自变量之间的关系。
在本文中,我们将探讨Logistic回归模型的基本原理、应用场景以及其优势和局限性。
一、Logistic回归模型的基本原理Logistic回归模型是一种广义线性模型,它用于建立因变量与自变量之间的非线性关系。
与线性回归模型不同,Logistic回归模型的因变量是一个二元变量(如成功与失败、生存与死亡),并且其取值范围在0和1之间。
该模型基于Logistic函数,将自变量的线性组合转换为概率值,从而进行分类或概率预测。
二、Logistic回归模型的应用场景Logistic回归模型在各个领域都有广泛的应用。
在医学研究中,它可以用于预测患者的疾病风险,如心脏病、癌症等。
在市场营销中,它可以用于预测顾客的购买意愿和忠诚度。
在金融领域,它可以用于评估贷款违约风险和信用评分。
此外,Logistic回归模型还可以应用于社会科学、环境科学等多个领域。
三、Logistic回归模型的优势Logistic回归模型具有以下几个优势。
首先,它可以处理二元或多元因变量,并且不受因变量分布的限制。
其次,Logistic回归模型可以提供概率预测,而不仅仅是分类结果。
这对于决策制定和风险评估非常有用。
此外,Logistic回归模型还可以通过引入交互项和多项式项来处理自变量之间的非线性关系,增加模型的灵活性和解释性。
四、Logistic回归模型的局限性尽管Logistic回归模型有很多优势,但也存在一些局限性。
首先,它假设自变量与因变量之间的关系是线性的,这在某些情况下可能不符合实际情况。
其次,Logistic回归模型对异常值和缺失数据比较敏感,需要进行数据预处理和异常值处理。
此外,模型的解释性较强,但对于复杂的关系和交互作用的解释能力有限。
统计学-logistic回归分析

研究问题可否用多元线性回归方法?
ˆ y a b x b x b x 1 1 2 2 m m 1.多元线性回归方法要求 Y 的取值为计量
的连续性随机变量。 2.多元线性回归方程要求Y与X间关系为线 性关系。 ˆ 不能回答“发生与 3.多元线性回归结果 Y 否” logistic回归方法补充多元线性回归的不足
第十六章 logistic回归分析
logistic回归为概率型非线性回归 模型,是研究分类观察结果(y)与 一些影响因素(x)之间关系的一种 多变量分析方法
问题提出:
医学研究中常研究某因素存在条件下某结果是否 发生?以及之间的关系如何? 因素(X) 疾病结果(Y) x1,x2,x3…XK 发生 Y=1 不发生 Y=0 例:暴露因素 冠心病结果 高血压史(x1):有 或无 有 或 无 高血脂史(x2): 有 或 无 吸烟(x3): 有或无
lnllnplnlikehoodratiotest通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行其统计量为近似服从自由度为待检验因素个数的scoretest以未包含某个或几个变量的模型为基础保留模型中参数的估计值并假设新增加的参数为零计算似然函数的一价偏导数又称有效比分及信息距阵两者相乘便得比分检验的统计量分布
• 分析因素xi为等级变量时,如果每个等级的 作用相同,可按计量资料处理:如以最小或 最大等级作参考组,并按等级顺序依次取为 0,1,2,…。此时, e(bi) 表示xi增加一个等 级时的优势比, e(k* bi)表示xi增加k个等级时 的优势比。如果每个等级的作用不相同,则 应按多分类资料处理。 • 分析因素xi为连续性变量时, e(bi)表示xi增加 一个计量单位时的优势比。
Y 发病=1 不发病=0
logistic_regression_analysis_z-score_概述及解释说明

logistic regression analysis z-score 概述及解释说明1. 引言1.1 概述本篇文章旨在介绍和解释逻辑回归分析Z得分(Z-Score)方法。
逻辑回归是一种广泛应用于分类问题的统计模型,它利用自变量与因变量之间的关系来预测某个事件或结果发生的概率。
而Z-Score则是一种统计指标,用于衡量数据的偏离程度和标准化程度。
结合逻辑回归和Z-Score的分析方法,在实际应用中可以提供更准确、可靠和可解释性强的预测结果。
1.2 文章结构本文将按照以下顺序进行论述:首先,我们将对逻辑回归分析Z-Score方法进行总体概述,并介绍其定义、背景和意义;接着,我们将详细探讨该方法在不同领域中的应用,并突出其优势与局限性;最后,我们将通过具体实例来演示该方法的实施步骤,并呈现相关数据分析结果和讨论。
1.3 目的本文旨在帮助读者理解逻辑回归分析Z-Score方法并能够正确应用于实际问题中。
通过阅读本文,读者将了解该方法在分类问题中的作用与应用,并掌握实施步骤和结果解释的技巧。
无论您是从事统计学研究、数据分析还是企业决策的相关人员,本文将为您提供一份有关逻辑回归分析Z-Score方法的全面介绍和详细说明,帮助您在实践中取得成功。
2. Logistic Regression Analysis Z-Score概述2.1 概念解释Logistic回归分析是一种用于预测二元(是或否)结果的统计分析方法。
它基于线性回归模型,但通过使用logistic函数将因变量转换为概率结果。
这种转换使得我们能够计算出每个自变量对因变量的影响程度,并进一步预测结果发生的可能性。
Z-score,也称作标准化分数或标准分,是统计学中常用的一种标准化方法。
它可以衡量一个数据点在整体样本中的相对位置,并告诉我们该数据点与平均值之间的距离。
通过Z-score,我们可以判断一个样本值是否偏离了平均值,并进行比较和分析。
2.2 应用领域Logistic回归分析和Z-score在多个领域都有广泛应用。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• Logistic回归模型 回归模型 Logistic回归的 回归的logit模型 模型
logit P=b 0 + b1 x1 + b2 x2 + ⋅ ⋅ ⋅ + bk xk
Logistic回归模型 回归模型
( b0 + b1 x1 + b2 x 2 + ⋅⋅⋅+ bk x k )
e P= ( b0 + b1 x1 + b2 x 2 + ⋅⋅⋅+ bk x k ) 1+ e
或
e P(y =1/ x) = β0 +βx 1+e
1 p(y =1/ x) = 1+ex −(β0 +βx)] p[
模型描述了应变量p与 的关系 模型描述了应变量 与x的关系
β0 +βx
P概率 概率 1 p(y =1 = ) 1 1+ex −(β0 +βx)] p[
z = β0 +β1x
0.5
Β为正值,x越 为正值, 越 为正值 结果y=1发 大,结果 发 生的可能性( ) 生的可能性(p) 越大。 越大。
第十六章 logistic回归分析 回归分析
logistic回归为概率型非线性回归 回归为概率型非线性回归 模型,是研究分类观察结果(y)与 模型,是研究分类观察结果 与 一些影响因素(x)之间关系的一种 一些影响因素 之间关系的一种 多变量分析方法
问题提出: 问题提出:
医学研究中常研究某因素存在条件下某结果是否 发生?以及之间的关系如何? 发生?以及之间的关系如何? 因素( ) 疾病结果( ) 因素(X) 疾病结果(Y) x1,x2,x3…XK Y=1 , , 发生 Y=0 不发生 例:暴露因素 冠心病结果 高血压史(x1):有 或无 高血压史 : 有 或 无 高血脂史(x2): 有 或 无 高血脂史 : 吸烟(x3): 吸烟 : 有或无
自变量( 称为危险因素或暴露因素, 自变量(Xi)称为危险因素或暴露因素,可为连续 变量、等级变量、分类变量。 变量、等级变量、分类变量。 可有m个自变量 个自变量X 可有 个自变量 1, X2,… Xm
2.两值因变量的 两值因变量的logistic回归模型方程 两值因变量的 回归模型方程
• 一个自变量与 关系的回归模型 一个自变量与Y关系的回归模型 未发生=0 x 有=1无=0, 如:y:发生 未发生 :发生=1,未发生 无 , 记为p( 记为 (y=1/x)表示某暴露因素状态下,结 )表示某暴露因素状态下, 的概率( )模型。 果y=1的概率(P)模型。 的概率
或
p(y =1/ x , x2K k ) = x 1
1 1+e
−(β0 +β xk +....βk xk ) 1
2.模型中参数的意义 模型中参数的意义
P ln = β0 +β1X1 1−P
Β0(常数项):暴露因素 i=0时,个体发病 常数项):暴露因素X 时 ):暴露因素 概率与不发病概率之比的自然对数比值。 概率与不发病概率之比的自然对数比值。
• Wald检验( wald test) 检验 )
即广义的t检验,统计量为 即广义的 检验,统计量为u 检验
b i u = s bi
u服从正态分布,即为标准正态离差。 服从正态分布,即为标准正态离差。 服从正态分布
Logistic回归系数的区间估计 回归系数的区间估计
b i ± u α ⋅ S bi
研究问题可否用多元线性回归方法? 研究问题可否用多元线性回归方法?
ˆ y = a + b1x1 + b2 x2 Kbm xm 1.多元线性回归方法要求 Y 的取值为计量 多元线性回归方法要求
的连续性随机变量。 的连续性随机变量。 2.多元线性回归方程要求 与X间关系为线 多元线性回归方程要求Y与 间关系为线 多元线性回归方程要求 性关系。 性关系。 3.多元线性回归结果 Y 不能回答“发生与 多元线性回归结果 ˆ 不能回答“ 否” logistic回归方法补充多元线性回归的不足 回归方法补充多元线性回归的不足
三、参数估计
• 最大似然估计法 (Maximum likehood estimate) ) 似然函数: 似然函数:L=∏Pi 对数似然函数: 对数似然函数: lnL=∑(ln P)=ln P1+ln P2+…+ln Pn 非线性迭代方法—— 非线性迭代方法 Newton-Raphson法 法
四、参数检验
P(y =1/ x =0) ln 1−P(y =0/ x =0) = β0
Xi=1与Xi=0相比,发生某结果(如发病)优势比 相比, 与 相比 发生某结果(如发病) 的对数值。 的对数值。
βi
的含义:某危险因素,暴露水平变化时, 的含义:某危险因素,暴露水平变化时,即
P /( −P) 1 1 1 lnO =ln R 0 1 0 P /( −P) =logitP −logitP 1 0
• 似然比检验(likehood ratio test) )
通过比较包含与不包含某一个或 几个待检验观察因素的两个模型的对 数似然函数变化来进行,其统计量为G 数似然函数变化来进行,其统计量为 (又称Deviance)。 G=-2(ln Lp-ln Lk) 样本量较大时, 近似服从自由 样本量较大时, G近似服从自由 度为待检验因素个数的χ 分布。 度为待检验因素个数的χ2分布。
Logistic回归方法
该法研究是 取某值( 当 y 取某值(如y=1)发生的概率(p)与 )发生的概率( ) 某暴露因素( )的关系。 某暴露因素(x)的关系。
p(y =1/ x) = f (x),即 = f (x) p
P(概率)的取值波动0~1范围。 (概率)的取值波动 ~ 范围 范围。 基本原理:用一组观察数据拟合Logistic模型, 模型, 基本原理:用一组观察数据拟合 模型 揭示若干个x与一个因变量取值的关系 反映y 与一个因变量取值的关系, 揭示若干个 与一个因变量取值的关系,反映 的依存关系。 对x的依存关系。 的依存关系
Y 发病=1 发病 不发病=0 不发病
a p= 1 a+c
有暴露因素人群中发病的比例
多元回归模型的的 βi 概念
P logit(p) =ln + =β0 +β1X1 +L βmXm 1−P
反映了在其他变量固定后, 反映了在其他变量固定后,X=1与x=0相比 与 相比 发生Y事件的对数优势比 事件的对数优势比。 发生 事件的对数优势比。 回归系数β与 X与Y的关联 回归系数 与OR 与 的关联 • β=0,OR=1, , , 无关 β>0,OR>1 , 有关,危险因素 有关, > , > β<0,OR<1, 有关,保护因子 < , < , 有关,
流行病学概念: 流行病学概念:
表示暴露因素X时个体发病的概率 设P表示暴露因素 时个体发病的概率, 表示暴露因素 时个体发病的概率, 则发病的概率P与未发病的概率 与未发病的概率1-P 之 则发病的概率 与未发病的概率 比为优势( 就是odds 比为优势(odds), logit P就是 ) 就是 的对数值。 的对数值。
五、回归系数的意义
单纯从数学上讲, 单纯从数学上讲,与多元线性 回归分析中回归系数的解释并无不 亦即b 表示x 改变一个单位时, 同,亦即 i表示 i改变一个单位时, logit P的平均变化量。 的平均变化量。
流行病学中的一些基本概念: 流行病学中的一些基本概念:
相对危险度(relative risk): RR=P1/P2 ) 比数 比数比
β0
β0 +βx
logistic回归模型方程的线性表达 回归模型方程的线性表达
回归模型的概率( ) 对logistic回归模型的概率(p)做logit变 回归模型的概率 变 换,
p logit( p) =ln( ) 1− p
方程如下: 方程如下:
线性 关系
y =logit( p) = β0 ogistic回归要求应变量(Y)取值为分类变量 回归要求应变量( ) 回归要求应变量 两分类或多个分类) (两分类或多个分类)
1 Y = 0 出 阳 结 发 、 效 死 等 现 性 果( 病 有 、 亡 ) 出 阴 结 未 病 无 、 活 ) 现 性 果( 发 、 效 存 等
βi
βi
事件发生率很小, 事件发生率很小,OR≈RR。 。
二、 Logistic回归模型
• Logistic回归的分类 回归的分类
二分类 多分类 条件Logistic回归 回归 条件 非条件Logistic回归 非条件 回归
• Logit变换 变换
也称对数单位转换
P logit P= l n 1 − P
Y~( 至+∞) ~(-∞至 ) ~(
截距(常数) 截距(常数)
回归系数
在有多个危险因素( 在有多个危险因素(Xi)时
• 多个变量 多个变量的logistic回归模型方程的线性表达: 回归模型方程的线性表达: 回归模型方程的线性表达
P log it(p) =ln + = β0 +β1X1 +β2X2 +L βmXm 1−P
P1(y=1/x=1)的概率 ) P0(y=1/x=0)的概率 y=1/x=0)
=(β0 +β1x ) −(β0 +βx0) = β1x 1 1
O e R=
β
P /(1−P) odds1 1 O = 1 R = P /(1−P ) odds0 0 0
Y 发病=1 发病 不发病=0 不发病
危险因素 x= 1 x= 0 30(a) 10( b) ( ) ( ) 70(c) 90(d) ( ) ( ) a+c b+d 危险因素 x= 1 x= 0 p1 p0 1-p1 1-p0