Logistic回归模型基本知识
logistic回归的模型公式
logistic回归的模型公式Logistic回归模型是一种经典的统计学习方法,用于解决二分类问题。
它通过建立一个逻辑回归方程,预测某个样本属于某一类别的概率。
本文将介绍Logistic回归模型的原理和应用,并探讨其优缺点。
一、Logistic回归模型的原理Logistic回归模型是建立在线性回归模型的基础上,通过引入一个非线性函数(称为Logistic函数或Sigmoid函数)将线性回归的输出结果转化为概率值。
Logistic函数的数学表达式为:f(x) = 1 / (1 + e^(-x)),其中e为自然对数的底。
该函数的特点是输出值在0和1之间,可以用来表示某个事件发生的概率。
在Logistic回归模型中,假设有n个自变量(特征)x1,x2,...,xn,对应的回归系数为β1,β2,...,βn。
模型的方程可以表示为:P(y=1|x) = f(β0 + β1x1 + β2x2 + ... + βnxn),其中P(y=1|x)表示样本属于正例的概率。
为了估计回归系数,通常采用最大似然估计方法。
具体来说,我们希望通过最大化似然函数来找到最优的回归系数,使得模型对观测数据的拟合度最高。
然后,利用估计得到的回归系数,我们可以对新的样本进行预测,并给出其属于正例的概率。
二、Logistic回归模型的应用Logistic回归模型有广泛的应用领域,尤其在医学、金融、市场营销等领域中得到了广泛的应用。
在医学领域,Logistic回归模型常用于疾病风险预测和诊断模型的建立。
例如,可以利用患者的年龄、性别、血压等特征来预测患者患某种疾病的风险。
在金融领域,Logistic回归模型可以用于信用评分和违约预测。
银行可以根据客户的个人信息和历史信用记录,利用Logistic回归模型来评估客户的信用风险,并据此决定是否给予贷款。
在市场营销领域,Logistic回归模型可以用于客户分类和市场细分。
根据客户的购买行为、兴趣爱好等特征,可以预测客户对某种产品或服务的购买概率,进而制定相应的市场营销策略。
统计学中的Logistic回归分析
统计学中的Logistic回归分析Logistic回归是一种常用的统计学方法,用于建立并探索自变量与二分类因变量之间的关系。
它在医学、社会科学、市场营销等领域得到广泛应用,能够帮助研究者理解和预测特定事件发生的概率。
本文将介绍Logistic回归的基本原理、应用领域以及模型评估方法。
一、Logistic回归的基本原理Logistic回归是一种广义线性回归模型,通过对数据的处理,将线性回归模型的预测结果转化为概率值。
其基本原理在于将一个线性函数与一个非线性函数进行组合,以适应因变量概率为S形曲线的特性。
该非线性函数被称为logit函数,可以将概率转化为对数几率。
Logistic回归模型的表达式如下:\[P(Y=1|X) = \frac{1}{1+e^{-(\beta_0+\beta_1X_1+...+\beta_pX_p)}}\]其中,P(Y=1|X)表示在给定自变量X的条件下,因变量为1的概率。
而\(\beta_0\)、\(\beta_1\)、...\(\beta_p\)则是待估计的参数。
二、Logistic回归的应用领域1. 医学领域Logistic回归在医学领域中具有重要的应用。
例如,研究者可以使用Logistic回归分析,探索某种疾病与一系列潜在风险因素之间的关系。
通过对患病和非患病个体的数据进行回归分析,可以估计各个风险因素对疾病患病的影响程度,进而预测某个个体患病的概率。
2. 社会科学领域在社会科学研究中,研究者常常使用Logistic回归来探索特定变量对于某种行为、态度或事件发生的影响程度。
例如,研究者可能想要了解不同性别、教育程度、收入水平对于选民投票行为的影响。
通过Logistic回归分析,可以对不同自变量对于投票行为的作用进行量化,进而预测某个选民投票候选人的概率。
3. 市场营销领域在市场营销中,Logistic回归也被广泛应用于客户分类、市场细分以及产品销量预测等方面。
通过分析客户的个人特征、购买习惯和消费行为等因素,可以建立Logistic回归模型,预测不同客户购买某一产品的概率,以便制定个性化的市场营销策略。
Logistic回归模型
Logistic 回归模型1 Logistic 回归模型的基本知识 1.1 Logistic 模型简介主要应用在研究某些现象发生的概率p ,比如股票涨还是跌,公司成功或失败的概率,以及讨论概率p 与那些因素有关。
显然作为概率值,一定有10≤≤p ,因此很难用线性模型描述概率p 与自变量的关系,另外如果p 接近两个极端值,此时一般方法难以较好地反映p 的微小变化。
为此在构建p 与自变量关系的模型时,变换一下思路,不直接研究p ,而是研究p 的一个严格单调函数)(p G ,并要求)(p G 在p 接近两端值时对其微小变化很敏感。
于是Logit 变换被提出来:ppp Logit -=1ln)( (1)其中当p 从10→时,)(p Logit 从+∞→∞-,这个变化范围在模型数据处理上带来很大的方便,解决了上述面临的难题。
另外从函数的变形可得如下等价的公式:XT X T T eep X ppp Logit βββ+=⇒=-=11ln)( (2)模型(2)的基本要求是,因变量(y )是个二元变量,仅取0或1两个值,而因变量取1的概率)|1(X y P =就是模型要研究的对象。
而T k x x x X ),,,,1(21 =,其中i x 表示影响y 的第i 个因素,它可以是定性变量也可以是定量变量,Tk ),,,(10ββββ =。
为此模型(2)可以表述成:kx k x kxk x k k ee p x x p p βββββββββ+++++++=⇒+++=- 11011011011ln (3)显然p y E =)(,故上述模型表明)(1)(ln y E y E -是k x x x ,,,21 的线性函数。
此时我们称满足上面条件的回归方程为Logistic 线性回归。
Logistic 线性回归的主要问题是不能用普通的回归方式来分析模型,一方面离散变量的误差形式服从伯努利分布而非正态分布,即没有正态性假设前提;二是二值变量方差不是常数,有异方差性。
Logistic回归模型基本知识
Logistic 回归模型1 Logistic 回归模型的基本知识 1.1 Logistic 模型简介主要应用在研究某些现象发生的概率p ,比如股票涨还是跌,公司成功或失败的概率,以及讨论概率p 与那些因素有关。
显然作为概率值,一定有10≤≤p ,因此很难用线性模型描述概率p 与自变量的关系,另外如果p 接近两个极端值,此时一般方法难以较好地反映p 的微小变化。
为此在构建p 与自变量关系的模型时,变换一下思路,不直接研究p ,而是研究p 的一个严格单调函数)(p G ,并要求)(p G 在p 接近两端值时对其微小变化很敏感。
于是Logit 变换被提出来:ppp Logit -=1ln)( (1)其中当p 从10→时,)(p Logit 从+∞→∞-,这个变化范围在模型数据处理上带来很大的方便,解决了上述面临的难题。
另外从函数的变形可得如下等价的公式:XT XT T ee p Xppp Logit βββ+=⇒=-=11ln )( (2)模型(2)的基本要求是,因变量(y )是个二元变量,仅取0或1两个值,而因变量取1的概率)|1(X y P =就是模型要研究的对象。
而Tk x x x X ),,,,1(21 =,其中i x 表示影响y 的第i 个因素,它可以是定性变量也可以是定量变量,Tk ),,,(10ββββ =。
为此模型(2)可以表述成:kx k x k x k x kk eep x x pp βββββββββ+++++++=⇒+++=- 11011011011ln (3)显然p y E =)(,故上述模型表明)(1)(lny E y E -是k x x x ,,,21 的线性函数。
此时我们称满足上面条件的回归方程为Logistic 线性回归。
Logistic 线性回归的主要问题是不能用普通的回归方式来分析模型,一方面离散变量的误差形式服从伯努利分布而非正态分布,即没有正态性假设前提;二是二值变量方差不是常数,有异方差性。
logistic回归基本概念
逻辑回归是一种广泛使用的统计工具,其核心在于利用多维特征对结果进行建模。
它是机器学习中的一个重要组成部分,常被用于金融预测、市场营销以及健康保险理赔等。
与决策树等其他算法相比,逻辑回归具有更强的可解释性,能够清晰地揭示各个特征对结果的影响。
逻辑回归基于一组输入变量(也称为特征或自变量),通过训练数据集估计出一条或几条直线,以此为基础对新的样本进行分类或预测。
这种算法具有直观、简洁和可解释性强的优点,而且适合处理各种数据类型,无论是连续的还是离散的。
在逻辑回归中,因变量通常是二分类的,例如“是否购买某商品”或“是否患某种疾病”。
通过训练数据集,模型可以学习到各个特征与这个二分类因变量之间的关联。
这种关联被表示为权重,它们揭示了每个特征对结果的贡献程度。
通过这些权重,我们不仅能了解各个特征的重要性,还能根据新样本的特征预测其属于正类(通常记为1)或负类(通常记为0)的概率。
逻辑回归在许多领域都有广泛的应用。
例如,在金融领域,它被用来预测客户是否可能违约;在医疗领域,它被用来预测患者患某种疾病的风险;在市场营销领域,它被用来预测消费者是否可能购买某产品。
通过这些预测,企业和研究人员可以更好地理解客户、病人或消费者的行为和需求,从而制定更有效的策略。
总的来说,逻辑回归是一种强大而灵活的统计工具,具有广泛的应用前景。
它不仅能帮助我们更好地理解数据和预测结果,还能提供可解释性和透明度,使决策者能够基于坚实的证据做出决策。
无论是在
学术研究、商业决策还是日常生活中,逻辑回归都发挥着重要的作用。
logistic回归分析
Logistic回归分析
数学模型:
e p 1 e
1 X 1 2 X 2 m X m
1 X 1 2 X 2 m X m
Logistic回归分析
一、基本思想
用模型去描述实际资料时,须使 得理论结果与实际结果尽可能的一致。
资料整理格式
Logistic回归分析
1
消除xj量纲的影响
2.标准化偏回归系数j 的意义
果的发生,为“不利因素”;
xij
xij x j sj
(1)符号:取 “+”,xj 增大,则P增大,即促进阳性结
取 “-”,xj增大,则P减小,即抑制阳性结 果的发生,为“保护因素”。 (2)大小 :∣ j ∣越大,则xj 对结果的影响也就越大。
i 1 2 n
x1 x11 x21 xn1
x2
...
xm x1m x2m xnm
δ δ δ δ
1 2
x12 ... x22 ... …... xn2 ...
n
Logistic回归分析
二、基本原理
1.结果问题 : 对于第i个个体而言,其理论结果为pi , 而实际结果是i 。 2.一致问题: 对于第i个个体而言, i =1 pi i =0 qi
m
▲
OR e j 1
j ) ˆ j ( x*j x
(1)对多指标的共同效应进行评价:
若OR>1,则处于X*水平下的阳性结果发生风险要高于X 水平, 即“不利因素”占主导地位;
▲
▲
若OR<1,则处于X*水平下的阳性结果发生风险要低于X 水平, 即“保护因素”占主导地位;
▲
回归分析-Logistic回归
zi = β 0 + β1 xi + ε i
其中 权系数
ri pi 1 zi = ln ~ N (ln , ) & ni − ri 1 − pi ni pi (1 − pi )
ni % , ε i = ε i / wi ~ N (0,1) wi = & ri (ni − ri )
回归模型
p( x ) ln = 0.013 − 0.25 x 1 − p( x )
Logistic 回归分析
前言
Logistic回归模型的基本思想 Logistic回归模型的参数估计
基本原理
Y 多元线性回归模型: = β0 + β1 x1 + β 2 x2 + ... + β n xn = β0 + X β β 其中是β 0 截距, 是参数向量,X是自变量向量。
表示n个自变量x与反应变量Y间的关系,Y为任 意实数 ,属于连续变量
yi i
n
1− yi
似然函数 对数似然
L( β 0 , β1 ) = ∏ piyi (1 − pi )1− yi
i =1
n n
ln L( β 0 , β1 ) = ∑ yi (β 0 + β1 xi ) − ∑ ln(1 + e β0 + β1xi )
i =1 i =1
加权最小二乘
设x可以取值x1,x2……xk。x=xi时,Y的取值 为yi(yi=0或1); 如果模型正确 pi ln = β 0 + β1 xi 1 − pi 观测模型
该转换称为logit转换。P为事件发生的概率,1-P 为事件不发生的概率
p 1− p
=e
β0 + X β
logistic回归模型的原理与应用
logistic回归模型的原理与应用Logistic回归模型是一种重要的统计学习方法,在分类问题中得到广泛应用。
本文将介绍Logistic回归模型的原理及其在实际应用中的场景。
一、原理1.1 Logistic回归模型的基本概念Logistic回归模型是一种用于解决分类问题的线性模型,旨在通过将输入特征与相应的概率联系起来,实现对不同类别的分类。
1.2 Logistic函数在Logistic回归模型中,使用了一种称为Logistic函数(也称为Sigmoid函数)的特殊函数作为模型的基础。
Logistic函数的公式如下:$$g(z) = \frac{1}{1 + e^{-z}}$$其中,z表示线性模型的预测值(z = wx+b),g(z)表示通过Logistic函数获得的概率值。
1.3 损失函数与最大似然估计Logistic回归模型通过极大似然估计来确定模型参数。
常用的损失函数是交叉熵损失函数(Cross-Entropy Loss),其目标是最小化观测样本的预测概率与真实标签之间的差异。
1.4 参数估计为了确定Logistic回归模型的参数,通常使用梯度下降等优化方法进行参数估计。
通过迭代更新模型参数,使得损失函数逐渐减小,从而得到最优的参数估计结果。
二、应用场景2.1 二分类问题Logistic回归模型常用于解决二分类问题,如判断邮件是否为垃圾邮件、预测患有某种疾病的概率等。
通过将特征与相应的概率联系起来,可以根据阈值将样本分为两个类别。
2.2 多分类问题Logistic回归模型还可以扩展到多分类问题。
常见的应用包括手写数字识别、图像分类等。
通过对每个类别进行一对其他类别的二分类,可以得到每个类别的概率,从而实现多分类问题的解决。
2.3 风险预测在金融领域,Logistic回归模型被广泛应用于风险预测。
通过建立预测模型,可以根据客户的信用评分、借贷记录等因素,对客户是否存在违约风险进行预测。
2.4 市场营销Logistic回归模型还可以用于市场营销领域。
Logistic模型简介
Logistic模型:
logistic回归又称logistic回归分析,主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。
例如,想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。
这里的因变量就是是否胃癌,即“是”或“否”,为两分类变量,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。
自变量既可以是连续的,也可以是分类的。
通过logistic回归分析,就可以大致了解到底哪些因素是胃癌的危险因素。
与多重线性回归的比较
logistic回归(Logistic regression) 与多重线性回归实际上有很多相同之处,最大的区别就在于他们的因变量不同,其他的基本都差不多,正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalized linear model)。
这一家族中的模型形式基本上都差不多,不同的就是因变量不同,如果是连续的,就是多重线性回归,如果是二项分布,就是logistic回归,如果是poisson分布,就是poisson回归,如果是负二项分布,就是负二项回归,等等。
只要注意区分它们的因变量就可以了。
[1]
logistic回归的因变量可以是二分非线性差分方程类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。
所以实际中最为常用的就是二分类的logistic回归。
logistic回归基础知识
0.00
概率
11.11
A 35 4 16 7 8 22.86 4.590 0.032 42.86 10.769 0.001
04
B 35 10 22 2 1 2.86
8.57
合 A 112 14 39 30 29 25.89 24.291* 0.000 52.68 37.251* 0.000
计 B 112 26 70 13 3 2.68
the estimate.
2019/9/10
23
表 3.11.1 各试验中心两组病人用药后主要疗效评价(FAS)
中组 例
评价
基愈率
有效率
心
别
数
无好显基 效 转 效 愈 率(%)
2
P 率(%) 2
P
A 22 5 6 4 7 31.82 3.819 0.051 50.00 4.956 0.026
吸烟 不Байду номын сангаас烟 合计
病人 非病人 合计 231 125 356 183 296 479 414 421 835
2019/9/10
7
计算举例
例3-3某锡矿的矿工肺癌发病率308.39/10万,
非矿工的肺癌发病率为25.48/10万,试计算发
病的相对危险度。
RR=308.39/25.48=12.10
01
B 22 6 12 3 1 4.55
18.18
A 19 0 6 8 5 26.32 确切 0.180 68.42 确切 0.022
02 B 19 3 11 4 1
5.26
概率
26.32 概率
A 36 5 11 11 9 25.00 确切 0.002 55.56 16.000 0.000
Logistic回归
为了探讨冠心病发生的有关危险因素,对26例冠心 病病人和28例对照者进行病例−对照研究,各因素 的说明见下表2。试用logistic逐步回归分析方法筛 ( 选危险因素 。α 入 = 0.10,α出 = 0.15)
X为自变量:X 1 , X 2 ,L , X m 为自变量: 为自变量 取值为1的概率为 则Y取值为 的概率为: 取值为 的概率为:
P = P{ = 1 X 1 , X 2 ,L, X m } Y
0 ≤ P ≤1
Logistic回归模型可表示为:
e β + β X + β X +L+ β X P= 1 + e β + β X + β X +L+ β X
0 1 1 2 2 m m 0 1 1 2 2 m
m
P=
1 1+ e
−( β + β X + β X +L+ β X )
0 1 1 2 2 m m
P ln = β 0 + β1 X 1 + β 2 X 2 + L + β m X m 1− P
P 为阳性与阴性结果发生概率之 ln 1− P 比的自然对数,称为P的logit变换 ,记为
df 1 1 1 1 1 1 1 1 1 1 1 1 1 1
Sig. .010 .097 .007 .008 .005 .016 .010 .034 .002 .053 .044 .012 .021 .002
Exp(B) 16.875 .593 6.219 21.303 .278 5.597 20.656 5.277 .095 2.519 4.464 23.000 7.008 .009
Logistic回归模型 (2)
欢迎共阅Logistic 回归模型1 Logistic 回归模型的基本知识 1.1 Logistic 模型简介主要应用在研究某些现象发生的概率p ,比如股票涨还是跌,公司成功或失败的概率,以及讨论概率p 与那些因素有关。
显然作为概率值,一定有10≤≤p ,因此很难用线性模型描述概率p 与自变量的关系,另外如果p 接近两个极端值,此时一般方法难以较好地反映p究p Logit (1) (2)1的概率i 个(3)差形式服从伯努利分布而非正态分布,即没有正态性假设前提;二是二值变量方差不是常数,有异方差性。
不同于多元线性回归的最小二乘估计法则(残差平方和最小),Logistic 变换的非线性特征采用极大似然估计的方法寻求最佳的回归系数。
因此评价模型的拟合度的标准变为似然值而非离差平方和。
定义1 称事件发生与不发生的概率比为 优势比(比数比 odds ratio 简称OR),形式上表示为OR=kx k x e pp βββ+++=- 1101 (4)定义2 Logistic 回归模型是通过极大似然估计法得到的,故模型好坏的评价准则有似然值来表征,称-2ˆln ()L β为估计值βˆ的拟合似然度,该值越小越好,如果模型完全拟合,则似然值ˆ()L β为1,而拟合似然度达到最小,值为0。
其中ˆ()lnL β表示βˆ的对数似然函数值。
定义3 记)ˆ(βVar 为估计值βˆ的方差-协方差矩阵,21)]ˆ([)ˆ(ββVar S =为βˆ的标准差矩阵,则称k i S w iii i ,,2,1,ˆ[2 ==β (5)为iβˆ (6) 1.22 2.1因变量(反应变量)分为两类,取值有两种,设事件发生记为y=1,不发生记为 y=0,设自变量T k x x x X ),,,(21 =是分组数据,取有限的几个值;研究事件发生的概率)|1(X y P =与自变量X 的关系,其Logistic 回归方程为:k k x x X y P X y P βββ+++=== 110)|0()|1(ln 或 kx k x kxk x ee X y P ββββββ+++++++== 1101101)|1( 例2.1.1 分组数据[1] 在一次住房展销会上,与房地产商签订初步购房意向书的有n=325人,在随后的3个月时间内,只有一部分顾客购买了房屋。
logistic回归模型的基本原理
logistic回归模型的基本原理Logistic回归模型的基本原理Logistic回归模型是一种常用的分类算法,它可以用于预测二元变量的概率。
该模型基于线性回归模型的基本思想,并通过使用逻辑函数(也称为sigmoid函数)将其结果转换为概率值。
一、逻辑函数的定义逻辑函数是一种S形曲线,可以将任意实数映射到区间(0,1)上。
它的数学表达式为:f(z) = 1 / (1 + e^(-z))其中,e为自然对数的底,z为输入变量。
逻辑函数具有以下特点:- 当z趋近于正无穷大时,f(z)趋近于1;- 当z趋近于负无穷大时,f(z)趋近于0;- 当z等于0时,f(z)等于0.5。
二、模型假设Logistic回归模型基于以下假设:1. 响应变量y是二元变量,取值为0或1;2. 假设y服从二项分布(Binomial distribution);3. 假设响应变量y的概率与输入变量x之间存在线性关系。
三、模型表达式假设我们有n个输入变量x1, x2, ..., xn,对应的系数为β1, β2, ..., βn。
那么Logistic回归模型的表达式为:P(y=1|x) = f(β0 + β1x1 + β2x2 + ... + βnxn)其中,β0为截距。
四、模型参数估计为了得到Logistic回归模型的参数,我们需要使用最大似然估计(Maximum Likelihood Estimation)方法。
该方法的目标是选择一组参数值,使得根据模型预测的概率值与观测到的实际结果之间的差异最小化。
最大似然估计的核心思想是,找到一组参数值,使得在给定参数条件下,观测到的数据出现的概率最大。
对于Logistic回归模型,我们可以使用对数似然函数来进行最大似然估计。
五、模型训练与预测模型训练是指利用已知的训练数据来估计模型的参数。
在Logistic 回归模型中,可以使用梯度下降(Gradient Descent)等优化算法来最小化对数似然函数,从而得到模型的参数值。
(卫生统计学)第十九章 Logistic回归分析
结果解释
3个βi的估计值都是正数,表明这三个因素都是危险因素且都有统计学意 义。从优势比OR上可以看出,在因素x2和x3固定不变时,因素x1每增加一个 等级所引起的优势比为增加前的3.034倍;在因素X1和X3固定不变时,因素x2 每增加一个等级所引起的优势比为增加前的2.019倍 。在因素x1和x2固定不变 时,因素x3每增加一个等级所引起的优势比为增加前的2.651倍。同时在考察 因素相对贡献大小时,从标准系数看, β'1> β' 3 > β'2 ,故x1的相对贡献比x2和 x3大。
OR
P1 P0
/1 /1
P1 P0
e i
亦称比数比
反映某一个危险因素 xi在不同暴露水平下发病 与不发病的比。
当阳性率 P 1时, OR RR
二、参数估计
由于Logistic回归是一种概率模型,通常采用最大似然估计法(maximum likelihood estimate)求解模型中的参数βj的估计值 bj (j=0,1,2,….k)。
1. 相对危险度 RR( Re lative Risk ) RR P1 P0
反映某一个危险因素 xi两个不同暴露水平 1与 0的发病率的比
2. 优势 Odds
Odds P1 P1 1 P1 q1
亦称比数
反映某一个危险因素 xi在暴露水平 1下发病率与不发病率的 比
3. 优势比 OR ( Odds Ratio )
个例预测
设某AMI患者在症状5小时内送到医院(x3=0),未发生休克(x1=0), 已有心衰(x2=1),求抢救成功的概率。
logistic回归分析
表13-7 例13-2的logistic回归模型自变量筛选结果
模型
因素 X
第1步 常数项
回归系数 标准误
b
Sb
-2.528 0.238
Wald χ2 P值 112.433 <0.001
OR值
OR值95%可信区间 下限 上限
0.080
治疗11周
2.149 0.289 55.267 <0.001 8.578 4.867 15.117
因素 X 常数项
回归系数 标准误
Waldχ2 P值 OR值
b
Sb
-0.910 0.136 44.870 0.000 0.403
OR值95%可信区间
下限
上限
吸烟
0.886 0.150 34.862 0.000 2.424 1.807
3.253
饮酒
0.526 0.157 11.207 0.001 1.692 1.244
logistic回归分析
Logistic regression analysis
• 医学研究中应变量有时是二分类结果,如发病与不 发病、死亡与生存、有效与无效、复发与未复发等, 当需要研究二分类应变量的影响因素时,适合采用 logistic回归分析。
logistic回归属于概率型非线性回归,它是研究二 分类(可以扩展到多分类)反应变量与多个影响 因素之间关系的一种多变量分析方法。logistic回 归模型参数具有明确的实际意义。
OR值的可信区间:
exp(bj - zα/2 Sbj ) ORj exp(bj zα/2 Sb j )
• 例13-1 研究吸烟(X1)、饮酒(X2)与食道癌 (Y)关系的病例-对照资料,试作logistic回归 分析。
Logistic回归分析概要
多项无序分类:肝炎分型 甲、乙、丙、丁、 戊
研究分类反应变量与多个影响因素之间的 相互关系的一种多变量分析方法,进行疾病的 病因分析。
• Logistic回归的分类
Logistic回归 二分类 有序反应变量 多分类 无序反应变量
非条件 1:1配对资料
条件Logistic回归 1:m配对资料 m:n配对资料
Logistic回归模型是一种概率模型, 通常以疾病,死亡等结果发生的概率为因变 量, 影响疾病发生的因素为自变量建立回 归模型。
• 例:为了探讨糖尿病与血压、血脂等因素 的关系,研究者对56例糖尿病病人和65例 对照者进行病例对照研究,收集了性别、 年龄、学历、体重指数、家族史、吸烟、
一、Logistic回归方程 Logistic回归的logit模型
P= 1x1 2 x2 n xn
Logit变换 P转换为ln[P/(1-P)]
logit (P)= 1x1 2 x2 n xn ln[P/(1-P)]= 1x1 2 x2 n xn
• (1)取值问题
• (2)曲线关联
• Logit变换
也称对数单位转换
logit P=
ln
P 1 P
( 1x1 2 x2 n xn )
P 1 e e( 1x1 2x2 n xn ) 1
1 P 1 e( 1x1 2x2 nxn )
其中,为常数项,为偏回归系数。
二、参数估计
• 建立Logistic回归方程就是求和i • 意义 常数项是当各种暴露因素为0时,个体发
得出参数 j 的估计值 b j 和 b j 的渐进标准误 Sbj 。
最大似然法的基本思想是先建立似然 函数与对数似然函数,再通过使对数 似然函数最大求解相应的参数值(使 得一次抽样中获得现有样本的概率为 最大),所得到的估计值称为参数的 最大似然估计值。
Logistic模型的研究
Logistic模型的研究Logistic模型是一种常用的统计分析工具,广泛应用于各个领域,如生物学、医学、经济学等。
本文将探讨Logistic模型的基本概念、应用方法以及一些在实际研究中的注意事项。
一、Logistic模型的基本概念Logistic回归是一种广义线性模型(GLM),用于建立因变量与一个或多个自变量之间的关系。
与线性回归模型不同,Logistic模型适用于因变量为二分类或多分类的情况。
Logistic模型的因变量通常为二分类问题,其中0和1表示两种可能的结果。
在Logistic回归中,对数几率(logit)函数被用来建立因变量和自变量之间的关系。
该函数将因变量为1的概率转化为一个连续的变量,其取值范围为负无穷到正无穷。
当因变量为二分类问题时,logit函数为:logit(p) = ln(p / (1-p))其中,p表示因变量为1的概率。
通过对数几率函数,可以得到Logistic模型的形式化表达式:p = 1 / (1 + exp(-(β0 + β1*x1 + β2*x2 + ... +βn*xn)))其中,p表示因变量为1的概率,β0、β1、β2...βn 表示模型的系数,x1、x2...xn表示自变量。
二、Logistic模型的应用方法Logistic模型通常用于预测和解释因变量为二分类问题的情况。
在应用Logistic模型时,需要注意以下几点:1. 数据准备:收集样本数据时,需要保证样本的随机性和代表性。
同时,应避免自变量之间存在多重共线性,以免引起模型的不稳定性。
2. 变量选择:根据研究目的和理论背景,选择与因变量相关的自变量。
此外,还可以通过变量筛选方法(如逐步回归法或最大似然比检验)来确定最佳的自变量组合。
3. 模型拟合:使用最大似然估计法对Logistic模型进行参数估计。
通过最大化似然函数,求解模型的系数,得到最佳拟合的Logistic模型。
4. 模型评估:通过各种指标(如对数似然比统计量、准确率、召回率、F1值等)对Logistic模型进行评估,以判断模型的拟合效果和预测能力。
第十六章-Logistic回归
匹配的特征必须是已知的混杂因子,或者有充分的理由怀疑其为混 杂因子,否则不应匹配。
(三)巢式病例对照研究
也称为队列内的病例对照研究,是将队列研究和病例对照研究相结 合的方法。
OR>1,说明 该因素是疾病的危险性增加,为危险因素; OR<1,说明 该因素是疾病的危险性减小,为保护因素;
OR与RR之关系
病例对照研究资料
暴露
疾病 . 病例 对照 合计
+ 合计
a c a+c=m1
b d b+d=m0
a+b=n1 c+d=n0
t
a/(ac)
OR
c/(ac) b/(bd)
a/c b/ d
在医学研究中经常遇到应变量为二项分类的资 料,如治愈与未治愈、生存与死亡、发病与未发病等, 可以概括为阳性与阴性两种互斥结果,同时存在可能 对分类结果发生概率影响的因素即自变量。这类资料 由于d(Y)是二项分布,适宜用Logistic回归分析进 行。
• logistic回归:是研究因变量为二分类或多分类观察结果与影响 因素(自变量)之间关系的一种多变量分析方法,属概率型非线 性回归。
lo g it(P )0 1 X 1 p X p
当p=0或1时,logit(P)=ln[P/(1-P)]此式失效 Logistic 回归模型实际上普通多元线性回归模型的推广
Logit是“Logistic概率单位 ”,英文Logistic probability unit存头取尾 的缩写。 Logit(P)即“Logistic概率单位” ,简称LogitP。 Logit变换使得P在(0~1)范围内→(-∞,+ ∞)
logistic回归分析8个知识点整理,建议收藏
Pearson χ2、偏差 (deviance) 主要用于自变量不多且为分类变量的情况,当自变量增多且含有连续型变量时,用 HL 指标则更为恰当。
以下为线性回归方程判断依据,可用于 logistic 回归分析
① 决定系数 (R2) 和校正决定系数,可以用来评价回归方程的优劣。R2 随着自变量个数的增加而增加,所以需要校正;
校正决定系数越大,方程越优。但亦有研究指出 R方 是多元线性回归中经常用到的一个指标,表示的是因变量的变动中由模型中自变量所解释的百分比,并不涉及预测值与观测值之间差别的问题,因此在 logistic 回归中不适合。
Pearson χ2、偏差 (deviance)、Hosmer- Lemeshow (HL) 指标值均服从χ2 分布,χ2 检验无统计学意义 (P>0.05) 表示模型拟合的较好,χ2 检验有统计学意义 (P ≤ 0.05) 则表示模型拟合的较差。AIC 和 SC 指标还可用于比较模型的优劣,当拟合多个模型时,可以将不同模型按其 AIC 和 SC 指标值排序,AIC 和 SC 值较小者一般认为拟合得更好。
③在逐步回归的时可根据需要放宽或限制进入方程的标准,或硬性将最感兴趣的研究变量选入方程;
④ 强影响点记录的选择:从理论上讲,每一个样本点对回归模型的影响应该是同等的,实际并非如此。有些样本点(记录)对回归模型影响很大。对由过失或错误造成的点应删去,没有错误的强影响点可能和自变量与应变量的相关有关,不可轻易删除。
可以采用双向筛选技术:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Logistic 回归模型1 Logistic 回归模型的基本知识 1.1 Logistic 模型简介主要应用在研究某些现象发生的概率p ,比如股票涨还是跌,公司成功或失败的概率,以及讨论概率p 与那些因素有关。
显然作为概率值,一定有10≤≤p ,因此很难用线性模型描述概率p 与自变量的关系,另外如果p 接近两个极端值,此时一般方法难以较好地反映p 的微小变化。
为此在构建p 与自变量关系的模型时,变换一下思路,不直接研究p ,而是研究p 的一个严格单调函数)(p G ,并要求)(p G 在p 接近两端值时对其微小变化很敏感。
于是Logit 变换被提出来:ppp Logit -=1ln)( (1)其中当p 从10→时,)(p Logit 从+∞→∞-,这个变化范围在模型数据处理上带来很大的方便,解决了上述面临的难题。
另外从函数的变形可得如下等价的公式:XT XT T ee p Xppp Logit βββ+=⇒=-=11ln )( (2)模型(2)的基本要求是,因变量(y )是个二元变量,仅取0或1两个值,而因变量取1的概率)|1(X y P =就是模型要研究的对象。
而Tk x x x X ),,,,1(21 =,其中i x 表示影响y 的第i 个因素,它可以是定性变量也可以是定量变量,Tk ),,,(10ββββ =。
为此模型(2)可以表述成:kx k x k x k x kk eep x x pp βββββββββ+++++++=⇒+++=- 11011011011ln (3)显然p y E =)(,故上述模型表明)(1)(lny E y E -是k x x x ,,,21 的线性函数。
此时我们称满足上面条件的回归方程为Logistic 线性回归。
Logistic 线性回归的主要问题是不能用普通的回归方式来分析模型,一方面离散变量的误差形式服从伯努利分布而非正态分布,即没有正态性假设前提;二是二值变量方差不是常数,有异方差性。
不同于多元线性回归的最小二乘估计法则(残差平方和最小),Logistic 变换的非线性特征采用极大似然估计的方法寻求最佳的回归系数。
因此评价模型的拟合度的标准变为似然值而非离差平方和。
定义1 称事件发生与不发生的概率比为 优势比(比数比 odds ratio 简称OR),形式上表示为OR=kx k x e pp βββ+++=- 1101 (4) 定义2 Logistic 回归模型是通过极大似然估计法得到的,故模型好坏的评价准则有似然值来表征,称-2ˆln ()L β为估计值βˆ的拟合似然度,该值越小越好,如果模型完全拟合,则似然值ˆ()L β为1,而拟合似然度达到最小,值为0。
其中ˆ()lnL β表示βˆ的对数似然函数值。
定义3 记)ˆ(βVar 为估计值βˆ的方差-协方差矩阵,21)]ˆ([)ˆ(ββVar S =为βˆ的标准差矩阵,则称 k i S w iii i ,,2,1,]ˆ[2 ==β (5)为iβˆ的Wald 统计量,在大样本时,i w 近似服从)1(2χ分布,通过它实现对系数的显著性检验。
定义4 假定方程中只有常数项0β,即各变量的系数均为0,此时称20ˆˆ2[ln ()ln ()]L L χββ=-- (6) 为方程的显著性似然统计量,在大样本时,2χ近似服从)(2k χ分布。
1.2 Logistic 模型的分类及主要问题根据研究设计的不同,Logistic 回归通常分为成组资料的非条件Logistic 回归和配对资料的条件Logistic 回归两种大类。
还兼具两分类和多分类之分,分组与未分组之分,有序与无序变量之分。
具体如下: 两分类非条件Logistic 回归:分组数据的Logistic 回归,未分组数据的Logistic 回归; 多分类非条件Logistic 回归:无序变量Logistic 回归,无序变量Logistic 回归; 条件Logistic 回归:1:1型、1:M 型和M:N 型Logistic 回归。
关于Logistic 回归,主要研究的内容包括:1. 模型参数的估计及检验 2. 变量模型化及自变量的选择 3. 模型评价和预测问题 4. 模型应用2 Logistic 模型的参数估计及算法实现2.1 两分类分组数据非条件Logistic 回归因变量(反应变量)分为两类,取值有两种,设事件发生记为y=1,不发生记为 y=0,设自变量T k x x x X ),,,(21 =是分组数据,取有限的几个值;研究事件发生的概率)|1(X y P =与自变量X 的关系,其Logistic 回归方程为:k k x x X y P X y P βββ+++=== 110)|0()|1(ln 或 kx k x kxk x ee X y P ββββββ+++++++== 1101101)|1( 例2.1.1 分组数据[1]在一次住房展销会上,与房地产商签订初步购房意向书的有n=325人,在随后的3个月时间内,只有一部分顾客购买了房屋。
购买房屋的顾客记为1,否则记为0。
以顾客的年家庭收入(万元)作为自变量X ,对数据统计后如表2.1.1所示,建立Logistic 回归模型。
表2.1.1 购房分组数据例2.1.2 药物疗效数据[2]为考察某药物疗效,随机抽取220例病人并分配到治疗组和对照组,治疗组采用治疗药物,对照组采用安慰剂。
治疗一段时间后观察病人的疗效,得到表2.1.2数据。
设y 为疗效指标(y=1 有效,y=0无效),1x 为治疗组指标(1为治疗组,0为对照组),2x 为年龄组指标(1为>45岁,0为其他)。
上述两个例子数据都是经过统计加工后的分组数据,对此类数据进行Logistic 回归,首先要明确应变量对应事件的发生概率如何确定和进行Logit 变换,其次才能建立Logistic 回归。
为便于数据处理,我们将此类数据的格式作个约定,排列格式为(组序号,自变量X ,该组事件发生数,该组总例数)。
表2.1.3 分组数据的标准格式表2.1.1 改造表表2.1.2 改造表经过改造后,可得我们关心的事件的发生的频率为 n i n m p i ,,2,1,ii==该组总例数该组发生事件数。
其中n为分组数,然后作Logit 变换,即iii i p p p Logit p -==1ln )(~。
变换后的数据,形式上已经可以采用一般的线性回归的处理方式来估计回归参数了。
此时方程变为:∑==+=kj ij j i n i x p 10,,2,1,~ββ 当然这样处理并没有解决异方差性,当i n 较大时,i p ~的近似方差为: )(,)1(1)~(i i i i i i y E n p D =-≈πππ (7)所以选择权重 n i p p n i i i i ,,2,1),1( =-=ω,最后采用加权最小二乘法估计参数。
注意,分组数据的Logistic 回归只适用于大样本分组数据,对小样本的为分组数据不适用,并且以组数n 为回归拟合的样本量,明显降低了拟合精度,在实际应用中必须谨慎。
求解算法及步骤:1.依据分组数据的标准格式,计算频率i p 、Logit 变换i p ~和权重i ω 2.构建加权最小二乘估计:∑∑∑∑====--=--n i kj ij j i i i i n i k j ij j i i x y x y 11201120)(min )(min βωβωωββω (8)令 i i i y y ω=*,T ik i i i i i x x X ),,,(1*ωωω =,T k ),,,(10ββββ =则方程又变成一般的线性回归模型:∑=-ni i T i X y12**)(minβ (9)3.构造增广矩阵21****][+⨯+k k T TY X X X利用消去法得]ˆ)ˆ([ββVar I =矩阵,得到估计βˆ其中2,1++K K I 为残差平方和SE , 回归方差1ˆ2--=k n SEσ各系数检验采用 )1(~ˆˆ--=k n t I t ii i i σβ总平方和∑∑∑===-=ni ni ini ii ii y yST 112122)()(ωωω,回归平方和SE ST SR -=总平方和求解相当于拟合i i y ωβ*0*=方程的残差平方和,故得上式ST所以方程的检验为)1,(~)1/(/----=k n k F k n SE kSR F例2.1.1的求解过程如下(由LLLStat 统计软件计算):表2.1.4 数据Logit 变换及权重家庭年收入x 实际购买mi 签订意向ni比例pi 逻辑变换Logit 权重ni*pi(1-pi) 1.500000 8 25 0.320000 -0.753772 5.440000 2.500000 13 32 0.406250-0.3794907.718750 3.500000 26 58 0.448276 -0.207639 14.344828 4.500000 22 52 0.423077 -0.310155 12.692308 5.500000 20 43 0.465116 -0.139762 10.697674 6.500000 22 39 0.564103 0.257829 9.589744 7.500000 16 28 0.571429 0.287682 6.857143 8.500000 12 21 0.571429 0.287682 5.142857 9.50000010150.666667 0.6931473.333333表2.1.5 回归模型基本信息 总样本 9求解方法 加权最小二乘 仅常数项beta0 -0.095029 方程F 统计量 51.982160 F 分布自由度 1,7 方程检验p 值 0.000176 总平方和 8.798294 回归平方和 7.754112 残差平方和1.044181表2.1.6 分组Logistic 回归系数检验序号 均值回归系数系数标准误 t 统计量 自由度df检验P 值 常数项 2.837815 -0.848882 0.113578 -7.473994 7 0.000056 家庭年收入x14.901140 0.1493230.0207117.20986570.000056表2.1.7 1][-X X T0.086479 -0.014517 -0.014517 0.002876本例Logistic 模型的回归方程:xe xe pi 149323.0848882.0149323.0848882.01ˆ+-+-+=对于多分类无序自变量的Logistic 回归,即某个自变量为m 个水平的名义变量(如治疗方法A,B,C ),只需要引入m -1(2个)个哑变量,然后采用上述方法进行分析。