第十一章多元线性回归与logistic回归
logistic回归和线性回归
logistic回归和线性回归1.输出:线性回归输出是连续的、具体的值(如具体房价123万元)回归逻辑回归的输出是0~1之间的概率,但可以把它理解成回答“是”或者“否”(即离散的⼆分类)的问题分类2.假设函数线性回归:θ数量与x的维度相同。
x是向量,表⽰⼀条训练数据逻辑回归:增加了sigmoid函数逻辑斯蒂回归是针对线性可分问题的⼀种易于实现⽽且性能优异的分类模型,是使⽤最为⼴泛的分类模型之⼀。
sigmoid函数来由假设某件事发⽣的概率为p,那么这件事不发⽣的概率为(1-p),我们称p/(1-p)为这件事情发⽣的⼏率。
取这件事情发⽣⼏率的对数,定义为logit(p),所以logit(p)为因为logit函数的输⼊取值范围为[0,1](因为p为某件事情发⽣的概率),所以通过logit函数可以将输⼊区间为[0,1]转换到整个实数范围内的输出,log函数图像如下将对数⼏率记为输⼊特征值的线性表达式如下:其中,p(y=1|x)为,当输⼊为x时,它被分为1类的概率为hθ(x),也属于1类别的条件概率。
⽽实际上我们需要的是给定⼀个样本的特征输⼊x,⽽输出是⼀个该样本属于某类别的概率。
所以,我们取logit函数的反函数,也被称为logistic函数也就是sigmoid函数ϕ(z)中的z为样本特征与权重的线性组合(即前⾯的ΘT x)。
通过函数图像可以发现sigmoid函数的⼏个特点,当z趋于正⽆穷⼤的时候,ϕ(z)趋近于1,因为当z趋于⽆穷⼤的时候,e^(-z)趋于零,所以分母会趋于1,当z趋于负⽆穷⼤的时候,e^(-z)会趋于正⽆穷⼤,所以ϕ(z)会趋于0。
如在预测天⽓的时候,我们需要预测出明天属于晴天和⾬天的概率,已知根天⽓相关的特征和权重,定义y=1为晴天,y=-1为⾬天,根据天⽓的相关特征和权重可以获得z,然后再通过sigmoid函数可以获取到明天属于晴天的概率ϕ(z)=P(y=1|x),如果属于晴天的概率为80%,属于⾬天的概率为20%,那么当ϕ(z)>=0.8时,就属于⾬天,⼩于0.8时就属于晴天。
多元Logistic回归分析
data eg7_1a;
input y x wt @@; cards;
11 7
1 0 13
0 1 46 0 0 229 ; run; proc logistic descending ;
model y=x ;
weight wt;
run;
SAS程序
16
第十六页,编辑于星期五:五点 十七分。
The LOGISTIC Procedure
1、什么是Logistic 回归分析?
研究因变量y取某个值的概率变量p与自 变量x的依存关系。
p=p(y=1|x)=f(x)
8
第八页,编辑于星期五:五点 十七分。
2、Logistic回归分析的分类
• 按数据的类型:
Logistic回归分析
– 非条件logistic回归分析(成组数据)
– 条件logistic回归分析(配对病例-对照数据)
Ratio
ቤተ መጻሕፍቲ ባይዱ
INTERCPT 1 -2.8688 0.2851 101.2408
0.0001
..
X
1
0.9860 0.4959 3.9542 0.0468
2.069569 2.681
18
第十八页,编辑于星期五:五点 十七分。
结果: 参数估计: a=-2.869 (p=0.0001),
b= 0.986 (p=0.0468). 模型检验: χ2=3.576, df=1, p=0.0586
2、自变量birthwt 的回归系数在统计意义上不等于0 (p=0.0001),因此,OR=0.996在统计意义上不等于1。
OR=0.996 说明新生儿出生体重每增加一个单位(g),患
BPD病的机会就会减少大约0.4% 。即患bpd病的概率 随新生儿出生体重的增加而下降。
logistic回归分析PPT优秀课件
2
logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研 究某个二分类(或无序及有序多分类)目标变量与有关因素的关 系。
logistic回归的分类: (1)二分类资料logistic回归: 因变量为两分类变量的资料,可用
非条件logistic回归和条件logistic回归进行分析。非条件logistic回 归多用于非配比病例-对照研究或队列研究资料,条件logistic回归 多用于配对或配比资料。 (2)多分类资料logistic回归: 因变量为多项分类的资料,可用多 项分类logistic回归模型或有序分类logistic回归模型进行分析。
比较
调查方向:收集回顾性资料
人数 暴露
疾病
a/(a+b) c/(c+d)
a
+
b
-
病例
c
病例对照原理示意图
6
是否暴露 暴露组 未暴露组 合计
病例 a c a+c
对照 b d b+d
合计 a+b(n1) c+d(n2) n
比数比(odds ratio、OR):病例对照研究中表示疾病与暴露间
联系强度的指标,也称比值比。
相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率 之比。但病例对照研究不能计算发病率,只能计算比值比OR值。 OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组 的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。
OR>1,说明 该因素使疾病的危险性增加,为危险因素;
OR<1,说明 该因素使疾病的危险性减小,为保护因素;
回归分析线性回归Logistic回归对数线性模型
逻辑回归的模型为 (P(Y=1) = frac{1}{1+e^{-z}}),其中 (z = beta_0 + beta_1X_1 + beta_2X_2 + ... + beta_nX_n)。
逻辑斯蒂函数
பைடு நூலகம்
定义
逻辑斯蒂函数是逻辑回归模型中用来描述自变量与因变量之 间关系的函数,其形式为 (f(x) = frac{1}{1+e^{-x}})。
。
在样本量较小的情况下, logistic回归的预测精度可能高 于线性回归。
线性回归的系数解释较为直观 ,而logistic回归的系数解释相 对较为复杂。
对数线性模型与其他模型的比较
对数线性模型假设因变量和自变量之间存在对 数关系,而其他模型的假设条件各不相同。
对数线性模型的解释性较强,可以用于探索自变量之 间的交互作用和效应大小。
THANKS
感谢您的观看
预测市场细分中的消费者行为等。
对数线性模型还可以用于探索性数据分析,以发现数 据中的模式和关联。
Part
04
比较与选择
线性回归与logistic回归的比较
线性回归适用于因变量和自变 量之间存在线性关系的场景, 而logistic回归适用于因变量为
二分类或多分类的场景。
线性回归的假设条件较为严格 ,要求因变量和自变量之间存 在严格的线性关系,而logistic 回归的假设条件相对较为宽松
最小二乘法
最小二乘法是一种数学优化技术,用于最小化预测值与实际观测值之间的平方误差总和。
通过最小二乘法,可以估计回归系数,使得预测值与实际观测值之间的差距最小化。
最小二乘法的数学公式为:最小化 Σ(Yi - (β0 + β1X1i + β2X2i + ...))^2,其中Yi是实际观 测值,X1i, X2i, ...是自变量的观测值。
《多元Logistic回归》课件
交叉验证是一种评估模型泛化能力的手段,通过将数据集 分成训练集和验证集,反复训练和验证模型,以获得更可 靠的评估结果。常用的交叉验证方法有k-fold交叉验证、 留出交叉验证等。
03
多元Logistic回归的实现步 骤
数据预处理:特征选择、缺失值处理等
特征选择
选择与目标变量相关的特征,去除无关 或冗余特征,提高模型的预测性能。
多元Logistic回归与一元Logistic回归的区别
一元Logistic回归只涉及一个自变量,而多元 Logistic回归涉及多个自变量。
多元Logistic回归能够同时处理多个特征,更准确 地描述数据的复杂关系,提高预测精度。
多元Logistic回归需要更多的数据和计算资源,因 为需要迭代计算每个特征与因变量言 • 多元Logistic回归的原理 • 多元Logistic回归的实现步骤 • 多元Logistic回归的优缺点 • 多元Logistic回归的案例分析 • 总结与展望
01
引言
多元Logistic回归的定义
多元Logistic回归是一种用于处理分 类问题的统计方法,它通过将多个自 变量与因变量之间的关系转换为概率 形式,从而对因变量进行预测。
结果。
它能够提供每个类别的预测概率 ,这在某些情况下非常有用,例 如在医学诊断中确定疾病的风险
。
多元Logistic回归在处理分类问 题时具有较高的预测精度和稳定
性。
缺点
多元Logistic回归对数据的分布 假设较为严格,通常要求数据 呈正态分布或近似正态分布。
它还假设自变量与因变量之间 存在线性关系,这在某些情况 下可能不成立,导致模型的预
案例三:用户点击率预测
总结词
用户点击率预测是多元Logistic回归在互联 网广告领域的典型应用,通过分析用户行为 和广告特征,预测用户是否会点击广告。
logistic回归与多元线性回归区别及若干问题讨论
logistic回归与多元线性回归区别及若干问题讨论logistic回归与多元线性回归区别及若干问题讨论1多重线性回归(MultipleLinearRegression)Logistic回归(LogisticRegression)概念多重线性回归模型可视为简单直线模型的直接推广,具有两个及两个以上自变量的线性模型即为多重线性回归模型。
属于概率型非线性回归,是研究二分类(可扩展到多分类)观察结果与一些影响因素之间关系的一种多变量分析方法。
变量的特点应变量:1个;数值变量(正态分布)自变量:2个及2个以上;最好是数值变量,也可以是无序分类变量、有序变量。
应变量:1个;二分类变量(二项分布)、无序/有序多分类变量自变量:2个及2个以上;数值变量、二分类变量、无序/有序多分类变量总体回归模型LogitP=(样本)偏回归系数含义表示在控制其它因素或说扣除其它因素的作用后(其它所有自变量固定不变的情况下),某一个自变量变化一个单位时引起因变量Y变化的平均大小。
表示在控制其它因素或说扣除其它因素的作用后(其它所有自变量固定不变的情况下),某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值(logitP的平均变化量),即lnOR。
适用条件LINE:1、L:线性——自变量X与应变量Y之间存在线性关系;2、I:独立性——Y 值相互独立,在模型中则要求残差相互独立,不存在自相关;3、N:正态性——随机误差(即残差)e服从均值为零,方差为2的正态分布;4、E:等方差——对于所有的自变量X,残差e的方差齐。
观察对象(case)之间相互独立;若有数值变量,应接近正态分布(不能严重偏离正态分布);二分类变量服从二项分布;要有足够的样本量;LogitP与自变量呈线性关系。
Logistic回归分析及应用讲课文档
第三十页,共76页。
第三十一页,共76页。
第三十二页,共76页。
第三十三页,共76页。
第三十四页,共76页。
第三十五页,共76页。
第三十六页,共76页。
3、逐步Logistic回归分析
(1)向前法(forward selection)
开始方程中没有变量,自变量由 少到多一个一个引入回归方程。按自 变量对因变量的贡献(P值的大小)由 小到大依次挑选,变量入选的条件是 其P值小于规定进入方程的P界值Enter, 缺省值 P(0.05)。
除变量量纲的影响,为此计算标准化回归系数
bi' bi *Si / Sy,其中 Si为Xi的标准差 Sy为y的标准差。
第十五页,共76页。
5.假设检验
• (1)回归方程的假设检验
• H0:所有 i0,i0,1,2,,p H1:某个 i 0
• 计算统计量为:G=-2lnL,服从自由度等于n-p
• 的 2 分布
• 对子号
病例
对照
•
x1 x2 x3 x1 x2 x3
•1
13 0
101
•2
03 1
130
•3
01 2
020
•…
… … … ………
• 10
22 2
000
• 注:X1蛋白质摄入量,取值:0,1,2,3
•
X2不良饮食习惯,取值:0,1,2,3
•
X3精神状况 ,取值:0,1,2
•
第十页,共76页。
Logistic回归
Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X31.3037X4.
《logistic回归》课件
易于理解和实现: 由于基于逻辑函数,模型输出结 果易于解释,且实现简单。
Logistic回归的优势与不足
• 稳定性好: 在数据量较小或特征维度较高 时,Logistic回归的预测结果相对稳定。
Logistic回归的优势与不足
01
不足:
02
对数据预处理要求高: 需要对输入数据进行标准化或归一化处理,以 避免特征间的尺度差异对模型的影响。
模型假设
01
线性关系
因变量与自变量之间存在线性关系 。
无自相关
因变量与自变量之间不存在自相关 。
03
02
无多重共线性
自变量之间不存在多重共线性,即 自变量之间相互独立。
随机误差项
误差项是独立的,且服从二项分布 。
04
模型参数求解
最大似然估计法
通过最大化似然函数来求解模型参数。
梯度下降法
通过最小化损失函数来求解模型参数。
特征选择与降维
在处理大数据集时,特征选择和降维是提高模 型性能和可解释性的重要手段。
通过使用诸如逐步回归、LASSO回归等方法, 可以自动选择对模型贡献最大的特征,从而减 少特征数量并提高模型的泛化能力。
降维技术如主成分分析(PCA)可以将高维特 征转换为低维特征,简化数据结构并揭示数据 中的潜在模式。
迭代法
通过迭代的方式逐步逼近最优解。
牛顿法
利用牛顿迭代公式求解模型参数。
模型评估指标
准确率
正确预测的样本数占总样本数的比例 。
精度
预测为正例的样本中实际为正例的比 例。
召回率
实际为正例的样本中被预测为正例的 比例。
F1分数
精度和召回率的调和平均数,用于综 合评估模型性能。
11Logistic回归分析精讲
11 Logistic回归分析在中医药科研中,经常遇到因变量是分类变量(包括二分类和多分类)的资料,如治 愈与未治愈,生存与死亡,发病与未发病,疗效评价分显效、好转、无效等级等。
这类资 料,由于因变量是分类变量不具有连续性和正态性,直接用一般多元线性回归分析是不妥 的,需用Logistic 回归分析。
Logistic 回归分析是一种适用于因变量为分类变量的回归分析, 近年来在许多研究领域得到了广泛的应用。
Logistic 回归属于概率型非线性回归, 它分为非条件Logistic 回归和条件Logistic 回归(又 称配比Logistic 回归),二者根本的差别在于构造 Logistic 模型时是前者未使用条件概率, 后 者使用了条件概率。
11.1二分类资料的Logistic 回归分析如果因变量Y 是二分类变量,其取值只有两种,如阳性(编码为1)和阴性(编码为0), 这时要说明的问题是阳性率p 二P (Y =1)与自变量X 间的关系,可进行因变量为二分类资料的Logistic 回归。
二分类Logistic 回归对自变量没有特殊要求,自变量可以是分类变量和 连续变量。
11.1.1一个两分类自变量的二分类 Logistic 回归1操作步骤(1)指定频数变量:选择菜单Data T Weight cases,在弹出的Weight cases 对话框中,将频数变量 f 送入Frequency 框中;单击 OK 。
(2)进行二分类 Logistic 回归分析。
选择菜单 AnalyzeT Regression T Binary Logistic (二分类 Logistic ),弹出 Logistic Regression 对话框,如图 11-2;将因变量 lx 送入 Dependent (因变量)框内,将自变量 fz 送入Covariates (协变量)框内;单击 Options (选项)按钮,一个自变量的二分类 Logistic 回归要拟合的 Logistic 回归方程为:log it ( p )二 ln (~^) = b o bX1 -P例11-1 《实用中医药杂志》2006年1月 第22卷1期,复方血栓通胶囊配合肌苷片治疗 青少年近视,数据见表11-1。
多元线性回归与logistic回归
第十一章 多元线性回归与logistic 回归一、教学大纲要求(一)掌握内容1.多元线性回归分析的概念:多元线性回归、偏回归系数、残差。
2.多元线性回归的分析步骤:多元线性回归中偏回归系数及常数项的求法、多元线性回归的应用。
3.多元线性回归分析中的假设检验:建立假设、计算检验统计量、确定P 值下结论。
4.logistic 回归模型结构:模型结构、发病概率比数、比数比。
5.logistic 回归参数估计方法。
6.logistic 回归筛选自变量:似然比检验统计量的计算公式;筛选自变量的方法。
(二)熟悉内容常用统计软件(SPSS 及SAS )多元线性回归分析方法:数据准备、操作步骤与结果输出。
(三)了解内容标准化偏回归系数的解释意义。
二、教学内容精要(一) 多元线性回归分析的概念将直线回归分析方法加以推广,用回归方程定量地刻画一个应变量Y 与多个自变量X 间的线形依存关系,称为多元线形回归(multiple linear regression ),简称多元回归(multiple regression )基本形式:01122ˆk kY b b X b X b X =+++⋅⋅⋅+ 式中Y ˆ为各自变量取某定值条件下应变量均数的估计值,1X ,2X ,…,k X 为自变量,k 为自变量个数,0b 为回归方程常数项,也称为截距,其意义同直线回归,1b ,2b ,…, k b 称为偏回归系数(partial regression coefficient ),j b 表示在除j X 以外的自变量固定条件下,j X 每改变一个单位后Y 的平均改变量。
(二) 多元线性回归的分析步骤Y ˆ是与一组自变量1X ,2X ,…,k X 相对应的变量Y 的平均估计值。
多元回归方程中的回归系数1b ,2b ,…, k b 可用最小二乘法求得,也就是求出能使估计值Y ˆ和实际观察值Y 的残差平方和22)ˆ(∑∑-=Y Y e i 为最小值的一组回归系数1b ,2b ,…,k b 值。
多元Logistic回归分析
P2=
P2 = p(y=2) =P2-P1
P3= p(y≤3 | x) = 1 - P2 累积概率模型
P3 = p(y=3) =1-P2 独立概率模型
12
第三节 Logistic回归分析方法步骤
1、估计参数 ---- 最大似然法 2、检验参数的显著性
H0: βj=0 vs H1: βj≠0 3、检验模型的显著性
注意:对于二值Logistic回归模型,Y=0的模型是:
p = p(y=0|x1,…,xk ) = 1 - p(y=1|x1,,xk)
10
Logistic 回归模型的另外一种形式 它给出变量z=logit(p)关于x 的线性函数。
11
(3) 多值logistic回归模型:
例如,当y取值1,2,3时,logistic回归模型是:
and
Criterion
Only
Covariates Chi-Square for Covariates
AIC
148.262
146.686
.
SC
147.648
145.458
.
-2 LOG L
146.262
142.686
3.576 with 1 DF (p=0.0586)
Score
.
.
4.224 with 1 DF (p=0.0399)
• 二分类变量: o 生存与死亡 o 有病与无病 o 有效与无效 o 感染与未感染
• 多分类有序变量: o 疾病程度(轻度、中度、重度) o 治愈效果(治愈、显效、好转、无效)
• 多分类无序变量: o 手术方法(A、B、C) o 就诊医院(甲、乙、丙、丁)
统计学教案习题11多元线性回归与logistic回归
第十一章 多元线性回归与logistic 回归一、教学大纲要求(一)掌握内容1.多元线性回归分析的概念:多元线性回归、偏回归系数、残差。
2.多元线性回归的分析步骤:多元线性回归中偏回归系数及常数项的求法、多元线性回归的应用。
3.多元线性回归分析中的假设检验:建立假设、计算检验统计量、确定P 值下结论。
4.logistic 回归模型结构:模型结构、发病概率比数、比数比。
5.logistic 回归参数估计方法。
6.logistic 回归筛选自变量:似然比检验统计量的计算公式;筛选自变量的方法。
(二)熟悉内容 常用统计软件(SPSS 及SAS )多元线性回归分析方法:数据准备、操作步骤与结果输出。
(三)了解内容 标准化偏回归系数的解释意义。
二、教学内容精要(一) 多元线性回归分析的概念将直线回归分析方法加以推广,用回归方程定量地刻画一个应变量Y 与多个自变量X 间的线形依存关系,称为多元线形回归(multiple linear regression ),简称多元回归(multiple regression )基本形式:01122ˆk kY b b X b X b X =+++⋅⋅⋅+ 式中Y ˆ为各自变量取某定值条件下应变量均数的估计值,1X ,2X ,…,k X 为自变量,k 为自变量个数,0b 为回归方程常数项,也称为截距,其意义同直线回归,1b ,2b ,…, k b 称为偏回归系数(partial regression coefficient ),j b 表示在除j X 以外的自变量固定条件下,j X 每改变一个单位后Y 的平均改变量。
(二) 多元线性回归的分析步骤Y ˆ是与一组自变量1X ,2X ,…,kX 相对应的变量Y 的平均估计值。
多元回归方程中的回归系数1b ,2b ,…, k b 可用最小二乘法求得,也就是求出能使估计值Yˆ和实际观察值Y 的残差平方和22)ˆ(∑∑-=Y Y e i 为最小值的一组回归系数1b ,2b ,…, k b 值。
第11章 多因素分析
多因素分析温州医学院环境与公共卫生学院叶晓蕾概念多因素分析是同时对观察对象的两个或两个以上的变量进行分析。
常用的统计分析方法有:多元线性回归、Logistic回归、COX比例风险回归模型、因子分析、主成分分析,等。
一、多元线性回归(multiple linear regressoin)Y,X——直线回归;Y,X1,X2,…X p——多元回归(多重回归)。
例:欲研究血压受年龄、性别、体重、性格、职业(体力劳动或脑力劳动)、饮食、吸烟、血脂水平等因素的影响。
一. 多元回归模型多元回归分析数据格式X2…X p Y 例号X11X11X12…X1p Y1 2X21X22…X2p Y2┆┆┆…┆┆n X n1X n2…X np Y nβ0为回归方程的常数项(constant),表示各自变量均为0时y 的平均值;p 为自变量的个数;β1、β2、βp 为偏回归系数(Partial regression coefficient )意义:如β1表示在X 2、X 3 …… X p 固定条件下,X 1 每增减一个单位对Y 的效应(Y 增减β个单位)。
e 为去除m 个自变量对Y 影响后的随机误差,或称残差(residual)。
eX X X Y p p +++++=ββββ 22110多元回归方程的一般形式为y 的估计值或预测值(predicted value);b 0为回归方程的常数项(constant),表示各自变量均为0时y 的估计值;pp X b X b X b b Y ++++= 22110ˆYˆ由样本估计而得的多元回归方程:b 1、b 2、b p 为偏回归系数(Partial regression coefficient )意义:如b 1表示在X 2、X 3 …… X p 固定条件下,X 1 每增减一个单位对Y 的效应(Y 增减b 个单位)。
适用条件:线性(linear)、独立性(independent)、正态性(normal)、等方差(equal variance)——―LINE‖。
logistic回归与线性回归的比较
logistic回归与线性回归的⽐较可以参考如下⽂章第⼀节中说了,logistic 回归和线性回归的区别是:线性回归是根据样本X各个维度的Xi的线性叠加(线性叠加的权重系数wi就是模型的参数)来得到预测值的Y,然后最⼩化所有的样本预测值Y与真实值y'的误差来求得模型参数。
我们看到这⾥的模型的值Y是样本X各个维度的Xi的线性叠加,是线性的。
Y=WX (假设W>0),Y的⼤⼩是随着X各个维度的叠加和的⼤⼩线性增加的,如图(x为了⽅便取1维):然后再来看看我们这⾥的logistic 回归模型,模型公式是:,这⾥假设W>0,Y与X各维度叠加和(这⾥都是线性叠加W)的图形关系,如图(x为了⽅便取1维):我们看到Y的值⼤⼩不是随X叠加和的⼤⼩线性的变化了,⽽是⼀种平滑的变化,这种变化在x的叠加和为0附近的时候变化的很快,⽽在很⼤很⼤或很⼩很⼩的时候,X叠加和再⼤或再⼩,Y值的变化⼏乎就已经很⼩了。
当X各维度叠加和取⽆穷⼤的时候,Y趋近于1,当X各维度叠加和取⽆穷⼩的时候,Y趋近于0.这种变量与因变量的变化形式就叫做logistic变化。
(注意不是说X各个维度和为⽆穷⼤的时候,Y值就趋近1,这是在基于W>0的基础上,(如果W<0,n那么Y趋近于0)⽽W是根据样本训练出来,可能是⼤于0,也可能是⼩0,还可能W1>0,W2<0…所以这个w值是样本⾃动训练出来的,也因此不是说你只要x1,x2,x3…各个维度都很⼤,那么Y值就趋近于1,这是错误的。
凭直觉想⼀下也不对,因为你连样本都还没训练,你的模型就有⼀个特点:X很⼤的时候Y就很⼤。
这种强假设肯定是不对的。
因为可能样本的特点是X很⼤的时候Y就很⼩。
)所以我们看到,在logistic回归中,X各维度叠加和(或X各维度)与Y不是线性关系,⽽是logistic关系。
⽽在线性回归中,X各维度叠加和就是Y,也就是Y与X就是线性的了。
logistic回归(共36张PPT)
多分类自变量 以第i类作参照,比较相邻或相隔的两个类别。
连续型自变量 当自变量改变一个单位时,比数比为eb
2022/11/3
27
输出结果的解释
模型拟合的优劣
自变量与结果变量(因变量)有无关系
确认因变量与自变量的编码 模型包含的各个自变量的临床意义 由模型回归系数计算得到的各个自变 量的比数比的临床意义
3
一般直线回归难以解决的问题
医学数据的复杂、多样
连续型和离散型数据
医学研究中疾病的复杂性
一种疾病可能有多种致病因素或与多种危 险因素有关
疾病转归的影响因素也可能多种多样 临床治疗结局的综合性
2022/11/3
4
简单的解决方法
固定其他因素,研究有影响的一两个因 素; 分层分析:按1~2个因素组成的层进行 层内分析和综合。 统计模型
2022/11/3
28
输出结果的解释
模型的预测结果的评价
敏感度、特异度和阳性预测值
正确选择预测概率界值,简单地以0.5为 界值,但并不是最好的。
C指数
预测结果与观察结果的一致性的度量。 C值越大(最大为1),模型预测结果的
能力越强。
2022/11/3
29
非条件logistic回归
研究对象之间是否发生某事件是 独立的。 适用于:
放入所有变量,再逐个筛选
理论上看,前进法选择变量的经验公式缺乏总体概念,当用于因
素分析时,建议用后退法。当变量间有完全相关性时,后退法无 法使用,可用前进法。
2022/11/3
21
5.交互作用的引入
交互作用的定义
当自变量和因变量的关系随第三个变量 的变化而改变时,则存在交互作用
logistic 回归与线性回归的比较
1logistic回归logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。
例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。
以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。
因此因变量就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等。
自变量既可以是连续的,也可以是分类的。
然后通过logistic回归分析,可以得到自变量的权重,从而可以大致了解到底哪些因素是胃癌的危险因素。
同时根据该权值可以根据危险因素预测一个人患癌症的可能性。
1.1logistic回归概述logistic回归是一种广义线性回归(generalized linear model),因此与多重线性回归分析有很多相同之处。
它们的模型形式基本上相同,都具有w‘x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多重线性回归直接将w‘x+b作为因变量,即y =w‘x+b,而logistic回归则通过函数L将w‘x+b对应一个隐状态p,p =L(w‘x+b),然后根据p 与1-p的大小决定因变量的值。
如果L 是logistic函数,就是logistic回归,如果L是多项式函数就是多项式回归。
logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释,多类可以使用softmax方法进行处理。
实际中最为常用的就是二分类的logistic回归。
Logistic回归模型的适用条件1 因变量为二分类的分类变量或某事件的发生率,并且是数值型变量。
但是需要注意,重复计数现象指标不适用于Logistic回归。
2 残差和因变量都要服从二项分布。
二项分布对应的是分类变量,所以不是正态分布,进而不是用最小二乘法,而是最大似然法来解决方程估计和检验问题。
抽样技术第11章复杂调查数据的回归
如 且果服模从型均为值:为Yi0,x方iT 差为i,i2 的其正中态分i 是布独。立那的,
么i / i 即为均值为0,方差为1的正态分布。 ❖ 那么加权最小二乘法估计即为:
( X T 1X ) X T 1 y WLS
❖ B0 和 B1 可以用总体的函数来表示
❖
❖ ❖
B
1
N
N
N
xi yi ( xi )( yi ) /
i 1
i1 i1
N
N
xi2 ( xi )2 / N
i 1
i 1
N
txy
txty N
tx2
(tx )2 (11.4)
N
N
N
B
yi i1
1 xi
i 1
ty
B1tx
B ❖ 0
N
N
(11.5)
❖ ①基于设计
在基于设计的方法中,我们感兴趣的是能够 反映有限总体特征的量,而忽略这个模型是 否能够很好拟合总体。推断基于来自有限总 体中的重复样本。也许一个产生这个数据的 模型存在,但是我们并不需要知道,因此分 析并不是需要基于任何的理论模型。在估计 总体总值和总体均值的时应该使用权重,同 理,在线性回归分析中也应当如此。
总体,B应该接近 。
❖ ②是否为一个概率抽样?如果不是,我们就 只能使用基于模型的方法。
❖ ③样本大小多大?基于设计的理论是依靠大 样本来推断参数的。如果样本过小,那则需 要使用基于模型的方法。
❖ ④这方面有没有人之前被广泛地研究过。如 果科学理论和之前的经验调查支持你所计划 研究的模型,那你则可以充分相信基于模型 的方法。
多元Logistic_回归分析
例3、自变量是分类型变量
为了了解冠心病与种族的关系,某研究所调查了100个样本, 数据列在下表中。试估计各种族间患冠心病的相对危险度。
设y=1表示患冠心病,y=0表示未患冠心病。令x=1表示黑 人,x=2表示白人,x=3表示其它种族。将变量x转化为哑 变量,变量名是:black、white和other。
Intercept and
Criterion Only Covariates Chi-Square for Covariates
AIC
148.262 146.686 .
SC
147.648 145.458 .
-2 LOG L 146.262 142.686 3.576 with 1 DF (p=0.0586)
P1 = p(y=1) = P1 P1=
P2=
P2 = p(y=2) =P2-P1
P3= p(y≤3 | x) = 1 - P2 累积概率模型
P3 = p(y=3) =1-P2 独立概率模型
13
第三节 Logistic回归分析方法步骤
1、估计参数 ---- 最大似然法 2、检验参数的显著性
H0: βj=0 vs H1: βj≠0 3、检验模型的显著性
28
什么是哑变量?
一个含有g个类的分类型变量可以构造g个哑变量。
29
如何用SAS程序构造哑变量? data d2; set d1; array a{3} student teacher worker; do i=1 to 3; a{i}=( x 1= i ) ; end; run;
data d2; set d1;
Score
.
. 56.008 with 1 DF (p=0.0001)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十一章 多元线性回归与logistic 回归一、教学大纲要求(一)掌握内容1.多元线性回归分析的概念:多元线性回归、偏回归系数、残差。
2.多元线性回归的分析步骤:多元线性回归中偏回归系数及常数项的求法、多元线性回归的应用。
3.多元线性回归分析中的假设检验:建立假设、计算检验统计量、确定P 值下结论。
4.logistic 回归模型结构:模型结构、发病概率比数、比数比。
5.logistic 回归参数估计方法。
6.logistic 回归筛选自变量:似然比检验统计量的计算公式;筛选自变量的方法。
(二)熟悉内容常用统计软件(SPSS 及SAS )多元线性回归分析方法:数据准备、操作步骤与结果输出。
(三)了解内容标准化偏回归系数的解释意义。
二、教学内容精要(一) 多元线性回归分析的概念将直线回归分析方法加以推广,用回归方程定量地刻画一个应变量Y 与多个自变量X 间的线形依存关系,称为多元线形回归(multiple linear regression ),简称多元回归(multiple regression )基本形式:01122ˆk kY b b X b X b X =+++⋅⋅⋅+ 式中Y ˆ为各自变量取某定值条件下应变量均数的估计值,1X ,2X ,…,kX 为自变量,k 为自变量个数,0b 为回归方程常数项,也称为截距,其意义同直线回归,1b ,2b ,…, k b 称为偏回归系数(partial regression coefficient ),j b 表示在除j X 以外的自变量固定条件下,j X 每改变一个单位后Y 的平均改变量。
(二) 多元线性回归的分析步骤Y ˆ是与一组自变量1X ,2X ,…,kX 相对应的变量Y 的平均估计值。
多元回归方程中的回归系数1b ,2b ,…, k b 可用最小二乘法求得,也就是求出能使估计值Y ˆ和实际观察值Y 的残差平方和22)ˆ(∑∑-=Y Y e i 为最小值的一组回归系数1b ,2b ,…,k b 值。
根据以上要求,用数学方法可以得出求回归系数1b ,2b ,…, k b 的下列正规方程组(normal equation ):⎪⎪⎩⎪⎪⎨⎧=+++=+++=+++ky kk k k k yk k y k k l l b l b l b l l b l b l b l l b l b l b 22112222221111122111式中()()()()i j ij ji i i j j i j X X l l X X X X X X n==--=-∑∑∑∑∑∑∑∑-=--=nY X Y X Y Y X Xl i i i iiy ))(())((常数项0b 可用下式求出:k k X b X b X b Y b ----= 22110(三)多元线性回归分析中的假设检验在算得各回归系数并建立回归方程后,还应对此多元回归方程作假设检验,判断自变量1X ,2X ,…,k X 是否与Y 真有线性依存关系,也就是检验无效假设0H (1230k ββββ===== ), 备选假设1H 为各j β值不全等于0或全不等于0。
检验时常用统计量F)1(--==k n l k l MS MS F 误差回归误差回归式中n 为个体数,k 为自变量的个数。
式中 ky k y y l b l b l b l +++= 2211回归回归总误差l l l -=()∑=-=yy l Y Y l 2总(四) logistic 回归模型结构设k X X X ,,,21 为一组自变量,Y 为应变量。
当Y 是阳性反应时,记为Y =1;当Y 是阴性反应时,记为Y =0。
用P 表示发生阳性反应的概率;用Q 表示发生阴性反应的概率,显然P +Q =1。
Logistic 回归模型为:kk kk X X X X X X e e P ββββββββ+++++++++=22110221101同时可以写成:kk X X X e Q ββββ+++++=2211011式中0β是常数项;(12)j j k β= ,,,是与研究因素j X 有关的参数,称为偏回归系数。
事件发生的概率P 与x β之间呈曲线关系,当x β在()∞∞-,之间变化时, P 或Q 在(0,1)之间变化。
若有n 例观察对象,第i 名观察对象在自变量ik i i X X X ,,,21 作用下的应变量为i Y ,阳性反应记为i Y =1,否则i Y =0。
相应地用i P 表示其发生阳性反应的概率;用i Q 表示其发生阴性反应的概率,仍然有i P +i Q =1。
i P 和i Q 的计算如下:01122011221i i k iki i k ikX X X X X X P i e e ββββββββ++++++++=+0112211i i k iki X X X Q e ββββ++++=+这样,第i 个观察对象的发病概率比数(odds )为i i Q P ,第l 个观察对象的发病概率比数为l l Q P ,而这两个观察对象的发病概率比数之比值便称为比数比OR (odds ratio )。
对比数比取自然对数得到关系式:ln )()()(222111lk ik k l i l i l l i i X X X X X X Q P Q P -++-+-=⎪⎪⎭⎫⎝⎛βββ 等式左边是比数比的自然对数,等式右边的()ljij X X -()k j ,,, 21=是同一因素iX的不同暴露水平ij X 与lj X 之差。
j β的流行病学意义是在其它自变量固定不变的情况下,自变量j X 的暴露水平每改变一个测量单位时所引起的比数比的自然对数改变量。
或者说,在其他自变量固定不变的情况下,当自变量j X 的水平每增加一个测量单位时所引起的比数比为增加前的jeβ倍。
同多元线性回归一样,在比较暴露因素对反应变量相对贡献的大小时,由于各自变量的取值单位不同,也不能用偏回归系数的大小作比较,而须用标准化偏回归系数来做比较。
标准化偏回归系数值的大小,直接反映了其相应的暴露因素对应变量的相对贡献的大小。
标准化偏回归系数的计算,可利用有关统计软件在计算机上解决。
(五)logistic 回归参数估计由于logistic 回归是一种概率模型,通常用最大似然估计法(maximum likelihood estimate )求解模型中参数j β的估计值(12)j b j k = ,,,。
Y 为在k X X X ,,,21 作用下的阳性事件(或疾病)发生的指示变量。
其赋值为:⎩⎨⎧=应个观察对象出现阴性反,第应个观察对象出现阳性反,第i i Y i 01第i 个观察对象对似然函数的贡献量为:1i iY Y i i il P Q -= 当各事件是独立发生时,则n 个观察对象所构成的似然函数L 是每个观察对象的似然函数贡献量的乘积,即∏∏==-==n i ni Y i Y i i i i Q P l L 111式中∏为i 从1到n 的连乘积。
依最大似然估计法的原理,使得L 达到最大时的参数值即为所求的参数估计值,计算时通常是将该似然函数取自然对数(称为对数似然函数)后,用Newton —Raphson 迭代算法求解参数估计值)21(k j bj,,, =。
(六)logistic 回归筛选自变量在logistic 回归中,筛选自变量的方法有似然比检验(likelihood ratiotest )、计分检验(score test)、Wald 检验(Wald test)三种。
其中似然比检验较为常用,用Λ表示似然比检验统计量,计算公式为:())ln (ln 2ln 2''L L L L -==Λ式中ln 为自然对数的符号,L 为方程中包含)(k m m <个自变量的似然函数值,'L 为在方程中包含原m 个自变量的基础上再加入1个新自变量j X 后的似然函数值。
在无效假设0H 条件下,统计量Λ服从自由度为1的2χ分布。
当2)1(αχ≥Λ时,则在α水平上拒绝无效假设,即认为j X 对回归方程的贡献具有统计学意义,应将j X 引入到回归方程中;否则,不应加入。
逆向进行即可剔除自变量。
三、典型试题分析(一)单项选择题1.多元线性回归分析中,反映回归平方和在应变量Y 的总离均差平方和中所占比重的统计量是( )。
A . 复相关系数B . 偏相关系数C . 偏回归系数D . 确定系数 答案:D[评析] 本题考点:多元线性回归中的几个概念的理解。
多元线性回归中的偏回归系数(multiple linear regression )表示在其它自变量固定不变的情况下,自变量j X 每改变一个单位时,单独引起应变量Y 的平均改变量。
确定系数(coefficient of determination )表示回归平方和回归SS 占总离均差平方和总SS 的比例,简记为2R 。
即总回归SS SS R =2。
确定系数的平方根即R 称为复相关系数(multiple correlation coefficient ),它表示p 个自变量共同对应变量线性相关的密切程度,它不取负值, 即0≤R ≤1。
2.Logistic 回归分析适用于应变量为( )。
A .分类值的资料B .连续型的计量资料C .正态分布资料D .一般资料答案:A[评析] 本题考点:logistic 回归的概念。
logistic 回归属于概率型回归,可用来分析某类事件发生的概率与自变量之间的关系。
适用于应变量为分类值的资料,特别适用于应变量为二项分类的情形。
模型中的自变量可以是定性离散值,也可以是计量观测值。
(二)计算题根据表11-2数据,分别用SPSS 统计软件、SAS 统计软件写出多元线性回归的统计分析步骤及其简要结果。
表11-1 某学校20名一年级女大学生肺活量及有关变量测量结果编号 体重1X /kg 胸围2X /cm 肩宽3X /cm 肺活量Y /L1 50.8 73.2 36.3 2.96 2 49.0 84.1 34.5 3.13 3 42.8 78.3 31.0 1.914 55.0 77.1 31.0 2.635 45.3 81.7 30.0 2.86 6 45.3 74.8 32.0 1.917 51.4 73.7 36.5 2.98 8 53.8 79.4 37.0 3.289 49.0 72.6 30.1 2.52 10 53.9 79.5 37.1 3.27 11 48.8 83.8 33.9 3.10 12 52.6 88.4 38.0 3.28 13 42.7 78.2 30.9 1.92 14 52.5 88.3 38.1 3.27 15 55.1 77.2 31.1 2.64 16 45.2 81.6 30.2 2.85 17 51.4 78.3 36.5 3.16 18 48.7 72.5 30.0 2.51 19 51.3 78.2 36.4 3.15 20 45.8 75.0 32.5 1.94 答案:SPSS :数据文件:“EXAP11—2.sav ”。