第十章_logit回归
logistic回归分析精选PPT课件
Number of obs =
LR chi2(1)
=
Prob > chi2
=
Pseudo R2
=
152 30.67 0.0000 0.1455
------------------------------------------------------------------------------
case |
Coef. Std. Err.
z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
exposure | 2.112829 .4228578 5.00 0.000 1.284043 2.941615
2
二分类资料的分析
非条件logistic模型:成组病例对照研究资料 条件logistic模型:配比病例对照研究资料3源自非条件logistic回归模型
lo ( p ) g 0 + i 1 X 1 + t = 2 X 2 k X k
01X1+ 2X2+ + kXk
p1ee01X12X2 kXk 1
|------------------------+----------------------
Odds ratio |
8.271605
| 3.4193 21.33091 (exact)
Attr. frac. ex. |
.8791045
| .7075425 .9531197 (exact)
Attr. frac. pop |
.4626866
《Logistic回归》课件
公式
f(x)=1/(1+e^-x)其中,x是一个实数,源自表示 自然对数的底数。特点
• 输出范围在0-1之间,代 表了一个概率值;
• 函数有单峰性,中心对 称,可以确定最大值和
• 最在小输值入;接近0时函数近 似于线性函数。
应用场景:二元Logistic回归
乳腺癌预测
贷款审核
二元Logistic回归被广泛应用于医 学界用于识别患有乳腺癌的女性。
数据预处理
4
的潜在关系和规律。
对需要进行缩放、归一化、标准化等处
理的变量进行预处理。
5
模型拟合
将数据划分训练集和测试集,通过模型 对训练集进行拟合,并评估模型预测能 力。
模型评估方法
混淆矩阵
将预测结果与真实结果进行比对,计算假正率、假负率、真正率和真负率等指标。
ROC曲线
通过绘制真正率与假正率的曲线,评估模型的预测能力。
AUC指标
ROC曲线下的面积就是AUC,AUC越大说明模型预测结果越准确。
常见模型优化方法
1 数据增强
通过合成数据或者样本扩 增等方法,增加数据量, 提高模型泛化性能。
2 特征选择
选择对于问题最重要的变 量,避免过拟合。
3 模型集成
通过结合多个模型的结果, 提高整体预测能力。
应用探索:Logistic回归的扩展
2 作用
通过逻辑函数将线性变量转化为概率值,从 而进行二元分类。
3 优点
简单易懂、易于解释和使用,对于大规模数 据集有效率。
4 缺点
只适用于二元分类问题,并且在分类较为复 杂的非线性问题上表现较差。
sigmoid函数
介绍
sigmoid函数是Logistic回归模 型中核心的激活函数,将输入 值映射到0-1的概率分布区间内。
10_第十讲_Logistic回归1228
0.12
0.13
0.88
0.87
-1.99243
-1.90096
• 以结果变量为二分类变量为例:
– P/(1-P)为比数,定义Y=ln(P/(1-P))
• 其基本思路与多元线性回归分析相同。
– 将应变量由二分类变量转为连续性变量; – 确定m个自变量 (研究因素与混杂因素)。
Logistic模型的构建
(二)Logistic回归的应用条件
• 样本含量足够,一般为自变量个数的5-10倍; • 结果变量满足独立性,常为二分类变量资料, 自变量可以是数值变量/分类变量或等级资料; • 分析前需将分类变量资料与等级资料定量化。
(三)Logistic回归的用途
• 可以在控制1个或多个混杂因素的条件下,探 讨某个事件的发生与研究因素的关系;研究 各因素主效应及其相互间的交互作用; • 在临床研究中多用于鉴别诊断、评价疗效、 分析与疾病预后有关的因素、筛选主要危险 因素、预测不良事件发生。
冠心 病 Total
control case
P=0.029
• 吸烟:
冠 心病 * 吸 烟 C r o s s t a b u l a t i o n Count 吸烟 N 冠心 病 Total control case 10 3 13 Y 18 23 41 Total 28 26 54
P=0.038
0.99 0.98 0.97 0.96
-4.59512 -3.89182 -3.4761 -3.17805
0.05
0.06 0.07
0.95
0.94 0.93
-2.94444
-2.75154 -2.58669
0.08
0.09 0.1 0.11
Logistic回归分析PPT课件
汕大医学院预防医学教研室
1
第一节 Logistic 回归
Logistic regression:
是研究分类变量统计分析的一种重要方 法。研究两水平或多水平反应变量与其影 响因子间关系的回归分析(线性回归分析: 应变量为连续计量资料)。 Logistic回归模型是一种概率模型, 通常以疾 病,死亡等结果发生的概率为因变量, 影响疾 病发生的因素为自变量建立回归模型。
19
• Logistic回归中的常数项(b0)表示,在不接触任 何潜在危险/保护因素条件下,效应指标发生与 不发生事件的概率之比的对数值。
• Logistic回归中的回归系数( bi )表示,某一因 素改变一个单位时,效应指标发生与不发生事件 的概率之比的对数变化值,即OR的对数值。
20
Logistic回归系数的意义
11
• (1)取值问题 • (2)曲线关联 • 反应变量与自变量的关系通常不是直线关
系,而是S型曲线。曲线回归时,往往采用 变量变换,使得曲线直线化,再进行直线 回归方程的拟合。能否考虑对所预测的因 变量加以变换。1970年,COX引入了用于 人口学领域的Logit变换。
12
概率P是以0.5为对称点,分布在0~1的范围内 的,而相应的Logit(P)的大小为
4
实例
试验者术前检查了53例前列腺癌患者,拟 用年龄(AGE)、酸性磷酸酯酶(ACID)两个连 续型的变量,X射线(X-RAY)、术前探针活 检病理分级(GRADE)、直肠指检肿瘤的大小 与位置(STAGE)三个分类变量与手术探查结 果变量NODES(1、0分别表示癌症的淋巴结 转移与未转移 )建立淋巴结转移的预报模 型。
5
53例接受手术的前列腺癌患者情况
第10讲 第10章 Logistic回归
Odds 1 机会比率 Odds 2
若消费支出2000元且有卡 (X1=2,X2=1),则
P (Y 1 | X 1 2, X 2 1) Odds1 1 P (Y 1 | X 1 2, X 2 1)
若消费支出2000元且无卡 (X1=2,X2=0),则
P (Y 1 | X 1 2, X 2 0) Odds2 1 P (Y 1 | X 1 2, X 2 0)
利用机会比率与回归系数之间的关系就容易计算机 会比率的估计值
SPSS 分析结果中的估计机会
Va riable s in the E quation St ep a 1 信用卡 年消费 Co nstant B 1.099 .342 -2.146 S. E. .445 .129 .577 Wald 6.105 7.050 13.82 6 df 1 1 1 Si g. .013 .008 .000 Exp(B ) 3.000 1.407 .117
exp( 2.1464 0.3416X 1 1.098X 2 ) ˆ y 1 exp( 2.1464 0.3416X 1 1.098X 2 )
例如估计去年消费支出为2000元而没有信用卡的顾 客购买商品的概率,此时X1=2,X2=0,代入上式
exp( 2.1464 0.3416 2 1.098 0) p 1 exp( 2.1464 0.3416 2 1.098 0)
已知 X1=2,X2=1,P(Y=1)=0.4099. 已知 X1=2,X2=0,P(Y=1)=0.1880.
0.4099 Odds 1 0.6946 1 0.4099 0.1880 Odds 2 0.2315 1 0.1880
Odds 1 0.6946 机会比率 3.00 Odds 2 0.2315
logistic回归分析PPT优秀课件
2
logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研 究某个二分类(或无序及有序多分类)目标变量与有关因素的关 系。
logistic回归的分类: (1)二分类资料logistic回归: 因变量为两分类变量的资料,可用
非条件logistic回归和条件logistic回归进行分析。非条件logistic回 归多用于非配比病例-对照研究或队列研究资料,条件logistic回归 多用于配对或配比资料。 (2)多分类资料logistic回归: 因变量为多项分类的资料,可用多 项分类logistic回归模型或有序分类logistic回归模型进行分析。
比较
调查方向:收集回顾性资料
人数 暴露
疾病
a/(a+b) c/(c+d)
a
+
b
-
病例
c
病例对照原理示意图
6
是否暴露 暴露组 未暴露组 合计
病例 a c a+c
对照 b d b+d
合计 a+b(n1) c+d(n2) n
比数比(odds ratio、OR):病例对照研究中表示疾病与暴露间
联系强度的指标,也称比值比。
相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率 之比。但病例对照研究不能计算发病率,只能计算比值比OR值。 OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组 的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。
OR>1,说明 该因素使疾病的危险性增加,为危险因素;
OR<1,说明 该因素使疾病的危险性减小,为保护因素;
10章—Logit回归要点
2011・6・23通知:考试时间改为,2011・6・29下午2:30, A405教室参考资料1、陈峰等,医用多元统计分析方法,中国统计出版社,2000年12月第1版2、张尧庭,定性数据的统计分析,广西师范大学出版社,佃91年11月第1版年4月第1版,39.00元3、阮敬,SAS变量的分类'宀日’连续/计量例如,身高疋量<i离散/计数例如,人数■=有序例如,学历定性L v'二分类例如,性别名义彳、‘〔多分类例如,职业注:计量指标与计数指标一般好区别。
特殊情形下不好区别,如年龄】、两分类变量的logistic 回归1、logit 变换考虑上市公司中企业类型(ST 与非ST )与财务指标的关系。
常常需要研究事件A 发生的概率p 大小与某些因素有关。
例如,讨论某特定人群(例如糖尿病患者)中患动脉硬化的概率与年龄的关系。
显然 人群中只有两种状态“动脉硬化”和“非动脉硬化” (简称为“患病”和“不患病”),人群 的状态记为y ,则“患病”和“不患病”对应着 y 的两个取值:y =1,y = 0。
用事件表示 即{y =1}—“患病”=“动脉硬化” ,{y = 0}—“不患病”=“非动脉硬化”若患病率记为p ,则 显然pfy n_p{y =1丄1一 p讨论患病率p 与年龄X 的关系,显然,患病率随着年龄X 的增加而增长。
例,观察了 123位糖尿病患者,记录了他们的年龄 x 以及是否患动脉硬化y 。
数据格 式见下表,详细数据见附录一2。
表1、 糖尿病原始数据 (注:此为简表,详见附录3数据)编号动脉硬化分类 年龄n y x 132123178符号说明符号 解释 注编号是否动脉硬化年龄根据这些数据如何分析是否患病 y 与年龄X 的关系?能否建立y 关于x 的回归方程?不行。
因为y 的取值并无实际意义。
将数据分组,得到各组的患病率 p (见表2),能否建立p 关于x 的回归方程? (如何将表1的原始数据整理成表2的分组数据?详见附录1)。
《logistic回归》课件
易于理解和实现: 由于基于逻辑函数,模型输出结 果易于解释,且实现简单。
Logistic回归的优势与不足
• 稳定性好: 在数据量较小或特征维度较高 时,Logistic回归的预测结果相对稳定。
Logistic回归的优势与不足
01
不足:
02
对数据预处理要求高: 需要对输入数据进行标准化或归一化处理,以 避免特征间的尺度差异对模型的影响。
模型假设
01
线性关系
因变量与自变量之间存在线性关系 。
无自相关
因变量与自变量之间不存在自相关 。
03
02
无多重共线性
自变量之间不存在多重共线性,即 自变量之间相互独立。
随机误差项
误差项是独立的,且服从二项分布 。
04
模型参数求解
最大似然估计法
通过最大化似然函数来求解模型参数。
梯度下降法
通过最小化损失函数来求解模型参数。
特征选择与降维
在处理大数据集时,特征选择和降维是提高模 型性能和可解释性的重要手段。
通过使用诸如逐步回归、LASSO回归等方法, 可以自动选择对模型贡献最大的特征,从而减 少特征数量并提高模型的泛化能力。
降维技术如主成分分析(PCA)可以将高维特 征转换为低维特征,简化数据结构并揭示数据 中的潜在模式。
迭代法
通过迭代的方式逐步逼近最优解。
牛顿法
利用牛顿迭代公式求解模型参数。
模型评估指标
准确率
正确预测的样本数占总样本数的比例 。
精度
预测为正例的样本中实际为正例的比 例。
召回率
实际为正例的样本中被预测为正例的 比例。
F1分数
精度和召回率的调和平均数,用于综 合评估模型性能。
机器学习__Logistic回归
2. 线性回归是使用最小二乘法优化目标函数,而逻辑回归是使用梯度
下降或者牛顿法。
3. 逻辑回归是以线性回归为理论支持的,但线性回归模型无法做到
Sigmoid的非线性形式。Sigmoid可以轻松处理0/1分类问题。
Logistic回归
二项逻辑回归模型(二分类):
Logistic回归
多项逻辑回归模型(多分类):
高阶可导连续凸函数,可用经典的数值优化方法
如梯度下降法/牛顿法 [Boyd and Vandenberghe, 2004]
Logistic回归与线性回归的联系与区别
1.Logistic回归在线性回归的实数输出范围加上Sigmoid函数,将输
出值收敛在0~1。其损失函数也因此从误差平方和函数变为对数损
+
= =
+
+
−
σ=
其中 = , , , ⋯ , −
= =
+
+ σ−
=
THANKS
=
−
几率(odds),反映了 x 作为正例的相对可能性
对数几率(亦称logit),Logistic 回归
Logistic回归
是一个分类算法,它可以处理二元分类以及多元分类。首先逻辑回归构造广义的
线性回归函数,然后使用sigmoid函数将回归值映射到离散类别。
X1
X2
…
xn
输入
线性
回归
2.1
Sigmoid
函数
中间值
0.8
0.2
概率
0
or
1
输出
Logistic回归
为了探讨冠心病发生的有关危险因素,对26例冠心 病病人和28例对照者进行病例−对照研究,各因素 的说明见下表2。试用logistic逐步回归分析方法筛 ( 选危险因素 。α 入 = 0.10,α出 = 0.15)
X为自变量:X 1 , X 2 ,L , X m 为自变量: 为自变量 取值为1的概率为 则Y取值为 的概率为: 取值为 的概率为:
P = P{ = 1 X 1 , X 2 ,L, X m } Y
0 ≤ P ≤1
Logistic回归模型可表示为:
e β + β X + β X +L+ β X P= 1 + e β + β X + β X +L+ β X
0 1 1 2 2 m m 0 1 1 2 2 m
m
P=
1 1+ e
−( β + β X + β X +L+ β X )
0 1 1 2 2 m m
P ln = β 0 + β1 X 1 + β 2 X 2 + L + β m X m 1− P
P 为阳性与阴性结果发生概率之 ln 1− P 比的自然对数,称为P的logit变换 ,记为
df 1 1 1 1 1 1 1 1 1 1 1 1 1 1
Sig. .010 .097 .007 .008 .005 .016 .010 .034 .002 .053 .044 .012 .021 .002
Exp(B) 16.875 .593 6.219 21.303 .278 5.597 20.656 5.277 .095 2.519 4.464 23.000 7.008 .009
《logistic回归分析》PPT课件
第一节 非条件logistic回归
一、logistic 回归模型:
设因变量 Y 是一个二分类变量,其取值为 Y =1 和Y =0。 影响 Y 取值的 m 个自变量分别为 X1, X 2 ,, X m 。在 m 个自变量(即暴露因素)作用下阳性结果发生的条件
概率为 P P(Y 1 X1, X 2 ,, X m ) ,则 logistic 回归模
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
9
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
Logistic
模型为:
p1
p( y
1|
(2)多分类资料Logistic回归: 因变量为多项分类的资料,可 用多项分类Logistic回归模型或有序分类Logistic回归模型进 行分析。
2
非条件Logistic回归分析 条件Logistic回归分析 无序分类反应变量Logistic回归分析 有序多分类反应变量Logistic回归分析 Logistic回归分析应用及注意事项
21
对所拟合模型的假设检验:
概率p值均小 于0.05,说明 方程有意义。
[医学]Logistic回归.ppt
结果1:拟合优度检验结果
两种拟合优度检验的结果均显示:P值 =0.64>>0.05,因此可以认为当前模型与拟 合最好的模型比较,差别无统计意义。因此没 有必要对模型作进一步改进。
结果2:模型检验
似然比的卡方=(无协变量的-2LOGL值)-(有两个协变量的- 2LOGL值)=107.669-95.9=11.769,自由度df=2(模型 中的协变量个数),相应的P值=0.0028,因此可以认为两个协 变量的回归系数至少有一个不为0。即:认为模型有统计学意义。
常用统计软件
Logistic回归
Logistic回归分析的分类
按数据的类型: o 非条件logistic回归分析(成组数据) o 条件logistic回归分析(配对病例-对照数据)
按因变量取值个数: o 二分类logistic回归分析 o 多分类logistic回归分析
按自变量个数: o 一元logistic回归分析 o 多元logistic回归分析
实例1
假设我们有一个数据,45个观测值,四个变 量,包括: age(年龄,数值型); vision(视力状况,二分类:1表示差,0表 示好); drive(驾车教育,二分类:1表示参加过驾 车教育,0表示没有); Accident(去年是否发生事故,二分类:1 表示出过事故,0表示没有)。
(取值范围0~1)
考虑使用概率的logit变换函数
0.8
0.6 pP
0.4
0.2
-4
-2
0
2
4
Logiyt(P)
非条件logistic回归的数学模型
因此,我们使用P与(1-P)的比值的对数, 来建立logit(P)与X的多重线性回归模型:
logit回归解读
logit回归解读
Logit回归是一种用于处理二元分类问题的统计模型。
它是逻辑回归模型的一种形式,逻辑回归模型用于预测一个事件发生的概率。
在logit回归中,我们使用logit函数来将线性回归模型的结果映射到0到1之间的概率值。
这个函数的形式是logit(p) = log(p/(1-p)),其中p是事件发生的概率。
通过logit函数,我们可以将线性回归模型的输出映射到一个概率,然后可以根据这个概率进行分类。
在解读logit回归的结果时,我们通常关注系数的大小和方向,系数的显著性检验以及模型的拟合优度。
系数的大小和方向可以告诉我们自变量对因变量的影响方向和强度,显著性检验可以告诉我们这种影响是否是显著的,而模型的拟合优度则可以告诉我们模型对数据的拟合程度如何。
总的来说,logit回归可以帮助我们理解自变量对于二元分类问题的影响程度,以及预测事件发生的概率。
logit回归模型解释
Logit回归模型(Logit model)也译作“评定模型”,“分类评定模型”,又作Logistic regression,“逻辑回归”,是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。
逻辑分布(Logistic distribution)公式其中参数β常用极大似然估计。
具体解释如下:
逻辑分布:假设我们有一个线性回归模型,预测值是介于0和1之间的概率。
当这个线性回归模型的预测值被转换为分类标签时,它被称为逻辑回归模型。
逻辑回归模型的预测值通常通过将预测值与0.5阈值进行比较来转换为二进制分类标签。
参数β:在逻辑回归模型中,参数β被称为逻辑回归系数。
它表示线性回归模型中的斜率,用于解释输入特征对预测结果的影响。
极大似然估计:在统计推断中,极大似然估计是一种参数估计方法,它通过最大化样本数据的似然函数来估计参数的值。
在逻辑回归模型中,极大似然估计用于估计逻辑回归系数β的值。
总之,Logit回归模型是一种用于处理二元分类问题的统计模型,它通过逻辑函数将线性回归模型的预测值转换为介于0和1之间的概率,从而可以用于预测二元分类标签。
logistic回归(共36张PPT)
多分类自变量 以第i类作参照,比较相邻或相隔的两个类别。
连续型自变量 当自变量改变一个单位时,比数比为eb
2022/11/3
27
输出结果的解释
模型拟合的优劣
自变量与结果变量(因变量)有无关系
确认因变量与自变量的编码 模型包含的各个自变量的临床意义 由模型回归系数计算得到的各个自变 量的比数比的临床意义
3
一般直线回归难以解决的问题
医学数据的复杂、多样
连续型和离散型数据
医学研究中疾病的复杂性
一种疾病可能有多种致病因素或与多种危 险因素有关
疾病转归的影响因素也可能多种多样 临床治疗结局的综合性
2022/11/3
4
简单的解决方法
固定其他因素,研究有影响的一两个因 素; 分层分析:按1~2个因素组成的层进行 层内分析和综合。 统计模型
2022/11/3
28
输出结果的解释
模型的预测结果的评价
敏感度、特异度和阳性预测值
正确选择预测概率界值,简单地以0.5为 界值,但并不是最好的。
C指数
预测结果与观察结果的一致性的度量。 C值越大(最大为1),模型预测结果的
能力越强。
2022/11/3
29
非条件logistic回归
研究对象之间是否发生某事件是 独立的。 适用于:
放入所有变量,再逐个筛选
理论上看,前进法选择变量的经验公式缺乏总体概念,当用于因
素分析时,建议用后退法。当变量间有完全相关性时,后退法无 法使用,可用前进法。
2022/11/3
21
5.交互作用的引入
交互作用的定义
当自变量和因变量的关系随第三个变量 的变化而改变时,则存在交互作用
【精品】Logistic 回归模型及回归分析PPT课件
数据分析的背景
• 单因素的分类资料统计分析,一般采用 Pearson 2进行统计检验,用Odds Ratio 及其95%可信区间评价关联程度。
• 考虑多因素的影响,对于反应变量为分 类变量时,用线性回归模型P=a+bx就不 合适了,应选用Logistic回归模型进行统 计分析。
4
Logistic回归模型
Logistic 回归模型及回归分析
1
Logistic 回归模型
2
数据分析的背景
• 计量资料单因素统计分析 – 对于两组计量资料的比较,一般采用t检 验或秩和检验。
– 对于两个变量的相关分析采用Pearson 相关分析或Spearman相关分析
• 考虑多因素的影响,对于应变量(反应变 量)为计量资料,一般可以考虑应用多重 线性回归模型进行多因素分析。
ln(Odds)
ln( P 1 P
)
0
1x1
mxm
10
Logistic回归模型
• 记: log it(P) ln( P ) 1 P
• 故可以写为
log it(P) 0 1x1 m xm
• 也可以写为
P exp(0 1x1 m xm ) 1 exp(0 1x1 m xm )
准正态分布,即:|z|>1.96,P<0.05,拒绝H0
19
实例1:用Logistic模型进行统计分析
• 实例1的回归系数估计为
ˆ1 0.4117232 ˆ0 -7.962891
• se(b)=0.1780719, z=b/se=2.31 ,P=0.021<0.05 拒绝H0,差异有统计学意义,可认为0。
e0
P 1 e0
1 P 1 e0
logit回归结果解读
logit回归结果解读【实用版】目录1.Logit 回归简介2.Logit 回归结果的主要组成部分3.如何解读 Logit 回归结果4.实际案例应用正文1.Logit 回归简介Logit 回归是一种广义线性模型,主要用于解决二分类问题。
与线性回归不同,Logit 回归的输出变量是逻辑斯蒂函数,其取值范围在 0 到 1 之间。
当输出变量大于 0.5 时,我们预测样本属于类别 1;当输出变量小于 0.5 时,预测样本属于类别 0。
Logit 回归可以帮助我们理解两个类别之间的概率关系,为二分类问题提供有效的预测依据。
2.Logit 回归结果的主要组成部分Logit 回归的结果主要包括以下几个部分:(1)系数:系数表示自变量对因变量的影响程度。
正系数表示自变量与因变量正相关,负系数表示负相关。
系数的绝对值越大,相关性越强。
(2)标准误差:标准误差是对系数的一种不确定性度量。
标准误差越小,表示系数的估计越精确。
(3)z 值:z 值表示系数的标准化程度,即系数除以标准误差。
z 值越大,表示自变量对因变量的影响程度越大。
(4)P>|z|:P>|z|表示在零假设成立的情况下,观察到这样的系数的概率。
该值越小,拒绝零假设的证据越强。
3.如何解读 Logit 回归结果当我们得到 Logit 回归的结果后,可以通过以下几个步骤来解读:(1)观察系数:根据系数的正负,可以判断自变量与因变量之间的相关性。
正系数表示正相关,负系数表示负相关。
(2)分析标准误差:标准误差越小,表示对系数的估计越精确。
在实际应用中,可以关注标准误差较小的自变量,因为它们对因变量的影响可能更为显著。
(3)关注 z 值:z 值可以帮助我们判断自变量对因变量的影响程度。
z 值较大的自变量,对因变量的影响可能更为显著。
(4)判断 P>|z|:P>|z|越小,拒绝零假设的证据越强。
可以关注P>|z|较小的自变量,它们对因变量的影响可能具有统计学意义。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十章 logitic 回归本章导读:Logitic 回归模型是离散选择模型之一,属于多重变数分析范畴,是社会学、生物统计学、临床、数量心理学、市场营销、会计与财务等实证分析的常用方法。
10.1 logit 模型和原理Logistic 回归分析是对因变量为定性变量的回归分析。
它是一种非线性模型。
其基本特点是:因变量必须是二分类变量,若令因变量为y ,则常用y=1表示“yes ”,y=0表示“no ”。
[在发放股利与不发放股利的研究中,分别表示发放和不发放股利的公司]。
自变量可以为虚拟变量也可以为连续变量。
从模型的角度出发,不妨把事件发生的情况定义为y=1,事件未发生的情况定义为0,这样取值为0、1的因变量可以写作:⎩⎨⎧===事情未发生事情发生01y 我们可以采用多种方法对取值为0、1的因变量进行分析。
通常以P 表示事件发生的概率(事件未发生的概率为1-P ),并把P 看作自变量x 的线性函数。
由于y 是0-1型Bernoulli 分布,因此有如下分布:P=P (y=1|x ):自变量为x 时y=1的概率,即发放现金股利公司的概率1-P=P (y=0|x ):自变量为x 时y=0的概率,即不发放现金股利公司的概率 事件发生和不发生的概率比成为发生比,即相对风险,表现为PP odds -=1.因为是以 对数形式出现的,故该发生比为对数发生比(log odds ),表现为)1ln(P P odds -=。
对数发生比也是事件发生概率P 的一个特定函数,通过logistic 转换,该函数可以写成logistic 回归的logit 模型:)1(log )(log PP P it e -= Logit 一方面表达出它是事件发生概率P 的转换单位;另一方面,它作为回归的因变量就可以自己与自变量之间的依存关系保持传统回归模式。
根据离散型随即变量期望值的定义,可得:E(y)=1(P)+0(1-P)=P进而得到x P y E 10)(ββ+==因此,从以上分析可以看出,当因变量的取值为0、1时,均值x y E 10)(ββ+=总是代表给定自变量时y=1的概率。
虽然这是从简单线性回归分析而得,但也适合复杂的多元回归函数情况。
k k x x x itP y E ββββ++++== 22110log )(β0为常数项,β1,β2,…,βk 分别为k 个自变量的回归系数。
因此,logistic 模型为:kk k k x x x x x x P P e e e e P f ββββββββ+++++++++=+= 221102211011)(10.2 模型的stata 程序Stata 有两个命令可进行二元logistic 回归分析:logit 和logistic 。
其分析的结果的实质是一样的。
但输出的结果的表现形式有所不同。
前者提供参数估计,后者提供发生比。
Logit 命令:Logit 因变量 变量1 变量2… 变量m/*二元非线性回归的基本命令,输出回归系数*/Logistic 命令:logistic 因变量 变量1 变量2… 变量m/*二元非线性回归的基本命令,输出发生比*/lfit/* lfit 是模型适定性诊断命令*/clogit 因变量 变量1 变量2… 变量m ,strata(配对编号变量) [or]/* clogit 是条件logistic 回归命令*/10.3 关于股利政策的logit 模型及解释use E:\stata\logit.dta/*打开stata 数据集*/(1)logit 命令. logit cashdum roa td size lagcashdum growth cg12 firstIteration 0: log likelihood = -753.6759Iteration 1: log likelihood = -464.64549Iteration 2: log likelihood = -413.47149Iteration 3: log likelihood = -384.32824Iteration 4: log likelihood = -376.73079Iteration 5: log likelihood = -376.20593Iteration 6: log likelihood = -376.20303Logistic regression Number of obs = 1116 LR chi2(7) = 754.95 Prob > chi2 = 0.0000 Log likelihood = -376.20303 Pseudo R2 = 0.5008------------------------------------------------------------------------------cashdum | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+----------------------------------------------------------------roa | 36.27163 3.999394 9.07 0.000 28.43296 44.11029 td | -.3322466 .4976051 -0.67 0.504 -1.307535 .6430414 size | .1079257 .0839493 1.29 0.199 -.0566119 .2724633 lagcashdum | 2.815261 .2006755 14.03 0.000 2.421944 3.208578growth | .4252429 .2686294 1.58 0.113 -.1012611 .9517469 cg12 | .1585007 .0477705 3.32 0.001 .0648722 .2521292 first | 1.665727 .5831852 2.86 0.004 .5227054 2.80875 _cons | -6.445765 1.332788 -4.84 0.000 -9.057982 -3.833548这里,log likelihood 即对数似然值,乘以2即为-2LL ,是模型的估计方法。
在进行逐步回归时,通过比较不同模型的-2LL ,判断模型的拟合程度。
取值越小,模型的适应性越好;取值越大,模型的效果越差。
Number of obs 是我们所使用的样本量。
LR chi2(7)即为卡方检验统计量,也就是回归模型无效假设(即所有协变量的发生比均为1)所对应的似然比检验量,其中的(7)为自由度,Prob > chi2是模型无效假设检验对应的P 值。
这两个指标与线性回归的F 统计量和其P 值的功能大体一致。
0.0000数值表明,该模型是显著的。
另一个统计量Pseudo R2是伪决定系数R 2。
虽不完全等于R 2,但大致提供模型中自变量对因变量变异的解释能力。
Coef.是每个自变量对应的系数估计。
在logistic 回归分析中,该系数为对数;Std.Err 即系数对应的标准误;OLS 通过t 检验来判断自变量对因变量的影响是否显著,logistic 模型使用z 检验来达到该目的。
因此,z 是单个系数检验的统计量;P>|z|是系数检验的P 值;最后两列为系数95%的置信区间。
二元logit 回归分析中系数的解释与多元线性回归分析中回归系数的解释并无不同,βi 表示,x i 改变一个单位时,logitP 的平均变化量。
Logit 回归中的常数项(β0)表示,在不接触任何潜在危险(或保护因素)条件下,因变量发生与不发生的概率之比的对数值。
Logit 回归中的回归系数(βi )表示,某一自变量改变一单位时,因变量发生与不发生时间的概率之比的对数变化值,即发生比(Odds Ratio )的对数值。
由于系数为对数,故不能像线性回归那样将其直接解释为自变量对因变量的影响程度。
只有将其转换为风险比后,系数才更有明确的意义。
比如,分析结果显示,size (单位为千元)的回归系数为0.11。
但我们不能将系数解释为size 每增加一单位,发放股利的概率增加11%。
事实上,我们并不知道规模对股利发放概率的影响程度,虽然我们知道其影响性质和显著水平。
就变量lagcashdum 来说,上期发放股利的公司的概率高于上期不发放股利的公司,但我们并不知道二者之间的差别有多大。
当自变量为连续性变量时(如size ),e (βi )表示xi 增加一个计量单位的对数比;当自变量为二分类变量时(如:lagcashdum ),发生/是=1,不发生/否=0,则logistic 回归中的系数即为是/否的对数值。
若上面的系数转化为风险比(Odds Ratio ),则可直接比较组间差异以及自变量对因变量的影响程度。
转化公式为:)1/()1/(0011p p p p OR --= (2)logistic 命令Stata 另外一个命令可以直接输出风险比:. logistic cashdum roa td size2 lagcashdum growth cg12 firstLogistic regression Number of obs = 1116LR chi2(7) = 754.95Prob > chi2 = 0.0000Log likelihood = -376.20303 Pseudo R2 = 0.5008------------------------------------------------------------------------------cashdum | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval] -------------+----------------------------------------------------------------td | .7173104 .3569373 -0.67 0.504 .2704861 1.902258 size2 | 1.113965 .0935166 1.29 0.199 .9449608 1.313195 lagcashdum | 16.69753 3.350786 14.03 0.000 11.26774 24.74386 growth | 1.529962 .4109928 1.58 0.113 .903697 2.590231cg12 | 1.171753 .0559752 3.32 0.001 1.067023 1.286762first | 5.28952 3.08477 2.86 0.004 1.686584 16.58916roa | 5.66e+15 2.26e+16 9.07 0.000 2.23e+12 1.44e+19 ------------------------------------------------------------------------------Odds Ratio为自变量各自对应的风险比;Std.Err.即相应的风险比的标准差;z是单个风险比=1检验的z统计量;P>|z|是耽搁风险比=1检验的P值;最后两列为95%的置信区间。