调查数据分析二元Logistic回归课件
合集下载
二元Logistic回归
p 1 e 1 ( 1x12x2 3x3 4x4 5x5 6x6 )
16
根据下表,可写出经验回归方程:(此处保留一位 小数)
1 p 1 e(10.414.7 x12.6 x2 1.6x3 0.004x4 0.005x5 0.5x6 )
其中p表示“企业信誉好的概率”
Variables in the Equation
Satep x1
1
x2
B 14.674 -2.613
S.E. 3.588 1.368
Wal d 16.723
3.651
x3
.158
.218
.528
x4
.004
.004
1.212
x5
-.005
.379
.000
x6
.538
.240
5.015
Constant -10.397
4.926
4.455
a. Variable(s) entered on step 1: x1, x2, x3, x4, x5, x6.
292.375a
.156
Na ge l ke rke R Square
.229
a. Estimation terminated at iteration number 6 because parameter estimates changed by less than .001.
15
将回归系数输出结果带入下述公式
两分类预测
8
例1:企业商业信誉影响因素
根据有关理论,我们提出如下假设: 假设1:企业商业信誉与其盈利能力正相关 假设2:企业商业信誉与其负债率负相关 变量选取: 因变量y,1为信誉好,0为信誉坏 自变量X1至x6定义如下 X1——盈利能力(净资产收益率) X2——资产负债率 X3——流动比率 X4——应收账款周转率 X5——总资产周转率 X6——总资产对数 (其中X3至X6为控制变量)
16
根据下表,可写出经验回归方程:(此处保留一位 小数)
1 p 1 e(10.414.7 x12.6 x2 1.6x3 0.004x4 0.005x5 0.5x6 )
其中p表示“企业信誉好的概率”
Variables in the Equation
Satep x1
1
x2
B 14.674 -2.613
S.E. 3.588 1.368
Wal d 16.723
3.651
x3
.158
.218
.528
x4
.004
.004
1.212
x5
-.005
.379
.000
x6
.538
.240
5.015
Constant -10.397
4.926
4.455
a. Variable(s) entered on step 1: x1, x2, x3, x4, x5, x6.
292.375a
.156
Na ge l ke rke R Square
.229
a. Estimation terminated at iteration number 6 because parameter estimates changed by less than .001.
15
将回归系数输出结果带入下述公式
两分类预测
8
例1:企业商业信誉影响因素
根据有关理论,我们提出如下假设: 假设1:企业商业信誉与其盈利能力正相关 假设2:企业商业信誉与其负债率负相关 变量选取: 因变量y,1为信誉好,0为信誉坏 自变量X1至x6定义如下 X1——盈利能力(净资产收益率) X2——资产负债率 X3——流动比率 X4——应收账款周转率 X5——总资产周转率 X6——总资产对数 (其中X3至X6为控制变量)
logistic回归分析PPT优秀课件
(2)线性回归分析:由于因变量是分类变量,不能满足 其正态性要求;有些自变量对因变量的影响并非线性。
2
logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研 究某个二分类(或无序及有序多分类)目标变量与有关因素的关 系。
logistic回归的分类: (1)二分类资料logistic回归: 因变量为两分类变量的资料,可用
非条件logistic回归和条件logistic回归进行分析。非条件logistic回 归多用于非配比病例-对照研究或队列研究资料,条件logistic回归 多用于配对或配比资料。 (2)多分类资料logistic回归: 因变量为多项分类的资料,可用多 项分类logistic回归模型或有序分类logistic回归模型进行分析。
比较
调查方向:收集回顾性资料
人数 暴露
疾病
a/(a+b) c/(c+d)
a
+
b
-
病例
c
病例对照原理示意图
6
是否暴露 暴露组 未暴露组 合计
病例 a c a+c
对照 b d b+d
合计 a+b(n1) c+d(n2) n
比数比(odds ratio、OR):病例对照研究中表示疾病与暴露间
联系强度的指标,也称比值比。
相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率 之比。但病例对照研究不能计算发病率,只能计算比值比OR值。 OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组 的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。
OR>1,说明 该因素使疾病的危险性增加,为危险因素;
OR<1,说明 该因素使疾病的危险性减小,为保护因素;
2
logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研 究某个二分类(或无序及有序多分类)目标变量与有关因素的关 系。
logistic回归的分类: (1)二分类资料logistic回归: 因变量为两分类变量的资料,可用
非条件logistic回归和条件logistic回归进行分析。非条件logistic回 归多用于非配比病例-对照研究或队列研究资料,条件logistic回归 多用于配对或配比资料。 (2)多分类资料logistic回归: 因变量为多项分类的资料,可用多 项分类logistic回归模型或有序分类logistic回归模型进行分析。
比较
调查方向:收集回顾性资料
人数 暴露
疾病
a/(a+b) c/(c+d)
a
+
b
-
病例
c
病例对照原理示意图
6
是否暴露 暴露组 未暴露组 合计
病例 a c a+c
对照 b d b+d
合计 a+b(n1) c+d(n2) n
比数比(odds ratio、OR):病例对照研究中表示疾病与暴露间
联系强度的指标,也称比值比。
相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率 之比。但病例对照研究不能计算发病率,只能计算比值比OR值。 OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组 的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。
OR>1,说明 该因素使疾病的危险性增加,为危险因素;
OR<1,说明 该因素使疾病的危险性减小,为保护因素;
《多元Logistic回归》课件
交叉验证是一种评估模型泛化能力的手段,通过将数据集 分成训练集和验证集,反复训练和验证模型,以获得更可 靠的评估结果。常用的交叉验证方法有k-fold交叉验证、 留出交叉验证等。
03
多元Logistic回归的实现步 骤
数据预处理:特征选择、缺失值处理等
特征选择
选择与目标变量相关的特征,去除无关 或冗余特征,提高模型的预测性能。
多元Logistic回归与一元Logistic回归的区别
一元Logistic回归只涉及一个自变量,而多元 Logistic回归涉及多个自变量。
多元Logistic回归能够同时处理多个特征,更准确 地描述数据的复杂关系,提高预测精度。
多元Logistic回归需要更多的数据和计算资源,因 为需要迭代计算每个特征与因变量言 • 多元Logistic回归的原理 • 多元Logistic回归的实现步骤 • 多元Logistic回归的优缺点 • 多元Logistic回归的案例分析 • 总结与展望
01
引言
多元Logistic回归的定义
多元Logistic回归是一种用于处理分 类问题的统计方法,它通过将多个自 变量与因变量之间的关系转换为概率 形式,从而对因变量进行预测。
结果。
它能够提供每个类别的预测概率 ,这在某些情况下非常有用,例 如在医学诊断中确定疾病的风险
。
多元Logistic回归在处理分类问 题时具有较高的预测精度和稳定
性。
缺点
多元Logistic回归对数据的分布 假设较为严格,通常要求数据 呈正态分布或近似正态分布。
它还假设自变量与因变量之间 存在线性关系,这在某些情况 下可能不成立,导致模型的预
案例三:用户点击率预测
总结词
用户点击率预测是多元Logistic回归在互联 网广告领域的典型应用,通过分析用户行为 和广告特征,预测用户是否会点击广告。
《logistic回归》课件
03
易于理解和实现: 由于基于逻辑函数,模型输出结 果易于解释,且实现简单。
Logistic回归的优势与不足
• 稳定性好: 在数据量较小或特征维度较高 时,Logistic回归的预测结果相对稳定。
Logistic回归的优势与不足
01
不足:
02
对数据预处理要求高: 需要对输入数据进行标准化或归一化处理,以 避免特征间的尺度差异对模型的影响。
模型假设
01
线性关系
因变量与自变量之间存在线性关系 。
无自相关
因变量与自变量之间不存在自相关 。
03
02
无多重共线性
自变量之间不存在多重共线性,即 自变量之间相互独立。
随机误差项
误差项是独立的,且服从二项分布 。
04
模型参数求解
最大似然估计法
通过最大化似然函数来求解模型参数。
梯度下降法
通过最小化损失函数来求解模型参数。
特征选择与降维
在处理大数据集时,特征选择和降维是提高模 型性能和可解释性的重要手段。
通过使用诸如逐步回归、LASSO回归等方法, 可以自动选择对模型贡献最大的特征,从而减 少特征数量并提高模型的泛化能力。
降维技术如主成分分析(PCA)可以将高维特 征转换为低维特征,简化数据结构并揭示数据 中的潜在模式。
迭代法
通过迭代的方式逐步逼近最优解。
牛顿法
利用牛顿迭代公式求解模型参数。
模型评估指标
准确率
正确预测的样本数占总样本数的比例 。
精度
预测为正例的样本中实际为正例的比 例。
召回率
实际为正例的样本中被预测为正例的 比例。
F1分数
精度和召回率的调和平均数,用于综 合评估模型性能。
易于理解和实现: 由于基于逻辑函数,模型输出结 果易于解释,且实现简单。
Logistic回归的优势与不足
• 稳定性好: 在数据量较小或特征维度较高 时,Logistic回归的预测结果相对稳定。
Logistic回归的优势与不足
01
不足:
02
对数据预处理要求高: 需要对输入数据进行标准化或归一化处理,以 避免特征间的尺度差异对模型的影响。
模型假设
01
线性关系
因变量与自变量之间存在线性关系 。
无自相关
因变量与自变量之间不存在自相关 。
03
02
无多重共线性
自变量之间不存在多重共线性,即 自变量之间相互独立。
随机误差项
误差项是独立的,且服从二项分布 。
04
模型参数求解
最大似然估计法
通过最大化似然函数来求解模型参数。
梯度下降法
通过最小化损失函数来求解模型参数。
特征选择与降维
在处理大数据集时,特征选择和降维是提高模 型性能和可解释性的重要手段。
通过使用诸如逐步回归、LASSO回归等方法, 可以自动选择对模型贡献最大的特征,从而减 少特征数量并提高模型的泛化能力。
降维技术如主成分分析(PCA)可以将高维特 征转换为低维特征,简化数据结构并揭示数据 中的潜在模式。
迭代法
通过迭代的方式逐步逼近最优解。
牛顿法
利用牛顿迭代公式求解模型参数。
模型评估指标
准确率
正确预测的样本数占总样本数的比例 。
精度
预测为正例的样本中实际为正例的比 例。
召回率
实际为正例的样本中被预测为正例的 比例。
F1分数
精度和召回率的调和平均数,用于综 合评估模型性能。
Logistic回归分析(共53张PPT)
数值。
• 优势比
• 常把出现某种结果的概率与不出现的概率 之比称为比值(odds),即odds=p/1-p。两个
比值之比称为比值比(Odds Ratio),简称 OR。
• Logistic回归中的常数项(b0)表示,在不
接触任何潜在危险/保护因素条件下,效 应指标发生与不发生事件的概率之比的对 数值。
Forward: LR ( 向前逐步法:似然比 法 likelihood ratio,LR)→ 再击下 方的 Save 钮,将 Predicted values 、 Influence 与 Residuls 窗口中的 预选项全勾选 → Continue → 再击 下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似 然函数变化来进行,其统计量为G (又 称Deviance)。
G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度
为待检验因素个数的2分布。
• 比分检验(score test)
, Logistic回归系数的解释变得更为复杂 ,应特别小心。
根据Wald检验,可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归 其中, 为常数项, 为偏回归系数。 应变量水平数大于2,且水平之间不存在等级递减或递增的关系时,对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布,即为标准正态离差。
• 优势比
• 常把出现某种结果的概率与不出现的概率 之比称为比值(odds),即odds=p/1-p。两个
比值之比称为比值比(Odds Ratio),简称 OR。
• Logistic回归中的常数项(b0)表示,在不
接触任何潜在危险/保护因素条件下,效 应指标发生与不发生事件的概率之比的对 数值。
Forward: LR ( 向前逐步法:似然比 法 likelihood ratio,LR)→ 再击下 方的 Save 钮,将 Predicted values 、 Influence 与 Residuls 窗口中的 预选项全勾选 → Continue → 再击 下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似 然函数变化来进行,其统计量为G (又 称Deviance)。
G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度
为待检验因素个数的2分布。
• 比分检验(score test)
, Logistic回归系数的解释变得更为复杂 ,应特别小心。
根据Wald检验,可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归 其中, 为常数项, 为偏回归系数。 应变量水平数大于2,且水平之间不存在等级递减或递增的关系时,对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布,即为标准正态离差。
logistic回归(共36张PPT)
二分类自变量 系数为比数比的对数值,由此比数比=eb
多分类自变量 以第i类作参照,比较相邻或相隔的两个类别。
连续型自变量 当自变量改变一个单位时,比数比为eb
2022/11/3
27
输出结果的解释
模型拟合的优劣
自变量与结果变量(因变量)有无关系
确认因变量与自变量的编码 模型包含的各个自变量的临床意义 由模型回归系数计算得到的各个自变 量的比数比的临床意义
3
一般直线回归难以解决的问题
医学数据的复杂、多样
连续型和离散型数据
医学研究中疾病的复杂性
一种疾病可能有多种致病因素或与多种危 险因素有关
疾病转归的影响因素也可能多种多样 临床治疗结局的综合性
2022/11/3
4
简单的解决方法
固定其他因素,研究有影响的一两个因 素; 分层分析:按1~2个因素组成的层进行 层内分析和综合。 统计模型
2022/11/3
28
输出结果的解释
模型的预测结果的评价
敏感度、特异度和阳性预测值
正确选择预测概率界值,简单地以0.5为 界值,但并不是最好的。
C指数
预测结果与观察结果的一致性的度量。 C值越大(最大为1),模型预测结果的
能力越强。
2022/11/3
29
非条件logistic回归
研究对象之间是否发生某事件是 独立的。 适用于:
放入所有变量,再逐个筛选
理论上看,前进法选择变量的经验公式缺乏总体概念,当用于因
素分析时,建议用后退法。当变量间有完全相关性时,后退法无 法使用,可用前进法。
2022/11/3
21
5.交互作用的引入
交互作用的定义
当自变量和因变量的关系随第三个变量 的变化而改变时,则存在交互作用
多分类自变量 以第i类作参照,比较相邻或相隔的两个类别。
连续型自变量 当自变量改变一个单位时,比数比为eb
2022/11/3
27
输出结果的解释
模型拟合的优劣
自变量与结果变量(因变量)有无关系
确认因变量与自变量的编码 模型包含的各个自变量的临床意义 由模型回归系数计算得到的各个自变 量的比数比的临床意义
3
一般直线回归难以解决的问题
医学数据的复杂、多样
连续型和离散型数据
医学研究中疾病的复杂性
一种疾病可能有多种致病因素或与多种危 险因素有关
疾病转归的影响因素也可能多种多样 临床治疗结局的综合性
2022/11/3
4
简单的解决方法
固定其他因素,研究有影响的一两个因 素; 分层分析:按1~2个因素组成的层进行 层内分析和综合。 统计模型
2022/11/3
28
输出结果的解释
模型的预测结果的评价
敏感度、特异度和阳性预测值
正确选择预测概率界值,简单地以0.5为 界值,但并不是最好的。
C指数
预测结果与观察结果的一致性的度量。 C值越大(最大为1),模型预测结果的
能力越强。
2022/11/3
29
非条件logistic回归
研究对象之间是否发生某事件是 独立的。 适用于:
放入所有变量,再逐个筛选
理论上看,前进法选择变量的经验公式缺乏总体概念,当用于因
素分析时,建议用后退法。当变量间有完全相关性时,后退法无 法使用,可用前进法。
2022/11/3
21
5.交互作用的引入
交互作用的定义
当自变量和因变量的关系随第三个变量 的变化而改变时,则存在交互作用
【精品】Logistic 回归模型及回归分析PPT课件
3
数据分析的背景
• 单因素的分类资料统计分析,一般采用 Pearson 2进行统计检验,用Odds Ratio 及其95%可信区间评价关联程度。
• 考虑多因素的影响,对于反应变量为分 类变量时,用线性回归模型P=a+bx就不 合适了,应选用Logistic回归模型进行统 计分析。
4
Logistic回归模型
Logistic 回归模型及回归分析
1
Logistic 回归模型
2
数据分析的背景
• 计量资料单因素统计分析 – 对于两组计量资料的比较,一般采用t检 验或秩和检验。
– 对于两个变量的相关分析采用Pearson 相关分析或Spearman相关分析
• 考虑多因素的影响,对于应变量(反应变 量)为计量资料,一般可以考虑应用多重 线性回归模型进行多因素分析。
ln(Odds)
ln( P 1 P
)
0
1x1
mxm
10
Logistic回归模型
• 记: log it(P) ln( P ) 1 P
• 故可以写为
log it(P) 0 1x1 m xm
• 也可以写为
P exp(0 1x1 m xm ) 1 exp(0 1x1 m xm )
准正态分布,即:|z|>1.96,P<0.05,拒绝H0
19
实例1:用Logistic模型进行统计分析
• 实例1的回归系数估计为
ˆ1 0.4117232 ˆ0 -7.962891
• se(b)=0.1780719, z=b/se=2.31 ,P=0.021<0.05 拒绝H0,差异有统计学意义,可认为0。
e0
P 1 e0
1 P 1 e0
数据分析的背景
• 单因素的分类资料统计分析,一般采用 Pearson 2进行统计检验,用Odds Ratio 及其95%可信区间评价关联程度。
• 考虑多因素的影响,对于反应变量为分 类变量时,用线性回归模型P=a+bx就不 合适了,应选用Logistic回归模型进行统 计分析。
4
Logistic回归模型
Logistic 回归模型及回归分析
1
Logistic 回归模型
2
数据分析的背景
• 计量资料单因素统计分析 – 对于两组计量资料的比较,一般采用t检 验或秩和检验。
– 对于两个变量的相关分析采用Pearson 相关分析或Spearman相关分析
• 考虑多因素的影响,对于应变量(反应变 量)为计量资料,一般可以考虑应用多重 线性回归模型进行多因素分析。
ln(Odds)
ln( P 1 P
)
0
1x1
mxm
10
Logistic回归模型
• 记: log it(P) ln( P ) 1 P
• 故可以写为
log it(P) 0 1x1 m xm
• 也可以写为
P exp(0 1x1 m xm ) 1 exp(0 1x1 m xm )
准正态分布,即:|z|>1.96,P<0.05,拒绝H0
19
实例1:用Logistic模型进行统计分析
• 实例1的回归系数估计为
ˆ1 0.4117232 ˆ0 -7.962891
• se(b)=0.1780719, z=b/se=2.31 ,P=0.021<0.05 拒绝H0,差异有统计学意义,可认为0。
e0
P 1 e0
1 P 1 e0
《logistic回归模型》课件
方法、模型优化方法及评估指标,并运用实战案例加深了对模型的理解与应
用。
参考资料
- 《统计学习方法》
- 《机器学习实战》
- 《Python机器学习经典实例》
同时,我们使用准确率、精度、召回率、F1-score、ROC和AUC等评估指标来度量模型的效果。
实战案例
让我们利用Logistic回归模型来预测Titanic号上的幸存者。通过数据格式及预处
理、特征工程、模型构建和模型评估等步骤,我们将从实际案例中学习该模
型的应用。
小结
通过本课程,我们深入了解了Logistic回归模型的特点及适用场景、参数估计
() = (^)
参数估计方法
Logistic回归模型的参数估计通常采用极大似然估计。为了最大化似然函数,
我们使用梯度上升算法进行优化,并可以应用L1和L2正则化方法来提高模型
的鲁棒性。
ቤተ መጻሕፍቲ ባይዱ
模型优化方法
为了提高Logistic回归模型的性能,我们可以进行特征工程。这包括数据预处理、特征选择和特征降维等步骤。
《logistic回归模型》PPT
课件
欢迎来到《logistic回归模型》PPT课件。本课程将带你深入了解Logistic回归模
型的应用及优化方法。让我们开始这个令人兴奋的学习之旅吧!
什么是Logistic回归模型
Logistic回归模型是一种适用于二分类问题和非线性分类问题的模型。它假设
数据独立同分布、满足线性和二项分布的特点,并使用如下公式进行建模:
《logistic回归分析》课件
信用卡欺诈检测
应用逻辑回归模型检测信用 卡交易中的欺诈行为,保护 用户利益和减少风险。
电影推荐
利用逻辑回归模型根据用户 的历史行为和偏好进行电影 推荐,提供个性化的影片推 荐。
总结与展望
Logistic回归分析的优点和不足
总结逻辑回归分析的优点和限制,讨论其适用范围和局限性。
发展前景
展望逻辑回归分析在未来的发展趋势和应用领域。
探讨Logistic回归分析在实际问题中的广泛应用。
Logistic回归与线性回归的区别
比较Logistic回归和线性回归之间的差异和适用情况。
逻辑回归模型及其基本假设
1 Sigmoid函数
2 逻辑回归的数学模
型
介绍Sigmoid函数及其在
3 基本假设
描述逻辑回归模型中的
逻辑回归中的作用。
解释逻辑回归的数学模
《logistic回归分析》PPT 课件
介绍logistic回归分析的PPT课件,涵盖课程内容、逻辑回归模型、参数估计与 模型拟合、分类结果与型诊断、实战案例、总结与展望以及参考文献。
课程介绍
什么是Logistic回归分析
介绍Logistic回归分析的基本概念和原理。
Logistic回归分析的应用
• [3]C. Bishop (2006) Pattern recognition and machine learning. Springer.
讨论如何评估逻辑回归模型的分类结果,确定 哪些样本属于正类和负类。
ROC曲线
解释ROC曲线在逻辑回归模型中的作用,用于评 估模型的分类性能。
混淆矩阵
介绍混淆矩阵,用于评估逻辑回归模型的分类 准确性和误判情况。
模型的诊断
logistic回归分析(2)幻灯片PPT
pr(#)是剔除变量的P值 pe(#)是选入变量的P值
例1(成组病例对照研究) 某单位研究胸膜间皮瘤与接触石 棉的关系,资料见下表。试对其进展分析。
组别 间皮瘤病例
对照 合计
表 1 胸膜间皮瘤与接触石棉的关系
以往接触过石棉
未接触过石棉
40
36
9
67
49
103
合计 76 76 152
方法1:卡方检验 方法2:拟合logistic回归模型,即
自变量〔各种影响因素〕 :可以是分类变量,也可 以是连续型变量。
二分类资料的分析
非条件logistic模型:成组病例对照研究资料
条件logistic模型:配比病例对照研究资料
非条件logistic回归模型
l( o p ) 0 + g 1 X 1 + i 2 X = 2 t k X k
------------------------------------------------------------------------------
似然比2 =30.67,P=0.0000,因此可以认为模型有意义。
li o ( p t ) g eo x s p 0 . 6 u 2 r . 1e e 1 1 o x 1 2 s p 8 ur
Number of obs = 152 LR chi2(1) = 30.67 Prob > chi2 = 0.0000
Pseudo R2 = 0.1455
-----------------------------------------------------------------------------case | Coef. Std. Err. z P>|z| [95% Conf. Interval]
例1(成组病例对照研究) 某单位研究胸膜间皮瘤与接触石 棉的关系,资料见下表。试对其进展分析。
组别 间皮瘤病例
对照 合计
表 1 胸膜间皮瘤与接触石棉的关系
以往接触过石棉
未接触过石棉
40
36
9
67
49
103
合计 76 76 152
方法1:卡方检验 方法2:拟合logistic回归模型,即
自变量〔各种影响因素〕 :可以是分类变量,也可 以是连续型变量。
二分类资料的分析
非条件logistic模型:成组病例对照研究资料
条件logistic模型:配比病例对照研究资料
非条件logistic回归模型
l( o p ) 0 + g 1 X 1 + i 2 X = 2 t k X k
------------------------------------------------------------------------------
似然比2 =30.67,P=0.0000,因此可以认为模型有意义。
li o ( p t ) g eo x s p 0 . 6 u 2 r . 1e e 1 1 o x 1 2 s p 8 ur
Number of obs = 152 LR chi2(1) = 30.67 Prob > chi2 = 0.0000
Pseudo R2 = 0.1455
-----------------------------------------------------------------------------case | Coef. Std. Err. z P>|z| [95% Conf. Interval]
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
许多社会科学的观察都只分类而不是连续 的.比如,政治学中经常研究的是否选举某 候选人;经济学研究中所涉及的是否销售或 购买某种商品、是否签订一个合同等等.这 种选择量度通常分为两类,即“是’与 “否”. 在社会学和人口研究中,人们的社 会行为与事件的发生如犯罪、逃学、迁移、 结婚、离婚、患病等等都可以按照二分类变 量来测量。
学习交流PPT
17
Logistic回归模型估计:极大 似然估计
• 最小二乘估计(OLS):
根据线性回归模型,选择参数估计值,使得模
型的估计值与真值的离差平方和最小。 • 极大似然估计( MLE ):
选择使得似然函数最大的参数估计值。
学习交流PPT
18
Logistic回归模型估计:极大 似然估计
假 设 n个 样 本 观 测 值 y1,y2, ,yn,得 到 一 个 观 察 值 的 概 率 为
学习交流PPT
2
目的:作出以多个自变量估计因变量的 logistic回归方程。属于概率型非线性回归。
资料:1. 因变量为反映某现象发生与不发 生的二值变量;2. 自变量宜全部或大部 分为分类变量,可有少数数值变量。分 类变量要数量化。
用途:研究哪些变量影响因变量,影响程 度方向、大小等。
学习交流PPT
学习交流PPT
10
回归建模——二元Logistic回 归模型
1、发生概率p的大小取值范围[0,1],p与自 变量的关系难以用多元线性模型来描述。
2、当p接近0或者1时,p值的微小变化用普 通的方法难以发现和处理好。
总:能不能找到一个p的严格单调函数Q, 就会比较方便;同时要求Q对在p=0或p=1 的附近的微小变化很敏感。
例:在一次有关公共交通的调查中, 一个调查项目为“是乘坐公交车上下班, 还是骑自行车上下班”。因变量有两个取 值,当取值为1,乘坐公交车上下班;取值 为0,骑自行车上下班。
学习交流PPT
5
回归建模——二元Logistic回归模型
学习交流PPT
6
回归建模——二元Logistic回归模型
自变量(解释变量): X1:年龄,取值从18到58; X2:月收入(元),取值850、950、 1000 、 1200、1300、 1500、 1800、 2100; X3:性别,取值为1,表示男性;取 值为0,表示女性。
PYyipiyi 1pi1yi
其 中 yi取 值 为 0或 者 1
由于各项观L测相互独n立,piy其i 1联合p分i 1布yi为: i1
学习交流PPT
19
Logistic回归模型估计:极大 似然估计
• 求似然函数的极大值
ln L(θ ) ln n piyi(1 pi )1 yi
i1
logit(p)ln( p ) 1p
机会比(odds)
p (Y 1 |X )
ln (1 p (Y 1 |X ))01 X 12 X 23 X 3
(取值范围-∞~+∞)
学习交流PPT
14
logistic回归模型
• Logistic回归模型:
lo ( p ) g0 + i1 t X = 1 + 2 X 2 k X k
(3)logistic回归中无相同分布的假设
(4)logistic回归没有关于自变量“分布”的假设(离 散,连续,虚拟)
学习交流PPT
16
Logistic回归模型估计:极大 似然估计
多元回归采用最小二乘估计,使因变量的 真实值和预测值差异值的平方和最小化; Logistic变换的非线性特征使得在估计模型的 时候采用极大似然估计的迭代方法,找到 系数的“最可能”的估计,在计算整个模型 拟合度时,采用似然值。
p ( Y 1 |X ) 0 1 X 1 2 X 2 3 X 3
(取值范围0~1)
学习交流PPT
9
线性回归模型的基本假定: (1)随机误差项具有0均值: (2)随机误差项具有同方差: (3)随机误差项在不同样本点之间是独立的,不存
在序列相关: (4)随机误差项与解释变量(自变量)之间不相关: (5)随机误差项服从0均值、同方差的正态分布
ln
n
p
yi i
(
1
pi
) yi(1
pi
)
i1
ln p 1p
β0
学习交流PPT
11
回归建模——二元Logistic回 归模型
Qln p 1p
pLogit变换Q取值范围为,
学习交流PPT
12
回归建模——二元Logistic回 归模型
0.8
0.6 pP
0.4
0.2
-4
-2
0
2
4
Logiyt(P)
学习交流PPT
13
回归建模——二元Logistic回 归模型
• 建立logit(p)与X的多元线性回归模型优: 势比(odds)
学习交流PPT
1
分类变量分析通常采用对数线性模型 (Log-linear model), 而因变量为二分变量时, 对数线性模型就变成Logistic回归模型.
logistic回归是一个概率型模型,因此 可以利用它预测某事件发生的概率。例如 在可以根据消费者的一些特征,判断购买 某项产品概率有多大。
3
Logistic回归模型
• 一.模型的引进 • 二.Logistic回归模型估计 • 三. Logistic回归模型的评价 • 四. Logistic回归系数的统计推断 • 五. Logistic回归诊断
学习交流PPT
4
回归建模——二元Logistic回归模型
当虚拟变量作为因变量,虚拟变量有 两个取值,可使用二元Logistic回归。
01X1+ 2X2+ + kXk
p1ee01X12X2 kXk
1 p1e ( 01X1+ 2X2+ + kXk)
学习交流PPT
15
Logistic回归模型估计:极大 似然估计
Logistic回归模型估计的假设条件与OLS的不同
(1)logistic回归的因变量是二分类变量
(2)logistic回归的因变量与自变量之间的关系是非线 性的
学习交流PPT
7
回归建模——二元Logistic回 归模型
研究目的:X2,X3等因素对因变量 (使用什么交通方式)有无影响?
建立Y与X的多元线性回归模型?
Y ˆ01X 12X 23X 3
(取值0和1)
学习交流PPT
8
回归建模——二元Logistic回 归模型
建立p(Y=1|X)与X的多元线性回归模型?
学习交流PPT
17
Logistic回归模型估计:极大 似然估计
• 最小二乘估计(OLS):
根据线性回归模型,选择参数估计值,使得模
型的估计值与真值的离差平方和最小。 • 极大似然估计( MLE ):
选择使得似然函数最大的参数估计值。
学习交流PPT
18
Logistic回归模型估计:极大 似然估计
假 设 n个 样 本 观 测 值 y1,y2, ,yn,得 到 一 个 观 察 值 的 概 率 为
学习交流PPT
2
目的:作出以多个自变量估计因变量的 logistic回归方程。属于概率型非线性回归。
资料:1. 因变量为反映某现象发生与不发 生的二值变量;2. 自变量宜全部或大部 分为分类变量,可有少数数值变量。分 类变量要数量化。
用途:研究哪些变量影响因变量,影响程 度方向、大小等。
学习交流PPT
学习交流PPT
10
回归建模——二元Logistic回 归模型
1、发生概率p的大小取值范围[0,1],p与自 变量的关系难以用多元线性模型来描述。
2、当p接近0或者1时,p值的微小变化用普 通的方法难以发现和处理好。
总:能不能找到一个p的严格单调函数Q, 就会比较方便;同时要求Q对在p=0或p=1 的附近的微小变化很敏感。
例:在一次有关公共交通的调查中, 一个调查项目为“是乘坐公交车上下班, 还是骑自行车上下班”。因变量有两个取 值,当取值为1,乘坐公交车上下班;取值 为0,骑自行车上下班。
学习交流PPT
5
回归建模——二元Logistic回归模型
学习交流PPT
6
回归建模——二元Logistic回归模型
自变量(解释变量): X1:年龄,取值从18到58; X2:月收入(元),取值850、950、 1000 、 1200、1300、 1500、 1800、 2100; X3:性别,取值为1,表示男性;取 值为0,表示女性。
PYyipiyi 1pi1yi
其 中 yi取 值 为 0或 者 1
由于各项观L测相互独n立,piy其i 1联合p分i 1布yi为: i1
学习交流PPT
19
Logistic回归模型估计:极大 似然估计
• 求似然函数的极大值
ln L(θ ) ln n piyi(1 pi )1 yi
i1
logit(p)ln( p ) 1p
机会比(odds)
p (Y 1 |X )
ln (1 p (Y 1 |X ))01 X 12 X 23 X 3
(取值范围-∞~+∞)
学习交流PPT
14
logistic回归模型
• Logistic回归模型:
lo ( p ) g0 + i1 t X = 1 + 2 X 2 k X k
(3)logistic回归中无相同分布的假设
(4)logistic回归没有关于自变量“分布”的假设(离 散,连续,虚拟)
学习交流PPT
16
Logistic回归模型估计:极大 似然估计
多元回归采用最小二乘估计,使因变量的 真实值和预测值差异值的平方和最小化; Logistic变换的非线性特征使得在估计模型的 时候采用极大似然估计的迭代方法,找到 系数的“最可能”的估计,在计算整个模型 拟合度时,采用似然值。
p ( Y 1 |X ) 0 1 X 1 2 X 2 3 X 3
(取值范围0~1)
学习交流PPT
9
线性回归模型的基本假定: (1)随机误差项具有0均值: (2)随机误差项具有同方差: (3)随机误差项在不同样本点之间是独立的,不存
在序列相关: (4)随机误差项与解释变量(自变量)之间不相关: (5)随机误差项服从0均值、同方差的正态分布
ln
n
p
yi i
(
1
pi
) yi(1
pi
)
i1
ln p 1p
β0
学习交流PPT
11
回归建模——二元Logistic回 归模型
Qln p 1p
pLogit变换Q取值范围为,
学习交流PPT
12
回归建模——二元Logistic回 归模型
0.8
0.6 pP
0.4
0.2
-4
-2
0
2
4
Logiyt(P)
学习交流PPT
13
回归建模——二元Logistic回 归模型
• 建立logit(p)与X的多元线性回归模型优: 势比(odds)
学习交流PPT
1
分类变量分析通常采用对数线性模型 (Log-linear model), 而因变量为二分变量时, 对数线性模型就变成Logistic回归模型.
logistic回归是一个概率型模型,因此 可以利用它预测某事件发生的概率。例如 在可以根据消费者的一些特征,判断购买 某项产品概率有多大。
3
Logistic回归模型
• 一.模型的引进 • 二.Logistic回归模型估计 • 三. Logistic回归模型的评价 • 四. Logistic回归系数的统计推断 • 五. Logistic回归诊断
学习交流PPT
4
回归建模——二元Logistic回归模型
当虚拟变量作为因变量,虚拟变量有 两个取值,可使用二元Logistic回归。
01X1+ 2X2+ + kXk
p1ee01X12X2 kXk
1 p1e ( 01X1+ 2X2+ + kXk)
学习交流PPT
15
Logistic回归模型估计:极大 似然估计
Logistic回归模型估计的假设条件与OLS的不同
(1)logistic回归的因变量是二分类变量
(2)logistic回归的因变量与自变量之间的关系是非线 性的
学习交流PPT
7
回归建模——二元Logistic回 归模型
研究目的:X2,X3等因素对因变量 (使用什么交通方式)有无影响?
建立Y与X的多元线性回归模型?
Y ˆ01X 12X 23X 3
(取值0和1)
学习交流PPT
8
回归建模——二元Logistic回 归模型
建立p(Y=1|X)与X的多元线性回归模型?