多元统计分析06 逻辑回归
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
人造黄油购买者{y=1} 受访者 k
1 2 3 4 5 6 7 8 9 10 11 12
人造黄油未购买者{y=0} 受访者 k
13 14 15 16 17 18 19 20 21 22 23 24
可涂抹 性X1k
2 3 6 4 3 4 3 2 5 3 3 4
保质期 X2k
3 4 5 4 2 7 5 4 6 6 3 5
P
k
( y 1)
1 1 e zk
分析过程
逻辑回归分析可分为五个步骤: (1)建模 (2)估计逻辑回归函数 (3)解释回归系数 (4)检验模型整体 (5)检验特征变量
(1)建模 逻辑回归分析的前提也是使用者首先 根据实施逻辑思考确定,哪些事件应 作为可能的因变量类型,哪些影响量 决定事件类型的概率,从而提出关于 自变量和因变量可能关系的假设 自变量和事件{y=1}的出现概率间的连 带关系假设
1 ,当 y 1时 zk k 1 e P k ( y) 1 1,当 y 0时 k 1 zk e
合成一个方程: P ( y) (
k
(1) ) zk zk 1e 1e
1
yk
1
1 y k
似然函数:
K
L (
k 1
K
(1) ) 1e z k 1e z k
可能性比 联合影响量 出现概率 自变量 P(y=1)/P(y=0) Logit 线性组合 指数连接 Z 逻辑连接
xj
z
e
P(y=1)
二元逻辑回归:因变量是二元的,即 只有0和1两个水平; 因变量多于两类的,多元逻辑回归分 析 自变量也称为共变量,可以是基数测 度和非基数测度,也可“混合”
数据
2
Pr ess ' s
Q
K (G 1)
K : 样本容量 G : 组个数 a : 正确分类的元素比例
Pr ess ' s
[24 (24 2 0.833)] Q
24 (2 1)
2
=10.67
取α=0.05,查得临界值为3.84,故该 分类结果与随机分类结果有显著差别
重要模型拟合度评价指标总结
把出现概率Pk(y=1)>0.5的个体分入人造黄 油的购买者(M),其他分入未购买者(N)
分类矩阵(Confusion-Matrix)
观察值 预测值 购买与否 购买 不购买 10 2 2 10 百分比校 正 83.3 83.3 83.3
购买 不购买 总百分比
判对比例(hit ratio)=判对数目/总数 =20/24=0.833
RESID
k
y P ( y)
k k
通常认为残差绝对值大于0.5(两组 情况下)为离群者,并导致分类错误 为了更好地辨认出此类离群者,采用 一种加权方法,标准化残差:
Z Re sid k y P ( y 1) P ( y 1) [1 P ( y
k k k k
1)]
可涂抹 性x1k
5 4 7 3 4 5 4 5 6 5 6 6
保质期 x2k
4 3 5 3 4 2 2 5 7 3 4 6
(2)估计逻辑回归函数 通常用极大似然估计法估计模型的参 数,目的是使观察到的调查数据的概 率最大,来确定反映自变量权重的逻 辑回归模型参数bj 若对每个观察个体k考虑如下关系式:
发生比说明了变量对出现概率的影响 程度,发生比也称为效应系数
正、负回归系数对事件{y=1}的出现概率 的影响:
b 效应系数 Logit exp(b) ( z)
eb>1 eb<1 增加b 增加b
b>0 b<0
P(y=1) 发生比 [P(y=1)/P(y=0 )] 增大eb倍 增加
增大eb倍 降低
(4)检验模型整体 需要回答两个问题:参数估计在整 体中能多有效地描述定义的回归模 型?是否存在极端观察个体,应把它 看作离群者剔除掉,还是由于其经常 出现而改变模型? 回归方程的评价指标:基于对数似 然函数的评价;伪R2统计量;分 类结果的评价;
如果样本容量允许,把随机样本分成 两个子样本:一个分析样本和一个检 验样本(Holdout-sample)。 分析样本用于估计逻辑回归函数,然 后根据此函数将检验样本中的元素分 类,并计算判对比率;
Press Q检验 该检验统计量服从自由度为1的卡方 分布 [ K ( K Ga)]
Cox&Snell-R2:
L 0 Cox & Snell - R 1 [ ] LV
2
2 K
L0:零模型的似然 LV:完整模型的似然 K:样本容量
Nagelkerke-R2:
Nagel ker ke- R 其中, R max
2
R R 1 ( L 0)
2
2
2 max 2/ K
y通过隐变量 与xj建立联系:
y
k
,当z k 0时; 1 0,当z k 0时;
0
z =
k
+
j 1Leabharlann Baidu
J
x
j
jk
uk
(1)
逻辑函数:
e P 1 e
P
k
z
z
,P
1 1 e
1 1 e
zk
z
( y 1)
(2)
(1)、(2)构成逻辑回归方程。 z值称为Logit
L
0
: 零模型的似然(只含常数)
该值大于0.5时认为模型解释能力非 常好
分类结果评价 将由自变量水平0和1表示的实际观察组属 性与由回归方程算出的概率相比较 通常使用概率0.5作为分类的判别值
y
k
属于{ y 1}组,当P k ( y 1) 0.5 属于{ y 0}组,当P k ( y 1) 0.5
建立逻辑回归方程
例子:超市的销售主管想知道,顾客 收入水平是否对购买新的高级黄油产 品有影响。为此,他选择了12位顾客, 调查他们的月净收入(x)及是否购买了 该类黄油产品 购买记为{y=1},未购买记为{y=0} 调查结果如下:
值表 事件 1 1 1 1 1 1 1 0 0 0 0 0
收入 4000
(5)检验特征变量 似然比检验 LR检验也可用于与简约模型的比较。 分别令一个回归系数为0,构建不同的 简约模型,再写出完整模型(LLV)和 一个简约模型(LLR)的-2倍对数似然 之差 相应的零假设为:H0:回归系数bj的效 应为0;H1:回归系数bj的效应不为0
LL0
给定数据组的零 模型的LL最大值
似然比值检验(LR检验)的假设: H0:所有回归系数都等于0 H1:所有回归系数都不等于0 零模型和完整模型的偏差作为检验统计 量,它近似服从自由度为J(自变量个 数)的卡方分布 在本例中,LL0=30.498,LLv=15.818, 卡方值为14.68;卡方表中值5.99(自 由度2,α =0.05),故模型是显著的
离群者诊断
除了说明逻辑回归方程的整体拟合度 外,单个观察个体对模型整体有效性 有何作用也很重要 逻辑估计的模型关系与调查数据拟合 度不佳的基本原因有两个:模型不 合适;存在许多个体(观察值), 不具有模型所描述的关系,并由于其 特殊的变量水平明显偏离结果;
对于第二种情况,通过确定每个个体 的单独残差可说明在观察中是否存在 “离群者”,对个体k残差如下:
J j
x u
jk
k
z=Logit=ln(发生比)
“可涂抹性”的回归系数为负,该变 量降低了人造黄油的购买概率;“保 质期”的回归系数为正,它对购买概 率产生正向影响; 若自变量增加1单位,则有利于事件 {y=1}的可能性比(发生比)扩大ebj倍
b0b1( x1) b0 b1x b1 b0b1x b1 发生比 b1 e e e e e e e
4200 6000 5200 5500 5100 4800 2700 1800 3200 2500 2600
X Variable 1 Line Fit Plot 2 1
Y
0 -1 0 5000 X Variable 1 10000
Y 预测 Y
购买黄油=-0.749+0.000336×收入
逻辑回归不是要估计二元变量的观察 值,而是要明确这些观察值的出现概 率 通常把状态{y=1}看作“事件y发生”, 而状态{y=0}为“事件不发生” 假设存在一个非经验观察到的隐变量z, 它能对应自变量的状态xj给出因变量y 的二元水平
影响婴儿出生体 两组:体重正常的婴儿、 年龄、种族、孕期检查次数 重的因素 体重偏轻的婴儿
相同点
不同点
逻辑回归
判别分析
都属于结构检验法。 0/1事件也 逻辑回归 逻辑回归的目的 以所观察的影响量作 可看做是 的前提条 根据经验观察结 为自变量,通过回归 两组判别。 件较少, 果推导事件发生 方程计算权重,观察 多元事件 故回归结 概率;判别分析 果更可靠; 是为了获得分类 该权重决定个体实际 同理 结果 属于某组的概率
逻辑回归
概述
现实生活中,有很多诸如需要确定客 户买或不买某种商品、银行客户信用 好或不好等情况 这时,某个事件以多大概率出现和哪 些影响量决定该概率的问题尤为重要 如果用状态1(购买)和0(不买)的 因变量(Y)表示事件,则事件发生的 概率P有如下关系: P(y=0)+P(y=1)=1
由于这类问题的因变量是类别变量, 无法应用回归方程来解决 逻辑回归是通过回归方程,确定概率 的期望值 一种通过分析影响因素,来得到某种 结果的概率 分为二项逻辑回归和多项逻辑回归
逻辑回归的发生比:
1
P( y 1) 发生比(y=1)= 1 P( y 1)
P( y 1) z P(y=1)= e z 1 P( y 1) 1 e
逻辑回归 的Logit:
P( y 1) ln[ ] z ln e 1 P( y 1) P( y 1) l n[ ] 0 1 P( y 1) j 1
1.2 1 0.8
Y=1 Y=0
0 1 2 3 4 5
0.6 0.4
0.2
0 -5 -4 -3 -2 -1
(3)解释回归系数 自变量xj与概率Pk(y=1)间不存在线性 关系,导致回归系数间不能相互比较, 无法直接解释回归系数
常数项只影响逻辑函数的水平位置。 为正时,逻辑函数左移;为负时,逻 辑函数右移 回归系数影响逻辑函数的走向。回归 系数较大时,概率值很快接近逻辑函 数的边缘 负的回归系数使事件{y=1}的概率随x 值增大而减小,而正回归系数则使事 件{y=1}的概率随x值增大而增大
1
yk
1
1 y k max
求解:LL [ y k(
k 1
1
zk
1e
+( (1] ) ) 1 y ) zk 1e
k
1
Newton-Raphson算法
判别准则:Pk>0.5,把个体分入{y=1}; 否则分入{y=0}
确定zk值(Logit)的回归方程: zk=3.528-1.943×可涂抹性k+1.119× 保质期k 将原始数据代入回归方程
对第三位受访者,他购买了人造黄油 {y=1},根据他的评价(可涂抹性=6,保 质期=5),用估计出来的逻辑方程计算出 购买概率为0.073,其标准化残差值为 3.589,明显将该受访者分类错误 必须深入分析离群者的情况,以解释极端 位置的原因,通常考虑如下原因:
(1)受访者回答问题的方式反常,把该观察 值去除; (2)大的残差值表明模型的解释能力差,模 型中未考虑重要影响量,需扩展或修正模型
问题 选择销售方式
因变量
自变量
两组:销售代表、旅行推 客户数、产品可替代性、拜访 销员 次数等19个变量
职场新人从事与 两组:毕业半年后从事与 性别、学制、住房情况、专业、 专业相关的工作 专业相关工作、不相关工 职业培训等15个变量 作
公民的选举行为 三组:联盟党、社民党、 政治态度、民主满意度、工会 民主党 会员、宗教团体等
似然比值检验(Likelihood Ratio Test) 该方法将考虑所有解释变量最大的LL 值与所有自变量的回归系数都为0且仅 考虑常数项时所得出的LL值比较 若两偏差的绝对差较小,则自变量对 区分y水平的贡献小;若偏差绝对差较 大,则认为自变量的解释能力强; LLv
考虑所有解释变 量时LL最大值
伪R2统计量 伪R2统计量试图量化回归模型中已解 释“变化”比例;
McFaddens - R 1
2
LL LL
v 0
通常McF-R2值达到0.2或0.4以上就已 认为模型拟合度良好; LR检验回答了模型显著性以及结果 能够运用到总体的问题,McF-R使自 变量的判别能力总和可用数值表示, 并可在不同模型间相互比较
1 2 3 4 5 6 7 8 9 10 11 12
人造黄油未购买者{y=0} 受访者 k
13 14 15 16 17 18 19 20 21 22 23 24
可涂抹 性X1k
2 3 6 4 3 4 3 2 5 3 3 4
保质期 X2k
3 4 5 4 2 7 5 4 6 6 3 5
P
k
( y 1)
1 1 e zk
分析过程
逻辑回归分析可分为五个步骤: (1)建模 (2)估计逻辑回归函数 (3)解释回归系数 (4)检验模型整体 (5)检验特征变量
(1)建模 逻辑回归分析的前提也是使用者首先 根据实施逻辑思考确定,哪些事件应 作为可能的因变量类型,哪些影响量 决定事件类型的概率,从而提出关于 自变量和因变量可能关系的假设 自变量和事件{y=1}的出现概率间的连 带关系假设
1 ,当 y 1时 zk k 1 e P k ( y) 1 1,当 y 0时 k 1 zk e
合成一个方程: P ( y) (
k
(1) ) zk zk 1e 1e
1
yk
1
1 y k
似然函数:
K
L (
k 1
K
(1) ) 1e z k 1e z k
可能性比 联合影响量 出现概率 自变量 P(y=1)/P(y=0) Logit 线性组合 指数连接 Z 逻辑连接
xj
z
e
P(y=1)
二元逻辑回归:因变量是二元的,即 只有0和1两个水平; 因变量多于两类的,多元逻辑回归分 析 自变量也称为共变量,可以是基数测 度和非基数测度,也可“混合”
数据
2
Pr ess ' s
Q
K (G 1)
K : 样本容量 G : 组个数 a : 正确分类的元素比例
Pr ess ' s
[24 (24 2 0.833)] Q
24 (2 1)
2
=10.67
取α=0.05,查得临界值为3.84,故该 分类结果与随机分类结果有显著差别
重要模型拟合度评价指标总结
把出现概率Pk(y=1)>0.5的个体分入人造黄 油的购买者(M),其他分入未购买者(N)
分类矩阵(Confusion-Matrix)
观察值 预测值 购买与否 购买 不购买 10 2 2 10 百分比校 正 83.3 83.3 83.3
购买 不购买 总百分比
判对比例(hit ratio)=判对数目/总数 =20/24=0.833
RESID
k
y P ( y)
k k
通常认为残差绝对值大于0.5(两组 情况下)为离群者,并导致分类错误 为了更好地辨认出此类离群者,采用 一种加权方法,标准化残差:
Z Re sid k y P ( y 1) P ( y 1) [1 P ( y
k k k k
1)]
可涂抹 性x1k
5 4 7 3 4 5 4 5 6 5 6 6
保质期 x2k
4 3 5 3 4 2 2 5 7 3 4 6
(2)估计逻辑回归函数 通常用极大似然估计法估计模型的参 数,目的是使观察到的调查数据的概 率最大,来确定反映自变量权重的逻 辑回归模型参数bj 若对每个观察个体k考虑如下关系式:
发生比说明了变量对出现概率的影响 程度,发生比也称为效应系数
正、负回归系数对事件{y=1}的出现概率 的影响:
b 效应系数 Logit exp(b) ( z)
eb>1 eb<1 增加b 增加b
b>0 b<0
P(y=1) 发生比 [P(y=1)/P(y=0 )] 增大eb倍 增加
增大eb倍 降低
(4)检验模型整体 需要回答两个问题:参数估计在整 体中能多有效地描述定义的回归模 型?是否存在极端观察个体,应把它 看作离群者剔除掉,还是由于其经常 出现而改变模型? 回归方程的评价指标:基于对数似 然函数的评价;伪R2统计量;分 类结果的评价;
如果样本容量允许,把随机样本分成 两个子样本:一个分析样本和一个检 验样本(Holdout-sample)。 分析样本用于估计逻辑回归函数,然 后根据此函数将检验样本中的元素分 类,并计算判对比率;
Press Q检验 该检验统计量服从自由度为1的卡方 分布 [ K ( K Ga)]
Cox&Snell-R2:
L 0 Cox & Snell - R 1 [ ] LV
2
2 K
L0:零模型的似然 LV:完整模型的似然 K:样本容量
Nagelkerke-R2:
Nagel ker ke- R 其中, R max
2
R R 1 ( L 0)
2
2
2 max 2/ K
y通过隐变量 与xj建立联系:
y
k
,当z k 0时; 1 0,当z k 0时;
0
z =
k
+
j 1Leabharlann Baidu
J
x
j
jk
uk
(1)
逻辑函数:
e P 1 e
P
k
z
z
,P
1 1 e
1 1 e
zk
z
( y 1)
(2)
(1)、(2)构成逻辑回归方程。 z值称为Logit
L
0
: 零模型的似然(只含常数)
该值大于0.5时认为模型解释能力非 常好
分类结果评价 将由自变量水平0和1表示的实际观察组属 性与由回归方程算出的概率相比较 通常使用概率0.5作为分类的判别值
y
k
属于{ y 1}组,当P k ( y 1) 0.5 属于{ y 0}组,当P k ( y 1) 0.5
建立逻辑回归方程
例子:超市的销售主管想知道,顾客 收入水平是否对购买新的高级黄油产 品有影响。为此,他选择了12位顾客, 调查他们的月净收入(x)及是否购买了 该类黄油产品 购买记为{y=1},未购买记为{y=0} 调查结果如下:
值表 事件 1 1 1 1 1 1 1 0 0 0 0 0
收入 4000
(5)检验特征变量 似然比检验 LR检验也可用于与简约模型的比较。 分别令一个回归系数为0,构建不同的 简约模型,再写出完整模型(LLV)和 一个简约模型(LLR)的-2倍对数似然 之差 相应的零假设为:H0:回归系数bj的效 应为0;H1:回归系数bj的效应不为0
LL0
给定数据组的零 模型的LL最大值
似然比值检验(LR检验)的假设: H0:所有回归系数都等于0 H1:所有回归系数都不等于0 零模型和完整模型的偏差作为检验统计 量,它近似服从自由度为J(自变量个 数)的卡方分布 在本例中,LL0=30.498,LLv=15.818, 卡方值为14.68;卡方表中值5.99(自 由度2,α =0.05),故模型是显著的
离群者诊断
除了说明逻辑回归方程的整体拟合度 外,单个观察个体对模型整体有效性 有何作用也很重要 逻辑估计的模型关系与调查数据拟合 度不佳的基本原因有两个:模型不 合适;存在许多个体(观察值), 不具有模型所描述的关系,并由于其 特殊的变量水平明显偏离结果;
对于第二种情况,通过确定每个个体 的单独残差可说明在观察中是否存在 “离群者”,对个体k残差如下:
J j
x u
jk
k
z=Logit=ln(发生比)
“可涂抹性”的回归系数为负,该变 量降低了人造黄油的购买概率;“保 质期”的回归系数为正,它对购买概 率产生正向影响; 若自变量增加1单位,则有利于事件 {y=1}的可能性比(发生比)扩大ebj倍
b0b1( x1) b0 b1x b1 b0b1x b1 发生比 b1 e e e e e e e
4200 6000 5200 5500 5100 4800 2700 1800 3200 2500 2600
X Variable 1 Line Fit Plot 2 1
Y
0 -1 0 5000 X Variable 1 10000
Y 预测 Y
购买黄油=-0.749+0.000336×收入
逻辑回归不是要估计二元变量的观察 值,而是要明确这些观察值的出现概 率 通常把状态{y=1}看作“事件y发生”, 而状态{y=0}为“事件不发生” 假设存在一个非经验观察到的隐变量z, 它能对应自变量的状态xj给出因变量y 的二元水平
影响婴儿出生体 两组:体重正常的婴儿、 年龄、种族、孕期检查次数 重的因素 体重偏轻的婴儿
相同点
不同点
逻辑回归
判别分析
都属于结构检验法。 0/1事件也 逻辑回归 逻辑回归的目的 以所观察的影响量作 可看做是 的前提条 根据经验观察结 为自变量,通过回归 两组判别。 件较少, 果推导事件发生 方程计算权重,观察 多元事件 故回归结 概率;判别分析 果更可靠; 是为了获得分类 该权重决定个体实际 同理 结果 属于某组的概率
逻辑回归
概述
现实生活中,有很多诸如需要确定客 户买或不买某种商品、银行客户信用 好或不好等情况 这时,某个事件以多大概率出现和哪 些影响量决定该概率的问题尤为重要 如果用状态1(购买)和0(不买)的 因变量(Y)表示事件,则事件发生的 概率P有如下关系: P(y=0)+P(y=1)=1
由于这类问题的因变量是类别变量, 无法应用回归方程来解决 逻辑回归是通过回归方程,确定概率 的期望值 一种通过分析影响因素,来得到某种 结果的概率 分为二项逻辑回归和多项逻辑回归
逻辑回归的发生比:
1
P( y 1) 发生比(y=1)= 1 P( y 1)
P( y 1) z P(y=1)= e z 1 P( y 1) 1 e
逻辑回归 的Logit:
P( y 1) ln[ ] z ln e 1 P( y 1) P( y 1) l n[ ] 0 1 P( y 1) j 1
1.2 1 0.8
Y=1 Y=0
0 1 2 3 4 5
0.6 0.4
0.2
0 -5 -4 -3 -2 -1
(3)解释回归系数 自变量xj与概率Pk(y=1)间不存在线性 关系,导致回归系数间不能相互比较, 无法直接解释回归系数
常数项只影响逻辑函数的水平位置。 为正时,逻辑函数左移;为负时,逻 辑函数右移 回归系数影响逻辑函数的走向。回归 系数较大时,概率值很快接近逻辑函 数的边缘 负的回归系数使事件{y=1}的概率随x 值增大而减小,而正回归系数则使事 件{y=1}的概率随x值增大而增大
1
yk
1
1 y k max
求解:LL [ y k(
k 1
1
zk
1e
+( (1] ) ) 1 y ) zk 1e
k
1
Newton-Raphson算法
判别准则:Pk>0.5,把个体分入{y=1}; 否则分入{y=0}
确定zk值(Logit)的回归方程: zk=3.528-1.943×可涂抹性k+1.119× 保质期k 将原始数据代入回归方程
对第三位受访者,他购买了人造黄油 {y=1},根据他的评价(可涂抹性=6,保 质期=5),用估计出来的逻辑方程计算出 购买概率为0.073,其标准化残差值为 3.589,明显将该受访者分类错误 必须深入分析离群者的情况,以解释极端 位置的原因,通常考虑如下原因:
(1)受访者回答问题的方式反常,把该观察 值去除; (2)大的残差值表明模型的解释能力差,模 型中未考虑重要影响量,需扩展或修正模型
问题 选择销售方式
因变量
自变量
两组:销售代表、旅行推 客户数、产品可替代性、拜访 销员 次数等19个变量
职场新人从事与 两组:毕业半年后从事与 性别、学制、住房情况、专业、 专业相关的工作 专业相关工作、不相关工 职业培训等15个变量 作
公民的选举行为 三组:联盟党、社民党、 政治态度、民主满意度、工会 民主党 会员、宗教团体等
似然比值检验(Likelihood Ratio Test) 该方法将考虑所有解释变量最大的LL 值与所有自变量的回归系数都为0且仅 考虑常数项时所得出的LL值比较 若两偏差的绝对差较小,则自变量对 区分y水平的贡献小;若偏差绝对差较 大,则认为自变量的解释能力强; LLv
考虑所有解释变 量时LL最大值
伪R2统计量 伪R2统计量试图量化回归模型中已解 释“变化”比例;
McFaddens - R 1
2
LL LL
v 0
通常McF-R2值达到0.2或0.4以上就已 认为模型拟合度良好; LR检验回答了模型显著性以及结果 能够运用到总体的问题,McF-R使自 变量的判别能力总和可用数值表示, 并可在不同模型间相互比较