调查数据分析二元Logistic回归

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

logistic回归模型
Logistic回归模型:
logit(p)=0+1 X1+2 X 2 k X k
e p 0 1 X 1 2 X 2 k X k 1 e
p 1 1 e
( 0 1 X 1+ 2 X 2++ k X k)
回归建模——二元Logistic回归模型
Logistic回归可直接预测事件发生的概率, 若预测概率大于0.5,则预测发生(Y=1); 若预测概率小于0.5,则不发生(Y=0)。
Logistic回归模型的诊断 多重共线性的诊断
异常值的诊断
43
多重共线性的诊断 相关系数矩阵 容忍度
TOL 1 R 2 xk

36
二分类Logistic回归
method
Enter
中文名称
全部进入
剔除依据 条件参数估计似然比
最大偏似然估计似然比
Forward:condi 向前逐步 tional
Forward:LR 向前逐步
Forward:Wald
向前逐步
Wald统计量
条件参数估计似然比
Backward:cond 向后逐步 itional
方差膨胀因子
1 VIF TOL
由于只关心自变量之间的关系,所以可以 通过线性回归得到容忍度指标。
44
异常值的诊断(一) 标准化残差(Pearson残差)
Logistic回归模型估计:极大似然估计
最小二乘估计(OLS):
根据线性回归模型,选择参数估计值,使得模型 的估计值与真值的离差平方和最小。
极大似然估计( MLE ):
选择使得似然函数最大的参数估计值。
18
Logistic回归模型估计:极大似然估计
假设n个样本观测值y1 , y2 ,, yn , 得到一个观察值的概率为 P Y yi p 其中yi取值为0或者1
回归建模——二元Logistic回归模型
p Q ln 1 p pLogit变换Q 取值范围为 ,
回归建模——二元Logistic回归模型
0.8 0.6 p P 0.4 0.2
-4
-2
0 y Logit(P)
2
4
13
回归建模——二元Logistic回归模型
Logistic回归模型
一.模型的引进
二.Logistic回归模型估计
三. Logistic回归模型的评价 四. Logistic回归系数的统计推断 五. Logistic回归诊断
4
回归建模——二元Logistic回归模型 当虚拟变量作为因变量,虚拟变量有 两个取值,可使用二元Logistic回归。 例:在一次有关公共交通的调查中, 一个调查项目为“是乘坐公交车上下班, 还是骑自行车上下班”。因变量有两个取 值,当取值为1,乘坐公交车上下班;取值
Logistic回归系数的显著性检验:Wald检验 Logistic回归参数的的置信区间 Logistic回归系数的置信区间 发生比率的置信区间
30
1 Logistic回归方程的显著性检验 检验模型中所有自变量整体来看是否与所 研究事件的对数优势比存在线性关系,也 即方程是否成立。 检验的方法有似然比检验( likehood ratio test )、比分检验(score test)和Wald检验 (wald test)。三种方法中,似然比检验最 可靠,比分检验一般与它相一致,但两者 均要求较大的计算量;而Wald检验未考虑 各因素间的综合作用,在因素间有共线性 31 时结果不如其它两者可靠。
许多社会科学的观察都只分类而不是连续 的.比如,政治学中经常研究的是否选举某 候选人;经济学研究中所涉及的是否销售或 购买某种商品、是否签订一个合同等等.这 种选择量度通常分为两类,即“是’与 “否”. 在社会学和人口研究中,人们的社 会行为与事件的发生如犯罪、逃学、迁移、 结婚、离婚、患病等等都可以按照二分类变 量来测量。
似然比检验( likehood ratio test )
通过比较包含与不包含某一个或几个待检验观察因素 的两个模型的对数似然函数变化来进行,其统计量为
G (又称Deviance)。 G=-2(ln Lp-ln Lk) 样本量较大时,G近似服从自由度为待检验因素个数的
2分布。
似然比检验 当G大于临界值时,接受H1,拒绝无效假设 ,认为从整体上看适合作Logistic回归分析 ,回归方程成立。
yi i
1 pi
1 yi
由于各项观测相互独立,其联合分布为:
L p
i 1
n
yi i
1 pi
1 yi
19
Logistic回归模型估计:极大似然估计
求似然函数的极大值
ln
p β0 β1 x 1 p
1 1-p 1 e β0 β1x
20
Logistic回归模型估计:极大似然估计
建立logit(p)与X的多元线性回归模型:
p log it( p ) ln( ) 1 p
优势比(odds) 机会比(odds)
p(Y 1| X ) ln( ) 0 1 X 1 2 X 2 3 X 3 1 p(Y 1| X )
(取值范围-∞~+∞)
14
2 Logistic回归模型的预测准确性 Cox & Snell R Square指标和Nagelkerke R Square指标
24
拟合优度检验
Logistic回归模型的拟合优度检验是通过比较模型预测 的与实际观测的事件发生与不发生的频数有无差别来进 行检验。如果预测的值与实际观测的值越接近,说明模 型的拟合效果越好。 模型的拟合优度检验方法有偏差检验(Deviance)、皮 尔逊(pearson)检验、统计量(Homser-Lemeshow),分 别计算统计量X2D、X2 P、X2HL值。统计量值越小,对应 的概率越大。原假设H0:模型的拟合效果好。 模型拟合优度信息指标有:-2lnL、AIC、SC。这3个指 标越小表示模型拟合的越好。
因此每个 代表当保持其他变量不变时,每 单位量的增加对对数发生比的影响
odds1 k e 发生比率 ORwk.baidu.com odds2

若发生比率>1,则说明该变量增大时, 则Y=1事件发生的比例也就越高。
22
Logistic回归模型估计:极大似然估计
Logistic回归模型的评价

1 拟合优度检验(Goodness of fit) 1.1 皮尔逊检验 1.2 Hosmer-Lemeshow检验
的标准误。
该自变量下的回归系数=0
35
Logistic回归参数的的置信区间
Logistic回归系数 的置信区间为:
k
k Z / 2 SE

k

发生比率的置信区间
k Z / 2 SE k Z / 2 SE k k e ,e

分类变量分析通常采用对数线性模型 (Log-linear model), 而因变量为二分变量时, 对数线性模型就变成Logistic回归模型.
logistic回归是一个概率型模型,因此 可以利用它预测某事件发生的概率。例如 在可以根据消费者的一些特征,判断购买 某项产品概率有多大。
目的:作出以多个自变量估计因变量的 logistic回归方程。属于概率型非线性回归。 资料:1. 因变量为反映某现象发生与不发 生的二值变量;2. 自变量宜全部或大部 分为分类变量,可有少数数值变量。分 类变量要数量化。 用途:研究哪些变量影响因变量,影响程 度方向、大小等。
(4)logistic回归没有关于自变量“分布”的假设(离
散,连续,虚拟)
16
Logistic回归模型估计:极大似然估计
多元回归采用最小二乘估计,使因变量的 真实值和预测值差异值的平方和最小化; Logistic变换的非线性特征使得在估计模型的
时候采用极大似然估计的迭代方法,找到
系数的“最可能”的估计,在计算整个模型 拟合度时,采用似然值。


27
2.1 Logistic回归模型的预测准确性
然而对于logistic回归,上面定义的R最大值
却小于1
R
2 max
1 (L 0)
R 2 R max
2

2
n
Nagelkerke提出一种logistic回归的调整确定系数
R
2
adj
28
Logistic回归模型的统计推断
Logistic回归方程的检验(对模型回归系数 整体检验):似然比检验( likehood ratio test )、比分检验(score test)和Wald检验 (wald test)
为0,骑自行车上下班。
回归建模——二元Logistic回归模型
回归建模——二元Logistic回归模型 自变量(解释变量): X1:年龄,取值从18到58; X2:月收入(元),取值850、950、 1000 、 1200、1300、 1500、 1800、 2100;
X3:性别,取值为1,表示男性;取值 为0,表示女性。
分别对参数求偏导,然后令它等于0:
求得
的估计值
,从而得到
(pi的极
大似然估计),这个值是在给定xi的条件下yi=1的条
件概率的估计,它代表了Logistic回归模型的拟合
值。
21
Logistic 回归系数的解释
pi ln 1 Pi
m 0 k x ki k 1
2.1 Logistic回归模型的预测准确性
类R2是预测准确性的粗略近似,在自 变量与因变量完全无关时,类R2值趋 近于0;当和模型能够完美预测时,类 R2趋近于1.
26
2 Logistic回归模型的预测准确性
Cox & Snell R Square指标
其中 L 0 与 L S 表示零假设模型与所设模型各自的似然值,n 为样本容量。
Backward:LR
向后逐步
最大偏似然估计似然比 Wald统计量
37
Backward:Wald 向后逐步
p ln 2.629 2.224 性别 0.102 年龄 1 p exp 2.629 2.224 性别 0.102 年龄 ˆi p 1 exp 2.629 2.224 性别 0.102 年龄
p(Y 1| X ) 0 1 X1 2 X 2 3 X 3
(取值范围0~1)
9
线性回归模型的基本假定:
(1)随机误差项具有0均值:
(2)随机误差项具有同方差: 在序列相关: :
(3)随机误差项在不同样本点之间是独立的,不存
(4)随机误差项与解释变量(自变量)之间不相关
(5)随机误差项服从0均值、同方差的正态分布
回归建模——二元Logistic回归模型
研究目的:X1,X2,X3等因素对因变量 (使用什么交通方式)有无影响?
建立Y与X的多元线性回归模型?
ˆ X X X Y 0 1 1 2 2 3 3
(取值0和1)
8
回归建模——二元Logistic回归模型
建立p(Y=1|X)与X的多元线性回归模型?
15
0 1 X 1+ 2 X 2++ k X k
Logistic回归模型估计:极大似然估计
Logistic回归模型估计的假设条件与OLS的不同
(1)logistic回归的因变量是二分类变量
(2)logistic回归的因变量与自变量之间的关系是非线
性的
(3)logistic回归中无相同分布的假设
回归建模——二元Logistic回归模型
1、发生概率p的大小取值范围[0,1],p与自变 量的关系难以用多元线性模型来描述。 2、当p接近0或者1时,p值的微小变化用普
通的方法难以发现和处理好。
总:能不能找到一个p的严格单调函数Q,就
会比较方便;同时要求Q对在p=0或p=1的 附近的微小变化很敏感。
Logistic回归系数的显著性检验 为了确定哪些自变量能进入方程,还 需要对每个自变量的回归系数进行假 设检验,判断其对模型是否有贡献。 检验方法常用Wald X2检验。
Logistic回归系数的显著性检验
Wald检验
该检验是基于在大样本情况下β值服从正态 分布的性质。
其中 原假设:

相关文档
最新文档