Logistic回归分析46392ppt课件

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Hosmer-Lemeshow检验
16
Cox&Snell R2统计量=
1
(
L0 L1
)
2 N
,N为样本容量。
该统计量类似于一般线性模型中的R方,统计量的值
越大表明模型的拟合优度越高。不足之处在于其取
值范围无法确定,不利于模型之间的比较。
Cox & Snell R 2
该N统ag计el量ker的ke取R2值统范计围量为=0~11, (值L0 )越N2 大表明模型拟合程 度越高,越接近于0说明模型拟合优度越低。
第九章 Logistic回归分析
9.1Logistic回归分析概述
问题1:研究消费者的不同特征如何影响是否购买 小轿车时,消费者的年龄、年收入、职业、性别等 因素将作为解释变量,是否购买作为被解释变量, 此时的被解释变量是一个二分类变量。
问题2:在研究消费者特征对某种商品的品牌选择 取向时,品牌作为被解释变量,由于候选品牌多样 ,因此是一个多分类问题。
即当被解释变量出现分类变量时,如果建立普通的回 归模型会违背回归模型的前提假设。此时采用的建 模
4
方法是Logistic回归分析。
Logistic回归分析
二项Logistic回归分析: Y为二分类
多项Logistic回归分析: Y为多分类
5
1967年Truelt J,Connifield J和Kannel W在 《Journal of Chronic Disease》上发表了冠心病危险
控制其它变量不变时,x增加一个单位的相对风e险xp( i )

exp( i )
即x在不同水平时的,二者的Odds radio是
。 11
二项Logistic回归方程的参数估计: 一般的线性回归模型适合于使用最小二乘法进行估计
,但是,由于Logistic回归模型中随机扰动项并不满 足经典假设,所以需要使用极大似然法估计。
✓ 检验思想:通过构造Wald统计量进行检验,Wald统 计量和似然比统计量都是极大似然估计方法中常用 的检验统计量。
✓ 方法: H0 : j 0
Waldi
( ˆj
Sˆj
)2
~
2(1)
15
模型拟合优度的评价与检验 ✓ 目的:第一,回归方程能够解释被解释变量变差的
程度,即线性回归的部分能解释LogitP的程度,这 一点与一般线性回归分析是相同的;第二,由回归 方程得到的概率进行分别判别的准确率。 ✓ 方法: 第一目的:Cox&Snell R2 统计量和 NagelkerkeR2统计量 第二目的:混淆矩阵(错判矩阵)和
ˆ 估计就是使Ln(L)达到最大的 。
12
二项Logistic回归方程的检验
回归方程的显著性检验 ✓ 目的:检验解释变量全体与LogitP (定 义 LogitP=ln )
的线性关系是否显著,是否可以用线性模型拟合。 ✓ 检验思想:设没有引入任何解释变量的回归方程的
似然函数为 L 0 ,引入解释变量之后回归方程的似然 函数值为 L 1 ,则似然比为 L 0 / L 1 。显然,0L0/L11 ,且 0L0/L11越接近于1,则表明模型中的解释 变量对模型总体没有显著贡献;反之,越接近于0 ,则表明引入变量对模型具有显著贡献。
2
问题3:在流行病学的研究中,有一类常见问题是 探索某疾病的危险因素,同时根据危险因素预测某 疾病发生的概率。例如,想探讨胃癌发生的危险因 素,选择两组人群,一组胃癌患者,另一组非胃癌 患者,这形成了因变量。两组人群肯定有不同的体 征和生活方式,自变量可以包括很多,例如:年龄 、性别、饮食习惯、幽门螺杆菌感染等。
以比较(两个胜算的比值),称为胜算比。 例如:大公司成功经营的概率为10/11,小公司成功
经营的概率为2/13, 则大公司成功经营的胜算为(10/11)/(1/11)=10 小公司成功经营的胜算为(2/13)/(11/13)=0.182 即Odds ratio=10/0.182=55, 即可以解释为大公司的成功胜算为小公司成功胜算的
13
✓ 方法:似然比卡方检验
H 0:12 p0
ln(L0)22ln(L0)~2(p)
L1
L1
统计量的观测值越大越好,或观测值对应的概率p值
,p<a,拒绝原假设,认为回归方程整体显著;
p>a,接受原假设,认为回归方程整体不显著。
14
回归系数的显著性检验
✓ 目的:需要对每个回归系数的显著性进行检验。
因素的研究,较早将Logistic回归用于医学研究。
6
9.2二项Logistic回归分析
二项Logistic回归方程: 设 P(Y1)P,称 P 为发生比(Odds)或
相对风险,则定义 1 P
P
ln( ) 1 P
0
百度文库
p i1
i xi
P
1
p
1 exp[( 0 i xi )]
i1
7
模型的评价: ✓ 二项Logistic回归模型很好的体现了概率P值和解释
变量之间的非线性关系。 ✓ 二项Logistic回归模型本质是一个二分类的线性概率
模型。 ✓ 通过模型计算P(Y=1)和P(Y=0)的概率,经过比较两
个概率的大小,可以对样本进行类别预测。
8
发生比(相对风险,胜算,odds)的意义: Odds: P 某事件发生概率与不发生概率之 1 P 比。
例如:考上大学的概率为0.25, 则考上大学的odds为0.25/0.75=0.3333:1=1:3,可
以解释为考上与考不上之比为1:3 同理,可以计算考不上大学的odds为0.75/0.25=3:1
,可以解释为考不上与考上之比为1:3
9
相对风险比(胜算比,odds ratio)的意义 0dds ratio:在自变量处于不同的水平时的胜算,加
注:以上问题的共同点是因变量不是连续型变量, 而是分类变量。
3
若因变量是被解释变量,则一般线性模型会出现以 下问题:
✓ 对于任意给定的 x i 值,残差 i 也变成了离散型变 量,不是正态分布,因此导致无法进行相应的统计 推断。
✓ 对于任意给定的 x i 值,残差 i 也不再满足
E(i)0,D (i)2
55倍。
10
二项Logistic回归方程系数的含义:
p
因为 exp(0 ixi),
当自变量 x i 增加一i1 个单位时,则有
p
*exp(10 ixi)
i1
于是:
*
exp( i )
即表明:当其它解释条件不变时,x i 增加一个单位时
所导致的相对风险是原来相对风险的exp( i ) 倍。即
相关文档
最新文档