Logistic回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


2

问题3:在流行病学的研究中,有一类常见问题是 探索某疾病的危险因素,同时根据危险因素预测某 疾病发生的概率。例如,想探讨胃癌发生的危险因 素,选择两组人群,一组胃癌患者,另一组非胃癌 患者,这形成了因变量。两组人群肯定有不同的体 征和生活方式,自变量可以包括很多,例如:年龄 、性别、饮食习惯、幽门螺杆菌感染等。
i 1
7
p




模型的评价: 二项Logistic回归模型很好的体现了概率P值和解释 变量之间的非线性关系。 二项Logistic回归模型本质是一个二分类的线性概率 模型。 通过模型计算P(Y=1)和P(Y=0)的概率,经过比较两 个概率的大小,可以对样本进行类别预测。
8
发生比(相对风险,胜算,odds)的意义: Odds: P 某事件发生概率与不发生概率之 1 P 比。 例如:考上大学的概率为0.25, 则考上大学的odds为0.25/0.75=0.3333:1=1:3,可 以解释为考上与考不上之比为1:3 同理,可以计算考不上大学的odds为0.75/0.25=3:1 ,可以解释为考不上与考上之比为1:3
即当被解释变量出现分类变量时,如果建立普通的回 归模型会违背回归模型的前提假设。此时采用的建模
4
方法是Logistic回归分析。
二项Logistic回归分析:
Logistic回归分析
Y为二分类 多项Logistic回归分析:
Y为多分类
5
1967年Truelt J,Connifield J和Kannel W在 《Journal of Chronic Disease》上发表了冠心病危险 因素的研究,较早将Logistic回归用于医学研究。
29

注:因变量和哑变量的编码是非常重要的信息,对 于模型参数的解读和模型的分析都非常中重要。
30

注:初始模型,一般从全模型开始。Age没有通过 检验,income这一类变量通过了,但是其中某一个 哑变量没有通过,经验做法是这一类哑变量全部保 留。
31

注:模型整体的线性没通过检验,但是拟合指标显 示,模型的拟合程度并不好。Logistic回归模型的参 数估计值是采用迭代算法获得,因此需要迭代收敛
该统计量的取值范围为0~1,值越大表明模型拟合程 度越高,越接近于0说明模型拟合优度越低。
17
1 ( L0 )
2 N
Leabharlann Baidu

混淆矩阵(错判矩阵)
总体正确率 代表了预测正确的样本所占 的比例,当然该值越大表明预测能力越强。错判矩阵 是一种常用的评价各种分类判别模型优劣的方法。
18
f11 f 22 f11 f 22 f12 f 21
19
20

Hosmer—Lemeshow检验的原假设:观测频数的分 布与期望频数分布无显著差异。 Hosmer— Lemeshow统计量的值越小,p>a,拟合效果越好 ;反之,则拟合效果不好。
21
设置虚拟变量


通常在线性回归分析中,作为解释变量的自变量是 数值型变量,它对被解释变量有线性解释作用。在 实际应用中,尤其在二项Logistic回归模型中,自变 量也有可能是分类型的变量。 由于分类型的变量各个类别之间是非等距的,通常 不能像数值型那样直接作为解释变量进入回归方程 ,一般需要将其转化为虚拟变量(也称哑变量)后 再参与分析。这样可以更好的研究各类别对解释变 量影响的差异性。
32

注:因为p>a,所以认为样本实际值得到的分布与 预测值得到的分布无显著差异,模型拟合优度较好 。
33

注:模型整体的准确度不高,对不购买人群的准确 率极高,对购买人群的准确率很低。
34

注:预测类别图上可以看出,预测概率在0.4附近的 样本预测准确率相对最低。事实上,无论用什么分 类方法,这类样本身就是最难预测的。
35

注:这是采用向前LR的筛选策略进行变量选择。目 前保存在模型中的变量都是通过了参数的显著性检 验。
36

注:从拟合效果看,前后两个模型并没有太大差别 。
37

注:虽然模型整体的准确度略有下降,但是对于购 买人群预测的准确率提高了。从应用角度看第二个 模型较第一模型的应用性略强些。
38
模型评价: LogitP 1.11 0.504 gender (1) 0.096income(1) 0.761income(2) 模型表达式,并结合发生比,得知:相同性别中,中 等收入的发生比是低等收入的1.101倍,高等收入的 发生比是低等收入的2.139倍,可见中等收入的购买 概率优势不明显,高等收入优势明显。相同收入中, 女性的发生比是男性的1.656倍,女性更倾向于购买 该产品。

注:个人喜欢使用相对简单明了的Indicator方法, 至于哪一个类别作为参考类别,会因具体问题而定 。
27

注:在Logistic回归分析中,如果不关心迭代的历史 和筛选变量的过程,可以不做选择。
28

注:在保存变量中一般最关心概率的预测值和类别 的预测值。一般以0.5为分割点,预测概率大于0.5 ,预测为Y=1;预测概率小于0.5,预测为Y=0。
11
二项Logistic回归方程的参数估计: 一般的线性回归模型适合于使用最小二乘法进行估计 ,但是,由于Logistic回归模型中随机扰动项并不满足 经典假设,所以需要使用极大似然法估计。

ˆ 估计就是使Ln(L)达到最大的 。
12
二项Logistic回归方程的检验



回归方程的显著性检验 目的:检验解释变量全体与LogitP (定义LogitP=ln) 的线性关系是否显著,是否可以用线性模型拟合。 检验思想:设没有引入任何解释变量的回归方程的 似然函数为 L0 ,引入解释变量之后回归方程的似然 0 L0 / L1 1 函数值为 L1 ,则似然比为 L0 / L1 。显然, ,且 0 L0 / L1 1 越接近于1,则表明模型中的解释 变量对模型总体没有显著贡献;反之,越接近于0 ,则表明引入变量对模型具有显著贡献。
13

方法:似然比卡方检验
H 0 : 1 2 p 0
L0 2 L0 ln( ) 2 ln( ) ~ 2 ( p) L1 L1
统计量的观测值越大越好,或观测值对应的概率p值 ,p<a,拒绝原假设,认为回归方程整体显著;p>a, 接受原假设,认为回归方程整体不显著。

16
2 L0 N 1 ( ) 2 Cox & Snell R 统计量= L1
,N为样本容量。 该统计量类似于一般线性模型中的R方,统计量的值 越大表明模型的拟合优度越高。不足之处在于其取值 范围无法确定,不利于模型之间的比较。
Cox &Snell R 2

Nagel ker ke R2 统计量=

9
相对风险比(胜算比,odds ratio)的意义 0dds ratio:在自变量处于不同的水平时的胜算,加 以比较(两个胜算的比值),称为胜算比。 例如:大公司成功经营的概率为10/11,小公司成功 经营的概率为2/13, 则大公司成功经营的胜算为(10/11)/(1/11)=10 小公司成功经营的胜算为(2/13)/(11/13)=0.182 即Odds ratio=10/0.182=55, 即可以解释为大公司的成功胜算为小公司成功胜算的 55倍。

39
24
应用举例

例:为研究和预测某商品消费特点和趋势,收集了 以往的消费数据,变量有是否购买、年龄、性别和 收入水平。除年龄外,其余变量都是分类变量。是 否购买是被解释变量,其余都是解释变量。分析目 标:建立客户购买的预测模型,分析影响因素。
25
被解释变量 解释变量栏
可以产生交互项
筛选变 量策略
26
第九章
Logistic回归分析
9.1Logistic回归分析概述

问题1:研究消费者的不同特征如何影响是否购买 小轿车时,消费者的年龄、年收入、职业、性别等 因素将作为解释变量,是否购买作为被解释变量, 此时的被解释变量是一个二分类变量。
问题2:在研究消费者特征对某种商品的品牌选择 取向时,品牌作为被解释变量,由于候选品牌多样 ,因此是一个多分类问题。
模型拟合优度的评价与检验 目的:第一,回归方程能够解释被解释变量变差的 程度,即线性回归的部分能解释LogitP的程度,这 一点与一般线性回归分析是相同的;第二,由回归 方程得到的概率进行分别判别的准确率。 方法: 第一目的:Cox &Snell R2 统计量和 Nagel ker ke R2 统计量 第二目的:混淆矩阵(错判矩阵)和 Hosmer-Lemeshow检验

10

二项Logistic回归方程系数的含义: p 因为 exp( 0 i xi ), i 1 当自变量 xi 增加一个单位时,则有
exp( 1 0 i xi )
* p
*
exp( i ) 于是:
i 1
xi 增加一个单位时 即表明:当其它解释条件不变时, 所导致的相对风险是原来相对风险的 exp( i ) 倍。即控 制其它变量不变时,x增加一个单位的相对风险比exp( i ) 即x在不同水平时的,二者的Odds radio是 exp( i ) 。
14



回归系数的显著性检验 目的:需要对每个回归系数的显著性进行检验。 检验思想:通过构造Wald统计量进行检验,Wald统 计量和似然比统计量都是极大似然估计方法中常用 的检验统计量。 方法: H0 : j 0
Waldi (
ˆ j S ˆ
j
) 2 ~ 2 (1)
15

23



注:对于具有n个类别的分类变量,需要n-1个虚拟 变量即可。 参照类别:虚拟变量值全部定义为0的类别是参照 类别。例如上一个例子中的“女”,“低”。 在Logistic回归模型中各虚拟自变量回归系数的含义 是相对于参照类别,其它各类别对被解释变量平均 贡献的差。进而可以研究各类别间对被解释变量的 平均贡献差异。

Hosmer—Lemeshow检验:通过模型可以计算出给 定解释变量取值时被解释变量取1的概率预测。如 果模型拟合较好,则应给实际值为1的样本以较高 的概率,给实际值为0的样本以低的概率预测值。 于是对概率预测值进行分位数分组(通常为10分位 数,将样本分为10组),预测概率大小分得的10组 和实际观测值0/1类别分组形成了交叉列联表。由 观测频数和期望频数计算卡方统计量,即Hosmer— Lemeshow统计量,它服从自由度为n-2的卡方分布 ,n为组数。

6
9.2二项Logistic回归分析
二项Logistic回归方程: P 设 P (Y 1) P ,称 为发生比(Odds)或 1 P 相对风险,则定义

P
p P ln( ) 0 i xi 1 P i 1 1
1 exp[( 0 i xi )]
22
虚拟变量:将分类的各个类别分别以0/1二值变量 的形式重新编码,用1表示属于该类,1表示不属于 该类。 例如: (1)“性别”需要一个虚拟变量,值1定义为“男” ,则值0定义为“女”。 (2)“满意度”需要2个虚拟变量,两个变量值为 (1,0)定义为“高”,(0,1)定义为“中”, (0,0)定义为“低”。
注:以上问题的共同点是因变量不是连续型变量, 而是分类变量。
3




若因变量是被解释变量,则一般线性模型会出现以 下问题: 对于任意给定的 xi 值,残差 i 也变成了离散型变 量,不是正态分布,因此导致无法进行相应的统计 推断。 对于任意给定的 xi 值,残差 i 也不再满足 E( i ) 0, D( i ) 2
相关文档
最新文档