完整版逻辑回归模型分析见解

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1.逻辑回归模型

1.1

逻辑回归模型

考虑具有p个独立变量的向量■',设条件概率卩;上二•丨门二广为根据观测

量相对于某事件发生的概率。逻辑回归模型可表示为

:「( 1.1)

上式右侧形式的函数称为称为逻辑函数。下图给出其函数图象形式。

其中-" I' 1 c' ■-..【•。如果含有名义变量,则将其变为dummy 变量。一个具有k个取值的名义变量,将变为k-1个dummy 变量。这样,有

I ( 1.2)

这个比值称为事件的发生比(the odds of experie ncing an event),

00 。对odds取对数,即得到线性函数,

h ■

y —: j島一,厲-5 —+兀匸护9一 Q讣

1 p 上】(1.5)

假设有n个观测样本,观测值分别为设' 」I ■■-为给定条件下

(1.3)

简称为odds。因为定义不发生事件的条件概率为

那么,事件发生与事件不发生的概率之比为

1.2极大似然函数

得到I 的概率。在同样条件下得到-- 的条件概率为丨:一"。

得到一个观测值的概率为

因为各项观测独立,所以它们的联合分布可以表示为各边际分布的乘积。

(1.7)

上式称为n个观测的似然函数。我们的目标是能够求出使这一似然函数的值最大的参数估

譏备心)(

」' (1.10 是,

◎ )*(1 ¥严(1.6 )

i-l

计。于是,最大似然估计的关键就是求出参数:- ,使上式取得最大值。

对上述函数求对数

— (1.8)

上式称为对数似然函数。为了估计能使亠取得最大的参数的值。

对此函数求导,得到p+1个似然方程。

Ei 片 n:—E L尹—心肿一时

(1.9 )

^叶切迄尸,j=1,2,..,p.

上式称为似然方程。为了解上述非线性方程,应用牛顿-拉斐森

进行迭代求解。

(Newto n-Raphs on) 方法1.3 牛顿-拉斐森迭代法

对-八•求二阶偏导数,即Hessian矩阵为

如果写成矩阵形式,以H表示Hessian矩阵,X表示

(1.11 )

(2.1 )

得牛顿迭代法的形式为

对H 进行cholesky 分解。

最大似然估计的渐近方差(asymptotic 阵(information matrix )的逆矩阵估计出来。而信息矩阵实际上是匚…—二阶导数的负值,

表示为 。估计值的方差和协方差表示为 -'_

■',也就是说,估计值,二的 方差为矩阵I 的逆矩阵的对角线上的值,而估计值 ’】和厂的协方差为除了对角线以外的

值。然而在多数情况,我们将使用估计值

■〔的标准方差,表示为

2 .显著性检验

下面讨论在逻辑回归模型中自变量

?;[

是否与反应变量显著相关的显著性检验。零假设 ‘二

,:

■' = 0 (表示自变量 F 对事件发生可能性无影响作用)。如果零假设被拒绝, 说明事件发生

可能性依赖于"的变化。 2.1 Wald test

对回归系数进行显著性检验时,通常使用

Wald 检验,其公式为

r-

儿a-曹:

(i

(1.12 )

则H

=X T

VX 。再令 L 1

九■■■

然方程的矩阵形式。 >i -兀i >2 - %

丹■①」(注:前一个矩阵需转置),即似

(1.13 )

注意到上式中矩阵H 为对称正定的,求解

b'U 即为求解线性方程HX = U 中的矩阵X 。

varianee )和协方差(covarianee ) 可以由信息矩 for j=0,1,2. …,p (1.14 )

4

A.

其中,■''匸•为二的标准误差。这个单变量

Wald 统计量服从自由度等于1的■-分布。

如果需要检验假设’'-

| :

I = 0,计算统计量

(2.2 )

4 宀

其中,厂为去掉'-所在的行和列的估计值,相应地, 准误差。这里, Wald 统计量服从自由度等于 p 的」分布。如果将上式写成矩阵形式,

^ = (QMQ^^)QT\QA) (2.3) 矩阵Q 是第一列为零的一常数矩阵。例如,如果检验

然而当回归系数的绝对值很大时,这一系数的估计标准误就会膨胀,于是会导致 统计值变得很小,以致第二类错误的概率增加。 也就是说,在实际上会导致应该拒绝零假设 时却未能拒绝。所以当发现回归系数的绝对值很大时, 就不再用 Wald 统计值来检验零假设, 而应该使用似然比检验来代替。 2.2

似然比(Likelihood ratio test )检验

在一个模型里面,含有变量①与不含变量山的对数似然值乘以-2的结果之差,服从

分布。这一检验统计量称为似然比

(likelihood ratio ) ,用式子表示为

L y 不纸似然、

G7哙科麝(2.4)

计算似然值采用公式(1.8 )。 倘若需要检验假设’‘一 :八一 -

4 = 0,计算统计量

讥『2>讣饵.“—"歸-十恥H m "HdfUWXl /cu 、

“ (2.5 )

上式中,"表示门=0的观测值的个数,而 匸表示门=1的观测值的个数,那么 n 就表示 所有观测值的个数了。实际上,上式的右端的右半部分

■■ 1_

'- ' "■ 一‘ ' 表示

只含有的似然值。统计量 G 服从自由度为p 的■「分布 2.3 Score 检验

在零假设"-'?

= 0下,设参数的估计值为'1 :

,即对应的 J = 0。计算Score 统 计量的公式为

A J TS

4

--为去掉’k 所在的行和列的标

Wald

相关文档
最新文档