逻辑回归模型分析见解

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

逻辑回归模型分析见解

1.逻辑回归模型

1.1逻辑回归模型

考虑具有P个独立变量的向量*=(Xl,X2,”q),设条件概率= 为根据观测量相对于某事件发生

的概率。逻辑回归模型可表示为

1

L十严

上式右侧形式的函数称为称为逻辑函数。下图给出其函数图象形式。

其中。如果含有名义变量,则将其变为dummy 变量。一个具有k个取值的名义变量,将变为k-1个dummy 变量。这样,有

定义不发生事件的条件概率为

(1.1)

(1.2)

尸wmx 十各-占 (1.3 )

那么,事件发生与事件不发生的概率之比为 F (H =1|幻—P “曲 = Q | x ) \-p

这个比值称为事件

的发生比 (the odds of

experie ncing an eve nt), 简称为 odds 。 因为00 。对odds 取对数, 即得到线性函数,

假设有n 个观测样本,观测值分别为 心,7,设丹= P3=X)为给定条件下得到丹=1的概 率。在同样条件下得到刃=°的条件概率为 ® = 0|^ = 1・p’。于是,得到一个观测值的概率为 戸盼八心严 (1.6)

因为各项观测独立,所以它们的联合分布可 以表示为各边际分布的乘积。

- (1.7 )

上式称为n 个观测的似然函数。我们的目标是 能够求出使这一似然函数的值最大的参数估计。 d.4 ) (1.5)

1.2极大似然函数

于是,最大似然估计的关键就是求出参数 ,使上式取得

最大值。

对上述函数求对数 山应・*的・召仙恥区;]丨门丫」訓:叩丄】 (i 8 )

上式称为对数似然函数。为了估计能使

£(旳取得 最大的参数的值。

对此函数求导,得到p+1个似然方程。

纠片-v 相严纠# _ ]新.站卄”和丸 (i 9 ) 圣屮.『;-* 几-百工 一 f Ji' j=1 2 p

上式称为似然方程。为了解上述非线性方程,应 用牛顿一拉斐森 (Newto n-Raphso n )

方法

进行迭代求解。

亦占二址(1-隔) 兰丝二-S 耳赳兀(1-花) 阴阴处心“ (1.10 ) 如果写成矩阵形式,以H 表示 Hessian 矩阵, X 表示

1.3 牛顿-拉斐森迭代法 对心;求二阶偏导数,即Hessian 矩阵为

护 M

-

i-l

矩阵需转置),即似然方程的矩阵形式。 得牛顿迭代法的形式为

氐八验-却切 (1.13

) 注意到上式中矩阵H 为对称正定的,求解 「「丁即 为求解线性方程HX = U 中的矩

阵X 。 对H 进行

cholesky 分解。 最大似然估计的渐近方差(asymptotic varianee )和协方差(covarianee)

可以由信 息矩阵(information matrix

)的逆矩阵估 计出来。而信息矩阵实际上是|:-二阶导数的负 值,表示为

「“二。估计值的方差和协方差表示

为八」,也就是说,估计值厂的方差为矩阵I 的逆矩阵的对角线上的值,而估计值 匚和“的协 方差为除了对角线以外的值。然而在多数情况, 我们将使用估计值再的标准方差,表示为

2 U - 1和

1础 ■ H … W …知 ■ ■

耳 Va -码 ■ « H = 。再令 _1心 …

(1.12 )

则 (注:前一个 (1.11 ) 叙•-

Q 虬(1讥; fi

甜(.巧)= (var(屁)户,for j=0,1,2, …,p

(1.14 )

2 .显著性检验

下面讨论在逻辑回归模型中自变量氐是否与反

应变量显著相关的显著性检验。零假设比:憑= 0 (表示自变量〃对事件发生可能性无影响作用)。如果零假设被拒绝,说明事件发生可能性依赖于比的变化。

2.1Wald test

对回归系数进行显著性检验时,通常使用Wald 检验,其公式为

阳三同/述◎护(21)

其中,磁他)为色的标准误差。这个单变量Wald 统计量服从自由度等于1的,分布。

如果需要检验假设= :「—,= 0,计算统计量

(2.2 )

其中,为去掉「所在的行和列的估计值,相应地,八为去掉•」所在的行和列的标准误差。这里,Wald统计量服从自由度等于p的沪分布。如果将上式写成矩阵形式,有呼=&刖9简(為0T(。血(2.3)

矩阵Q是第一列为零的一常数矩阵。例如,如果e= [°

1°1

检验4 = A=o,贝则2。1」。

然而当回归系数的绝对值很大时,这一系数的估计标准误就会膨胀,于是会导致Wald 统

计值变得很小,以致第二类错误的概率增加。也就是说,在实际上会导致应该拒绝零假设时却未能拒绝。所以当发现回归系数的绝对值很大时,就不再用Wald 统计值来检验零假设,而应该使用似然比检验来代替。2.2似然比(Likelihood ratio test )检验

在一个模型里面,含有变量西与不含变量再

的对数似然值乘以-2的结果之差,服从尸分布这一检验统计量称为似然比(likelihood ratio),用式子表示为

r —不纸似卷

G-沁含有训然)(24)

计算似然值米用公式(1.8 )。

倘若需要检验假设…::=0,计算统计

U -孑二貲LsAd厂虚UI ■丸1-4 (2.5 )

上式中,冷表示必=0的观测值的个数,而灼表示岛=1的观测值的个数,那么n就表示所有观测值的个数了。实际上,上式的右端的右半部分[丛如+讣如・汕(”)]表示只含有咸的似然值。统计量G服从自由度为p的,分布

2.3Score 检验

在零假设凤:以=0下,设参数的估计值为爲,即对应的煤=0。计算Score统计量的公式为5颅『厂'(如刃隔小

(2.6 )上式中,幕」表示在心=0下的对数似然函数

(1.9 )的一价偏导数值,而:表示在:=0 下的对数似然函数(1.9 )的二价偏导数值。Score统计量服从自由度等于1的::分布。

2.4 模型拟合信息

相关文档
最新文档