逻辑回归模型分析见解
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
逻辑回归模型分析见解
1.逻辑回归模型
1.1逻辑回归模型
考虑具有P个独立变量的向量*=(Xl,X2,”q),设条件概率= 为根据观测量相对于某事件发生
的概率。逻辑回归模型可表示为
1
L十严
上式右侧形式的函数称为称为逻辑函数。下图给出其函数图象形式。
其中。如果含有名义变量,则将其变为dummy 变量。一个具有k个取值的名义变量,将变为k-1个dummy 变量。这样,有
定义不发生事件的条件概率为
(1.1)
(1.2)
尸wmx 十各-占 (1.3 )
那么,事件发生与事件不发生的概率之比为 F (H =1|幻—P “曲 = Q | x ) \-p
这个比值称为事件
的发生比 (the odds of
experie ncing an eve nt), 简称为 odds 。 因为0
0 。对odds 取对数, 即得到线性函数,
假设有n 个观测样本,观测值分别为 心,7,设丹= P3=X)为给定条件下得到丹=1的概 率。在同样条件下得到刃=°的条件概率为 ® = 0|^ = 1・p’。于是,得到一个观测值的概率为 戸盼八心严 (1.6)
因为各项观测独立,所以它们的联合分布可 以表示为各边际分布的乘积。
- (1.7 )
上式称为n 个观测的似然函数。我们的目标是 能够求出使这一似然函数的值最大的参数估计。 d.4 ) (1.5)
1.2极大似然函数
于是,最大似然估计的关键就是求出参数 ,使上式取得
最大值。
对上述函数求对数 山应・*的・召仙恥区;]丨门丫」訓:叩丄】 (i 8 )
上式称为对数似然函数。为了估计能使
£(旳取得 最大的参数的值。
对此函数求导,得到p+1个似然方程。
纠片-v 相严纠# _ ]新.站卄”和丸 (i 9 ) 圣屮.『;-* 几-百工 一 f Ji' j=1 2 p
上式称为似然方程。为了解上述非线性方程,应 用牛顿一拉斐森 (Newto n-Raphso n )
方法
进行迭代求解。
亦占二址(1-隔) 兰丝二-S 耳赳兀(1-花) 阴阴处心“ (1.10 ) 如果写成矩阵形式,以H 表示 Hessian 矩阵, X 表示
1.3 牛顿-拉斐森迭代法 对心;求二阶偏导数,即Hessian 矩阵为
护 M
-
i-l
矩阵需转置),即似然方程的矩阵形式。 得牛顿迭代法的形式为
氐八验-却切 (1.13
) 注意到上式中矩阵H 为对称正定的,求解 「「丁即 为求解线性方程HX = U 中的矩
阵X 。 对H 进行
cholesky 分解。 最大似然估计的渐近方差(asymptotic varianee )和协方差(covarianee)
可以由信 息矩阵(information matrix
)的逆矩阵估 计出来。而信息矩阵实际上是|:-二阶导数的负 值,表示为
「“二。估计值的方差和协方差表示
为八」,也就是说,估计值厂的方差为矩阵I 的逆矩阵的对角线上的值,而估计值 匚和“的协 方差为除了对角线以外的值。然而在多数情况, 我们将使用估计值再的标准方差,表示为
2 U - 1和
1础 ■ H … W …知 ■ ■
耳 Va -码 ■ « H = 。再令 _1心 …
(1.12 )
则 (注:前一个 (1.11 ) 叙•-
卷
令
Q 虬(1讥; fi
甜(.巧)= (var(屁)户,for j=0,1,2, …,p
(1.14 )
2 .显著性检验
下面讨论在逻辑回归模型中自变量氐是否与反
应变量显著相关的显著性检验。零假设比:憑= 0 (表示自变量〃对事件发生可能性无影响作用)。如果零假设被拒绝,说明事件发生可能性依赖于比的变化。
2.1Wald test
对回归系数进行显著性检验时,通常使用Wald 检验,其公式为
阳三同/述◎护(21)
其中,磁他)为色的标准误差。这个单变量Wald 统计量服从自由度等于1的,分布。
如果需要检验假设= :「—,= 0,计算统计量
(2.2 )
其中,为去掉「所在的行和列的估计值,相应地,八为去掉•」所在的行和列的标准误差。这里,Wald统计量服从自由度等于p的沪分布。如果将上式写成矩阵形式,有呼=&刖9简(為0T(。血(2.3)
矩阵Q是第一列为零的一常数矩阵。例如,如果e= [°
1°1
检验4 = A=o,贝则2。1」。
然而当回归系数的绝对值很大时,这一系数的估计标准误就会膨胀,于是会导致Wald 统
计值变得很小,以致第二类错误的概率增加。也就是说,在实际上会导致应该拒绝零假设时却未能拒绝。所以当发现回归系数的绝对值很大时,就不再用Wald 统计值来检验零假设,而应该使用似然比检验来代替。2.2似然比(Likelihood ratio test )检验
在一个模型里面,含有变量西与不含变量再
的对数似然值乘以-2的结果之差,服从尸分布这一检验统计量称为似然比(likelihood ratio),用式子表示为
r —不纸似卷
G-沁含有训然)(24)
计算似然值米用公式(1.8 )。
倘若需要检验假设…::=0,计算统计
量
U -孑二貲LsAd厂虚UI ■丸1-4 (2.5 )
上式中,冷表示必=0的观测值的个数,而灼表示岛=1的观测值的个数,那么n就表示所有观测值的个数了。实际上,上式的右端的右半部分[丛如+讣如・汕(”)]表示只含有咸的似然值。统计量G服从自由度为p的,分布
2.3Score 检验
在零假设凤:以=0下,设参数的估计值为爲,即对应的煤=0。计算Score统计量的公式为5颅『厂'(如刃隔小
(2.6 )上式中,幕」表示在心=0下的对数似然函数
(1.9 )的一价偏导数值,而:表示在:=0 下的对数似然函数(1.9 )的二价偏导数值。Score统计量服从自由度等于1的::分布。
2.4 模型拟合信息