R--线性回归诊断（一）

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

R--线性回归诊断（⼀）
线性回归诊断--R
【转载时请注明来源】：
Ljt 勿忘初⼼⽆畏未来
作为⼀个初学者，⽔平有限，欢迎交流指正。

在R中线性回归，⼀般使⽤lm函数就可以得到线性回归模型，但是得到的模型到底合不合适？在我们使⽤所得到的线性模型之前就需要进⾏回归诊断。

线性回归的诊断，主要是检验线性回归模型的假设是否成⽴。

线性回归模型 y=Θ0+Θ1x1+Θ2x2+.......+Θm x m+ε（⾃变量与因变量之间是线性关系）
基本假设：
（1）随机⼲扰项ε服从零均值，同⽅差，零协⽅差（相互独⽴）的正态分布
E(εi)=0 ; var(εi)=σ2 ;cov(εi , εj)=0 ;
εi~N(0,σ2)
（2）随机⼲扰项ε与解释变量间不相关
cov(X i , εi) =0
（⼀）显著性检验
（1）回归⽅程显著性 F 检验：看⾃变量 X1 , X2 .....X m 从整体上对随机变量Y是否有明显的影响。

原假设 H0：Θ1 =Θ2=.....=Θm=0 （H0 若被接受则表明随机变量Y与X1 , X2 .....X m 之间的关系由线性回归模型表⽰不合适）
P值<α : 拒绝原假设。

即在显著性⽔平α下，Y 与 X1 , X2 .....X m 有显著的线性关系，回归⽅程是显著的。

（⾃变量全体对因变量产⽣线性影响）
（2）回归系数显著性 t 检验：看单个的⾃变量 X i 对Y是否有明显影响。

原假设 H0i：Θi =0 （H0i若被接受则表明⾃变量X i 对因变量Y的线性效果不显著）
P值<α : 拒绝原假设。

即在显著性⽔平α下，Y 与 X i有显著的线性关系。

对于⼀元线性回归这两种检验是等价的；
对于多元线性回归，这两种检验是不等价的:
F检验显著，说明Y对⾃变量X1 , X2 .....X m整体的线性回归效果是显著的，但不等于Y对每个⾃变量X i 的效果都显著;反之，某个或某⼏个X i的系数不显著，回归⽅程显著性的F检验仍然有可能是显著的。

由于某些⾃变量不显著，因⽽在多元回归中并不是包含在回归⽅程中的⾃变量越多越好，需要剔除对Y⽆显著影响的⾃变量。

（⼆）拟合优度
拟合优度⽤于检验回归⽅程对样本观测值的拟合程度。

样本决定系数 R2 = SSR/SST = 1 - SSE/SST （R2属于[0,1] ）
R2 越接近 1 ，表明回归拟合的效果越好；
R2 越接近 0 ，表明回归拟合的效果越差。

与F检验相⽐，R2 可以更清楚直观地反映回归拟合的效果，但是并不能作为严格的显著性检验。

需要指出的是，拟合优度并不是检验模型优劣的唯⼀标准，有时为了使模型从结构上有较合理的经济解释，在样本量n 较⼤时，R2 等于0.7左右我们也给回归模型以肯定态度。

需要注意的是 R2与回归⽅程汇中⾃变量的数⽬以及样本量n有关，当样本量n与⾃变量的个数接近时，R2易接近于1，其中隐含着⼀些虚假的成分。

下⾯结合实例对R语⾔中线性拟合函数lm的结果进⾏分析
>
>
> head(bank)
y x1 x2 x3 x4
1 1018.4 96259 2239.1 50760 1132.3
2 1258.9 97542 2619.4 39370 1146.4
3 1359.
4 9870
5 2976.1 44530 1159.9
4 1545.6 100072 3309.1 39790 1175.8
5 1761.
6 101654 3637.9 33130 1212.3
6 1960.8 103008 4020.5 34710 1367.0
>
> fline<-lm(y~x1+x2+x3+x4,data=bank)
> summary(fline)
Call:
lm(formula = y ~ x1 + x2 + x3 + x4, data = bank)
Residuals:
Min 1Q Median 3Q Max
-487.35 -78.89 -2.65 137.02 403.78
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -4.168e+03 1.193e+03 -3.495 0.002998 **
x1 5.842e-02 1.216e-02 4.805 0.000194 ***
x2 4.142e-01 3.218e-02 12.871 7.41e-10 ***
x3 -1.384e-02 8.520e-03 -1.624 0.123826
x4 -7.062e-01 1.750e-01 -4.035 0.000959 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 217.7 on 16 degrees of freedom
Multiple R-squared: 0.9982, Adjusted R-squared: 0.9978
F-statistic: 2222 on 4 and 16 DF, p-value: < 2.2e-16
>
>
回归结果的诊断：
（1）F-statistic
回归⽅程显著性 F 检验中的F统计量，其P值<2.2e-16<0.05 ，表明Y 与 X1 , X2 ,X3,X4有显著的线性关系，回归⽅程整体是显著的。

（2）Coefficients
Estimate 即回归系数的估计值，其对应的 P(>|t|)为各回归系数t检验的P值。

从回归结果看，X3的P值为0.123826>0.05,表明X3对Y没有显著影响，应考虑删除变量X3；其他三个变量的P值都<0.05,对Y 都有显著的影响。

---------以上两个回归检验的结果也表明，⾃变量整体对于因变量有显著影响，并不表明每个⾃变量对因变量都有显著影响。

（3）Multiple R-squared ; Adjusted R-squared
分别表⽰ ‘拟合优度’ ，‘修正的拟合优度’
拟合优度值为 0.9982 很接近于 1 ，表明回归⽅程对样本观测值的拟合程度较⾼。

相关图形诊断：
（1）残差图
残差图分析法是⼀种直观、⽅便的分析⽅法。

它以残差e i为纵坐标，以其他适宜的变量（如样本拟合值）为横坐标画散点图,主要⽤来检验是否存在异⽅差。

⼀般情况下，当回归模型满⾜所有假定时，残差图上的n个点的散布应该是随机的，⽆任何规律。

如果残差图上的点的散布呈现出⼀定趋势（随横坐标的增⼤⽽增⼤或减⼩），则可以判断回归模型存在异⽅差。

异⽅差：某⼀因素或某些因素随着解释变量观测值的变化⽽对被解释变量产⽣不同的影响，导致随机误差产⽣不同⽅差。

当存在异⽅差时，普通最⼩⼆乘估计存在以下问题：
（i）参数估计值虽然是⽆偏的，但不是最⼩⽅差线性⽆偏估计；
（ii）参数的显著性检验失效；
（iii）回归⽅程的应⽤效果极不理想。

（2）Q-Q图
Q-Q图主要⽤来检验样本是否近似服从正态分布。

对于标准状态分布⽽⾔，Q-Q图上的点近似在Y=X直线附近。

（3）标准化残差⽅根散点图
此图类似于残差图，只是其纵坐标变为了标准化残差的绝对值开⽅。

（4）Cook距离图
库克距离⽤来判断强影响点是否为Y的异常值点。

⼀般认为当D<0.5时认为不是异常值点；当D>0.5时认为是异常值点。

>
> par(mfrow=c(2,2))
> plot(fline,which=c(1:4))
>
从回归的四个图形结果来看：
残差图 Residuals vs Fitted : 图上的点基本服从随机分布，可以认为不存在异⽅差的情况；
标准Q-Q图 Normal Q-Q : 图上的点基本都在y=x直线附件，可认为样本近似服从正态分布；
标准化残差⽅根散点图 Scale-Location：类似与残差图，点的分布基本是随机的。

库克距离图 Cook‘s distance : 最⼤的库克距离为0.3左右，可以认为没有异常值点。