用R语言做回归分析

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

⽤R语⾔做回归分析
使⽤R做回归分析整体上是⽐较常规的⼀类数据分析内容，下⾯我们具体的了解⽤R语⾔做回归分析的过程。

⾸先，我们先构造⼀个分析的数据集
x<-data.frame(y=c(102,115,124,135,148,156,162,176,183,195),
var1=runif(10,min=1,max=50),
var2=runif(10,min=100,max=200),
var3=c(235,321,412,511,654,745,821,932,1020,1123))
接下来，我们进⾏简单的⼀元回归分析，选择y作为因变量，var1作为⾃变量。

⼀元线性回归的简单原理：假设有关系y=c+bx+e,其中c+bx 是y随x变化的部分，e是随机误差。

可以很容易的⽤函数lm()求出回归参数b,c并作相应的假设检验。

model<-lm(y~var1,data=x)
summary(model)
Call:
lm(formula = x$y ~ x$var1 + 1)
Residuals:
Min 1Q Median 3Q Max
-47.630 -18.654 -3.089 21.889 52.326
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 168.4453 15.2812 11.023 1.96e-09 ***
x$var1 -0.4947 0.4747 -1.042 0.311
Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 30.98 on 18 degrees of freedom
Multiple R-squared: 0.05692, Adjusted R-squared: 0.004525
F-statistic: 1.086 on 1 and 18 DF, p-value: 0.3111
从回归的结果来看，p值为0.311，变量var1不不显著，正常情况下p值⼩于0.05则认为有⾼的显著性⽔平。

另外，R⽅位0.05692 距离1太远，说明两者之间不存在相关性。

我们进⼀步也对，y和var3做线性回归分析
model<-lm(y~var3,data=x)
summary(model)
Call:
lm(formula = y ~ var3, data = x)
Residuals:
Min 1Q Median 3Q Max
-3.0805 -0.9080 0.6566 1.0255 2.1451
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 81.431990 1.399442 58.19 8.45e-12 ***
var3 0.100632 0.001902 52.92 1.80e-11 ***
Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.73 on 8 degrees of freedom
Multiple R-squared: 0.9972, Adjusted R-squared: 0.9968
F-statistic: 2801 on 1 and 8 DF, p-value: 1.802e-11
从结果来看，常数项和var3的显著性⽔平都⾮常理想，同事R⽅达到0.99，整个模型的拟合度很⾼，可以说明两者间存在强的线性相关。

接下来，我们可以利⽤这个模型做些预测
pre<-data.frame(var3=c(56,36))
predict(model,pre,interval="prediction",level=0.95)
fit lwr upr
1 87.06737 82.07491 92.05983
2 85.05474 80.01387 90.09560
以上是预测结果
接下来，我们进⼀步了解下多元线性回归，多元线性回归是在y与多个⾃变量之间建⽴模型，寻找他们之间的线性关系。

在多元回归分析过程中，由于我们不知道因变量和那⼏个⾃变量之间存在线性关系，如果⼀个⼀个的检验，整个过程将变得⾮常繁琐。

好在R中有⾃动进⾏逐步回归的函数，我们只要根据函数运⾏结果，选择合适模型，并检验各项参数就可以了。

接下来，看下具体的步骤，还是以之前的数据集作为分析样本，我们来了解下，如何进⾏逐步回归分析
model<-lm(y~.,data=x)
summary(model)
Call:
lm(formula = y ~ ., data = x)
Residuals:
Min 1Q Median 3Q Max
-2.6684 -1.0831 0.5114 1.1158 2.3292
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 83.620109 5.047503 16.567 3.08e-06 ***
var1 -0.028906 0.057383 -0.504 0.632
var2 -0.009072 0.027438 -0.331 0.752
var3 0.100484 0.002414 41.621 1.29e-08 ***
Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.936 on 6 degrees of freedom
Multiple R-squared: 0.9973, Adjusted R-squared: 0.996
F-statistic: 745.2 on 3 and 6 DF, p-value: 4.191e-08
这⾥我们对y与所有⾃变量进⾏回归的结果来看，var1和var2的效果不显著，var3的显著性⽔平较⾼，说明这个模型并不是最优解。

mstep<-step(model)
Start: AIC=16.11
y ~ var1 + var2 + var3
Df Sum of Sq RSS AIC
var2 1 0.4 22.9 14.286
var1 1 1.0 23.4 14.520
22.5 16.105
var3 1 6493.5 6516.0 70.794
Step: AIC=14.29
y ~ var1 + var3
Df Sum of Sq RSS AIC
var1 1 1.0 23.9 12.727
22.9 14.286
var3 1 8136.6 8159.5 71.044
Step: AIC=12.73
y ~ var3
Df Sum of Sq RSS AIC
23.9 12.727
var3 1 8378.5 8402.4 69.337
从结果的AIC现象来看，最后⼀个只有y和var3进⾏回归时，AIC值最⼩，（注：逐步回归过程中，AIC值越⼩，说明模型的拟合度越好）
依据这个信息我们就可以建⽴模型model<-lm(y~var3,data=x)
当然，由于数据集的相对⽐较简单的关系，这⾥逐步回归的结果⽐较明显，现实的情况可能更为复杂，需要我们进⾏进⼀步的检验以及⼿动剔除参数等操作。