R案例分析_异方差
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章 案例分析
一、问题的提出和模型设定
为了分析不同省份或城市的交通和通讯支出的规划提供依据,分析交通和通讯支出与可支配收入的关系,建立交通和通讯支出与可支配收入的回归模型。假定交通和通讯支出与可支配收入满足线性约束,则理论模型设定为
i i i cum income u αβ=+⋅+ (1) 其中i cum 表示交通和通讯支出,i income 表示可支配收入。
由1999年《中国统计年鉴》得到如下数据
注:见数据文件cumexp_income.csv
二、参数估计
利用最小二乘法估计模型(1)的参数:
mydata.lm <- lm(cumexp ~ income)
summary(mydata.lm)
R 软件输出的结果为:
Call:
lm(formula = cumexp ~ income)
Residuals:
Min 1Q Median 3Q Max
-97.465 -19.986 -5.111 15.532 184.115
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -56.91798 36.20624 -1.572 0.127
income 0.05808 0.00648 8.962 1.02e-09 ***
---
Signif. codes : 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 50.48 on 28 degrees of freedom
Multiple R-squared: 0.7415, Adjusted R-squared: 0.7323
F-statistic: 80.32 on 1 and 28 DF, p-value: 1.021e-09
估计结果为:
ˆ56.920.06(36.21)(0.01)
cum income =-+ 20.74
..504880.32R s e F ===
括号内为标准差。
三、检验模型的异方差
(一)图示法
par(mfrow=c(1,2))
plot(cumexp ~ income, col="red")
abline(mydata.lm)
plot(residuals(mydata.lm)^2 ~ income,col="blue")
从上图可以看出,残差平方对解释变量X 的散点图主要分布在图形中的下三角部分,大40006000
8000200300400500
600
a.散点图及回归线income c u m e x
p 4000600080000500010000200003000
0 b.残差平方的散点图
income r e s i d u a l s (m y d a t a .l m )^2
致看出残差平方随可支配收入的变动呈增大的趋势,因此,模型很可能存在异方差。但是否确实存在异方差还应通过更进一步的检验。
(二)white异方差检验
根据white检验的步骤,计算出white检验的统计量及置信水平为1%的临界值,判读模型是否存在异方差。
u2 <- residuals(mydata.lm)^2
summary(lm(u2 ~ income + income^2)) #辅助回归
R值。
nrow(mydata)*0.341 #white 统计量,数据来自于辅助回归中的2
qchisq(0.01,df=2, lower.tail=F) #计算对应的临界值。
输出结果为:
Call:
lm(formula = u2 ~ income + income^2)
Residuals:
Min 1Q Median 3Q Max
-8511.0 -2362.2 -79.0 741.5 22735.1
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.143e+04 3.752e+03 -3.047 0.004999 **
income 2.556e+00 6.716e-01 3.806 0.000705 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 5232 on 28 degrees of freedom
Multiple R-squared: 0.341, Adjusted R-squared: 0.3174
F-statistic: 14.49 on 1 and 28 DF, p-value: 0.0007047
> nrow(mydata)*0.341 #white 统计量
[1] 10.23
> qchisq(0.01,df=2, lower.tail=F)
[1] 9.21034
有输出结果可以看出,white统计量大于临界值,我们拒接模型存在异方差,接受备择假设。
(三)Goldfeld-Quanadt检验
library(lmtest)
gqtest(mydata.lm)
输出结果为:
Goldfeld-Quandt test
data: mydata.lm