回归分析作业
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
应用线性回归课后作业
姓名:xxx
学号:xxxxxxxxx
年级:2013级
指导老师:xxx
第2章
2.14为了调查某广告对销售收入的影响,某商店记录了5个月的销
售收入y (万元)和广告费用x (万元),数据如表2-6所示
(表2-6)(1) 画散点图:
解:
> x <- c(1,2,3,4,5)
> y <- c(10,10,20,20,40) > plot(x,y)
(2)x 与y 之间是否大致呈线性关系:
解:
由上题的散点图可以看出五个点基本在一条直线附近,因此可以看出x 与y 之间大致呈线性关系
(3)用最小二乘估计求出回归方程:
1
2345
10
152025
303540
x
y
解:R语言程序如下
> mystat1 <- data.frame(x,y)
> mystat1
x y
1 1 10
2 2 10
3 3 20
4 4 20
5 5 40
> regress1 <- lm(y~x,data=mystat1)
> summary(regress1)
Call:
lm(formula = y ~ x, data = mystat1)
Residuals:
1 2 3 4 5
4.000e+00 -3.000e+00
5.004e-16 -7.000e+00
6.000e+00
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.000 6.351 -0.157 0.8849
x 7.000 1.915 3.656 0.0354 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 6.055 on 3 degrees of freedom
Multiple R-squared: 0.8167, Adjusted R-squared: 0.7556
F-statistic: 13.36 on 1 and 3 DF, p-value: 0.03535
●得出回归方程为:y=-x+7
(4)求回归标准误差:
解:
●从上述分析看出=6.055
(5)给出的置信度为95%的区间估计:
解:
> confint(regress1)
2.5 % 97.5 %
(Intercept) -21.2112485 19.21125
x 0.9060793 13.09392
●得出置信度为95%的区间估计为(-21.2112485,19.21125)
置信度为95%的区间估计为(0.9060793,13.09392)
(6)计算x 与y的决定系数:
解:
●由第三问的分析看出:R^2=0.8167,接近1,表明原方程的拟合程度较好。
(7)对回归方程作方差分析:
解:
> anova(regress1)
Analysis of Variance Table
Response: y
Df Sum Sq Mean Sq F value Pr(>F)
x 1 490 490.00 13.364 0.03535 *
Residuals 3 110 36.67
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(8)作回归系数:
解:
●同样从第三问的分析可以看出的p值为0.0354,在显著性水平为0.05时,
影响显著。
(9)作相关系数的显著性检验:
解:
> sqrt(0.8167)
[1] 0.9037146
●相关系数为0.9037146,查表知,x与y有显著的线性关系
(10)对回归方程作残差图并作相应的分析:
解:>y2 <- regress1$residuals
> plot(x,y2,type='b',pch=15,lty=3)
> y3 <- c(0,0,0,0,0)
> lines(x,y3,type='b',pch=20,lty=1)
●由残差图可以看出残差在0附近随机变化,并在变化幅度不大的一个区域内。
(11) 求当广告费用为4.2万元时,销售收入将达到多少,并给出置信度为95%的置信区间:
解:
> new2 <- data.frame(x=4.2)
> pred <- predict(regress1,new2,interval="prediction")
> pred
fit lwr upr
1 28.4 6.059318 50.74068
●当x为 4.2时,预测值为28.4,置信度为95%的置信区间为
[6.059318,50.74068]
2.15一家保险公司十分关心其总公司营业部加班的程度,决定认真调查一下现状。经过10周时间,收集了每周加班时间的数据和签发的新保单书目,y为每周加班时间(小时),数据如表2-7所示。
(1)画散点图:
解:R语言程序如下
> x <-
表2-7
c(825,215,1070,550,480,920,1350,325,670,1215)
> y <- c(3.5,1.0,4.0,2.0,1.0,3.0,4.5,1.5,3.0,5.0)
> plot(x,y)