数学实验第10次作业-回归分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
回归分析
一实验目的
1 了解回归分析的基本原理,掌握MATLAB实现的方法;
2 练习用回归分析解决实际问题。
二实验内容
1电影院调查电视广告费用和报纸广告费用对每周收入的影响,得到下面的数据(见下表),
建立回归模型并进行检验,诊断异常点的存在并进行处理。
每周收入9690959295959494
报纸广告费用 5.0 2.0 4.0 2.5 3.0 3.5 2.5 3.0初步解决:
首先对于题目作初步分析,题目中电视广告费用和报纸广告费用都会对与每周收入产生影响,但是两者对于每周收入的影响都是独立的。
首先画出散点图如下:
观察散点图之后,假设自变量与因变量满足多元线性关系。设电视广告费用为x1,报纸
广告费用为x2,每周收入为y,那么每周收入与电视广告费用以及报纸广告费用的关系模型表示如下:
y=β0+β1x1+β2x2;
下面在MATLAB中输入以下命令:
输出结果如下所示:
结果列表如下:
回归系数回归系数估计值回归系数置信区间
β1 1.2985[0.4007,2.1962]
β2 2.3372[1.4860,3.1883]
R2=0.9089,F=24.9408,p=0.0025<0.05,s2=0.4897
于是由它得到的预测模型为y=83.2116+1.2985x1+2.3372x2。
做出残差和置信区间的图像如下:
由图像可以看出,只有第一组数据的置信区间不包括零,改组数据可能有误,去掉之后再进行计算。
在命令栏中输入以下命令:
输出结果如下所示:
将结果列表如下:
回归系数回归系数估计值回归系数置信区间
β1 1.2877[0.7964,1.7790]
β2 2.9766[2.3281,3.6250]
R2=0.9768,F=84.3842,p=0.0005<0.05,s2=0.1257由它得到的回归模型为y=81.4881+1.2877x1+2.9766x2。
对于实验结果的分析:
回归模型:y=81.4881+1.2877x1+2.9766x2。对比剔除异常点后的分析结果可知,第一次分析的过程中,第一组数据的置信区间不包括零点,所以该点为异常点,需要剔除再进行一次计算。剔除之后,发现所有点的置信区间都包括了零点。
剔除数据之后计算结果与剔除之前的比较
β0β0intβ1β1intβ2β2int
剔除后81.4881[78.7878,84.1883] 1.2877[0.7964,1.7790] 2.9766[2.3281,3.6250]
纵向比较可以看出,剔除了异常数据之后,置信区间明显的有了缩小,所以说,剔除异常数据可以有利于更加精确地建立模型。
2汽车销售商认为汽车销售量与汽油价格、贷款利率有关,两种类型汽车(普通型和豪华型)18个月的调查资料见下表,其中y1是普通型汽车售量(千辆),y2是豪华型汽车售辆(千辆),x1是汽油价格(元/gal),x2是贷款利率(%)。
序号y1y2x1x2
215.4 5.4 1.94 6.2
311.77.6 1.95 6.3
410.3 2.5 1.828.2
511.4 2.4 1.859.8
67.5 1.7 1.7810.3
713.0 4.3 1.7610.5
812.8 3.7 1.768.7
914.6 3.9 1.757.4
1018.97.0 1.74 6.9
1119.3 6.8 1.70 5.2
1230.110.1 1.70 4.9
1328.29.4 1.68 4.3
1425.67.9 1.60 3.7
1537.514.1 1.61 3.6
1636.114.5 1.64 3.1
1739.814.9 1.67 1.8
1844.315.6 1.68 2.3
(1)对普通型和豪华型汽车分别建立如下模型:
y1=β0(1)+β1(1)x1+β2(1)x2;y2=β0(2)+β1(2)x1+β2(2)x2.
给出β的估计值和置信区间,决定系数R2,F值及剩余方差等;
(2)用x3=0,1表示汽车类型,建立统一模型:y=β0+β1x1+β2x2+β3x3,给出β估计
值和置信区间,决定系数R2,F值及剩余方差等。以x3=0,1代入统一模型,将结果与
(1)的两个模型比较,解释二者的区别;
(3)对统一模型就每种类型汽车分别作x1和x2与残差的散点图,有什么现象,说明模型有何
缺陷?
(4)对统一模型增加二次项和交互项,考察结果有什么改进。
初步解决:
(1)首先研究y1,在命令栏中输入以下命令:
输出结果如下:
结果列表如下:
回归系数回归系数估计值回归系数置信区间
β1−27.6588[−54.5542,−0.7634]
β2−3.2283[−4.2747,−2.1819] R2=0.8593,F=45.7992,p<0.05,s2=20.7910
由它得到的回归模型为:y=90.1814−27.6588x1−3.2283x2。β1、β2的置信区间不包含零点,且p<α,且计算可得,F(1,n−2),1−α=4.4940 下面研究y2,在命令栏中输入以下内容: 输出结果如下: 结果列表如下: 回归系数回归系数估计值回归系数置信区间 β1−4.6285[−16.0184,6.7615] β2−1.4360[−1.8792,−0.9929] R2=0.8402,F=39.4474,p<0.05,s2=3.7288