数学实验 作业10
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验十三回归分析
电61 张俊翔2016010891
13.5
(1)首先对于所给数据,分别画出y关于三个因素x1、x2、x3的散点图如下:犯罪率y关于年收入低于5000美元家庭的百分比x1:
犯罪率y关于失业率x2:
犯罪率y关于人口总数x3:
由上图可以看出,y关于x1、x2应该有线性关系,而与x3无明显的相关性。
由此选取y关于x1、x2、x3的线性模型进行拟合。即
Y=β0+β1*x1+β2*x2+β3*x3
首先选取x1、x2作拟合,程序如下:
n=20;
X=[ones(n,1),x1',x2'];
[b,bint,r,rint,s]=regress(y',X);
b,bint,s
三者比较可知,最好的模型是只选择x1、x2的情况,此时决定系数最大,剩余方差最小,而且不存在系数的置信区间包含零的情况。
β3的置信区间包含零点,说明x3对y几乎没有什么影响,因此包含3个自变量的模型并没有比只含x1、x2的模型好。
因此选择最终模型是只含x1、x2的模型。
表达式为y=-34.0725+1.2239*x1+4.3989*x2
(3)对最终模型用rcoplot命令观察残差,可得下面的图形:
可见剩余方差和决定系数都有了明显的改进。此时的残差图如下:
这时不再有异常数据点,表达式为:y=-35.7095+1.6023*x1+3.3926*x2 13.10
首先假设风险偏好度对人寿保险额没有二次效应,两个自变量对人寿保险额也没有交互效应,来看已经确定的影响因素的系数:
由于已知经理的年均收入和人寿保险额之间存在着二次关系,而风险偏好度对人寿保险额有线性效应,因此模型为:
Y=β0+β1*x1+β2*x2+β3*x1^2
程序如下(数据输入略):
n=18;
xx1=x1.^2;
xx2=x2.^2;
xx=x1.*x2;
X=[ones(n,1),x1',x2',xx1'];
[b,bint,r,rint,s]=regress(y',X);
b,bint,s
rcoplot(r,rint)
下面考虑加入风险偏好的二次项和两个自变量的交互项的结果。设模型为:Y=β0+β1*x1+β2*x2+β3*x1^2+β4*x2^2+β5*x1*x2
计算结果如下:
R2=0.9997 F=7110 p<0.0001 s2=3.0381
但此时回归系数β4的置信区间为[-0.0956 , 0.4279],β5的置信区间为[-0.0501 , 0.0109],都过零点。
另外,当只加入风险偏好的二次项或只加入两个自变量的交互项时,β4或β5的置信区间同样过零点。说明风险偏好的二次项和两个自变量的交互项的影响并不大,因此最终选定的模型为:
Y=β0+β1*x1+β2*x2+β3*x1^2
代入系数得:
Y=-62.3489 +0.8396 *x1+5.6846*x2+0.0371 *x1^2
对其用rcoplot命令观察残差,可得下面的图形:
此时的残差图如下:
此时的模型为:
Y=-65.4793+0.9879 *x1+5.5789 *x2+0.0358 *x1^2
13.11
设病痛减轻的时间为y(min),用药剂量为x1(g),性别为x2,血压组别为x3. 首先可以绘制y关于x1、x2、x3的散点图,来发现可能存在的函数关系。
Y关于x1的散点图如下:
可见似乎有一定的二次关系。Y关于x2的散点图如下:
无明显关系。
Y关于x3的散点图如下:
可见除了x3=0.75时有两个异常点之外似乎有线性关系。
由于y关于x1、x2、x3的函数关系并不明确,因此采用逐步回归的方法,引入x1、x2、x3和它们的二次项、交互项。
在综合考虑剩余方差最小和回归系数的置信区间不过零点的情况下,所得的最优
结果如上所示。
此时的模型为:
Y=52.8084-7.0608*x1+0.5111*x1^2+42.5282*x3^2+0.9551*x1*x2-7.3746*x1*x3 s =
0.9405 56.9166 0.0000 16.1322
此时的残差图如下所示:
剔除异常数据点后,所得结果如下:
Y=52.4646-6.9977*x1+0.4881*x1^2+42.6142*x3^2+0.8773*x1*x2-7.0327*x1*x3 s =
0.9656 89.7180 0.0000 9.4810
可见剩余方差有了明显的降低,决定系数也有所提高。