数学实验 12:回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

实验 12:回归分析

习题7:

在有氧锻炼中人的耗氧能力y(ml/(min ·kg))是衡量身体状况的重要指标,它可能与以下因素有关:年龄x1,体重x2(kg),1500m 跑的时间x3(min),静止时心跳速度x4(次/min ),跑步后心速x5(次/min ).对24名40至57岁的志愿者进行了测试,结果如下表(节选),试建立耗氧能力y 与诸因素的之间的回归模型。

(1)若x1~x5中只许选择1个变量,最好的模型是什么? (2)若x1~x5中只许选择2个变量,最好的模型是什么? (3)若不限制变量的个数,最好的模型是什么?

(4)对最终模型观察残查,有无异常点,若有,剔除后如何?

1. 模型建立

本题不同小问需要建立不同模型,由于专业知识所限,并且提供的数据较少,难以做出精确符合现实情况的模型,因此这里采用最简单的线性回归法进行拟和,模型基本形式如下:

0111,m m jk j k j k m

y x x x x ββββε≤≤=++

++

+∑

事实上,

中的项(高次项和交互项)对于本题目来讲意义不大,因为所给定的5个自

变量和因变量之间关系比较模糊,几个变量彼此之间的联系也很难说清,因此用自变量的一次线性拟和就足以适应本题的要求。但作为练习,还是将每种回归方法都使用到了,可以用于参考。 具体采用的各个模型将在下面单独说明,这里不再重复。

2. 程序设计 由于本题需要建立多组模型,并且要在不断的调试中发现最合理的,很多命令都要在这个过程中不断使用,这里仅仅给出使用的最基本的命令。

◆ 数据 clear A=[…]; %数据矩阵,略 n=24; y=A(2,:); %提取各个数据 x1=A(3,:);x2=A(4,:);x3=A(5,:);x4=A(6,:);x5=A(7,:);

◆ 绘制散点图(大致判断影响情况) for i=1:5

subplot(2,3,i),plot(A(i+2,:),y,'+'),grid

序号 1 2 3 4 … 21 22 23 24 Y 44.6 45.3 54.3 59.6 … 39.4 46.1 45.4 54.7 X1 44 40 44 42 … 57 54 52 50 X2 89.5 75.1 85.8 68.2 … 73.4 79.4 76.3 70.9 X3 6.82 6.04 5.19 4.9 … 7.58 6.7 5.78 5.35 X4 62 62 45 40 … 58 62 48 48 X5

178 185 156 166 … 174 156 164 146

pause

end

pause

◆单参数回归(第一问)

X=[ones(n,1),x4']; %这里检验的是自变量x4,实际操作时要分别检验x1~x5 [b,bint,r,rint,s]=regress(y',X); %回归分析程序( =0.05)

b,bint,s, %输出回归系数估计值、置信区间、以及统计量

rcoplot(r,rint) %残差图

Polytool(x3',y',2) %检验一元多项式回归的结果,输出交互式画面

◆双参数回归(第二问):用逐步回归法找出最合理的两个变量

X5=[x1',x2',x3',x4',x5'];

stepwise(X5,y');%利用输出的交互式画面,可以选出最佳的两个变量

XX=[x3',x1']; %当得到了最佳的两个变量后(这里假设是x3\x1)

rstool(XX,y','linear') %检验二元情况下的交互项和高次项

◆全部参数回归(第三问):

X5=[x1',x2',x3',x4',x5']; %仍然用逐步回归法找出最合理的组合方式

stepwise(X5,y')

第五问要求对残差进行分析,并且剔除异常点,可以在该问得到最终模型后,采用regress 得到的残差值和置信区间并根据其绘制残差图,然后再进行剔除操作重新检验。

3.运行结果及分析

散点图

从左上到右下的顺序为x1~x5.可以由点的分布大致看出,除了x3自变量呈现比较明显的负相关趋势以外,对于其他的各个自变量都难以直接观测出其对于因变量的影响。根据这种结果,可以假设自变量x3(1500m 跑后心速)最直接的与锻炼耗氧能力相关,下面通过对各个自变量的单参数回归进行检验。

由单参数回归的结果可以证明X3(1500m 跑后心速)可以最好的反映出y(锻炼耗氧能力)的情况。由β1置信区间可以看出,x1、x2包含0在内,即y 可能与该参数无关,所以不选择,并且两者的p 值已经明显的大于 =0.05,则不考虑x1、x2。比较x3~x5后发现,x3的2

R -决定系数明显的大于x4、x5的,决定系数反映的是在因变量的总变化中自变量引起的那部分的比例,2

R 大说明x3自变量对因变量起的决定作用最大。并且x3的p 和s^2值也都比较小,所以最终确定x3可以最好的反映出y 的情况。

5

5.5

6

6.5

7

7.5

8

8.5

可以同之前的仅含一次项的结果进行比较,发现各个参量的置信区间都很宽,且β2的置信区间过0。可以认为二次项的引入是不重要的。 因此采用如下单参数模型描述y 是最准确地:

033y x ββ=+ 其中:0383.4438,-5.6682ββ==

双参数回归:

用stepwise 作逐步回归,部分过程和最终结果如下图:

Coeff. t-stat p-val

12

Model History

R M S E

-6

-4

-2

X X

X X X Coefficients with Error Bars

只取x3自变量的回归结果

Coeff. t-stat p-val

123

Model History

R M S E

-6

-4

-2

X X X X X Coefficients with Error Bars

取x3和x5自变量的回归结果

相关文档
最新文档