如何用残差分析的方法判断回归模型的拟合效果

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

如何用残差分析的方法判断回归模型的拟合效果

发表时间:2018-11-21T17:17:31.740Z 来源:《中小学教育》2019年2月04期作者:佟希君

[导读]

佟希君黑龙江省肇东市第一中学 151100

中图分类号:G635.1 文献标识码:A 文章编号:ISSN1001-2982(2019)04-079-02

如何判断回归模型的拟合效果好坏是回归分析的重要内容,在回归分析中通常用残差分析来判断回归模型的拟合效果一:残差分析的方法

1.残差图

(1)残差:对于样本点,它们的随机误差为,,其估计值,,称为相应于点的残差,即=真实值—预报值(2)残差图:纵坐标为残差,横坐标可以选为样本编号或其他相关数据。

残差点比较均匀地落在水平的带状区域中,说明选用的模型拟合效果好,带状区域宽度越窄,说明拟合精度越高,回归方程的精度越高。

(3)残差平方和:越小拟合效果越好

2.相关系数:

(1)

(2)时线性相关性越强,越弱

(3)时认为两个变量有很强的相关关系

3相关指数

(1)

(2)越大,说明残差平方和越小,模型拟合效果越好,,模型拟合效果差

(3)与相关系数作用相同

(4)实际应用中,应选用大的回归模型

二.典例分析

例.某运动员训练次数与运动成绩之间的数据关系如下:

次数x 30 33 35 37 39 44 46 50

成绩y 30 34 37 39 42 46 48 51

试预测该运动员训练47次以及55次的成绩。

解:(1)作出该运动员训练次数x与成绩y之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系。图1

(2)列表计算:

次数成绩

30 30 900 900 900

33 34 1089 1156 1122

35 37 1225 1369 1295

37 39 1369 1521 1443

39 42 1521 1764 1638

44 46 1936 2116 2024

46 48 2116 2304 2208

50 51 2500 2601 2550

由上表可求得,,

,所以

所以回归直线方程为

(3)计算相关系数

将上述数据代入得,查表可知,而,故y与x 之间存在显著的相关关系。

(4)残差分析:

作残差图如图,由图知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适。

计算残差的方差得,说明预报的精度较高。

(5)计算相关指数

计算相关指数。说明该运动员的成绩的差异有98.55%是由训练次数引起的。

(6)作出预报

由上述分析可知,我们可用回归方程,作为该运动员的成绩的预报值。

将和分别代入该方程可得和,

故预测该运动员训练47次和55次的成绩分别是49和57.

总结:一般地,建立回归模型的基本步骤为:

(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量:

(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是存在线性关系等):

(3)由经验确定回归方程的类型(如我们观察数据呈线性关系,则选用线性回归方程):(4)按一定规则估计回归方程中的参数(如最小二乘法):(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等),若存在异常,则检查数据是否有误,或模型是否合适等。

变式:一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下:零件数个 10 20 30 40 50 60 70 80 90 100

加工时间 62 68 75 81 89 95 102 108 115 122 (1)与是否具有线性相关关系?

(2)如果与具有线性相关关系,求回归直线方程;

(3)根据求出的回归直线方程,预测加工200个零件所用的时间为多少?解析:这是一个回归分析问题,应先判断与是否具有线性相关关系,只有线性相关,才可以求解后面的问题,否则就使得求回归直线方程没有意义,要做相关性检验,应先利用

求出样本相关系数,利用当时,两个变量正相关,当时,两个变量负相关,的绝对值越接近于1,表明两个变量的线性相关性越强,的绝对值越接近于0,表明两个变量之间几乎不存在线性相关性,通常当大于0.75时,认为两个变量有很强的线性相关性,因而求回归直线方程才有意义。

解:(1)列出下表

图2

1 2 3 4 5 6 7 8 9 10

10 20 30 40 50 60 70 80 90 100

62 68 75 81 89 95 102 108 115 122

620 1360 2250 3240 4450 5700 7140 8640 10350 12200 因此由于,因此与之间具有很强的线性相关性。

相关文档
最新文档