浅谈加权最小二乘法及其残差图

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

浅谈加权最小二乘法及其残差图

——兼答孙小素副教授

何晓群刘文卿

ABSTRACT

The paper introduces some problems in relation to weighted least square regression ,and answers a question about weighted residual plots.

关键词：异方差；加权最小二乘法；残差图；SPSS

一、引言

好几年没有翻《统计研究》了。最近，有一同行朋友打电话告诉我《统计研究》2005年第11期上刊登了一篇有关我与刘文卿合作编著的《应用回归分析》（2001.6.中国人民大学出版社）教材的文章。赶紧找到这期的《统计研究》，看到其中孙小素副教授的文章《加权最小二乘法残差图问题探讨——与何晓群教授商榷》一文，以下简称《孙文》。认真拜读后感触良多。首先衷心感谢孙小素副教授阅读了我们《应用回归分析》拙作的部分章节，同时感谢《统计研究》给我们提供这样一个好的机会，使我们能够借助贵刊对加权最小二乘法的有关问题谈谈更多的认识。

《孙文》谈到《应用回归分析》教材中有关加权最小二乘法残差图的问题。摆出了与加权最小二乘法相关的三类残差图，指出第三类残差图的局限性。直接的问题是三类残差图的作用，而更深层的原因应该是对加权最小二乘法统计思想的理解和认识上的差异。

二、对加权最小二乘法的认识

1. 加权最小二乘估计方法

拙作《应用回归分析》中对加权最小二乘法有详尽的讲述，这里仅做简要介绍。多元线

（1）普通最小二乘估计就是寻找参数的估计值使式（1）的离差平方和达极小。式（1）中每个平方项的权数相同，是普通最小二乘回归参数估计方法。在误差项等方差不相关的条件下，普通最小二乘估计是回归参数的最小方差线性无偏估计。

然而在异方差的条件下，平方和中的每一项的地位是不相同的，误差项的方差大的项，在式（1）平方和中的取值就偏大，在平方和中的作用就大，因而普通最小二乘估计的回归

线就被拉向方差大的项，方差大的项的拟合程度就好，而方差小的项的拟合程度就差。由式（1）求出的仍然是的无偏估计，但不再是最小方差线性无偏估计。

加权最小二乘估计的方法是在平方和中加入一个适当的权数，以调整各项在平方和中的作用，加权最小二乘的离差平方和为：

（2）加权最小二乘估计就是寻找参数的估计值使式（2）的离差平方和达极小。所得加权最小二乘经验回归方程记做

（3）

理论上最优的权数为误差项方差的倒数,

（4）误差项方差大的项接受小的权数，以降低其在式（2）平方和中的作用; 误差项方差小的项接受大的权数，以提高其在平方和中的作用。由（2）式求出的加权最小二乘估计就是参数的最小方差线性无偏估计。

一个需要解决的问题是误差项的方差是未知的,因此无法真正按照式（4）选取权数。在实际问题中误差项方差通常与自变量的水平有关,可以利用这种关系确定权数。例如与第j个自变量取值的平方成比例时,即 =k时,

（5）更一般的情况是误差项方差与某个自变量取值的幂函数成比例，即 =k ,其中m是待定的未知参数。此时权数为

（6）这时确定权数的问题转化为确定幂参数m的问题，可以借助SPSS软件解决。《应用回归》书中和《孙文》中都讲了这个方法，本文不再重述。需要注意的是，在实际问题中比例关系 =k 只是近似的，式（6）确定的权数只是式（4）最优权数的近似值，因此所得的参数最小二乘估计也只是近似的最小方差线性无偏估计。

2. 变量变换的加权最小二乘法

《孙文》中谈到：加权最小二乘法的实质是要对原始数据实施变换，获得新的解释变量和被解释变量，变换的方法是：

（表示变换后的被解释变量）（7）

，h=0,1,2,……,p （是对应于原始变量的新解释变量）（8）

对变换后的变量（）重新进行普通最小二成估计（注意，此处的回归模型不包含常数项，增加了数据变换后派生出的一个新解释变量），即可得到加权最小二乘法的经验回归方程：

（9）以上是《孙文》中对加权最小二乘法的解释，其中公式（7）、（8）、（9）分别对应《孙文》中的公式（3）、（4）、（5）。

3. 两种方法的异同

相同之处。显然，式（3）与式（9）两个回归方程是等价的，把式（3）同时乘以后就转化为式（9）。

拙作《应用回归分析》在正文中对加权变换残差图完全没有提及，不过“本章小结与评注”中的一句话“如果把误差项加权，那么加权的误差项是等方差的”，可以看作是对加权变换残差的诠释。

拙作《应用回归分析》关于加权普通残差图的内容是这样讲述的：“为了画残差图，需要计算出加权最小二乘估计的残差，这需要重新做回归。

第一步，在Weight Estimation对话框的Options选项中，保存最优权作为新的变量。

第二步，进入线性回归对话框，点选左下角的WLS，线性回归对话框会增加一行Weight 变量框，把在第一步保存的最优权变量选入。

第三步，点选线性回归对话框的Save选项，保存残差变量，运行。

第四步，以自变量x为横轴，以加权最小二乘估计的残差为纵轴画残差图”

这段内容的直接作用是介绍加权普通残差图的绘制方法，其间接作用是介绍SPSS软件加权最小二乘估计功能的使用方法，也就是“第二步”的内容。在SPSS软件中，加权最小二乘回归具有普通最小二乘回归的很多功能，包括共线性诊断、异常值判定、自相关分析、区间预测等等，这些功能都是以“第二步”的内容为基础的，计算残差只是众多功能之一而已。

用图形来评价结果往往只是一种粗糙的辅助手段。正像我们在拙作《应用回归分析》第121页“本章小结与评注”上强调指出：“关于异方差性的诊断，方法很多，至于哪种检验方法最好，目前还没有一致的看法。残差图方法直观但较粗糙。等级相关系数检验要比残差图检验方法更为可取。”

四、对异方差问题的深入思考

拙作《应用回归分析》教材定位于统计学专业的本科生或非统计学专业的硕士生，作为3学分54学时的课程教材，限制篇幅和深度，教材中对一些问题不可能全面展开叙述，在此对异方差的一些问题再做进一步探讨。

当回归模型存在异方差时，加权最小二乘估计只是对普通最小二乘估计的改进，这种改进有可能是细微的，不能理解为加权最小二乘估计会得到与普通最小二乘估计截然不同的回归方程，或者一定有大幅度的改进。对本例的数据，普通最小二乘的经验回归方程是，加权最小二乘的经验回归方程是，两者相差不大。比较加权普通残差图与普通残差图的差异就可以如实反映这种改进幅度。看来需要强调指出的是这个改进幅度不是指是否变为等方差了，而是指回归方程也就是回归系数估计值的差异幅度，在这一问题上加权普通残差图是优于加权变换残差图的。实际上，可以构造出这样的数据，回归模型存在很强的异方差，加权回归后变为等方差了，但是普通最小二乘与加权最小二乘所得的回归方程却完全一样。

加权最小二乘以牺牲大方差项的拟合效果为代价改善了小方差项的拟合效果，这也并不总是研究者所需要的。在社会经济现象中，通常变量取值大时方差也大，在以经济总量为研究目标时，更关心的是变量取值大的项，而普通最小二乘恰好能满足这个要求。动态数据的指数平滑法把近期数据加上大的权数，强调近期数据的贡献就是这样的统计思想。

加权最小二乘估计的理论权数是式（4），但是实际使用的只能是近似的，通常取为某个自变量平方的倒数，即。对本例的数据，取，加权最小二乘回归方程为，判定系

数 =0.933。而取最优权数所得加权最小二乘回归方程为， =0.936，两者非常接近。所以当手头没有SPSS软件时，直接取是一个可行的方法，这时对加权最小二乘回归的效果要用