多元线性回归(共线性 异方差 自相关)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二多重共线性的产生原因5其他三多重共线性的后果随着多重共线性程度的提高参数方差会急剧上升到很大的水平理论上使最小二乘法估计的有效性可靠性和价值都受到影响实践中参数估计的稳定性和可靠程度下降1具有较大的方差与协方差难以得到精确的估计4产生有偏的预测置信区间使预测失效
多元线性回归
南开大学商学院 周宝源
w1xi1 + w2 xi 2 + ... + wk xik = 0
a Collinearity Diagnostics
Model 1
Dimension Eigenvalue 1 2.930 2 6.971E-02 3 1.060E-04
Condition Index 1.000 6.483 166.245
Variance Proportions (Constant) X1 X2 .01 .00 .00 .98 .00 .00 .00 1.00 1.00
(二)原因
1、经济变量的惯性 、 2、模型设定偏琦:省略解释变量的影响 、模型设定偏琦: 3、模型设定偏琦:错误的函数形式的影响 、模型设定偏琦: 4、滞后效应 、 5、其他原因 、
二、自相关主要后果
很可能高估R 很可能高估 2。 t-检验与 检验结果都变得无效。 检验与F-检验结果都变得无效 检验与 检验结果都变得无效。 其他
a. Predictors: (Constant), X b. Dependent Variable: Y


例:变量X、Y的部分 变量 、 的部分 数据如右表所示。 数据如右表所示。 下面运用图示法进行 分析模型是否存在严 重的异方差现象。 重的异方差现象。
从Analyze → Regression → Linear 打开 Linear 线性回归主对话框 将自变量与因变量分别选入相应框中。 点击“Plot”按钮,在新打开的对话框中将 将“DEPENDNT”选入“X”框中,将“*ZRESID” “*ZRESID”选入“Y”框中. 点击“Continue” 点击“OK”
(二)状态指数
状态指数(condition index):
通常简称为CI。
通常认为:
CI值介于10与30之间时,认为存在中等程度的 多重共线性。 CI值在30以上时,认为存在严重多重共线性。
例: 分析以Y为因变量, X1和X2为自变量 的回归模型是否 存在多重共线性 问题。
SPSS操作
从Analyze → Regression → Linear 打 开Linear 线性回归主对话框 将自变量与因变量分别选入相应框中。 点击“Statistics”按钮,在新打开的对 话框中选中“Collinearity diagnostic”, diagnostic”, 点击“Continue” 点击“OK”
该图表 明本回 归模型 存在严 重的已 方差问 题。 方差越 来越小
Dependent Variable: Y
3
2
1
0
-1
-2 80 100 120 140 160 180 200 220
Y
第三节
自相关
一、问题和原因
(一)自相关概念
各随机误差项之间不独立, 各随机误差项之间不独立,则称其存在自相关或序列 相关性。 相关性。
三、杜宾-瓦森检验
检验误差序列正自相关性——D-W检验区域图
一阶自相关 无法判断 无一阶自相关性 无法判断 一阶负自相关
0
dL
dU
2
4 − dU
4 − dL
4
DW
粗略地说:当D-W指标在2附近,即可认 为模型不存在明显的(一阶)自相关。
四、自相关诊断举例
自变量X与因 变量Y如右表 所示。
从Analyze → Regression → Linear 打开 Linear 线性回归主对话框 将自变量与因变量分别选入相应框中。 点击“Statistics”按钮,在新打开的对话 话框中选中“Durbin-Watson”, 点击“Continue” 点击“OK”
t 3.669 1.144 -.526
Sig. .008 .290 .615
Collinearity Statistics Tolerance VIF .002 .002 482.128 482.128
a. Dependent Variable: Y
最大的CI显著超过30,表明回归模型模型存 在严重的多重共线性。
两个自变量对应的VIF均显著超过10 ( tolerance 均小于0.1),所以回归模 型存在严重的多重共线性。
Coefficientsa Standardi zed Coefficien ts Beta 1.814 -.834
Model 1
(Constant) X1 X2
Unstandardized Coefficients B Std. Error 24.775 6.752 .942 .823 -4.24E-02 .081
查D-W 检验统计表知: N=25(样本容量);k=1(自变量个数) dL=1.288 dU=1.454 由于D-W值为0.353,小于dL,所以认为 存在一阶正自相关。 b
Model Summary Adjusted R Square .974 Model 1 R .987a R Square .975 Std. Error of the Estimate 4.51 Durbin-W atson .353
二、多重共线性的产生原因
1、经济变量间的内在关系 、 2、经济变量在时间上有同方向变动的趋 、 势 3、分布滞后变量模型的广泛应用 、 4、模型设定的偏误 、 5、其他 、
三、多重共线性的后果
随着多重共线性程度的提高,参数方差会急剧 上升到很大的水平,理论上使最小二乘法估计 的有效性、可靠性和价值都受到影响,实践中 参数估计的稳定性和可靠程度下降 1、具有较大的方差与协方差,难以得到精确 、具有较大的方差与协方差, 的估计 2、使得参数估计值很不稳定 、 3、使得 检验得出误导性的结果 、使得t检验得出误导性的结果 4、产生有偏的预测置信区间,使预测失效。 、产生有偏的预测置信区间,使预测失效。
四、多重共线性的诊断
(一)方差扩大因子 (二)容忍度 (三)状态指数
(一)方差扩大因子
方差扩大因子VIF
对每个解释变量Xk,可以计算VIFk 通常认为方差扩大因子大于10时,第 k 个解 释变量存在较强的、必须加以处理的多重共线 性。
(二)容忍度
容忍度(tolerance),也称为容许度,它是 方差膨胀因子的倒数。 因此,一般认为容忍度小于0.1时(对应于 VIF大于10),相应自变量存在较强的、必 须加以处理的多重共线性。
Scatterplot Dependent Variable: Y
3
Regression Standardized l
2
1
0
-1
-2 80 100 120 140 160 180 200 220
Y
Scatterplot
Regression Standardized Residual
回归模型诊断,2,..., n) (i = 1
第一节 w x + w x 多重共线性= 1,2,..., n) + ... + w x = 0 (i
1 i1 2 i2 k ik
一、基本概念
(一)完全多重共线性 指线性回归模型中的若干解释变量或全部 解释变量的样本观察值之间具有某种严格 的线性关系。 的线性关系。 (二)近似多重共线性 指线性回归模型中的若干解释变量或全部 解释变量的样本观察值之间存在着近似的 线性关系。 线性关系。
第二节 异方差性
一、异方差的概念
二、异方差产生的原因
(一)数据质量原因 (二)模型设定原因 1、因变量的测量误差 、 2、省略某些自变量 、 3、模型数学形式设定错误 、 4、随机系数模型 、 5、异常值的出现 、
三、异方差性的后果
1、回归系数估计结果误差较大 2、有关统计检验失去意义 3、模型的预测失效
a. Dependent Variable: Y
多重共线性的其他诊断方法
1. R2很高,Y与各自变量的相关系数也很高, 但自变量的回归系数均不显著或显著不为零的 回归系数较少; 2.某两个自变量的相关系数较高; 3.从直观上知,某自变量与其他自变量存在函 数关系 4.回归系数估计结果在符号上与有关理论或经 验相反。 5 . 其他方法
相关文档
最新文档