多元线性回归中多重共线性的处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
RSS e2 Y Y 2
根据微积分中求极小值的原理,可知残差平方和 RSS 存在极小值,欲使 RSS 达到 最小, RSS 对回归方程中的回归参数 0 , 1 , p 的偏导数必须等于零。将 RSS 对
0 , 1 ,
p 求偏导,并令其等于零,加以整理后可得到 p 1 个方程(称为正规方程组
CSU
多元线性回归中多重共线性的处理
——《回归分析》结课论文
姓 班 学
名: 级: 号:
指导老师:
liuwenying 2011/1/12
中南大学数学院统计系
目录
多元线性回归中多重共线性的处理 ................................................................................................... 3 1. 引言 ........................................................................................................................................... 3 2. 多元线性回归 ........................................................................................................................... 3 2.1 2.2 2.3 多元线性回归分析的基本假定 ........................................................................................ 4 回归参数的最小二乘估计及其性质 ................................................................................ 4 上海市全社会固定投资影响因素分析 ............................................................................ 4
因而 INV 对 8 个自变量的线性回归方程为
INV 108.828 0.838 x1 2.035 x2 1.296 x3 1.372 x4 0.122 x5 0.169 x6 0.674 x7 0.529 x8
表格 3 模型汇总
方程 1 复相关系数 R 方 调整 R 方 估计的标准误 .999 .999 .997 66.658
3. 多重共线性 ............................................................................................................................... 6 多重共线性的诊断——方差扩大因子法 ................................................................................... 7 4. 主成分回归 ............................................................................................................................... 7 5. 岭回归 ..................................................................................................................................... 10 5.1 5.2 岭参数选择 ...................................................................................................................... 11 用岭回归选择变量 .......................................................................................................... 11
2. 多元线性回归 1
在实际的经济活动中,某一现象的变动经常受多种现象变动的影响。影响因变量 的自变量通常不是一个,而是多个,这就产生了测定多因素之间的相关关系的问题。 研究在线性相关条件下,两个和两个以上自变量对一个因变量的数量变化关系, 称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。 假定因变量 y 与 p 个自变量 x1 , x2 , 多元线性回归模型的一般形式如下:
2
中南大学数学院统计系
多元线性回归中多重共线性的处理
摘要: 多元线性回归中,研究一个变量与多个变量之间的线性相关关系,多个变 量之间难免存在多重共线性,故利用普通最小二乘估计所得结果不理想。在消除多重 共线性问题时,本文利用方差扩大因子对多重共线性进行判别。主要使用主成分分析 和岭回归来对多重共线性问题进行了探讨。同时,结合实际经济问题,对上海市全社 会固定资产投资影响因素问题进行了完整的实证分析。 关键词:多元线性回归 最小二乘估计 多重共线性 主成分分析 岭回归
6. 三次回归结果比较分析.......................................................................................................... 16 7. 参考文献 ................................................................................................................................. 17 8. 附录 ......................................................................................................................................... 18
表格 1 多元线性回归基本假定
假定名称 正态性 对扰动项 的假定 零均值 同方差 互独立 非随机 对自变量 X 的假定 对 X 与 的假定 不相关 不相关
假定条件
N 0, 2 且
Cov i , j 0
i j
解释是确定型变量 解释变量间不存在 线性相关关系
x p 之间的回归关系可以用线性函数来近似反映。
Y 0 1 X1
p X p
(1)
3
中南大学数学院统计系
其中, 是随机扰动项; 1 , 2 , 叫做偏回归参数。
p 是总体回归参数。 j 表示在其他自变量保持
不变的情况下,自变量 X j 变动一个单位所引起的因变量 Y 平均变动的单位数,因此又 2.1 多元线性回归分析的基本假定 多元线性回归模型基本假定如下表所示:
或标准方程) ,通过求解这一方程组便可以得到 0 , 1 ,
p 。
多元线性回归模型中回归参数的最小二乘估计量是随机变量。数学上可以证明, 在标准假定条件可以得到满足的情况下,多元回归模型中回归参数最小二乘估计量是 最优线性无偏估计量(BLUE)和一致估计量。在标准的多元回归模型中,高斯-马尔可 夫定理成立。 2.3 上海市全社会固定投资影响因素分析 本文从 《上海统计年鉴 2010》 中得到相关数据, 分别为 INV 社会固定资产投资, x1 国有经济投资,x2 集体经济投资,x3 股份制经济投资,x4 港澳台、外商投资,x5 地区生产总值,x6 社会存量,x7 财政收入,x8 财政支出。由于数据年限限制,选取 1993 年~2009 年的数据进行多元线性回归,其中各变量单位均为亿元。
1. 引言
在生产实践中,人们关心的某些指标往往同时受到多个变量的影响,多元线性回 归研究的就是因变量 y 与 p 个自变量 x1 , x2 , x p 之间的线性回归关系。 多元线性回归与 一元线性回归的基本假设唯一不同之处为要求该 p 个自变量之间不存在线性关系,不 然最小二乘估计结果就会存在很大的问题。 本文参照《上海市统计年鉴 2010》中的数据,提取 x1 国有经济Hale Waihona Puke Baidu资,x2 集体经 济投资, 外商投资, x3 股份制经济投资, x4 港澳台、 x5 地区生产总值, x6 社会存量, x7 财政收入,x8 财政支出,以研究影响上海市社会固定资产投资(INV)的因素。首 先使用最小二乘估计得到回归方程,发现结果很不理想,由方差扩大因子法可知变量 之间存在严重的多重共线性。为消除多重共线性,使用主成分回归,得到回归方程。 而近代回归分析针对多重共线性,提出一种改进最小二乘估计的方法——岭回归。本 文亦利用岭回归,对文中实证分析的内容进行研究,最终得到岭回归方程。 在文章最后,比较分析最小二乘估计、主成分分析和岭回归的回归方程,在定性 和定量方面给出分析结果。
Cov X , 0
符合基本假定的多元回归模型称为标准的多元线性回归模型。这些假定对于回归 模型的估计和检验是很重要的,如果无法满足这些假定,模型参数的普通最小二乘估 计将存在一系列问题。 2.2 回归参数的最小二乘估计及其性质 多元线性回归模型中回归参数的估计可用最小二乘法进行估计,有残差平方和
(3)
表格 4 方差分析表
平方和 方程 1 回归 残差 总计 28217182.117 35546.068 28252728.185 df 8 8 16 均方 3527147.765 4443.259 F 793.820 Sig. .000
分析表 3 和表 4,发现上述回归方程的拟合优度接近于 1,且整体显著性检验的 F 值为 793.820,伴随概率为 0.000,小于显著性水平 0.05。所以总体上来说,INV 对 也就是说 INV 可以由该 8 个变量回归得到。 再分析表 2, 8 个自变量的线性关系成立, 发现 x5 地区生产总值,x6 社会存量的回归系数均小于 0。但是实际上,地区生产总 值越大,社会存量越多,越有利于全社会固定资产投资额的增加,因此这两个自变量 的回归系数没有经济意义。 而且各个回归系数的 t 统计量的伴随概率都较大, 也就是说
4
中南大学数学院统计系
建立回归模型
INV 0 1 x1 2 x2 8 x8
(2)
用 SPSS 软件计算出回归系数见输出结果
表格 2 回归系数表
模型 非标准化系数 B 1(常量) 国有经济 集体经济 股份制经济 港澳台、外商投资 地区生产总值 社会存量 财政收入 财政支出 a. 因变量: 社会固定资产投资 108.828 .838 2.035 1.296 1.372 -.122 -.169 .674 .529 标准 误差 170.655 .204 .967 .330 .272 .097 .160 .402 .328 .365 .080 .385 .239 -.394 -.218 .400 .353 标准系数 试用版 t .638 4.108 2.104 3.928 5.042 -1.263 -1.056 1.676 1.612 Sig. .541 .003 .069 .004 .001 .242 .322 .132 .146 .020 .107 .016 .070 .002 .004 .003 .003 50.075 9.306 61.097 14.289 619.414 271.710 362.377 304.770 共线性统计量 容差 VIF
根据微积分中求极小值的原理,可知残差平方和 RSS 存在极小值,欲使 RSS 达到 最小, RSS 对回归方程中的回归参数 0 , 1 , p 的偏导数必须等于零。将 RSS 对
0 , 1 ,
p 求偏导,并令其等于零,加以整理后可得到 p 1 个方程(称为正规方程组
CSU
多元线性回归中多重共线性的处理
——《回归分析》结课论文
姓 班 学
名: 级: 号:
指导老师:
liuwenying 2011/1/12
中南大学数学院统计系
目录
多元线性回归中多重共线性的处理 ................................................................................................... 3 1. 引言 ........................................................................................................................................... 3 2. 多元线性回归 ........................................................................................................................... 3 2.1 2.2 2.3 多元线性回归分析的基本假定 ........................................................................................ 4 回归参数的最小二乘估计及其性质 ................................................................................ 4 上海市全社会固定投资影响因素分析 ............................................................................ 4
因而 INV 对 8 个自变量的线性回归方程为
INV 108.828 0.838 x1 2.035 x2 1.296 x3 1.372 x4 0.122 x5 0.169 x6 0.674 x7 0.529 x8
表格 3 模型汇总
方程 1 复相关系数 R 方 调整 R 方 估计的标准误 .999 .999 .997 66.658
3. 多重共线性 ............................................................................................................................... 6 多重共线性的诊断——方差扩大因子法 ................................................................................... 7 4. 主成分回归 ............................................................................................................................... 7 5. 岭回归 ..................................................................................................................................... 10 5.1 5.2 岭参数选择 ...................................................................................................................... 11 用岭回归选择变量 .......................................................................................................... 11
2. 多元线性回归 1
在实际的经济活动中,某一现象的变动经常受多种现象变动的影响。影响因变量 的自变量通常不是一个,而是多个,这就产生了测定多因素之间的相关关系的问题。 研究在线性相关条件下,两个和两个以上自变量对一个因变量的数量变化关系, 称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。 假定因变量 y 与 p 个自变量 x1 , x2 , 多元线性回归模型的一般形式如下:
2
中南大学数学院统计系
多元线性回归中多重共线性的处理
摘要: 多元线性回归中,研究一个变量与多个变量之间的线性相关关系,多个变 量之间难免存在多重共线性,故利用普通最小二乘估计所得结果不理想。在消除多重 共线性问题时,本文利用方差扩大因子对多重共线性进行判别。主要使用主成分分析 和岭回归来对多重共线性问题进行了探讨。同时,结合实际经济问题,对上海市全社 会固定资产投资影响因素问题进行了完整的实证分析。 关键词:多元线性回归 最小二乘估计 多重共线性 主成分分析 岭回归
6. 三次回归结果比较分析.......................................................................................................... 16 7. 参考文献 ................................................................................................................................. 17 8. 附录 ......................................................................................................................................... 18
表格 1 多元线性回归基本假定
假定名称 正态性 对扰动项 的假定 零均值 同方差 互独立 非随机 对自变量 X 的假定 对 X 与 的假定 不相关 不相关
假定条件
N 0, 2 且
Cov i , j 0
i j
解释是确定型变量 解释变量间不存在 线性相关关系
x p 之间的回归关系可以用线性函数来近似反映。
Y 0 1 X1
p X p
(1)
3
中南大学数学院统计系
其中, 是随机扰动项; 1 , 2 , 叫做偏回归参数。
p 是总体回归参数。 j 表示在其他自变量保持
不变的情况下,自变量 X j 变动一个单位所引起的因变量 Y 平均变动的单位数,因此又 2.1 多元线性回归分析的基本假定 多元线性回归模型基本假定如下表所示:
或标准方程) ,通过求解这一方程组便可以得到 0 , 1 ,
p 。
多元线性回归模型中回归参数的最小二乘估计量是随机变量。数学上可以证明, 在标准假定条件可以得到满足的情况下,多元回归模型中回归参数最小二乘估计量是 最优线性无偏估计量(BLUE)和一致估计量。在标准的多元回归模型中,高斯-马尔可 夫定理成立。 2.3 上海市全社会固定投资影响因素分析 本文从 《上海统计年鉴 2010》 中得到相关数据, 分别为 INV 社会固定资产投资, x1 国有经济投资,x2 集体经济投资,x3 股份制经济投资,x4 港澳台、外商投资,x5 地区生产总值,x6 社会存量,x7 财政收入,x8 财政支出。由于数据年限限制,选取 1993 年~2009 年的数据进行多元线性回归,其中各变量单位均为亿元。
1. 引言
在生产实践中,人们关心的某些指标往往同时受到多个变量的影响,多元线性回 归研究的就是因变量 y 与 p 个自变量 x1 , x2 , x p 之间的线性回归关系。 多元线性回归与 一元线性回归的基本假设唯一不同之处为要求该 p 个自变量之间不存在线性关系,不 然最小二乘估计结果就会存在很大的问题。 本文参照《上海市统计年鉴 2010》中的数据,提取 x1 国有经济Hale Waihona Puke Baidu资,x2 集体经 济投资, 外商投资, x3 股份制经济投资, x4 港澳台、 x5 地区生产总值, x6 社会存量, x7 财政收入,x8 财政支出,以研究影响上海市社会固定资产投资(INV)的因素。首 先使用最小二乘估计得到回归方程,发现结果很不理想,由方差扩大因子法可知变量 之间存在严重的多重共线性。为消除多重共线性,使用主成分回归,得到回归方程。 而近代回归分析针对多重共线性,提出一种改进最小二乘估计的方法——岭回归。本 文亦利用岭回归,对文中实证分析的内容进行研究,最终得到岭回归方程。 在文章最后,比较分析最小二乘估计、主成分分析和岭回归的回归方程,在定性 和定量方面给出分析结果。
Cov X , 0
符合基本假定的多元回归模型称为标准的多元线性回归模型。这些假定对于回归 模型的估计和检验是很重要的,如果无法满足这些假定,模型参数的普通最小二乘估 计将存在一系列问题。 2.2 回归参数的最小二乘估计及其性质 多元线性回归模型中回归参数的估计可用最小二乘法进行估计,有残差平方和
(3)
表格 4 方差分析表
平方和 方程 1 回归 残差 总计 28217182.117 35546.068 28252728.185 df 8 8 16 均方 3527147.765 4443.259 F 793.820 Sig. .000
分析表 3 和表 4,发现上述回归方程的拟合优度接近于 1,且整体显著性检验的 F 值为 793.820,伴随概率为 0.000,小于显著性水平 0.05。所以总体上来说,INV 对 也就是说 INV 可以由该 8 个变量回归得到。 再分析表 2, 8 个自变量的线性关系成立, 发现 x5 地区生产总值,x6 社会存量的回归系数均小于 0。但是实际上,地区生产总 值越大,社会存量越多,越有利于全社会固定资产投资额的增加,因此这两个自变量 的回归系数没有经济意义。 而且各个回归系数的 t 统计量的伴随概率都较大, 也就是说
4
中南大学数学院统计系
建立回归模型
INV 0 1 x1 2 x2 8 x8
(2)
用 SPSS 软件计算出回归系数见输出结果
表格 2 回归系数表
模型 非标准化系数 B 1(常量) 国有经济 集体经济 股份制经济 港澳台、外商投资 地区生产总值 社会存量 财政收入 财政支出 a. 因变量: 社会固定资产投资 108.828 .838 2.035 1.296 1.372 -.122 -.169 .674 .529 标准 误差 170.655 .204 .967 .330 .272 .097 .160 .402 .328 .365 .080 .385 .239 -.394 -.218 .400 .353 标准系数 试用版 t .638 4.108 2.104 3.928 5.042 -1.263 -1.056 1.676 1.612 Sig. .541 .003 .069 .004 .001 .242 .322 .132 .146 .020 .107 .016 .070 .002 .004 .003 .003 50.075 9.306 61.097 14.289 619.414 271.710 362.377 304.770 共线性统计量 容差 VIF