多重共线性处理经典例题
多重共线性及其处理
第七章 多重共线性及其处理
一、简答题
1.什么是变量之间的多重共线性?
2.什么是完全多重共线性?什么是不完全多重共线性?
3.多重共线性在多元线性回归模型中普遍存在的主要原因有哪些? 4.多重共线性可能造成哪些不利后果? 5.多重共线性的检验有哪些适当的方法? 6.多重共线性的修正方法有哪些?
二、计算题分析题
1.某地区供水部门利用最近20年的用水年度数据得出如下估计模型:
12345
ˆ326.90.3050.3630.00517.87 1.123Y X X X X X =-++--- (-1.7) (0.9) (1.4) (-0.6) (-1.2) (-0.8)
93.02=R
F=38.9
式中,y ——用水总量(百万立方米),1x ——住户总数(千户),2x ——总人口(千人),
3x ——人均收入(元),4x ——价格(元/100立方米),5x ——降雨量(毫米)。
(1)根据经济理论和直觉,请计回归系数的符号是什么(不包括常量),为什么?观察符
号与你的直觉相符吗?
(2)在10%的显著性水平下,请进行变量的t 检验与方程的F-检验。T 检验与F 检验结果有相矛盾的现象吗?
(3)你认为估计值是(1)有偏的;(2)无效的;(3)不一致的吗?详细阐述理由。 2.下表是某地区1995年~2004年食品需求量Y 、可支配收入1X 、食品类价格指数2X 、 物价总指数3X 和流动资产拥有量4X 的数据资料。
食品需求函数有关统计资料
问题:
(1)检验变量间的多重共线性。
(2)利用Frish 法,建立适当的回归方程。
回归模型中多重共线性的情形及其处理
丫= 1+ 8人-4人+ 3为=1 + 8人-(3X2+ 2)+ 3为=7+ 8人-9%
(1.5)
在(1.4)中,X2的系数为12,表示丫与为成正比例关系,即正相关;而在(1.5)中,X2的系数为-9,表示丫与X?成负比例关系,即负相关。如此看来,同一个方程丫= 1+ 4片+ 3X2变换出的两个等价方程,由于不同的因式分解和替换,导致两个方程两种表面上矛盾的结果。
实际上,根据X1 = 3为+ 2式中的X1与为的共线性,X1约相当于3X2, 在(1.4)减少了3人,即需要用9个X2来补偿;而在(1.5)增加了4人, 需要用12个X2来抵消,以便保证两个方程的等价性,这样一来使得(1.5)中为的系数变为了负数。从上述分析看来,由于X i与勺的共线性,使得同一个方程有不同的表达形式,从而使得丫与为间的关系难以用系数解释。2•对多重线性关系的初步估计与识别
如果在实际应用中产生了如下情况之一,则可能是由于多重共线性的存在而造成的,需作进一步的分析诊断。
①增加(或减去)一个变量或增加(或剔除)一个观察值,回归系数发生了较大变化。
②实际经验中认为重要的自变量的回归系数检验不显著。
③回归系数的正负号与理论研究或经验相反。
④在相关矩阵中,自变量的相关系数较大。
⑤自变量回归系数可信区间范围较广等。
3•对多重共线性本质的认识
多重共线性可分为完全多重共线性和近似多重共线性(或称高度相关性),现在我们集中讨论多重共线性的本质问题。多重共线性普遍被认为是数据问题或者说是一种样本现象。我们认为,这种普遍认识不够全面,对多重共线性本质的认识,至少可从以下几方面解解。
第七章(1)多重共线性(计量经济学-浙江大学韩菁)
恰为X1与X2的线性相关系数的平方r2
由于 r2 1,故 1/(1- r2 )1
当完全不共线时, r2 =0 当近似共线时, 0< r2 <1 当完全共线时, r2=1,
X1与X2之间呈完全线性关系 0 1X1 i
虽可得到0、1,但无 法得到0、1、 2 。
在矩阵表示的线性回归模型
Y=X+ 中,完全共线性指:秩(X)<k+1,即
1 X11 X 21 X k1
X
1
X 12
X 22
Xk2
如果某两个或多个解释变量之间出现了相 关性,则称为多重共线性(Multicollinearity)。
如果存在
c1X1i+c2X2i+…+ckXki=0
i=1,2,…,n
其中: ci不全为0,即某一解释变量可以用其他解释
变量的线性组合表示,则称为解释变量间存在完全
共线性(perfect multicollinearity)。 如果存在
2(X
X
) 1 11
2 x22i
2 / x12i
x12i x22i ( x1i x2i )2 1 ( x1i x2i )2
x12i
x22i
( x1i x2i )2 x12i x22i
多重共线性习题及答案
多重共线性
一、单项选择题
1、当模型存在严重的多重共线性时,OLS估计量将不具备()
A、线性
B、无偏性
C、有效性
D、一致性
2、经验认为某个解释与其他解释变量间多重共线性严重的情况是这个解释变量的VIF()
A、大于
B、小于
C、大于5
D、小于5
3、模型中引入实际上与解释变量有关的变量,会导致参数的OLS估计量方差()
A、增大
B、减小
C、有偏
D、非有效
4、对于模型y t=b0+b1x1t+b2x2t+u t,与r12=0相比,r12=0.5时,估计量的方差将是原来的()
A、1倍
B、1.33倍
C、1.8倍
D、2倍
5、如果方差膨胀因子VIF=10,则什么问题是严重的()
A、异方差问题
B、序列相关问题
C、多重共线性问题
D、解释变量与随机项的相关性
6、在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近于1,则表明模型中存在( )
A 异方差
B 序列相关
C 多重共线性
D 高拟合优度
7、存在严重的多重共线性时,参数估计的标准差()
A、变大
B、变小
C、无法估计
D、无穷大
8、完全多重共线性时,下列判断不正确的是()
A、参数无法估计
B、只能估计参数的线性组合
C、模型的拟合程度不能判断
D、可以计算模型的拟合程度
二、多项选择题
1、下列哪些回归分析中很可能出现多重共线性问题()
A、资本投入与劳动投入两个变量同时作为生产函数的解释变量
B、消费作被解释变量,收入作解释变量的消费函数
C、本期收入和前期收入同时作为消费的解释变量的消费函数
D、商品价格、地区、消费风俗同时作为解释变量的需求函数
E、每亩施肥量、每亩施肥量的平方同时作为小麦亩产的解释变量的模型
第四章多重共线性实例
0.9775 1.80
t值
-0.97 9.61 3.57 -3.09 -1.55
Y=f(X1,X2,X3,X5) -12690 5.22 0.40 -0.20
0.07 0.9798 1.55
t值
-0.87 17.85 3.02 -3.47
0.37
5、结论
回归方程以 Y =f(X1,X2,X3)为最优:
Yˆ 30867 .64 4.576 X1
(25.58) (11.49)
R2=0.8919 F=132.1 DW=1.56
Yˆ 33821 .18 0.699 X 2
(-0.49) (1.14) R2=0.075 F=1.30 DW=0.12
Yˆ 31919 .0 0.380 X 4
(17.45) (6.68) R2=0.7527 F=48.7 DW=1.11
2930.2
110560 25894.7
30308
3151.9
110509 23133.0
31817
3317.9
109544 31383.0
33802
3593.7
110060 22267.0
36118
3827.9
112548 21233.0
38547
3980.7
112912 30309.0
42016
多重共线性习题
多重共线性
习 题
一、单项选择题
1.如果回归模型中解释变量之间存在完全的多重共线性,则最小二乘估计量( )
A.不确定,方差无限大
B.确定,方差无限大
C.不确定,方差最小
D.确定,方差最小 2.多元线性回归模型中,发现各参数估计量的t 值都不显著,但模型的
,)(22很大或R R F 值确很显著,这说明模型存在( )
A .多重共线性
B .异方差
C .自相关
D .设定偏误 3.逐步回归法既检验又修正了( )
A .异方差性 B.自相关性 C .随机解释变量 D.多重共线性 4.如果模型中的解释变量存在完全的多重共线性,参数的最小二乘估计量是( )
A .无偏的 B. 有偏的 C. 不确定 D. 确定的 5.设线性回归模型为01122i i i i Y X X u βββ=+++,下列表明变量之间具有完全多重共线性的是( )
A .1202*0*0i i X X ++=
B .1202*0*0i i X X v +++=
C .1200*0*0i i X X ++=
D .1200*0*0i i X X v +++= 其中v 为随机误差项
6.简单相关系数矩阵方法主要用于检验( )
A .异方差性 B.自相关性 C .随机解释变量 D.多重共线性 7.设21,x x 为解释变量,则完全多重共线性是( )
221211211
.0.0
21
.
0(.0
2x x A x x B x e C x x v v D x e +==++=+=为随机误差项)
8.下列说法不正确的是( )
A. 多重共线性产生的原因有模型中大量采用滞后变量
多重共线性案例
多重共线性案例:
变量Y,X1,X2,X3,X4,X5的数据
年Y X1X2X3X4X5
1974 98.45 560.2 153.20 6.53 1.23 1.89
1975 100.70 603.11 190.00 9.12 1.30 2.03
1976 102.80 668.05 240.30 8.10 1.80 2.71
1977 133.95 715.47 301.12 10.10 2.09 3.00
1978 140.13 724.27 361.00 10.93 2.39 3.29
1979 143.11 736.13 420.00 11.85 3.90 5.24
1980 146.15 748.91 491.76 12.28 5.13 6.83
1981 144.60 760.32 501.00 13.50 5.47 8.36
1982 148.94 774.92 529.20 15.29 6.09 10.07
1983 158.55 785.30 552.72 18.10 7.97 12.57
1984 169.68 795.50 771.16 19.61 10.18 15.12
1985 162.14 804.80 811.80 17.22 11.79 18.25
1986 170.09 814.94 988.43 18.60 11.54 20.59
1987 178.69 828.73 1094.65 23.53 11.68 23.37
资料来源:《天津统计年鉴》1988.
用1974-1987年数据建立天津市粮食需求模型如下,
多重共线性习题及答案
多重共线性习题及答案
多重共线性
一、单项选择题
1、当模型存在严重的多重共线性时,OLS估计量将不具备()
A、线性
B、无偏性
C、有效性
D、一致性
2、经验认为某个解释与其他解释变量间多重共线性严重的情况是这个解释变量的VIF()
A、大于
B、小于
C、大于5
D、小于5
3、模型中引入实际上与解释变量有关的变量,会导致参数的OLS 估计量方差()
A、增大
B、减小
C、有偏
D、非有效
4、对于模型y t=b0+b1x1t+b2x2t+u t,与r12=0相比,r12=
0.5时,估计量的方差将是原来的()
A、1倍
B、1.33倍
C、1.8倍
D、2倍
5、如果方差膨胀因子VIF=10,则什么问题是严重的()
A、异方差问题
B、序列相关问题
C、多重共线性问题
D、解释变量与随机项的相关性
6、在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近于1,则表明模型中存在( )
A 异方差
B 序列相关
C 多重共线性
D 高拟合优度
7、存在严重的多重共线性时,参数估计的标准差()
A、变大
B、变小
C、无法估计
D、无穷大
8、完全多重共线性时,下列判断不正确的是()
A、参数无法估计
B、只能估计参数的线性组合
C、模型的拟合程度不能判断
D、可以计算模型的拟合程度
二、多项选择题
1、下列哪些回归分析中很可能出现多重共线性问题()
A、资本投入与劳动投入两个变量同时作为生产函数的解释变量
B、消费作被解释变量,收入作解释变量的消费函数
C、本期收入和前期收入同时作为消费的解释变量的消费函数
D、商品价格、地区、消费风俗同时作为解释变量的需求函数
多重共线性处理经典例题
理论上认为影响能源消费需求总量的因素主要有经济发展水平、收入水平、产业发展、人民生活水平提高、能源转换技术等因素。为此,收集了中国能源消费总量Y (万吨标准煤)、国民总收入(亿元)X1(代表收入水平)、国内生产总值(亿元)X2(代表经济发展水平)、工业增加值(亿元)X3、建筑业增加值(亿元)X4、交通运输邮电业增加值(亿元)X5(代表产业发展水平及产业结构)、人均生活电力消费(千瓦小时)X6(代表人民生活水平提高)、能源加工转换效率(%)X7(代表能源转换技术)等在1985-2007年期间的统计数据,具体如表4.2所示。
表4.12 1985~2007年统计数据
资料来源:《中国统计年鉴》,中国统计出版社2000、2008年版。
要求:
1)建立对数多元线性回归模型,分析回归结果。
2)如果决定用表中全部变量作为解释变量,你预料会遇到多重共线性的问题吗?为什么?
3)如果有多重共线性,你准备怎样解决这个问题?明确你的假设并说明全部计算。
参考解答:
(1)建立对数线性多元回归模型,引入全部变量建立对数线性多元回归模型如下:
生成: lny=log(y), 同样方法生成: lnx1,lnx2,lnx3,lnx4,lnx5,lnx6,lnx7.
作全部变量对数线性多元回归,结果为:
从修正的可决系数和F统计量可以看出,全部变量对数线性多元回归整体对样本拟合很好,,各变量联合起来对能源消费影响显著。可是其中的lnX3、lnX4、lnX6对lnY影响不显著,而且lnX2、lnX5的参数为负值,在经济意义上不合理。所以这样的回归结果并不理想。
多重共线性试题及答案
第四章 多重共线性
一、单项选择题
1、完全的多重共线性是指解释变量的数据矩阵的秩( B )
(A )大于k+1 (B )小于k+1 (C )等于k+1 (D )等于k+1
2、当模型存在严重的多重共线性时,OLS 估计量将不具备( D )
(A )线性 (B )无偏性 (C )有效性 (D )一致性
3、如果每两个解释变量的简单相关系数比较高,大于( D )时则可认为存在着较严重的多重共线性。
(A )0.5 (B )0.6 (C )0.7 (D )0.8
4、方差扩大因子VIF j 可用来度量多重共线性的严重程度,经验表明,VIF j ( A )时,说明解释变量与其余解释变量间有严重的多重共线性。
(A )大于5 (B )大于1 (C )小于1 (D )大于10
5、对于模型01122i i i i y x x u βββ=+++,与r 23等于0相比,当r 23等于0.5时,3
ˆβ的方差将是原来的(C ) (A )2倍 (B )1.5倍 (C )1.33倍 (D )1.25倍
6、无多重共线性是指数据矩阵的秩( D )
(A )小于k (B )等于k (C )大于k (D )等于k+1
7、无多重共线性假定是假定各解释变量之间不存在( A )
(A )线性关系 (B )非线性关系 (C )自相关 (D )异方差
8、经济变量之间具有共同变化的趋势时,由其构建的计量经济模型易产生( C )
(A )异方差 (B )自相关
(C )多重共线性 (D )序列相关
9、完全多重共线性产生的后果包括参数估计量的方差( C )
多重共线性问题的几种解决方式
多重共线性问题的几种解决方式在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X1,X2,……,X k中的任何一个都不能是其他解释变量的线性组合。若是违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。
这里,咱们总结了8个处置多重共线性问题的可用方式,大家在碰到多重共线性问题时可作参考:
1、保留重要解释变量,去掉次要或可替代解释变量
2、用相对数变量替代绝对数变量
3、差分法
4、慢慢回归分析
5、主成份分析
6、偏最小二乘回归
7、岭回归
8、增加样本容量
这次咱们主要研究慢慢回归分析方式是如何处置多重共线性问题的。
慢慢回归分析方式的大体思想是通过相关系数r、拟合优度R2和标准误差三个方面综合判断一系列回归方程的好坏,从而取得最优回归方程。具体方式分为两步:
第一步,先将被解释变量y对每一个解释变量作简单回归:
对每一个回归方程进行统计查验分析(相关系数r、拟合优度R2和标准误差),并结合经济理论分析选出最优回归方程,也称为大体回归方程。
第二步,将其他解释变量一一引入到大体回归方程中,成立一系列回归方程,按照每一个新加的解释变量的标准差和复相关系数来考察其对每一个回归系数的影响,一般按照如下标准进行分类判别:
1.若是新引进的解释变量使R2取得提高,而其他参数回归系数在统计上和经济理论上仍然合理,则以为这个新引入的变量对回归模型是有利的,可以作为解释变量予以保留。
第六章多重共线性及其处理
§6.3 多重共线性的诊断
二种主要方法
❖ 方差扩大因子法 ❖ 特征根判定法
一 方差扩大因子法
对自变量做标准化变换
x*ij xij x j , i 1,2,, n, j 1,2,, p L jj
1
令 X * (x*ij ) ,则
X*
X*
(rij
)
r21
r12 1
r1p r2 p
共线性。
多重共线性分为二类:
1、完全多重共线性
存在不全为零的 p+1 个数 C0 ,C1,C2 ,,Cp 使得 C0 C1xi1 C2xi2 Cp xip 0 , i 1,2,, n
2、不完全多重共线性(复共线性)
存在不全为零的 p+1 个数 C0 ,C1,C2 ,,Cp 使得 C0 C1xi1 C2xi2 Cp xip 0 , i 1,2,, n
X1 X 0 0 , E( ) 0, cov( ) 2I ,
为
0
(
p
1)
1
阶回归系数向量,对此模型,
n
总离差平方和为 X1X1 1, (SST (Yi Y )2 ) i 1
回归平方和为SSR Xˆ1Xˆ1
n
(SSR ( yˆi y)2 YˆYˆ ( X ˆ)( X ˆ)) i 1
)L22
从上式可看出,当 X1 与 X 2 的相关性增大时,即 r12 1时,
多重共线性案例分析
ln Y = 2.1898 + 0.3426ln X1 − 0.5046ln X 2 + 0.1485ln X3 + 0.0911ln X 4 se = ( 0.1557) ( 0.0833) ( 0.1109 ) ( 0.0997 ) ( 0.1007 ) (1.49 ) ( 0.90 ) ( −4.55) t = (14.06 ) ( 4.11)
估计方程及报告结果
Dependent Variable: LOG(Y) Method: Least Squares Date: 10/11/10 Time: 21:40 Sample: 1960 1982 Included observations: 23
Variable Coefficient
Std. Error
Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Hannan-Quinn criter. Durbin-Watson stat
3.663887 0.187659 -4.195488 -3.998011 -4.145823 1.778678
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C LOG(X1) LOG(X2) LOG(X3)
多重共线性问题
(c)某些重要的解释变量不能通过 检验; (d) 值对样本敏感,样本数据或样本容量的轻微变动,会引起
发生较大的变化。
§4.1 多重共线性问题
例 农民消费函数
Y=农民消费 (亿元) X1=农业净产值(亿元) X2=农村人口数(万人) X3=粮食总产值(亿元) X4=轻工业总产值(亿元) X5=农产品收购价格指数与农村工业品牌价指数比 样本区间:1953-1982
加权合并共线性变量 删除变量 岭回归估计 主成分估计
THE END
(b)绘制岭迹图,
;
(c)观察岭迹图,使得各岭迹图均已经趋于平缓的 即为所求。
§4.3 多重共线性模型的岭回归估计 例4.1 设 Y=为我国粮食产量(LSCL,单位万吨),
X1=为化肥使用量(HFSYL,单位万吨), X2=为农业劳动力(NYLDL,单位万人)。
§4.3 多重共线性模型பைடு நூலகம்岭回归估计
§4.1 多重共线性问题
(一)多重共线性问题
严格共线性
线性相关
驻点条件方程组有解,但解不惟一。
高度共线性
近似线性相关
驻点条件方程组有惟一解,病态。
§4.1 多重共线性问题
(二)多重共线性问题的症状
严格共线性 高度共线性
OLS估计可能出现与较大方差有关的一类症状:
(a)个别
可能很大;
计量经济学试题计量经济学中的多重共线性问题与解决方法
计量经济学试题计量经济学中的多重共线性
问题与解决方法
计量经济学试题-多重共线性问题与解决方法
在计量经济学中,多重共线性是一个重要的问题。它指的是当两个或多个自变量之间存在高度相关性时,会导致模型估计的结果不准确或者不可靠。多重共线性问题在经济学研究中经常出现,因此探索解决方法是非常必要的。
一、多重共线性问题的原因
多重共线性问题通常由于样本中的自变量之间存在强烈的线性相关性而引发。例如,当一个自变量可以通过其他自变量的线性组合来表示时,就会出现多重共线性问题。这种情况下,模型估计的结果会变得不稳定,标准误差会变得很大,使得对自变量的解释变得困难。
二、多重共线性问题的影响
多重共线性问题对计量经济模型的影响是多方面的。首先,它会导致模型估计结果的不稳定性。当自变量之间存在高度相关性时,即使是微小的样本误差也会导致模型估计结果的显著变化。其次,多重共线性问题会导致标准误差的上升,使得参数的显著性检验变得困难。最后,多重共线性问题还会导致模型解释力的下降,使得对自变量对因变量的影响进行准确的解释变得困难。
三、解决多重共线性问题的方法
1. 删除变量:当发现自变量之间存在高度相关性时,一种解决方法是删除其中一个变量。如果某个自变量可以用其他变量线性表示,就可以考虑将其删除。然而,删除变量的过程需要谨慎,以免造成结果的失真。
2. 采用主成分分析:主成分分析是一种常用的处理多重共线性问题的方法。它通过对自变量进行线性组合,生成新的主成分变量,从而消除原始自变量之间的相关性。通过采用主成分分析,可以得到一组无关的自变量,从而解决多重共线性问题。
回归分析中的多重共线性问题及解决方法(八)
回归分析是统计学中的重要方法之一,它用来研究自变量与因变量之间的关系。然而,在进行回归分析时,研究人员往往会遇到多重共线性的问题。多重共线性是指自变量之间存在高度相关性的情况,这会导致回归系数估计不准确,甚至失去解释力。本文将探讨回归分析中的多重共线性问题及解决方法。
1. 多重共线性问题的影响
多重共线性问题会造成回归系数的估计不准确,导致参数估计的标准误较大,t统计量较小,从而影响回归模型的显著性检验。此外,多重共线性还会导致回归
系数的符号与理论预期相悖,使得模型的解释能力大大减弱。
2. 多重共线性问题的诊断
为了解决回归分析中的多重共线性问题,首先需要进行诊断。常用的诊断方
法包括:方差膨胀因子(VIF)、特征根分析、条件数等。其中,VIF是应用最为
广泛的一种方法,它通过计算自变量之间的相关系数来判断是否存在多重共线性问题。一般来说,如果自变量之间的相关系数较高(大于),则可以认为存在多重共线性问题。
3. 解决多重共线性的方法
一旦发现回归分析中存在多重共线性问题,就需要采取相应的解决方法。常
用的解决方法包括:删除相关性较高的自变量、合并相关自变量、使用主成分回归等。其中,删除相关自变量是最为直接的方法,但需要谨慎选择,以免丢失重要信息。合并相关自变量则是将相关自变量进行线性组合,从而减少共线性的影响。主
成分回归则是通过将相关自变量进行主成分提取,来解决多重共线性问题。这些方法各有优劣,需要根据具体情况来选择合适的方法。
4. 实例分析
为了更好地理解多重共线性问题及解决方法,我们可以通过一个实例来进行分析。假设我们要研究一个人的身高与体重之间的关系,我们选择了身高、体重和BMI指数作为自变量,而体脂率作为因变量。通过回归分析,我们发现身高、体重和BMI指数之间存在较高的相关性,从而导致回归系数的估计不准确。为了解决这一问题,我们可以采取合并相关自变量或主成分回归的方法,从而得到更为准确的回归系数估计。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
理论上认为影响能源消费需求总量的因素主要有经济发展水平、收入水平、产业发展、人民生活水平提高、能源转换技术等因素。为此,收集了中国能源消费总量Y (万吨标准煤)、国民总收入(亿元)X1(代表收入水平)、国内生产总值(亿元)X2(代表经济发展水平)、工业增加值(亿元)X3、建筑业增加值(亿元)X4、交通运输邮电业增加值(亿元)X5(代表产业发展水平及产业结构)、人均生活电力消费(千瓦小时)X6(代表人民生活水平提高)、能源加工转换效率(%)X7(代表能源转换技术)等在1985-2007年期间的统计数据,具体如表4.2所示。
表4.12 1985~2007年统计数据
资料来源:《中国统计年鉴》,中国统计出版社2000、2008年版。
要求:
1)建立对数多元线性回归模型,分析回归结果。
2)如果决定用表中全部变量作为解释变量,你预料会遇到多重共线性的问题吗?为什么?
3)如果有多重共线性,你准备怎样解决这个问题?明确你的假设并说明全部计算。
参考解答:
(1)建立对数线性多元回归模型,引入全部变量建立对数线性多元回归模型如下:
生成: lny=log(y), 同样方法生成: lnx1,lnx2,lnx3,lnx4,lnx5,lnx6,lnx7.
作全部变量对数线性多元回归,结果为:
从修正的可决系数和F统计量可以看出,全部变量对数线性多元回归整体对样本拟合很好,,各变量联合起来对能源消费影响显著。可是其中的lnX3、lnX4、lnX6对lnY影响不显著,而且lnX2、lnX5的参数为负值,在经济意义上不合理。所以这样的回归结果并不理想。
(2) 预料此回归模型会遇到多重共线性问题, 因为国民总收入与GDP本来就是一对关联指标;而工业增加值、建筑业增加值、交通运输邮电业增加值则是GDP的组成部分。这两组指标必定存在高度相关。
解释变量国民总收入(亿元)X1(代表收入水平)、国内生产总值(亿元)X2(代表经济发展水平)、工业增加值(亿元)X3、建筑业增加值(亿元)X4、交通运输邮电业增加值(亿元)X5(代表产业发展水平及产业结构)、人均生活电力消费(千瓦小时)X6(代表人民生活水平提高)、能源加工转换效率(%)X7(代表能源转换技术)等很可能线性相关,计算相关系数如下:
可以看出lnx1与lnx2、lnx3、lnx4、lnx5、lnx6之间高度相关,许多相关系数高于0.900以上。如果决定用表中全部变量作为解释变量,很可能会出现严重多重共线性问题。 (3)因为存在多重共线性,解决方法如下:
A :修正理论假设,在高度相关的变量中选择相关程度最高的变量进行回归建立模型:而对变量取对数后,能源消费总量的对数与人均生活电力消费的对数相关程度最高,可建立这两者之间的回归模型。如
22ln 9.9320.421ln 6
(0.116) (0.026)
0.926 0.922 261.551
y x R R F =+===
B :进行逐步回归,直至模型符合需要研究的问题,具有实际的经济意义和统计意义。采用逐步回归的办法,去检验和解决多重共线性问题。分别作ln Y 对
1234567ln ,ln ,ln ,ln ,ln ,ln ,ln X X X X X X X 的一元回归,结果如下:
一元回归结果:
其中加入lnX6的方程调整的可决系数最大, 以lnX6为基础, 顺次加入其他变量逐步回归。结果如下表:
经比较,新加入lnX5的方程调整可决系数改进最大, 各参数的t检验也都显著,但是lnX5参数的符号与经济意义不符合。若再加入其他变量后的逐步回归,若剔除不显著的变量和无经济意义的变量后, 仍为第一步所建只包含lnX6的一元回归模型。
如果需要建立多元线性回归模型,则需寻找新的变量或改变模型形式。
例如, 不取对数作全部变量多元线性回归,结果为:
可以看出还是有严重多重共线性。作逐步回归:
变量X1 X2 X3 X4 X5 X6 X7
参数估计值0.7333 0.7353 1.6655 13.1909 10.8980 678.0058 19332.30 t 统计量26.4698 25.3627 18.0257 25.9636 13.5147 22.4229 4.7024 2
R0.9709 0.9684 0.9393 0.9697 0.8969 0.9599 0.5129 2
R0.9695 0.9669 0.9364 0.9683 0.8920 0.9580 0.4897 X1 X2 X3 X4 X5 X6 X7 2
R
X1,X2 6.6399
(0.0022)-5.9308
(0.0054)
0.9785
X1,X3 0.5512
(0.0000) 0.4349
(0.0821)
0.9726
X1,X4 0.5040
(0.3356) 4.1326
(0.6580)
0.9683
X1,X5 1.0516
(0.0000) -5.0269
(0.013)
0.9766
X1,X6 1.0075
(0.0088) -255.80
(0.438)
0.9690
X1,X7 0.7499
(0.0000) -813.44
(0.5988)
0.9684
可以发现加入X2、X5、X6、X7后参数的符号不合理,加入X4后并不显著。只有加入X3后修正的可决系数有所提高,而且参数符号的经济意义合理, X3参数估计值的p值为0.0821,在10%的显著性水平下是显著的。所以相对较为合理的模型估计结果可以为: