第6章 多重共线性
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第6章 多重共线性
本章专门讨论古典假设中无多重共线性假定被违反的情况,主要内容包括多重共线性的概念、产生的原因和表现、产生的后果、多重共线性的检验方法及无多重共线性假定违反后的解决方法。
6.1多重共线性的概念
在第三章的多元线性回归模型的建立中,强调了无多重共线性,即假定各解释变量之间不存在线性关系,或者各解释变量的观测值之间线性无关。
计量经济学中的多重共线性是指模型中各解释变量的线性关系,它不仅包括解释变量之间精确的线性关系,还包括解释变量之间近似的线性关系,因此多重共线性也就表现为完全多重共线性和近似多重共线性。
6.1.1完全多重共线性
从数学意义上去说明多重共线性,就是对于解释变量k X 、、X X 32,如果存在不全为0的数k λλλ,2,1 ,能使得
n ,2, ,1i
033221 ==++++ki
k i
i
X
X
X
λλλλ ( 6.1.1 )
则称解释变量k X X X ,,,32 之间存在着完全的多重共线性 用矩阵表示,解释变量的数据矩阵为:
X=⎥⎥
⎥⎥⎦
⎤⎢⎢⎢⎢⎣⎡kn n
n
k k X X
X
X X
X
X
X X
322
32
22
1
31211
11
(6.1.2) 当矩阵X 的秩小于k 时,表明其中至少有一个列向量可以用其余的列向量线性表示,则说明存在完全多重共线性。
6.1.2不完全的多重共线性
在实际经济问题中,完全的多重共线性并不多见。
比较常见的是解释变量
k
X
X X ,,,32 之间存在不完全的多重共线性。
所谓不完全的多重共线性,是指对于解释变
量k X 、、X X 32,存在不全为0的数k λλλ,2,1 ,使得 n ,2, ,1i
033221 ==+++++i ki
k i
i
u X
X
X
λλλλ (6.1.3)
其中,i u 为随机变量。
这表明解释变量k X 、、X X 32存在一种近似的线性关系。
如果k 个解释变量之间不存在完全或不完全的线性关系,则称无多重共线性①。
若用矩阵表示,这时X 为满秩矩阵,即Rank(X)=k 。
总之,回归模型中解释变量的关系用相关系数表示出来有三种情形:
①0=j x i x r ,解释变量间不存在线性关系,变量间相互正交。
这时不需要作多元回归,可以通过Y 对X j 的多个一元回归来估计每个参数值βj 。
②1=j x i x r ,解释变量间存在完全共线性。
此时模型参数将无法估计。
当两变量按同一方式
①
解释变量之间不存在线性关系,并非不存在非线性关系,当解释变量存在非线性关系时,并不违反无多
重共线性假定。
变化时,要区别每个解释变量对被解释变量的影响程度非常困难。
③10<<j x i x r ,解释变量间存在不同程度的线性关系。
随着共线性程度的加强,会对参数估计值的准确性、稳定性带来不同的影响。
因此分析多重共线性的程度是研究的重点问题。
6.2实际经济问题中的多重共线性
在实际经济问题中,多重共线性的产生主要是由于经济现象变化的多个影响因素之间存在一定的相关性。
主要表现为以下几种情形: 1)经济变量之间具有共同变化趋势
在时间序列中,反映经济总体状况的数据指标会出现同样的变化趋势。
例如,收入水平、消费水平和就业率在经济繁荣时期均呈现增长的趋势,而在经济衰退期都出现下降。
当这些变量同时作为模型中的解释变量时就会产生多重共线性。
2)滞后变量的引入
在经济计量模型中,往往需要引入滞后变量来反映真实的经济状况。
例如,消费水平与人们的当期收入和前期收入密切相关,在建立模型时,就需要引入,,2
1
--t t X
X
等多个滞后
变量,它们与X 变量之间存在高度相关性,因此导致出现多重共线性。
3)截面数据的使用
利用截面数据建模时,许多变量变化与发展规模相关,会呈现出共同增长的趋势,例如资本、劳动力、能源等投入与产出的规模相关,这时容易出现多重共线性。
有时如果部分因素的变化与另一部分因素的变化相关程度较高时,也容易出现共线性。
如钢铁产量与原材料用量、劳动力人数、厂房面积、生产投入资金建立回归模型,发现回归效果较差,原因是生产投入资金的影响已经通过原材料和劳动力两个因素体现出来,三者之间存在较严重的多重共线性。
4)样本资料自身的限制
抽样选取的样本只是总体解释变量取值中的一个有限范围,会使得变量的变异不大;由于总体受限,多个解释变量的样本数据之间存在相关关系,也会造成样本的多重共线性;另外,客观上完全符合理论模型所要求的样本数据较难收集,也会使得特定样本存在某种程度的共线性。
这一点在时间序列数据模型中表现更加明显。
6.3多重共线性问题的后果
6.3.1完全多重共线性下产生的后果 1)参数的估计值不存在
完全共线性时,X 矩阵的秩小于k ,此时0='X X ,正规方程组的解不惟一,()
1
-'X X 不存在,回归参数的最小二乘估计表达式不成立。
例如,在两个解释变量的回归模型
i i
i
i u X
X
Y +++=33221βββ中,假定i
X
2与i
X
3之间存在完全多重共线性,即i
i
X
X
32λ=,
λ是一个非零常数,则有:
()()()()
()()()
00ˆ2
332
2
32
32
3332
332=
--=
∑∑∑∑∑∑∑i
i i i i i
i
i
i
i
i
x x x x x x
x y x x y λλλλβ (6.3.1)
()()()()
()()
()
0ˆ2
2
32
2
32
322
332
32
33
=
--=∑
∑
∑
∑∑∑
∑
i
i i
i
i i i i i x x x x x y x x y λ
λλλλ
β (6.3.2)
这说明当i
i
X
X
32λ=时,参数的估计值是不确定的。
例6.1:用商品价格和每周收入作某一商品需求量的回归分析
表6.1
Y(需求量)
X2(价格)
X3(每周收入) X4(每周收益)
49
1 298 297.5 45
2 296 294.9 44
3 29
4 293.
5 39 4 292 292.8 38 5 290 290.2 37
6 288 289.
7 34 7 286 285.
8 33 8 284 284.6 30
9 282 281.1 29
10
280
278.8
点击proc —make equation ,弹出如图6.1所示的对话框
图6.1
由此可见无法对Y 进行回归拟合,分析后发现这是因为i
i
X
X
122300-=,
()12
2
==
r
R
,也就是说收入变量与价格变量完全线性相关,二者存在完全多重共线性。
2)参数估计值的方差无限大
对两个解释变量的回归模型进行OLS 估计,其参数的方差为2
1
V a r-C o v ()=()σ-'^
βX X
,
在完全共线性情况下,i
i
X
X
32λ=,
则有
∞
==
-=
-=
∑
∑∑
∑
∑
∑∑∑∑
2
2
3
2
2
332
32
3
2
2
3
2
2
322
32
22
3
2
^
)
()
())(()(σ
σ
λλσ
β
x x x x x x x x x x x Var (6.3.3)
同理 ∞==
-=
∑
∑∑∑∑
2
2
2
2
2
332
3232
2
3
2
3^
)
())(()(σ
σ
λλ
λ
βx x x x x x Var (6.3.4)
这表明,当解释变量之间存在完全的共线性时,参数估计值的方差将变成无穷大。
这直接导致模型总体参数的置信区间变大,使回归方程的可决系数2R 很高,但对各个参数单独的 t 检验却可能不显著,甚至可能使估计的回归系数符号相反,得出完全错误的结论,从而使普通最小二乘估计量的精确度降低,使变量的显著性检验失败。
6.3.2不完全多重共线性下产生的后果
在实际经济问题中,解释变量之间往往存在不完全共线性,在这种情况下,通过回归可以得到参数的估计值。
在例6.1中,作X2,X4对被解释变量Y 的回归方程,结果如图6.2所示:
图6.2
从理论上说,在接近共线性的情形下仍能进行最小二乘估计,而且该估计量是无偏的,能满足最小二乘估计量的最小方差性,但是实际上,
共线性的存在对计量经济分析可能会产
生一系列的影响。
1)参数估计值的方差增大
以两个解释变量的回归模型为例,假设2
X
与3
X
存在不完全的共线性,即
i i i v x x +=32λ,其中,0≠λ,i v 是满足∑=02i i v x 的随机误差项。
由此可得出OLS 法估计的回归系数:
()()()()
()()()
2
2
32
2
32
232
2
332
2
3233
ˆ∑∑∑∑∑∑∑∑∑
∑
-++-+
=
i
i
i
i
i
i
i
i
i
i
i i i x x v x
x v y x y v x
x y λλλλλ
β
(6.3.5)
因此在2X 与3X 近似共线性时,3ˆβ还是可以估计的。
但是,如果2X 与3X 共线程度越高,i v 会充分地小,以至于非常接近于零,此时3ˆβ会愈加趋于不确定。
对于2ˆβ也可推出类似的表达式,并得到类似的结论。
在2X 与3X 为不完全的共线性时,2X 与3X 的相关系数的平方用离差形式可表示为 ∑
∑
∑=2
3
2
2
2322
23)
(x x x x r
可以证明得到
2
2
322
32
22
3
2^
)
())(()(σ
β∑∑∑∑
-=
x x x x x Var
()∑-=
2
23
2
22
1r x i σ
(6.3.6)
()(
)
∑
-=
2
23
2
32
31ˆvar r x i σ
β (6.3.7)
()
()∑
∑--=2
322223
2
233
21ˆ,ˆcov i
i x x r r σ
ββ (6.3.8)
从(6.3.7)和(6.3.8)式中可以看出,随着共线性增加,23r 趋于1,两个参数估计量的方差也将增大。
同样地,其协方差在绝对值上也会增大。
2)参数的置信区间趋于变大
存在多重共线性时,参数估计值的方差增大,其标准误差也增大,导致总体参数的置信区间也随之变大。
同上例,假设方差已知,在置信度为95%的水平下,当23r 取不同的值时,置信区间也会相应发生变化,相关系数越高,3β的置信区间越大。
见表6.2所示:
表6.2 增加共线性对3β的95%置信区间()3
3ˆe 1.96
ˆββs ±的影响
3)参数估计量经济含义不合理
当模型中两个解释变量具有线性相关性,即i i i v x x +=32λ时,i
i X
X 32和前的参数
32ββ和并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的共同影
响,因此当二者呈现同方向变化时,无法准确地将二者的影响分离开来,这是估计的参数也失去了原有的经济意义。
4)严重多重共线时,假设检验容易作出错误的判断
存在严重多重共线时,参数的置信区间扩大会使得接受一个本应拒绝的假设的概率增大;另外,在对回归系数进行t 检验中,)ˆ(ˆ33
ββVar t =,在高度共线性时,参数估计值
的方差增加较快,会使得t 值变小,从而容易产生接受原假设的结论。
5)模型的预测功能减弱
在给定的置信水平α-1下,0Y 的置信区间为
()
'0
1
'
2
1X
X
X
X
t Y
-∧
+⨯±α
显然,当解释变量之间存在多重共线性时,由于()
1
'-X X 非常大,所以其置信区间也很大,
因此,模型的预测功能会减弱。
6.4多重共线性问题的检验
由于多重共线性表现为解释变量之间具有相关关系,所以用于多重共线性的检验方法主要是采用统计方法
以下我们采用中国电信业务总量的计量经济模型作为实例分析
例6.2: 中国电信业务总量的计量经济模型②
②
案例来源: 张晓桐,《计量经济学基础(第3版)》,南开大学出版社,2007年9月
表6.3
年份电信业务总量
y 邮政业务总量
x1
中国人口数
x2
市镇人口比重
x3
人均GDP
x4
人均消费水平
x5
1991 1.5163 0.5275 11.5823 0.2637 1.879 0.896 1992 2.2657 0.6367 11.7171 0.2763 2.287 1.070 1993 3.8245 0.8026 11.8517 0.2814 2.939 1.331 1994 5.9230 0.9589 11.9850 0.2862 3.923 1.746 1995 8.7551 1.1334 12.1121 0.2904 4.854 2.236 1996 12.0875 1.3329 12.2389 0.2937 5.576 2.641 1997 12.6895 1.4434 12.3626 0.2992 6.053 2.834 1998 22.6494 1.6628 12.4810 0.3040 6.307 2.972 1999 31.3238 1.9844 12.5909 0.3089 6.534 3.143
1)相关系数检验法
相关系数检验法是利用解释变量之间的线性相关程度来判断是否存在严重多重共线性的一种简便方法。
一般而言,如果每两个解释变量的简单相关系数(零阶相关系数)大于等于0.8,则可认为存在着较严重的多重共线性。
但要注意,较高的简单相关系数只是多重共线性存在的充分条件,而不是必要条件。
特别是在多于两个解释变量的回归模型中,有时较低的简单相关系数也可能存在多重共线性。
因此并不能简单地依据相关系数进行多重共线性的准确判断。
具体操作过程如下:
点击view—covariance analysis,出现如图6.3所示的对话框
图6.3
选中correlation,点击ok,可得
图6.4
由此可见解释变量54321,,,,X X X X X 之间的相关系数都较高,这说明解释变量之间存在严重的多重共线性。
2)辅回归模型检验法
对于多元线性回归模型,如果分别以每个解释变量为被解释变量,作其它解释变量的回归,则称为辅助回归,它是相对于Y 对各个X 的主回归而言的。
如果存在某一种形式
ki
k i i ji
x x x X
ααα+++= 2211 (6.4.1)
其中,以j X 为被解释变量作对其他解释变量辅助线性回归的可决系数用2j
R 表示,建立统计量:()
()()
1122
2
+--
-=
k n R k R F i i
i ,它服从自由度为k-2和n-k+1的F 分布,其中n 为样本大小,k 为包括常数项在内的解释变量的个数。
当i F 大于相应自由度的临界F 值时,则认为j
X 和其它解释变量存在共线性,否则,则认为不存在共线性。
在实际运用中,我们可以简化处理,当判定系数较大(大于0.8),说明在该形式中作为解释变量的j x 可以用k x x x ,,,21 的线性组合代替,即j x 与k x x x ,,,21 之间存在共线性。
另外,在模型i i i i u X X Y +++=33221βββ中,排除某一解释变量j x 再估计模型,如果拟合优度与包含这一变量十分接近,则说明j x 与其它解释变量之间存在共线性。
具体操作过程如下
点击proc —make equation ,出现如图6.5所示的对话框
图6.5
在命令窗口中输入x1 x2 x3 x4 x5 c ,点击确定,出现图6.6所示的结果
图6.6
以1X 为被解释变量,5432,,,X X X X 为解释变量作出辅助方程,其判定系数为0.9955,这说明解释变量之间存在多重共线性。
3)直观判断法
根据经验,通常以下情况的出现可能提示存在多重共线性的影响:
(1)当增加、剔除或者改变一个观测值时,回归参数的估计值发生较大变化,这时回归方程可能存在严重的多重共线性。
(2)在回归方程中,一些重要解释变量的回归系数的标准误差较大,没有通过显著性检验时,可初步判断存在严重的多重共线性。
(3)有些解释变量的回归系数所带正负号与定性分析结果或经济原理违背时,很可能存在多重共线性。
具体操作过程如下
根据案例中变量之间的相互关系,建立lny对各个解释变量的回归方程
点击quick—generate series,出现图6.7所示的对话框
图6.7
在enter equation中输入lny=log(y),点击ok,新建一个lny的序列,再在图6.5所示的对话框中输入lny x1 x2 x3 x4 x5 c,拟合回归方程,结果如图6.8所示
图6.8
由定性分析可知,市镇人口比重、人均GDP ,人均消费水平与电信业务总量是成正相关,但回归系数显示为负;另外,回归方程的拟合程度很好(为0.9918),但是单个解释变量的标准差较大,有的T 统计量甚至为负,没有通过T 统计检验假设。
因此,综上所述,解释变量之间的共线性严重。
4)容许度与方差膨胀因子检验法
在辅助回归中,解释变量j X 参数估计值j βˆ的方差可表示为
j j
j
j
j VIF x R x Var ⋅=
-⋅
=
∑
∑
2
22
2
2^
11)(σ
σ
β (6.4.2)
其中j VIF 是变量j X 的方差膨胀因子(Variance Inflation Factor),即
()
211
j
j
R
VIF
-
=
(6.4.3)
其中2
j R 为第j 个解释变量与其它解释变量辅回归模型的判定系数。
多重共线性越严重,则
2
j R 越趋近于1,j
VIF
越大。
一般来说,10≥j
VIF
时,说明解释变量与其余解释变量之间
有严重的多重共线性,且这种多重共线性可能会过度影响最小二乘估计。
容许度是方差膨胀因子的倒数,它可以表示为
(
)j
j
j
VIF
R
TOL
112=-= (6.4.4)
显然,如果j X 与其它解释变量完全相关,则j
TOL
=0,与其它解释变量完全无关时,
则j
TOL
=1。
总之,当()j
VIP max <5或()j
TOL
min >0.2
时,存在轻微的多重共线性;当
5≤()j
VIP
max <10或0.1<()
j
TOL
min ≤0.2时,存在中等程度的多重共线性;当
()j
VIP max
≥10或()j
TOL min ≤0.1时,存在严重的多重共线性。
在EVIEWS 中,不能直接计算方差膨胀因子的值,但可根据VIF 的定义计算得到。
具体
操作过程如下:
首先建立一个以1X 为被解释变量,5432,,,X X X X 为解释变量的辅助回归方程eq01, 记录其判定系数,该例中其判定系数为0.995499,在主窗口命令行中输入scalar vif=1/(1-0.995499^2),该命令表示根据定义建立VIF 标量,点击enter 键确定后工作表中出现一个vif 新变量,双击此变量,主窗口的左下角状态栏中就会出现它的值,本例中,vif=111.33699,如图6.9所示:
图6.9
5)特征值与病态指数
对于样本数据矩阵6.1.2,当模型存在完全共线性时,矩阵中至少有一列可以被其它列线性表示,即X X '=0;而当模型存在严重的多重共线性时,0≈'X X ,设λ是矩阵X X '的一个近似为零的特征根,c 是对应于特征根的单位特征向量,则
0≈='c Xc X λ 0≈''Xc X c 0≈Xc 0c 110
0≈+++k
k X
c X c X
n ,1,2,,0i 022110 =≈++++ik k i i x c x c x c c (6.4.5)
矩阵X X '有多少个特征根近似为零,设计矩阵就会有多少个多重共线性关系,并且这些多重共线性关系系数向量就等于接近于零的那些特征根对应的特征向量。
因此,我们可以通过观察样本数据矩阵是否存在近似等于0的特征值来检验是否存在多重共线性的问题。
另外,特征根近似为零的标准也可以用下面的条件指数CN (condition number )和病态指数CI (condition index )来确定。
最小特征值
最大特征值=
CN CN CI =
=
最小特征值
最大特征值 (6.4.6)
它们度量了矩阵X X '的特征根散布程度,可以用来判断多重共线性是否存在以及多重共线性的严重程度。
一般认为,当CN 在100和1000之间,或CI 在10与30之间,就认为存在中强度多重共线性;当CN 大于1000,或CI 大于30,则认为存在严重的多重共线性
利用病态指数进行判断时,软件一般给出按大小顺序排列的特征根和病态指数,病态指数大,说明存在多重共线性,但不能判断哪个变量之间有多重共线性 ,这时还需要结合方差比例表进行分析,如果某几个解释变量的方差比例值在某一行同时较大时,则这几个解释变量之间就存在多重共线性.。
6.5多重共线性问题的解决
1)变量变换法
我们可以通过对模型中变量进行变换来降低解释变量的多重共线性。
常用的变量变换方式主要有:
(1)计算相对指标。
如将总量或绝对指标换算成人均指标或结构相对数(比重)指标等。
(2)将名义数据转换为实际数据。
名义数据一般是指剔除价格影响后的数据,它反映的信息在统计上常常是指纯的物量变化,不包含价格变动的影响,有助于描述现象之间真实的数量变化关系。
因此在多数经济分析中多采用“实际”数据而不是名义数据。
(3)将具有共同性质的小类指标合并成大类指标。
例如可以将农作物产量和粮食产量合并成 农业产量。
2)剔除变量法
这是消除多重共线性最简单的一种方法。
当回归方程中存在严重的多重共线性,可以删除引起多重共线性的不重要的解释变量。
以方差膨胀因子为标准,当VIF 大于10时,可把
最大者所对应的解释变量首先剔除,再重新建立回归方程。
如果仍然存在严重的多重共线性,则再继续剔除方差膨胀因子最大者所对应的解释变量,直到回归方程中不再存在严重的多重共线性。
一般而言,在选择回归模型时,可以将回归系数的显著性检验、VIF 的多重共线性检验与解释变量经济含义(通过经济分析确定变量的相对重要性)结合起来考虑,以引进或剔除不重要的变量。
不过,采用该方法可能使保留变量的参数估计量的经济意义发生变化,可能会引起模型的设定误差,因此在使用时要谨慎考虑。
3)增大样本容量或重新抽取样本
由于多重共线性是一个样本特性,所以可能在同样变量的另一样本中共线性没有那样严重。
这时,就可以通过增大样本容量或重新抽取样本来减轻共线性的问题。
如果样本容量增加,回归参数的方差会缩减,标准误差也同样会减小。
因此尽可能地收集足够多的数据可以改进模型参数的估计。
所以在运用回归分析研究经济问题时,要尽量使样本容量远大于解释变量的个数。
4)变换模型形式
将原设定的模型形式作适当的变换,可以有效地消除或减弱原模型中解释变量之间的相关关系。
其中代表性的方法是采用差分法,即将原模型变形为差分模型形式进而减低多重共线性,这一方法主要适用于由于引入滞后变量而造成的多重共线性。
例如将原模型
i ki
k i
i
i i u X
X
X
X Y ++++++=βββββ 3322110
变形为
i ki
k i
i i u X
X
X Y ∆+∆++∆+∆=∆βββ 2211
在用EVIWS 作回归时,在图 6.5所示的命令窗口中输入y-y(-1) x1-x1(-1) x2-x2(-1) x3-x3(-1) x4-x4(-1) x5-x5(-1),点击确定后就可估计出差分方程。
差分后变量之间的相关性要比差分前弱得多,所以差分后的模型可以有效地降低出现共线性的可能性③。
5)利用非样本先验信息合并解释变量
我们可以通过经济理论分析得到某些解释变量之间的线性关系,并将这些线性关系作为约束条件,与样本信息结合起来进行约束最小二乘估计。
例如在模型
i i
i
i u X
X
Y +++=33221βββ中,根据经济原理认为2
3λβ
β=,这样,我们就可以将模型
简化为
i i
i u X
Y +=21ββ+
其中,i
i
i X
X
X 32λ+=。
然后用OLS 估计出回归方程的参数2ˆβ,最后根据二者之间的关
系估计出3ˆβ。
③
差分法往往会造成数据信息的丢失,差分模型的误差项可能是序列相关的,因此可能会违背经典线性回归
模型的相关假设,在具体运用时要慎重。
6)逐步回归法
逐步回归法是以Y为解释变量,逐个引入解释变量构建回归模型,进行模型估计,并根据拟合优度的变化决定新引入的变量是否可以用其它变量的线性组合代替。
如果拟合优度有了显著变化,则说明新引入的变量是一个独立解释变量,否则则认为该变量与其它变量存在多重共线性,应该将其剔除。
此外,还可以构造统计量对解释变量之间的相关系数、偏相关系数进行显著性检验以找出引起多重共线性的变量。
依据逐步回归的思想,其具体操作步骤如下:
(1)用被解释变量对每一个所考虑的解释变量做简单回归。
(2)以对被解释变量贡献最大的解释变量所对应的回归方程为基础,按对被解释变量贡献大小的顺序逐个引入其余的解释变量。
这个过程会出现3种情形。
1)若新变量的引入改进了R2和F检验,且回归参数的t检验在统计上也是显著的,则在模型中保留该变量。
2)若新变量的引入未能明显改进R2和F检验,且对其他回归参数估计值的t检验也未带来什么影响,则认为该变量是多余的,应该舍弃。
3)若新变量的引入未能明显改进R2和F检验,同时本身的回归参数也通不过t检验,但显著地影响了其他回归参数估计值的数值或符号,则说明出现了严重的多重共线性,应剔除该变量。
使用EVIEWS上午具体操作过程如下
用逐步回归法筛选解释变量。
①分别用每个解释变量对被解释变量y做简单回归,如图6.10所示、;
图6.10
则有lny=-0.388+2.06x1
(- 2.1) (14.3) R2 = 0.9668, F = 204, T = 9
同理可得:
Lny=33.26 – 2.91x2
(- 22.2) (23.6) R2 = 0.9875, F = 555, T = 9
lny= - 18.46 + 70.75x3
(- 14.9) (16.6) R2 = 0.9752, F = 275.5, T = 9
lny= - 0.49 + 0.56x4
(- 2.5) (13.8) R2 = 0.9644, F = 189.7, T = 9
lny= - 0.42 + 1.16x5
(- 2.1) (14.3) R2 = 0.9633, F = 183.5, T = 9
按可决系数2
R的大小为解释变量排序,解释变量的重要程度依次为。
x2, x3,x1,x4,x5
②以Lny=33.26 – 2.91x2为基础,依次引入x3, x1, x4, x5 。
首先把x3引入模型,如图
6.11所示
图6.11
有Ln y = - 29.9 – 2.24 x2 + 16.76 x3
(- 6.9) (2.7) (0.8) R2 = 0.9888, F = 265.5, T = 9
因为x3的引入使各回归系数的t值下降,同时x3的系数也未通过t检验,所以应剔除x3。
把x1引入模型,
Ln y = - 33.37 – 2.92 x2– 0.007 x1
(- 3.2) (3.2) (-0.01) R2 = 0.9875, F = 237.9, T = 9
同理剔除x1引入x4
Ln y = - 31.94 – 2.79 x2 + 0.022 x4
(- 3.4) (3.3) (0.14) R2 = 0.9876, F = 238.7, T = 9
同理剔除x 4引入x 5
Ln y = - 31.94 – 2.79 x 2 + 0.022 x 5
(- 3.4) (3.3) (0.14) R 2 = 0.9876, F = 238.7, T = 9 同理剔除x 5,最后确定的模型是
Ln y = - 33.26 - 291 x 2
(- 22.2) (23.6) R 2 = 0.9875, F = 555, T = 9 或者用解释变量之间相关系数值最小的x 1和x 4同做解释变量与Ln y 回归,得 Ln y = - 0.48 – 1.08 x 1 + 0.28 x 4
(- 3.4) (2.7) (2.5) R 2 = 0.98, F = 184, T = 9
6.6案列操作
6.6.1研究的目的要求
近年来,随着第一、二产业比重的下降,第三产业的发展优势不断突出,尤其是近年来,中国旅游业一直保持着高速发展,旅游业作为国民经济的新型增长点,在整个社会经济发展中的作用日益显现。
中国的旅游业分为国内旅游和入境旅游两大市场,入境旅游外汇收入年均增长22.6%,但是总体比重较小,国内旅游业增长迅速,并在旅游收入中占据了绝大部分比重。
改革开放20多年来,特别是进入90年代后,中国的国内旅游收入年均增长14.4%,远高于同期GDP 9.76%的增长率。
因此,研究中国国内旅游的市场状况对于合理规划未来旅游产业的发展具有重要的指导意义,其中,定量地分析影响中国旅游市场发展的主要因素也成为最重要的手段。
6.6.2模型设定及其估计
影响国内旅游市场收入的因素很多,其中最主要的因素是国内旅游人数和旅游支出,除此以外,相关基础设施也对旅游业产生了影响。
为此,本案例选取的影响因素主要有国内旅游人数2X ,城镇居民人均旅游支出3X ,农村居民人均旅游支出4X ,并以公路里程5
X
和铁路里程6X 作为相关基础设施的代表。
为此设定了如下形式的计量经济模型:
23456123456t t
t
t
t
t
t
Y X
X
X
X
X
u ββββββ=++++++
其中 :t Y ——第t 年全国旅游收入 (亿元)
2X ——国内旅游人数 (万人) 3
X
——城镇居民人均旅游支出 (元)
4X ——农村居民人均旅游支出 (元)
5
X ——公路里程(万公里) 6
X
——铁路里程(万公里)
为了估计模型参数,本案例收集旅游事业发展最快的1994—2007年的统计数据,如表6.4所示:
表6.4 1994年—2007年中国旅游收入及相关数据
年份国内旅游
收入Y
(亿元)
国内旅游
人数X2
(万人次)
城镇居民人
均旅游支出
X3(元)
农村居民人
均旅游支出
X4(元)
公路里程
X5
(万公里)
铁路里程
X6
(万公里)
1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
1023.5
1375.7
1638.4
2112.7
2391.2
2831.9
3175.5
3522.4
3878.4
3442.3
4710.7
5285.86
6229.74
7770.6
52400
62900
63900
64400
69450
71900
74400
78400
87800
87000
110100
121200
139400
161000
414.7
464
534.1
599.8
607
614.8
678.6
708.3
739.7
684.9
731.80
737.10
766.40
906.90
54.9
61.5
70.5
145.7
197
249.5
226.6
212.7
209.1
200
210.2
227.6
221.9
222.5
111.78
115.7
118.58
122.64
127.85
135.17
140.27
169.8
176.52
180.98
187.07
334.52
345.7
358.37
5.9
5.97
6.49
6.6
6.64
6.74
6.87
7.01
7.19
7.3
7.44
7.54
7.71
7.8
数据来源:《中国统计年鉴2008》
利用Eviews软件,作解释变量X2、X3、X4、X5、X6对被解释变量Y的OLS回归,结果如图6.12所示
图6.12
由此可见,该模型中2
R =0.99732,2
-R =0.995645,判定系数很高,说明模型的拟合程度好;F 检验值为595.4359,可以认为回归效果显著。
但是在05.0=α的条件下,t 统计量为()()=-=-614025.02t k n t α 2.306,此时65,x x 的回归系数检验不显著,而且6x 的回归
系数为负,与实际定性分析的结果相反,这表明模型中的解释变量之间很可能存在严重的多重共线性。
另外,还可以通过计算各解释变量的相关系数来进一步确定,选择X2、X3、X4、X5、X6数据,计算得相关系数矩阵,见图6.13
图6.13
由相关系数矩阵可以看出:各解释变量相互之间的相关系数较高,证实确实存在严重多重共线性。
6.6.3消除多重共线性
本案例采用逐步回归的办法来检验和解决多重共线性问题。
分别作Y 对X2、X3、X4、X5、X6的一元回归,结果如下
Y=-1701.19+0.0588X2
(-5.607)(18.253) R 2
=0.965 F=333.18 Y=-5675.027+14.0224X3
(-5.64) (9.309) R 2 =0.8784 F=86.658 Y=12.36+19.61X4
(0.0108) (3.271) R 2
=0.47135 F=10.699 Y=-222.902+20.004X5
(-0.478) (8.8587) R 2 =0.8674 F=78.4768。