第二章 回归分析与相关分析(2)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第二章 回归分析与相关分析
§3 多元线性回归分析
在现实地理系统中,任何事物的变化都是多种因素影响的结果,一因多果、一果多因的情况比比皆是。

为了处理一果多因的因果关系问题,我们需要掌握多元线性回归知识。

本节着重讲述二元线性回归分析。

至于三元以上,基本原理可以依此类推。

1 基本模型
二元线性回归模型可以表为
2211x b x b a y ++=, (3-1)
式中a 、b 1、b 2为待定的偏回归参数(partial regression coefficient )。

理论上的预测模型为
i i i x b x b a y
2211ˆ++=. (3-2) 原则上讲,式(3-2)中的参数a 、b 1、b 2与式(3-1)中的a 、b 1、b 2是有区别的:式(3-1)的是真实的系数值,式(3-2)的是计算的系数值。

但为了方便起见,我们不作符号上的区分。

实测数据的模型可以表作
d y
d x b x b a y i i i i i ±=±++=ˆ2211, (3-3) 从而
i i i i i i x b x b a y y
y d 2211ˆ---=-=. (3-4) 令
min )(1
222111
2
→---==∑∑==n
i i i i n i i x b x b a y d S . (3-5)
为求极值,分别对a 、b 1、b 2求偏导,并令其为零,可得
0)(22211=---=∂∂∑i
i i i x b x b a y a S
, (3-6) 0)(2122111=---=∂∂∑i i
i i i x x b x b a y b S
, (3-7)
0)(2222111=---=∂∂∑i i
i i i x x b x b a y b S
. (3-8) 上面三式可以化为正规方程形式
⎪⎪⎩⎪⎪⎨⎧=++=++=++∑∑∑∑∑∑∑∑∑∑∑i i i i i i
i i i i i i i i i y x x b x x b x a y x x x b x b x a y x b x b an 2222211212122
1112211. (3-9) 根据线性代数的有关原理,可令
∑∑∑∑∑∑∑∑∑=222122121121i
i
i
i
i
i
i
i
i
i
i i i x x x y x x
x x y x x
x y A , ∑∑∑∑∑∑∑∑=
2222211121i
i i
i
i
i
i
i
i i i x y x x
x x y x x x y n
B ,
∑∑∑∑∑∑∑∑=i
i
i
i
i
i i
i
i
i i y
x x x x y
x x x y
x n B 2212121112
, ∑∑∑∑∑∑∑∑=
222122121121i
i
i
i
i
i
i
i i i x
x x x
x x x x x x n
C .
借助Cramer 法则容易得到
C A
a =
,C B b 11=,C
B b 12=. (3-10) 2 回归结果的检验
检验的类型与一元线性回归相似,包括相关系数检验、标准误差检验、F 检验、t 检验
和DW 检验。

但是,对于多元回归分析,相关系数不再等价于F 检验和t 检验。

而且相关系数的检验也比一元的情况要复杂许多。

⑴相关系数检验
对模型拟合优度的检验,包括以下几种相关系数: I. 复相关系数(multiple correlation coefficient )
又称多重相关系数,用于度量因变量的观测值与由自变量经回归方程算得的预测值之间的关系的强度。

复相关系数包含了所有自变量与因变量的相关信息,其定义类似于一元线性回归中的相关系数, 计算公式为
∑∑∑∑---
=
--=
2
2
2
2)
()ˆ(1)
()ˆ(y y y
y y y
y y R i
i i
i
i , (3-11)
其值取正数,即有10≤≤R 。

可以看出,测定系数(R 2)可以反映回归变差在总变差中所占的比重——R 2值表明变量相关的密切程度。

在多元回归分析中,为了避免由于自变量数目(k )增加而过高估计相关性的实际情况,有必要对R 2进行修正,修正后的公式为
1
)1)(1(1~22
-----=k n R n R . (3-12)
式中n 为样本数目,k 为变量数目——对于二元线性回归,显然k =2。

问题在于,在多元回归模型中,由于自变量鱼龙混杂,有些伪相关甚至不相关的变量滥竽充数,但复相关系数只反映总体相关效果,不显示个别变量的信息。

为此,我们需要更多
的相关系数检验。

II 简单相关系数
简单相关系数分别反映各个自变量与因变量的相关关系,计算公式为
2
2
1
11
1)()())((1∑∑∑----=
y y x x y y x x R i
i
i i
yx , (3-13)
2
2
2
22
2)
()())((2∑∑∑----=
y y x x y y x x R i
i
i i
yx . (3-14)
上面二式只考虑x 1、x 2对y 的个别影响,不尽准确。

既然x 1、x 2都与y 线性相关,则x 1与x 2之间也可能线性相关,相关系数的计算公式为
2
2
22
1
12
21
1)
()())((21∑∑∑----=
x
x x x x x x x R i
i
i
i
x x . (3-15)
III 偏相关系数(partial correlation coefficient ) 简单相关系数旨在反映变量之间两两线性关系,但实际上,每一个简单相关系数不可能不包括其他因素的相关信息。

为了克服简单相关系数的虚假性,有人设计了另一种检验指标,称为偏相关系数。

偏相关系数旨在排除其它因素的影响,单纯反映某个自变量与因变量之间的密切程度,计算方法如下
)
1)(1(222
12
21211x x yx x x yx yx y x R
R
R R R R ---=
(这里假定x 2i 固定不变) (3-16)
)
1)(1(222
11
21122x x yx x x yx yx y x R
R R R R R ---=
(这里假定x 1i 固定不变) (3-17)
式中1yx R 、2yx R 、21x x R 分别为x 1与y 、x 2都与y 及x 1与x 2之间的简单相关系数。

当自变量较多时,利用公式计算偏相关系数相当麻烦,比较便捷的方式是借助相关矩阵(即简单相关系数构成的矩阵)进行运算,计算公式为
yy
jj jy y x c c c R j -=
. (3-18)
这里y x j R 为第j 个自变量与因变量y 的偏相关系数,c 为相关系数矩阵的逆矩阵中对应的元素。

以三个自变量为例,简单相关系数矩阵可以表作
⎥⎥⎥⎥⎥⎦
⎤⎢⎢⎢⎢
⎢⎣⎡=yy y y y y y R R R R R R R R R R R R R R R R C 3
2
1
323332
312232221
1131211. (3-19) 假定C 的逆矩阵为
⎥⎥⎥⎥⎥⎦
⎤⎢⎢⎢⎢⎢⎣⎡=-yy y y y y y c c c c c c c c c c c c c c c c C 32
1
323332
31223222111312111
. (3-20) 则第一个自变量与因变量的偏相关系数为
yy y y x c c c R 111,1-=
, (3-21)
第二个自变量与因变量的偏相关系数为
yy
y y x c c c R 222,2-=
, (3-22)
其余依此类推。

对于任意个自变量的情形都可这么计算,相当简捷。

特殊地,对于一个自变
量的情况,相关矩阵为



⎢⎣⎡=11R R C , (3-23) 逆矩阵为
⎥⎥
⎥⎦

⎢⎢⎢⎣⎡-----
-=⎥⎦⎤⎢⎣⎡---==-2
2
222*1
1111
111
1111det 1R R R R R R R R C C C , (3-24) 这里C *表示伴随矩阵。

于是,根据式(3-18),偏相关系数为
R R R R R
c c c R yy
y y x =-⋅
--=
-=
2
22
111,11
111. (3-25)
可见对于一元线性回归的情形,偏相关系数就等于简单相关系数。

⑵ 剩余标准误差
剩余标准差检验就是一元线性回归中所谓的标准误差检验,其目标是用于考察模型拟合精度。

剩余标准差的计算公式为
∑=---=n
i i i y y k n s 1
2)ˆ(11
. (3-26) 式中s 为剩余标准差,n 为样本数目,k 为变量数目(k =2)。

后面的检验方法与一元线性回
归中的标准误差检验毫无二致。

⑶ F -检验
F 值用于对对变量线性关系的检验,其计算公式为
∑∑∑-=
----=
22
2
2
)ˆ(1
)ˆ(1
)ˆ(y y
ks y y k n k
y y
F i
i
i
i
. (3-27)
后面的检验方法与一元线性回归中的F -检验步骤一样。

⑷ t -检验
t 值用于对回归系数的检验,计算公式为
1ˆ11b s b t =
, 2ˆ22b s
b
t =. (3-28) 式中
)
,cov(2)var()var()
var(ˆ212121x x x x n x s s b -⋅=, (3-29)
)
,cov(2)var()var()
var(ˆ212112x x x x n x s s
b -⋅=. (3-30)
式中var 表示方差,cov 表示协方差。

后面的检验步骤与一元线性回归完全类似。

当变量较多时,t 值的计算公式为
i i b i
b s
b t ˆ=
. (3-31) 式中b i 为自变量i x 的回归系数,i b s
ˆ的计算公式为s p s ii b i *ˆ=,这里s 为标准误差,p ii
为正规方程系数矩阵P 的逆矩阵中的i 行i 列元素。

矩阵P 中的第i 行第j 列元素可表示为
)()(j kj k
i ki ij x x x x s --=∑),cov(j i x x n =. (3-32)
式中k 为样本序号。

⑸ DW 检验
检验目标、计算公式以至检验步骤与一元线性回归模型的DW 统计检验过程完全一样。

3 多重共线性
1)多重共线性的定义与后果
当回归分析的自变量不止一个的时候,可能出现多重共线性问题——共线性
(collinearity )存在于两个或者多个相互关系的自变量之间。

所谓多重共线性是指自变量之间有存在线性关系,或接近线性关系。

应用LSM 估计参数的一个重要条件是自变量之间为不完全的线性相关。

否则,最小二乘估计就会失效。

一般而言,自变量之间都有某种程度的相关,如果彼此的相关性较低,其影响可以忽略,否则就会形成严重的多重共线性,主要后果如下:
⑴ 降低参数估计的精度。

这时,某些回归系数的标准偏差s bi 会很大,不能正确反映自变量与因变量之间的关联程度,从而参数估计不可靠。

⑵ 模型参数的敏感性提高。

回归系数的估计值可能会对某几组观察值特别敏感,观察值数目稍有改变,就会对参数估计结果的影响很大。

⑶ 荒谬的结果。

回归系数可能出现与事理意义不符的符号(指正、负号)。

⑷ 有用变量的作用减小。

甚至可能将有用的变量排除掉——回归分析中的以假乱真、喧宾夺主即此之谓。

可见,多重共线性的存在可能导致回归分析的失误或者预测的失效。

2)判断方法
判断方法通主要两种。

其一是通过计算自变量之间的简单相关系数来判断。

根据x i 、x j
的观测值计算i 、j 的相关系数。

美国计量经济学家L.R. Klein 认为,只有当
2
2m
ij R R > 时,共线性才是严重的,应该予以消除。

这种方法可以判断一定置信度水平下的多重共线性,但当变量较多时,判断结果未必可靠。

其二是利用不包含某个变量的复相关系数来判断。

设有m 个自变量,回归方程为
),,,(21m x x x f y =
现在构造不含某个变量x k 的回归方程
),,,,,,(1121m k k k k x x x x x f y +-=
这样,对于每个回归方程,都有一个复相关系数,然后比较R 12、R 22、R 32、…、R m 2,其中的R k 2越大,自变量x k 与其它变量之间发生共线性的情况越严重。

较之于第一种方法,这种方法的意义明确,但计算工作量很大。

3)消除的办法
消除多重共线性的办法可以简单的归结如下几点:
第一,剔除不必要的解释变量。

从一组高度相关的自变量中剔除某个变量。

例如:回归系数最小的;t 检验值最小的;系数符号与事理意义矛盾的……。

然后利用剩余的变量重新计算。

第二,改变自变量的定义形式。

例如:将变量累加生成;将二个自变量合并为一个新的变量;寻找新的变量代替具有多重共线性的变量……。

第三,增加观测值,可以避免或减少多重共线性。

第四,寻找新的解释变量。

第五,采用逐步回归法估计参数,减少多重共线性的消极影响。

4 哑变量
多元线性回归中的哑变量,即一元线性回归中的虚拟变量(dummy variable ),又称“哑元”。

下面以一个实例进行说明。

已知某地区15个房地产的售价、居住面积、评估价格和建筑等级(高、中、低)等数据,试根据表中资料拟合售价的预测模型(即以售价为因变量)。

这里等级只有高中低3个级别,但没有数值,故可作为分类变量进行处理。

方法是:将三个等价表为三个变量,以“是”、“非”定“1”、“0”:凡属于某个等级表示为1,否则为0。

在具体回归中,三个等级变量只需要取两个就可以了,因为只要知道了其中两个变量的属性,剩余的一个肯定知道。

例如,对于第一个样本,不是高级、不是中级,则它肯定是低级;对于第三个样本,它属于中级,则肯定不是低级(表1)。

根据这种思想,可以将低级排除,只取高级和中级进行回归,否则会造成信息交叠。

表1 某地区的房地产数据资料
数值变量
分类变量
价格y 居住面积x 1 评估价格x 2 建筑等级x 3
高 中 低 26.0 521 7.8 低 0 0 1 31.0 661 23.8 低 0 0 1 37.4 694 28.0 中 0 1 0 34.8 743 26.2 中 0 1 0 39.2 787 22.4 中 0 1 0 38.0 825 28.2 中 0 1 0 39.6 883 25.8 中 0 1 0 31.2 920 20.8 低 0 0 1 37.2 965 14.6 中 0 1 0 38.4 1011 26.0 中 0 1 0 43.6 1047 30.0 中 0 1 0 44.8 1060 29.2 高 1 0 0 40.6 1079 24.2 中 0 1 0 41.8 1164 29.4 高 1 0 0 45.2
1298
23.6

1
资料来源:于洪彦,2001,p188-189
回归结果见下表(表2)。

表2 某地区房地产数据的多元回归结果
变量与参数
回归系数 检验参数 相关性 共线性诊断
系数 标准差 t-Stat Sig. Zero-order Partial Part Tolerance
VIF (Constant) 19.1517 3.0397 6.3006 0.0001
居住面积x1 0.0100 0.0035 2.8952 0.0160 0.8147 0.6753 0.2565 0.4335 2.3070 评估价格x2 0.1837 0.0986 1.8620 0.0922 0.6754 0.5074 0.1650 0.6515 1.5349 高x3 7.9529 2.3472 3.3883 0.0069 0.5785 0.7311 0.3002 0.2405 4.1573 中x4
6.0346 1.5273 3.9511 0.0027 0.1969
0.7807 0.3500 0.3787
2.6405 说明:表中相关性一栏里,Zero-order 对应的是y 与x j 的简单相关系数,Partial 对应的是偏相关系数,Part 对应的是部分相关系数。

这些后面将会慢慢讲到。

至于共线性诊断一栏,下面就会学到。

根据表2中的回归系数可以建立如下模型:
0027
.0 0069.0 0922.0 0160.0 0001.0035.6953.7184.0010.0152.194321值:P x x x x y ++++=
回归的测定系数为R 2=0.9215,这表明上面四个变量可以解释房屋售价总变动的92%以
上;F 统计量(29.3501)对应的P 值(sig.)为0.00001671远小于0.05,说明整体线性关系可以接受。

t 检验对应的P 值为0.0922>0.05,表明用“评估价格”解释房屋售价的置信度不
够(置信度在91%以下)。

截距a与低级房屋售价的低限有关,回归系数b j与对房价的影响有关,其中等级变量的系数反映了高、中等级房屋的价格之差。

如果让5个变量都参入回归过程(即包括“低级”),则有些软件如SPSS会自动排除中级变量;如果采用逐步回归方法,则只有“低级”和“居住面积”进入回归模型。

§4 逐步回归(内容暂略)
现在我们知道,多元线性回归不仅仅是普通的线性代数运算,其间存在伪因果和共线性等诸多问题。

解决问题的办法已经开发了不少,著名的有前进(forward)法、后退(backward)法、剔除(remove)法、逐步(stepwise)回归法等。

目前看来应该效率较高、最受人们青睐的方法是逐步回归法。

关于逐步回归方法的基本原理和计算思路,繁而不难,只要有耐心,容易看懂。

因此,我们不作正式讲述。

但要求大家首先学会利用统计分析软件进行逐步回归。

下面将用实例进行具体说明。

【实例】山东省工业化进程的线性动力学分析。

我们知道,经济发展过程在景观体现为城市化过程,但在动力上却是一种工业化过程。

西方已经进入后工业化(知识经济)阶段,但在我国,工业化过程尚未完成。

现在,我们借助《山东统计年鉴2002》上给出有关经济指标开展一个简单的多元线性分析,看看能否揭示影响区域工业发展的主要因素。

我们的目的是探讨工业化进程及其动力,故以历年工业产值为因变量(y)。

至于解释变量(自变量),我们在分析以前并不清楚,分析以后才能得知大概。

为此,假设如下因素对工业化具有直接影响:农业(用产值表示)x1、建筑业(产值)x2、交通运输仓储邮电通信业(产值)x3、批发零售贸易餐饮业(产值)x4、铁路通车里程x5、公路通车里程x6、能源生产总量x7、职工平均工资x8、存款余额x9、贷款余额x10、国有单位固定资产投资x11、第三次产业x12,共计12项指标。

上述指标明显是有问题的,例如第三次产业是一个笼统的概念,它与商业、邮电等肯定会有信息重叠。

我们现在就是要利用回归分析方法解决这类分析问题。

首先,我们利用多元回归分析,对上述指标的50年数据(1952-2001)进行回归,观察初步结果。

借助微软Excel的数据分析功能,可以得出如下结果(表3):
表3 山东省有关经济指标的多元回归结果
变量及参数回归系数即b值参数标准误差t-Stat P-value 截距73.29234540.238322 1.8214560.076630农业产值0.5129220.206124 2.4884180.017459建筑业产值 3.005816 1.604475 1.8733960.068929交通运输仓储邮电通信业产值 2.125878 1.092959 1.9450660.059396批发零售贸易餐饮业-3.858377 1.315090-2.9339260.005718铁路通车里程-0.1102100.036878-2.9884680.004958公路通车里程0.0018700.001085 1.7231990.093202能源生产总量-0.0030690.006380-0.4810300.633328职工平均工资0.0167830.0330810.5073310.614933存款余额-0.0000240.000010-2.4784300.017882
贷款余额0.0000020.0000090.1997240.842790国有单位固定资产投资额0.0000590.000033 1.7704820.084886第三产业总值 1.4443850.417303 3.4612400.001372注:Excel中的P值(弃真概率值)便是SPSS中的显著性(significance,简写为sig.)
复相关系数R=0.9998,测定系数R2=0.9996,校正测定系数R a2=0.9995,因变量的标准误差为24.5207,F值8000.2787(对应的P值即sig.为2.59E-59远远小于0.01)。

我们现在得到很多统计量,外加各种坐标图。

如果采用SPSS进行分析,给出的统计参量更多。

那么我从什么地方入手进行分析呢?
最便捷的方法是查看回归系数(b i)值和P值(P-value)。

⑴先看回归系数。

在表3中可以看到,批发零售贸易餐饮业x4、铁路通车里程x5、能源生产总量x7、存款余额x9等变量对应的系数为负值,这暗示这些产业或者部门对工业的发展是不利的,这显然是如我们对经济系统的理解是相互矛盾的:在经济发展阶段不可能出现铁路通车里程越长、能源生产总量越大而工业反而越不增长的情况。

⑵再看P值。

首先说明,P值就是所谓“弃真概率”,在多元统计中它的功能与t值是等价的,但检验t值需要查表,比较麻烦;而查看P值就非常便捷,因为它与1的差值就是置信度。

根据回归的默认值,显著性水平置于0.05,因此P 值不得超过0.05。

但是,能源生产总量x7、职工平均工资x8等变量对应的P值显然大大高于0.05。

由此可见,用上述12个变量对山东省工业化进行解释是不行的,因为肯定存在多重共线性的问题。

必须剔除一些变量,才能得出有效的分析结果。

为此,我们需要进一步地利用SPSS等软件开展逐步回归分析,最后给出8个可供选择的模型及其参数(表4)。

表4 对上例进行逐步回归的部分结果
模型变量参数参数标准误差t-Stat P-value Tolerance VIF 说明
1 (Constant) 27.170 8.001 3.396 0.001 没有任何问题批发零售 4.623 0.030 152.471 0.000 1.000 1.000
2 (Constant) -38.094 21.736 -1.75
3 0.086 截距的数值和P
值:a值为负是
否合理?
批发零售 4.474 0.054 82.333 0.000 0.261 3.826
公路通车里程0.003 0.001 3.189 0.003 0.261 3.826
3 (Constant) -31.059 20.658 -1.503 0.140 截距的数值和P
值;VIF值是否
可以接受?
批发零售 3.156 0.503 6.270 0.000 0.003 369.741
公路通车里程0.002 0.001 2.898 0.006 0.254 3.935
建筑业 2.166 0.823 2.631 0.012 0.003 377.910
4 (Constant) -8.502 18.937 -0.449 0.656 截距的数值和P
值;VIF值是否
可以接受?
批发零售 2.816 0.448 6.284 0.000 0.003 384.202
公路通车里程0.001 0.001 1.010 0.318 0.195 5.139
建筑业 5.679 1.150 4.938 0.000 0.001 966.450
存款余额0.000 0.000 -3.915 0.000 0.003 382.194
5 (Constant) 9.327 6.841 1.363 0.179 VIF值是否可以
接受?
批发零售 2.743 0.442 6.201 0.000 0.003 374.067
建筑业 6.224 1.016 6.126 0.000 0.001 753.886
存款余额0.000 0.000 -5.031 0.000 0.003 292.681
6 (Constant) 9.409 5.521 1.704 0.095 批发零售业的回
归系数是否有问批发零售-1.402 0.893 -1.570 0.123 0.000 2342.688
建筑业 6.190 0.820 7.549 0.000 0.001 753.937 题?VIF 值是否
可以接受? 存款余额 0.000 0.000 -7.824 0.000 0.001 774.798
第三产业 1.640 0.324 5.062 0.000 0.000 4423.230
7 (Constant) 9.780 5.603 1.746 0.088
VIF 值是否可以
接受? 建筑业 5.795 0.793 7.310 0.000 0.001 682.981
存款余额 0.000 0.000 -9.981 0.000 0.003 332.046 第三产业 1.174 0.131 8.926 0.000 0.001 706.277
8 (Constant) 6.668 5.588 1.193 0.239
VIF 值是否可以接受? 建筑业 6.259 0.794 7.887 0.000 0.001 737.988
存款余额 0.000 0.000 -10.222 0.000 0.002 415.992 第三产业 0.907 0.178 5.108 0.000 0.001 1388.290 交通邮电
1.538
0.717 2.144 0.038
0.001 776.978
首先介绍关于多重共线性诊断(collinearity diagnosis )的两个统计量:对共线性的容忍度(tolerance )和方差膨胀因子(Variance Inflation Factor ,VIF )。

这两个参量是互为倒数的。

简单地说,容忍度可以定义为
21j j R Tol -=,
这里R j 是参入回归的第j 个自变量与其它参入回归的变量的复相关系数。

相应地,VIF 定义

2
11
1j
j j R Tol VIF -==
. 举例来说,对于表4中的模型2,有批发零售贸易餐饮业产值x 4和公路通车里程x 6参入回归,x 4与x 5的相关系数就是它们的复相关系数。

对于x 4而言,容易算出R 2=0.7386,代入上面的式子立即得到容忍度为
2614.07386.01=-=j Tol
相应地,VIF 为
8256.37386
.011
=-=
j VIF
对于x 5来说,结果完全一样。

不过,如果在SPSS 上开展计算,通常由于四舍五入的缘故,容忍度与VIF 的倒数关系失真。

如果不存在共线性,则R j =0,从而容忍度和VIF 都为1。

一般用VIF 判断共线性的强度。

严格地说,要求VIF<10。

不过,这一点在实际中有时很难做到。

因此,在具体操作中应该将VIF 与P 值结合起来进行综合判断。

现在对表4中的结果进行一个简单的分析。

首先分析参数的意义。

一般情况下,参数a 可以不作考察,但是,a 值不能太离谱。

为了分析a 值,必须知道它在具体模型中的含义。

本例的多元线性回归模型可以简单地地表作
∑=+
=k
j j
j x
b a y 1
,
式中j =1,2, …, k 为变量的序号(k =12为自变量的数目,这里假定被剔除的变量的系数为0)。

显然,当所有的x j =0时,y =a ,这意味着a 的系统意义是山东省的工业基础。

如果a<0,就意味着1952年前后山东省的工业基础为负,这是不符合实际的。

至于b 值,意义比较明显。

对模型求偏导数可得
dt
dx dt dy b dx dy j j j //== 由此可知,b j 是第j 个变量对工业产值变动的单位贡献,即每增加一个x j 引起y 的增长率。

对于本例,b j <0也是与实际不符合的。

其次观察P 值。

当P >0.05时,置信度将会低于95%。

再次观察VIF 值,VIF j 最好小于10,或者平均结果
∑=>=<p j j VIF
p VIF 11
不得远远大于1。

用模型参数和统计参量检验发现,上述8个模型只有第一个一元线性回归模型是可以接受的,其他的多元线性回归模型竟然没有一个满足要求。

这是否意味着只有批发零售贸易餐饮业(x 4)对山东工业化有贡献,其他的变量没有太大的作用呢?显然不是这样。

随机抽出交通运输仓储邮电通信业产值(x 3)为自变量,建立它与工业产值的一元线性回归关系,可以发现,二者高度线性相关(图1a )。

那么为什么交通邮电变量进入回归系列以后结果不够理想呢?只要建立批发零售与交通邮电业的相关图就可以看出,二者也是高度相关的(图1b )。

因此,在模型8中,交通邮电进来以后,批发零售业就被自动排除。

为什么逐步回归首先选中批发零售贸易餐饮业产值(x 4)进入回归过程呢?只要比较一下各个变量与工业的相关系数就可以看出,在所有的自变量中,批发零售业与工业的相关系数最高(R 2=0.9979,参见图1c ),其次是第三次产业(R 2=0.9973),再次是建筑业(R 2=0.9971)。

当然,逐步回归决不会愚蠢地以自变量与因变量的单相关系数为遴选标准,在回归过程中它必须考虑自变量内部的相关性与结构特征。

1000
2000
3000
4000
5000
0100200300400500600700800交通邮电x 3工业y
a 交通邮电与工业的关系
250
500
7501000
0100200300400500600700800
交通邮电x 3批发零售x 4
b 交通邮电与批发零售业的关系
1000
2000
3000
4000
5000
02004006008001000批发零售x 4工业y
c 批发零售业与工业的关系
图1 山东省几个典型的产业相关图式
最后需要强调的是,有些变量如能源生产总量虽然与工业产值的线性相关程度不高,但是,非线性相关系数很高。

由此可见,多元线性回归模型之所以不能建立,主要原因在于:
第一, 自变量之间大多存在高度的共线性现象。

第二, 变量之间存在许多非线性关系,无法用线性关系进行近似处理。

总而言之,对于上述这个例子是不能进行多元线性分析的。

必须借助因子分析对变量进行遴选,借助非线性分析方法解析系统的复杂结构。

相关文档
最新文档