多元线性相关与回归分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三节 多元线性相关与回归分析
一、标准的多元线性回归模型
上一节介绍的一元线性回归分析所反映的是1个因变量与1个自变量之间的关系。
但是,在现实中,某一现象的变动常受多种现象变动的影响。
例如,消费除了受本期收入水平的影响外,还会受以往消费和收入水平的影响;一个工业企业利润额的大小除了与总产值多少有关外,还与成本、价格等有关。
这就是说,影响因变量的自变量通常不是一个,而是多个。
在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。
这就产生了测定与分析多因素之间相关关系的问题。
研究在线性相关条件下,两个和两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。
多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型相类似,只是在计算上比较麻烦一些而已。
限于本书的篇幅和程度,本节对于多元回归分析中与一元回归分析相类似的内容,仅给出必要的结论,不作进一步的论证。
只对某些多元回归分析所特有的问题作比较详细的说明。
多元线性回归模型总体回归函数的一般形式如下:
t kt k t t u X X Y ++⋯++=βββ221 (7.51)
上式假定因变量Y 与(k-1)个自变量之间的回归关系可以用线性函数来近似反映.式中,Y t 是变量Y 的第t个观测值;X jt 是第j 个自变量X j 的第t个观测值(j=1,2,……,k);u t 是随机误差项;β1,β2,… ,βk 是总体回归系数。
βj 表示在其他自变量保持不变的情况下,自变量X j 变动一个单位所引起的因变量Y 平均变动的数额,因而又叫做偏回归系数。
该式中,总体回归系数是未知的,必须利用有关的样本观测值来进行估计。
假设已给出了n个观测值,同时1ˆβ,2ˆβ…,k βˆ
为总体回归系数的估计,则多元线性回归模型的样本回归函数如下:
t kt k t t e X X Y ++⋯++=βββˆˆˆ221 (7.52) (t =1,2,…,n)
式中,e t 是Y t 与其估计t Y ˆ
之间的离差,即残差。
与一元线性回归分析相类似,为了进行多元线性回归分析也需要提出一些必要的假定。
多元线性回归分析的标准假定除了包括上一节中已经提出的关于随机误差项的假定外,还要追加一条假定。
这就是回归模型所包含的自变量之间不能具有较强的线性关系,同时样本容量必须大于所要估计的回归系数的个数即n >k 。
我们称这条假定为标准假定6。
二、多元线性回归模型的估计
(一)回归系数的估计
多元线性回归模型中回归系数的估计同样采用最小二乘法。
设
2221)ˆˆˆ(kt k t t X X Y βββ-⋯--∑= (7.53)
根据微积分中求极小值的原理,可知残差平方和Q存在极小值,欲使Q达到最小,Q对1ˆβ、2ˆβ…,k βˆ的偏导数必须等于零。
将Q对1ˆβ、2ˆ
β…,k βˆ求偏导数,并令其等于零,加以整理后可得到以下k个方程式:
∑=∑+⋯+∑+∑t t kt t k t t Y X X X X X 2222221ˆˆˆβββ (7.54) ………
以上k元一次方程组称为正规方程组或标准方程组,通过求解这一方程组便可以得到1ˆβ、2ˆβ…,k βˆ。
求解多元回归方程,用矩阵形式来表达较为简便1[1]。
记
则总体回归函数(7.51)式可以写为:
Y =XB +U (7.55) 样本回归函数(7.52)式可以写为:
Y =X Β
ˆ+e (7.56) 标准方程组(7.54)式可以写为:
(X' X)Β
ˆ=X' Y (7.57) 式中X'表示X 的转置矩阵。
(X'X)是一个k×k的对称矩阵,根据标准假定6,k个自变量之间不存在高度的线性相关,因此其逆矩阵存在。
在(7.57)式的两边同时左乘(X'X)-1,可以得到:
Β
ˆ=(X'X)-1X'Y (7.58) 上式是回归系数最小二乘估计的一般形式。
实际求解多元回归方程中的回归系数的估计值,通常需要依靠电子计算机。
在电子计算机技术十分发达的今天,多元回归分析的计算已经变得相当简单。
利用现成的软件包如EXCEL 等,只要将有关数据输入电子计算机,并指定因变量和相应的自变量,立刻就能得到计算结果。
因此,对于从事应用研究的人们来说,更为重要的是要能够理解输入和输出之间相互对应的关系,以及对电子计算机输出的结果做出正确的解释。
限于篇幅,这里不给出具体的数值计算实例。
而在下一节中,我们将结合实际的例子,讲解如何利用EXCEL 进行多元线性回归分析。
(二)总体方差的估计
除了回归系数以外,多元线性回归模型中还包含了另一个未知参数,那就是随机误差项的方差σ2。
与一元回归分析相类似,多元线性回归模型中的σ2也是利用残差平方和除以其自由度来估计的。
即有:
S2=k n e t -∑2 (7.59)
上式中,n是样本观测值的个数;k是方程中回归系数的个数;在(k
1[1] 这里给出的矩阵形式具有一般性,对于一元线性回归模型也同样适用。
对于尚未学过矩阵代数的读者,可以不必掌握这一部分内容。
-1)元回归模型中,标准方程组有k个方程式,残差必须满足k个约束条
件,因此其自由度为(n -k)。
数学上可以证明,S2是σ2的无偏估计。
S
2的正平方根S 又叫做回归估计的标准误差。
S越小表明样本回归方程的代表性越强。
在编制计算机程序时,残差平方和一般不是按照其定义式计算,而是利用以下公式计算:
∑=2t e e'e =Y'Y - Β
'ˆX'Y (7.60) 上式是残差平方和的矩阵形式。
式中的“′”表示求转置;Y 是因变
量样本观测值向量;X 是自变量样本观测值矩阵;Β
'ˆ是回归系数估计值向量的转置向量。
(三)最小二乘估计量的性质
与一元线性回归模型类似,多元线性回归模型中回归系数的最小二乘估计量也是随机变量。
数学上可以证明,在标准假定条件可以得到满足的情况下,多元回归模型中回归系数最小二乘估计量的期望值同样等于总体回归系数的真值,即有:
E(B
ˆ)=B (7.61) 回归系数最小二乘估计量的方差、协方差矩阵为:
Var(B ˆ)=E(B ˆ-B )(B
ˆ-B )' =σ2(X'X )-1 (7.62)
该矩阵主对角元素是各回归系数估计量的方差E(j βˆ-βj )2,其他元素
是各回归系数估计量之间的协方差E(j βˆ-βj ) (i βˆ-βi ) (i ≠j )。
在此基础上,还可以进一步证明回归系数的最小二乘估计量是最优线性无偏估计量和一致估计量。
也就是说,在标准的多元线性回归模型中,高斯.马尔可夫定理同样成立。
三、多元线性回归模型的检验和预测
(一)拟合程度的评价
在多元线性回归分析中,总离差平方和的分解公式依然成立。
因此也可以用上一节所定义的决定系数作为评价模型拟合程度的一项指标。
不过,为了避免混淆,多元回归的决定系数用R2表示。
利用R2来评价多元线性回归方程的拟合程度,必须注意以下问题。
R2=1- ∑-∑22)
(Y Y e t t
(7.63) 由决定系数的定义可知,R2的大小取决于残差平方和∑2t e 在总离差平方和∑-2)Y Y t (中所占的比重。
在样本容量一定的条件下,总离差平方和与
自变量的个数无关,而残差平方和则会随着模型中自变量个数的增加不断减少,至少不会增加。
因此,R2是自变量个数的非递减函数。
在一元线性回归模型中,所有模型包含的变量数目都相同,如果所使用的样本容量也一样,决定系数便可以直接作为评价拟合程度的尺度。
然而在多元线性
回归模型中,各回归模型所含的变量的数目未必相同,以R2的大小作为衡量拟合优劣的尺度是不合适的。
因此,在多元回归分析中,人们更常用的评价指标是所谓的修正自由度的决定系数2R 。
该指标的定义如下:
2R =1-∑---∑)1/()()
/(22n Y Y k n e t t (7.64) =1-)()
(k n n --1(1-R2)2[2] (7.65)
式中,n是样本容量;k是模型中回归系数的个数。
(n-1)和(n-k)实际上分别是总离差平方和与残差平方和的自由度。
修正自由度的决定系数2R 具有以下特点:
1. 2R ≤R2。
因为k≥1,所以根据2R 和R2各自的定义式可以得出这一结论。
对于给定的R2值和n值,k值越大2R 越小。
在进行回归分析时,一般总是希望以尽可能少的自变量去达到尽可能高的拟合程度。
2R 作为综合评价这两方面情况的一项指标显然比R2更为合适。
2. 2R 小于1,但未必都大于0。
在拟合极差的场合,2R 有可能取负值。
【例7-9】假设有7年的年度统计资料,现利用其对同一因变量拟合了两个样本回归方程。
方程一中:k=6,R2=0.82;方程二中:k=2,R2=0.80。
试对这两个回归方程的拟合程度做出评价。
解: 如果仅从R2考察,似乎方程一的拟合程度更佳。
但是,由于两个方程选用的自变量个数不同,这一结论是不正确的。
将上列数据代入(7.65)式,可得:
方程一的2R =1-((7-1)/(7-6))(1-0.82)=-0.08
方程二的2R =1-((7-1)/(7-2))(1-0.80)=0.76
由此可见,方程二的实际拟合程度远远优于方程一。
(二)显着性检验
多元线性回归模型的显着性检验同样包括两方面的内容,即回归系数的显着性检验与回归方程的显着性检验。
现分述如下:
1.回归系数的显着性检验
多元回归中进行这一检验的目的主要是为了检验与各回归系数对应的自变量对因变量的影响是否显着,以便对自变量的取舍做出正确的判断。
一般来说,当发现某个自变量的影响不显着时,应将其从模型中删除。
这样才能够做到以尽可能少的自变量去达到尽可能高的拟合优度。
多元模型中回归系数的检验同样采用t检验,其原理和基本步骤与一元回归模型中的t检验基本相同,这里不再赘述。
下面仅给出回归系数显着性检验t统计量的一般计算公式。
2[2]对于不包含常数项的回归方程,该公式不适用。
tj βˆ= j S j ββˆˆ j=1,2,…,k (7.66)
式中,j βˆ是回归系数的估计值,Sj βˆ是j βˆ的标准差的估计值。
Sj βˆ按
下式计算:
Sj βˆ= jj S ψ⨯2 (7.67)
式中,jj ψ是(X'X)-1的第j个对角线元素,S2是随机误差项方差的估计值。
(7.66)式的t统计量背后的原假设是H0:βj =0,因此t的绝对值越大表明βj 为0的可能性越小,即表明相应的自变量对因变量的影响是显着的。
2.回归方程的显着性检验
多元线性回归模型包含了多个回归系数, 因此对于多元回归模型,除了要对单个回归系数进行显着性检验外,还要对整个回归模型进行显着性检验。
由离差平方和的分解公式可知,回归模型的总离差平方和等于回归平方和与残差平方和的和。
回归模型总体函数的线性关系是否显着,其实质就是判断回归平方和与残差平方和之比值的大小问题。
由于回归平方和与残差平方和的数值会随观测值的样本容量和自变量个数的不同而变化,因此不宜直接比较,而必须在方差分析的基础上利用F检验进行。
其具体的方法步骤可归纳如下:
(1)假设总体回归方程不显着,即有
H0:β2=β3=……=βk =0
(2)进行方差分析,列出回归方差分析表(见表7-3)
从∑=Y n Y t /ˆ
的约束条件,因此其自由度是k-1。
残差平方和取决于n个因变量的观测值,同时又要服从k个正规方程式的约束,因此其自由度是n-k 。
回归平方和与残差平方和各除以自身的自由度得到的是样本方差。
(3)根据方差分析的结果求F统计量,即
F=k)/(n-SS 1)/(k-SS E R (7.68)
数学上可以证明,在随机误差项服从正态分布同时原假设成立的条
件下,F服从于自由度为(k-1)和(n-k)的F分布。
(4)根据自由度和给定的显着性水平α,查F分布表中的理论临界值Fα。
当F>Fα时,拒绝原假设,即认为总体回归函数中各自变量与因变量的线性回归关系显着。
当F<Fα时,接受原假设,即认为总体回归函数中,自变量与因变量的线性关系不显着,因而所建立的回归模型没有意义。
(三)多元线性回归预测
在通过各种检验的基础上,多元线性回归模型可以用于预测。
多元线性回归预测与一元线性回归预测的原理是一致的,其基本公式如下:
kf k f f X X Y βββˆˆˆˆ221+⋯++= (7.69)
式中,X j f (j=2,3,……k)是给定的X j 在预测期的具体数值;j βˆ是已估
计出的样本回归系数;f Y ˆ
是X j 给定时Y的预测值。
该方程的矩阵形式为: βX ˆˆ'
f f Y = (7.70) 式中,
多元线性回归预测标准误差的计算公式如下:
f
f ef S S X X X X 1'')(1-+= (7.71)
式中,S 是回归方程估计的标准误差。
多元线性回归预测Yf 的(1-α)的置信区间可由下式给出: Yf ±t α/2×ef S (7.72)
式中,t α/2是显着水平为α的t 分布双侧临界值。
四、复相关系数和偏相关系数
在多变量的情况下,变量之间的相关关系是很复杂的,需要计算复相关系数与偏相关系数。
(一)复相关系数
样本复相关系数(以下简称复相关系数)的定义式如下:
R=∑∑∑----2
2)ˆ()()ˆ)((Y Y Y Y Y Y Y Y t t t t (7.73)
上式与单相关系数的定义式十分类似,不同之处仅在于用根据
X 2,X 3,……,X K 等计算的回归估计值t Y ˆ代替了单相关系数定义式中的X t 。
在所涉及的变量只有两个时,因为t Y ˆ是X t 的严密函数,所以(7.73)式完全等价
于单相关系数的定义式。
而在多元分析的场合,以上定义的复相关系数的平方实际上就是多元线性回归方程的决定系数。
实际计算复相关系数时,一般不直接根据其定义式,而是先计算出决定系数,然后再求决定系数的平方根。
应当指出:在多个变量的情况下,Y 与其他多个变量之间既可能有正相关又可能有负相关,所以复相关系数
也就只取正值。
因此,复相关系数只是反映一个变量Y 与其他多个变量X 2,X 3,……,X K 之间线性相关程度的指标,而不能反映其相互之间线性相关的方向。
复相关系数的取值区间为:0≤R≤1。
复相关系数为1表明Y 与X 2,X 3,……,X K 之间存在严密的线性关系,复相关系数为0则表明Y 与X 2,X 3,……,X K 之间不存在任何线性相关关系。
一般情况下,复相关系数的取值在0和1之间,表明变量之间存在一定程度的线性相关关系。
(二)偏相关系数
在对其他变量的影响进行控制的条件下,衡量多个变量中某两个变量之间的线性相关程度和相关方向的指标称为偏相关系数。
偏相关系数不同于上一节中所介绍的单相关系数。
在计算单相关系数时,只需要掌握两个变量的观测数据,并不考虑其他变量对这两个变量可能产生的影响。
而在计算偏相关系数时,需要掌握多个变量的数据,一方面考虑多个变量相互之间可能产生的影响,一方面又采用一定的方法控制其他变量,专门考察两个特定变量的净相关关系。
在多变量相关的场合,由于变量之间存在错综复杂的关系,因此偏相关系数与单相关系数在数值上可能相差很大,有时甚至符号都可能相反。
单相关系数受其他因素的影响,反映的往往是表面的非本质的联系,而偏相关系数则较能说明现象之间真实的联系。
例如,一种商品的需求既受收入水平的影响又受其价格的影响。
按照经济学理论,在一定的收入水平下,该商品的价格越高,商品的需求量就越小。
也就是说,需求与价格之间应当是负相关。
可是,在现实经济生活中,由于收入和价格常常都有不断提高的趋势,如果不考虑收入对需求的影响,仅仅利用需求和价格的时间序列数据去计算单相关系数,就有可能得出价格越高需求越大的错误结论。
在明确偏相关系数与单相关系数区别的基础上,我们再来讨论偏相关系数的定义公式。
在上一节中,我们已经给出了样本单相关系数的定义公式
r=∑∑∑----2
2)()())((Y Y X X Y Y X X t t t t (7.74)
样本相关系数的定义还可以从另一个角度给出。
在进行相关分析时,对于所涉及的两个变量X和Y是同等看待的。
若设
t t X Y 21ˆˆˆββ+= (7.75)
t t
Y X 21ˆˆˆαα+= (7.76) 则样本单相关系数也可定义为两个样本回归系数的乘积的开方,即:
r= ±22ˆˆα
β (7.77) 上式中r的符号应与回归系数的符号一致。
回归系数为正数时,r取正值;回归系数为负数时,r取负值。
容易证明(7.74)式与(7.77)式是完全等价的。
也就是说,单相关系数可以表现为两个回归系数的几何平均数。
样本偏相关系数也可以按照类似的形式来定义,即偏相关系数等于
两个相应的偏回归系数的几何平均数。
为简明起见,下面举3变量的偏相关分析为例。
设有3个变量X 1、X 2和X 3。
3个变量各自以另两个变量为自变量拟合的样本回归方程如下:
t t t X X X 32.1323.1223.11ˆˆˆˆβββ++= (7.78)
t t t X X X 31.2313.2113.22ˆˆˆˆβββ++= (7.79)
t t t X X X 21.3212.3112.33ˆˆˆˆβββ++= (7.80)
以上各式中的第1项均为截距系数,表示当模型中的自变量取零值时
因变量的平均值。
例如,23.1ˆβ表示X 2、 X 3为0时X 1的平均值。
式中其他的
回归系数称为偏回归系数,它们都有三个下标,在小圆点左边的下标为主下标,小圆点右边的下标为次下标。
主下标表示所要考察的两个变量;次下标表示在考察上述两个变量的关系时,使其保持不变的变量。
不难理解,偏回归系数表示:当其他自变量保持不变时,某一自变量变化一个单位而
使因变量平均变化的数值。
例如,3.12ˆβ表示X 3保持不变时,X 2变化一单位
而引起的X 1平均变化的数值;1.32ˆβ表示X 1保持不变时,X 2变化一单位而引
起的X 3平均变化的数值。
利用以上偏回归系数,3个变量之间的偏相关系数可定义如下: 3.213.123.12ˆˆββ±=r (7.81)
2
.312.132.13ˆˆββ±=r (7.82) 1.321.231.23ˆˆββ±=r (7.83)
偏相关系数的取值范围与单相关系数一样也是在-1至+1之间,其符号与相应的偏回归系数相同。
以上偏相关系数的定义可以推广到k个变量的场合。
在进行实际的客观现象的定量分析时,人们所关心的通常是某一个因变量Y 与多个自变量之间的偏相关程度。
这时若令Y 为X 1,则Y 与各自变量的偏相关系数的一
般形式可表现为:
=+-k j j j r ,),(),(,,,.ΛΛ11321±k j j j k j j j ,),1(),1(,,3,2.1,),1(),1(,,3,2.1ˆˆΛΛΛΛ+-+-ββ
(j=2,3,),k Λ (7.84)
式中,k j j j ,),1(),1(,3,2.1ˆΛΛ+-β是Y 对X j 的偏回归系数;
k j j j ,),1(),1(,3,2.1ˆΛΛ+-β是X j 对Y 的偏回归系数。
k j j j r ,),1),(1,(,3,2.1ΛΛ+-表示k个变量情况下Y 与X j 的偏相关系数,它反映其他自变量保持不变时Y 与X j 的净相关程度。