第三节:多元线性相关与回归分析汇总
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三节 多元线性相关与回归分析
一、标准的多元线性回归模型
上一节介绍的一元线性回归分析所反映的是1个因变量与1个自变量之间的关系。但是,在现实中,某一现象的变动常受多种现象变动的影响。例如,消费除了受本期收入水平的影响外,还会受以往消费和收入水平的影响;一个工业企业利润额的大小除了与总产值多少有关外,还与成本、价格等有关。这就是说,影响因变量的自变量通常不是一个,而是多个。在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。这就产生了测定与分析多因素之间相关关系的问题。 研究在线性相关条件下,两个和两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型相类似,只是在计算上比较麻烦一些而已。限于本书的篇幅和程度,本节对于多元回归分析中与一元回归分析相类似的内容,仅给出必要的结论,不作进一步的论证。只对某些多元回归分析所特有的问题作比较详细的说明。
多元线性回归模型总体回归函数的一般形式如下:
t kt k t t u X X Y ++⋯++=βββ221 (7.51)
上式假定因变量Y 与(k-1)个自变量之间的回归关系可以用线性函数来近似反映.式中,Y t 是变量Y 的第t个观测值;X jt 是第j 个自变量X j 的第t个观测值(j=1,2,……,k);u t 是随机误差项;β1,β2,… ,βk 是总体回归系数。βj 表示在其他自变量保持不变的情况下,自变量X j 变动一个单位所引起的因变量Y 平均变动的数额,因而又叫做偏回归系数。该式中,总体回归系数是未知的,必须利用有关的样本观测值来进行估计。
假设已给出了n个观测值,同时1ˆβ,2ˆβ…,k βˆ为总体回归系数的估计,则多元线性回
归模型的样本回归函数如下:
t kt k t t e X X Y ++⋯++=βββˆˆˆ221 (7.52)
(t =1,2,…,n)
式中,e t 是Y t 与其估计t Y ˆ之间的离差,即残差。与一元线性回归分析相类似,为了进
行多元线性回归分析也需要提出一些必要的假定。多元线性回归分析的标准假定除了包括上一节中已经提出的关于随机误差项的假定外,还要追加一条假定。这就是回归模型所包含的自变量之间不能具有较强的线性关系,同时样本容量必须大于所要估计的回归系数的个数即n >k 。我们称这条假定为标准假定6。
二、多元线性回归模型的估计
(一)回归系数的估计
多元线性回归模型中回归系数的估计同样采用最小二乘法。设
∑-=∑=22)ˆ(t t t Y Y e Q
2221)ˆˆˆ(kt k t t X X Y βββ-⋯--∑= (7.53)
根据微积分中求极小值的原理,可知残差平方和Q存在极小值,欲使Q达到最小,Q对1ˆβ、2ˆβ…,k βˆ的偏导数必须等于零。将Q对1ˆβ、2ˆβ…,k βˆ求偏导数,并令其等于零,加以整理后可得到以下k个方程式:
∑=∑+⋯+∑+t kt k t Y X X n βββˆˆˆ221 ∑=∑+⋯+∑+∑t t kt t k t t Y X X X X X 2222221ˆˆˆβββ (7.54)
………
∑=∑+⋯+∑+∑t kt kt k kt t kt Y X X X X X 2221ˆˆˆβββ
以上k元一次方程组称为正规方程组或标准方程组,通过求解这一方程组便可以得到1ˆβ、2ˆβ…,k βˆ。
求解多元回归方程,用矩阵形式来表达较为简便1[1]。记
⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=n y y y 21Y ⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=kn 2n k 22k 21x x x x x x 11121X
⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=n 21u u u U ⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=k βββ 21Β ⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=n y y y ˆˆˆˆ21 Y ⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=k βββˆˆˆˆ21 Β
⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=n e e e 21e 则总体回归函数(7.51)式可以写为:
Y =XB +U (7.55)
样本回归函数(7.52)式可以写为:
Y =X Β
ˆ+e (7.56) 标准方程组(7.54)式可以写为:
(X' X)Β
ˆ=X' Y (7.57) 式中X'表示X 的转置矩阵。(X'X)是一个k×k的对称矩阵,根据标准假定6,k个自
变量之间不存在高度的线性相关,因此其逆矩阵存在。在(7.57)式的两边同时左乘(X'X)-1,
可以得到:
Β
ˆ=(X'X)-1X'Y (7.58) 上式是回归系数最小二乘估计的一般形式。
实际求解多元回归方程中的回归系数的估计值,通常需要依靠电子计算机。在电子计算机技术十分发达的今天,多元回归分析的计算已经变得相当简单。利用现成的软件包如EXCEL 等,只要将有关数据输入电子计算机,并指定因变量和相应的自变量,立刻就能得到计算结果。因此,对于从事应用研究的人们来说,更为重要的是要能够理解输入和输出之间相互对应的关系,以及对电子计算机输出的结果做出正确的解释。
限于篇幅,这里不给出具体的数值计算实例。而在下一节中,我们将结合实际的例子,讲解如何利用EXCEL 进行多元线性回归分析。
(二)总体方差的估计
除了回归系数以外,多元线性回归模型中还包含了另一个未知参数,那就是随机误差项
的方差σ2。与一元回归分析相类似,多元线性回归模型中的σ2也是利用残差平方和除以其自由度来估计的。即有:
S2=k n e t
-∑2 (7.59)
上式中,n是样本观测值的个数;k是方程中回归系数的个数;在(k-1)元回归模型中,标准方程组有k个方程式,残差必须满足k个约束条件,因此其自由度为(n -k)。数学上可
以证明,S2是σ2的无偏估计。S2的正平方根S 又叫做回归估计的标准误差。S越小表明
样本回归方程的代表性越强。
1[1] 这里给出的矩阵形式具有一般性,对于一元线性回归模型也同样适用。对于尚未学过矩阵代数的读者,可以不必掌握这一部分内容。