浅谈多元线性回归模型及其应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1多元线性回归模型的概念及基本假设
1.1多元线性回归模型的概念
多元线性回归模型是用两个或两个以上的解释变量来解释因变量的一种模型[]
1。设为Y 因变量,k X X X ,21 ,
,为k 个用来说明Y 的被称为解释变量的不同变量,其中1X 恒等于1,则),,2,1(,221n i X X Y i ki k i i =++++=μβββ (1)式 称为多元线性回归模型。其中,),,2,1(n i i =μ为随即扰动项;参数k βββ,,,21 称为回归系数。若令
⎪⎪
⎪⎪
⎪
⎭
⎫
⎝⎛=⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=⎪⎪⎪⎪⎪⎭⎫
⎝⎛=⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=n k kn n n k k n X X X X X X X X X X Y Y Y Y μμμμββββ
21212122212
1211121,,,,则(1)式可用矩阵形式表
示为:μβ+=X Y (2)式。 1.2多元线性回归模型的基本假设 1.2.1 随机扰动项的数学期望为零
即0)()()()(21=⎪
⎪⎪⎪
⎪⎭⎫
⎝
⎛=n E E E E μμμμ ,这意味着βX Y E =)(为线性回归模型(2)的总体回归函数。 1.2.2 随机扰动项i μ的方差相等
即221)()()(σμμμ====n D D D ,也称为同方差性。 1.2.3 随机扰动项μ和解释变量X 不相关 数学表达式为:0),(=X COV μ。 1.2.4 解释变量之间不存在多重共线性
所谓多重共线性是指解释变量之间存在完全或近似完全的线性相关[]2。 1.2.5 随机扰动项μ为服从正态分布的随机向量
2多元线性回归模型的参数估计
要想确定多元线性回归模型),,2,1(,221n i X X Y i ki k i i =++++=μβββ,则必须估计出回归系数k βββ,,,21 的值。在回归分析中,使用最广泛的方法是最小二乘法,一般称为普通最小二乘法[]3,即使残差平方和最小的回归系数的估计。设与总体回归模型(1)式对应的样本回归模型为:
),,2,1(,221n i X X Y i ki k i i =++++=∧
∧
∧
∧
μβββ (4)式,
或用矩阵表示为:∧∧+=μβX Y ,其中∧β为总体回归系数β的最小二乘估计,∧
μ为残差向量。
根据最小二乘法的定义,在线性样本回归模型中,使残差平方和最小的回归系数的估计称为最小二乘估计。即使)()('
'∧∧
∧
∧--=ββμμX Y X Y 最小的∧
β。其中∧
'μ是∧
μ的转置。为使∧
β最小,可将)()('
'∧∧
∧
∧--=ββμμX Y X Y 看作是∧
β的函数,则其关于∧β的一阶偏导数必须为零,即
02'2''
=+-=∂∂∧
∧
∧
∧ββ
μμX X Y X )(,因此得到方程
Y X X X '
'
=∧
β,所以Y X X X '1')(-∧
=β。虽然计算过程十分复杂,但是在如今的计算
机时代可以运用相关的统计软件(如Eviews3.0)对回归系数进行估计。
3回归系数及回归方程的显著性检验
3.1 回归系数的显著性检验
运用上面的计算方法或者通过计算机的运行可以得出回归系数k βββ,,,21 的估计,但所估计的回归系数在给定的显著性水平α下是否具有显著性呢?这需
要给予相应的显著性检验,通常是构造t 统计量。那么在进行t 检验过程中需遵循以下四个步骤:
①提出原假设和备择假设:
原假设),,2,1(,0:0k j H j ==β,备择假设),,2,1(,0:1k j H j =≠β; ②作统计量:∧
∧
∧
=
j
S t j
ββ,其中∧∧j
S β为∧
j β的标准差;
③根据样本数据和原假设计算统计量t 的值;
④将统计量t 的值与临界值αt 相比较,若t 的绝对值大于临界值αt ,则需拒绝原假设0H ,说明j β显著不为零。反之,则需接受原假设0H ,说明j β显著为零。 3.2回归方程的显著性检验
在已知回归系数k βββ,,,21 的条件下,还需对整个回归方程进行显著性检验
[]
4。在对整个回归方程进行显著性检验时通常是构造F 统计量,类似的,F 检验
时仍需四个步骤:
①提出原假设和备择假设:
原假设0:210====k H βββ ,备择假设不全为零k H βββ,,,:211 ; ②作统计量:)
/()
1/(k n SSE k SSR F --=
,其中SSR 为残差平方和,SSE 为回归平方和,
(k-1),(n-k)分别为SSR ,SSE 的自由度; ③根据样本数据和原假设计算统计量F 的值;
④将统计量F 的值与临界值αF 相比较,若F 的值大于临界值αF ,则需拒绝原假设0H ,说明回归方程显著。反之,则需接受原假设0H ,说明回归方程不显著。
4多元线性回归模型的应用
4.1 城乡居民收入差距的因素分析及数据收集 4.1.1 影响城乡居民收入之比的因素分析
影响城乡居民收入差距的因素有多种,本文考虑了七种相关的因素: a.城乡二元结构系数(1X )
一般是指以社会化生产为主要特点的城市经济和以小生产为主要特点的农村经济并存的经济结构,我国城乡二元经济结构主要表现为:城市经济以现代化的大工业生产为主,而农村经济以典型的小农经济为主。不同的生产对象必然会导致收入的差距的产生。 b.城镇化水平(2X )
指一个地区城镇化所达到的程度,简单地说就是城市人口在总人口中的比例。它是区域经济发展程度的重要标志。一个地区城镇化水平越高,则城乡居民收入差距就越小;反之,就会越大。