第三章回归分析原理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章 回归分析原理
3·1、一元线性回归数学模型
按理说,在研究某一经济现象时,应该尽量考虑到与其有关各种有影响的因素或变量。但作为理论的科学研究来说,创造性地简化是其的基本要求,从西方经济学的基本理论中,我们可以看到在一般的理论分析中,至多只包含二、三个 变量的数量关系的分析或模型。
这里所讨论的一元线性回归数学模型,是数学模型的最简单形式。当然要注意的是,这里模型讨论是在真正回归意义上来进行的,也可称之为概率意义上的线性模型。
在非确定性意义上,或概率意义上讨论问题,首先要注意一个最基本的概念或思路问题,这就是总体和样本的概念。
我们的信念是任何事物在总体上总是存在客观规律的,虽然我们无论如何也不可能观察或得到总体,严格说来,总体是无限的。而另一方面,我们只可能观察或得到的是样本,显然样本肯定是总体的一部分,但又是有限的。
实际上概率论和数理统计的基本思想和目的,就是希望通过样本所反映出来的信息来揭示总体的规律性,这种想法或思路显然存在重大的问题。但另一方面,我们也必须承认,为了寻找总体的规律或客观规律,只能通过样本来进行,因为我们只可能得到样本。
在前面我们已经知道,用回归的方法和思路处理非确定性问题或散点图,实际上存在一些问题,亦即只有在某些情况下,回归的方法才是有效的。因此,在建立真正回归意义上建立其有效方法时,必须作出相应的假设条件。
基本假设条件:
(1)假设概率函数)|(i i X Y P 或随机变量i Y 的分布对于所有i X 值,具有相同的方差2σ ,且2σ 是一个常数,亦即)(i Y Var =)(i Var μ=2σ。
(2)假设i Y 的期望值)(i Y E 位于同一条直线上,即其回归直线为 )(i Y E =i X βα+ 等价于 0)(=i E μ
这个假设是最核心的假设,它实际上表明)(i Y E 与i X 之间是确定性的关系。 (3)假设随机变量i Y 是完全独立的,亦即。j i u u Cov Y Y Cov j i j i ≠==,0),(),(
3·2、随机项或误差项的含义
一元线性回归模型的一般形式为
i i i x Y μβα++=
i μ是一随机项或误差项,它的存在表明i X 对i Y 的影响是随机的,非确定性的。所以,对于每一个i X 值来说,i Y 是一个概率分布,而不是一个值或几个值。正是由于i μ的出现,使我们的方法或思路发生巨大的变化,这是我们必须充分注意的。
那么,i μ究竟包含了什么意义或内容呢?概括地说来主要有: (1) 模型中被忽视了的影响因素;
(2) 变量的测量误差,这种误差主要来自统计数据本身的误差; (3) 随机误差。社会经济现象中涉及到人的主观因素和行为,还有历史的、
文化的等因素,这些因素一般来说是难以量化的、多变的;
(4) 模型的数量关系误差。即数学形式所带来的误差。 一般来说,模型中的常数项也可以包含某些较为固定的误差。但是值得指出的是,如果i μ能够包含上述所有的内容,那它的分布及其性质将是十分复杂的,任意的。前面的假设条件的核心正是限制了i μ的分布形式,因此,实际上i μ并不能包含如此多的内容或负担。另外,上面4个方面中,我们最主要的是要第4个问题,这也正是经济学研究所要真正解决的问题。
一般来说,所有的经济数学模型的误差也就是这4个方面,或者说是存在的主要问题,对此我们必须要有清醒和深入的认识。
3·3、一元线性回归模型的参数估计
我们已知道,总体意义上真正的回归模型是未知的,我们的任务是如何通过样本观察值.,,2,1),,(n i Y X i i =给出总体真正回归模型的最好估计。
我们必须理解和认识总体回归模型和样本回归模型的区别和关系,必须反反复复地去认识、体会。
假设总体真正的回归直线是
i i x Y E βα+=)( 它是由总体回归模型
i i i x Y μβα++=
显然,上面的模型是想象的、理论上的,实际上是找不到的,它们实际上就是所谓客观规律。
而样本的回归直线为
i i X Y βαˆˆˆ+= 它是来自于样本的回归模型
i
i i e X Y ++=βαˆˆ 注意总体和样本模型的区别和联系,无限和有限,相同和不同等。
下面我们同样根据最小二乘准则,建立真正回归意义上的最小二乘法: 对样本模型
i i i e X Y ++=βαˆˆ 假设其估计的回归模型为
i i X Y βαˆˆˆ+= 因此,其残差则为
i I i i i X Y Y Y e βαˆˆˆ--=-= 所以,其残差平方和为
22
)ˆˆ(i
i i X Y e Q βα--==∑∑ 根据前面的结果,我们有
∑∑=i
i
i x
y
x β
ˆ 其中 Y Y y X X x i i i i -=-=,
X Y βα
ˆˆ-= 到此样本回归模型的参数就估计出来了。对于这个结果需要注意的是,这里
的αˆ , βˆ 都是i Y 的函数,而i
Y 是随机变量,因此,从理论上说αˆ,βˆ随机变量,而不是一个或几个固定的值,是一个概率分布。正因为如此,回归的结
果实际上也不是确定的,而是概率意义上的。
接着我们关心的是,这个估计结果怎么样?是否可用样本回归模型来推断或
替代总体回归模型呢?因此,我们必须进一步讨论α
ˆ,βˆ的性质,亦即讨论样本回归模型的性质。
3.4、估计值的性质
(1) 估计值的线性性质。
所谓线性性是指估计值αˆ,βˆ是观测值i
Y 的线性函数。
证明:∑∑∑∑∑∑∑-=-=
=2
2
2)(ˆi
i
i
i i
i
i
i i
i x
x Y Y x x Y Y x x
y
x β
而0=∑i x
∑∑
∑==∴i
i i
i i Y w x Y x 2
ˆβ
其中∑=
i
i
i x x w 2 同理可证:α
ˆ=i i Y k ∑ 其中 X w n
k i i -=1
所以,αˆ,βˆ是i
Y 线性函数(应注意线性性的意义和作用)。 (2) 估计值的无偏性。
所谓无偏性是指估计值αˆ,βˆ的期望值等于总体回归模型参数α,β的值。亦即αα
=)ˆ(E ,ββ=)ˆ(E 。 证明:
==∑)()ˆ(i i Y w E E β[]
)()(i i i i i i i i w X w w E X w E μβαμβα∑∑∑∑++=++ 通过计算可知
1,0==∑∑i i i
X w w
)()()()ˆ(i
i i i E w E w E E μβμββ∑∑+=+=∴, 其中),.3,2,1(,0)(n i E i ==μ
所以有 ββ
=)ˆ(E 同理可证 αα
=)ˆ(E (3)有效性(或称αˆ,βˆ具有最小方差性)。
所谓有效性主要是指最小二乘估计α
ˆ,βˆ在所有线性 无偏估计中,其方差是最小的。
证明的基本思路是:
)ˆ()~(
ααV a r V a r 〉 ,)ˆ()~(ββVar Var 〉 证明(略)。
上面三个性质是最小二乘估计的主要性质,理论上说 已达到最好的结果了。因此,满足这三条的估计也称作最 优线性无偏估计。
值得注意的是,这里的最优只是相对所有线性估计中而言的,而不包括非线