第二章 回归分析基本方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、多元线性回归模型的基本假定
假设1,解释变量是非随机的或固定的,且各 X之间互不相关(无多重共线性)。
假设2,随机误差项具有零均值、同方差及不 序列相关性
E ( i ) 0
Var ( i ) E ( i2 ) 2
Cov ( i , j ) E ( i j ) 0
( 2 )统计依赖 或 相关关系: 研究的是非确 定现象随机变量间的关系。
例如: 函数关系:
圆面积 f , 半径 半径2
统计依赖关系/统计相关关系:
农作物产量 f 气温, 降雨量, 阳光, 施肥量
对变量间统计依赖关系的考察主要是通过相关分析(correlation analysis)或回归分析(regression analysis)来完成的:
注意:这里PRF可能永 远无法知道。
§2.2 线性回归模型
一、多元线性回归模型 二、多元线性回归模型的基本假定
一、多元线性回归模型
多元线性回归模型:表现在线性回归模型中的 解释变量有多个。 一般表现形式:
Yi 0 1 X 1i 2 X 2 i k X ki i
也被称为总体回归函数的随机表达形式。它 的 非随机表达式为:
E(Yi | X 1i , X 2i , X ki ) 0 1 X 1i 2 X 2i k X ki
方程表示:各变量X值固定时Y的平均响应。
j 也被称为 偏回归系数 ,表示在其他解释变
量保持不变的情况下, X j 每变化 1 个单位时, Y 的均值E(Y)的变化; 或者说 j给出了 Xj的单位变化对 Y均值的“直 接”或“净”(不含其他变量)影响。
正相关 线性相关 统计依赖关系 不相关 相关系数: 有因果关系 无因果关系 回归分析 相关分析 负相关 1 XY 1 正相关 非线性相关 不相关 负相关
▲注意:
①不线性相关并不意味着不相关; ②有相关关系并不意味着一定有因果关系; ③回归分析/相关分析研究一个变量对另一个 (些)变量的统计依赖关系,但它们并不意味着一定 有因果关系。 ④相关分析对称地对待任何(两个)变量,两个 变量都被看作是随机的。回归分析对变量的处理方法 存在不对称性,即区分应变量(被解释变量)和自变 量(解释变量):前者是随机变量,后者不是。
相应的函数:
E (Y | X i ) f ( X i )
称为(双变量)一元总体回归函数(population regression function, PRF)。
• 含义:
回归函数(PRF)说明被解释变量Y的平均状 态(总体条件期望)随解释变量X变化的规律。
• 函数形式:
可以是线性或非线性的。
2、回归分析的基本概念
回归分析(regression analysis)是研究一个变量关于另一个 (些)变量的具体依赖关系的计算方法和理论。 其用意:在于通过后者的已知或设定值,去估计和(或)预 测前者的(总体)均值。 这里:前一个变量被称为被解释变量(Explained Variable) 或应变量(Dependent Variable),后一个(些)变量被称为解 释变量(Explanatory Variable)或自变量(Independent Variable)。 回归分析构成计量经济学的方法论基础,其主要内容包括: (1)根据样本观察值对经济计量模型参数进行估计,求得回 归方程; (2)对回归方程、参数估计值进行显著性检验; (3)利用回归方程进行分析、评价及预测。
ei称为残差或剩余项(residuals),可看成是总 体回归函数中随机扰动项i的近似替代。 样本回归函数的矩阵表达:
ˆ Xβ ˆ Y
或
e1 e e 2 e n
ˆ e Y Xβ
其中:
ˆ 0 ˆ ˆ β 1 ˆ 源自文库 k
§2.3
线性回归模型的参数估计
估计方法:OLS、ML 一、普通最小二乘估计
二、最大似然估计
三、参数估计量的性质
四、样本容量问题
五、估计实例
一、普通最小二乘估计
对于随机抽取的n组观测值
(Yi , X ji ), i 1,2,, n, j 0,1,2, k
如果样本函数的参数估计值已经得到,则有:
0 2I 2
var( 1 ) cov( 1 , n ) 2 cov( , ) 0 var( ) n 1 n
假设3,E(X’)=0,即 E ( ) X X E ( ) E 0
假设2,
1 E ( 1 ) E (μ) E 0 E ( ) n n
1 ) E E (μμ n
1
12 1 n n E 2 n n 1
E (Y | X i ) 0 1 X i
为一线性函数。其中,0,1是未知参数,称为 回归系数(regression coefficients)。 。
三、随机扰动项
记
i Yi E (Y | X i )
称i为观察值Yi围绕它的期望值E(Y|Xi)的离差 (deviation),是一个不可观测的随机变量,又称 为随机干扰项(stochastic disturbance)或随机误 差项(stochastic error)。
1 1 2 x ( X ji X j ) 2 Q j ji n n
或
1 x x Q n
其中:Q为一非奇异固定矩阵,矩阵x是由各解释变量 的离差为元素组成的nk阶矩阵
x11 x k 1 x x 1n x kn
假设6,回归模型的设定是正确的。
注意: 这里将样本回归线看成总体回归线的近似替代
则
样本回归函数的随机形式/样本回归模型:
同样地,样本回归函数也有如下的随机形式:
ˆ ˆ X e ˆ ˆi Yi Y i 0 1 i i
式中,ei 称为(样本)残差(或剩余)项 (residual) ,代表
ˆi 。 了其他影响 Yi 的随机因素的集合,可看成是 i 的估计量
i j i, j 1,2,, n
假设3,解释变量与随机项不相关
Cov ( X ji , i ) 0
j 1,2, k
假设4,随机项满足正态分布
i ~ N (0, 2 )
上述假设的矩阵符号表示 式:
假设1,n(k+1)矩阵X是非随机的,且X的秩=k+1, 即X满秩。
i=1,2…,n
其中:k为解释变量的数目,j称为回归参数 (regression coefficient)。 习惯上:把常数项看成为一虚变量的系数,该 虚变量的样本观测值始终取1。这样: 模型中解释变量的数目为(k+1)
Yi 0 1 X 1i 2 X 2 i k X ki i
ˆ ˆ X ˆ X ˆ X ˆ Y i 0 1 1i 2 2i ki Ki
i=1,2…n
根据最小二乘原理,参数估计值应该是下列方程组的解
Q0 ˆ 0 Q0 ˆ 1 ˆ Q0 2 Q0 ˆ k
总体回归模型n个随机方程的矩阵表达式为
Y X β μ
其中
1 1 X 1 X 11 X 12 X 1n X 21 X 22 X
2n
X k1 X k2 X kn n ( k 1 )
0 1 β 2 k ( k 1)1
§2.1 回归分析概述
一、变量间的关系及回归分析的基本概念
二、一元总体回归函数
三、随机扰动项
四、一元样本回归函数(SRF)
§2.1 回归分析概述
一、变量间的关系及回归分析的基本概念 1、变量间的关系
经济变量之间的关系,大体可分为两类:
( 1 ) 确定性关系 或 函数关系 :研究的是 确定现象非随机变量间的关系。
(*)
(*)式称为一元总体回归函数(方程)PRF的随 机设定形式。表明被解释变量除了受解释变量的系统 性影响外,还受其他因素的随机性影响。
由于方程中引入了随机项,成为计量经济学模型, 因此也称为一元总体回归模型。
随机误差项主要包括下列因素的影响:
1)在解释变量中被忽略的因素的影响; 2)变量观测值的观测误差的影响; 3)模型关系的设定误差的影响; 4)其它随机因素的影响。
二、一元总体回归函数
回归分析关心的是根据解释变量的已知或 给定值,考察被解释变量的总体均值,即当解 释变量取某个确定值时,与之统计相关的被解 释变量所有可能出现的对应值的平均值。
• 概念:
在给定解释变量Xi条件下被解释变量Yi的期望 轨迹称为一元总体回归线(population regression line),或更一般地称为一元总体回归曲线 (population regression curve)。
产生并设计随机误差项的主要原因: 1)理论的含糊性; 2)数据的欠缺; 3)节省原则。
四、一元样本回归函数(SRF)
总体的信息往往无法掌握,现实的情况只能是在 一次观测中得到总体的一个样本。 问题:能从一次抽样中获得总体的近似的信息吗? 如果可以,如何从抽样中获得总体的近似信息?
该样本的散点图(scatter diagram):
由于方程中引入了随机项,成为计量经济模型,因此 也称为一元样本回归模型(sample regression model)。
▼回归分析的主要目的:根据样本回归函数SRF,估计 总体回归函数PRF。 即,根据
ˆ ˆ X e ˆ e Yi Y i i 0 1 i i
估计
Yi E(Y | X i ) i 0 1 X i i
1 μ 2 n n 1
样本回归函数:用来估计总体回归函数
ˆ ˆ X ˆ X ˆ X ˆ Y i 0 1 1i 2 2i ki ki
其随机表示式:
ˆ ˆ X ˆ X ˆ X e Yi 0 1 1i 2 2i ki ki i
i i
X Ki i
1i
i
X E ( ) Ki i
1i
i
假设4,向量 服从多维正态分布,即
μ~ N (0, 2 I )
同一元回归一样,多元回归还具有如下两个重要假设:
假设5,样本容量趋于无穷时,各解释变量的方差趋于有 界常数,即n∞时,
样本散点图近似于一条直线,画一条直线以尽好地拟合该 散点图,由于样本取自总体,可以该线近似地代表总体回归线。 该线称为一元样本回归线(sample regression lines)。
记样本回归线的函数形式为: ˆ ˆ X ˆ f (X ) Y i i 0 1 i
称为一元样本回归函数(sample regression function, SRF)。
其中
ˆ )2 Q e (Yi Y i
i 1
n
n
2 i
n
i 1
ˆ ˆ X ˆ X ˆ X )) (Yi ( 0 1 1i 2 2i k ki