2-最小二乘估计

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(1).

(2).

(3). 和 在 X 的条件下相互独立。
﹩ 练习 2-2 ﹩ 在经典线性回归模型中,如果假定 2-1 至 2-4 成立,试证明上述 LS 估计对 应的 3 个结论成立。
2.2.2 大样本性质
当样本足够大时,假定 2-4 的正态分布假定不再需要。为了简化分析,不妨 代之以如下假定5:
VIF 判断是否存在共线性,然后使用 VIF 挑出引起共线性的变量并将其删除。此
第 11 页 共 29 页
最小二乘估计
处介绍一种新的处理方法——主成份分析(Principal components analysis);主成 份分析的思想是根据信息量的大小从原来的解释变量集 X 中提取出若干个成分 变量,其目的在于对变量 X 进行降维。
变换全部分离出去,因此得到的残差不再具有 X 的影响。 同样的,Y 的内积也可以分解如下:
如果以变量 Y 的内积来度量其变动的大小,则 的内积可以衡量估计结果 对该变动的解释程度,或者说拟合能力。因此,我们可以定义如下反映回归方程 拟合能力的指标:
(2-6)
第 3 页 共 29 页
最小二乘估计
但是,使用变量的内积来度量其变动存在一个缺陷,该变量加上某个常数2会 改变变动的大小,从而影响上述拟合能力的大小。

当 X 为取值全部为 1 的列向量时,简记为 和 。
2.1.1 基本假定
;其中,
经典线性回归的基准模型设定如下:
其中,

(2-1) ,K 为常数; 为待估参数。
对应的矩阵可表示如下: (2-2)
为了保证上式的 LS 估计量的性质,我们需要对其施加某些相应的假定。 经典线性回归的基本假定有如下 4 点:
第 10 页 共 29 页
最小二乘估计
所以有
(2-21)
同样的,式(2-21)也是一个一般性结论,它表明,在线性回归模型中,只 要新增变量对应的 t 统计值绝对值大于 1,回归方程的调整的 会上升;当 t 统计值绝对值等于 1 时,调整的 会不变;t 统计值绝对值小于 1 时,调整的
会下降。 假如把调整的
因此,回归标准误 也是标准误 的一致估计。 又由 Lindberg-Feller 中心极限定理,有 所以有,
可知,LS 估计量服从渐近正态分布。
2.3 分块回归分析
(2-12) (2-13) (2-14)
2.3.1 分块回归
对解释变量矩阵进行分块,记
,则式(2-2)可转化为如下分
块矩阵表示的形式:
第 8 页 共 29 页
假定 2-4a:
为 i.i.d. 的随机样本向量序列;

的有限正定矩阵。
在上述假定下有
此时,LS 估计的概率极限可计算如下:
不妨记,
,则有
5 事实上,假定 2-4a 已经蕴含了假定 2-1。
第 7 页 共 29 页
(2-11)
最小二乘估计
所以有,
,即

因此, LS 估计 是参数 的一致估计。
同样的,回归标准误的极限也可计算如下:
(2-15)
最小二乘估计
以分块矩阵的形式表示目标函数的一阶导条件
由第二式解得
;代入第一式有
其中,

同样的,也可解得:
其中,

式(2-16)和(2-17)可概括为如下定理:
(2-16) (2-17)
【Frisch-Waugh 定理】:参数 的 LS 估计等价于 Y 关于 对 关于 的回归残差的 LS 估计。
即 的最优解恰好为
的最大特征根 。
为了验证解的最优性,不妨在最优解处对 Lagrange 函数求二阶导,可得
第 12 页 共 29 页
最小二乘估计
即对于任意的标准化向量 c,都有
;因此, 为最优
解且唯一。同样的,可知 为 的最优解。
在计算得到 后,我们可以进一步计算第二个主成份
又因为
所以,偏相关系数 可变换如下:
(2-19)
上式给出了偏相关系数的一种简便计算方式;同时也表明,利用 t 统计量或 偏相关系数来判断是否增加某些变量是等价的。
利用偏相关系数可以很方便的分析 与 等指标之间的关系。
注意到,
,不妨假定变量 中
含有常数项,则由 的定义可知有
(2-20)
其中, 和 分别对应回归方程的解释变量集为 X 或 时的 。 式(2-20)是一个一般性结论,它意味着,在线性回归模型中,无论增加怎 样的解释变量,回归方程的 都会上升或不变,仅当新增的解释变量 和 Y 关于 的偏相关系数为 0 时(例如,新增的解释变量与原来的解释变量线性 相关),回归的 才保持不变。 同样的,由 的定义有
差。对应的最优化目标函数设定如下:
目标函数对 求一阶导,可得:
1 需要注意的是,外生假定并不是估计量一致性的必要条件。
第 2 页 共 29 页
(2-3)
最小二乘估计
令一阶导为 0,可解得 目标函数对 求二阶导,可得:
(2-4)
所以,式(2-4)为目标函数的最小解。 但是,通过直接最小化残差平方和并不能使我们获得另一参数 在 LS 估计的框架下,通常使用下式作为参数 的估计:
量,再比较简化后方程的 。
2.4 主成份分析
某些时候,解释变量 X 存在(近似)多重共线性,矩阵
的某些特征
根等于或非常接近 0,此时估计和检验的结果对样本的变动极为敏感,因此 LS
估计的结果不再可靠;从表现上看,如果解释变量存在多重共线性,估计结果会
表现出:回归整体很显著,但很多变量都不显著。 对于多重共线性的问题,常用的处理是先使用条件数 Cn 或方差膨胀因子
实际使用时,当样本较大时使用 BIC准则表现较好,而样本较小时使用 AIC 准则表现较好。另外,由于残差之间不具有可比性,AIC和 BIC不能用于直接比 较具有不同被解释变量的模型。
2.2 LS 估计的性质
3 通过比较模型的优劣选取好的模型,因此,同样也用于选取解释变量的个数。 4 这个结果可以根据 ML 估计中的 LR 统计量直接得到。
使样本足够大,AIC 准则也并不总能挑选出正确的模型,而 BIC 则总是可以挑
选出正确的模型。
假设正确设定的模型为包含 K 个解释变量的线性模型,备则模型在正确模
型的基础上加多一个冗余变量的模型,不妨记它们对应的对数似然函数的估计值
分别为

,易知此时有4
,则有
这就意味着,即使在样本很大的情形下 AIC 仍然有 16%的概率会选错模型; 而 BIC 则能以概率 1 选取正确的模型。
第 5 页 共 29 页
2.2.1 有限样本性质
由 LS 估计量的定义有
最小二乘估计
可知,LS 估计 是参数 的(条件)无偏估计。 LS 估计量的有限样本性质可归纳为如下定理:
【Gauss-Markov定理】:在经典线性回归模型中,如果假定 2-1至 2-3成立, 则 LS估计是最优线性无偏估计(BLUE)。
。为了在拟合能力中反映对增加冗余变量的惩罚,一个简单的处理是对 进 行自由度调整:
(2-8) 上式定义 也称为调整的 ;它除了可以很好的反映回归方程的拟合程 度,还常用于比较具有不同解释变量集的两个模型的优劣。
2 这种情形在实际应用中经常会出现,比如使用的对数转换的指数,初始指标的不同计价单 位就等同于新指标加上某个常数。
假定 2-1(满秩假定):

第 1 页 共 29 页
最小二乘估计
假定解释变量矩阵 X 满列秩可以保证 LS 估计存在唯一解。
假定 2-2(外生假定):

外生假定可以保证 LS 估计量具有无偏性和一致性1。
假定 2-3(球形假定):

球形假定主要用于保证 LS 估计量的有效性。
假定 2-4(正态假定):
其中,s 称为回归标准误(Standard error of the regression)。
的估计, (2-5)
2.1.3 拟合能力
不妨记 Y 的拟合值(或估计值)为
,则有
其中, 和 为相互正交的对称幂等矩阵。
注意到
,因此必有

至此,可知 LS 估计的作用相当于把变量 Y 中所有关于 X 的影响通过正交
最小二乘估计
2.最小二乘估计
2.1 LS 估计
全书的符号约定如下: 1) 在一般的方程设定中,
对应被解释变量序列;
对应解释变量序
列(组); 对应误差项序列;下标“i”对应样本序号。 2) 以“^”表示参数或序列对应的估计结果。
3) 对任意的变量序列 ,
为对应的列或矩阵表示。
4) 对任意满列秩矩阵 X,定义
理解为在普通的
的基础上考虑进新增变量的 t 统计
值的影响,那么适当的修改调整的 的计算公式,我们甚至可以使得当新增变 量比较显著性(t 统计值绝对值大于 2),调整的 会上升。
为此,调整的 的计算公式可修改如下:
(2-22)
其中,

与普通的调整 相比,上式中分母的调整系数为
,而不是

它体现了对新增变量显著性的考虑。上式对于我们理解 t 统计值与方程的 之 间的关系是很有帮助的;实际应用中,可先根据 t 统计值的大小消除不显著的变
更合理的做法是使用变量 Y 的总变差而不是其内积来度量其变动的大小。 同样的,Y 的总变差(Total sum of squares:SST)可分解如下:
其中,

也称为回归平方和(Regression sum of squares:
SSR), 为残差平方和(Error sum of squares:SSE)
第 4 页 共 29 页
最小二乘估计
另外两个常用于比较模型优劣的准则3为 AIC 和 BIC 准则,计算如下: (2-9) (2-10)
其中,
, 为对数似然函数值。
AIC 或 BIC 越小意味着回归模型设定越好。 比较式(2-9)和(2-10)可知,AIC 和 BIC 准则对于新增解释变量的惩罚
力度分别为 1 和
主成份分析并不仅是用于回避多重共线性的问题。在企业管理或经济周期等 分析中,有时候会遇到很多个解释变量的情形(远大于样本),直接估计无法进 行,此时常用主成份分析提取出成份变量进行回归;这些提取的主成份在最新的 研究中有一个新的叫法,称为共同因子(Common factors)。
不妨记

的特征根与特征向量组,其中
﹩ 练习 2-1 ﹩
对任意满列秩的
试证明有:

,定义 ,



至此,我们可以定义如下反映回归方程拟合能力的指标:
(2-7)
对比式(2-6)与式(2-7)可知, 在计算时对变量 Y 进行了中心化,因 此, 也称为非中心化的 。
但是, 仍然存在不足之处,它的取值会随着方程中解释变量的增加而上 升或至少保持不变,这意味着,我们总是可以通过增加解释变量来提高方程的

在外生假定与球形假定的基础上进一步假定误差的条件分布为正态分布,其 目的在于可以计算某些统计量的分布以便进行假设检验。这一假定在有限样本下 尤其重要,但在大样本时,由于存在中心极限定理,可以不再需要。
2.1.2 估计
LS 估计的目标在于最小化估计得到的残差平方和。
记式(2-2)的估计结果为:
,其中 e 为误差的估计,也称为残
证明: 定义任意的线性无偏估计量

的非 0 矩阵,且有
由 的无偏性设定可知有 。又
,其中 。
,C 为某 ,则必有
证明完毕。
同样的,在假定 2-1 至 2-3 下,也可证明 计算如下:
是参数
的无偏估计。
第 6 页 共 29 页
最小二乘估计
在假定 2-1 至 2-3 的基础上增加假定 2-4,我们可以进一步得到 LS 估计量的 分布,具体有如下 3 个结论:
的回归残差
同样的分析也适用于参数 的 LS 估计。 对应的, 的估计方差为:
2.3.2 偏相关系数
定义回归方程中某个参数 的 t 统计量如下:
(2-18)
考虑如下简单的情形,
且 只包含一个变量,则有
记变量 和 Y 关于 的偏相关系数为 ,定义如下:
第 9 页 共 29 页
最小二乘估计
偏相关系数反映了在给定变量 条件下新增变量 与被解释变量 Y 的 边际相关程度,与普通的相关系数相比,它更能反映新增变量 对回归方程 的必要性。
;假
定有
。令

,则

为 X 的主成份。
下面简单介绍主成份的提取过程:

为 X 的第一个主成份,
为 K 维的待估参数,满足
,则提取主成份对应于最优化如下目标函数:
(Байду номын сангаас-23)
定义 Lagrange 函数:
对 Lagrange 函数求一阶导,可得
令一阶导等于 0,可解得 对应的特征根与特征向量。

。可知, 和 的解为矩阵 ,则有
,当样本较大时,BIC 的惩罚力度更大。
如果接受比较的模型之间是非嵌套的(即不存在某个模型是另一个模型的约
束形式),并且只有一个是正确设定的,则当样本足够大时,AIC 和 BIC 准则总
是可以挑选出正确的模型,但此时挑选的结果与使用最小残差平方和为准则的结
果一样;当接受比较的两个模型之间是嵌套的,并且简单模型是正确设定的,即
相关文档
最新文档