第五讲 多元回归分析:渐近性
伍德里奇《计量经济学导论》笔记和课后习题详解(多元回归分析:OLS的渐近性)【圣才出品】
y=β0+β1x1+…+βkxk+u 检验这些变量中最后 q 个变量是否都具有零总体参数。
虚拟假设:H0:βk-q+1=0,…,βk=0,它对模型斲加了 q 个排除性约束。
3 / 12
圣才电子书 十万种考研考证电子书、题库视频学习平台
对立假设:这些参数中至少有一个异亍零。
(2)σ2 是 σ2=Var(u)的一个一致估计量。
(3)对每个 j,都有:
βˆj βj
/ se
βˆ j
a
~ Normal 0,1
其中, se βˆ j 就是通常的 OLS 标准误。
定理 5.2 的重要乊处在亍,它去掉了正态性假定 MLR.6。对误差分布唯一的限制是,
它具有有限斱差。还对 u 假定了零条件均值(MLR.4)和同斱差性(MLR.5)。
因为 Var(x1)>0,所以,若 x1 和 u 正相关,则 βˆ1 的丌一致性就为正,而若 x1 和 u 负相关,则 βˆ1 的丌一致性就为负。如果 x1 和 u 乊间的协斱差相对亍 x1 的斱差很小,那么这
种丌一致性就可以被忽略。由亍 u 是观测丌到的,所以甚至还丌能估计出这个协斱差有多 大。
二、渐近正态和大样本推断 1.定理 5.2:OLS 的渐近正态性 在高斯-马尔可夫假定 MLR.1~MLR.5 下,
④将
LM
不
χ
2 q
分布中适当的临界值
c
相比较,如果
LM>c,就拒绝虚拟假设。
(3)不 F 统计量比较
不 F 统计量丌同,无约束模型中的自由度在迚行 LM 检验时没有什么作用。所有起作用
的因素只是被检验约束的个数(q)、辅助回归 R2 的大小( Ru2 )和样本容量(n)。无约束 模型中的 df 丌起什么作用,这是因为 LM 统计量的渐近性质。但必须确定将 Ru2 乘以样本容 量以得到 LM,如果 n 很大, Ru2 看上去较低的值仍可能导致联合显著性。
c5 多元回归分析-渐进性质
第
摘要:在第4章中,我们讨论了基于分布假设的小样本的精确统计性质,本章将讨论在没有分布假设前提下的大样本的渐近统计性质(asymptotic propertiesor large sample properties)。
几点说明:
1)唯一的假定是 是有限的;
2)多大样本量才算充分,没有定论,渐近是针对(n-k-1),而不是n;
3)需要同方差的假定;
4)试讨论 ;
5)在该定理中, 被称为 的渐近标准误差(asymptotic standard error),同样的t统计量被称为渐近t统计量(asymptotic t statistics),置信区间被称为渐近置信区间(asymptotic confidence interval),F统计量被称为渐近F统计量.
定理5.1 OLS估计量的一致性
在假设MLR.1-MLR.4下, 为 的一致估计,j=0,1,2,…,k。
该定理的证明示意:在一元回归中, = 收敛于 ,当 .
显然u和x的不相关在该证明中起到了决定性的作用。
假设 MLR.’4 零均值和不相关假设
假定 和 ,j=1,2,…,k.
不采用假设MLR.’4,一是因为若MLR.4不满足,我们得到的可能是一个一致但有偏的估计;二是因为在MLR.4下,我们得到了总体回归函数(PRF),从而线性模型的系统部分有比较明确的意义。
.(5.2)
但由于被忽略的自变量可能和(5.2)式的变量相关,所以我们需要一个辅助回归(auxiliary regression):
对 的回归,
5_多元线性回归分析
……
n xn yn
y
εi 。。
。。。(。x。i, yi)。。。 。。
。
。。
x
0
一元线性回归模型
模型: yi=α+ β xi + εi
(i=1,2…n)
数据的假设条件:
1. 因变量是连续随机变量; 2. 自变量是固定数值型变量,且相互独立; 3. 每一个自变量与因变量呈线性关系; 4. 每一个自变量与随机误差相互独立; 5. 观察个体的随机误差之间相互独立; 6. 随机误差{ei}~N(0,σ)。
• 在模型中添加x变量的方法和向前选择法相同,从模型 中消去x变量的方法和向后消去法相同。
• 添加和消去x变量的顺序原则是,在每添加一个新的x 变量之前,首先用向后消去法原则消去模型内所有超 出停留允许水平的x 变量,然后用向前选择法原则在模 型中添加一个新的x变量。
• 逐步过程法和向前选择法的不同之处是,已经进入模 型的x变量还可以再次从模型中退出;逐步过程法和向 后消去法的不同之处是,已经从模型中消去的x变量还 可以再次进入模型中。
数学模型:
其中:{yi}和{xij}是因变量y和自变量xj 的观察值; β0, β1…βk是待估计的偏回归系数; e i 是yi 的随机误差,且{ei }~N(0,σ)。
一元线性回归分析的数学模型
id x
y
------------------------
1 x1 y1
2 x2 y2
……
i xi yi
data d;
input id x1-x3 y ; cards; 1 1.0 2.3 3.4 10 2 2.1 2.5 3.8 15 3 3.2 3.3 3.8 20 4 4.2 3.9 4.2 22 5 4.8 4.2 5.0 28 run ;
Chapter5 多元回归分析:
u的正态性意味着在给定x的条件下y的分布是正态的。
u是不可观测的,因此考虑y的分布 是否是正态的则容易的多。
不幸的是有很多例子表明y的分布不是正态 分布的
例如一些明显偏态的变量:在 某一特定年份中被捕的青年数 量(大部分人不会被捕)
正态分布假定不会影响OLS称为最优线性无 偏估计量,但t统计量和F统计量是否服从t 分布和F分布则与正态分布假定有关。
5.2.1 Central Limit Theorem
利用中心极限定理我们可以证明OLS估计量满 足渐进正态性 (asymptotically normal)
渐进正态性的含义是: P(Z<z)F(z) as n , or P(Z<z) F(z)
中心极限定理表明任何(具有有限方差的)总 体 的一个随机样本的均值经过标准化以后都服 从渐进标准正态分布。
考察吸烟量(cigs)对婴儿体重产生的影响, 观测值共1388个。
当我们使用前一半观测值共694个得到βcigs估 计量标准误约为0.0013,当我们使用全部观测
值时标准误为0.00086
se ˆ j c j n c j se ˆ j n,
足以说明cj是一个不依 赖于样本容量的常数
0.0013 694 0.0342 0.0320 0.00086 1388
还是方差最小的 因此我们说OLS统计量是渐进有效的 注意,OLS统计量的最小方差性是依赖于同
方差假定的,同方差性不满足OLS统计量未 必是方差最小的。
5.2.3 Lagrange Multiplier statistic
在大样本情况下,无需正态假定我们也可以 运用t和F统计量。
但有时我们也可以用其他的方法检验多元排 除约束。
第五章 多元线性回归PPT课件
ˆ b0 b1 x1 b2 x2 ... bk xk y
如果xi增加一个单位,即xi变为xi+1,而 其他自变量均保持不变,相应有
ˆ b b x b x y
1 0 1 1 2
2
... bi ( xi 1) ... bk xk
则y的变化幅度为
ˆ [b b x b x ... b ( x 1) ... b x ] ˆ y y [b b x b x ... b ( x 1) ... b x ] b
R
2
二、调整的确定系数
R
2
偏高
<(1:10)
自变量个数 样本规模
三、多元相关系数R
因变量观测值和预测值之间的相关程度
四、方差分析
回归平方和
y的总变 差平方 和
第五节
回归方程的检验和回归系数的推断统计
检验
统计推断
参见郭志刚主编,《社会统计分析方法—SPSS软件应用》第二章, 中国人民大学出版社1999
第一节 相关和回归
一、相关统计量 用一个数值表示两个变量间的相关程度 (无单位度量)(-1~+1)
解读
X与y的相关系数为0.6,x与z的相关系数为 0.3
答案: 只能说明x与y相关程度高于x与z的相关程 度,但不能说前者是后者的两倍
x y x y x y 1 2 y y y y 1 y y 1 2 x x y x 1 x y
y
y
练习:根据下表数据计算lambda
志愿 男
快乐家庭 理想工作 增广见闻 总数 10 40 10 60
性别 女
30 10 0 40
总数
60PPT-第5章-多元线性回归-计量经济学及Stata应用
1
yi 1
xi 2
xiK
2
i
xiβ
i
K
(5.8)
上式对所有个体i都成立(i 1, , n),故有n个形如(5.8)的方程。
16
将所有这 n 个方程都叠放:
y1 x1β 1
y2
x2 β
2
yn
xn β
n
(5.9)
将共同的参数向量 β 向右边提出:
y1 x1 1
6. 1904 138 116 122 4.927254 4.75359 4.804021 7. 1905 149 125 143 5.003946 4.828314 4.962845 8. 1906 163 133 152 5.09375 4.890349 5.02388 9. 1907 176 138 151 5.170484 4.927254 5.01728 10. 1908 185 121 126 5.220356 4.795791 4.836282
1 x12 x1K
X
1 x22
x2 K
1
xn2
xnK
nK
(5.11)
18
5.3 OLS 估计量的推导 对于多元回归模型,OLS 估计量的最小化问题为
n
n
min
ˆ1,,ˆK
ei2 ( yi ˆ1 ˆ2 xi2 ˆ3xi3 ˆK xiK )2
i1
i1
(5.12)
n
最小二乘法寻找使残差平方和(SSR) ei2 最小的(ˆ1, ˆ2,, ˆK )。 i1
0.001 0.000 0.687
[95% Conf. Interval]
.1009363 .5055755 -1.080472
第5章多元回归分析:进一步讨论
bˆ1 new
xi x yi new xi x 2
xi x 1000 yi xi x 2
1000bˆ1
if we write the scale as ynew yold , then we get bˆnew bˆold
Variables
bwghtkg, child birth weight in kilograms bwghtg, child birth weight in grams bwghtjin, child birth weight in jin cigs, number of cigarettes the mother smoked per day while
C(4)hbawngghitjning the scale of the y variable will
lead to a
-0.5259676
(0.c1o03rr9e3s97p)onding [-5c.0h6a] nge in the 0.00s5c26a4le4 of the (0c.0o0e1f6fi5c6i4e)nts and [3s.1ta8]ndard errors, 6.6s3o82n82o change (0.59529in8)the [11s1i.g5n1]ificance or 138in8 terpretation
0.0298
1795.41694
1.1386
3
Redefining Variables , cont.
let take simple regresstion for example the estimated parameter is
bˆ 1
3.多元回归分析3:渐近性剖析.
N=500
N=100
7
θ
无偏性和一致性
估计量在有限样本中有偏的,但可能具有一致性
若随机变量X的方差为 2,则对于随机样本{xi , i 1n},
2的有偏估计量sx2 (xi x)2 / n,却是 2的一致估计量。
估计量是无偏的,但可能不具有一致性
( Cov x1,u 0)
9
一个弱一点的假设
对于无偏性,利用的假定条件是:
E(u|x1, x2,…,xk) = 0
为得到一致性,所需要的假设要弱一些:零均值和零 相关性
E(u) = 0 cov(xj,u) = 0, for j = 1, 2, …, k
没有这一假定(cov(xj,u)≠0),OLS估计量可能是有偏
b1
b21
12
不一致性可以看成是偏误
不一致性与偏误主要的区别在于,偏误使用的是总体方差和总 体协方差,无偏性用的是样本方差和样本协方差
不一致性的严重程度取决于解释变量与遗漏变量之间的相关程 度
非一致性是大样本问题,不会因为样本容量的增大而消失
遗漏变量不仅会导致与之具有相关性的解释变量对应的估计系 数不具有一致性,也会导致与之不具有相关性的解释变量对应 的估计系数不具有一致性;除非遗漏的变量与所有的解释变量 都不相关,从而使得扰动项满足高斯-马尔科夫经典假定
多元回归分析:
大样本性质(渐近性)
1 y = b0 + b1x1 + b2x2 + . . . bkxk + u
在高斯-马尔科夫假定下,OLS估计量是BLUE。但并 不是在任何情况下都能得到无偏估计量。
多元回归分析
多元回归分析引言多元回归分析是一种统计方法,用于探究自变量对因变量的影响程度。
它通过建立一个数学模型,分析多个自变量与一个因变量之间的关系,以预测因变量的变化。
本文将介绍多元回归分析的基本原理、应用场景和步骤。
基本原理多元回归分析建立了一个包含多个自变量的线性回归方程,如下所示:Y = β0 + β1X1 + β2X2 + ... + βnXn + ε其中,Y为因变量,X1、X2、…、Xn为自变量,β0、β1、β2、…、βn为回归系数,ε为误差项。
回归系数表示自变量对因变量的影响程度。
多元回归分析可以通过最小二乘法估计回归系数,即找到使误差项平方和最小的系数值。
在得到回归系数后,可以通过对自变量的设定值,预测因变量的值。
应用场景多元回归分析广泛应用于各个领域,例如经济学、社会科学和工程学等。
以下是一些常见的应用场景:1.经济学:多元回归分析可以用于预测经济指标,如国内生产总值(GDP)和通货膨胀率。
通过分析多个自变量,可以了解各个因素对经济发展的影响程度。
2.社会科学:多元回归分析可以用于研究社会现象,如教育水平和收入水平之间的关系。
通过分析多个自变量,可以找出对收入水平影响最大的因素。
3.工程学:多元回归分析可以用于预测产品质量,如汽车的油耗和引擎功率之间的关系。
通过分析多个自变量,可以找到影响产品质量的关键因素。
分析步骤进行多元回归分析时,以下是一般的步骤:1.收集数据:收集自变量和因变量的数据,并确保数据的可靠性和有效性。
2.数据预处理:对数据进行清洗和转换,以消除异常值和缺失值的影响。
3.变量选择:根据实际问题和领域知识,选择合适的自变量。
可以使用相关性分析、变量逐步回归等方法来确定自变量。
4.拟合模型:使用最小二乘法估计回归系数,建立多元回归模型。
5.模型评估:通过检验残差分布、解释变量的显著性和模型的拟合程度等指标,评估多元回归模型的质量。
6.预测分析:使用已建立的多元回归模型,对新的自变量进行预测,得到因变量的预测值。
回归分析多元逐步回归
多元回归模型首先将实际问题所提取的全部变量引 入方程,然后再根据变量的显著性检验把方程中不重 要的变量逐一剔除,建立新方程。
缺点:(1)首先在实际问题中,要提取合 适的变量来建立回归方程本身不是一件很容易 的事情,变量间可能存在高度的相互依赖性会 给回归系数的估计带来不合理的解释;
有更大的回归平方和。
§2.5.1 逐步回归算法的形成思路
如此继续下去,假设已经进行到 l 1 步,那第 l 步
是在未选的变量中选出这样一个变量,它与已选入回 归方程的变量组成 元回归方程,比其他余下的任何
一个变量组成的l 元回归方程,有更大的回归平方和。
逐步回归不仅考虑到按贡献大小逐一挑选重要变量, 而且还考虑到较早选入回归方程的某些变量,有可能 随着其后一些变量的选入而失去原有的重要性,这样 的变量也应当及时从回归方程中剔除,使回归方程中 始终只保留重要的变量。
计量
F2i
Vi ( x1 , x2 ,, xl ) / 1 Q( x1,, xl ) /(n l 1)
~
F (1, n l 1)
i 1,2,, l
来检验方程中哪个自变量 可被考虑剔除出方程。
F
对于给定的水平 ,查 分布表得临界
值F (1, n l 1) F出 。 如果F2i F出 ,则 xi 应从方程中剔除; 如果 F2i F出 ,则 xi 不应从方程中剔除。 同样需要说明的是,实际问题可能有多个
(2)其次变量的一次性引入方程,易导致计 算量增大,运算效率降低,精度不够等问题。
§ 2.5 多元逐步回归算法原理
为了得到一个稳健的、可靠的回归模 型,这就需要给出一种方法,使得能从 影响 y 的因素中自动根据某种准则将y 对
第5章 多元回归分析OLS的渐进性
Yt β 0 β 1 X 1t β 2 X 2t ..质或大样本性质
1.一致性
• OLS估计量在假定MLR1-MLR4下是无偏的, 但在时间序列回归中会失去无偏性 • 当n→∞时估计量接近于真实值
推导OLS的不一致性
• 如果误差与任何一个自变量相关,那么 OLS就是有偏而又不一致的估计 • β 的不一致性(渐进偏误)为
• 对于OLS的不一致性,根据定义这个问题 不会随着在样本中增加更多的观测而消失, 更多的观测只会使这个问题变得更糟
2.渐进正态和大样本推断
• 仅有一致性不足以进行参数假设检验 • 在经典线性模型假定MLR.1---MLR.6下,抽 样分布是正态的:t、F分布的基础 • OLS估计量的正态性 总体中误差u分布的 正态性 y分布的正态性 • 现实中存在很多y不是正态分布,是否放弃t 统计量?
• 定理5.2,去掉了正态性假定MLR.6,对误 差分布唯一的限定是有限方差 • 标准正态分布在式5.7中出现的方式与tn-k-1 不同,随着自由度的增加, tn-k-1趋近于正 态分布,因此如下写法也是合理的
• 进行t检验和构造置信区间与在经典线性模 型的假定下是一样的,n>30
其他大样本检验:拉格朗日乘数统计量
• 依赖于大样本条件下使得F统计量有效的假 定,无需正态性假设
3.OLS的渐进有效性
• 在k个回归元的情形中,将OLS的一阶条件推广, 可以得到一类一致估计量
多元回归分析:OLS的渐近性
一致性与无偏性
无偏估计量未必是一致的,但是那些当样 本容量增大时方差会收缩到零的无偏估计 量是一致的。
ห้องสมุดไป่ตู้
一致性
在高斯-马尔可夫假定下OLS 是最优线性无偏 估计量,但在别的情形下不一定能找到无偏估计 量。 在那些情形下,我们只要找到一致的估计量,即 当n ∞时, 这些估计量的分布退化为参数的真值。
渐近偏差(续)
所以,考虑渐近偏差的方向就像是考虑存在一个 遗漏变量时偏差的方向。 主要的区别在于渐近偏差用总体方差和总体协方差表示,而 偏差则是基于它们在样本中的对应量。 记住,不一致性是一个大样本问题。因此,当数据增加时候 这个问题并不会消失。
有内生性时的一致性
考虑真实模型为y = b0 + b1x1 + b2x2 + u ,但u和x1相关。 若x1 和x2相关,而u和x2不相关,则对b1和b2的OLS估计量 都是不一致的。 若x1 和x2不相关,且u和x2不相关,则只有对b1的OLS估计 量是不一致的
xi1 x1 yi 2 x x i1 1 xi1 x1 ui b1 2 x x i1 1 n 1 xi1 x1 ui b1 2 1 n xi1 x1
ˆ b 1
证明一致性
Because as n , n 1 xi1 x1 ui 0 n
Wn 便是 的一个一致估计量。
当Wn 具有一致性时,我们也称 为 Wn 的概率极限,写 作是 p lim(Wn ) .
一致性与无偏性
一个估计量是否有可能在有限样本中是有偏的但 又具有一致性? 假设Z的真值为0,一个随机变量X以(n-1)/n的概 率取值为Z,而以1/n的概率取值为n。
多元回归逐步回归
1.进行多元回归的原因2.多元线性回归的基本内容3.多元回归对数据的要求4.数据符合线性回归模型的4个基本假定5.多元回归方程的形式6.多元回归的原理7.几个系数的概念8.多元回归模型的检验9.最优回归方程的选择10.为什么要进行逐步回归11.逐步回归的最佳预测模型12.逐步回归的要求13.逐步筛选变量的方法14.逐步回归的主要用途15. 多元线性回归的应用注意事项及应用条件1.进行多元回归的原因:应用多元线性或者逐步回归可以去除多种干扰因素2.多元线性回归的基本内容:A. 研究的是多因素对事物的影响B. 研究的是线性关系3.多元回归对数据的要求:A. 样本例数为研究因素个数的5-10倍5B. 不能有缺顶C. 半定量, 定性的指标应该赋值量化4.数据符合线性回归模型的4个基本假定:A. 线性关系: X与Y呈线性关系B. 独立性: n个样本之间相互独立C. 正态: X取不同的值时, Y的残差服从正态分布D. 方差齐如果满足假定, 那么就可以用最小二乘法做线性回归5.多元回归方程的形式:Y= b0+b1X1+b2X2+…+bkXkb 0为常数项, b1…bk为偏回归系数, 即在其他变量固定的条件下, Xi改变一个单位时应变量Y的改变量, 即回归系数6.多元回归的原理:用最小二乘法求出能使各个估计值y^与实测值y的误差平方和Q=∑(y-y^)^2 为最小的一套回归系数( b1到bk)7.几个系数的概念:A. 决定系数R^2=1-(SS残差/SS总) R^2越接近1, 模型越好B. 复相关系数R: 它的意义在于表示多个X间的总相关程度.8.多元回归模型的检验:A. 检验Xi到Xk是否与y有关系F检验B. 检验单个偏回归系数, 可以分别看每个X对y的影响是否显著C. 标准化偏回归系数Beta的大小来说明个各个变量的重要性. 当偏回归系数统计学有意义时, 标准偏回归系数的绝对值越大, 其x对y的作用越大9.最优回归方程的选择:A. 残差标准差最小B. 校正系数Radj2最大的方程10.为什么要进行逐步回归?多重线性回归建立的回归方程包含了所有的自变量;但在实际问题中,参加回归方程的P个自变量中,有些自变量单独看对应变量Y有作用, 但P个自变量又可能是相互影响的;在作回归时,它们对应变量所起的作用有可能被其他自变量代替,而使得这些自变量在回归方程中变得无足轻重;这时把它们留在回归方程中,不但增加计算上的麻烦,而且不能保证有好的回归效果;为了克服这些缺点,提出了多元逐步回归。
5多元回归分析-OLS渐近性
如果对于任何 > 0 ,当 n时 P r(|W n|) 0
W n 便是 的一个一致估计量。
当 W n 具有一致性时,也称 为 W n 的概率极限,写作 plim(Wn).
2021/3/11
7
一致性的含义 Explaining consistency
– 但是, 当n趋向无穷大时, X总是在X=0这条线上 下摆动,它的方差并不会趋于0。因此,它不 是Z的一致估计量。
2
1
ө-ε1 ө-ε2
ө-ε3 ө+ε3
ө+ε2 ө+ε1
2021/3/11
9
无偏性与一致性
unbiasedness and Consistency
• Unlike unbiasedness—which is a feature of an estimator for a given sample size—consistency involves the behavior of the sampling distribution of the estimator as the sample size n gets large.
• Consistency means that the distribution of Wn becomes more and more concentrated about θ with n growing without bound, which roughly means that for larger sample sizes, Wn is less and less likely to be very far from θ.
第5讲 多元回归分析-OLS的渐近性
习题
5.3 C5.3
对 于Y 0 1 X u
如 果 满 足MLR.4, 即E(u | X ) 0, 则 有: E(u) 0和Cov( X , u) 0。 另 外 , 对 于 任 意 两 组 变量X i、Yi, 有 :
( X i X )(Yi Y ) ( X i X )Yi (Yi Y )X i 以 及 ( X i X ) 0
几类渐近性 o 一致性 o 渐近有效性 o 渐近正态性
二、一致性
1. 什么是一致性? 2. OLS的一致性 3. OLS的不一致性
什么是一致性?
一致性(consistence)
如果当样本无限增大时,的估计量 与之间的距离对于任意 0,
都有:lim P( ) 1, 那么称 是一致的,记为plim
MLR.1 参 数 的 线 性 性 : 回 归 模型 对 于 参 数 而 言 是 线 性的 MLR.2 样 本 的 随 机 性 : 样 本 是从 总 体 中 随 机 抽 样 得 到的 MLR.3 不 存 在 完 全 共 线 性 ; 每个 解 释 变 量 具 有 一 定 变异
且 自 变 量 之 间 不 存 在 完全 的 线 性 关 系 MLR.4 零 条 件 均 值 :E(u | X1, , X k ) 0
0;
H1
:
k
q1、
、
中
k
至
少
一
个
不
为0
第五讲 多元回归分析:渐近性
计量经济学导论 刘愿
2
5.1 一致性 渐进性的含义:
如果误差并非正态分布,对任何的样本容量而 言,t统计量、F统计量并非恰好服从t分布、F 分布。 幸运的是,即使没有正态性假定,t统计量和F 统计量仍然渐进的服从t分布、F分布,至少在 大样本情况下使如此。
计量经济学导论
3
一致性
在高斯-马尔科夫假定下,OLS估计是最优线 性无偏的,但我们并非总能得到无偏的估计量。 一致性是对一个估计量最起码的要求。在无法 满足无偏性的情况下,我们可以搜集尽可能多 的样本,即使n→ ∞,参数估计值的分布将逼近 真实参数值。
计量经济学导论
4
一致性的正式定义
令Wn是基于样本Y1 , Y2 , , YN的参数的估计值, 则Wn是的一致估计量,对于任意一个正数 0, P Wn 0,当n 否则,Wn不是的一致估计量。 当Wn 是一致时,我们说 是Wn的概率极限,记为: plim Wn
j j
如果我们能够搜集到所需要的样本数据,我们就能让 估计量任意接近于b j。
一致性是统计学或计量经济学中对所用估计量的一个起 码要求。
计量经济学导论
6
当样本容量增加时的样本分布
计量经济学导论
7
定理5.1 OLS的一致性 在假定MLR.1~MLR.4下,对所有的j=0,1, ,k,OLS ˆ 都是b 的一致估计。 估计量b j j ˆ b pli m b j j
1 ^ 1
^
计量经济学导论
12
不一致性的推导
与遗漏变量偏误的推导类似,渐进偏误推导如下:
p lim b1 b1 cov(x, u) / var(x)
第五讲OLS的渐进性
v
b1
Covx1,
b2 x2 Covx1, Var x1
v
b1
b2
Covx1, x2 Var x1
此时,如果Cov(x1,x2 ) 0, 则p lim β~1 β1
因此,考虑渐近偏差的方向就像是考虑存在一个遗漏变量时
偏差的方向。主要的区别在于渐近偏差用总体方差和总体协方差
n1
b1
b j 是b j的OLS估计量,对于每一个 n,b j 都有一个
概率分布。如果OLS估计量是一致的,那么 随着
样本容量的增加,b
j
的分布越来越集中在
b
的周围。
j
当n趋于无穷大时,b j 的分布紧缩成一个点 b j
可以证明,在假定 MLR.1 4下,通过OLS方法得到的
b0
当n增加时样本的分布(Sampling Distributions as n increases)
n3
n2
例:n1:每次从班上抽取10人, 抽若干次后,平均身高的分布;
n2:每次从班上抽取100人, 抽若干次后,平均身高的分布;
n3:每次从班上抽取200人, 抽若干次后,平均身高的分布。
β1的样本分布
若x1 和x2相关,即cov(x1 , x2 ) ≠0,而u和x2不相关,即
cov(u , x2 )=0时,则对b1和b2的OLS估计量都是不一致的。
若x1 和x2不相关,即cov(x1 , x2 )=0,且u和x2不相关,
即cov(u , x2 )=0时,则只有对b1的OLS估计量是不一致的。
为什么需要正态性假定?
第5章 多元回归分析OLS的渐近性
2
a
5.2 渐近正态和大样本推断
以上定理的重要之处在于,它去掉正态性假设 MLR.6,只要求误差项具有有限方差。它指出, 只要样本足够大,进行参数检验和构造置信区 间,都与经典线性模型下的做法完全一样。 样本容量要多大才能符合大样本的要求?有些 学者认为n=30就令人满意,但这不可能对付u 的所有可能的分布,样本还是尽可能的大,这 在社会科学基本能满足。在大样本下使用的统 计量又称渐近统计量。
LM统计量只要求估计约束模型:
y b0 b1 x1 b k q xk q u
湖大商学院 chenqianli
5.2 渐近正态和大样本推断
在原假设成立下,u 应该与样本中这些变量都不相 关,LM检验就是利用约束模型回归后的残差来 对此进行检验,采用的辅助回归:
u 0 1 x1
ˆ b cov x , u / var x p lim b j j 1 1
多元回归的推导涉及到大样本理论,比较复杂。
湖大商学院 chenqianli
5.1 一致性
OLS估计量的不一致性:误差项与任一自变量 相关 简单回归的渐近偏误:
ˆ b cov x , u / var x p lim b j j 1 1
湖大商学院 chenqianli
第五章 多元回归分析:OLS的渐近性
前两章讨论的多元回归模型的OLS估计 量的性质是有限样本、小样本或精确性 质,即对任何样本容量均成立的性质。 在统计推断时,我们需要假设误差项服 从正态分布的MLR.6,如果此假设不成 立,t统计量和F统计量不再原先的分布, 由此有必要了解估计量和检验统计量的 渐近性质或大样本性质。
第五讲多元线性回归
当影响变量Y的主要因素有k个时,可以建立起的总体回归模型为
– 变量的季节性差异。如旺季和非旺季,一年 1、回归系数的显著性检验
同样可以通过最小二乘法求出回归系数的估计值。
四季等。 3、解决的办法是抛弃其中一个变量,或是对变量作一些变换,如用相对数代替绝对数等。
模型的检验
1、回归系数的显著性检验
– 查t分布表,自由度为n-k-1,在有多个自变量 时,某个回归系数通不过,可能是这个系数 对应的自变量对因变量的影响不显著,也可 能是多重共线性所致。
2、回归方程的显著性检验
– H0 :1=2=…=k=0 H1 : j不同时为零
F( y (ˆyˆy)2y/)n2/kk1
2、这时的净回归系数是不可靠的。
市与非城市的差别。X =1(城市),X =0 如果回归分析的目的是要精确地测定每个自变量对因变量的单独影响,那么,各个净回归系数的可靠性显然是重要的。
2、回归方程的显著性检验 Y= 0+ 1X1+ 2X2+…+庭食物支出额的影响因素中,考虑城市与非城市的差别。
是当X2保持固定时,X1每变化一个单位时Y所 发生的变化;b2测定的是当X1保持固定时,X2 每变化一个单位时Y所发生的变化
多重共线性问题
1、如果自变量之间高度相关,则我们在进行多元回 归分析时可能会得到一些奇怪的结果。如在一元 回归时,回归系数为正,而在二元回归时,回归 系数却为负。
2、这时的净回归系数是不可靠的。因为当自变量间 呈高度相关时,我们很难区分出每一个变量的单 独的影响。
第五讲多元线性回 归
多元线性回归模型
多元线性回归是一元线性回归的逻辑推广。当 影响变量Y的主要因素有k个时,可以建立起的 总体回归模型为
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计量经济学导论
4
一致性的正式定义
令Wn是基于样本Y1,Y2, ,YN的参数的估计值, 则Wn是的一致估计量,对于任意一个正数 0,
PWn 0,当n
否则,Wn不是的一致估计量。 当Wn是一致时,我们说是Wn的概率极限,记为:
计量经济学导论
26
计量经济学导论
27
拉格朗日乘数统计量
将y对施加限制后的自变量集进行回归,并保 留残差uhat。
将uhat对所有自变量进行回归,并得到R2,记 为Ru2.
计算LM=n Ru2. 将LM与xq2分布中适当的临界值c比较,如果
LM>c,就拒绝原假设。否则,我们就不能拒 绝原假设。
多元回归分析:渐进性
y = b0 + b1x1 + b2x2 + . . . bkxk + u
Copyright © 2007 Thomson Asia Pte. Ltd. All rights rese1rved.
5.1 一致性 5.2 渐进正态和大样本推断 5.3 OLS渐进有效性
计量经济学导论 刘愿
assumptions, the OLS estimators will have the asymptotic variances We say that OLS is asymptotically efficient Important to remember our assumptions though, if not homoskedastic, not true
计量经济学导论
29
STATA命令语句:
Reg narr86 pcnv ptime86 qemp86 Predict ubar,resid Reg ubar pcnv ptime86 qemp86 avgsen tottime
计量经济学导论
30
5.3 OLS渐进有效性
Estimators besides OLS will be consistent However, under the Gauss-Markov
y b0 b1x1 ...bkqxkq u
Now take the residuals, u, and regress
u onx1,x2,..., xk (i.e. all the variables) LM nRu2, where Ru2 is fromthis reg
计量经济学导论
24
The idea of LM statistic
计量经济学导论
21
渐进正态性
随着自由度提高,t分布渐进服从正态分布, 因此有:
b b b ˆ j
j
seˆj
a
~tnk1
因此,随着样本量增大,我们无需再担心 正态性假定是否满足问题,但仍然需要同 方差性。
计量经济学导论
22
渐进标准误
如果u不是正态分布的,下式被称为渐进标准 误,t统计量称为渐进t统计量。
不满足上述条件,OLS是有偏和不一致的。
计量经济学导论
11
不一致性的推导
^
b 1
的不一致(有时也粗略地称为渐近偏误)为:
plim b^1b1cov(x,u)/var(x)
因为Var(x)>0,所以,若x与u正相关,则
^
b1
的
不一致就为正,而若x与u负相关,则
^
b1
的不
一致为负。如果x与u之间的协方差相对于X的
计量经济学导论
31
The discussion in the simple regression
18
定理 5.2 OLS的渐进正态性
Under the Gauss - Markov assumptions,
(i)
n
bˆ j b j
a
~ Normal
0,s 2
a
2 j
,
where
a
2 j
plim
n 1
rˆij2
(ii) sˆ 2 is a consistent estimator of s 2
中心极限定理
根据中心极限定理,可以证明OLS估计值服从 渐进正态。
渐进正态意味着: P(Z<z)F(z) as n , 或者 P(Z<z) F(z) (标准正态累积分布函数)。
中心极限定理表明,任何均值为m ,方差为s2 经标准化后渐进的服从标准正态分布
Z
Y mY s
a
~N0,1
n
计量经济学导论
plimbˆj bj
n
计量经济学导论
8
OLS的一致性
在高斯-马尔科夫假定下,OLS估计值是一致 且无偏的。
类似的,我们可以像无偏性一样证明一致性, 为此需要引入概率极限。
计量经济学导论
9
简单回归中证明一致性
bˆ1 xi1 x1 yi
xi1 x1 2
xi1 x1 b 0 b 1 xi1 u i
误差正态分布意味着,给定x情况下,y服从正 态分布。
计量经济学导论
16
大样本推断
不满足正态性的情形相当普遍。任何偏向的变 量,如工资、被逮捕次数、储蓄等,不可能是 正态分布的。(正态分布意味着对称分布)
注意:正态性假定在OLS的最优线性无偏性中 并非必要的,仅仅是影响推断。
计量经济学导论
17
Suppose we have a standard model, y = b0 + b1x1 + b2x2 + . . . bkxk + u and our null hypothesis is
H0: bk-q+1 = 0, ... , bk = 0
First, we just run the restricted model
where Covx1,x2 Varx1
计量经济学导论
13
渐进偏误
渐进偏误的方向与遗漏变量偏误的方向类似。 两者的区别在于,渐进偏误使用总体方差和协
方差,遗漏变量偏误则基于样本对应量(以x 的样本值为条件) 不一致性是大样本问题,即使增加数据量,不 一致性问题仍然存在。 如果X1与X2不相关,则为不一致估计量;如 果相关,则为一致估计量。
bbb b n a r r 8 6 0 1 p c n v 4 p t i m e 8 6 5 q e m 8 6 u
u01pcnv2avgsen3totim e4ptim e865qem 86v
R u 20.0015, L M 27250.00154.094.61q,10% ,x2,
Px2 24.090.129
Running a regression of these residuals on those independent variables excluded under H0, we should get a small enough R2.
However, we must include all of the independent variables in the regression for technical reasons.
plimWn
和无偏性不一样,无偏性是估计量在给定样本容
量下的一个特征,一致性描述了估计量的抽样分
布在样本容量变大是的特性。
计量经济学导论
5
一致性的直观理解
如果估计量是一致的,那么随着样本容量的增加,
bˆj的分布就越来越紧密地分布在bj的周围。当n趋向 无穷时,bˆj的分布就紧缩成单一一个点bj。这意味着,
计量经济学导论
25
LM Statistic (cont)
a
LM~q2,socanchoosea critical value,c, froma q2 distributoin,or justcalculatea p-valueforq2
With a large sample, the result from an F test and from an LM test should be similar. LM>c, reject H
se bˆ j
sˆ 2
SSTj
1
R
2 j
sˆ ,
SSR j
sˆ
1 n2
n
uˆi2
i 1
SSR n2
se bˆ j c j
n,
SST j
ns
2 j
可以预期,标准误的收缩速度为样本容量平方 根的倒数。
计量经济学导论
23
大样本检验方法:LM检验 LM Statistic (cont)
(iii) bˆ j b j
se bˆ j
a
~ Normal 0,1
计量经济学导论19bˆ j b j , v a r bˆ j
v a r bˆ j
s2
SST j
1
R
2 j
s2
n
r
i
2 j
i1
bˆ j b j
N
0
,
s
2
n
r
i
2 j
i1
n bˆ j b j
计量经济学导论
10
一个较弱的假定
为了得到无偏性,我们需要零条件均值假设 E(u|x1, x2,…,xk) = 0→x的任意函数都与u无关
为了得到一致性,我们仅需要较弱的假定:零 均值和零相关:E(u) = 0 ,Cov(xj,u) = 0, for j = 1, 2, …, k. →每一个xj都与u无关。
N