第3章回归分析方法2
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
即有: Cov(ui , u j ) E[ui E(ui )][u j E(u j )] 0 此假定表示不同观测值的随机项是互不相关的,即不会出现图中(a)
(b)情形,而呈现的是(c)的情况。
E(uiu j ) E(ui )E(u j )
(i Байду номын сангаас j)
给定Xi,任意两个Y值与其均值的离差都不会表现出某种系统性模式
古典线性回归模型的基本假定
2.模型中有随机扰动项,所以估计的参数也是随机变量, 显然参数估计量的分布与随机扰动项的分布有关,只有 对随机扰动项的分布作出某些假定,才能比较方便地确
定参数估计量的分布性质,才可能在此基础上去对参数
进行假设检验和区间估计等统计推断,也才可能对被解 释变量作区间预测。
基本假定1
测,就必须知道总体Yi的分布情况,如果Xi为非随机变量
,总体Yi与误差项ui之间仅有均值E(Yi) 的差别。
第二节 线性回归模型的参数估计
一、一元线性回归模型 二、最小二乘法 三、多元线性回归模型 四、系数估计量的性质 五、回归方程的函数形式
二、最小二乘法
由于 Yi 0 1 X i i 是无法直接观测的
其中,i和j为两次不同的观测,而cov表示协方差。
随机扰动项之间是互不相关,互不影响的,观测是相互独立的。
由于 Cov(ui , u j ) E[ui E (ui )][u j E (u j )]
E (ui u j ui E (u j ) u j E (ui ) E (ui ) E (u j )) E (ui u j ) E (ui ) E (u j ) 0
绝对值上越大,残差平方和也越大。
(二)最小二乘法的基本原理
ˆ , ˆ 的某个函数 残差平方和是估计量 0 1
对任意给定的一组数据,选择不同的参数估计值将得 到不同的残差平方和。
(三)最小二乘法的数学原理
纵向距离是Y的实际值与拟合值之差,差异大拟合不好,差异小拟合 好,所以又称为拟合误差或残差。 将所有纵向距离平方后相加,即得误差平方和,“最好”直线就是 使误差平方和最小的直线“拟合总误差达到最小”;
足。
对随机扰动项的假定
假定3:随机扰动项的均值为零。(零均值)
假定4:随机扰动项的方差相等。(同方差性)
假定5:各个随机扰动项之间无自相关。(无自相关)
基本假定3
随机扰动项的均值为零: 对给定的Xi值,随机扰动项ui的均值或期望值为 零,记为:
E (ui | X i ) 0
或者在X是非随机的情形下记为:
ˆ ˆ X e Y 我们只能通过SRF去估计它 Yi ˆ e 0 1 i i i i
这里,样本点与样本回归直线之间的距离,叫做残 差(residual),记作ei。
(一)最小二乘法的思路
1.为了精确地描述Y与X之间的关系,必须使用这两个变量 的每一对观察值,才不至于以点概面。 2.Y与X之间是否是直线关系?若是,将用一条直线描述它 们之间的关系。 3.在Y与X的散点图上画出直线的方法很多。任务?——找 出一条能够最好地描述 Y 与 X (代表所有点)之间的直 线。 4. 什么是最好? — 找出判断“最好”的原则。最好指的是 找一条直线使得这些点到该直线的纵向距离的和(平方 和)最小。
Yi 0 1 X i ui
Yi依赖于Xi和ui,要对回归估计值做出可靠 的解释,对变量Xi和误差项ui做出假定是极其重要
的。
古典线性回归模型的基本假定
1.只有具备一定的假设条件,对模型所作的估计才可能具 有良好的统计性质。所估计的参数才能“尽可能地接近” (即尽可能准确地估计)总体参数的真实值。
公式:
ˆ ˆ X )2 最小 e2 (Y 0 1
Yi 0 1 X i ui
在一定的假定条件下,普通最小二 乘法有一些非常有吸引力的统计性质,
从而使之成为回归分析中最有功效和最
为流行的方法之一。
第二节 线性回归模型的参数估计
重点:
1.对普通最小二乘法基本原理的认识
2.对最小二乘法基本假定的认识
3.对最小二乘估计量性质的认识 4.对非线性回归模型的参数估计问题
这里暗含着的假定条件,也就是假定回归线通过X与Y的条件均 值组成的点。
假定3意味着:Xi和ui是不相关的
如果在给定一个随机变量的情况下,另一个随机变量 的条件均值为零,那么这两个变量之间的协方差就是零, 因而这两个变量是无关的。因此,假定3意味着解释变量 Xi和随机扰动项ui之间是不相关的。 假定Xi和ui之间不相关意味着假定两者对被解释变量 Y具有独立的影响。如果Xi和ui之间相关,就无法确定它
关于扰动项的正态性假定
假定ui服从均值为零、方差为σ2的正态分布,这也表明被 解释变量Yi服从均值为
0 1 X i、方差为
2 的正态分布
,即: Yi~N(
, ) 2. 0 1 X i
如果只利用最小二乘法进行参数估计,不需要误差项 ui 服从正态分布这个假定条件 , 如果要进行假设检验和预
解释变量非随机
解释变量可能本来就是随机的。但出于回归分析的目 的,我们假定它们的值在重复抽样中固定不变,即X在不 同的多个样本中取同样的一组值,从而把它转化成实质上
非随机的。这种做法的好处在于,经济学常常使用二手数
据,即使解释变量的值本质上是随机的,但就要分析的问 题而言,可以假定它们是给定的。因而,回归分析的结果 是以这些给定的解释变量值为条件的。
布与均值的分散程度来判断其可靠程度。
基本假定5
各个干扰项之间无自相关: 给定任意两个X值, Xi和Xj(i≠j),ui和uj之间的相 关系数为零。简单地说,观测是相互独立的。用符号 表示:
cov(ui , u j X i , X j ) 0 cov(ui , u j ) 0若X 是非随机的
第二节 线性回归模型的参数估计
一、一元线性回归模型 二、最小二乘法 三、多元线性回归模型 四、系数估计量的性质 五、回归方程的函数形式
1.形式简单、估计和检验的结果表述较为
容易,更易使初学者理解和接受。
2.很容易扩展到更一般的多元情况。
被解释变量(回归子)仅与唯一的解释变
量(回归元)相关
“一元”:一个解释变量
E(ui ) 0
E (ui | X i ) 0
此假定表示对于每一个Xi, ui 的值可在其条件均值的上
下波动,与其均值的偏差有
正有负,但在大量观测下, 正值抵消了负值,平均来说
其总和为零,其对 Y 的平均
影响为零。
随机扰动项的条件分布
假定3意味着:模型不存在设定误差
此假定表示对于每一个Xi,由于随机扰动因素的存在,Yi的值在
扰动项u与解释变量无关
Cov( X i , ui ) E[ui E(ui )][ X j E( X j )] 0
此假定表示扰动项与解释变量不相关,即Xi项与ui项 不趋向于共同变化,各自分别独立对 Yi产生影响。 事实上,在回归分析中,X在重复抽样中固定取值,
是确定性变量,因此,Xi与ui不相关的假定一般都能够满
E[ui E(ui )]2 Var(ui ) 2
因此,该假定同时表明,被解释变量Yi可能取值的分 散程度也是相同的。
异方差性 Var(ui | X i ) i
2
Y总体的条件方差不再恒定不变,随X而变化。
这意味着不是对应于不同的 X 的所有 Y 值都是同样可靠的,要根据 Y 的分
线性回归模型:回归模型尽管对变量而言不一定是线性 的,但它对于参数而言是线性的。 在一个函数中,如果β1仅以一次方出现,而且不 乘以或除以任何其他参数,就说这个函数是参数β1的 线性函数。
基本假定2
X值是固定的或独立于随机扰动项: 假定解释变量X是非随机的,在重复抽样中取固定 值;或者虽然X是随机的,但与扰动项是不相关的(即 从变量X角度看是外生的)。
第 3章 回归分析方法
第一节 回归估计的性质
第二节 线性回归模型的参数估计 第三节 线性回归模型的统计检验 第四节 线性回归模型的计量检验
回归分析
回归分析研究一个被解释变量对另一个或多个解释变 量的统计依赖关系,其用意在于通过后者(在重复抽样中) 的已知或设定值,去估计和预测前者的总体均值。 从逻辑上说,统计关系式本身不可能意味着任何因果 关系。要谈因果律,必须诉诸先验的或理论上的思考。
(二)最小二乘法的基本原理
残差和最小不 是好的准则?
(二)最小二乘法的基本原理
在残差和最小化的准则下,不管各个观测点离SRF
有多远,所有残差都受到同样的重视。因此,很可能虽
然残差在SRF周围散布得很宽,但其残差总和却很小( 甚至是零)。 采用最小二乘准则,通过对残差平方而赋予残差不 同的权重,偏离 SRF越远则获得更大的权重,即残差在
们各自对Y的影响大小。
基本假定4
同方差性或ui的方差相等: 给定X值,对所有的观测,ui的方差都是相同的。 也就是说ui的条件方差是恒定的。用符号表示为:
var(ui ) E[ui E (ui X i )]2 E (ui 2 X i ) E (ui2 ) 2
其中var表示方差。
基本假定6
观测次数n必须大于待估计的参数个数。
(观测次数n必须大于解释变量的个数。)
不妨设想我们只有对Y和X的一对观测值,单一的
观测是无法去估计两个未知参数的。我们至少需要两
对观测值来估计两个未知参数。
基本假定7
X变量的性质。在一个给定的样本中,X值不可以全部 相同。而且X变量的取值没有异常,即没有一个X值相 对其余观测而言过大或过小。 1.变量必须在变,否则参数无法估计。 2.变量取值异常会导致回归结果受到异常观测的支配。
“线性”:参数和干扰项进入方程的形
式是线性的
对变量为线性: 在一个函数Y=f(X)中,如果变量X仅以幂或指数1出 现,并且与其他变量也没有相乘或相除关系,那么就说 Y=f(X)是X的线性函数。
对参数为线性:
在一个函数中,如果β1仅以一次方出现,而且不乘 以或除以任何其他参数,就说这个函数是参数β1的线性 函数。
一元线性回归模型
Yi 0 1 X i ui
被解释变量(回归子)仅与唯一的解释变量(回
归元)相关
“一元”:一个解释变量 “线性”:参数和干扰项进入方程的形式是线性的
在回归分析中我们的目的不仅仅是获得参数
估计量,而且要对真实的参数作出推断。为达到
这一目的,我们不仅要设定模型的函数形式,还 要对Yi的生成方式做出一些假定。
其条件均值 E( Y/Xi )附近上下波动,如果模型设定正确, Yi 相对于
E(Yi/Xi)的正偏差和负偏差都会有,随机扰动项可正可负,发生的概率 大致相同,平均地看,这些随机扰动项有互相抵消的趋势。
在此假定下,才有:
E(Yi/Xi)=E[E(Yi/Xi)]+E(ui/Xi)=E(Yi/Xi)+ E(ui/ Xi) =E(Yi/ Xi)= 0 1 X i
Var(ui | X i ) 2
此假定表示对于所有的 Xi , ui 对其均值的分散程度都是 相同的,且方差都等于某个 常数 。
2
同时假定:
可以推证:因变量Yi与ui具有相同的方差,这是因为
Var (Yi ) [Yi E (Yi )]2 [ 0 1 X i ui ( 0 1 X i )]2 E (ui2 )
该假定同时表明,被解释变量Yi的序列值Y1,Y2,…,Yn 之间也是互不相关的。这是因为:
COV(Yi,Yj)=E[Yi -E(Yi/Xi)][ Yj -E(Yj/ Xi)]= E(uiuj)=0
注意: 该假定的合理性取决于分析中所用的数据类型,如果是横截面数据, 又是取自一个相关总体的随机样本,那么这个假定通常是合理的。如果是 时间序列数据,其连续观测之间往往是高度相关的,独立性假定很难成立。
肯德尔,斯图亚特(1961):
一个统计关系式,不管多强也不管多么有启发性, 永远不能确立因果关系方面的联系:对因果关系的理 念,必须来自统计学以外,最终来自这种或那种理论。
回归分析的任务
是什么?
根据样本回归模型:
ˆ ˆ X e Yi 0 1 i i
尽可能准确地估计总体回归模型:
(b)情形,而呈现的是(c)的情况。
E(uiu j ) E(ui )E(u j )
(i Байду номын сангаас j)
给定Xi,任意两个Y值与其均值的离差都不会表现出某种系统性模式
古典线性回归模型的基本假定
2.模型中有随机扰动项,所以估计的参数也是随机变量, 显然参数估计量的分布与随机扰动项的分布有关,只有 对随机扰动项的分布作出某些假定,才能比较方便地确
定参数估计量的分布性质,才可能在此基础上去对参数
进行假设检验和区间估计等统计推断,也才可能对被解 释变量作区间预测。
基本假定1
测,就必须知道总体Yi的分布情况,如果Xi为非随机变量
,总体Yi与误差项ui之间仅有均值E(Yi) 的差别。
第二节 线性回归模型的参数估计
一、一元线性回归模型 二、最小二乘法 三、多元线性回归模型 四、系数估计量的性质 五、回归方程的函数形式
二、最小二乘法
由于 Yi 0 1 X i i 是无法直接观测的
其中,i和j为两次不同的观测,而cov表示协方差。
随机扰动项之间是互不相关,互不影响的,观测是相互独立的。
由于 Cov(ui , u j ) E[ui E (ui )][u j E (u j )]
E (ui u j ui E (u j ) u j E (ui ) E (ui ) E (u j )) E (ui u j ) E (ui ) E (u j ) 0
绝对值上越大,残差平方和也越大。
(二)最小二乘法的基本原理
ˆ , ˆ 的某个函数 残差平方和是估计量 0 1
对任意给定的一组数据,选择不同的参数估计值将得 到不同的残差平方和。
(三)最小二乘法的数学原理
纵向距离是Y的实际值与拟合值之差,差异大拟合不好,差异小拟合 好,所以又称为拟合误差或残差。 将所有纵向距离平方后相加,即得误差平方和,“最好”直线就是 使误差平方和最小的直线“拟合总误差达到最小”;
足。
对随机扰动项的假定
假定3:随机扰动项的均值为零。(零均值)
假定4:随机扰动项的方差相等。(同方差性)
假定5:各个随机扰动项之间无自相关。(无自相关)
基本假定3
随机扰动项的均值为零: 对给定的Xi值,随机扰动项ui的均值或期望值为 零,记为:
E (ui | X i ) 0
或者在X是非随机的情形下记为:
ˆ ˆ X e Y 我们只能通过SRF去估计它 Yi ˆ e 0 1 i i i i
这里,样本点与样本回归直线之间的距离,叫做残 差(residual),记作ei。
(一)最小二乘法的思路
1.为了精确地描述Y与X之间的关系,必须使用这两个变量 的每一对观察值,才不至于以点概面。 2.Y与X之间是否是直线关系?若是,将用一条直线描述它 们之间的关系。 3.在Y与X的散点图上画出直线的方法很多。任务?——找 出一条能够最好地描述 Y 与 X (代表所有点)之间的直 线。 4. 什么是最好? — 找出判断“最好”的原则。最好指的是 找一条直线使得这些点到该直线的纵向距离的和(平方 和)最小。
Yi 0 1 X i ui
Yi依赖于Xi和ui,要对回归估计值做出可靠 的解释,对变量Xi和误差项ui做出假定是极其重要
的。
古典线性回归模型的基本假定
1.只有具备一定的假设条件,对模型所作的估计才可能具 有良好的统计性质。所估计的参数才能“尽可能地接近” (即尽可能准确地估计)总体参数的真实值。
公式:
ˆ ˆ X )2 最小 e2 (Y 0 1
Yi 0 1 X i ui
在一定的假定条件下,普通最小二 乘法有一些非常有吸引力的统计性质,
从而使之成为回归分析中最有功效和最
为流行的方法之一。
第二节 线性回归模型的参数估计
重点:
1.对普通最小二乘法基本原理的认识
2.对最小二乘法基本假定的认识
3.对最小二乘估计量性质的认识 4.对非线性回归模型的参数估计问题
这里暗含着的假定条件,也就是假定回归线通过X与Y的条件均 值组成的点。
假定3意味着:Xi和ui是不相关的
如果在给定一个随机变量的情况下,另一个随机变量 的条件均值为零,那么这两个变量之间的协方差就是零, 因而这两个变量是无关的。因此,假定3意味着解释变量 Xi和随机扰动项ui之间是不相关的。 假定Xi和ui之间不相关意味着假定两者对被解释变量 Y具有独立的影响。如果Xi和ui之间相关,就无法确定它
关于扰动项的正态性假定
假定ui服从均值为零、方差为σ2的正态分布,这也表明被 解释变量Yi服从均值为
0 1 X i、方差为
2 的正态分布
,即: Yi~N(
, ) 2. 0 1 X i
如果只利用最小二乘法进行参数估计,不需要误差项 ui 服从正态分布这个假定条件 , 如果要进行假设检验和预
解释变量非随机
解释变量可能本来就是随机的。但出于回归分析的目 的,我们假定它们的值在重复抽样中固定不变,即X在不 同的多个样本中取同样的一组值,从而把它转化成实质上
非随机的。这种做法的好处在于,经济学常常使用二手数
据,即使解释变量的值本质上是随机的,但就要分析的问 题而言,可以假定它们是给定的。因而,回归分析的结果 是以这些给定的解释变量值为条件的。
布与均值的分散程度来判断其可靠程度。
基本假定5
各个干扰项之间无自相关: 给定任意两个X值, Xi和Xj(i≠j),ui和uj之间的相 关系数为零。简单地说,观测是相互独立的。用符号 表示:
cov(ui , u j X i , X j ) 0 cov(ui , u j ) 0若X 是非随机的
第二节 线性回归模型的参数估计
一、一元线性回归模型 二、最小二乘法 三、多元线性回归模型 四、系数估计量的性质 五、回归方程的函数形式
1.形式简单、估计和检验的结果表述较为
容易,更易使初学者理解和接受。
2.很容易扩展到更一般的多元情况。
被解释变量(回归子)仅与唯一的解释变
量(回归元)相关
“一元”:一个解释变量
E(ui ) 0
E (ui | X i ) 0
此假定表示对于每一个Xi, ui 的值可在其条件均值的上
下波动,与其均值的偏差有
正有负,但在大量观测下, 正值抵消了负值,平均来说
其总和为零,其对 Y 的平均
影响为零。
随机扰动项的条件分布
假定3意味着:模型不存在设定误差
此假定表示对于每一个Xi,由于随机扰动因素的存在,Yi的值在
扰动项u与解释变量无关
Cov( X i , ui ) E[ui E(ui )][ X j E( X j )] 0
此假定表示扰动项与解释变量不相关,即Xi项与ui项 不趋向于共同变化,各自分别独立对 Yi产生影响。 事实上,在回归分析中,X在重复抽样中固定取值,
是确定性变量,因此,Xi与ui不相关的假定一般都能够满
E[ui E(ui )]2 Var(ui ) 2
因此,该假定同时表明,被解释变量Yi可能取值的分 散程度也是相同的。
异方差性 Var(ui | X i ) i
2
Y总体的条件方差不再恒定不变,随X而变化。
这意味着不是对应于不同的 X 的所有 Y 值都是同样可靠的,要根据 Y 的分
线性回归模型:回归模型尽管对变量而言不一定是线性 的,但它对于参数而言是线性的。 在一个函数中,如果β1仅以一次方出现,而且不 乘以或除以任何其他参数,就说这个函数是参数β1的 线性函数。
基本假定2
X值是固定的或独立于随机扰动项: 假定解释变量X是非随机的,在重复抽样中取固定 值;或者虽然X是随机的,但与扰动项是不相关的(即 从变量X角度看是外生的)。
第 3章 回归分析方法
第一节 回归估计的性质
第二节 线性回归模型的参数估计 第三节 线性回归模型的统计检验 第四节 线性回归模型的计量检验
回归分析
回归分析研究一个被解释变量对另一个或多个解释变 量的统计依赖关系,其用意在于通过后者(在重复抽样中) 的已知或设定值,去估计和预测前者的总体均值。 从逻辑上说,统计关系式本身不可能意味着任何因果 关系。要谈因果律,必须诉诸先验的或理论上的思考。
(二)最小二乘法的基本原理
残差和最小不 是好的准则?
(二)最小二乘法的基本原理
在残差和最小化的准则下,不管各个观测点离SRF
有多远,所有残差都受到同样的重视。因此,很可能虽
然残差在SRF周围散布得很宽,但其残差总和却很小( 甚至是零)。 采用最小二乘准则,通过对残差平方而赋予残差不 同的权重,偏离 SRF越远则获得更大的权重,即残差在
们各自对Y的影响大小。
基本假定4
同方差性或ui的方差相等: 给定X值,对所有的观测,ui的方差都是相同的。 也就是说ui的条件方差是恒定的。用符号表示为:
var(ui ) E[ui E (ui X i )]2 E (ui 2 X i ) E (ui2 ) 2
其中var表示方差。
基本假定6
观测次数n必须大于待估计的参数个数。
(观测次数n必须大于解释变量的个数。)
不妨设想我们只有对Y和X的一对观测值,单一的
观测是无法去估计两个未知参数的。我们至少需要两
对观测值来估计两个未知参数。
基本假定7
X变量的性质。在一个给定的样本中,X值不可以全部 相同。而且X变量的取值没有异常,即没有一个X值相 对其余观测而言过大或过小。 1.变量必须在变,否则参数无法估计。 2.变量取值异常会导致回归结果受到异常观测的支配。
“线性”:参数和干扰项进入方程的形
式是线性的
对变量为线性: 在一个函数Y=f(X)中,如果变量X仅以幂或指数1出 现,并且与其他变量也没有相乘或相除关系,那么就说 Y=f(X)是X的线性函数。
对参数为线性:
在一个函数中,如果β1仅以一次方出现,而且不乘 以或除以任何其他参数,就说这个函数是参数β1的线性 函数。
一元线性回归模型
Yi 0 1 X i ui
被解释变量(回归子)仅与唯一的解释变量(回
归元)相关
“一元”:一个解释变量 “线性”:参数和干扰项进入方程的形式是线性的
在回归分析中我们的目的不仅仅是获得参数
估计量,而且要对真实的参数作出推断。为达到
这一目的,我们不仅要设定模型的函数形式,还 要对Yi的生成方式做出一些假定。
其条件均值 E( Y/Xi )附近上下波动,如果模型设定正确, Yi 相对于
E(Yi/Xi)的正偏差和负偏差都会有,随机扰动项可正可负,发生的概率 大致相同,平均地看,这些随机扰动项有互相抵消的趋势。
在此假定下,才有:
E(Yi/Xi)=E[E(Yi/Xi)]+E(ui/Xi)=E(Yi/Xi)+ E(ui/ Xi) =E(Yi/ Xi)= 0 1 X i
Var(ui | X i ) 2
此假定表示对于所有的 Xi , ui 对其均值的分散程度都是 相同的,且方差都等于某个 常数 。
2
同时假定:
可以推证:因变量Yi与ui具有相同的方差,这是因为
Var (Yi ) [Yi E (Yi )]2 [ 0 1 X i ui ( 0 1 X i )]2 E (ui2 )
该假定同时表明,被解释变量Yi的序列值Y1,Y2,…,Yn 之间也是互不相关的。这是因为:
COV(Yi,Yj)=E[Yi -E(Yi/Xi)][ Yj -E(Yj/ Xi)]= E(uiuj)=0
注意: 该假定的合理性取决于分析中所用的数据类型,如果是横截面数据, 又是取自一个相关总体的随机样本,那么这个假定通常是合理的。如果是 时间序列数据,其连续观测之间往往是高度相关的,独立性假定很难成立。
肯德尔,斯图亚特(1961):
一个统计关系式,不管多强也不管多么有启发性, 永远不能确立因果关系方面的联系:对因果关系的理 念,必须来自统计学以外,最终来自这种或那种理论。
回归分析的任务
是什么?
根据样本回归模型:
ˆ ˆ X e Yi 0 1 i i
尽可能准确地估计总体回归模型: