第3章 双线性模型:假设检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
由于随机项ui不可观测,只能从ui的估计— —残差ei出发,对总体方差进行估计。
可以证明, 2的最小二乘估计量为
2
e
2 i
n2
2是 2的估计量, e 2是残差平方和, 其中 i 即Y的真实值与估计值差的平方和。n-2 称为自由度,可以理解为独立的观察值 的个数。
它是关于2的无偏估计量。
高 斯 — 马 尔 可 夫 定 理 (Gauss-Markov theorem)
在给定经典线性回归的假定下,最小 二乘估计量是具有最小方差的线性无偏估 计量。
蒙特卡洛试验 OLS估计量的无偏性可以通过蒙特卡洛试验验证。 假设有如下信息:
与相应的真实值1.5、2、4很接近,反复的应用最小二乘法,平均的看,估计值将 等于真实值。
3.4 OLS估计量的抽样分布(概率分布)及 随机干扰项方差的估计
假设7 在总体回归函数Yi B1 B2 X i ui中, ui N (0, 2 )
这一假设的理论基础是统计学中的中心极限定理。
误差项ui 服从均值为0方差为 2的正太分布,即
中心极限定理 设随机变量
X 1 , X 2 ,, X n ,相互独立,具有相同的分布,
432.4138 0.0013 X Y i i se (16.9061)(0.000245)
括号里的数字表示估计的标准误。
3.3 最小二乘估计量的性质
1. 系数B0, B1的OLS估计
当模型参数估计出后,需考虑参数估计值的 精度,即是否能代表总体参数的真值,或者说需 考察参数估计量的统计性质。 一个用于考察总体的估计量,可从如下几个 方面考察其优劣性:
这种假设检验方法涉及两个重要概念检验统 计量和零假设下检验统计量的抽样分布。其核心 思想是根据从样本数据求得到统计量的值决定接 受或拒绝零假设。 前面已经介绍 b2 B2 t ~ t (n 2) 2 2 ˆ xi
服从自由度为(n 2)的 t 分布,如果令
H0:B2 =B
* 2
3.6
拟合优度检验
—判定系数
拟合优度检验:对样本回归直线与样本观测 值之间拟合程度的检验。 度量拟合优度的指标:判定系数(可决系数) R2
1、总离差平方和的分解
已知由一组样本观测值(Xi,Yi),i=1,2…,n得 到如下样本回归直线
ˆ b b X Y i 0 1 i
前面讲过 ˆ e Yi Y i i
继续数学S.A.T一例
1.双边检验 H0:B2 =0,H1:B2 0,利用(3.29)得
0.0013-0 t =5.4354 0.000245
2.单边检验 H0:B2 0,H1:B2 0.
数学分数函数中系数为正的,因此实际中检验是 单边的。T检验的过程是相同的,只是犯第一类 错误的概率不是均匀的分布在t分布的两侧,而是 集中于一侧,左侧或右侧。
假设7. 随机误差项ui具有零均值、同方差 (u2)的正态分布: ui ~ N(0, u2)
3.2 最小二乘估计量的方差与标准误
在估计的参数b0和b1的方差表达式中,都含有随 机扰动项u的方差2。 由于2实际上是未知的,因此, b0和b1的方差实 际上无法计算,这就需要对其进行估计。 2又称为总体方差。
E( X k ) , D( X k ) 2 0(k 1,2,),
记
Yn
X
k 1
n
k
n
2
n
X
/ n
则对于任意实数x,有
lim P{Yn x}
n
2
1
x
e
t 2 / 2
dt ( x)
中心极限定理表明:均值为 ,方差为 2 0 的独立同分布的随机变量 X 1 , X 2 ,, X n 的和
X
k 1
n
k
的标准化变量的分布函数,当n充分大时,有
Yn
X
k 1
n
k
n
X
近似地
n 2
/ n
~
N (0,1)
1、参数估计量b1和b2概率分布
普通最小二乘估计量b1 、 b2分别是Yi的线性组 合,因此, b1和b2的概率分布取决于Y的分布 特征。 在u是正态分布的假设下,Y是正态分布,则b1 、 b2也服从正态分布,因此,
(1)线性性,即它是否是另一随机变量的线性 函数;
(2)无偏性,即它的均值或期望值是否等于总 体的真实值; (3)有效性,即它是否在所有线性无偏估计量 中具有最小方差。
这三个准则也称作估计量的小样本性质。
拥有这类性质的估计量称为最佳线性无偏估计 量(best liner unbiased estimator, BLUE)。
整理得
ˆ2 P(b2 -2.306
2 2 ˆ x B b + 2.306 i 2 2 2 x i )=0.95
上式给出了B2的一个95%的置信区间。
ˆ2 在数学分数一例中 于是可求得置信区间为
2 x i =0.000245,
b2 -2.306(0.000245) B2 b2 +2.306(0.000245) 0.00074 B2 0.00187
回归分析是要通过样本所估计的参数来代 替总体的真实参数,或者说是用样本回归 线代替总体回归线。 尽管从统计性质上已知,如果有足够多的 重复 抽样,参数的估计值的期望(均值) 就等于其总体的参数真值,但在一次抽样 中,估计值不一定就等于该真值。
那么,在一次抽样中,参数的估计值与 真值的差异有多大,是否显著,这就需 要进一步进行统计检验。主要内容有:
参数的区间估计;
变量的显著性检验 拟合优度检验。
对于一元线性回归方程中的b2,已经知道它 服从பைடு நூலகம்布
b2 ~ N ( B2 ,
x
2
2 i
)
b2 B2 b2 B2 Z ~ N (0,1) 2 2 se (b2 ) xi
ˆ 2是未知, 要使用上式需要知道真实的 2,而 ˆ 可以根据 n2 代替 ,则上式的右边服从自由度为n-2的t分
B2*是B2的某个给定的数值,则根据样本数据求得
估计值-假设值 t = 2 2 ˆ xi 估计值的标准误
b2 B2*
(3.29)
将上面计算出的t值作为检验统计量。服从自由 度为(n-2)的t分布。相应的检验称为t检验。
检验时,需要知道: (1)对于双变量模型,自由度为n-2; (2)常用的显著性水平有1%,5%,10%,为了 避免选择显著水平的随意性,通常求出P值‘ 如果P值充分小,则拒绝零假设。 (3)可用单边或双边检验。
2 X 1 i 2 2 b1 ~ N B1 , ,b2 ~ N B2 , 2 2 n x x i i
b1和b2的标准差
b
1
2 X i2
n x
2 i
, b 2
2 x i
2
3.5 假设检验
第一部分 线性回归 模型
Chp 3 双变量模型:假设检验
主要内容
古典线性回归模型的假定 OLS估计量及其性质 OLS估计量的方差与标准误 OLS估计量的抽样分布(概率分布) 假设检验 拟合优度 正态性检验 预测
3.1
古典线性回归模型
线性回归模型的基本假设
假设1. 回归模型是参数线性的,但不一定是变量 线性; Yi=B1+B2Xi+ui
当不满足小样本性质时,需进一步考察估计 量的大样本或渐近性质: ( 4 )渐近无偏性,即样本容量趋于无穷大时, 是否它的均值序列趋于总体真值; ( 5 )一致性,即样本容量趋于无穷大时,它是 否依概率收敛于总体的真值;
( 6 )渐近有效性,即样本容量趋于无穷大时, 是否它在所有的一致估计量中具有最小的渐近方 差。
在数学S.A.T一例中,共有观察值10个,自由 度为n-2=8,假定显著性水平为5%,查t分布表 得 P(-2.306 t 2.306)=0.95 即t值位于上、下限(-2.306,2.306)之间的概 率为95%,这个上、下限就是临界t值,得 b2 B2 P(-2.306 2.306)=0.95 ˆ 2 xi2
对上式进行恒等变化 ˆ Y ˆ Y (即e ) Yi Y Yi Y i i
对上式进行恒等变化
未解释的部分 或残差部分 由X变异所 解释的部分
Yi的变异
ˆ Y ˆ Y (即e ) Yi Y Yi Y i i
ˆ Y ˆi Y y i
要判断估计的参数值b离真实的参数值B有多 “近”,可预先选择一个概率(0< <1) ,并求一 个正数 ,使得随机区间 (b-, b+)包含参数的直 值的概率为1- ,即:
P b B b 1
如果存在这样一个区间,称之为置信区间(confidence interval ); 1-称为置信系数(置信度)( confidence coefficient), 称为显著性水平(level of significance); 置信区间的端点称为置信限(confidence limit)或临界 值(critical values)。
在随机误差项 u 的方差 2 估计出后,参数 b1 和b2的方差和标准差的估计量分别是:
b1 Y b2 X
b2 xy x
i 2 i i
(2.16)
(2.17)
(2.16)和(2.17)的OLS估计量的方差和标准误为
2 var (b1) b = 1
se (b1) var (b1)
n xi
2 X i
2 2
var (b2) =
2 b2
x
2
2 i
se (b2) var (b2)
其中 var 表示方差, se 表示标准误, 是
2
扰动项i的方差。
一旦知道了 2,就可以求出等式右边的项, 从而求出OLS的方差和标准误。通常根据 下式估价
2
=
2 e i
ˆ 对其进行估算。如果用
布,而不是正态分布,即
t
b2 B2 ˆ2
2 x i
~ t (n 2)
ˆ
2 e i
n2
在这种情况下用t统计量代替Z 统计量进行检验。
(1)检验
H0:B2 =0,H1:B2 0, 置信区间 法
要判断样本参数的估计值在多大程度上可以“近 似”地替代总体参数的真值,往往需要通过构造 一个以样本参数的估计值为中心的“区间”,来 考察它以多大的可能性(概率)包含着真实的参 数值。这种方法就是参数检验的置信区间估计。
假设2. 解释变量X与扰动误差项u不相关。 Cov(X, u)=0
假设3. 给定Xi,扰动项的期望或均值为零,即: E(u|Xi)=0;
PRF : E(Y|Xi)=B1+B2Xi
扰动项ui的条件分布
假设4. ui的方差为常数,即同方差假定:
Var(ui)=2
PRF : Yi=B1+B2Xi
PRF : Yi=B1+B2Xi
2 2
2
2 e i
n2
2 i
其中 是 的估计量, e 是残差平方和(RSS), 2 即Y的真实值与估计值差的平方和, (Yi Yi ) .
n-2称为自由度,可以理解为独立的观察值 的个数。
数学S.A.T一例的方差和标准误
数学S.A.T一例小结 数学S.A.T一例的估计函数为
0不在这个区间范围内,因此拒绝零假设。 表明收入与数学分数有关系。
(2)假设检验的显著性检验
回归分析是要判断解释变量X是否是被解释变量Y 的一个显著性的影响因素。 在一元线性模型中,就是要判断X是否对Y具有显 著的线性性影响。这就需要进行变量的显著性检 验。 变量的显著性检验所应用的方法是数理统计 学中的假设检验。 计量经济学中,主要是针对变量的参数真值是 否为零来进行显著性检验的。
同方差
异方差
假设5. 无自相关假定,即:
Cov(ui, uj)=0, ij 由该假定可得,Cov(Yi, Yj)=0, ij ,即Y也不相 关。
假设6. 回归模型是正确设定的,即模型不存在设 定误差(错误)无自相关假定,即: Cov(ui, uj)=0, ij
由该假定可得,Cov(Yi, Yj)=0, ij ,即Y也不相关。