第3章 双变量模型假设检验

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对于样本回归函数 Y i 432.4138 0.0013 X i
Yi B1 B2 X i ui
3.1 经典线性回归模型的基本假定
假定3.1 回归模型是参数线性的,但不一定是变 量线性的。
假定3.2 解释变量与随机误差项不相关。但是, 如果X是非随机的,则该假定自动满足。
条件回归分析,假定X的取值在重复抽样中是固 定的。
ˆ Y )2 ˆi2 (Y ESS y i
ˆ )2 RSS ei2 (Yi Y i
2 判定系数
ESS 回归平方和 r TSS 总离差平方和
2
RSS 残差平方和 1 1 TSS 总离差平方和
0 r 1
2
判定系数越接近于1,说明样本回归直线拟合 得越好,样本回归直线解释Y的变异的比例越 高。反之,拟合得越差。
5.结论:由于该置信区间没有包含原假设所设 定的参数值,所以,拒绝原假设。
3.5.2 显著性检验法 显著性检验的思想是先姑且认为原假设是真的, 然后根据该假设值,给定的显著性水平、自由 度和具体的样本统计量的值,计算出t统计量 的数值。 根据获得这样一个t统计量数值的概率大小来 决定是接受还是拒绝原假设. 如果这个概率小于给定的显著性水平,就认为小 概率事件发生了,拒绝原假设,认为该统计量在 统计上是显著的,即显著地异于0(只针对 “零”零假设而言)
应变量Y也服从正态分布
OLS估计量是线性估计量,是应变量Y的线性函数 正态分布随机变量的线性 函数也服从正态分布
OLS估计量也服从正态分布
b1
N ( B1 ,
2X2
n x
2
)
b2
N ( B2 ,
x

2 2
)
为什么要推导OLS估计量的抽样分布?
3.5 假设检验
(1)经济意义上的检验
经济意义是由经济理论决定的,主要是参 数的符号和大小是否符合经济理论对这些 参数的符号和大小的约束。如果不符,则 要查找原因并采取必要的修正措施,否则, 参数估计值视为不可靠。
置信区间法的检验步骤为:
1.由于构造的是t统计量,根据给定的显著性水平5%和 自由度n-2,首先可求出t统计量的95%的置信区间.
p(2.036 t 2.036) 0.95
2.将 t
b2 B2
x

2 2
代入上式得
p(2.306
b2 B2
2 x

2
2.306) 0.95
而要计算 Y 需先计算出 b1和b2 b1和b2 的计算是根据以下两个方程得到的,
e2 2 (Y b1 b2 X ) 0 b1
e2 2 (Y b1 b2 X )( X ) 0 b2
Y
这实际上相当于对Y值施加了两个约束条件, 从而其独立的观测值只有n-2个。故残差平方 和的自由度只有n-2
在一元线性模型中,就是要判断X是否对Y具有显 著的线性影响。这就需要进行变量的显著性检验。
计量经计学中,主要是针对变量的参数真值是 否为零来进行显著性检验的。
由于
b2
N ( B2 ,
x 所以可构造Z统计量,
2
2
)
z
b2 B2
2 x

2
N (0,1)
但是由于 2 未知,
用其估计量 2 代替,
var(b1 )
x

2 2 i
2 ( X ) i
n

2
e
2 i
n2
se(b1 ) var(b1 )
var(b2 )
2 x i

2
2 e i 称为残差平方和
n-2
称为自由度 称为回归标准误
se(b2 ) var(b2 )

对于残差平方和自由度的理解
2 e 要计算残差平方和 i 需要先计算出
代t 入
se(b2 ) 0.000245
b2 B2
2 x

2

t 5.4354
2.查t分布表,得知获此t值的概率有多大,即P值
在该例中,通过查表得知,在原假设成立的条件下, 获得这样一个t值的概率只有0.0006
3.通过将获取t值的概率与给定的显著性水平相 比较,决定是否拒绝原假设
所以
i i 2 i i i i 2 2 2 i i i 2 i
i
所以
ye
i i
0
对于Y b1 b2 X 两边同时减去Y, Y Y b1 b2 X Y 由于Y b1 b2 X e Y b 所以Y= n 得Y=b1 b2 X n
1
b n
2
X
Yi
(Y i Y ) yi
Y
Xi
X
x
对于所有样本点,则需考虑这些点与样本 均值离差的平方和,可以证明:
因为
y e b x e b x e b ( X X )e b X e b Xe 又由于 X i ei 0, ei 0
y i b2 xi
假定3.4 同方差假定
Y
var(i | X i ) 2
var(i | X 3 ) 2
var(i | X1 ) 2
X1
X2
X3
X
假定同方差的目的是从不同的子总体中抽取 的Y值都是同样可靠的。因为它们各自的方 差是相等的,其分散程度相同。
相反,如果存在异方差,不同的子总体的方差 不同,那么一般说来,从方差较大的子总体中 抽取的Y值代表性较____。
区分:
离差:变量与其均值的(偏)差 (Y Y )
变异:一个变量对其均值的离差平方和
2 ( Y Y )
2 ( Y Y ) 方差:指离差平方和除以适当的自由度。
d. f .
3.7 回归分析结果的报告
Yi 432.4138 0.0013X i
se (16.9061) (0.000245)
对于b1 Y b2 X
1 b1 Y b2 X Y i yi * X n
无偏性: E(b1 ) B1 ,
E(b2 ) B2,
B1
b1
B2
b2
最小方差性
在所有的线性无偏估计量中,b 的方差最小 1 , b2
OLS估计 量 其它线性无偏 估计量
B1
3.4 OLS估计量的抽样分布
则我们可以构造t统计量,
t b2 B2
2 x

2
t (n 2)
3.5.1 置信区间法 对于回归模型
Y i 432.4138 0.0013 X i
提出零假设和备择假设,
给定显著性水平
H0 : B2 0, H1 : B2 0
5%
置信区间检验的思想是先不去管原假设是怎样假 定的,根据给定的显著性水平、自由度和样本统 计量的具体值构造一个具体的置信区间。 通过观察原假设所设定的参数值是否落在这个置 信区间之内来做出接受或拒绝原假设的判断.
1.总离差平方和的分解
已知由一组样本观测值(Xi,Yi),i=1,2…,n 得到如下样本回归直线
Yi b1 b2 X i
ˆ ) (Y ˆ Y ) e y ˆi yi Yi Y (Yi Y i i i
Y
Yi
ei (Yi Y i )
yi (Yi Y )
t (25.5774) (5.4354)
p值 (5.85*109 ) (0.0006)
r 0.7849 d. f . 8
问题:采用普通最小二乘估计方法,已经保 证了模型最好地拟合了样本观测值,为什么还要 检验拟合程度?
在满足经典线性回归模型的基本假定下,应用 OLS方法可以获得BLUE估计量,即b1,b2是最 优线性无偏估计量,估计量的精度用其标准误 衡量。 拟合优度检验:对样本回归直线与样本观测值 之间拟合程度的检验。
假定3.7:随机误差项服从正态分布
ui
N (0, )
2
中心极限定理:独立同分布的随机变量,随着变 量个数的无限增加,其和的分布趋向于服从正态 分布。 为什么要做这样一个假定,目的何在?
根据中心极限定理 随机误差项服从正 态分布
根据 Y B1 B2 X u 应变量Y是随机误差项 的线性函数 正态分布随机变量的线 性函数也服从正态分布
3.3 OLS估计量的统计性质 高斯· 马尔柯夫定理:如果满足经典线 性回归模型的基本假定,OLS估计量 是最优线性无偏估计量。
何为最优线性无偏估计量?
线性
b1 , b2 是随机变量Y的线性函数。
对于b2 xy x
i 2 i i
xi 令 i 2 x i
则b2 i yi
e n
所以, Y Y b1 b2 X Y 可整理得 y b1 b2 X ( b1 b2 X ) b2 ( X X ) b2 x
各种符号
TSS yi2 (Yi Y )2
总离差平方和(Total Sum of Squares) 回归平方和 (Explained Sum of Squares) 残差平方和(Residual Sum of Squares )
在该例中,给定的显著性水平为5%,而获取此t值的概 率小于0.0006,因而,也小于5%,所以结论是拒绝原假 设。
3.6 拟合优度的检验:判定系数
当我们从总体中抽取了某个样本,根据样 本拟合了回归直线后,可以发现,并不是所有 的样本点都落在了样本回归直线上。 Y
样本回归直线
x
问题:样本回归直线对样本点的拟合优度怎 么样?如何衡量?
X1
X2
X3
X
对于确定性的总体回归函数
E(Y | X i ) B1 B2 X i
实际上就隐含了这一假定 E(u | X i ) 0
E (Y | X i ) E ( B1 B2 X i ui | X i ) E ( B1 B2 X i | X i ) E (ui | X i ) 由于E (ui | X i ) 0 E ( B1 B2 X i | X i ) B1 B2 X i
常用的检验方法主要包括随机误差项的序列 相关检验、异方差检验、解释变量的多重共 线检验以及随机误差项的正态分布检验等。
对回归系数的检验分两种:
置信区间法 显著性检验法 建立原假设和备择假设
H 0 : B2 0 H1 : B2 0
为什么原假设是回 归系数值为0?
变量的显著性检验
回归分析是要判断解释变量X是否是被解释 变量Y的一个显著的影响因素。
3.整理得 p[b2 2.306se(b2 ) B2 b2 2.306se(b2 )] 0.95
这是一个随机区间,意思是抽取100个样本,按这种方 法计算置信区间,将有95个区间包含真实的总体参数.
4.根据手中的样本,可计算出具体的区间为
(0.00074,0.00187)
这是一个具体的区间,它包含真实的总体参数的概率?
(2)统计上的检验
统计检验是由统计理论决定的,其目的在于评定模型 参数估计值的可靠性。应该指出、统计检验准则相对 经济意义准则来说是第二位的。
常用的统计检验有拟合优度检验、t检验、F检 验等。
需要用到估计量的抽样分布或概率分布
(3)计量经济检验
计量经济检验是由计量经济学理论确定的、主 要是用来检验所采用的计量经济方法是否令人满 意、计量经济方法的假设条件是否得到满足、从 而确定统计检验的可靠性。
异方差
Y
var(i | X i ) i 2
var(i | X1 ) 12 var(i | X 3 ) 32
来自百度文库X1
X2
X3
X
假定3.5 无自相关假定, Cov(ui , u j ) 0
i j
ui
ui
ui
uj
uj
uj
3.2 OLS估计量的方差与标准误
OLS估计量是随机变量,这样,就会产生抽样误 差,即不同样本的估计值的差异。
对于回归模型 给定显著性水平:
Y i 432.4138 0.0013 X i
提出零假设和备择假设: H0 : B2 0, H1 : B2 0
5%
显著性检验的步骤:
1.根据原假设和抽取样本的统计量的值,计算t统 计量的值,
b2 0.0013
根 B2 0 据
x

2 2
这一假定的目的是? 斜率系数的含义是它衡量了在其它因素不变的情 况下,解释变量X的变动对Y的变动的影响。 如果解释变量X与随机误差项相关,就无法区分它 们各自对应变量Y的影响。
假定3.3 随机误差项的期望值为0,即 E (u | X i ) 0
Y
E(u | X 3 ) 0
E(u | X1 ) 0
相关文档
最新文档