第3章 双变量模型:假设检验
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一部分 线性回归 模型
Chp 3 双变量模型:假设检验
主要内容
古典线性回归模型的假定 OLS估计量及其性质 OLS估计量的方差与标准误 OLS估计量的抽样分布(概率分布) 假设检验 拟合优度 正态性检验 预测
3.1
古典线性回归模型
线性回归模型的基本假设
假设1. 回归模型是参数线性的,但不一定是变量 线性; Yi=B1+B2Xi+ui
2 e i
n2
它是关于2的无偏估计量。
ˆ ˆ2
为的估计量,也称为回归标准误, 即Y值偏离估计回归线的标准差。
其作用:P126
在随机误差项 u 的方差 2 估计出后,参数 b0 和b1的方差和标准差的估计量分别是:
2 2 ˆ S / xi 2 b1
b1的样本方差: b1的样本标准差: b0的样本方差:
i i i 2 i 2 i
i
Y xi
x
2 i
kiYi
xi 其中, ki 2 xi
上式用到:
i
x X
i
X 0
1 1 b0 Y b1 X Yi kiYi X Xki Yi wiYi n n 1 其中, wi Xki n
(1)线性性,即它是否是另一随机变量的线性 函数;
(2)无偏性,即它的均值或期望值是否等于总 体的真实值; (3)有效性,即它是否在所有线性无偏估计量 中具有最小方差。
这三个准则也称作估计量的小样本性质。
拥有这类性质的估计量称为最佳线性无偏估计 量(best liner unbiased estimator, BLUE)。
假设2. 解释变量X与扰动误差项u不相关。 Cov(X, u)=0
假设3. 给定Xi,扰动项的期望或均值为零,即: E(u|Xi)=0;
PRF : E(Y|Xi)=B1+B2Xi
扰动项ui的条件分布
假设4. ui的方差为常数,即同方差假定:
Var(ui)=2
PRF : Yi=B1+B2Xi
PRF : Yi=B1+B2Xi
由于最小二乘估计量拥有一个“好”的估计量 所应具备的小样本特性,它自然也拥有大样本特性。 现考察b1的一致性。
P lim b1 P lim B1 ki ui xi ui P lim B1 P lim x2 i B1 P lim xi ui / n P lim xi2 / n
高 斯 — 马 尔 可 夫 定 理 (Gauss-Markov theorem)
在给定经典线性回归的假定下,最小 二乘估计量是具有最小方差的线性无偏估 计量。
(1) 线性性,即估计量b0,b1是关于Yi的线性函数 证:
b1 xy x
i 2 i i
x Y Y x Y x x
假设7. 随机误差项ui具有零均值、同方差 (u2)的正态分布: ui ~ N(0, u2)
3.2—3.3 最小二乘估计量的性质
1. 系数B0, B1的OLS估计 当模型参数估计出后,需考虑参数估计值的 精度,即是否能代表总体参数的真值,或者说需 考察参数估计量的统计性质。 一个用于考察总体的估计量,可从如下几个 方面考察其优劣性:
2 2
即
bi Bi P ( t t ) 1 2 2 sbi
P (bi t sbi Bi bi t sbi ) 1
2 2
于是得到:(1-)的置信度下, Bi的置信区间是
(bi t sbi , bi t sbi )
当不满足小样本性质时,需进一步考察估计 量的大样本或渐近性质: ( 4 )渐近无偏性,即样本容量趋于无穷大时, 是否它的均值序列趋于总体真值; ( 5 )一致性,即样本容量趋于无穷大时,它是 否依概率收敛于总体的真值;
( 6 )渐近有效性,即样本容量趋于无穷大时, 是否它在所有的一致估计量中具有最小的渐近方 差。
Cov X , u B1 B1 Q
3.4 OLS估计量的抽样分布(概率分布)及 随机干扰项方差的估计
1、参数估计量b0ቤተ መጻሕፍቲ ባይዱb1的概率分布 普通最小二乘估计量b0 、 b1分别是Yi的线性组 合,因此, b0和b1的概率分布取决于Y的分布特 征。 在u是正态分布的假设下,Y是正态分布,则b0 、 b1也服从正态分布,因此,
2 i 2 2 i
2
2 n xi2
2
2 2 x nX i
n xi2
2
2
2 X i
2
2 x nX x X x X X 注: i i
(2)证明最小方差性 假设b1*是其他估计方法得到的关于B1的线性无 偏估计量,则: b1* =ciYi
那么,在一次抽样中,参数的估计值与 真值的差异有多大,是否显著,这就需 要进一步进行统计检验。主要内容有:
参数的区间估计;
变量的显著性检验 拟合优度检验。
一、参数的置信区间
回归分析希望通过样本所估计出的参数b1来代 替总体的参数B1 假设检验可以通过一次抽样的结果检验总体参 数可能的假设值的范围(如是否为零),但它 并没有指出在一次抽样中样本参数值到底离总 体参数的真值有多“近”。
在估计的参数b0和b1的方差表达式中,都含有随 机扰动项u的方差2。
由于2实际上是未知的,因此, b0和b1的方差实 际上无法计算,这就需要对其进行估计。 2又称为总体方差。
由于随机项ui不可观测,只能从ui的估计— —残差ei出发,对总体方差进行估计。 可以证明, 2的最小二乘估计量为
ˆ2
2 2
在上述收入-消费支出例中,如果给定 =0.01, 查表得:
t (n 2) t 0.005 (8) 3.355
2
由于
Sb1 0.042
Sb0 98.41
于是,B1、B0的置信区间分别为:
(0.6345, 0.9195) , (-433.32, 226.98)
由于置信区间一定程度地给出了样本参数估 计值与总体参数真值的“接近”程度,因此 置信区间越小越好。 要缩小置信区间,需要
Var b1 Var kiYi ki2Var B0 B1 X i ui
2 xi 2 2 ki Var ui 2 x2 x i i 2
Var b0 Var w iYi w i2Var B0 B1 X i ui 1/ n Xki 2
2
1 2 2 1 2 2 2 Xki X ki n n 1 2 xi 2 X ki X 2 n n x i 1 X2 2 n x2 i
ˆ/ Sb1 S
2 b0 2
b0的样本标准差:
Sb0
x ˆ X / n x ˆ X / n x
2 i 2 i 2 i 2 i
2 i
3.5 假设检验
回归分析是要通过样本所估计的参数来代 替总体的真实参数,或者说是用样本回归 线代替总体回归线。 尽管从统计性质上已知,如果有足够多的 重复 抽样,参数的估计值的期望(均值) 就等于其总体的参数真值,但在一次抽样 中,估计值不一定就等于该真值。
同方差
异方差
假设5. 无自相关假定,即: Cov(ui, uj)=0, ij 由该假定可得,Cov(Yi, Yj)=0, ij ,即Y也不相 关。
假设6. 回归模型是正确设定的,即模型不存在设 定误差(错误)无自相关假定,即:
Cov(ui, uj)=0, ij
由该假定可得,Cov(Yi, Yj)=0, ij ,即Y也不相关。
(1)增大样本容量n。因为在同样的置信
水平下,n越大,t分布表中的临界值越小; 同时,增大样本容量,还可使样本参数估 计量的标准差减小;
(2)提高模型的拟合优度。因为样本参数估计 量的标准差与残差平方和呈正比,模型拟合优度 越高,残差平方和应越小。
二、变量的显著性检验
回归分析是要判断解释变量X是否是被解释变量Y 的一个显著性的影响因素。 在一元线性模型中,就是要判断X是否对Y具有显 著的线性性影响。这就需要进行变量的显著性检 验。 变量的显著性检验所应用的方法是数理统计 学中的假设检验。 计量经济学中,主要是针对变量的参数真值是 否为零来进行显著性检验的。
一元线性模型中,Bi (i=0,1)的置信区间
bi Bi ~ t (n 2) 在变量的显著性检验中已经知道:t s bi
意味着,如果给定置信度(1-),从分布表中 查得自由度为(n-2)的临界值,那么t值处在(-t/2, t/2)的概率是(1- )。表示为:
P(t t t ) 1
其中,ci=ki+di,di为不全为零的常数。则容易 证明, * Var b1 Var b1 同理可证,B0是的最小二乘估计量b0具有最小的方 差。 普通最小二乘估计量(ordinary least Squares Estimators)称为最佳线性无偏估计量(best linear unbiased estimator, BLUE)
P b B b 1
如果存在这样一个区间,称之为置信区间(confidence interval ); 1-称为置信系数(置信度)( confidence coefficient), 称为显著性水平(level of significance); 置信区间的端点称为置信限(confidence limit)或临界 值(critical values)。
2 X 1 i 2 2 b1 ~ N B1 , , b0 ~ N B0 , 2 2 x n x i i
b0和b1的标准差
b
1
x
2
2 i
, b0
2 X i2
n xi2
b1
B1
2. 随机误差项u的方差2的估计
E b1 E B1 ki ui B1 ki E ui B1 E b0 E B0 wi ui B0 wi E ui B0
同样地,容易得出
(3) 有效性(最小方差性),即在所有线性无偏 估计量中,最小二乘法估计量b0, b1具有最小方 差。 (1)先求b0与b1的方差
要判断样本参数的估计值在多大程度上可以 “近似”地替代总体参数的真值,往往需要通 过构造一个以样本参数的估计值为中心的“区 间”,来考察它以多大的可能性(概率)包含 着真实的参数值。这种方法就是参数检验的置 信区间估计。
要判断估计的参数值b离真实的参数值B有多 “近”,可预先选择一个概率(0< <1) ,并求一 个正数 ,使得随机区间 (b-, b+)包含参数的直 值的概率为1- ,即:
(2) 无偏性,即估计是量b0,b1的均值(期望)等 于总体回归参数真值B0,B1。
b1 kiYi ki B0 B1 X i ui B0 ki B1 ki X i ki ui B1 ki ui
注: 故
xi xi X xi X i xi2 xi X 1 ki X i x2 x2 x2 x2 i i i i
Chp 3 双变量模型:假设检验
主要内容
古典线性回归模型的假定 OLS估计量及其性质 OLS估计量的方差与标准误 OLS估计量的抽样分布(概率分布) 假设检验 拟合优度 正态性检验 预测
3.1
古典线性回归模型
线性回归模型的基本假设
假设1. 回归模型是参数线性的,但不一定是变量 线性; Yi=B1+B2Xi+ui
2 e i
n2
它是关于2的无偏估计量。
ˆ ˆ2
为的估计量,也称为回归标准误, 即Y值偏离估计回归线的标准差。
其作用:P126
在随机误差项 u 的方差 2 估计出后,参数 b0 和b1的方差和标准差的估计量分别是:
2 2 ˆ S / xi 2 b1
b1的样本方差: b1的样本标准差: b0的样本方差:
i i i 2 i 2 i
i
Y xi
x
2 i
kiYi
xi 其中, ki 2 xi
上式用到:
i
x X
i
X 0
1 1 b0 Y b1 X Yi kiYi X Xki Yi wiYi n n 1 其中, wi Xki n
(1)线性性,即它是否是另一随机变量的线性 函数;
(2)无偏性,即它的均值或期望值是否等于总 体的真实值; (3)有效性,即它是否在所有线性无偏估计量 中具有最小方差。
这三个准则也称作估计量的小样本性质。
拥有这类性质的估计量称为最佳线性无偏估计 量(best liner unbiased estimator, BLUE)。
假设2. 解释变量X与扰动误差项u不相关。 Cov(X, u)=0
假设3. 给定Xi,扰动项的期望或均值为零,即: E(u|Xi)=0;
PRF : E(Y|Xi)=B1+B2Xi
扰动项ui的条件分布
假设4. ui的方差为常数,即同方差假定:
Var(ui)=2
PRF : Yi=B1+B2Xi
PRF : Yi=B1+B2Xi
由于最小二乘估计量拥有一个“好”的估计量 所应具备的小样本特性,它自然也拥有大样本特性。 现考察b1的一致性。
P lim b1 P lim B1 ki ui xi ui P lim B1 P lim x2 i B1 P lim xi ui / n P lim xi2 / n
高 斯 — 马 尔 可 夫 定 理 (Gauss-Markov theorem)
在给定经典线性回归的假定下,最小 二乘估计量是具有最小方差的线性无偏估 计量。
(1) 线性性,即估计量b0,b1是关于Yi的线性函数 证:
b1 xy x
i 2 i i
x Y Y x Y x x
假设7. 随机误差项ui具有零均值、同方差 (u2)的正态分布: ui ~ N(0, u2)
3.2—3.3 最小二乘估计量的性质
1. 系数B0, B1的OLS估计 当模型参数估计出后,需考虑参数估计值的 精度,即是否能代表总体参数的真值,或者说需 考察参数估计量的统计性质。 一个用于考察总体的估计量,可从如下几个 方面考察其优劣性:
2 2
即
bi Bi P ( t t ) 1 2 2 sbi
P (bi t sbi Bi bi t sbi ) 1
2 2
于是得到:(1-)的置信度下, Bi的置信区间是
(bi t sbi , bi t sbi )
当不满足小样本性质时,需进一步考察估计 量的大样本或渐近性质: ( 4 )渐近无偏性,即样本容量趋于无穷大时, 是否它的均值序列趋于总体真值; ( 5 )一致性,即样本容量趋于无穷大时,它是 否依概率收敛于总体的真值;
( 6 )渐近有效性,即样本容量趋于无穷大时, 是否它在所有的一致估计量中具有最小的渐近方 差。
Cov X , u B1 B1 Q
3.4 OLS估计量的抽样分布(概率分布)及 随机干扰项方差的估计
1、参数估计量b0ቤተ መጻሕፍቲ ባይዱb1的概率分布 普通最小二乘估计量b0 、 b1分别是Yi的线性组 合,因此, b0和b1的概率分布取决于Y的分布特 征。 在u是正态分布的假设下,Y是正态分布,则b0 、 b1也服从正态分布,因此,
2 i 2 2 i
2
2 n xi2
2
2 2 x nX i
n xi2
2
2
2 X i
2
2 x nX x X x X X 注: i i
(2)证明最小方差性 假设b1*是其他估计方法得到的关于B1的线性无 偏估计量,则: b1* =ciYi
那么,在一次抽样中,参数的估计值与 真值的差异有多大,是否显著,这就需 要进一步进行统计检验。主要内容有:
参数的区间估计;
变量的显著性检验 拟合优度检验。
一、参数的置信区间
回归分析希望通过样本所估计出的参数b1来代 替总体的参数B1 假设检验可以通过一次抽样的结果检验总体参 数可能的假设值的范围(如是否为零),但它 并没有指出在一次抽样中样本参数值到底离总 体参数的真值有多“近”。
在估计的参数b0和b1的方差表达式中,都含有随 机扰动项u的方差2。
由于2实际上是未知的,因此, b0和b1的方差实 际上无法计算,这就需要对其进行估计。 2又称为总体方差。
由于随机项ui不可观测,只能从ui的估计— —残差ei出发,对总体方差进行估计。 可以证明, 2的最小二乘估计量为
ˆ2
2 2
在上述收入-消费支出例中,如果给定 =0.01, 查表得:
t (n 2) t 0.005 (8) 3.355
2
由于
Sb1 0.042
Sb0 98.41
于是,B1、B0的置信区间分别为:
(0.6345, 0.9195) , (-433.32, 226.98)
由于置信区间一定程度地给出了样本参数估 计值与总体参数真值的“接近”程度,因此 置信区间越小越好。 要缩小置信区间,需要
Var b1 Var kiYi ki2Var B0 B1 X i ui
2 xi 2 2 ki Var ui 2 x2 x i i 2
Var b0 Var w iYi w i2Var B0 B1 X i ui 1/ n Xki 2
2
1 2 2 1 2 2 2 Xki X ki n n 1 2 xi 2 X ki X 2 n n x i 1 X2 2 n x2 i
ˆ/ Sb1 S
2 b0 2
b0的样本标准差:
Sb0
x ˆ X / n x ˆ X / n x
2 i 2 i 2 i 2 i
2 i
3.5 假设检验
回归分析是要通过样本所估计的参数来代 替总体的真实参数,或者说是用样本回归 线代替总体回归线。 尽管从统计性质上已知,如果有足够多的 重复 抽样,参数的估计值的期望(均值) 就等于其总体的参数真值,但在一次抽样 中,估计值不一定就等于该真值。
同方差
异方差
假设5. 无自相关假定,即: Cov(ui, uj)=0, ij 由该假定可得,Cov(Yi, Yj)=0, ij ,即Y也不相 关。
假设6. 回归模型是正确设定的,即模型不存在设 定误差(错误)无自相关假定,即:
Cov(ui, uj)=0, ij
由该假定可得,Cov(Yi, Yj)=0, ij ,即Y也不相关。
(1)增大样本容量n。因为在同样的置信
水平下,n越大,t分布表中的临界值越小; 同时,增大样本容量,还可使样本参数估 计量的标准差减小;
(2)提高模型的拟合优度。因为样本参数估计 量的标准差与残差平方和呈正比,模型拟合优度 越高,残差平方和应越小。
二、变量的显著性检验
回归分析是要判断解释变量X是否是被解释变量Y 的一个显著性的影响因素。 在一元线性模型中,就是要判断X是否对Y具有显 著的线性性影响。这就需要进行变量的显著性检 验。 变量的显著性检验所应用的方法是数理统计 学中的假设检验。 计量经济学中,主要是针对变量的参数真值是 否为零来进行显著性检验的。
一元线性模型中,Bi (i=0,1)的置信区间
bi Bi ~ t (n 2) 在变量的显著性检验中已经知道:t s bi
意味着,如果给定置信度(1-),从分布表中 查得自由度为(n-2)的临界值,那么t值处在(-t/2, t/2)的概率是(1- )。表示为:
P(t t t ) 1
其中,ci=ki+di,di为不全为零的常数。则容易 证明, * Var b1 Var b1 同理可证,B0是的最小二乘估计量b0具有最小的方 差。 普通最小二乘估计量(ordinary least Squares Estimators)称为最佳线性无偏估计量(best linear unbiased estimator, BLUE)
P b B b 1
如果存在这样一个区间,称之为置信区间(confidence interval ); 1-称为置信系数(置信度)( confidence coefficient), 称为显著性水平(level of significance); 置信区间的端点称为置信限(confidence limit)或临界 值(critical values)。
2 X 1 i 2 2 b1 ~ N B1 , , b0 ~ N B0 , 2 2 x n x i i
b0和b1的标准差
b
1
x
2
2 i
, b0
2 X i2
n xi2
b1
B1
2. 随机误差项u的方差2的估计
E b1 E B1 ki ui B1 ki E ui B1 E b0 E B0 wi ui B0 wi E ui B0
同样地,容易得出
(3) 有效性(最小方差性),即在所有线性无偏 估计量中,最小二乘法估计量b0, b1具有最小方 差。 (1)先求b0与b1的方差
要判断样本参数的估计值在多大程度上可以 “近似”地替代总体参数的真值,往往需要通 过构造一个以样本参数的估计值为中心的“区 间”,来考察它以多大的可能性(概率)包含 着真实的参数值。这种方法就是参数检验的置 信区间估计。
要判断估计的参数值b离真实的参数值B有多 “近”,可预先选择一个概率(0< <1) ,并求一 个正数 ,使得随机区间 (b-, b+)包含参数的直 值的概率为1- ,即:
(2) 无偏性,即估计是量b0,b1的均值(期望)等 于总体回归参数真值B0,B1。
b1 kiYi ki B0 B1 X i ui B0 ki B1 ki X i ki ui B1 ki ui
注: 故
xi xi X xi X i xi2 xi X 1 ki X i x2 x2 x2 x2 i i i i