第4章 多元回归分析推断
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
n=285,R 0.243
2
湖大商学院 chen qianli
0.08
11
4.5 多个线性约束的检验:F检验
对排除性约束的检验:想检验一组自变量是否对因变量有影响。 具有k个自变量的不受约束模型:
y 0 1 x1
k xk u
假设有q个排除性约束,即自变量中最后q个变量的系数为零
湖大商学院 chen qianli
12
4.5 多个线性约束的检验:F检验 例:棒球运动员薪水模型:无约束模型估计结果:
ˆ log salary 11.10 0.0689 years 0.12 gamesyr
0.29 0.0121 0.0011
n 353
0.0026 0.0161 0.0072
湖大商学院 chen qianli 3
4.1 OLS估计的抽样分布
定理(正态抽样分布):在CLM假定下,
ˆ Normal j , var j 标准化后的形式为: ˆ j j ˆ X j
sd ˆ
j
Normal 0,1
以上定理的理论基础是多个独立的正态分布的随机变量的 线性组合仍服从正态分布。
H 0 : 1 2 , H1 : 1 2
检验统计量为:
ˆ ˆ 1 2 t ˆ ˆ se 1 2
t n k 1
通常的OLS估计结果难以直接计算以上统计量: log wage 1.43 0.098 jc 0.124univer 0.019 exp er 0.27 0.031 0.035 0.008 不能直接计算出
对此形式的方程进行估计,可以对原假设进行检验。 对其他形式的线性组合,Eviews可以很容易进行检验 变换的方法:
1 1 2
ˆ 1.43 0.026 jc 0.124totcoll 0.019exp er log wage
0.27 0.018 0.035
ˆ j
j
湖大商学院 chen qianli
7
4.2 单个参数的检验:t检验
多元回归模型显著性检验的准则: 检查统计显著性。如果该变量是统计显著的,那就继续讨 论系数的大小,对其实际或经济上的重要性予以认识,在 此注意因变量和自变量出现的形式。 如果一个变量在通常的显著性水平下不是统计显著的,那 你可能要问,此变量对y是否具有预期的影响,而此影响 在实际中是否很大。如果影响很大,对t统计量计算p值。 对小样本容量,有时可以让p值大到0.20。 通常会发现,t统计量很小的变量常具有“错误”的符号, 此时只需得出变量在统计上不显著的结论。一个出乎意料 的符号而在实际中具有很大影响的显著变量,才成为问题 而且难以解决。为了解决此类问题,人们通常要对模型和 数据的性质进行更多的思考,一个违背直觉而又显著的估 计值,常常时因为遗漏了一个关键变量,或内生性问题。
j j j
湖大商学院 chen qianli
6
4.2 单个参数的检验:t检验
对双侧假设检验的p值为: p value Pr t n k 1 t P值很好地总结了经验证据拒绝原假设的强弱。一旦 p值计算出来,在任何显著性水平下都能进行假设 检验,如果用表示检验的显著性水平: 若p值< ,则拒绝原假设,否则不拒绝原假设。 经济或实际显著性与统计显著性: tˆ 一个变量 x j 统计显著性完全由t比率 所决定 一个变量的经济显著性(economic significance) 或实际显著性(practical significance)则由其系 数的大小(及符号)决定。
R 2 0.6278
0.00098bavg 0.0144hrunsyr 0.0108rbisyr SSR 183.186
有约束模型估计结果:
ˆ log salary 11.22 0.0713 years 0.0202 gamesyr
0.11
0.0125
0.0013
n 353, SSR 198.311, R 2 0.5971
F
198.311 183.186 / 3 9.55
183.186 / 347
后三个变量是联合显著的(1%显著水平),但三个变量单 个的t统计量均不显著,说明变量之间存在高度相关。
湖大商学院 chen qianli 13
4.5 多个线性约束的检验:F检验
F统计量的R-平方型: 2 Rur Rr2 / q F 2 1 Rur / n k 1
计算F检验的p值:
p value Pr F q, n k 1 F
湖大商学院 chen qianli
14
4.5 多个线性约束的检验:F检验
湖大商学院 chen qianli 8
4.3 置信区间
在经典线性模型的假定下,可以很容易为总体参数构造出 一定显著性水平下的置性区间。 ˆ 因为: j j
se j
t n k 1
则概率为1-的置信区间为:
ˆ t n k 1 se ˆ , ˆ t n k 1 se ˆ , j j j /2 j j /2
应该注意:此置信区间只有在经典假定下才是合适的。
湖大商学院 chen qianli
9
4.4 参数线性组合假设的检验
以一例说明其方法:log wage 0 1 jc 2univ 3 exp er u 欲检验多一年大专教育与多一年大学教育在其他条件不变 下,是否会导致工资同等程度的增加。
ˆ ˆ se ˆ se 1 2 1
2
ˆ se 2
2
ˆ , ˆ 2 cov 1 2
10
湖大商学院 chen qianli
4.4 参数线性组合假设的检验
log wage 0 1 jc 2 jc univ 3 exp er u
假定MLR.1-MLR.6被称为经典线性模型假定 (CLM),满足此六个假定的模型称经典线性模 型。在CLM假定下,OLS估计量是方差最小的无 偏估计,比高斯-马尔科夫定理的有效性更强。 CLM假定的一种表示方式: 2 y x1 , x2 , , xk Normal 0 1 x1 k xk ,
15
4.6 报告回归结果 如何在论文中报告实证的结果?最好的方法 是多看相关的论文。
湖大商学院 chen qianli
16
4.7 案例研究 A Regression Example: Hedonic House Pricing Models(特征价格模型)
•
•
•
Hedonic models are used to value real assets, especially housing, and view the asset as representing a bundle of characteristics. Des Rosiers and Thé rialt (1996) consider the effect of various amenities on rental values for buildings and apartments 5 sub-markets in the Quebec area of Canada. The rental value in Canadian Dollars per month (the dependent variable) is a function of 9 to 14 variables (depending on the area under consideration). The paper employs 1990 data, and for the Quebec City region, there are 13,378 observations, and the 12 explanatory variables are: LnAGE - log of the apparent age of the property NBROOMS - number of bedrooms AREABYRM - area per room (in square metres) ELEVATOR - a dummy variable = 1 if the building has an elevator; 0 otherwise BASEMENT - a dummy variable = 1 if the unit is located in a basement; 0 otherwise
j
ˆ j
wenku.baidu.com
湖大商学院 chen qianli
5
4.2 单个参数的检验:t检验
双侧备择假设的检验: H0 : j 0, H1 : j 0 拒绝法则: tˆ j t /2 n k 1 一般如果在5%显著性水平下拒绝原假设,称xj是统计上 显著的,否则统计上不显著。 检验单个系数的其他假设: ˆ t ˆ se H0 : j j , 检验统计量: 计算t检验的p值:不同的研究者根据特定的应用,会 偏好不同的显著性水平。与其在不同的显著性水平上 进行检验,不如回答如下更富于信息的问题:给定t统 计量的观测值,能拒绝原假设的最小的显著性水平是 多少?这个水平被称为检验的p值(p-value)。
H0 : k q1 0,
在此假设的受约束模型为: 检验统计量为:
k 0 y 0 1x1 k q xk q v
F q, n k 1
F
SSRr
SSRur
SSRur / q / n k 1
如果拒绝原假设,则说明后q个自变量在一定显著性水平下是联合统计显 著(jointly statistically significant),如果不能拒绝原假设,这些变量 是联合不显著,这为我们将它们从模型中去掉提供了依据。
湖大商学院 chen qianli 2
4.1 OLS估计的抽样分布 假定误差项服从正态分布的理由:将u看成许多影 响y的不可观测因素之和,借助中心极限定理 (CLM)断定u具有近似正态分布。 可能的问题:u中的多个因素可能各有极为不同的分 布,正态近似依赖于u中有多个因素以及它们的分 布不同的程度;假定各不可观测因素以相加的方 式影响y,这点没有保证,如果是复杂的函数形式, CLM可能不适用。 是否可假定u的正态性,实际上是一个经验问题。通 常利用一种变换(特别是取对数)能得到更接近 于正态分布。但有些因变量只取几个值,正态分 布的假设不合适,如某年被逮捕的次数等。
湖大商学院 chen qianli
4
4.2 单个参数的检验:t检验
定理(标准化估计量的t分布)在CLM假定下有:
ˆ j ˆ se j
j
t
n
k 1
在多数应用中,首先且重要的是检验假设 H 0 : j 0 此假设意味着,一旦对其他自变量都作出解释,则xj对y的 ˆ 期望值就没有任何偏效应。 j t ˆ 检验此假设的统计量为t统计量或t比率: ˆ se j 单侧备择假设的检验: ˆ t n k 1 H0 : j 0, H1 : j 0 拒绝法则: t j H0 : j 0, H1 : j 0 拒绝法则: t t n k 1
回归整体显著性的F统计量: 检验所有的解释变量均无助于解释因变量假设: F统计量为:
H0 : 1 2
k 0
R2 / k F 2 1 R 统计量值 / n k 1F 大多数回归软件包都自动报告以上的
检验一般的线性约束:方法相同。
湖大商学院 chen qianli
第四章 多元回归分析:推断
4.1 OLS估计的抽样分布 4.2 单个参数的检验:t检验 4.3 置信区间 4.4 参数线性组合假设的检验 4.5 多个线性约束的检验:F检验 4.6 回归报告的结果 4.7 案例研究
湖大商学院 chen qianli 1
4.1 OLS估计的抽样分布 为了进行统计推断,需要知道参数估计量的抽样 分布,为此对不可观测的误差项的分布进行假设 假定MLR.6(正态性) 2 u x1 , x2 , , xk Normal 0,
2
湖大商学院 chen qianli
0.08
11
4.5 多个线性约束的检验:F检验
对排除性约束的检验:想检验一组自变量是否对因变量有影响。 具有k个自变量的不受约束模型:
y 0 1 x1
k xk u
假设有q个排除性约束,即自变量中最后q个变量的系数为零
湖大商学院 chen qianli
12
4.5 多个线性约束的检验:F检验 例:棒球运动员薪水模型:无约束模型估计结果:
ˆ log salary 11.10 0.0689 years 0.12 gamesyr
0.29 0.0121 0.0011
n 353
0.0026 0.0161 0.0072
湖大商学院 chen qianli 3
4.1 OLS估计的抽样分布
定理(正态抽样分布):在CLM假定下,
ˆ Normal j , var j 标准化后的形式为: ˆ j j ˆ X j
sd ˆ
j
Normal 0,1
以上定理的理论基础是多个独立的正态分布的随机变量的 线性组合仍服从正态分布。
H 0 : 1 2 , H1 : 1 2
检验统计量为:
ˆ ˆ 1 2 t ˆ ˆ se 1 2
t n k 1
通常的OLS估计结果难以直接计算以上统计量: log wage 1.43 0.098 jc 0.124univer 0.019 exp er 0.27 0.031 0.035 0.008 不能直接计算出
对此形式的方程进行估计,可以对原假设进行检验。 对其他形式的线性组合,Eviews可以很容易进行检验 变换的方法:
1 1 2
ˆ 1.43 0.026 jc 0.124totcoll 0.019exp er log wage
0.27 0.018 0.035
ˆ j
j
湖大商学院 chen qianli
7
4.2 单个参数的检验:t检验
多元回归模型显著性检验的准则: 检查统计显著性。如果该变量是统计显著的,那就继续讨 论系数的大小,对其实际或经济上的重要性予以认识,在 此注意因变量和自变量出现的形式。 如果一个变量在通常的显著性水平下不是统计显著的,那 你可能要问,此变量对y是否具有预期的影响,而此影响 在实际中是否很大。如果影响很大,对t统计量计算p值。 对小样本容量,有时可以让p值大到0.20。 通常会发现,t统计量很小的变量常具有“错误”的符号, 此时只需得出变量在统计上不显著的结论。一个出乎意料 的符号而在实际中具有很大影响的显著变量,才成为问题 而且难以解决。为了解决此类问题,人们通常要对模型和 数据的性质进行更多的思考,一个违背直觉而又显著的估 计值,常常时因为遗漏了一个关键变量,或内生性问题。
j j j
湖大商学院 chen qianli
6
4.2 单个参数的检验:t检验
对双侧假设检验的p值为: p value Pr t n k 1 t P值很好地总结了经验证据拒绝原假设的强弱。一旦 p值计算出来,在任何显著性水平下都能进行假设 检验,如果用表示检验的显著性水平: 若p值< ,则拒绝原假设,否则不拒绝原假设。 经济或实际显著性与统计显著性: tˆ 一个变量 x j 统计显著性完全由t比率 所决定 一个变量的经济显著性(economic significance) 或实际显著性(practical significance)则由其系 数的大小(及符号)决定。
R 2 0.6278
0.00098bavg 0.0144hrunsyr 0.0108rbisyr SSR 183.186
有约束模型估计结果:
ˆ log salary 11.22 0.0713 years 0.0202 gamesyr
0.11
0.0125
0.0013
n 353, SSR 198.311, R 2 0.5971
F
198.311 183.186 / 3 9.55
183.186 / 347
后三个变量是联合显著的(1%显著水平),但三个变量单 个的t统计量均不显著,说明变量之间存在高度相关。
湖大商学院 chen qianli 13
4.5 多个线性约束的检验:F检验
F统计量的R-平方型: 2 Rur Rr2 / q F 2 1 Rur / n k 1
计算F检验的p值:
p value Pr F q, n k 1 F
湖大商学院 chen qianli
14
4.5 多个线性约束的检验:F检验
湖大商学院 chen qianli 8
4.3 置信区间
在经典线性模型的假定下,可以很容易为总体参数构造出 一定显著性水平下的置性区间。 ˆ 因为: j j
se j
t n k 1
则概率为1-的置信区间为:
ˆ t n k 1 se ˆ , ˆ t n k 1 se ˆ , j j j /2 j j /2
应该注意:此置信区间只有在经典假定下才是合适的。
湖大商学院 chen qianli
9
4.4 参数线性组合假设的检验
以一例说明其方法:log wage 0 1 jc 2univ 3 exp er u 欲检验多一年大专教育与多一年大学教育在其他条件不变 下,是否会导致工资同等程度的增加。
ˆ ˆ se ˆ se 1 2 1
2
ˆ se 2
2
ˆ , ˆ 2 cov 1 2
10
湖大商学院 chen qianli
4.4 参数线性组合假设的检验
log wage 0 1 jc 2 jc univ 3 exp er u
假定MLR.1-MLR.6被称为经典线性模型假定 (CLM),满足此六个假定的模型称经典线性模 型。在CLM假定下,OLS估计量是方差最小的无 偏估计,比高斯-马尔科夫定理的有效性更强。 CLM假定的一种表示方式: 2 y x1 , x2 , , xk Normal 0 1 x1 k xk ,
15
4.6 报告回归结果 如何在论文中报告实证的结果?最好的方法 是多看相关的论文。
湖大商学院 chen qianli
16
4.7 案例研究 A Regression Example: Hedonic House Pricing Models(特征价格模型)
•
•
•
Hedonic models are used to value real assets, especially housing, and view the asset as representing a bundle of characteristics. Des Rosiers and Thé rialt (1996) consider the effect of various amenities on rental values for buildings and apartments 5 sub-markets in the Quebec area of Canada. The rental value in Canadian Dollars per month (the dependent variable) is a function of 9 to 14 variables (depending on the area under consideration). The paper employs 1990 data, and for the Quebec City region, there are 13,378 observations, and the 12 explanatory variables are: LnAGE - log of the apparent age of the property NBROOMS - number of bedrooms AREABYRM - area per room (in square metres) ELEVATOR - a dummy variable = 1 if the building has an elevator; 0 otherwise BASEMENT - a dummy variable = 1 if the unit is located in a basement; 0 otherwise
j
ˆ j
wenku.baidu.com
湖大商学院 chen qianli
5
4.2 单个参数的检验:t检验
双侧备择假设的检验: H0 : j 0, H1 : j 0 拒绝法则: tˆ j t /2 n k 1 一般如果在5%显著性水平下拒绝原假设,称xj是统计上 显著的,否则统计上不显著。 检验单个系数的其他假设: ˆ t ˆ se H0 : j j , 检验统计量: 计算t检验的p值:不同的研究者根据特定的应用,会 偏好不同的显著性水平。与其在不同的显著性水平上 进行检验,不如回答如下更富于信息的问题:给定t统 计量的观测值,能拒绝原假设的最小的显著性水平是 多少?这个水平被称为检验的p值(p-value)。
H0 : k q1 0,
在此假设的受约束模型为: 检验统计量为:
k 0 y 0 1x1 k q xk q v
F q, n k 1
F
SSRr
SSRur
SSRur / q / n k 1
如果拒绝原假设,则说明后q个自变量在一定显著性水平下是联合统计显 著(jointly statistically significant),如果不能拒绝原假设,这些变量 是联合不显著,这为我们将它们从模型中去掉提供了依据。
湖大商学院 chen qianli 2
4.1 OLS估计的抽样分布 假定误差项服从正态分布的理由:将u看成许多影 响y的不可观测因素之和,借助中心极限定理 (CLM)断定u具有近似正态分布。 可能的问题:u中的多个因素可能各有极为不同的分 布,正态近似依赖于u中有多个因素以及它们的分 布不同的程度;假定各不可观测因素以相加的方 式影响y,这点没有保证,如果是复杂的函数形式, CLM可能不适用。 是否可假定u的正态性,实际上是一个经验问题。通 常利用一种变换(特别是取对数)能得到更接近 于正态分布。但有些因变量只取几个值,正态分 布的假设不合适,如某年被逮捕的次数等。
湖大商学院 chen qianli
4
4.2 单个参数的检验:t检验
定理(标准化估计量的t分布)在CLM假定下有:
ˆ j ˆ se j
j
t
n
k 1
在多数应用中,首先且重要的是检验假设 H 0 : j 0 此假设意味着,一旦对其他自变量都作出解释,则xj对y的 ˆ 期望值就没有任何偏效应。 j t ˆ 检验此假设的统计量为t统计量或t比率: ˆ se j 单侧备择假设的检验: ˆ t n k 1 H0 : j 0, H1 : j 0 拒绝法则: t j H0 : j 0, H1 : j 0 拒绝法则: t t n k 1
回归整体显著性的F统计量: 检验所有的解释变量均无助于解释因变量假设: F统计量为:
H0 : 1 2
k 0
R2 / k F 2 1 R 统计量值 / n k 1F 大多数回归软件包都自动报告以上的
检验一般的线性约束:方法相同。
湖大商学院 chen qianli
第四章 多元回归分析:推断
4.1 OLS估计的抽样分布 4.2 单个参数的检验:t检验 4.3 置信区间 4.4 参数线性组合假设的检验 4.5 多个线性约束的检验:F检验 4.6 回归报告的结果 4.7 案例研究
湖大商学院 chen qianli 1
4.1 OLS估计的抽样分布 为了进行统计推断,需要知道参数估计量的抽样 分布,为此对不可观测的误差项的分布进行假设 假定MLR.6(正态性) 2 u x1 , x2 , , xk Normal 0,