第8章多元回归分析:推断问题
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
为了评估在扣除X2的贡献后X3的增量贡献,我们构造:
新回归元个数 新模型中的参数个数
例子
Q2 Q4
这个F值是高度显著的,表明模型中增加了FLR明显提高了ESS并因 此提高R2值。
F比率还可仅用R2值重新表达出来:
新回归元个数 新模型中的参数个数
第四节
受约束的最小二乘法: 检验线性等式约束条件
如果从(8.5.3)算出的F值大于2%显著水平的F表中的临界F值,我们就拒绝 H0;否则不拒绝。另一种方法是,如果所测的p值足够低,可拒绝H0.
得到一个大于等于73.8325的F值的p值几乎为0,从而拒绝虚拟假设。 如果使用惯常的5%的显著性水平,分子自由度为2和分母自由度为60 (实际为61)的临界F值约为3.15。若用1%的显著性水平,临界F值约 为4.98. 显然,观察到约为74的F值比临界值大得多,则拒绝PGNP和FLR同时 对儿童死亡率都没有影响的假设。
第八章
多元回归分析:推断问题
第八章
多元回归分析:推断问题
◆ 学习目的
理解多元线性回归模型的区间估计 和假设检验。
第八章
多元回归分析:推断问题
◆多元回归中的假设检验 ◆检验个别偏回归系数的假设 ◆检验样本回归的总显著性 ◆检验线性等式约束条件 ◆邹至庄检验
第一节
一、正态性假定
多元回归的假设检验
假定ui 遵循均值为零、方差σ2 为常数的正态分布。
如何判断约束条件是否正确?
一、t检验方法
步骤: 1. 先不考虑约束条件,按通常方法估计,做所谓的无约束或无 限制的回归(unrestricted or unconstrained regression)。 用OLS法估计出了β2 和β3 ,就可通过t检验来检验约束:
2.
3. 如果计算的t值超过选定显著性水平上的临界t值,则拒绝规 模报酬不变的假设;否则不拒绝。
因此,F检验既是所估回归的总显著 性的度量,也是R2 的一个显著性检验。
例
四、检验用R2 表示的多元回归 的总显著性
决策规则
给定k变量回归模型:
假Байду номын сангаас检验:
相对于H1:非全部斜率系数同时为零。 计算: 如果 ,则拒绝H0;否则不拒绝它,其中 是α显著水平、(k-1)个分子自由度和(n-k)个分母自由度的临界F 值。 另一种方法,如果F的p值足够小,即可拒绝H0。
5. 检验所估计的回归模型在时间上或不同横截面单元上的稳定性。
6. 检验回归模型的函数形式。
第二节
例8.1
检验个别偏回归系数的假设
引用假定 ,我们可用t检验统计量对任一个别的偏回 归系数的假设进行检验。考虑儿童死亡率的例子:
修正儿童死亡率例子
在第7章,我们用一个64个国家构成的样本将儿童死亡率对人均GNP和 妇女识字率进行回归。回归结果如下:
二、多元回归中的假设检验:总评
一旦我们走出简单的双变量线性回归模型的范围,假设检验就会以 多种有趣的形式出现: 1. 检验关于个别偏回归系数的假设。 2. 检验所估计的多元回归模型的总显著性,即判明是否全部偏斜 率系数同时为零。
3. 检验两个或多个系数是否相等。
4. 检验偏回归系数是否满足某种约束条件。
前面证明过,偏回归系数的OLS估计量,是最优线性无偏估计量。
此外,估计量 β2 、β3 。 、 本身也是正态分布的,期均值等于β1 、
方差由第7章给出。在标准差的计算中, σ2 由它的无偏估计 代替 时知: 均遵循自由度为n-3的t分布。因为在计算 和 之前,我们要先估计三个偏回归系数, 从而给残差平方和RSS的计算加上了三个约 束。
第7章说过,我们一般不能将R2 值在各个回归元之间分配。在儿童死 亡率的例子中,我们发现R2 为0.7077,但由于这两个回归元在样本 中可能相关,我们不知道哪些属于PGNP的功劳,哪些属于妇女识字 率的功劳。利用协方差分析的方法,可以有更深入的了解。 首先,将儿童死亡率对PGNP回归并评价其显著性,然后在模型中增 加FLR,以判明它是否有任何贡献。
能否用上节逐一检验
答案是否定的。。。
和
的显著性的方法来检验联合假设呢?
我们隐含的假定是每一个显著性检验都是根据一个不同的样本进行的。 如果用同一样本数据去检验联合假设, 和 有可能相关,则违背 了检验方法的基本假定。 怎样检验联立的虚拟假设 呢?
一、检验多元回归的总显著性的方差分析法: F检验
TSS有n-1个自由度,RSS有n-3个自由度,ESS是TSS和RSS的函数,有2个自由度。
二、F检验法:受约束最小二乘法
步骤: 1. 利用 把Cobb-Douglas生产函数写成:
(8.7.7) (8.7.8)
=产出/劳动比率,
=资本/劳动比率,有重要经济意义。
2. 一旦我们从(8.7.8)计算出β3 , β2 很容易从第一个关系式得出。 (8.7.8)所描述的程序被称为受约束的最小二乘法(restricted least squares, RLS) 。
LNEMPLOYMENT LNCAPITAL
R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)
接受域
临界域
实际上,我们不必假定一个特定的α值来进行假设检验,仅使用p值 即可。 本例中的p值是0.0065,其解释为:如果虚拟假设正确,则得到一个 大于等于2.8187的t值的概率仅为0.65%,这个概率比人为选定的 α=5%小得多。 既然推测儿童死亡率与人均GNP负相关,那我们就应该使用单位检 验。即虚拟和对立假设应该是:
二、检验多元回归的总显著性:F检验
决策规则
给定k变量回归模型: 假设检验: 相对于H1:非全部斜率系数同时为零。
计算:
如果 ,则拒绝H0;否则不拒绝它,其中 是α显著水平、(k-1)个分子自由度和(n-k)个分母自由度的临界F 值。 另一种方法,如果F的p值足够低,即可拒绝H0。
三、R2和F之间的一个重要关系式
则在ui 的正态分布假定下以及在虚拟假设
下,变量
(8.5.3)
遵循自由度为2和n-3的F分布。 可以证明,在 再加一个假定 的假定下: ,可以证明:
(8.5.5) (8.5.4)
因此,如果虚拟假设为真,则(8.5.4)和(8.5.5)都将对真实σ2 给出 同样估计。如果虚拟假设错误,即X2 和X3 确实影响Y,则不能在这两 式划等号。
怎样比较无约束和受约束的两个最小二乘回归呢?可通过F检验达到。 令: =无约束回归(8.7.2)的RSS =受约束回归(8.7.7)的RSS m = 线性约束个数 k = 无约束回归中的参数个数 n = 观测次数 于是,
(8.7.10)
注意:
和
分别得自(8.7.2)无约束和(8.7.7)受约束回归的R2 值。
注意:
t检验是基于误差项ui 服从正态分布的假定。我们能够观测到误差项 的代理变量 ,即残差。 对儿童死亡率一例而言,残差直方图为:
第三节
检验样本回归的总显著性
前面两节讨论的是个别的偏回归系数为零假设下的显著性问题,现考 虑如下假设: 该虚拟假设是关于β2 和β3 同时等于零的一个联合假设(joint hypothesis)。对这样一个假设的检验被称作对所估回归线的总显著性 检验(overall significance)。
经济理论有时会提出某一回归模型中的系数满足一些线性等式约 束条件。考察Cobb-Douglas生产函数:
对数形式: , 。 (8.7.2) Y=产出, X2 =劳力投入, X3 =资本投入。 现在如果是规模报酬不变(每一同比例的投入变化有同比例的产 出变化),经济理论将提出:
这就是线性等式约束条件。
假定干扰项ui为正态分布,并且虚拟假设 三变量情形曾看到: 成立,对于
推广到k变量情形,如果假定干扰项是正态分布的,且虚拟假设:
则有:
遵循k-1和n-k个自由度的F分布。 待估参数的总个数为k,其中之一为截距项。
做如下演算:
其中
。
该式可以看出,F和R2是同向变化的。 当R2 =0时,F=0; 当R2 越大,F值也越大。 当R2 =1,F变为无限大。
单位检验的
=1.671,拒绝虚拟假设。
假设检验和置信区间估计之间的关系
β2 的95%置信区间是: 具体到本例变为:
即是:
这样,如果选取了大小同为64的100个样本并构造像(8.4.2)这样的 100个置信区间,则我们预期其中的95个包含着真实总体参数β2 。由 于虚拟假设的零值不落在(8.4.2)区间内,故以95%的置信系数拒 绝虚拟假设β2 =0。 @qtdist(p,v):自由度为v的t统计量的p显著性水平(双尾)。 scalar h1=eq01.@coefs(2)+@qtdist(0.975,61)*@stderrs(2) scalar h2=eq01.@coefs(2)-@qtdist(0.975,61)*@stderrs(2)
例8.3 19551974年墨西哥 经济的CobbDouglas生产 函数
Dependent Variable: LNGDP Method: Least Squares Date: 02/21/12 Time: 16:22 Sample: 1955 1974 Included observations: 20 Variable C Coefficient -1.65242 Std. Error 0.606198 t-Statistic -2.72587 Prob. 0.0144
第一行括号是估计标准差,第二行为假设相关总体系数为零下的t值, 第三行为估计的p值。
接下来我们要检验:PGNP和FLR的系数是否是统计显著的呢? 假设:
虚拟假设表明,保持X3 不变, X2 对Y无影响。利用8.1节给出的t检验:
本例中自由度为61,查表最接近的自由度是60。假设显著性水平α为5%, 则双尾检验的 =2.0(本例中对立建设是双侧的。) 2.8187>2.0,拒绝PGNP对儿童死亡率没有影响的虚拟假设。更明确的 讲,保持妇女识字率不变,人均GNP对儿童死亡率具有显著的负面影 响,这与先验预期完全一致。如图。
所谓贡献,是指增加一个变量到模型中来,是否相对于 RSS“显著地”增加了ESS。把这一贡献称作一个解释变量 的增量(incremental)或边际(marginal)贡献。
假设先做儿童死亡率对PGNP的回归,得到如下结果:
由于p=0.0008,所以这个F值是高度显著的。我们拒绝PGNP对CM没 有影响的假设。这时把X3引入到模型中来,需回答: (1)知道PGNP在模型中和CM有显著关系,FLR的边际贡献为何? (2)FLR的增量贡献在统计上显著吗? (3)根据什么准则把变量加进模型?
例 119个发展中国家1960-1985年的GDP增长率与相对 人均GDP
该模型只解释了GDPG变动的53%。但查F表可得,在5%的显著性 水平上是显著的,p值实际上是0.0425。因此,尽管R2只有0.053, 我们仍能拒绝这两个回归元对回归子没有影响的虚拟假设。
五、解释变量的“增量”或“边际”贡献
表8.8 墨西哥的真实GDP、就业和真实固定资本 年份 1955 1956 1957 1958 1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 GDP 114043 120410 129187 134705 139960 150511 157897 165286 178491 199457 212323 226977 241194 260881 277498 296530 306712 329030 354057 374977 就业 8310 8529 8738 8952 9171 9569 9527 9662 10334 10981 11746 11521 11540 12066 12297 12955 13338 13738 15924 14154 固定资本 182113 193749 205192 215130 225021 237026 248897 260661 275466 295378 315715 337642 363599 391847 422382 455049 484677 520553 561531 609825