第七讲 多元回归的联合检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ut
受约束模型: 方程(b): yt = 0 + vt 受约束模型表示原假设为真,无约束模 型表示备则假设为真。
多重共线性的检验和处理
多元回归中的假设检验和置信区 间
单个系数的假设检验和置信区间:方法 同一元线性回归。
1。单个系数的假设检验。 需要检测某个回归系数是否显著。
ห้องสมุดไป่ตู้
单个变量的假设检验(大样本假 设下)
单个变量的置信区间(大样本假 设下)
reg testscr str el_pct, robust
Y X β μ
在满足上述经典假设下,系数 的决定为:
ˆ ( X X) 1 X Y β
回归标准误差
对于误差项ui,我们更关心它在回归线附近的离 散程度,即标准差。希望标准差越小越好。 由于ui本身是不可知的,因此,实际上sui是无法 获得的,为了模拟其数值大小,我们用u i 的标准 ˆ 差作为ui的标准差的估计值,称为回归的标准误 差。
1。假设t统计量不相关 F=(1/2)(t12+t22) 即,F统计量是t统计量平方的均值。 原假设下t1和t2为独立的标准正态随机 变量,所以原假设F服从F2,∞分布。如果 ß1或者ß2显著(或者都显著),t12或者 t22很大,检验结果拒绝原假设。
我们可以证明,在一元回归模型中,F统计 量与t统计量存在关系:F≈t2 在经济计量学中,具有大分母自由度的F分 布是很普遍的。当n2变为无限时,F的分母 完全收敛为1,所以我们可以将分布Fn1,n2变 为Fn1,∞
假设6 随机误差项服从正态分布,Y也 服从正态分布。
i ~ N ( 0, )
2
在大样本下,这一假设可以放松为i.i.d.
假设7 不太可能出现大异常值。
总体回归模型n个随机方程的矩阵表达式为
令
1 1 X 1
X 11 X 12 X 1n
X 21 X 22 X 2n
2 2
则称统计量
X n1 F Y n2
服从自由度为n1及 n2 的 F 分布. n1 称为第一自由度,n2 称为第二自由度, 记作: F~F(n1, n2) .
异方差假设下的F检验(大样本)
一。q=2个约束的F统计量。 假设我们想检验式子: ß1=0 且 ß2=0 令t1表示检验原假设ß1=0的t统计量, t2表示检验原假设ß2=0的t统计量。
多元线性回归分析
总体回归模型: Yi 0 1 X1i 2 X 2i ... k X ki ui 总体回归函数 E(Yi | X ) 0 1 X1i 2 X 2i ... k X ki
:
样本回归模型: ˆ ˆ ˆ ˆ Yi 0 1 X1i 2 X 2i ... k X ki ei 样本回归函数
这个问题可以通过估计测试成绩对学生/ 教师比,每个学生所分摊的预算以及英 语学习者百分率的回归来解决。 即解释变量包含三个:学生/教师比,每 个学生所分摊的预算、英语学习者百分 率。
方程中加入每个学生的花费
原因的一种解释是,在这些加利福尼亚学区的 数据中,学校管理者有效地分配了预算。 假设,与事实相反,上式中STR的系数取大的 负值。如果是这样的话,学区可以通过减少其 他用途(教材、技术、运动等等)的资金而将其 用于雇用更多的教师以便在费用固定情况下通 过降低班级规模来提高测试成绩。 但是,上式中STR的系数较小且统计上不显著, 表明资金的这种转移对测试成绩几乎没什么影 响。换言之,学区内的资金分配已经很有效了。
ˆ (Yi Yi ) 2 RSS 2 2 2 i 1 ˆ uˆ SER Se n k 1 n k 1 n k 1
ui2 ˆ
n
E (Se ) u
2
2
多元回归的拟合优度
总离差平方和的分解
TSS yi2 (Yi Y ) 2
总体平方和(Total Sum of Squares) 回归平方和(Explained Sum of Squares) Sum of Squares )
2。假设t统计量相关
原假设依然服从F2,∞分布。
二。q个约束的F统计量。
可以证明,原假设服从Fq,∞分布。
利用F统计量计算p值
―总”回归的F统计量
―总”回归的F统计量检验了所有斜率系 数为零的联合假设。假设方程有k个变量。
可以证明,原假设服从Fk,∞分布。
应用实例一: 1。回归方程必须要加robust选项。 2。检验命令用test (Wald检验)
如果不满足假设三,我们称误差项存在 自相关:非主对角线上的元素不为0 。
. n 1
2
.
2
.. ... ... ...
n2
n2 . 2
n 1
假设4 所有的解释变量Xi为确定性变量,与随
机误差项彼此之间不相关。
2
定义: 设 X 1, X 2 ,, X n 相互独立, 都服从正态
分布N(0,1), 则称随机变量: 所服从的分布为自由度为 n 的 分布.
2
X X2 Xn
2 2 1 2
2
记为
~ (n)
2 2
F 分布
定义: 设 X ~ (n1 ), Y ~ (n2 ), X与Y相互独立,
i 1, 2,...n
假设2 对于解释变量的所有观测值,随机 误差项有相同的方差。
Var ( i ) E ( )
2 i 2
i 1, 2,...n
假设3
随机误差项彼此之间不相关
Cov( i , j ) E ( i j ) 0
i j i, j 1,2,, n
拟合优度的取值范围:[0,1] R2越接近1,说明实际观测点离样本线越
近,拟合优度越高。
由于每次向回归方程中增加解释变量, R2必然只增不减。为此,可以通过调整 自由度对解释变量过多进行“惩罚”, 因此,可以定义 R2 “调整的拟合优度”
RSS / (n k 1) R 1 TSS / (n 1)
1 0 0 0
1 2 0 1 3 2 0 0 2 0 0 0
4 1 1 2 , 0 1 3 0 0 0 0 0
0 0 0 0
0 2 2 0
4 2 3 4
可以证明:若X是满秩的,则X’和X’X均 是满秩的,即X’X非奇异,因此可求逆。 若X不是满秩的,则X’和X’X均不是满秩 的。此时由于│X’X│=0,所以其逆矩 阵不存在,OLS将失效。
单个变量的假设检验(小样本假设下)
(1)对总体参数提出假设 H0: i=0,
ˆ i t S ˆ i
H1:i0
(2)以原假设H0构造t统计量,并由样本计算其值
(3)给定显著性水平,查t分布表,得临界值t /2(n-k-1)
(4) 比较,判断 若 |t|> t /2(n-k-1),则拒绝H0 ,接受H1 ;
多元回归分析使学区负责人相信,基于 目前的证据,缩小学区内的班级规模有利于 提高测试成绩。但她现在又提出了有点细微 差别的问题。即如果她雇用了更多的教师, 则她要么通过缩减预算内的其他开支(不再购 买新的计算机,降低维修费等等),要么要求 增加预算(显然不是纳税人喜欢的)来支付这 些教师的工资。因此她问到,如果保持每个 学生所分摊的预算(和英语学习者百分率)不 变那么降低学生/教师比对测试成绩的效应是 多少?
若
|t| t /2(n-k-1),则拒绝H1 ,接受H0 ;
单个变量的置信区间(小样本假设下)
i的置信区间是
( i t s , i t s )
2 i 2 i
reg testscr str el_pct
我们可以看出,大样本假设和小样本假 设下同一个回归的系数完全一样,但标 准误和t值、置信区间完全不同。
满足经典假设的u的方差协方差矩阵
2 0 . 0 0 .. ... ... ... 0 0 . 2
.
2
0
如果不满足假设二,我们称误差项存在 异方差:Var(u)主对角线上的元素不相 等。 12 0 .. 0 2 0 2 ... 0 . . ... . 2 0 0 ... n
reg testscr str expn el_pct,robust test (str=0) (expn=0)
应用实例二:
reg testscr str expn el_pct,robust test (str=0) (expn=0)(el_pct=0) 或者简单写成:test str expn el_pct 结果和stata呈现的F值相同。
:
ˆ ˆ ˆ ˆ ˆ Yi 0 1 X1i 2 X 2i ... k X ki
多元线性回归模型的基本经典假定
E 假设1 随机误差项具有零均值。 ( i ) 0
1 E ( 1 ) E (μ) E 0 E ( ) n n
X k1 X k2 X kn n ( k 1 )
0 1 β 2 k ( k 1)1
Y 1 Y 2 Y Yn
原方程可以简写为
1 μ 2 n n 1
纳税人的假设是个联合假设,因此我们 需要用新的工具F统计量来检验它。
联合检验
称方程附加了两个约束
为什么不能使用t检验
虽然看似可以通过利用常用t统计量一次 检验一个约束来检验联合假设,但这种 方法是不可靠的。具体地,假设你想检 验式子: ß1=0 且 ß2=0 令t1表示检验原假设ß1=0的t统计量, t2表示检验原假设ß2=0的t统计量。
同方差适用F统计量
当检验被解释变量yt与一组解释变量x1, x2 , ... , xk是否存在回归关系时,给出的 零假设与备择假设分别是 H0:1 = 2 = ... = k = 0 ; H1:i , i = 1, ..., k不全为零。
检验思路:(所有参数联合检验) 无约束模型为: 方程(a) yt = 0 +1x1t + 2x2t +…+ kx k t +
假设t统计量相互独立: 拒绝原假设概率公式为: 1-0.952=9.75% 这种“一次一个”的方法给了你太多的 机会,也就是当你用第一个t统计量无法 拒绝时,你还可以尝试使用第二个t统计 量,所以过多地拒绝了原假设。 若回归变量相关,则情况要更复杂。
χ2 分布和F分布
分布是由正态分布派生出来的一种分布.
ˆ ˆ ESS yi2 (Yi Y ) 2
2 i
ˆ ) 2 残差平方和(Residual RSS e (Yi Yi
可以推导:
TSS=ESS+RSS
可决系数R2统计量
ESS RSS R 1 TSS TSS
2
称 R2 为(样本)的可决系数/判定系数/拟合优 度(coefficient of determination)。
Cov ( Xij , uj ) 0 i 1, 2, , k j 1, 2, , n
假设5 解释变量Xi之间不存在精确的线形 关系,即解释变量的样本观测值矩阵X是 满秩矩阵,应满足关系式: rank(X)=k+1<n 可以理解为各X之间互不相关(无多重共 线性),或者说,其中一个解释变量不 能写成其他解释变量的线性组合。
2
即对于每一个系数,满足:
ˆ E( i) i
ˆ i) ˆi 2 Var(
最小二乘估计量的性质
在满足基本假设的情况下,最小二乘估 计量具有:线性性、无偏性、有效性(最 小方差性)(BLUE特性)。 高斯—马尔可夫定理(Gauss-Markov theorem) 在满足基本经典线性回归的假定下,最小 二乘估计量是具有最小方差的最优线性无偏 估计量。