第三章多元线性回归-PPT课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ˆ b ˆ x b ˆ x ... b ˆ x yb 0 1 1 2 2 k k
四、拟合优度
与简单线性回归一样,可以定义 2 总平方和: TSS yi y i 2 ˆ RSS y y 解释(回归)平方和: i
ˆi 残差平方和: ESS yi y i 并有:TSS=RSS+ESS
2 ESS n k 1 n 1 (1 R ) 2 R 1 1 TSS n 1 n k 1
注意:R方虽然属于0~1,但调整R方的值却可能是负的。 调整R方为负表明是一个很差的拟合模型。
如:R2=0.1,n=51,k=10,验证一下调整R方=? 其他例子见3.1和3.2
xik
i 1
y
i
多元回归的解释
ˆ b ˆ x b ˆ x ... b ˆ x , 因此 ˆb y 0 1 1 2 2 k k ˆ x b ˆ x ... b ˆ x , ˆ b y
1 1 2 2 k k
所以,如果保持 x2 ,..., xk 固定不变, ˆ x 也就是说每个 b 都具有 ˆ b 意味着y
min
i 1
ˆ b ˆ x ...b ˆ x yi b 0 1 i1 k ik
2
y
i i 1 i1
FOC:
i
ˆ b ˆ x ...b ˆ x =0 b 0 1 i1 k ik
i
x y
......
ˆ b ˆ x ...b ˆ x =0 b 0 1 i1 k ik ˆ b ˆ x ...b ˆ x =0 b 0 1 i1 k ik
第三章
多元线性回归
模型的建立与基本概念
为什么要研究多元回归: 1.多个影响因素; 2.在存在多个影响因素的情况下,分离出“其 他条件不变的情况下”,某一自变量的影响。
一、基本形式
多元线性回归模型:
y = b0 + b1x1 + b2x2 + . . . bkxk + u
与简单线性模型一样,总体线性回归方程为: E(y|x)= b0 + b1x1 + b2x2 + . . . bkxk
三、拟合值与残差
在得到OLS回归线之后,对每次观测都得到一个拟合值(预测 值)。对观测i,其拟合值是:
ˆ b ˆ x b ˆ x ... b ˆ x ˆi b y 0 1 i1 2 i2 k ik
类似的,残差为:
ˆi ei yi y
(1)残差和等于0;残差均值等于0
(2)每个自变量和OLS残差的样本协方差为 0,即不相关 (3)OLS回归线总是经过样本的均值点,即:
例3.1(续)
在解释变量中,额外增加一个解释变量“父亲 受教育程度”。R方由0.0298增加到0.0313; 再增加一个“母亲受教育程度”,增加到 0.0328
调整R方
出现上述问题的原因,在于并没有对增加解释 变量进行“惩罚”。调整R方正是出于这样的 考虑,通过考虑到自变量个数,经自由度调整 而避免了R方的问题。
i 2
ei2
i
RSS ESS R 1 TSS TSS
2
同样表示样本变异中,由OLS回归所解释的部分,由 定义,R方介于0~1之间
例3.1和例3.2(续)
bwght= 1170.46 cigs + 0.09faminc
R2=0.0298 n=1388 也就是说,样本中每日抽烟数量和家庭收入这 两个变量,仅解释了婴儿体重总变异的3%。 price= -18423.4 - 1884.7nox+ 8178.6 rooms R2=0.535 n=506 样本中污染物氧化亚氮排放量和房间数量两个 解释变量,解释了房价变异的53.5%
说明:
1. b0仍是截距项 2. b1 到 bk 都是斜率参数。 3. u还是误差项 4. 仍然需要零条件均值假设: E(u|x1,x2, …,xk) = 0。 5.回归方法仍然采用最小化残差平方和,因此有 k+1个正规方程(回忆简单线性回归中,1个 斜率参数,2个正规方程)。
二、参数估计
ˆ ,b ˆ ... b ˆ b 0 1 k
bwght= 1170.46 cigs + 0.09faminc
例3.2 住房价格
房产的价格(price,千美元)受许多因素的影 响,如社区中的污染量(nox,氧化亚氮)和每 套住房的平均房间个数(rooms)。一个可能的 回归方程为: price=β0+ β1nox+ β2rooms+u 预期系数值如何? 使用HPRICE2.DTA中数据估计上述方程。 price= -18423.4 - 1884.7nox+ 8178.6 rooms
多元拟合优度的一个事实
有关R方的一个事实是,在回归中多增加一个解 释变量,它绝对不会减小,通常会增加。之所 以如此,是因为在模型中多增加一个解释变量, 残差平方和绝对不会增加。 这意味着,我们不能用R方是否增加来判断模型 中是否应该增加一个或几个解释变量。判断的 依据应当是这个解释变量在总体中对y的偏效 应是否非零。
bwght=
b1和
b2的符号最可能是什么?分别表示什么含义?
b0 + b1cigs + b2faminc+u
BWGHT.DTA
解释
1)截距:抽烟量=0,家庭收入=0时婴儿体重 2)-0.46:家庭收入相同的母亲,怀孕期间每 天多抽1支烟,婴儿体重减少0.46盎司。 3)0.09:怀孕期间每天抽烟量相同的母亲, 家庭收入增加1000美元,婴儿体重增加0.09 盎司。 考虑:如果家庭收入增加3000美元,每天抽 烟量减少5支,预计新生儿体重会如何变化?
1 1
“其他条件不变”的自然解释,称为“偏效应”
例:3.1 新生儿体重
卫生部所关心的一个问题是,孕妇在怀孕期间 吸烟对婴儿健康的影响。一种度量方法是婴儿 出生时的体重,过低的体重会使婴儿有感染各 种疾病的危险。由于除了吸烟之外,其他影响 婴儿出生体重的也有许多。比如,高收入通常 会使母亲得到更好的照顾和营养,表达这一点 的一个方程是: