《回归分析——基于R》 第3章 多元线性回归
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2017/8/6
中国人民大学六西格玛质量管理研究中心
17
3.2.4 实例分析
yˆ 320.641 1.317x1 1.650x2 2.179x3 0.006x4 1.684x5 0.010x6 0.004x7 19.131x8 50.516x9
2017/8/6
中国人民大学六西格玛质量管理研究中心
对方程组进行整理得到矩阵形式表示的正规方程组
X ( y X ˆ) 0
移项得
X X ˆ X y
当 (X X )1存在时,得回归参数的最小二乘估计为:
ˆ (X X )1 X y
( X X )1 X X 0 rank( X X ) p 1 rank( X ) p 1 Xn( p1) n p 1
性质4 Gauss-Markov定理 在假定E(y)=Xβ, D(y)=σ2In时,β 的任一线性函数 c 的
最小方差线性无偏估计(Best Linear Unbiased Estimator简记 为BLUE)为 cˆ ,其中c是任一p+1维向量,ˆ 是 β的最小 二乘估计。
达到极小
2017/8/6
中国人民大学六西格玛质量管理研究中心
8
3.2 回归参数的估计
3.2.1 回归参数的普通最小二乘估计
根据求极值的原理,ˆ0, ˆ1, ˆ2, , ˆp 应满足下列方程组
Q
0
0 ˆ0
n
2
i 1
( yi
ˆ0
ˆ1xi1 ˆ2 xi2
Q
1
1 ˆ1
n
2
i 1
( yi
exp(
1
( y - X )( y - X ))
2 2
则对数似然函数为:
ln
L
n 2
ln(2
)
n 2
ln(
2
)
1
2
2
(
y
X
)(
y
X
)
等价于使 ( y X )( y X )达到最小,这与OLSE一致。故在
正态假定下,β 的最大似然估计与OLSE完全相同。但误差
方差的最大似然估计为:
ˆ
2 L
浙江 7552 2110 1552 1228 2997 50197 63374 104.5 3
...
…
…………
…
…
……
… 陕西
…
…………
…
…
……
5551 1789 1322 1212 2079 43073 38564 109.4 3.2
甘肃 4602 1631 1288 1050 1388 37679 21978 108.6 2.7
第三章 多元线性回归
3.1 多元线性回归模型 3.2 回归系数的估计 3.3 有关估计量的性质 3.4 回归方程的显著性检验 3.5 中心化和标准化 3.6 相关阵与偏相关系数 3.7 本章小结与评注
2017/8/6
中国人民大学六西格玛质量管理研究中心
1
3.1 多元线性回归模型
3.1.1 多元线性回归模型的一般形式 y=β0+β1x1+β2x2+…+βpxp+ε
吉林 4635 2045 1594 1448 1643 38407 43415 111 3.7
黑龙江 4687 1807 1337 1181 1217 36406 35711 104.8 4.2
上海 9656 2111 1790 1017 3724 78673 85373 106 3.1
江苏 6658 1916 1437 1058 3078 50639 68347 112.6 3.1
i 1
i 1
ˆ 2 1 SSE 1 (ee)
n p 1
n p 1
ຫໍສະໝຸດ Baidu
n
1 p
1
n i 1
ei2
2017/8/6
中国人民大学六西格玛质量管理研究中心
13
3.2 回归系数的估计
3.2.3 回归系数估计的最大似然法
由 y N(X , 2In ) 可得样本似然函数为:
L (2 )n 2
2
n 2
回归 方程
18
3.3 有关估计量的性质
性质1 ˆ 是随机向量y的一个线性变换。
ˆ (X X )-1 X y
性质2 ˆ 是 β 的无偏估计。
E(ˆ) E(( X X )-1 X y)
( X X )-1 X E( y)
( X X )-1 X E( X ) ( X X )-1 X X
( X X )-1 X 2 X ( X X )-1 2 ( X X )-1 X X ( X X )-1 2 ( X X )-1
当 p=1时即一元线性回归的情况,是上述公式对应的 一个特殊情况,读者不妨自己验证。
2017/8/6
中国人民大学六西格玛质量管理研究中心
20
3.3 有关估计量的性质
ˆ0
ˆ1xi1
ˆ2 xi2
Q
p
p ˆp
n
2 ( yi
i 1
ˆ0
ˆ1xi1 ˆ2 xi2
ˆp xip ) 0 ˆp xip )xi1 0
ˆp xip )xip 0
2017/8/6
中国人民大学六西格玛质量管理研究中心
9
3.2 回归参数的估计
3.2.1 回归参数的普通最小二乘估计
1
在x1保持不变时,有
E( y) x2
2
2017/8/6
中国人民大学六西格玛质量管理研究中心
5
3.1 多元线性回归模型
3.1.3 多元线性回归系数的解释
考虑国内生产总值GDP和三次产业增加值的关系 GDP = x1 + x2+ x3 是确定性的函数关系。
现在利用本章表3-10(见下页)的数据做GDP对第二产 业增加值x2的一元线性回归,得回归方程
data3.1<-read.csv(“D:/data3.1.csv”,head=TRUE) #读取数据 lm3.1<-lm(y~x1+x2+x3+x4+x5+x6+x7+x8+x9,data=data3.1) #建 立回归方程 summary(lm3.1) #输出回归结果及显著性检验结果
表3-1中的数据保存在 文件data3.1.csv中, 该文件存储在D盘
2017/8/6
中国人民大学六西格玛质量管理研究中心
19
3.3 有关估计量的性质
性质3 D(ˆ) 2 ( X X )-1
D(ˆ) cov(ˆ, ˆ)
cov(( X X )-1 X y, ( X X )-1 X y) ( X X )-1 X cov( y, y)(( X X )-1 X )
青海 4667 1512 1232 906 1097 46483 33181 110.6 3.4
宁夏 4769 1876 1193 1063 1516 47436 36394 105.5 4.2
新疆 5239 2031 1167 1028 1281 44576 33796 114.8 3.4
2017/8/6
3.2.1 回归系数的普通最小二乘估计
最小二乘估计要寻找 ˆ0, ˆ1, ˆ2,
,
ˆ
,使得
p
Q(ˆ0 , ˆ1, ˆ2, , ˆp )
n
( yi ˆ0 ˆ1xi1 ˆ2 xi2 ˆp xip )2 i 1
n
min
0 ,1 ,2 ,
, p
i 1
( yi
0
1xi1
2 xi2
p xip )2
(3.1)
2017/8/6
中国人民大学六西格玛质量管理研究中心
2
3.1 多元线性回归模型
3.1.1 多元线性回归模型的一般形式
对于式(3.1)可以写成矩阵形式为
y X
(3.2)
其中,
y1
y
y2
yn
1
X
1
1
x11 x12 x21 x22
xn1 xn2
x1p
x2p
0
2017/8/6
中国人民大学六西格玛质量管理研究中心
15
表 3-1
地区
x1
x2
x3
x4
x5
x6
x7
x8
x9
北京 7535 2639 1971 1658 3696 84742 87475 106.5 1.3
天津 7344 1881 1854 1556 2254 61514 93173 107.5 3.6
河北 4211 1542 1502 1047 1204 38658 36584 104.1 3.7
山西 3856 1529 1439 906 1506 44236 33628 108.8 3.3
内蒙古 5463 2730 1584 1354 1972 46557 63886 109.6 3.7
辽宁 5809 2042 1433 1310 1844 41858 56649 107.7 3.6
中国人民大学六西格玛质量管理研究中心
y
24046 20024 12531 12212 17717 16594 14614 12984 26253 18825 21545
… … 15333 12847 12346 14067 13892
16
3.2.4 实例分析
用 R 软件对数据进行回归分析,计算代码及运行结果 (见下页)如下:
1
xnp n( p1)
p
1
2
n
设计矩阵
2017/8/6
中国人民大学六西格玛质量管理研究中心
3
3.1 多元线性回归模型
3.1.2 多元线性回归模型的基本假定
• 解释变量x1, x2, …, xp是确定性变量,不是随机变量,
且要求rank(X)=p+1<n。
• 随机误差项均值为0且等方差,即高斯-马尔柯夫
E( ) 0 var( ) 2
对n组观测数据 (xi1, xi2,…,xip; yi),i=1,2,…,n, 线性回归模型表示为:
y1 0 1x11 2 x12
y2
0
1x21
2 x22
yn 0 1xn1 2 xn2
p x1p 1 p x2 p 2
p xnp n
得
n
tr(H ) hii p 1
i 1
依据迹的性质 tr(AB)=tr(BA)
2017/8/6
中国人民大学六西格玛质量管理研究中心
11
3.2 回归参数的估计
3.2.2 回归值与残差
yi的残差:ei yi yˆi 残差向量:e y yˆ (I H ) y 残差向量的协方差阵:
D(e) cov(e, e) cov((I H ) y, (I H ) y)
(I H ) cov( y, y)(I H ) 2 (I H ) D(ei ) (1 hii ) 2 ,i 1, 2, , n
2017/8/6
中国人民大学六西格玛质量管理研究中心
12
3.2 回归参数的估计
3.2.2 回归值与残差
n
n
由 E( ei2 ) D(ei ) (n p 1) 2 可得σ2的无偏估计为:
( Gauss-Markov )条件。
• 正态分布的假设条件为:
i
1
~
,
N (0, 2 2 , ,n
) , i 1,2, 相互独立
,n
对于模型式(3.2),该条件可表示为:
此时,
N(0, 2In )
y N(X , 2In)
2017/8/6
中国人民大学六西格玛质量管理研究中心
4
3.1 多元线性回归模型
2017/8/6
中国人民大学六西格玛质量管理研究中心
10
3.2 回归参数的估计
3.2.2 回归值与残差
yˆi ˆ0 ˆ1xi1 ˆ2 xi2 ˆp xip 为观测值yi的回归值;
则对于向量y,其回归值为 yˆ X ˆ (X X )1 X y ,其中
称 H (X X )1 X 为帽子矩阵,主对角线元素记为hii,易
1 SSE n
1 (ee) n
2017/8/6
中国人民大学六西格玛质量管理研究中心
14
3.2.4 实例分析
例3-1 现实生活中,影响一个地区居民消费的因素有很多。本
例选取9个解释变量研究城镇居民家庭平均每人全年的消费 性支出y,解释变量为:x1—居民的食品花费, x2—居民的 衣着花费,x3—居民的居住花费, x4—居民的医疗保健花费, x5—居民的文教娱乐花费,x6—地区的职工平均工资,x7— 地区的人均GDP,x8—地区的消费价格指数,x9—地区的失 业率。本例选取2013年《中国统计年鉴》我国30个省、市、 自治区2012年的数据,以居民的消费性支出(元)为因变量, 以如上9个变量为自变量作多元线性回归。数据见表3-1,其 中,自变量x1~ x7单位为元, x8, x9数字后加%。
yˆ 90.437 2.155x2
此方程的回归系数表示第二产业增加值每增加1亿元,GDP 增加2.155亿元,它不等于1。
为什么? 你能合理 解释嘛?
2017/8/6
中国人民大学六西格玛质量管理研究中心
6
3.1 多元线性回归模型
2017/8/6
中国人民大学六西格玛质量管理研究中心
7
3.2 回归系数的估计
3.1.3 多元线性回归系数的解释
对含有 p 个自变量的多元线性回归而言,每个回归系
数 βi 表示在回归方程中其他自变量保持不变的情况下, 自变量 xi 每增加一个单位时因变量 y 的平均增加幅度。
如 y=β0+β1x1+β2x2+ε,E(y)=β0+β1x1+β2x2
在x2保持不变时,有
E( y) x1