多元线性回归--数学建模
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ˆ Var( 1 ) ˆ Var( 2 ) x12i (1 r12 ) 2 2 x2i (1 r12 ) 2 r12 2 (1 r12 ) x12i
2
ˆ ˆ Se( 1 ) Var( 1 ) ˆ ˆ Se( 2 ) Var( 2 )
i 1 i 1
i 1
• 根据最小二乘原理, 参数估计值应该是右列 方程组的解
ˆ 0 ˆ 1 ˆ 2 ˆ k
Q 0 Q 0 Q 0 Q 0
• 于是得到关于待估参数的正规方程组:
ˆ ˆ ˆ ˆ ( 0 1 X 1i 2 X 2i k X ki ) Yi ˆ ˆ ˆ ˆ ( 0 1 X 1i 2 X 2 i k X ki ) X 1i Yi X 1i ˆ ˆ ˆ ˆ ( 0 1 X 1i 2 i X 2i k X ki ) X 2i Yi X 2 i ˆ ˆ ˆ ˆ ( 0 1 X 1i 2 X 2i k X ki ) X ki Yi X ki
Yi 0 1 X 1i 2 X 2 i k X ki i
也被称为总体回归函数的随机表达形式。它 的 非随机表达式为:
E (Yi | X 1i , X 2i , X ki ) 0 1 X 1i 2 X 2i k X ki
表示:各变量X值给定时Y的平均响应。
j被称为偏回归系数,表示在其他解释变量
保持不变的情况下,X j每变化1个单位时,Y的 均值E(Y)的变化; 或者说j给出了X j的单位变化对Y均值的 “直接”或“净”(不含其他变量)影响。
总体回归模型n个随机方程的矩阵表达式为:
Y Xβ μ
其中
1 1 X 1
期望扩充菲利普斯曲线:yt=0+1x1t+2x2t+t b10、 1的经济涵义、先验符号?
例1 “期望扩充”菲利普斯曲线估计结果估计值为正,失业率与通胀率同方向?
如果样本函数的参数估计值已经得到,则有:
ˆ ˆ ˆ ˆ ˆ Yi 0 1 X 1i 2 X 2 i ki X Ki
n n
n
i=1,2…n
2
ˆ ˆ ˆ ˆ ˆ Q ei2 (Yi Yi ) 2 (Yi ( 0 1 X 1i 2 X 2i k X ki ))
不会,因为这两个变量的关系是非线性的!!
经典假设的矩阵表示
假设2:
假设3和4:
1 E (UU ) E 2 1 n 2 0 0 0
1 E ( 1 ) 0 E ( ) 0 2 E (U ) E 2 0 n E ( n ) 0
0 1 β 2 k
X 11 X 12 X 1n
X 21 X 22 X 2n
X k1 X k2 X kn n ( k 1 )
( k 1 )1
1 μ 2 n n 1
2
2 1 n E 2 1 n 1
1 2 2 2
n 2
1 n 2n 2 n
0 2 0 2In 0 2
自变量相关程度越高, 参数估计量的方差越大。 当x2和x3完全共线时,方 差趋于无穷。
2
ˆ ˆ Cov( 1i , 2i )
2 x2 i
ˆ
2
ei2
n3
r12
x x x x
1i 2 i 2 1i
2 2i
对有k个解释变量的多元回归模型
对于随机抽取的n组观测值 (Yi , X ji ), i 1,2,, n, j 0,1,2,k
ˆ ˆ ( Y Xβ)(Y Xβ) 0 ˆ β
ˆ X Y X Xβ 0
得到: 于是最小二乘估计量为:
最小二乘估计量的 方差-协方差阵为:
ˆ XY XXβ ——正规方程
ˆ (XX) 1 XY β
⃟随机误差项的方差的无偏估计
可以证明,随机误差项的方差的无偏估 计量为:
lnprice 0 1county 2 size 3elevation 4 sewer 5 date 6 flood 7 dist
lnprice 0 1county 2 size 3elevation 4 sewer
例1 “期望扩充”菲利普斯曲线
菲利普斯曲线表明:通货膨胀率和失业率是反 向变化的。期望扩充菲利普斯曲线增加了预期 通货膨胀率的影响。 1970-1982年美国真实通货膨胀率y(%)、失 业率x1(%)和预期通货膨胀率x2(%)数据 如表,作菲利普斯曲线。 原始菲利普斯曲线:yt=b0+b10x1t+1t
( yi x2i )( x1i ) ( yi x1i )( x2i x1i ) ˆ 2 2 2 2 ( x1i )( x2i ) ( x1i x2i ) ˆ ˆ ˆ 0 y β1 x1 β2 x2
OLS估计量的方差和标准误
ei2 极 0 值 ˆ 0 条 件 ei2 0 ˆ
1
i
i
0
1 1i
2 2i
y nˆ
i
0
ˆ ˆ 1 x1i 2 x2i
ˆ ˆ ˆ yi x1i 0 x1i 1 x12i 2 x1i x2i ˆ ˆ ˆ yi x2i 0 x2i 1 x1i x2i 2 x22i
多元线性回归模型:表现在线性回归模型中的解释变量
有多个。
一般表现形式:
Yi 0 1 X 1i 2 X 2 i k X ki i
i=1,2…,n
其中:k为解释变量的数目,j,j=1,2, „k称为 偏回归系数。
习惯上:把常数项看成为一虚变量的系 数,该虚变量的样本观测值始终取1。于是: 模型中解释变量的数目为(k+1)
假设6:i N(0, 2)
关于多重共线性的进一步说明
如果存在一组不全为零的数1、2、… k,使得: 1x1i+ 2x2i+ …+ kxki=0 不妨设10,则上式可变为:
x1i=-(2x2i+ …+ kxki)/1
称解释变量之间存在完全共线性,此时,某个解释 变量可以写为其它解释变量的线性组合。 2 如果 x3i x2i ,会不会破坏无多重共线假定?
用来估计总体回归函数的样本回归函数为:
ˆ ˆ ˆ ˆ ˆ Yi 0 1 X 1i 2 X 2i ki X ki
样本观测值:
ˆ ˆ ˆ ˆ Yi 0 1 X 1i 2 X 2i ki X ki ei
ei称为残差 (residuals),可看成是对总体 回归函数中随机扰动项i的估计。
假设5:矩阵X的秩等于回归参数的个数(或解释变量 个数加1),R(X)=k+1 , n>k+1
二、多元回归模型的估计问题
偏回归系数的OLS估计 偏回归系数的含义 复判定系数
1. 偏回归系数的OLS估计
ˆ ˆ ˆ ˆ y 二元回归的样本回归函数为:i 0 1 x1i 2i x2i ˆ ˆ ˆ OLS估计: min e 2 min ( y x x ) 2
解此联立方程既可求得参数估计值
ei2 0 ˆ
2
正规方程
求解正规方程组可得:
( yi x1i )( x2i ) ( yi x2i )( x1i x2i ) ˆ 1 12i )( x2i ) ( x1i x2i ) 2 2 ( x
e e ˆ n k 1 n k 1
2
e i2
多元回归最小二乘估计量的性质
在满足基本假设的情况下,其偏回归系数的普通最 小二乘估计仍具有: 线性性、无偏性、有效性。
2. 偏回归系数的含义
二元回归模型为:yi=0+1x1i+2x2i+i
偏回归系数表示了其他因素不变时,相应解释变量对因变量的“净影响”。
解该(k+1) 个方程组成的线性代数方程组,即
,, 可得到(k+1) 个待估参数的估计值 $j , j 012,, k 。
• 将上述过程用矩阵表示如下:
根据极值条件 得到:
ˆ ˆ ˆ ˆ (Y Y β X Y Y Xβ β X Xβ) 0 ˆ β ˆ ˆ ˆ) (Y Y 2Y Xβ βXXβ 0 ˆ β
第三章 多元线性回归模型
多元线性回归模型及其基本假设 多元线性回归模型的估计问题 经典假设满足时的推断问题 多元线性回归模型的延伸 受约束回归
一、多元线性回归模型及其基本 假设
Leslie土地价格例:1968年加州某市想从Leslie公司征一块地建公园,为 了确定一个公平的市场价格,希望做一个回归分析,以便了解有哪些因 素影响这些土地的价值。变量如下: Price:千美元/亩 County:土地所处地区,0-San Mateo,1-Santa Clara Size:土地的规模,亩 Elevation:海拔高度,英尺 为什么用对数? Sewer:据最近排水系统的距离,英尺 用对数后系数的 Date:交易日期,从现在起倒数,月 含义有什么不同 Flood:潮汐是否造成洪水,1-是,0-否 Distance:到Leslie公司的距离,英里(距公司越远,到洛杉矶越近)
5 date 6 flood 7 dist ˆ lnprice 3.10 .16county .015 date .05dist .05elevation
.98 flood .00008 sewer .0003 size
1. 多元线性回归模型
样本回归函数的矩阵表达:
ˆ ˆ Y Xβ
或
e1 e e 2 e n
ˆ Y Xβ e
其中:
ˆ 0 ˆ ˆ 1 β ˆ k
2. 多元回归模型的假设
假设1: x1,x2, … xk是非随机的。 假设2:E(i)=0 i=1,2, …n 假设3:Var(i)=2 (E(ii)= 2 ) 假设4:无序列相关, E(ij)=0 假设5:x诸变量间无准确的线性关系,即:无 多重共线性。数学表示为:不存在一组不全为 零的数1、2、… k,使得: 1x1i+ 2x2i+ …+ kxki=0
2
ˆ ˆ Se( 1 ) Var( 1 ) ˆ ˆ Se( 2 ) Var( 2 )
i 1 i 1
i 1
• 根据最小二乘原理, 参数估计值应该是右列 方程组的解
ˆ 0 ˆ 1 ˆ 2 ˆ k
Q 0 Q 0 Q 0 Q 0
• 于是得到关于待估参数的正规方程组:
ˆ ˆ ˆ ˆ ( 0 1 X 1i 2 X 2i k X ki ) Yi ˆ ˆ ˆ ˆ ( 0 1 X 1i 2 X 2 i k X ki ) X 1i Yi X 1i ˆ ˆ ˆ ˆ ( 0 1 X 1i 2 i X 2i k X ki ) X 2i Yi X 2 i ˆ ˆ ˆ ˆ ( 0 1 X 1i 2 X 2i k X ki ) X ki Yi X ki
Yi 0 1 X 1i 2 X 2 i k X ki i
也被称为总体回归函数的随机表达形式。它 的 非随机表达式为:
E (Yi | X 1i , X 2i , X ki ) 0 1 X 1i 2 X 2i k X ki
表示:各变量X值给定时Y的平均响应。
j被称为偏回归系数,表示在其他解释变量
保持不变的情况下,X j每变化1个单位时,Y的 均值E(Y)的变化; 或者说j给出了X j的单位变化对Y均值的 “直接”或“净”(不含其他变量)影响。
总体回归模型n个随机方程的矩阵表达式为:
Y Xβ μ
其中
1 1 X 1
期望扩充菲利普斯曲线:yt=0+1x1t+2x2t+t b10、 1的经济涵义、先验符号?
例1 “期望扩充”菲利普斯曲线估计结果估计值为正,失业率与通胀率同方向?
如果样本函数的参数估计值已经得到,则有:
ˆ ˆ ˆ ˆ ˆ Yi 0 1 X 1i 2 X 2 i ki X Ki
n n
n
i=1,2…n
2
ˆ ˆ ˆ ˆ ˆ Q ei2 (Yi Yi ) 2 (Yi ( 0 1 X 1i 2 X 2i k X ki ))
不会,因为这两个变量的关系是非线性的!!
经典假设的矩阵表示
假设2:
假设3和4:
1 E (UU ) E 2 1 n 2 0 0 0
1 E ( 1 ) 0 E ( ) 0 2 E (U ) E 2 0 n E ( n ) 0
0 1 β 2 k
X 11 X 12 X 1n
X 21 X 22 X 2n
X k1 X k2 X kn n ( k 1 )
( k 1 )1
1 μ 2 n n 1
2
2 1 n E 2 1 n 1
1 2 2 2
n 2
1 n 2n 2 n
0 2 0 2In 0 2
自变量相关程度越高, 参数估计量的方差越大。 当x2和x3完全共线时,方 差趋于无穷。
2
ˆ ˆ Cov( 1i , 2i )
2 x2 i
ˆ
2
ei2
n3
r12
x x x x
1i 2 i 2 1i
2 2i
对有k个解释变量的多元回归模型
对于随机抽取的n组观测值 (Yi , X ji ), i 1,2,, n, j 0,1,2,k
ˆ ˆ ( Y Xβ)(Y Xβ) 0 ˆ β
ˆ X Y X Xβ 0
得到: 于是最小二乘估计量为:
最小二乘估计量的 方差-协方差阵为:
ˆ XY XXβ ——正规方程
ˆ (XX) 1 XY β
⃟随机误差项的方差的无偏估计
可以证明,随机误差项的方差的无偏估 计量为:
lnprice 0 1county 2 size 3elevation 4 sewer 5 date 6 flood 7 dist
lnprice 0 1county 2 size 3elevation 4 sewer
例1 “期望扩充”菲利普斯曲线
菲利普斯曲线表明:通货膨胀率和失业率是反 向变化的。期望扩充菲利普斯曲线增加了预期 通货膨胀率的影响。 1970-1982年美国真实通货膨胀率y(%)、失 业率x1(%)和预期通货膨胀率x2(%)数据 如表,作菲利普斯曲线。 原始菲利普斯曲线:yt=b0+b10x1t+1t
( yi x2i )( x1i ) ( yi x1i )( x2i x1i ) ˆ 2 2 2 2 ( x1i )( x2i ) ( x1i x2i ) ˆ ˆ ˆ 0 y β1 x1 β2 x2
OLS估计量的方差和标准误
ei2 极 0 值 ˆ 0 条 件 ei2 0 ˆ
1
i
i
0
1 1i
2 2i
y nˆ
i
0
ˆ ˆ 1 x1i 2 x2i
ˆ ˆ ˆ yi x1i 0 x1i 1 x12i 2 x1i x2i ˆ ˆ ˆ yi x2i 0 x2i 1 x1i x2i 2 x22i
多元线性回归模型:表现在线性回归模型中的解释变量
有多个。
一般表现形式:
Yi 0 1 X 1i 2 X 2 i k X ki i
i=1,2…,n
其中:k为解释变量的数目,j,j=1,2, „k称为 偏回归系数。
习惯上:把常数项看成为一虚变量的系 数,该虚变量的样本观测值始终取1。于是: 模型中解释变量的数目为(k+1)
假设6:i N(0, 2)
关于多重共线性的进一步说明
如果存在一组不全为零的数1、2、… k,使得: 1x1i+ 2x2i+ …+ kxki=0 不妨设10,则上式可变为:
x1i=-(2x2i+ …+ kxki)/1
称解释变量之间存在完全共线性,此时,某个解释 变量可以写为其它解释变量的线性组合。 2 如果 x3i x2i ,会不会破坏无多重共线假定?
用来估计总体回归函数的样本回归函数为:
ˆ ˆ ˆ ˆ ˆ Yi 0 1 X 1i 2 X 2i ki X ki
样本观测值:
ˆ ˆ ˆ ˆ Yi 0 1 X 1i 2 X 2i ki X ki ei
ei称为残差 (residuals),可看成是对总体 回归函数中随机扰动项i的估计。
假设5:矩阵X的秩等于回归参数的个数(或解释变量 个数加1),R(X)=k+1 , n>k+1
二、多元回归模型的估计问题
偏回归系数的OLS估计 偏回归系数的含义 复判定系数
1. 偏回归系数的OLS估计
ˆ ˆ ˆ ˆ y 二元回归的样本回归函数为:i 0 1 x1i 2i x2i ˆ ˆ ˆ OLS估计: min e 2 min ( y x x ) 2
解此联立方程既可求得参数估计值
ei2 0 ˆ
2
正规方程
求解正规方程组可得:
( yi x1i )( x2i ) ( yi x2i )( x1i x2i ) ˆ 1 12i )( x2i ) ( x1i x2i ) 2 2 ( x
e e ˆ n k 1 n k 1
2
e i2
多元回归最小二乘估计量的性质
在满足基本假设的情况下,其偏回归系数的普通最 小二乘估计仍具有: 线性性、无偏性、有效性。
2. 偏回归系数的含义
二元回归模型为:yi=0+1x1i+2x2i+i
偏回归系数表示了其他因素不变时,相应解释变量对因变量的“净影响”。
解该(k+1) 个方程组成的线性代数方程组,即
,, 可得到(k+1) 个待估参数的估计值 $j , j 012,, k 。
• 将上述过程用矩阵表示如下:
根据极值条件 得到:
ˆ ˆ ˆ ˆ (Y Y β X Y Y Xβ β X Xβ) 0 ˆ β ˆ ˆ ˆ) (Y Y 2Y Xβ βXXβ 0 ˆ β
第三章 多元线性回归模型
多元线性回归模型及其基本假设 多元线性回归模型的估计问题 经典假设满足时的推断问题 多元线性回归模型的延伸 受约束回归
一、多元线性回归模型及其基本 假设
Leslie土地价格例:1968年加州某市想从Leslie公司征一块地建公园,为 了确定一个公平的市场价格,希望做一个回归分析,以便了解有哪些因 素影响这些土地的价值。变量如下: Price:千美元/亩 County:土地所处地区,0-San Mateo,1-Santa Clara Size:土地的规模,亩 Elevation:海拔高度,英尺 为什么用对数? Sewer:据最近排水系统的距离,英尺 用对数后系数的 Date:交易日期,从现在起倒数,月 含义有什么不同 Flood:潮汐是否造成洪水,1-是,0-否 Distance:到Leslie公司的距离,英里(距公司越远,到洛杉矶越近)
5 date 6 flood 7 dist ˆ lnprice 3.10 .16county .015 date .05dist .05elevation
.98 flood .00008 sewer .0003 size
1. 多元线性回归模型
样本回归函数的矩阵表达:
ˆ ˆ Y Xβ
或
e1 e e 2 e n
ˆ Y Xβ e
其中:
ˆ 0 ˆ ˆ 1 β ˆ k
2. 多元回归模型的假设
假设1: x1,x2, … xk是非随机的。 假设2:E(i)=0 i=1,2, …n 假设3:Var(i)=2 (E(ii)= 2 ) 假设4:无序列相关, E(ij)=0 假设5:x诸变量间无准确的线性关系,即:无 多重共线性。数学表示为:不存在一组不全为 零的数1、2、… k,使得: 1x1i+ 2x2i+ …+ kxki=0