多元线性回归模型及其参数估计多元线性回归的显著性-
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
由于 E(ˆj ) j ;var(ˆj)Cjj2;
故可得的置信度为1 的置信区间为:
[ˆ j t 2 ( n k 1 )C jjˆ 2 ,ˆ j t 2 ( n k 1 )C jjˆ 2 ]
统计软件自动给出各回归系数的上下限
七、例2.1 年份 消费 收入 人口 已知某地区的相关数据如右表所示, 1994 9 13.1 48.2
(5)进一步假定 i ~N(0,σ2) 即 ~N(0,2In)
其中 I n 是 n 阶单位方阵
(6)ra(X n) kkn各自变量之间不存在显著相关关系
预测模型
y ˆ ˆ0 ˆ 1 x 1 i ˆ2 x 2 i ˆk x k i
ei Yi Yˆi 是观测值与预测值(回归值)之间的离差
三、参数估计方法—最小二乘估计
用最小二乘法估计回归参数 0,1,,k
考虑 Q eQ (0,1, ,k)
n
(yi01xi1 kxik)2
使
i1
Q (ˆ 0 ,ˆ 1 , ,ˆ k ) m Q (0 i,n 1 , ,k )
分别求 Q e 关于 0,1,,k的偏导数,并令其为零
四、最小二乘估计量(OLSE)的统计性质
与一元线性回归相比, k 元线性回归的参数估计量也
有类似的性质.例如:ˆ0,ˆ1,,ˆk 都是 y1,y2,,yn 的线性组合; ˆ0,ˆ1,,ˆk 分别是 0,1,,k
的无偏估计; B ˆ~N (B , 2(XTX) 1)等.且
给定置信水平 1 ,置信区间为
Y ˆ0 t2(n k 1 )ˆ 1 X 0 (X T X ) 1 X 0 T
其中, t α 是自由度为年n-k-1的t分布临界值。
2.4 解释变量的选择
一、因素分析
因素分析是一种定性分析。它是预测时选择自 变量的第一步。凭借对预测对象的熟悉、了解,分 析找到影响预测对象的所有因素,从中选择。
界值3.201,所以回归系数均显著。 (3)DW 1.95在6 2附近,不存在序列相关。
2.3 利用多元线性回归方程进行预测
一、点预测
当给定自变量的某一特定值为 X 0(1 ,x10,x20, ,xk0)
对因变量进行点估计为 y ˆ0ˆ0ˆ1 x 1 0ˆkxk0
用矩阵表示为 Yˆ0 X0B 。 二、区间预测
R2 1SSE nk1 SST n1
其中n-k-1为残差平方和的自由度,n-1为总离差平方 和的自由度。显然,如果增加的解释变量没有解释能 力,则对残差平方和的减少没有多大帮助,却增加待 估参数的个数,从而使 R 2 有较大幅度的下降。
2.修正判定系数 R 的计算
R21(1R2) n1 nk1
(1)当不显著的变量较多时,不能同时剔除,要 从最小的那个系数所对应的变量开始逐一删除。
(2)删除一个变量后腰观察其他统计量的变化, 如果有所改善,认为剔除是适宜的;否则应保留在 模型中。
检验不再一致,需要分别进行; 序列相关检验与一元回回归是一致的。
七、续例2.2,给定显著性水平 0.05,进行检验
解:根据运行结果 (1) R.7. 方程的拟合优度较高; (2) F 1.8 9 8 4 4 .2 8 8 F 6 . (2 ,9 ) 方程通过显著性检验; (4)回归系数的显著性检验 tβ ˆ. tβ ˆ.,均大于临
V a r(ˆj)2(X TX ) 1jj2 C jj ( j0,1,2, ,k)
其中,C jj 是 (X T X )1主对角线上的元素。 可以证明, ˆ j 具有最小方差的特性。(证明略)
五、随机误差项的方差的估计量
和一元线性回归类似有平方和分解
n
n
ST (yiy)2 (yiyˆi)2
二、简单相关分析 分别计算预测对象与各影响因素的简单相关
系数,选择那些与预测对象相关程度高者作为自 变量。
三、逐个剔除法(后退法)
首先将与预测对象有关的全部因素引入方程, 建立模型,然后依据每个回归系数的t值大小,逐 个剔除那些不显著的变量,直到模型中包含的变 量都是影响预测对象的显著因素为止。
注意:
Qe Qe 0
0 BBˆ
k BBˆ
整理得正规方程组
n
n
n
nˆ0 ˆ1 xi1 ˆk xik yi
n
i1 n
i1
i1
n
n
Fra Baidu bibliotek ˆ0
i1
xi1
ˆ1
i1
xi21
ˆk
i1
xi1xik
二、拟合优度检验 1.判定系数 R 与修正判定系数 R
判定系数的大小还取决于包含在模型中的自变量 的个数。
R2
((Y Y ˆii Y Y))2 21
(Yi Y ˆi)2 (Yi Y)2
在样本容量一定得情况下,增加解释变量必定使 得自由度减少,所以调整的思路是将残差平方和与 总离差平方和分别除以各自的自由度,以剔除变量 个数对拟合优度的影响。记为调整的可决系数。
可见,多元回归分析是以多个解释变量的固定值 为条件的回归分析,表示各解释变量X值固定时Y 的平均响应。
也被称为偏回归系数,表示在其他解释变量保
j
持不变的情况下,X
每变化1个单位时,引起的
j
因变量的平均变动量。或者说
j
给出 X
单位变
j
化对Y均值的“直接”或“净”(不含其他变量)
影响。
y 0 1 x 1 2 x 2 k x k
注: (1)如果k=0,则 R R2 (2)如果k>0,则 RR (3)R 2 有可能为负值。
三、回归方程的显著性检验
1. 检验内容:检验因变量和所有自变量的线性关系。 2. 建立原假设和备择假设:
H :β β β k H :β i不0 全为
3. 构造统计量 FM SR SSRk ~F(k,nk1)
二、多元回归模型的基本假定
(1)E [i|x1i,x2i, xki]0 i,, ,n
(2)V a r(i|x 1 i,x2 i,...,xki)2 i,, ,n 等方差性 (3)C o v (i,j) 0i j,i,j 1 ,2 , ,n 无序列相关
(4) C o v (i,X i) 0i 1 ,2 , ,n
i1
i1
n
(yˆi y)2 QeS回 i1
而 Qe ~2(nk1) 2
从而
EQe2
nk
1
E Qe 2
nk 1
2 的无偏估计为
n
ˆ2 Qe
(yi yˆi)2 i1
nk1 nk1
它的算术方根称为估计标准误差,记为:
写成矩阵形式为:YXBε
其中
y1
Y
y
2
yn
1 x11 x21 X 1 x12 x22
1 x1n x2n
xk1
xk
2
0
B
1
xkn
k
1
ε
2
n
实际上,在多元线性回归分析中,比一元线性回归 分析增加了一个假设条件,即自变量之间不存在线 性关系。
第二章 多重回归分析法
2.1 多元线性回归模型及其参数估计 2.2 多元线性回归的显著性检验 2.3 利用多元线性回归方程进行预测 2.4 解释变量的选择 2.5 多重共线性 2.6 预测实例
2.1 多元线性回归模型及其参数估计
一、线性回归模型的一般形式
如果因变量(被解释变量)与各自变量(解释变量) 之间有线性相关关系,那么它们之间的线性总体回归 模型可以表示为:
试求该回归方程。 解:使用Eviews实现回归,得到的方
2019 2019 2019
9.5 10 10.6
13.9 13.8 14.8
48.9 49.54 50.25
程为
2019 2019
13.4 16.2
16.4 20.9
51.02 51.84
y ˆi . . x i .x i 2000 17.7 24.2 53.76
四、回归系数的显著性检验
1. 检验内容:检验因变量和每个自变量的线性关系。
2. 建立原假设和备择假设:
H 0 :β i 0 H 1 :β i 0i 1 ,2 ,,k
3.
构造统计量
tβˆi
βˆi S(βˆi)
~t(nk1)
4.在显著性水平 条件下的临界值 tα( 2 nk1)
5.判断:如果采用样本数据计算的结果 tˆi , tα(nk) 则拒绝原假设,认为因变量和该自变量之间的线性关
y 0 1 x 1 2 x 2 k x k
对每一组观测值
y i 0 1 x 1 i 2 x 2 i k x k i i
i1,2, ,n
非随机表达式
E ( Y x 1 i,x 2 i,,x k i) 0 1 x 1 i 2 x 2 i k x k i
2019 20.1 28.1 53.69
这说明,该地区收入每增加1万元, 2019 21.8 30.1 54.55
消费增加0.497万元,人口每增加1 2019 25.3 35.8 55.35
万人消费增加0.665万元。
2019 2019
31.3 36
48.5 54.8
56.16 56.98
2.2 多元线性回归的显著性检验
i1
xi1 yi
n
n
n
n
ˆ0 i1 xik ˆ1 i1 xikxi1 ˆk i1 xi2k i1 xik yi
其矩阵形式为
XTXB ˆXTY
解得
B ˆ(XTX)1XTY
所以多元线性回归方程的矩阵形式为
Y ˆX B ˆX (X TX ) 1X TY
系显著。
t检验通不过的可能原因
(1)选择的自变量对因变量事实上并无显著影响; (2)选择的自变量具有多重共线性。
五、序列相关检验(DW检验)
1. 检验内容:检验随机误差项的无序列相关假设 是否成立。
2. 方法:与一元回归相同。
六、多元回归的显著性检验小结
拟合优度的检验需要采用修正判定系数; 回归方程的显著性检验和回归系数的显著性
一元回归的参数估计是多元回归参数估计的特例。
n
Q ei2 min i1 (YXB )('YXB ) (Y'B'X')(YXB ) Y'YY'XBB'X'YB'X'XB
根据:( AB) ' B ' A', (Y ' XB) ' B ' X 'Y 所以:Y ' XB与B'X'Y 是同值 Q 2X 'Y 2X'XB=0 B B ( X'X )1X'Y
M SE SSEnk-1
4. 在显著性水平 条件下的临界值 F(k,nk1)
5. 判断:如果采用样本数据计算的结果 FF(k,nk2), 则拒绝原假设,认为因变量和该自变量之间的线性关 系显著。
F检验通不过的可能原因
(1)选择自变量时漏掉了某些有重要影响 的因素;
(2)自变量与因变量的关系是非线性的。
一、经济检验 二、拟合优度检验 三、回归方程的显著性检验 四、回归系数的显著性检验 五、序列相关检验
一、经济检验(逻辑检验)
1. 检验内容:参数估计值的符号和大小是否与 经济理论和经济实际相符合。 2. 回归系数的估计值与实际相反的原因 (1)某些变量的取值范围太窄;
(2)模型中遗漏了某些重要因素; (3)模型中自变量之间有较强的线性关系。
n
ˆ
Qe
(yi yˆi)2
i1
nk1 nk1
此时,估计量的标准差可表示为:
n
ˆˆj Sˆj
Var(
ˆ j
)
Cjjˆu2
(yi yˆi)2
Cjj
i1
nk1
C j j 是 (X T X )1主对角线上的元素(j=0,1,…,k)。
六、回归系数的置信区间
故可得的置信度为1 的置信区间为:
[ˆ j t 2 ( n k 1 )C jjˆ 2 ,ˆ j t 2 ( n k 1 )C jjˆ 2 ]
统计软件自动给出各回归系数的上下限
七、例2.1 年份 消费 收入 人口 已知某地区的相关数据如右表所示, 1994 9 13.1 48.2
(5)进一步假定 i ~N(0,σ2) 即 ~N(0,2In)
其中 I n 是 n 阶单位方阵
(6)ra(X n) kkn各自变量之间不存在显著相关关系
预测模型
y ˆ ˆ0 ˆ 1 x 1 i ˆ2 x 2 i ˆk x k i
ei Yi Yˆi 是观测值与预测值(回归值)之间的离差
三、参数估计方法—最小二乘估计
用最小二乘法估计回归参数 0,1,,k
考虑 Q eQ (0,1, ,k)
n
(yi01xi1 kxik)2
使
i1
Q (ˆ 0 ,ˆ 1 , ,ˆ k ) m Q (0 i,n 1 , ,k )
分别求 Q e 关于 0,1,,k的偏导数,并令其为零
四、最小二乘估计量(OLSE)的统计性质
与一元线性回归相比, k 元线性回归的参数估计量也
有类似的性质.例如:ˆ0,ˆ1,,ˆk 都是 y1,y2,,yn 的线性组合; ˆ0,ˆ1,,ˆk 分别是 0,1,,k
的无偏估计; B ˆ~N (B , 2(XTX) 1)等.且
给定置信水平 1 ,置信区间为
Y ˆ0 t2(n k 1 )ˆ 1 X 0 (X T X ) 1 X 0 T
其中, t α 是自由度为年n-k-1的t分布临界值。
2.4 解释变量的选择
一、因素分析
因素分析是一种定性分析。它是预测时选择自 变量的第一步。凭借对预测对象的熟悉、了解,分 析找到影响预测对象的所有因素,从中选择。
界值3.201,所以回归系数均显著。 (3)DW 1.95在6 2附近,不存在序列相关。
2.3 利用多元线性回归方程进行预测
一、点预测
当给定自变量的某一特定值为 X 0(1 ,x10,x20, ,xk0)
对因变量进行点估计为 y ˆ0ˆ0ˆ1 x 1 0ˆkxk0
用矩阵表示为 Yˆ0 X0B 。 二、区间预测
R2 1SSE nk1 SST n1
其中n-k-1为残差平方和的自由度,n-1为总离差平方 和的自由度。显然,如果增加的解释变量没有解释能 力,则对残差平方和的减少没有多大帮助,却增加待 估参数的个数,从而使 R 2 有较大幅度的下降。
2.修正判定系数 R 的计算
R21(1R2) n1 nk1
(1)当不显著的变量较多时,不能同时剔除,要 从最小的那个系数所对应的变量开始逐一删除。
(2)删除一个变量后腰观察其他统计量的变化, 如果有所改善,认为剔除是适宜的;否则应保留在 模型中。
检验不再一致,需要分别进行; 序列相关检验与一元回回归是一致的。
七、续例2.2,给定显著性水平 0.05,进行检验
解:根据运行结果 (1) R.7. 方程的拟合优度较高; (2) F 1.8 9 8 4 4 .2 8 8 F 6 . (2 ,9 ) 方程通过显著性检验; (4)回归系数的显著性检验 tβ ˆ. tβ ˆ.,均大于临
V a r(ˆj)2(X TX ) 1jj2 C jj ( j0,1,2, ,k)
其中,C jj 是 (X T X )1主对角线上的元素。 可以证明, ˆ j 具有最小方差的特性。(证明略)
五、随机误差项的方差的估计量
和一元线性回归类似有平方和分解
n
n
ST (yiy)2 (yiyˆi)2
二、简单相关分析 分别计算预测对象与各影响因素的简单相关
系数,选择那些与预测对象相关程度高者作为自 变量。
三、逐个剔除法(后退法)
首先将与预测对象有关的全部因素引入方程, 建立模型,然后依据每个回归系数的t值大小,逐 个剔除那些不显著的变量,直到模型中包含的变 量都是影响预测对象的显著因素为止。
注意:
Qe Qe 0
0 BBˆ
k BBˆ
整理得正规方程组
n
n
n
nˆ0 ˆ1 xi1 ˆk xik yi
n
i1 n
i1
i1
n
n
Fra Baidu bibliotek ˆ0
i1
xi1
ˆ1
i1
xi21
ˆk
i1
xi1xik
二、拟合优度检验 1.判定系数 R 与修正判定系数 R
判定系数的大小还取决于包含在模型中的自变量 的个数。
R2
((Y Y ˆii Y Y))2 21
(Yi Y ˆi)2 (Yi Y)2
在样本容量一定得情况下,增加解释变量必定使 得自由度减少,所以调整的思路是将残差平方和与 总离差平方和分别除以各自的自由度,以剔除变量 个数对拟合优度的影响。记为调整的可决系数。
可见,多元回归分析是以多个解释变量的固定值 为条件的回归分析,表示各解释变量X值固定时Y 的平均响应。
也被称为偏回归系数,表示在其他解释变量保
j
持不变的情况下,X
每变化1个单位时,引起的
j
因变量的平均变动量。或者说
j
给出 X
单位变
j
化对Y均值的“直接”或“净”(不含其他变量)
影响。
y 0 1 x 1 2 x 2 k x k
注: (1)如果k=0,则 R R2 (2)如果k>0,则 RR (3)R 2 有可能为负值。
三、回归方程的显著性检验
1. 检验内容:检验因变量和所有自变量的线性关系。 2. 建立原假设和备择假设:
H :β β β k H :β i不0 全为
3. 构造统计量 FM SR SSRk ~F(k,nk1)
二、多元回归模型的基本假定
(1)E [i|x1i,x2i, xki]0 i,, ,n
(2)V a r(i|x 1 i,x2 i,...,xki)2 i,, ,n 等方差性 (3)C o v (i,j) 0i j,i,j 1 ,2 , ,n 无序列相关
(4) C o v (i,X i) 0i 1 ,2 , ,n
i1
i1
n
(yˆi y)2 QeS回 i1
而 Qe ~2(nk1) 2
从而
EQe2
nk
1
E Qe 2
nk 1
2 的无偏估计为
n
ˆ2 Qe
(yi yˆi)2 i1
nk1 nk1
它的算术方根称为估计标准误差,记为:
写成矩阵形式为:YXBε
其中
y1
Y
y
2
yn
1 x11 x21 X 1 x12 x22
1 x1n x2n
xk1
xk
2
0
B
1
xkn
k
1
ε
2
n
实际上,在多元线性回归分析中,比一元线性回归 分析增加了一个假设条件,即自变量之间不存在线 性关系。
第二章 多重回归分析法
2.1 多元线性回归模型及其参数估计 2.2 多元线性回归的显著性检验 2.3 利用多元线性回归方程进行预测 2.4 解释变量的选择 2.5 多重共线性 2.6 预测实例
2.1 多元线性回归模型及其参数估计
一、线性回归模型的一般形式
如果因变量(被解释变量)与各自变量(解释变量) 之间有线性相关关系,那么它们之间的线性总体回归 模型可以表示为:
试求该回归方程。 解:使用Eviews实现回归,得到的方
2019 2019 2019
9.5 10 10.6
13.9 13.8 14.8
48.9 49.54 50.25
程为
2019 2019
13.4 16.2
16.4 20.9
51.02 51.84
y ˆi . . x i .x i 2000 17.7 24.2 53.76
四、回归系数的显著性检验
1. 检验内容:检验因变量和每个自变量的线性关系。
2. 建立原假设和备择假设:
H 0 :β i 0 H 1 :β i 0i 1 ,2 ,,k
3.
构造统计量
tβˆi
βˆi S(βˆi)
~t(nk1)
4.在显著性水平 条件下的临界值 tα( 2 nk1)
5.判断:如果采用样本数据计算的结果 tˆi , tα(nk) 则拒绝原假设,认为因变量和该自变量之间的线性关
y 0 1 x 1 2 x 2 k x k
对每一组观测值
y i 0 1 x 1 i 2 x 2 i k x k i i
i1,2, ,n
非随机表达式
E ( Y x 1 i,x 2 i,,x k i) 0 1 x 1 i 2 x 2 i k x k i
2019 20.1 28.1 53.69
这说明,该地区收入每增加1万元, 2019 21.8 30.1 54.55
消费增加0.497万元,人口每增加1 2019 25.3 35.8 55.35
万人消费增加0.665万元。
2019 2019
31.3 36
48.5 54.8
56.16 56.98
2.2 多元线性回归的显著性检验
i1
xi1 yi
n
n
n
n
ˆ0 i1 xik ˆ1 i1 xikxi1 ˆk i1 xi2k i1 xik yi
其矩阵形式为
XTXB ˆXTY
解得
B ˆ(XTX)1XTY
所以多元线性回归方程的矩阵形式为
Y ˆX B ˆX (X TX ) 1X TY
系显著。
t检验通不过的可能原因
(1)选择的自变量对因变量事实上并无显著影响; (2)选择的自变量具有多重共线性。
五、序列相关检验(DW检验)
1. 检验内容:检验随机误差项的无序列相关假设 是否成立。
2. 方法:与一元回归相同。
六、多元回归的显著性检验小结
拟合优度的检验需要采用修正判定系数; 回归方程的显著性检验和回归系数的显著性
一元回归的参数估计是多元回归参数估计的特例。
n
Q ei2 min i1 (YXB )('YXB ) (Y'B'X')(YXB ) Y'YY'XBB'X'YB'X'XB
根据:( AB) ' B ' A', (Y ' XB) ' B ' X 'Y 所以:Y ' XB与B'X'Y 是同值 Q 2X 'Y 2X'XB=0 B B ( X'X )1X'Y
M SE SSEnk-1
4. 在显著性水平 条件下的临界值 F(k,nk1)
5. 判断:如果采用样本数据计算的结果 FF(k,nk2), 则拒绝原假设,认为因变量和该自变量之间的线性关 系显著。
F检验通不过的可能原因
(1)选择自变量时漏掉了某些有重要影响 的因素;
(2)自变量与因变量的关系是非线性的。
一、经济检验 二、拟合优度检验 三、回归方程的显著性检验 四、回归系数的显著性检验 五、序列相关检验
一、经济检验(逻辑检验)
1. 检验内容:参数估计值的符号和大小是否与 经济理论和经济实际相符合。 2. 回归系数的估计值与实际相反的原因 (1)某些变量的取值范围太窄;
(2)模型中遗漏了某些重要因素; (3)模型中自变量之间有较强的线性关系。
n
ˆ
Qe
(yi yˆi)2
i1
nk1 nk1
此时,估计量的标准差可表示为:
n
ˆˆj Sˆj
Var(
ˆ j
)
Cjjˆu2
(yi yˆi)2
Cjj
i1
nk1
C j j 是 (X T X )1主对角线上的元素(j=0,1,…,k)。
六、回归系数的置信区间