第三讲 多元回归分析:估计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
注意这里的“商品零售价格指数” (X4)未取对数。
5
三、估计参数
模型估计的结果为:
ˆ 2.8491 0.4123ln X 0.6664ln X 0.0115 X ln Y i 2 3 4
(0.6397) (0.1355) t= (-4.4538) (3.0420) (0.1557) (4.2788) (0.0055) (2.0856)
i i
ˆi u ˆi 0. 0; y
计量经济学导论
33
多元回归参数估计值表达式
ˆ 具有如下的表达式: 在二元回归中,b 1 ˆ= ˆy r ˆ 2 b r
1
i1
i
i1
ˆi1是xi1中与xi 2无关的部分,或者说是 其中,r xi 2的效应被排除(partialled out)之后的xi1。 ˆ 衡量了排除了x 的影响后x 与y的关系。 因此,b
经验规则
●方差膨胀因子越大,表明解释变量之间的多重共性
越严重。反过来,方差膨胀因子越接近于1,多重 共线性越弱。
●经验表明,方差膨胀因子≥10(R—平方大于等于
0.9)时,说明解释变量与其余解释变量之间有严重 的多重共线性,且这种多重共线性可能会过度地影 响最小二乘估计。
14
直观判断法
1.有些解释变量的回归系数所带正负号与定性 分析结果违背时,很可能存在多重共线性。或
者总体解释较高但是存在一个或多个很不显著
的解释变量。
2.当增加或剔除一个解释变量,或者改变一个
观测值时,回归参数的估计值发生较大变化,
回归方程可能存在严重的多重共线性。
15
3. 解释变量的相关矩阵中,自变量之间的相关系 数较大时,可能会存在多重共线性问题(两个自 变量间的共线性)。 4.对于多个自变量间存在共线性时,如果一些重 要的解释变量的回归系数的标准误差较大,并 且在回归方程中没有通过显著性检验时,可初 步判断可能存在严重的多重共线性。
R 2 0.9873
R 2 0.9858 F=673.7521 n=30
6
模型检验:
1、经济意义检验: 模型估计结果说明,在假定其它变量不变的情况下,当年 GDP每增长1%,税收收入会增长0.4123%;当年财政支出 每增长1%,平均说来税收收入会增长0.6664%;当年商品零 售价格指数上涨一个百分点,平均说来税收收入会增长 1.15%。这与理论分析和经验判断相一致。 2、统计检验: 拟合优度: R 2 0.9873, R 2 0.9858 表明样本回归方程较好 地拟合了样本观测值。 0 =673.7521,给定 F检验:对 H0 : b2 b 已得到 3 b4 F 0.05 查表得自由度k-1=3和n-k=26的临界值: , 因为 F (3, 26) 2.98 F=673.7521> F (3, 26) 2.98 ,说明模型总体上显著,即 “国内生产总值”、“财政支出”、“商品零售价格指数” 等变量联合起来确实对“税收收入”有显著影响。
16
逐步回归检测法
逐步回归的基本思想
将变量逐个的引入模型,每引入一个解释变量后,都要进 行F检验,并对已经选入的解释变量逐个进行t 检验,当 原来引入的解释变量由于后面解释变量的引入而变得不再 显著时,则将其剔除。以确保每次引入新的变量之前回归 方程中只包含显著的变量。 在逐步回归中,高度相关的解释变量,在引入时会被剔除 。因而也是一种检测多重共线性的有效方法。
3.1多重共线性的检验
● 简单相关系数检验法 ● 方差扩大(膨胀)因子法 ● 直观判断法 ● 逐步回归法
10
简单相关系数检验法
含义:简单相关系数检验法是利用解释变量之间的线 性相关程度去判断是否存在严重多重共线性的一种 简便方法。 判断规则:一般而言,如果每两个解释变量的简单相
关系数(零阶相关系数)比较高,例如大于0.8,则可
8
本章STATA命令语句
Gen lny=log(y) Gen lnx1=log(x1) Gen lnx2=log(x2) reg lny lnx1 lnx2 x3
Vif(方差膨胀因子) pwcorr x1 x2 x3 x4 x5 stepwise, pe(0.05): regress Y X1 X2 X3 X4 X5 (增加解释变量的显著性) stepwise, pr(0.05): regress Y X1 X2 X3 X4 X5 (删除解释变量的显著性)
31
OLS拟合值与残差项
Normally,
yi yi
计量经济学导论
32
OLS拟合值及残差有与单变量回归同样的重要性质: ˆi 0; 1.样本残差均值为零: u 2.每个自变量与OLS残差之样本协方差均为零, OLS拟合值与残差之样本协方差也为零: 3.样本均值点 x1 , x2 ,, xk , y 总是在OLS样本回归线上: ˆ b ˆ x b ˆ x b ˆx yb o 1 1 2 2 k k ˆ xu
中央和地方税收的“国家财政收入”中的“各项税收”(简称
“税收收入”)作为被解释变量;选择国内生产总值(GDP)
作为经济整体增长水平的代表;选择中央和地方“财政支出” 作为公共财政需求的代表;选择“商品零售价格指数”作为物 价水平的代表。
2
年份 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992
27
例子3.1:大学生GPA的决定因素
计量经济学导论
28
例子3.2:小时工资方程
计量经济学导论
29
在多元回归中保持其他因素不变的含义
多元回归分析的作用是,提供了一个“在其他 因素保持不变”下的解释,尽管我们的数据并 非以这种方式搜集。
计量经济学导论
30
同时改变两种以上因素时参数的含义
计量经济学导论
多元回归分析:估计
y = b0 + b1x1 + b2x2 + . . . bkxk + u
计量经济学导论
1
引例
研究的目的要求
为了研究影响中国税收收入增长的主要原因,分析中央和地方
税收收入增长的数量规律预测中国税收未来的增长趋势, 需要建立计量经济模型。
研究范围:1978年-2007年全国税收收入 理论分析:为了全面反映中国税收增长的全貌,选择包括
249529.9
40422.73
49781.35
101
103.8
序列Y、X2、X3、X4的线性图
可以看出Y、X2、X3都是逐年增
长的,但增长速率有所变动,而
且X4在多数年份呈现出水平波动。 说明变量间不一定是线性关系, 可探索将模型设定为以下对数模 型:
ln Yt b1 b2 ln X 2t b2 ln X 3t b3 X 4t ut
3.4
如何解释上述方程中的参数?保持其他因 素不变的效应在上述方程中是否存在?
计量经济学导论
19
cons
y b1 2b 2 x x
consmax
inc
计量经济学导论
20
关键的假设是方程3.5中u与x1和x2的关系。
E u x1 , x2 0
3.5
计量经济学导论
21
有K个自变量的模型
7
t 检验
分别针对 H0 : b j 0
0.05, ( j 1, 2,3, 4) ,给定显著性水平
查t分布表得自由度为n-k=26的临界值 t 2 (n k ) 2.056 。 ˆ b ˆ ˆ b b b 由回归结果已知与 、2 、ˆ 对应的 t值分别为:
1 3 4
-4.4538、3.0420、4.2788、2.0856,其绝对值均大于
t 2 (n k ) 2.056, 这说明在显著性水平
0.05下,分
别都应当拒绝 H0 :Baidu Nhomakorabeab j 0 ( j 1, 2,3, 4)
说明当在其它解释变量不变的情况下,解释变量“国内生
产总值” 、“财政支出” 、“商品零售价格指数” 分
别对被解释变量“税收收入”Y都有显著的影响。
3
1993 1994
4255.30 5126.88
34634.4 46759.4
4642.30 5792.62
113.2 121.7
1995
1996 1997 1998
6038.04
6909.82 8234.04 9262.80
58478.1
67884.6 74462.6 78345.2
6823.72
计量经济学导论
23
计量经济学导论
24
OLS的机制与解释
OLS Estimates结果是
OLS方法选择最小化残差平方和的估计值,即使3.10式 尽可能的小。
计量经济学导论
25
SRF
SSR
OLS First Order Condition
计量经济学导论
26
OLS回归方程的解释
计量经济学导论 刘愿
7937.55 9233.56 10798.18
114.8
106.1 100.8 97.4
1999
2000 2001
10682.58
12581.51 15301.38
82067.5
89468.1 97314.8
13187.67
15886.50 18902.58
97.0
98.5 99.2
2002
2003 2004 2005
17636.45
20017.31 24165.68 28778.54
104790.6
135822.8 159878.3 183217.4
22053.15
24649.95 28486.89 33930.28
98.7
99.9 102.8 100.8
2006
2007
34804.35
45621.97
211923.5
认为存在着较严重的多重共线性。
11
注意:
较高的简单相关系数只是多重共线性存在的充分条件 ,而不是必要条件。特别是在多于两个解释变量的
回归模型中,有时较低的简单相关系数也可能存在
多重共线性。因此并不能简单地依据相关系数进行 多重共线性的准确判断。
12
方差扩大(膨胀)因子法
ˆ 统计上可以证明,解释变量 X j 的参数估计式 β j 的方差可表示为
1 ˆ Var( β j ) = = _ 2 2 1- R j (x j x) σ2 σ2
2 (x x ) j _
VIFj
其中的 VIFj 是变量 X j 的方差扩大因子
其中 R2 是多个解释变量辅助回归的可决系数 j
13
1 (Variance Inflation Factor),即 VIFj = 2 1R j
y = b 0 + b 1 x 1 + b 2 x 2 + . . . b kx k + u
3.6
计量经济学导论
22
多元回归方程的相关定义及性质
b0 为截距; b1 到 bk 为斜率参数;
u 仍然为误差项或扰动项; 零条件均值假设: E(u|x1,x2, …,xk) = 0; 残差平方和最小化,可得k+1个一阶条件。
17
3.2 使用多元回归的动因
含有两个自变量的模型
计量经济学导论
18
y b 0 b1 x1 b 2 x2 u
3.3
b 0为截距; b1衡量了当其他因素不变时,x1对y的影响; b 2 衡量了当其他因素不变时,x2 对y的影响;
cons b 0 b1inc b 2inc 2 u
税收收入(亿元) 国内生产总值(亿元) 财政支出(亿元) 商品零售价格指数(%) (Y) 519.28 537.82 571.70 629.89 700.02 775.59 947.35 2040.79 2090.73 2140.36 2390.47 2727.40 2821.86 2990.17 3296.91 (X2) 3624.1 4038.2 4517.8 4862.4 5294.7 5934.5 7171.0 8964.4 10202.2 11962.5 14928.3 16909.2 18547.9 21617.8 26638.1 (X3) 1122.09 1281.79 1228.83 1138.41 1229.98 1409.52 1701.02 2004.25 2204.91 2262.18 2491.21 2823.78 3083.59 3386.62 3742.20 (X4) 100.7 102.0 106.0 102.4 101.9 101.5 102.8 108.8 106.0 107.3 118.5 117.8 102.1 102.9 105.4
5
三、估计参数
模型估计的结果为:
ˆ 2.8491 0.4123ln X 0.6664ln X 0.0115 X ln Y i 2 3 4
(0.6397) (0.1355) t= (-4.4538) (3.0420) (0.1557) (4.2788) (0.0055) (2.0856)
i i
ˆi u ˆi 0. 0; y
计量经济学导论
33
多元回归参数估计值表达式
ˆ 具有如下的表达式: 在二元回归中,b 1 ˆ= ˆy r ˆ 2 b r
1
i1
i
i1
ˆi1是xi1中与xi 2无关的部分,或者说是 其中,r xi 2的效应被排除(partialled out)之后的xi1。 ˆ 衡量了排除了x 的影响后x 与y的关系。 因此,b
经验规则
●方差膨胀因子越大,表明解释变量之间的多重共性
越严重。反过来,方差膨胀因子越接近于1,多重 共线性越弱。
●经验表明,方差膨胀因子≥10(R—平方大于等于
0.9)时,说明解释变量与其余解释变量之间有严重 的多重共线性,且这种多重共线性可能会过度地影 响最小二乘估计。
14
直观判断法
1.有些解释变量的回归系数所带正负号与定性 分析结果违背时,很可能存在多重共线性。或
者总体解释较高但是存在一个或多个很不显著
的解释变量。
2.当增加或剔除一个解释变量,或者改变一个
观测值时,回归参数的估计值发生较大变化,
回归方程可能存在严重的多重共线性。
15
3. 解释变量的相关矩阵中,自变量之间的相关系 数较大时,可能会存在多重共线性问题(两个自 变量间的共线性)。 4.对于多个自变量间存在共线性时,如果一些重 要的解释变量的回归系数的标准误差较大,并 且在回归方程中没有通过显著性检验时,可初 步判断可能存在严重的多重共线性。
R 2 0.9873
R 2 0.9858 F=673.7521 n=30
6
模型检验:
1、经济意义检验: 模型估计结果说明,在假定其它变量不变的情况下,当年 GDP每增长1%,税收收入会增长0.4123%;当年财政支出 每增长1%,平均说来税收收入会增长0.6664%;当年商品零 售价格指数上涨一个百分点,平均说来税收收入会增长 1.15%。这与理论分析和经验判断相一致。 2、统计检验: 拟合优度: R 2 0.9873, R 2 0.9858 表明样本回归方程较好 地拟合了样本观测值。 0 =673.7521,给定 F检验:对 H0 : b2 b 已得到 3 b4 F 0.05 查表得自由度k-1=3和n-k=26的临界值: , 因为 F (3, 26) 2.98 F=673.7521> F (3, 26) 2.98 ,说明模型总体上显著,即 “国内生产总值”、“财政支出”、“商品零售价格指数” 等变量联合起来确实对“税收收入”有显著影响。
16
逐步回归检测法
逐步回归的基本思想
将变量逐个的引入模型,每引入一个解释变量后,都要进 行F检验,并对已经选入的解释变量逐个进行t 检验,当 原来引入的解释变量由于后面解释变量的引入而变得不再 显著时,则将其剔除。以确保每次引入新的变量之前回归 方程中只包含显著的变量。 在逐步回归中,高度相关的解释变量,在引入时会被剔除 。因而也是一种检测多重共线性的有效方法。
3.1多重共线性的检验
● 简单相关系数检验法 ● 方差扩大(膨胀)因子法 ● 直观判断法 ● 逐步回归法
10
简单相关系数检验法
含义:简单相关系数检验法是利用解释变量之间的线 性相关程度去判断是否存在严重多重共线性的一种 简便方法。 判断规则:一般而言,如果每两个解释变量的简单相
关系数(零阶相关系数)比较高,例如大于0.8,则可
8
本章STATA命令语句
Gen lny=log(y) Gen lnx1=log(x1) Gen lnx2=log(x2) reg lny lnx1 lnx2 x3
Vif(方差膨胀因子) pwcorr x1 x2 x3 x4 x5 stepwise, pe(0.05): regress Y X1 X2 X3 X4 X5 (增加解释变量的显著性) stepwise, pr(0.05): regress Y X1 X2 X3 X4 X5 (删除解释变量的显著性)
31
OLS拟合值与残差项
Normally,
yi yi
计量经济学导论
32
OLS拟合值及残差有与单变量回归同样的重要性质: ˆi 0; 1.样本残差均值为零: u 2.每个自变量与OLS残差之样本协方差均为零, OLS拟合值与残差之样本协方差也为零: 3.样本均值点 x1 , x2 ,, xk , y 总是在OLS样本回归线上: ˆ b ˆ x b ˆ x b ˆx yb o 1 1 2 2 k k ˆ xu
中央和地方税收的“国家财政收入”中的“各项税收”(简称
“税收收入”)作为被解释变量;选择国内生产总值(GDP)
作为经济整体增长水平的代表;选择中央和地方“财政支出” 作为公共财政需求的代表;选择“商品零售价格指数”作为物 价水平的代表。
2
年份 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992
27
例子3.1:大学生GPA的决定因素
计量经济学导论
28
例子3.2:小时工资方程
计量经济学导论
29
在多元回归中保持其他因素不变的含义
多元回归分析的作用是,提供了一个“在其他 因素保持不变”下的解释,尽管我们的数据并 非以这种方式搜集。
计量经济学导论
30
同时改变两种以上因素时参数的含义
计量经济学导论
多元回归分析:估计
y = b0 + b1x1 + b2x2 + . . . bkxk + u
计量经济学导论
1
引例
研究的目的要求
为了研究影响中国税收收入增长的主要原因,分析中央和地方
税收收入增长的数量规律预测中国税收未来的增长趋势, 需要建立计量经济模型。
研究范围:1978年-2007年全国税收收入 理论分析:为了全面反映中国税收增长的全貌,选择包括
249529.9
40422.73
49781.35
101
103.8
序列Y、X2、X3、X4的线性图
可以看出Y、X2、X3都是逐年增
长的,但增长速率有所变动,而
且X4在多数年份呈现出水平波动。 说明变量间不一定是线性关系, 可探索将模型设定为以下对数模 型:
ln Yt b1 b2 ln X 2t b2 ln X 3t b3 X 4t ut
3.4
如何解释上述方程中的参数?保持其他因 素不变的效应在上述方程中是否存在?
计量经济学导论
19
cons
y b1 2b 2 x x
consmax
inc
计量经济学导论
20
关键的假设是方程3.5中u与x1和x2的关系。
E u x1 , x2 0
3.5
计量经济学导论
21
有K个自变量的模型
7
t 检验
分别针对 H0 : b j 0
0.05, ( j 1, 2,3, 4) ,给定显著性水平
查t分布表得自由度为n-k=26的临界值 t 2 (n k ) 2.056 。 ˆ b ˆ ˆ b b b 由回归结果已知与 、2 、ˆ 对应的 t值分别为:
1 3 4
-4.4538、3.0420、4.2788、2.0856,其绝对值均大于
t 2 (n k ) 2.056, 这说明在显著性水平
0.05下,分
别都应当拒绝 H0 :Baidu Nhomakorabeab j 0 ( j 1, 2,3, 4)
说明当在其它解释变量不变的情况下,解释变量“国内生
产总值” 、“财政支出” 、“商品零售价格指数” 分
别对被解释变量“税收收入”Y都有显著的影响。
3
1993 1994
4255.30 5126.88
34634.4 46759.4
4642.30 5792.62
113.2 121.7
1995
1996 1997 1998
6038.04
6909.82 8234.04 9262.80
58478.1
67884.6 74462.6 78345.2
6823.72
计量经济学导论
23
计量经济学导论
24
OLS的机制与解释
OLS Estimates结果是
OLS方法选择最小化残差平方和的估计值,即使3.10式 尽可能的小。
计量经济学导论
25
SRF
SSR
OLS First Order Condition
计量经济学导论
26
OLS回归方程的解释
计量经济学导论 刘愿
7937.55 9233.56 10798.18
114.8
106.1 100.8 97.4
1999
2000 2001
10682.58
12581.51 15301.38
82067.5
89468.1 97314.8
13187.67
15886.50 18902.58
97.0
98.5 99.2
2002
2003 2004 2005
17636.45
20017.31 24165.68 28778.54
104790.6
135822.8 159878.3 183217.4
22053.15
24649.95 28486.89 33930.28
98.7
99.9 102.8 100.8
2006
2007
34804.35
45621.97
211923.5
认为存在着较严重的多重共线性。
11
注意:
较高的简单相关系数只是多重共线性存在的充分条件 ,而不是必要条件。特别是在多于两个解释变量的
回归模型中,有时较低的简单相关系数也可能存在
多重共线性。因此并不能简单地依据相关系数进行 多重共线性的准确判断。
12
方差扩大(膨胀)因子法
ˆ 统计上可以证明,解释变量 X j 的参数估计式 β j 的方差可表示为
1 ˆ Var( β j ) = = _ 2 2 1- R j (x j x) σ2 σ2
2 (x x ) j _
VIFj
其中的 VIFj 是变量 X j 的方差扩大因子
其中 R2 是多个解释变量辅助回归的可决系数 j
13
1 (Variance Inflation Factor),即 VIFj = 2 1R j
y = b 0 + b 1 x 1 + b 2 x 2 + . . . b kx k + u
3.6
计量经济学导论
22
多元回归方程的相关定义及性质
b0 为截距; b1 到 bk 为斜率参数;
u 仍然为误差项或扰动项; 零条件均值假设: E(u|x1,x2, …,xk) = 0; 残差平方和最小化,可得k+1个一阶条件。
17
3.2 使用多元回归的动因
含有两个自变量的模型
计量经济学导论
18
y b 0 b1 x1 b 2 x2 u
3.3
b 0为截距; b1衡量了当其他因素不变时,x1对y的影响; b 2 衡量了当其他因素不变时,x2 对y的影响;
cons b 0 b1inc b 2inc 2 u
税收收入(亿元) 国内生产总值(亿元) 财政支出(亿元) 商品零售价格指数(%) (Y) 519.28 537.82 571.70 629.89 700.02 775.59 947.35 2040.79 2090.73 2140.36 2390.47 2727.40 2821.86 2990.17 3296.91 (X2) 3624.1 4038.2 4517.8 4862.4 5294.7 5934.5 7171.0 8964.4 10202.2 11962.5 14928.3 16909.2 18547.9 21617.8 26638.1 (X3) 1122.09 1281.79 1228.83 1138.41 1229.98 1409.52 1701.02 2004.25 2204.91 2262.18 2491.21 2823.78 3083.59 3386.62 3742.20 (X4) 100.7 102.0 106.0 102.4 101.9 101.5 102.8 108.8 106.0 107.3 118.5 117.8 102.1 102.9 105.4