stata初级入门5线性回归模型估计
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
offset(varname)表示约束模型中变量varname的系数 为1。该选项多出现于离散选择模型、计数模型中。
1.2.3exposure
exposure(varname)表示约束模型中变量ln(varname) 的系数为1。该选项多出现于计数模型中。
计量经济学软件应用
12
2020/6/13
计量经济学软件应用
33
2020/6/13
菜单: Statistics > Postestimation > Reports and statistics
引起完全共线性的情况:(1)一个自变量是另一 个自变量的常数倍;(2)一个自变量恰好可以表 达为其它两个或多个自变量的一个线性函数。如果 此情况发生,自变量间就有多重共线性关系。
*自变量的样本有变异:在样本中,自变量不为相 同的常数。
同方差性(亦称有效性):var(u|x1,x2,x3,….)=σ2。
系数的方法。
method包括:
dw: rho_dw=1 - dw/2, 其中 dw 是Durbin-Watson值 regress:从残差回归方程et=rho_regress*et-1+vt freg:从残差回归方程中et=rho_freg*et+1+vt tscorr: rho=e‘et-1/e’e, 其中e和et-1 是残差和滞后一期残差。 theil: rho=rho_tscorr * (N-k)/N
rconsum
rneti _cons
Coef. Std. Err.
t P>|t|
.6478134 .0387183 482.8383 265.268
16.73 0.000 1.82 0.079
[95% Conf. Interval]
.5686257 -59.69574
.7270012 1025.372
观测值。通常是对同一截面样本的持续跟踪调查
得到。
计量经济学软件应用
3
2020/6/13
2数据结构、类型及模型选择
连续变量
离散变量 非分类变量 分类变量
2020/6/13
截面数据 时序数据 混合截面数据 面板数据
计量经济学软件应用
线性模型 截面模型 时序模型
面板或差分模型
离散选择模型 分类变量模型
计数模型
命令:estat hettest [varlist] [,rhs [normal|iid|fstat] mtest [(spec)]]
在一元线性回归中,设定varlist或rhs,或都不设定的结果是 一样的。
normal表示误差项独立正态分布,iid表示误差项独立同分布 ,计算卡方统计量,fstat表示误差项为独立同分布,计算F统 计量,mtest表示同时进行上述各种检验。
1.2.4参数约束
constraints(numlist):通过constraint命令设定线性 约束
constraints(matname):通过矩阵设定线性约束
constraints(clist):在个别命令中使用,如mlogit命令
该选项多出现于离散选择模型、分类变量模型、计 数模型中。
假定1-5统称为截面回归的高斯—马尔科夫假定。
计量经济学软件应用
6
2020/6/13
4基本假定所引申出的四个定理
无偏性
E(ˆi ) i
OLS斜 率估计 量的抽 样方差
计量经济学软件应用
7
2020/6/13
无偏估计
高斯-马尔科夫定理
计量经济学软件应用
8
2020/6/13
二、Stata计量模型估计概述
22
2020/6/13
计量经济学软件应用
23
2020/6/13
[if] [in]的设定
计量经济学软件应用
24
2020/6/13
weights的设定
计量经济学软件应用
25
2020/6/13
标准差计算方法的设定
计量经济学软件应用
26
2020/6/13
结果报告的设定
置信度 标准化回归系数 报告系数 报告e系数 不报告多重共线
性变量
计量经济学软件应用
27
2020/6/13
四、实例
计量经济学软件应用
28
2020/6/13
打开数据文件:use "C:\Users\jjq\Desktop\计 量经济学软件应用讲稿\ch5OLS.dta", clear
计量经济学软件应用
29
2020/6/13
1消费支出和收入散点图:农村
命令:twoway (scatter rconsum rneti, sort) (lfit rconsum
生解释变量。 违背零条件均值假定的情况:(1)模型形式误设,(2)
遗漏重要解释变量;(3)解释变量的测量误差;(4) 联立因果;(5)样本选择偏误。
计量经济学软件应用
5
2020/6/13
不存在完全或多重共线性:在总体中,自变量间不 存在严格的线性关系。
该假定不意味着自变量间无相关关系,而是要求它 们间无高度相关或完全相关。
t P>|t|
.6676549 .0335145 704.8237 625.6941
19.92 0.000 1.13 0.269
[95% Conf. Interval]
.5991101 -574.8645
.7361998 1984.512
计量经济学软件应用
32
2020/6/13
3Breusch-Pagan,Cook-Weisberg 异方差检验
计量经济学软件应用
10
2020/6/13
1.1基本语法格式
单方程模型
command varlist [if] [in] [weight] [,options]
范例:regress depvar [indepvars] [if] [in] [weight] [, options]——线性回归模型
模型估计 模型预测 参数检验 对虚拟变量的处理 变量的边际影响或弹性 对模型估计结果的相关操作 模型估计结果的提取
计量经济学软件应用
9
2020/6/13
1模型估计的语法
基本语法格式
单方程模型估计的命令格式 系统方程模型估计的命令格式
估计选项
常数项、offset、exposure、参数约束、置信度、 标准差的计算方法、组内相关结构、一阶自相关系 数的计算
4
3线性回归要满足的基本假定
参数线性:Y=β0+ β1x+μ 随机抽样性:意味着cov(ui,uk)=0 零条件均值(亦称严格外生性):E(u|x1,x2,x3,…)=0,意
味着E(u)=0, cov(x,u)=0。计量回归的最关键假定。 如果E(u|xi)=0,而E(u|xk)≠0,则xi为外生解释变量,xk为内
农村居民人均纯收入
12000
14000
农村居民消费支出
Fitted values
数据来源:中国统计年鉴2011年
计量经济学软件应用
30
2回归结果:农村
命令:regress rconsum rneti
样本数,F统计值、R2
TSS=ESS+RSS
Source
Model Residual
Total
SS
vcetype的常见形式:
oim:基于最大似然估计中的观测信息矩阵进行计算
opg:基于最大似然估计中梯度向量进行估计
robust:异方差稳健估计,又称Huber/White/ Sandwich 估计量
cluster clustvar:组内相关稳健估计
bootstrap:自举法
jackknife:刀切法
varlist为模型的因、自变量,中间空格分开,其中第1个 变量,软件自动识别为因变量,其余为自变量。
计量经济学软件应用
பைடு நூலகம்
11
2020/6/13
1.2估计选项设定(options)
1.2.1常数项
noconstant: 模型没有常数项 hascons:用户自己设定的常数项
1.2.2offset
Stata初级入门5 ——线性回归模型
江金启 沈阳农业大学经济管理学院
计量经济学软件应用
1
2020/6/13
一、计量回归前的知识回顾
数据结构 数据结构、数据类型和估计模型选择 线性回归的OLS的基本假定 基本假定引申的定理
计量经济学软件应用
2
2020/6/13
1数据结构
截面数据(Cross-Section Data):给定时点对个 人、家庭等样本单位所采集的数据。
ols:用OLS残差计算协方差矩阵
hac kernel:异方差自相关一致标准差
rgf:将稳健方差估计量乘以(N-1)/(N-P)
计量经济学软件应用
14
2020/6/13
1.2.8一阶自相关系数的计算
该选项不常使用,默认是dw法。 rhotype(method):用于设定时序/面板数据模型中AR(1)
2模型预测
计量经济学软件应用
16
2020/6/13
3参数检验
计量经济学软件应用
17
2020/6/13
4对虚拟变量的处理
计量经济学软件应用
18
2020/6/13
5变量的边际效应或弹性
计量经济学软件应用
19
2020/6/13
6对模型估计的相关操作
计量经济学软件应用
20
2020/6/13
7模型估计结果的提取
2020/6/13
回归系 数
标准误
t统计 量
p值,用于判 断变量是否影
响显著
计量经济学软件应用
31
2回归结果:城镇
命令:regress uconsum pdi
Source
Model Residual
Total
SS
305440469 22319559.9
327760029
df
MS
1 305440469 29 769639.998
rneti), ytitle(农村人均消费支出) xtitle(农村居民人均纯收入)
title(收入与消费支出关系:农村) note(数据来源:中国统计年
鉴2019年)
收入与消费支出关系:农村
10000
4000 6000 8000 农村人均消费支出
2000
2020/6/13
4000
6000
8000
10000
计量经济学软件应用
21
2020/6/13
三、一元线性回归
命令:regress varlist [if] [in] [weights] [,options]
菜单: Statistics > Linear models and related > Linear regression
常数项的设定
计量经济学软件应用
30 10925334.3
Number of obs =
F( 1, 29) =
Prob > F
=
R-squared
=
Adj R-squared =
Root MSE
=
31 396.86 0.0000 0.9319 0.9296 877.29
uconsum
pdi _cons
Coef. Std. Err.
时序数据(Time-Series Data):某一或某几个变 量在不同时点的观测值。
混合截面数据(Pooled Cross Section Data): 不同时点的多个同单位截面样本混合得到。
面板数据(亦称综列数据,Panel Data/
Longitudinal Data):同一截面样本在不同时点的
89914896.1 9314546.27
99229442.4
df
MS
1 89914896.1 29 321191.251
30 3307648.08
Number of obs =
F( 1, 29) =
Prob > F
=
R-squared
=
Adj R-squared =
Root MSE
=
31 279.94 0.0000 0.9061 0.9029 566.74
系统方程模型
command (varlist) (varlist) [if] [in] [weight] [,options]
范例: sureg (depvar1 varlist1) (depvar2 varlist2) ... (depvarN varlistN) [if] [in] [weight]——似不相关回归模 型
1.2.5置信度
level(#)设定置信区间,默认值为95
1.2.6组内相关结构
corr(correlation)设定组内相关结构,该选项一般多
在“面板数据”的广义方程估计中出现
计量经济学软件应用
13
2020/6/13
1.2.7标准差的计算方法
vce(vcetype)是stata中设定参数估计量协方差矩阵 计算方法的最主要选项。
nagar:rho_nagar = (rho_dw * N2+k2)/(N2-k2) onestep: rho_onestep = (n/m_c)*rho_tscorr, 其中n是样本
单位总数,m_c是consecutive pairs of residuals的数目
计量经济学软件应用
15
2020/6/13
1.2.3exposure
exposure(varname)表示约束模型中变量ln(varname) 的系数为1。该选项多出现于计数模型中。
计量经济学软件应用
12
2020/6/13
计量经济学软件应用
33
2020/6/13
菜单: Statistics > Postestimation > Reports and statistics
引起完全共线性的情况:(1)一个自变量是另一 个自变量的常数倍;(2)一个自变量恰好可以表 达为其它两个或多个自变量的一个线性函数。如果 此情况发生,自变量间就有多重共线性关系。
*自变量的样本有变异:在样本中,自变量不为相 同的常数。
同方差性(亦称有效性):var(u|x1,x2,x3,….)=σ2。
系数的方法。
method包括:
dw: rho_dw=1 - dw/2, 其中 dw 是Durbin-Watson值 regress:从残差回归方程et=rho_regress*et-1+vt freg:从残差回归方程中et=rho_freg*et+1+vt tscorr: rho=e‘et-1/e’e, 其中e和et-1 是残差和滞后一期残差。 theil: rho=rho_tscorr * (N-k)/N
rconsum
rneti _cons
Coef. Std. Err.
t P>|t|
.6478134 .0387183 482.8383 265.268
16.73 0.000 1.82 0.079
[95% Conf. Interval]
.5686257 -59.69574
.7270012 1025.372
观测值。通常是对同一截面样本的持续跟踪调查
得到。
计量经济学软件应用
3
2020/6/13
2数据结构、类型及模型选择
连续变量
离散变量 非分类变量 分类变量
2020/6/13
截面数据 时序数据 混合截面数据 面板数据
计量经济学软件应用
线性模型 截面模型 时序模型
面板或差分模型
离散选择模型 分类变量模型
计数模型
命令:estat hettest [varlist] [,rhs [normal|iid|fstat] mtest [(spec)]]
在一元线性回归中,设定varlist或rhs,或都不设定的结果是 一样的。
normal表示误差项独立正态分布,iid表示误差项独立同分布 ,计算卡方统计量,fstat表示误差项为独立同分布,计算F统 计量,mtest表示同时进行上述各种检验。
1.2.4参数约束
constraints(numlist):通过constraint命令设定线性 约束
constraints(matname):通过矩阵设定线性约束
constraints(clist):在个别命令中使用,如mlogit命令
该选项多出现于离散选择模型、分类变量模型、计 数模型中。
假定1-5统称为截面回归的高斯—马尔科夫假定。
计量经济学软件应用
6
2020/6/13
4基本假定所引申出的四个定理
无偏性
E(ˆi ) i
OLS斜 率估计 量的抽 样方差
计量经济学软件应用
7
2020/6/13
无偏估计
高斯-马尔科夫定理
计量经济学软件应用
8
2020/6/13
二、Stata计量模型估计概述
22
2020/6/13
计量经济学软件应用
23
2020/6/13
[if] [in]的设定
计量经济学软件应用
24
2020/6/13
weights的设定
计量经济学软件应用
25
2020/6/13
标准差计算方法的设定
计量经济学软件应用
26
2020/6/13
结果报告的设定
置信度 标准化回归系数 报告系数 报告e系数 不报告多重共线
性变量
计量经济学软件应用
27
2020/6/13
四、实例
计量经济学软件应用
28
2020/6/13
打开数据文件:use "C:\Users\jjq\Desktop\计 量经济学软件应用讲稿\ch5OLS.dta", clear
计量经济学软件应用
29
2020/6/13
1消费支出和收入散点图:农村
命令:twoway (scatter rconsum rneti, sort) (lfit rconsum
生解释变量。 违背零条件均值假定的情况:(1)模型形式误设,(2)
遗漏重要解释变量;(3)解释变量的测量误差;(4) 联立因果;(5)样本选择偏误。
计量经济学软件应用
5
2020/6/13
不存在完全或多重共线性:在总体中,自变量间不 存在严格的线性关系。
该假定不意味着自变量间无相关关系,而是要求它 们间无高度相关或完全相关。
t P>|t|
.6676549 .0335145 704.8237 625.6941
19.92 0.000 1.13 0.269
[95% Conf. Interval]
.5991101 -574.8645
.7361998 1984.512
计量经济学软件应用
32
2020/6/13
3Breusch-Pagan,Cook-Weisberg 异方差检验
计量经济学软件应用
10
2020/6/13
1.1基本语法格式
单方程模型
command varlist [if] [in] [weight] [,options]
范例:regress depvar [indepvars] [if] [in] [weight] [, options]——线性回归模型
模型估计 模型预测 参数检验 对虚拟变量的处理 变量的边际影响或弹性 对模型估计结果的相关操作 模型估计结果的提取
计量经济学软件应用
9
2020/6/13
1模型估计的语法
基本语法格式
单方程模型估计的命令格式 系统方程模型估计的命令格式
估计选项
常数项、offset、exposure、参数约束、置信度、 标准差的计算方法、组内相关结构、一阶自相关系 数的计算
4
3线性回归要满足的基本假定
参数线性:Y=β0+ β1x+μ 随机抽样性:意味着cov(ui,uk)=0 零条件均值(亦称严格外生性):E(u|x1,x2,x3,…)=0,意
味着E(u)=0, cov(x,u)=0。计量回归的最关键假定。 如果E(u|xi)=0,而E(u|xk)≠0,则xi为外生解释变量,xk为内
农村居民人均纯收入
12000
14000
农村居民消费支出
Fitted values
数据来源:中国统计年鉴2011年
计量经济学软件应用
30
2回归结果:农村
命令:regress rconsum rneti
样本数,F统计值、R2
TSS=ESS+RSS
Source
Model Residual
Total
SS
vcetype的常见形式:
oim:基于最大似然估计中的观测信息矩阵进行计算
opg:基于最大似然估计中梯度向量进行估计
robust:异方差稳健估计,又称Huber/White/ Sandwich 估计量
cluster clustvar:组内相关稳健估计
bootstrap:自举法
jackknife:刀切法
varlist为模型的因、自变量,中间空格分开,其中第1个 变量,软件自动识别为因变量,其余为自变量。
计量经济学软件应用
பைடு நூலகம்
11
2020/6/13
1.2估计选项设定(options)
1.2.1常数项
noconstant: 模型没有常数项 hascons:用户自己设定的常数项
1.2.2offset
Stata初级入门5 ——线性回归模型
江金启 沈阳农业大学经济管理学院
计量经济学软件应用
1
2020/6/13
一、计量回归前的知识回顾
数据结构 数据结构、数据类型和估计模型选择 线性回归的OLS的基本假定 基本假定引申的定理
计量经济学软件应用
2
2020/6/13
1数据结构
截面数据(Cross-Section Data):给定时点对个 人、家庭等样本单位所采集的数据。
ols:用OLS残差计算协方差矩阵
hac kernel:异方差自相关一致标准差
rgf:将稳健方差估计量乘以(N-1)/(N-P)
计量经济学软件应用
14
2020/6/13
1.2.8一阶自相关系数的计算
该选项不常使用,默认是dw法。 rhotype(method):用于设定时序/面板数据模型中AR(1)
2模型预测
计量经济学软件应用
16
2020/6/13
3参数检验
计量经济学软件应用
17
2020/6/13
4对虚拟变量的处理
计量经济学软件应用
18
2020/6/13
5变量的边际效应或弹性
计量经济学软件应用
19
2020/6/13
6对模型估计的相关操作
计量经济学软件应用
20
2020/6/13
7模型估计结果的提取
2020/6/13
回归系 数
标准误
t统计 量
p值,用于判 断变量是否影
响显著
计量经济学软件应用
31
2回归结果:城镇
命令:regress uconsum pdi
Source
Model Residual
Total
SS
305440469 22319559.9
327760029
df
MS
1 305440469 29 769639.998
rneti), ytitle(农村人均消费支出) xtitle(农村居民人均纯收入)
title(收入与消费支出关系:农村) note(数据来源:中国统计年
鉴2019年)
收入与消费支出关系:农村
10000
4000 6000 8000 农村人均消费支出
2000
2020/6/13
4000
6000
8000
10000
计量经济学软件应用
21
2020/6/13
三、一元线性回归
命令:regress varlist [if] [in] [weights] [,options]
菜单: Statistics > Linear models and related > Linear regression
常数项的设定
计量经济学软件应用
30 10925334.3
Number of obs =
F( 1, 29) =
Prob > F
=
R-squared
=
Adj R-squared =
Root MSE
=
31 396.86 0.0000 0.9319 0.9296 877.29
uconsum
pdi _cons
Coef. Std. Err.
时序数据(Time-Series Data):某一或某几个变 量在不同时点的观测值。
混合截面数据(Pooled Cross Section Data): 不同时点的多个同单位截面样本混合得到。
面板数据(亦称综列数据,Panel Data/
Longitudinal Data):同一截面样本在不同时点的
89914896.1 9314546.27
99229442.4
df
MS
1 89914896.1 29 321191.251
30 3307648.08
Number of obs =
F( 1, 29) =
Prob > F
=
R-squared
=
Adj R-squared =
Root MSE
=
31 279.94 0.0000 0.9061 0.9029 566.74
系统方程模型
command (varlist) (varlist) [if] [in] [weight] [,options]
范例: sureg (depvar1 varlist1) (depvar2 varlist2) ... (depvarN varlistN) [if] [in] [weight]——似不相关回归模 型
1.2.5置信度
level(#)设定置信区间,默认值为95
1.2.6组内相关结构
corr(correlation)设定组内相关结构,该选项一般多
在“面板数据”的广义方程估计中出现
计量经济学软件应用
13
2020/6/13
1.2.7标准差的计算方法
vce(vcetype)是stata中设定参数估计量协方差矩阵 计算方法的最主要选项。
nagar:rho_nagar = (rho_dw * N2+k2)/(N2-k2) onestep: rho_onestep = (n/m_c)*rho_tscorr, 其中n是样本
单位总数,m_c是consecutive pairs of residuals的数目
计量经济学软件应用
15
2020/6/13