第二讲 stata画图和线性回归基础
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Stata 画图和回归基础
Stata作图
stata 提供各种曲线类型,包括点 (scatter)、线(line)、面(area),直 方图(histogram)、 条形图(bar)、饼图(pie)、函数曲线 (function)以及矩阵图(matrix)等。 同时,对时间序列数据有以ts 开头的一系列 特殊命令,如tsline。还有一类是对双变量 的回归拟合图(lfit、qfit 、lowess)等。
inft inft 1 (unemt 0 ) ut
e
inft 0 1unemt ut
例三:我国某地区1955---1984农产品收购 量sg、库存量kc存放在文件 warehouse.dta中 估计如下方程: Sgt=a+b0kct+b1kct-1+u 存在滞后一期的变量
两个练习:
1。完成下列汽车拟合图。 2。查阅数据,并按照要求完成图形。
改上面五个标注,用twoway graph里面的legend (override default keys): 1 "国产车" 2 "进口车" 3 "国 产车拟合" 4 "进口车拟合" 5 "整体拟合"
2、中国的GDP(以购买力平价计)何时能超过美 国?从Penn World Table(最权威的跨国宏观数 据集)下载两国1978-2010年“Population”与 “Real GDP per capita” 数据,导入Stata中, 将两国log(GDP)的时间趋势画在一张图上,并做 简单外推预测(假设未来的增长率与1978-2010年 间相同)。下载地址为: http://pwt.econ.upenn.edu/php_site/pwt_i ndex.php。下载时选csv格式,按网站说明存储数 据。
回归结果的存放:e()
e(N) number of observations e(mss) model sum of squares e(df_m) model degrees of freedom e(rss) residual sum of squares e(df_r) residual degrees of freedom e(r2) R-squared e(r2_a) adjusted R-squared e(F) F statistic e(rmse) root mean squared error 可以使用命令 eret list 查看。
1。要求方程省略常数项 2。稳健性估计(一般用于大样本OLS) 3。重新设置置信区间(默认95%) 4。标准化系数(回归系数对被解释变量的重 要性) 5。回归中使用部分数据(if in)
回归后预测值的获得
Predict 1。拟合值的获得: predict yhat, xb 或者 predict yhat 2。残差的获得 predict e , residuals 或者 predict e, res 3。 残差分布图 rvfplot yline(0)
我们得到:
ˆ ( X ' X)1 X ' y β
习惯上我们用 y_hat = X*b (被解释变量的拟合值) e = Y - y_hat = Y - Xb ( 残差 )
建立回归方程
打开系统文件auto,建立如下方程: regress命令详解: regress depvar [indepvars] [if] [in] [weight] [, options] sysuse auto,clear regress price mpg weight foreign
垂直线
年收入
350
拟合线 消费
400
Y 0 1 X1 2 X 2 k X k u Y Xβ μ
OLS假设条件: 1. E[u|X] = 0 2. 条件同方差、没有序列自相关 3. X与u不相关 4. Y和X之间存在线性关系。 5. 解释变量 X 是非随机变量,被解释变量Y 是随机变量。 6. X 是满秩的, rank(X) = k
例二:利用phillips的数据拟合预期增强的菲 利普斯曲线为 其中,unemt表示第t期的失业率(%), inft 表示第t期的通货膨胀率(%),infte表 示预期通货膨胀率,μ0表示自然失业率 (%)。 按照适应性预期理论, infte = inft-1。 令Δinft=inft - inft-1,上述模型可以简化为:
R2=MSS/TSS
p值
模型常用的其他形式: 对数 半对数 平方项 n次方 指数 交乘项 虽然对函数形式和自变量的选取有选择和检 验的方法,但最好还是从“经济意义”角度 确定。 例如:考察消费受收入影响的方程,即使参 数项不显著,也不能把它删除掉。
例题
例一:利用wage2的数据检验明瑟(mincer) 工资方程的简单形式: Ln(wage)=b0+b1*educ+b2*exper +b3*exper^2+ u
19
20
21
22
23
24
1980
1990 lngdp_China lngdp_usa
2000 year
2010 Fitted values Fitted values
2020
小样本OLS
OLS原理
320
11 10 9 8 7
Baidu Nhomakorabea
280 消费
300
260
6 5 4 2 3 1
220
240
250
300
作图时命令方式比较复杂,建议多用菜单方式。 一起来做下列图形: 简单图形 打开wage1.dta 1。 男性和女性工资均值的条形图 2。 白人和其他人的工资的饼状图 3。 wage的直方图,并检验是否服从正态分布。 4。 wage的核密度分布图。
组合图形 画出price与weight的散点图,并画出其拟 合线。 图形界面设计: 图形标题,X轴标志,Y轴标志,样式选择, 图例,分组标志。
回归结果解读
MSS:回归平方和 df1 MMS=MSS/df1 RSS:残差平方和 df2 RMS=RSS/df2 TSS:总平方和 df3 TMS=TSS/df3 F值:系数的联合检验 调整的R2 Root MSE=sqrt(RMS) Coef:回归系数 Std.Err:系数的标准误差 t统计量 t的临界值 95%置信区间 自由度
Stata作图
stata 提供各种曲线类型,包括点 (scatter)、线(line)、面(area),直 方图(histogram)、 条形图(bar)、饼图(pie)、函数曲线 (function)以及矩阵图(matrix)等。 同时,对时间序列数据有以ts 开头的一系列 特殊命令,如tsline。还有一类是对双变量 的回归拟合图(lfit、qfit 、lowess)等。
inft inft 1 (unemt 0 ) ut
e
inft 0 1unemt ut
例三:我国某地区1955---1984农产品收购 量sg、库存量kc存放在文件 warehouse.dta中 估计如下方程: Sgt=a+b0kct+b1kct-1+u 存在滞后一期的变量
两个练习:
1。完成下列汽车拟合图。 2。查阅数据,并按照要求完成图形。
改上面五个标注,用twoway graph里面的legend (override default keys): 1 "国产车" 2 "进口车" 3 "国 产车拟合" 4 "进口车拟合" 5 "整体拟合"
2、中国的GDP(以购买力平价计)何时能超过美 国?从Penn World Table(最权威的跨国宏观数 据集)下载两国1978-2010年“Population”与 “Real GDP per capita” 数据,导入Stata中, 将两国log(GDP)的时间趋势画在一张图上,并做 简单外推预测(假设未来的增长率与1978-2010年 间相同)。下载地址为: http://pwt.econ.upenn.edu/php_site/pwt_i ndex.php。下载时选csv格式,按网站说明存储数 据。
回归结果的存放:e()
e(N) number of observations e(mss) model sum of squares e(df_m) model degrees of freedom e(rss) residual sum of squares e(df_r) residual degrees of freedom e(r2) R-squared e(r2_a) adjusted R-squared e(F) F statistic e(rmse) root mean squared error 可以使用命令 eret list 查看。
1。要求方程省略常数项 2。稳健性估计(一般用于大样本OLS) 3。重新设置置信区间(默认95%) 4。标准化系数(回归系数对被解释变量的重 要性) 5。回归中使用部分数据(if in)
回归后预测值的获得
Predict 1。拟合值的获得: predict yhat, xb 或者 predict yhat 2。残差的获得 predict e , residuals 或者 predict e, res 3。 残差分布图 rvfplot yline(0)
我们得到:
ˆ ( X ' X)1 X ' y β
习惯上我们用 y_hat = X*b (被解释变量的拟合值) e = Y - y_hat = Y - Xb ( 残差 )
建立回归方程
打开系统文件auto,建立如下方程: regress命令详解: regress depvar [indepvars] [if] [in] [weight] [, options] sysuse auto,clear regress price mpg weight foreign
垂直线
年收入
350
拟合线 消费
400
Y 0 1 X1 2 X 2 k X k u Y Xβ μ
OLS假设条件: 1. E[u|X] = 0 2. 条件同方差、没有序列自相关 3. X与u不相关 4. Y和X之间存在线性关系。 5. 解释变量 X 是非随机变量,被解释变量Y 是随机变量。 6. X 是满秩的, rank(X) = k
例二:利用phillips的数据拟合预期增强的菲 利普斯曲线为 其中,unemt表示第t期的失业率(%), inft 表示第t期的通货膨胀率(%),infte表 示预期通货膨胀率,μ0表示自然失业率 (%)。 按照适应性预期理论, infte = inft-1。 令Δinft=inft - inft-1,上述模型可以简化为:
R2=MSS/TSS
p值
模型常用的其他形式: 对数 半对数 平方项 n次方 指数 交乘项 虽然对函数形式和自变量的选取有选择和检 验的方法,但最好还是从“经济意义”角度 确定。 例如:考察消费受收入影响的方程,即使参 数项不显著,也不能把它删除掉。
例题
例一:利用wage2的数据检验明瑟(mincer) 工资方程的简单形式: Ln(wage)=b0+b1*educ+b2*exper +b3*exper^2+ u
19
20
21
22
23
24
1980
1990 lngdp_China lngdp_usa
2000 year
2010 Fitted values Fitted values
2020
小样本OLS
OLS原理
320
11 10 9 8 7
Baidu Nhomakorabea
280 消费
300
260
6 5 4 2 3 1
220
240
250
300
作图时命令方式比较复杂,建议多用菜单方式。 一起来做下列图形: 简单图形 打开wage1.dta 1。 男性和女性工资均值的条形图 2。 白人和其他人的工资的饼状图 3。 wage的直方图,并检验是否服从正态分布。 4。 wage的核密度分布图。
组合图形 画出price与weight的散点图,并画出其拟 合线。 图形界面设计: 图形标题,X轴标志,Y轴标志,样式选择, 图例,分组标志。
回归结果解读
MSS:回归平方和 df1 MMS=MSS/df1 RSS:残差平方和 df2 RMS=RSS/df2 TSS:总平方和 df3 TMS=TSS/df3 F值:系数的联合检验 调整的R2 Root MSE=sqrt(RMS) Coef:回归系数 Std.Err:系数的标准误差 t统计量 t的临界值 95%置信区间 自由度