Stata讲义精要-聂辉华
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
niehuihua.com 11
三、统计分析
1、描述性统计 (1)描述:sum var1 var2, detail,详细描 述变量的观测值个数、均值、标准差等 基本统计特征(其它选项参考help命令)。 分类描述:by year: sum var1 var3 (2)列表描述:tab或tabstat。例如, tabstat lwage educ, stats(mean median sum max min sd var skewness kurtosis)
niehuihua.com 12
Cont’d
相关性分析:corr or pwcorr。例如,cor y x1 x2 x3,就生成了相关系数矩阵。 偏相关性分析:pcorr。例如,pwcorr x y z, sig star(0.01),可以观察相关度是否在 1%的水平上显著 t检验:ttest x, by(treatment) ,其中 treatment为虚拟变量
niehuihua.com 10
二、数据管理
(10)进行数字计算(计算器):disp 10^(1/3),对10开 三次方 (11)(按时间)纵向合并两个数据库: – use file1 – sort varname1 – save “xx.dat” – use file2 – sort varname1 – append using file2 这样就把文件2合并到文件1的后面,前提是两者有相 同的变量,合并增加了观测值的个数。 横向合并:最后一行命令改为:merge varname1 using file1
niehuihua.com 13
三、统计分析
2、绘图 直方图:hist var1 二维散点图:twoway (scatter y x) (lfit y x),第二个小 括号内为拟合线 直线图:line y x 饼状图:graph pie varnames,适用于一个或多个变量 盒状图:graph box varnames 做出预测值对残差的散点图:twoway (scatter yhat e) 散点图阵:graph matrix varlist
niehuihua.com 9
二、数据管理
(9)通过其他方式产生新变量: 产生均值或总值:by id: egen y=total(x)或by id: egen mx=mean(x) 产生单个虚拟变量:gen x=(age>60),大于60 岁的赋值为1,否则为0。 产生系列虚拟变量:xi[, prefix(string)] i.year, 生成诸如1999y、2000y等。 将文字格式转换为数值格式:encode/destring var1, replace
niehuihua.com
4
二、数据管理
录入数据:点击菜单栏中的Data editor,可以手工录入 数据,并更改变量名称或属性,然后点击菜单栏中的 Save,保存为默认的.dta格式。 读取已有数据:using c:\aa.dta(或者通过菜单file-open 打开)。 从Excel中复制数据:选定并复制数据后,打开Stata的 Data editor,在左上角第一个框内ctrl+v。 导入其它格式的数据:使用Stata transfer软件,可以将 各种格式的数据转换为.dta(Stata专用)格式文件。 变量名称最好用英文字母,因为有时转换后会丢失中 文,或者变成var1、var2等。
niehuihua.com 2
一、STATA简介
2、学习使用 可以通过工具栏操作,但最好输入命令(只认 小写英文),按回车键运行 Stata的命令起始语通常可以简写为前三个字 母,如regress与reg等同 设定内存
set memory 500m, perm set maxvar 1000
充分利用工具栏的help,尤其是其中的Stata command或search
四、计量分析
2、非线性回归分析 限值因变量模型:logit/probit y x1 x2,此时因 变量为二元虚拟变量 截断模型:tobit y x1 x2,此时因变量为超过某 个临界值的数值 计数模型:poisson,此时因变量为离散的正数 多元限值因变量模型:mlogit/ologit 以上命令详见Stata之help
niehuihua.com 6
二、数据管理
生成序列号id 非面板序列:sort var1,然后gen id=_n; 面板序列:先是sort var1,然后根据相同 的var1再顺序赋予id,即egen id=group(var1),然后排列成面板,tsset id year。或者在录入时,按照id1、 time1,id2、time2的顺序排列。
niehuihua.com
5
二、数据管理
变量管理:对变量进行改变 最重要的是产生新变量的命令generate or gen or g 表示运算的符号:等于、加、减、乘、除、乘 方、指数、对数、滞后、领先和差分分别对应 于=, +, -, *, / ,^ , exp, log, l., f., d.)。 表示逻辑关系的符号:&表示and,|表示or,!= 表示不等,= =表示相等。 表示大小关系的符号:>,<,>=,<=。 表示条件关系的命令:if
niehuihua.com 20
四、计量分析
3、工具变量 工具变量的思想与两阶段OLS类似 命令结构为:ivreg depvar [var1] (var2 = var_iv) [if] [in] [weight] [, options],此时 var_iv是var2的工具变量 此时通常需要进行内生性检验(残差检 验)以及过度识别检验
niehuihua.com 21
四、计量分析
4、面板数据(panel data) 编制面板:tsset id time,当然横轴也可 以是地区、行业或其它维度 命令结构:在reg之前加xt,例如xtreg、 xtlogit、xtivreg等 固定效应模型:xtreg y x1 x2, fe 随机效应模型:xtreg y x1 x2, re,缺少选 项默认为随机效应模型
数的影响程度
niehuihua.com
17
Cont’d
1.3 各种基本检验 test varlist (F检验) test indepvarname (t检验) test indepvar1=indepvar2[=indepvar3….] 举例:test x1 x2,检验x1和x2是否同时 为0,等价于x1=x2=0 详见help中的test
niehuihua.com 16
Cont’d
1.2预测命令:predict [type] newvarname [if exp] [,statistic],其中的statistic常用的有以下几种:
– xb 因变量的拟合值; – resid 产生残差序列,可命名为e或uhat – stdf 残差的标准差 – covratio 产生协方差比 – dfbeta(varname) 衡量某一观测值加入前后对回归系
niehuihua.com
14
四、计量分析
1、线性回归分析 1.1 语法格式:regress depvar [varlist] [weight] [if exp] [in range] [,level(#)] beta noconstant robust] 所有命令的格式通常都是:命令 被解释 变量 解释变量 条件 范围,选项;具体参 见help中的reg 例如: reg y x1 x2 if y>50,robust
四、计量分析
5、动态面板数据(Dynamic Panel Data) 方程右边包含了因变量的滞后项(可以推广到 多阶滞后),因此称之为动态面板模型。 估计方法为GMM,包括差分GMM和系统 GMM 命令结构为:xtabond2 depvar varlist [if exp] [in range] [weight] [, level(#) twostep robust noconstant small noleveleq orthogonal gmmopt [gmmopt ...] ivopt [ivopt ...] artests(#) arlevels h(#) nodiffsargan nomata]
niehuihua.com 7
二、数据管理
解释与应用
(1)生成新变量: gen x2=(x1+10)/2,gen lnx=log(x),gen l_x=l.x, gen y=x^2。 (2)列举:list [variablenames] in n1/n2,列出数据库中变 量从第n1到第n2个观测值。 list [variablenames] in n1/l, 列出从第n1到最后一个的 观测值。 list if salary>=5000,列出工资超过5000的观测值。 (3)删除:drop if salary==. | salary==0,删除某些观测 值。 (4)保留:keep if year>2008,保留2008年以后的观测 值;keep var1 var2 var4,只保留变量1、2、4。
STATA讲义精要
基于互联网材料改编
中国人民大学 聂辉华
2011.2.26
niehuihua.com
1
一、STATA简介
1、Stata9.0及以上版本 优点:(1)运算速度非常快;(2)简单与灵 活性兼备(命令与编程);(3)更新速度 快,可扩展性强(自行下载更新);(4)面 板数据和离散模型的分析功能非常强大,特别 适用于微观计量经济学。 缺点:数据限制,非线性估计的直观性,做图 功能差
niehuihua.com 3
一、STATA简介
3、网络帮助资源
(1)Stata 公司主页上有相关的帮助信息。 http://www.stata.com/support/faqs/, http://www.stata.com/links/resources.html, 是一些常见的问题和相关 的资源。 (2)UCLA 网站上有大量的例子可供参考。 http://statcomp.ats.ucla.edu/stata/。 (3)Boston college 经济系有相关的程序文件可以下载使用。 http://ideas.uqam.ca/ideas/data/bocbocode.html,有些有限制。 (4)其他资源:http://www.mimas.ac.uk/stats/stata 。 这些网络资源非常重要,在上述网页上可以搜索到许多STATA中 所没有的程序。
niehuihua.com 8
二、数据管理
(4)计算观测值个数:count if var>=10,if后面 的条件可选 (5)排序: sort var1 var2(默认为升序)。 (6)改名:rename var1 var2,将变量1改为2。 (7)替换:replace var1=var2 [if] ,对变量重新 赋值。 (8)recode var2 1=2 5= 6 *=3,修改变量2中的 值,如1改为2,5改为6,其余各值改为3。
niehuihua.com 22
Cont’d
Hausman检验 xtreg y x1 x2, fe est store fixed xtreg y x1 x2, re hausman fixed . 若卡方概率小于0.05,则用固定效应模型 (原假设为FE和RE不存在系统性差别)
niehuihua.com 23
niehuihua.com 18
Cont’d
1.4 回归诊断 检验多重共线性:vif,方差膨胀因子 (均值小于10) 检验异方差:hettest,BP检验;或者 whitetst,怀特检验 其它检验:dwstat,durbina, bgodfrey,但它们仅用于时间序列,不可 用于横截面数据。
niehuihua.com 19
niehuihua.com 15
Cont’d
其他选项的说明:
level(#)表明了置信度,默认值为95% beta 表示去均值和标准差之后的beta系数 noconstant 无截距项回归 robust 产生一致性的标准差 (Huber/White/sandwich)
来自百度文库
其它回归命令 多方程回归:for var y1-y10 z1-z5:reg x x1x22,因变量分别为y1-y10 z1-z5,自变量均为 x1-x22,共有15个回归方程。 分年度回归:by year: reg y x1 x2
三、统计分析
1、描述性统计 (1)描述:sum var1 var2, detail,详细描 述变量的观测值个数、均值、标准差等 基本统计特征(其它选项参考help命令)。 分类描述:by year: sum var1 var3 (2)列表描述:tab或tabstat。例如, tabstat lwage educ, stats(mean median sum max min sd var skewness kurtosis)
niehuihua.com 12
Cont’d
相关性分析:corr or pwcorr。例如,cor y x1 x2 x3,就生成了相关系数矩阵。 偏相关性分析:pcorr。例如,pwcorr x y z, sig star(0.01),可以观察相关度是否在 1%的水平上显著 t检验:ttest x, by(treatment) ,其中 treatment为虚拟变量
niehuihua.com 10
二、数据管理
(10)进行数字计算(计算器):disp 10^(1/3),对10开 三次方 (11)(按时间)纵向合并两个数据库: – use file1 – sort varname1 – save “xx.dat” – use file2 – sort varname1 – append using file2 这样就把文件2合并到文件1的后面,前提是两者有相 同的变量,合并增加了观测值的个数。 横向合并:最后一行命令改为:merge varname1 using file1
niehuihua.com 13
三、统计分析
2、绘图 直方图:hist var1 二维散点图:twoway (scatter y x) (lfit y x),第二个小 括号内为拟合线 直线图:line y x 饼状图:graph pie varnames,适用于一个或多个变量 盒状图:graph box varnames 做出预测值对残差的散点图:twoway (scatter yhat e) 散点图阵:graph matrix varlist
niehuihua.com 9
二、数据管理
(9)通过其他方式产生新变量: 产生均值或总值:by id: egen y=total(x)或by id: egen mx=mean(x) 产生单个虚拟变量:gen x=(age>60),大于60 岁的赋值为1,否则为0。 产生系列虚拟变量:xi[, prefix(string)] i.year, 生成诸如1999y、2000y等。 将文字格式转换为数值格式:encode/destring var1, replace
niehuihua.com
4
二、数据管理
录入数据:点击菜单栏中的Data editor,可以手工录入 数据,并更改变量名称或属性,然后点击菜单栏中的 Save,保存为默认的.dta格式。 读取已有数据:using c:\aa.dta(或者通过菜单file-open 打开)。 从Excel中复制数据:选定并复制数据后,打开Stata的 Data editor,在左上角第一个框内ctrl+v。 导入其它格式的数据:使用Stata transfer软件,可以将 各种格式的数据转换为.dta(Stata专用)格式文件。 变量名称最好用英文字母,因为有时转换后会丢失中 文,或者变成var1、var2等。
niehuihua.com 2
一、STATA简介
2、学习使用 可以通过工具栏操作,但最好输入命令(只认 小写英文),按回车键运行 Stata的命令起始语通常可以简写为前三个字 母,如regress与reg等同 设定内存
set memory 500m, perm set maxvar 1000
充分利用工具栏的help,尤其是其中的Stata command或search
四、计量分析
2、非线性回归分析 限值因变量模型:logit/probit y x1 x2,此时因 变量为二元虚拟变量 截断模型:tobit y x1 x2,此时因变量为超过某 个临界值的数值 计数模型:poisson,此时因变量为离散的正数 多元限值因变量模型:mlogit/ologit 以上命令详见Stata之help
niehuihua.com 6
二、数据管理
生成序列号id 非面板序列:sort var1,然后gen id=_n; 面板序列:先是sort var1,然后根据相同 的var1再顺序赋予id,即egen id=group(var1),然后排列成面板,tsset id year。或者在录入时,按照id1、 time1,id2、time2的顺序排列。
niehuihua.com
5
二、数据管理
变量管理:对变量进行改变 最重要的是产生新变量的命令generate or gen or g 表示运算的符号:等于、加、减、乘、除、乘 方、指数、对数、滞后、领先和差分分别对应 于=, +, -, *, / ,^ , exp, log, l., f., d.)。 表示逻辑关系的符号:&表示and,|表示or,!= 表示不等,= =表示相等。 表示大小关系的符号:>,<,>=,<=。 表示条件关系的命令:if
niehuihua.com 20
四、计量分析
3、工具变量 工具变量的思想与两阶段OLS类似 命令结构为:ivreg depvar [var1] (var2 = var_iv) [if] [in] [weight] [, options],此时 var_iv是var2的工具变量 此时通常需要进行内生性检验(残差检 验)以及过度识别检验
niehuihua.com 21
四、计量分析
4、面板数据(panel data) 编制面板:tsset id time,当然横轴也可 以是地区、行业或其它维度 命令结构:在reg之前加xt,例如xtreg、 xtlogit、xtivreg等 固定效应模型:xtreg y x1 x2, fe 随机效应模型:xtreg y x1 x2, re,缺少选 项默认为随机效应模型
数的影响程度
niehuihua.com
17
Cont’d
1.3 各种基本检验 test varlist (F检验) test indepvarname (t检验) test indepvar1=indepvar2[=indepvar3….] 举例:test x1 x2,检验x1和x2是否同时 为0,等价于x1=x2=0 详见help中的test
niehuihua.com 16
Cont’d
1.2预测命令:predict [type] newvarname [if exp] [,statistic],其中的statistic常用的有以下几种:
– xb 因变量的拟合值; – resid 产生残差序列,可命名为e或uhat – stdf 残差的标准差 – covratio 产生协方差比 – dfbeta(varname) 衡量某一观测值加入前后对回归系
niehuihua.com
14
四、计量分析
1、线性回归分析 1.1 语法格式:regress depvar [varlist] [weight] [if exp] [in range] [,level(#)] beta noconstant robust] 所有命令的格式通常都是:命令 被解释 变量 解释变量 条件 范围,选项;具体参 见help中的reg 例如: reg y x1 x2 if y>50,robust
四、计量分析
5、动态面板数据(Dynamic Panel Data) 方程右边包含了因变量的滞后项(可以推广到 多阶滞后),因此称之为动态面板模型。 估计方法为GMM,包括差分GMM和系统 GMM 命令结构为:xtabond2 depvar varlist [if exp] [in range] [weight] [, level(#) twostep robust noconstant small noleveleq orthogonal gmmopt [gmmopt ...] ivopt [ivopt ...] artests(#) arlevels h(#) nodiffsargan nomata]
niehuihua.com 7
二、数据管理
解释与应用
(1)生成新变量: gen x2=(x1+10)/2,gen lnx=log(x),gen l_x=l.x, gen y=x^2。 (2)列举:list [variablenames] in n1/n2,列出数据库中变 量从第n1到第n2个观测值。 list [variablenames] in n1/l, 列出从第n1到最后一个的 观测值。 list if salary>=5000,列出工资超过5000的观测值。 (3)删除:drop if salary==. | salary==0,删除某些观测 值。 (4)保留:keep if year>2008,保留2008年以后的观测 值;keep var1 var2 var4,只保留变量1、2、4。
STATA讲义精要
基于互联网材料改编
中国人民大学 聂辉华
2011.2.26
niehuihua.com
1
一、STATA简介
1、Stata9.0及以上版本 优点:(1)运算速度非常快;(2)简单与灵 活性兼备(命令与编程);(3)更新速度 快,可扩展性强(自行下载更新);(4)面 板数据和离散模型的分析功能非常强大,特别 适用于微观计量经济学。 缺点:数据限制,非线性估计的直观性,做图 功能差
niehuihua.com 3
一、STATA简介
3、网络帮助资源
(1)Stata 公司主页上有相关的帮助信息。 http://www.stata.com/support/faqs/, http://www.stata.com/links/resources.html, 是一些常见的问题和相关 的资源。 (2)UCLA 网站上有大量的例子可供参考。 http://statcomp.ats.ucla.edu/stata/。 (3)Boston college 经济系有相关的程序文件可以下载使用。 http://ideas.uqam.ca/ideas/data/bocbocode.html,有些有限制。 (4)其他资源:http://www.mimas.ac.uk/stats/stata 。 这些网络资源非常重要,在上述网页上可以搜索到许多STATA中 所没有的程序。
niehuihua.com 8
二、数据管理
(4)计算观测值个数:count if var>=10,if后面 的条件可选 (5)排序: sort var1 var2(默认为升序)。 (6)改名:rename var1 var2,将变量1改为2。 (7)替换:replace var1=var2 [if] ,对变量重新 赋值。 (8)recode var2 1=2 5= 6 *=3,修改变量2中的 值,如1改为2,5改为6,其余各值改为3。
niehuihua.com 22
Cont’d
Hausman检验 xtreg y x1 x2, fe est store fixed xtreg y x1 x2, re hausman fixed . 若卡方概率小于0.05,则用固定效应模型 (原假设为FE和RE不存在系统性差别)
niehuihua.com 23
niehuihua.com 18
Cont’d
1.4 回归诊断 检验多重共线性:vif,方差膨胀因子 (均值小于10) 检验异方差:hettest,BP检验;或者 whitetst,怀特检验 其它检验:dwstat,durbina, bgodfrey,但它们仅用于时间序列,不可 用于横截面数据。
niehuihua.com 19
niehuihua.com 15
Cont’d
其他选项的说明:
level(#)表明了置信度,默认值为95% beta 表示去均值和标准差之后的beta系数 noconstant 无截距项回归 robust 产生一致性的标准差 (Huber/White/sandwich)
来自百度文库
其它回归命令 多方程回归:for var y1-y10 z1-z5:reg x x1x22,因变量分别为y1-y10 z1-z5,自变量均为 x1-x22,共有15个回归方程。 分年度回归:by year: reg y x1 x2