stata第二讲【山大陈波】
Stata门限模型的操作和结果详细解读
一、门限面板模型概览如果你不愿意看下面一堆堆的文字,更不想看计量模型的估计和检验原理,那就去《数量经济技术经济研究》上,找一篇标题带有“双门槛(或者双门限)”的文章,浏览一遍,看看文章计量部分列示的统计量和检验结果。
这样,在软件操作时,你就知道每一步得到的结果有什么意义,怎么解释了,起码心里会有点印象。
一般情况下,一个研究生花费在研究上的时间越多,他的成果越丰富,也就是说,研究成果和研究时间存在某种正向关联。
但是,这种关联是线性的吗?在最初阶段,他可能看了两三年的文献,也没有写出一篇优秀的文章,但是一旦过了这个基础期,他的能量和成果将如火山爆发一样喷涌出来,此时,他投入少量的时间,就能产出大量优质文章。
再过几年,他可能会进入另外一种境界,虽然比以前有了极大提高,但是研究进入新的瓶颈期,文章发表的数量减少。
由此可以看出,研究成果与研究年限存在一种阶段性的线性关系。
这个基础期的结点、瓶颈期的起点就像“门槛”一样把研究阶段分成三个部分,在不同部分,成果和时间的线性关系都不同。
这个效应被称为门槛效应或门限效应。
门限效应,是指当一个经济参数达到特定的数值后,引起另外一个经济参数发生突然转向其它发展形式的现象。
作为原因现象的临界值称为门限值。
在上面的例子中,成果和时间存在非线性关系,但是在每个阶段是线性关系。
有些人将这样的模型称为门槛模型,或者门限模型。
如果模型的研究对象包含多个个体多个年度,那么就是门限面板模型。
汉森(Bruce E. Hansen)在门限回归模型上做出了很多贡献。
了解门限模型最好的办法,首先就要阅读他的文章。
他的文章很有特点:条理很清晰,推导过程详细,语言简练,语法不复杂。
有关他的论文、程序、数据可以参考Hansen的个人网站:/~bhansen/progs/progs_subject.htm。
Hansen于1996年在《Econometrica》上发表文章《Inference when a nuisance parameter is not identified under the null hypothesis》,提出了时间序列门限自回归模型(TAR)的估计和检验。
让你快速上手的stata讲义
Stata简明讲义王非中国经济研究中心ebwf@〇、写在前面的话关于学习Stata的意义,大家只需知道:目前,Stata是计量经济学、特别是微观计量经济学的主流软件。
因此,Stata很重要、很有用,而大家也会在使用Stata 的过程中慢慢体会到它的特点。
本讲义取名为“Stata简明讲义”,意在突出“简”和“明”两个字。
虽然讲义长达五十多页,但相比Stata的完全手册来说,还不及九牛之一毛,故为“简”。
实际上,完全手册中的很多内容都鲜有人(特别是计量经济学者)问津,而本讲义列出的内容则是大家经常用到的操作;所以,“简”也有“简”的好处。
即便如此,掌握这份讲义也并非易事。
所谓“明”,是明晰的意思。
本讲义本着“手把手教”的精神,力求把每项操作都说得具体明晰,以方便初学者(特别是没有程序操作经历的初学者)尽快上手。
至于本讲义在“简明”上做得怎么样,还需要各位读者来评判。
中心的一位学长邹传伟,曾经写过一份“Stata介绍”,在网上可以下载。
那份讲义比较全面,但不够具体明晰。
本讲义参照那份讲义,在框架上查漏补缺,并进一步地明晰化。
本讲义第二部分的“do文件”和第七部分的“残差分析”的相关内容均来自于中心的沈艳老师的相关讲义,而沈老师对于本讲义的成形给予了细致的指导。
本讲义附带了一些数据文件,其中“WAGE1.dta”和“WAGEPRC.dta”均来自Wooldridge的中级计量教材的数据集,而其他数据则为作者自己的杜撰。
尽管从别人那里拿来了许多好东西,但本讲义的任何错误仍源于作者自己的疏忽。
本讲义是这样安排的:第一部分讲Stata的界面,第二部分讲do文件,第三部分讲怎样把数据导入Stata,第四部分专门讲help和search命令以及帮助文件的阅读方法,第五部分讲数据的描述及管理,第六部分讲如何画图,第七部分讲初步的回归分析。
祝各位学习愉快。
一、Stata长什么样?首先,让我们看看Stata长什么样。
我们以Stata 9.1(以下简称Stata)为例。
stata教程
stata教程作者:汪炳瑞왕병서(不知道有多少孩子要使用stata,不过话说stata SAS SPSS应该一通百通,除了编程代码不一样其他都差不多,从网上搜来的stata教程,希望能够帮助到需要使用stata的童鞋~)第一章Stata 概貌§1.1 Stata的功能、特点和背景Stata是一个用于分析和管理数据的功能强大又小巧玲珑的实用统计分析软件,由美国计算机资源中心(Computer Resource Center)研制。
从1985至1998的十四年时间里,已连续推出1.1,1.2,1.3,1.4,1.5,……及2.0,2.1,3.0,3.1,4.0,5.0,6.0等多个版本,通过不断更新和扩充,内容日趋完善。
它同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点,又在许多方面别具一格。
Stata融汇了上述程序的优点,克服了各自的缺点,使其功能更加强大,操作更加灵活、简单,易学易用,越来越受到人们的重视和欢迎。
Stata的突出特点是只占用很少的磁盘空间,输出结果简洁,所选方法先进,内容较齐全,制作的图形十分精美,可直接被图形处理软件或字处理软件如WORD等直接调用。
一、Stata的数据管理能力1.Stata的数据管理空间受计算机的操作系统和计算机扩展内存的影响。
对640k内存的微机,3.1版本的Stata可以管理2400个记录×99个变量,并随计算机扩展内存的增加而增加;对4.0的WINDOWS版本,Stata可以管理4800个记录×99个变量;对WINDOWS 95下的5.0版本,可根据计算机的配置情况设置变量数和记录数,如32M扩展内存的计算机,可处理2千万个数据。
变量数和记录数可以互相交易(trade),即减少记录数可以增加变量数,减少变量数可以增加记录数。
2.可以将分组变量转换成指示变量(哑变量) ,将字符串变量映射成数字代码。
3.可以对数据文件进行横向和纵向链接,可以将行数据转为列数据,或反之。
stata第三讲【山大陈波】
例题:利用MLE方法估计下列两个方程: 1.price=b0+b1*weight+b2*length+ε 2.price=b0+b1*weight+b2*length+b3*mpg+ε 利用wald检验和LR检验验证:b3=0
sysuse auto,clear ml model lf myprog (price = weight length) (sigma:) ml max est store r0 ml model lf myprog (price = weight length mpg) (sigma:) ml max est store r1
异方差的检验与FGLS
异方差是违背了球型扰动项假设的一种情形。 在存在异方差的情况下: (1)OLS 估计量依然是无偏、一致且渐近 正态的。 (2)估计量方差Var(b|X) 的表达式不再是 σ2(X’X)−1,因为Var(ε|X) ≠σ2I。 (3)Gauss-Markov 定理不再成立,即OLS 不再是最佳线性无偏估计(BLUE)。
参数约束检验的三大方法: Wald检验 似然比检验(LR) 拉格朗日乘数检验(LM) 注意: 1。参数约束检验不仅用于MLE中,同时可以用在其 他计量方法中。 2。由于LM检验在后面的计量模型中广泛使用,检验 过程与模型设定密切相关,因此stata没有提供单纯 使用LM进行检验的命令,只能通过手动计算的方法, 因此,在此我们重点关注前两种检验。
Stata上机实验
大样本OLS
大样本OLS经常采用稳健标准差估计(robust) 稳健标准差是指其标准差对于模型中可能存 在的异方差或自相关问题不敏感,基于稳健 标准差计算的稳健t统计量仍然渐进分布t分布。 因此,在Stata中利用robust选项可以得到异 方差稳健估计量。
STATA面板大数据模型操作命令讲解
STATA 面板数据模型估计命令一览表一、静态面板数据的STATA 处理命令εαβit ++=xy itiit固定效应模型μβit +=xy ititεαμit+=itit随机效应模型(一)数据处理输入数据●tsset code year 该命令是将数据定义为“面板”形式 ●xtdes 该命令是了解面板数据结构●summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析)●gen lag_y=L.y /////// 产生一个滞后一期的新变量gen F_y=F.y /////// 产生一个超前项的新变量gen D_y=D.y /////// 产生一个一阶差分的新变量gen D2_y=D2.y /////// 产生一个二阶差分的新变量(二)模型的筛选和检验●1、检验个体效应(混合效应还是固定效应)(原假设:使用OLS混合模型)●xtreg sq cpi unem g se5 ln,fe对于固定效应模型而言,回归结果中最后一行汇报的F统计量便在于检验所有的个体效应整体上显著。
在我们这个例子中发现F统计量的概率为0.0000,检验结果表明固定效应模型优于混合OLS模型。
●2、检验时间效应(混合效应还是随机效应)(检验方法:LM统计量)(原假设:使用OLS混合模型)●qui xtreg sq cpi unem g se5 ln,re (加上“qui”之后第一幅图将不会呈现) xttest0可以看出,LM检验得到的P值为0.0000,表明随机效应非常显著。
可见,随机效应模型也优于混合OLS模型。
●3、检验固定效应模型or随机效应模型(检验方法:Hausman检验)原假设:使用随机效应模型(个体效应与解释变量无关)通过上面分析,可以发现当模型加入了个体效应的时候,将显著优于截距项为常数假设条件下的混合OLS模型。
但是无法明确区分FE or RE的优劣,这需要进行接下来的检验,如下:Step1:估计固定效应模型,存储估计结果Step2:估计随机效应模型,存储估计结果Step3:进行Hausman检验●qui xtreg sq cpi unem g se5 ln,feest store fequi xtreg sq cpi unem g se5 ln,reest store rehausman fe (或者更优的是hausman fe,sigmamore/ sigmaless)可以看出,hausman检验的P值为0.0000,拒绝了原假设,认为随机效应模型的基本假设得不到满足。
stata入门中文讲义_经济学_高等教育_教育专区
Stata及数据处理目录第一章STATA基础 (3)1.1 命令格式 (4)1.2 缩写、关系式和错误信息 (6)1.3 do文件 (6)1.4 标量和矩阵 (7)1.5 使用Stata命令的结果 (8)1.6 宏 (10)1.7 循环语句 (11)1.8 用户写的程序 (15)1.9 参考文献 (15)1.10 练习 (15)第二章数据管理和画图 (18)2.1数据类型和格式 (18)2.2 数据输入 (19)2.3 画图 (21)第3章线性回归基础 (22)3.1 数据和数据描述 (22)3.1.1 变量描述 (23)3.1.2 简单统计 (23)3.1.3 二维表 (23)3.1.4 加统计信息的一维表 (26)3.1.5 统计检验 (26)3.1.6 数据画图 (27)3.2 回归分析 (28)3.2.1 相关分析 (28)3.2.2 线性回归 (29)3.2.3 假设检验 Wald test (30)3.2.4 估计结果呈现 (30)3.3 预测 (34)3.4 Stata 资源 (35)第4章数据处理的组织方法 (36)1、可执行程序的编写与执行 (36)方法1:do文件 (36)方法2:交互式-program-命令 (36)方法3:在do文件中使用program命令 (38)方法4:do文件合并 (39)方法5:ado 文件 (40)2、do文件的组织 (40)3、数据导入 (40)4、_n和_N的用法 (44)第一章STATA基础STATA的使用有两种方式,即菜单驱动和命令驱动。
菜单驱动比较适合于初学者,容易入学,而命令驱动更有效率,适合于高级用户。
我们主要着眼于经验分析,因而重点介绍命令驱动模式。
图1.1Stata12.1的基本界面关于STATA的使用,可以参考Stata手册,特别是[GS] Getting Started with Stata,尤其是第1章A sample session和第2章The Stata User Interface。
stata应用高级培训教程 Stata_III-4-2_TS_Unit_Root_test
type(trend)
. gen t=b1/se1
南开大学数量经济研究所 王群勇
Unit root test: nonstationary examples
(1) yt = δ0 + δ1 t + ut, (2) yt = δ0 + ut, t<200; yt = δ1 + ut, t>=200
(3) xt = xt-1 + ut
(4) xt = α + xt-1 + ut Simulate: α=2, beta1=0.02, Sigma=5
(2)I(1)对I(0)回归 (3)I(0)对I(1)回归 (4)I(2)对I(2)回归
13 《STATA应用高级培训教程》 南开大学数量经济研究所 王群勇
Unit root test: DF model I
另外一种形式: D. yt = (ρ-1) yt-1 + ut , D. yt = ρ yt-1 + ut , ρ = ρ - 1 零假设和备择假设是 H0: ρ = 0, ( yt非平稳) H1:ρ < 0, ( yt平稳) 这种模型形式的变化并不影响 DF统计量的值,检验规则仍 然是 若DF > 临界值,则yt是非平稳的; 若DF < 临界值,则yt是平稳的。
9
《STATA应用高级培训教程》
南开大学数量经济研究所 王群勇
stata第六讲【山大陈波】
利用极大似然估计方法拟合, Yhat=0 负的产出 Yhat<>0(通常yhat=1) 正的产出
例如: sysuse auto,clear logit foreign weight mpg
相当于计算如下概率: Pr(foreign = 1) = F(B0 + B1weight + B2mpg)
use brand,clear
tab brand
mlogit brand age female 结果分析 可以利用predict提取个体选择概率
predict p1 p2 p3
list 可以根据研究需要,自由地指定用来比较的base outcome(参照点)。 mlogit brand age female,base(3)
负二项回归模型
所谓负二项分布是指,在独立的实验中,成 功n次的时候,失败次数x的概率分布。当成 功n次时,实验停止,此时失败次数为x,那 么总的实验次数为(n+x),而且最后一次 (即第(n+x)次)是成功的。那么,前 (n+x-1)次试验中成功次数为(n-1)、失 败次数为x。负二项分布适用于当试验成功的 次数(n)确定下来后,试验失败的次数(x) 的分布。
伪随机数
例二: clear set obs 10000 gen x1 = uniform() gen x2 = uniform() list x1 x2 in 1/50 但是如果加上一句话:set seed 123,情况会 发生变化。
set seed 12345 gen x3 = uniform() set seed 12345 gen x4 = uniform() list x3 x4 in 1/50
3。自由度为k1,k2的F分布 clear rndf 1000 3 20 histogram xf
stata第五讲【山大陈波】
静态面板数据
静态面板数据模型,是指解释变量中不包含 被解释变量的滞后项(通常为一阶滞后项) 的 情形。但严格地讲,随机干扰项服从某种序 列相关的模型,如AR(1), AR(2), MA(1) 等, 也不是静态模型。静态面板数据主要有两种 模型------固定效应模型和随机效应模型。
面板数据的格式
company 1 1 1 1 2 2 2 2 3 3 3 3 year 1951 1952 1953 1954 1951 1952 1953 1954 1951 1952 1953 1954 invest 755.9 891.2 1304.4 1486.7 588.2 645.5 641 459.3 135.2 157.3 179.5 189.6 mvalue 4833 4924.9 6241.7 5593.6 2289.5 2159.4 2031.3 2115.5 1819.4 2079.7 2371.6 2759.9
究竟该用OLS 还是IV
即解释变量是否真的存在内生性? 假设能够找到方程外的工具变量。 1。如果所有解释变量都是外生变量,则OLS 比IV 更有效。在这种情况下使用IV,虽然估 计量仍然是一致的,会增大估计量的方差。2。 如果存在内生解释变量,则OLS 是不一致的, 而IV 是一致的。
豪斯曼检验(Hausman specification test)原假设: H0 :所有解释变量均为外生变量。 H1:至少有一个解释变量为内生变量。 quietly reg lw80 s80 expr80 tenure80 iq est store ols quietly ivregress 2sls lw80 expr80 tenure80 (s80 iq=med kww mrt age) est store iv hausman iv ols
STATA入门PPT课件
一、数据录入、打开与保存
1.数据录入与读取
直接录入数据 input命令 读入ASCII格式原始数据——使用insheet、 infile、infix等命令 使用Stat/Transfer软件
一、数据录入、打开与保存
2. STATA数据打开 双击直接打开
Do文件中使用use命令
一、数据录入、打开与保存
[STATA演示]
三、变量类型与简单描述统计方法
7. 离散与连续变量
通常,离散变量包括了定类变量和定序变量,统计 描述可参照之;而连续变量包括了定距变量和定比 变量,统计描述同样可参照之。 值得注意的是,在社会科学研究中,定距变量和定 比变量很少单独区分。
四、练习与作业
【1】请在2014年卫计委流动人口动态监测调查数据 之“社会融合与心理健康问卷”部分识别各变量 设置的层次。
二、基本的STATA数据处理命令
6.生成虚拟(哑)变量的命令 –tab region, generate(region) 7.帮助命令
–help command
三、变量类型与简单描述统计方法
1. 变量类型
区分标准之一:离散变量与连续变量
区分标准之二:定比变量、定距变量、 定序变量与定类变量
三、变量类型与简单描述统计方法
第二讲:STATA入门
1.统计软件:STATA14.0
2.数据准备:① 2014年卫计委流动人口动态监测调 查数据之“社会融合与心理健康问卷”部分;②农 民工随迁子女城市融入课题组的“外出务工调查数 据”。
1. 数据录入、打开与保存 2. 基本的STATA数据处理命令 3. 变量类型与简单描述统计方法 4. 练习与作业
4.删除变量或观察值命令 – drop命令 – drop in 1/10 or (-10/-1) – keep命令 – keep var1 var2… – keep if
stata双重差分分组虚拟变量前系数解释
文章标题:深度解析stata双重差分分组虚拟变量前系数解释在统计学和经济学领域中,双重差分分析是一种常用的分析方法,用于评估政策或处理效果的影响。
而在stata中,使用虚拟变量进行分组的双重差分分析更是一种常见的做法。
本文将深入探讨stata双重差分分组虚拟变量前系数的解释,以帮助读者更全面、深入地理解这一分析方法。
1. 解释双重差分分析的基本原理双重差分分析是一种比较组内差异和组间差异的分析方法,通常用于评估政策或处理效果的影响。
在stata中,我们可以通过引入虚拟变量来进行分组,以更清晰地观察不同组别在政策或处理前后的变化情况。
而双重差分分析则是在此基础上,进一步对分组虚拟变量前系数进行解释,以评估政策或处理效果的准确性和显著性。
2. 使用stata进行双重差分分析在stata中,进行双重差分分析通常需要使用regress命令,并引入交互项虚拟变量。
在进行分组虚拟变量前系数解释时,我们可以通过引入交互项虚拟变量来观察不同组别在政策或处理前后的变化。
此时,我们需要关注虚拟变量前系数的显著性水平,以确定政策或处理效果的实质影响。
3. 虚拟变量前系数的解释在进行双重差分分组虚拟变量前系数解释时,我们首先需要考虑虚拟变量的选择和设置。
在stata中,我们可以通过dummy variable命令来为虚拟变量设置多个组别,并通过tab命令来查看各组别的统计特征。
之后,我们可以使用regress命令引入交互项虚拟变量,并通过t检验或F检验来评估虚拟变量前系数的显著性。
我们可以通过边际效应图来直观地展示虚拟变量前系数的变化情况,以帮助读者更好地理解分析结果。
4. 个人观点和理解在我的个人理解中,双重差分分组虚拟变量前系数的解释在评估政策或处理效果时起着至关重要的作用。
通过深入分析不同组别在政策或处理前后的变化情况,我们可以更准确地评估政策或处理的实质影响。
而stata作为一个强大的统计分析工具,提供了丰富的命令和功能,能够帮助我们更全面、深入地进行双重差分分析。
Stata操作讲义
Stata操作讲义第一讲Stata操作入门第一节概况Stata最初由美国计算机资源中心(Computer Resource Center)研制,现在为Stata公司的产品,其最新版本为7.0版。
它操作灵活、简单、易学易用,是一个非常有特色的统计分析软件,现在已越来越受到人们的重视与欢迎,并且与SAS、SPSS一起,被称为新的三大权威统计软件。
Stata最为突出的特点是短小精悍、功能强大,其最新的7.0版整个系统只有10M左右,但已经包含了全部的统计分析、数据管理与绘图等功能,尤其是他的统计分析功能极为全面,比起1G以上大小的SAS系统也毫不逊色。
另外,由于Stata在分析时是将数据全部读入内存,在计算全部完成后才与磁盘交换数据,因此运算速度极快。
由于Stata的用户群始终定位于专业统计分析人员,因此他的操作方式也别具一格,在Windows席卷天下的时代,他一直坚持使用命令行/程序操作方式,拒不推出菜单操作系统。
但是,Stata的命令语句极为简洁明快,而且在统计分析命令的设置上又非常有条理,它将相同类型的统计模型均归在同一个命令族下,而不同命令族又可以使用相同功能的选项,这使得用户学习时极易上手。
更为令人叹服的是,Stata语句在简洁的同时又拥有着极高的灵活性,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。
除了操作方式简洁外,Stata的用户接口在其他方面也做得非常简洁,数据格式简单,分析结果输出简洁明快,易于阅读,这一切都使得Stata成为非常适合于进行统计教学的统计软件。
Stata的另一个特点是他的许多高级统计模块均是编程人员用其宏语言写成的程序文件(ADO文件),这些文件可以自行修改、添加与下载。
用户可随时到Stata网站寻找并下载最新的升级文件。
事实上,Stata的这一特点使得他始终处于统计分析方法发展的最前沿,用户几乎总是能很快找到最新统计算法的Stata程序版本,而这也使得Stata自身成了几大统计软件中升级最多、最频繁的一个。
stata第五讲【山大陈波】
第五页,编辑于星期三:五点 四十四分。
使用grilic.dta估计教育投资的回报率。 变量说明:lw80(80年工资对数),s80(80
年时受教育年限),expr80(80年时工龄), tenure80(80年时在现单位工作年限), iq (智商),med(母亲的教育年限),kww (在‘knowledge of the World of Work’测试 中的成绩),mrt(婚姻虚拟变量,已婚=1), age(年龄)。
第十三页,编辑于星期三:五点 四十四分。
究竟该用OLS 还是IV
即解释变量是否பைடு நூலகம்的存在内生性? 假设能够找到方程外的工具变量。 1。如果所有解释变量都是外生变量,则OLS
比IV 更有效。在这种情况下使用IV,虽然估计 量仍然是一致的,会增大估计量的方差。2。 如果存在内生解释变量,则OLS 是不一致的, 而IV 是一致的。
第十八页,编辑于星期三:五点 四十四分。
company
1 1 1 1 2 2 2 2 3 3 3 3
面板数据的格式
year
1951 1952 1953 1954 1951 1952 1953 1954 1951 1952 1953 1954
invest
755.9 891.2 1304.4 1486.7 588.2 645.5 641 459.3 135.2 157.3 179.5 189.6
quietly ivregress 2sls lw80 expr80 tenure80 (s80 iq=med kww mrt age) est store iv
hausman iv ols
第十五页,编辑于星期三:五点 四十四分。
stata操作介绍之基础部分(一)讲述
录入相应的数值
2.用STATA的数据编辑器 ①进入数据编辑器 进入stata界面,在命令栏键入edit或在stata的window下拉菜单中单击data editor 编辑图标 (注意: 是浏览图标,点击后只能浏览,不能编辑)即可进入 stata数据编辑器。 ②数据编辑 stata 数据编辑器界面:此时进入了数据全屏幕编辑状态。
3、绘图功能 4、与其他软件的区别
1.5 工具书、论坛推荐
• Stata工具书: 1、Stata实用教程——王天夫、李博柏著(基础教程) 2、应用Stata做统计分析——汉密尔顿著;郭志刚等译(最全教程) • Stata学习相关资料 1、经管之家论坛:/forum-67-1.html 2、Stata官方论坛:/links/resources.html
• 命令回顾窗口:即 review 窗口,位于界面左上方,所有执行过的 命令会依 次在该窗口中列出,选中某一行单击后命令即被自动拷 贝到命令窗口中;如果需 要重复执行,用鼠标双击相应的命令行 即可。
• 变量名窗口:位于界面左下方,列出当前数据集中的所有变量名 称,。 除以上四个默认打开的窗口外,在 Stata 中还有数据编辑 窗口、程序文件编 辑窗口、帮助窗口、绘图窗口、Log 窗口等, 如果需要使用,可以用 Window 或 Help 菜单将其打开。
有点stata数据编辑器第一格即可复制全部数据。复制会问你是否把第一行作为变量。
方法二:导入的方式 先做好excel数据文件,并以“xml 表格(*.xml)”的形式保存,注意不能以“xml 数据(*.xml)”的形 式保存。而且注意,保存时不能在第一行中输入变量名,只能全部为数据。
• 数据的输出可通过命令直接输出和使用菜单栏输出: 1、命令输出格式 outsheet [ varlist ] using filename [ if ] [ in ] [ ,opt ] 2、使用菜单栏输出 File>>Export>>Excel spreadsheet(*.xls,*xlsx)>>选中要输出的,设 置文件名,再点击确认即可(也可以选择其它输出格式)。
第一讲 stata基础----山大stata实验课讲义
不同版本对样本容量、变量个数、矩阵阶数、 宏的字符长度等有着不同的限制。 以stata 12的SE版为例,其最大变量个数为 32767,最大字符长度为244字节,最大矩 阵阶数为11000(即1100011000)。 Stata默认值为:变量个数为5000,最大矩 阵阶数为400,内存容量为10兆。如果用户 需要更多的内存或者更多的变量,可以在命 令栏输入如下命令进行扩展。 set maxvar 8000 <最大变量个数8000个。 > set memory 50m <占内存50兆。>
Stata的文件
最重要的有三类文件 1。文件名.dta 数据文件 2。文件名.do 命令文件 3。文件名.ado 程序文件
Stata自带的示例数据表
为了方便大家学习,stata中有很多自带示例 数据,绝大部分数据都是美国的一些真实统 计数据,较新的数据和统计资料可以到stata 网站中下载。 注意:所有系统自带的数据需要用sysuse命 令打开。
Stata的窗口介绍
命令窗口 结果窗口 命令回顾窗口 变量窗口 变量和数据属性窗口
Stata的菜单介绍
最重要的菜单项: Data菜单 Graphic菜单 Statistics菜单 每执行一个菜单性会自动产生相应的命令。(我们 以summarize为例加以阐述)。 我们的讲述尽量兼顾到命令操作和菜单操作两种方 法,以命令方式为主。
命令格式简介
stata命令格式 [by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options] 1。Command 命令动词,经常用缩写。 2。varlist 表示一个变量或者多个变量,多 个变量之间用空格隔开。如 sum price weight 3。 by varlist 分类信息 按照某一变量的 不同特性分类
stata十八讲(人民大学陈传波)
STATA十八讲目录STATA十八讲 (1)目录 (2)前 言 (6)1 STATA入门 (9)1.1安装 (9)1.2启用和退出 (9)1.3打开和查看数据 (11)1.4寻求帮助与网络资源 (12)1.5命令示例 (13)1.6几个环境设置 (14)1.7复习和练习 (15)1.8附录 (16)2命令语句 (18)2.1掌握命令语句的格式 (18)2.2命令command (18)2.3变量varlist (18)2.4 分类操作by varlist (19)2.5 赋值及运算=exp (19)2.6 条件表达式if exp (20)2.7 范围筛选in range (20)2.8 加权weight (20)2.9 其他可选项,options (21)2.10 复习与练习 (22)3数据 (23)3.1 打开示例数据和网络数据:use (23)3.2数据类型 (24)3.3数据类型转化 (27)3.4数据显示格式:format (29)3.5 在STATA中直接录入数据:input (30)3.6导入其他格式数据:insheet (33)3.7标签数据:label (35)3.8 复习与练习 (38)4 数据整理 (39)4.1拆分与连接数据文件要掌握的命令 (39)4.2案例:拆分与连接数据 (39)4.3案例:连接数据文件 (42)4.4数据重整 (42)4.5案例:数据转置 (44)4.6字符运算 (45)4.7复习与作业 (45)5函数与运算符 (47)5.1运算符exp (47)5.3数学函数math functions (50)5.4字符函数string functions (53)5.5 分类操作by (54)6 程序 (57)6.1 标准的程序文件格式 (57)6.2创造自己的命令:与STATA互致问候 (57)6.3 暂元Macros: local/global (60)6.4 自带命令参数 (62)6.5 scalar标量 (63)6.6临时变量和临时数据文件:tempvar和tempfile (64)6.7 基尼系数命令的创建案例(选学内容) (65)7 流程语句 (70)7.1循环语句:while (70)7.3循环语句:forvalues (71)7.3循环语句:foreach (72)7.4嵌套循环 (74)7.5条件语句 (75)7.6复习和练习 (77)8 矩阵 (78)8.1生成矩阵 (78)8.2矩阵四则运算 (79)8.3矩阵函数 (81)8.4随机向量与矩阵代数(选学内容)...............................................错误!未定义书签。
第2章-Stata简介
11 11 11 12 12 12 12 12 12 12 12 12 12 12 12 14 15 15 15 16 16 16 16 16 16 16 16 16 16 18
1 1.006 2.962 0 0 0 7.128 0 0 10.077 .916 4.333 .692 0 1.191 1.378 .255 .846 1.374 0 6.363 1.511 0 .478 .277 4.363 1.872 .798 .556 .384
6.215 5.979 6.315 5.841 6.136 6.071 6.176 6.068 6.071 5.501 6.109 5.849 5.759 5.652 5.652 5.964 5.142 5.481 5.481 5.416 6.12 5.165 5.493 6.356 5.823 5.529 6.082 5.704 5.778 4.868
13
图 2.13 Variables Manager 图标 比如,将变量 s 的标签改为“schooling”,然后点击“Apply”(应 用),参见图 2.14。
图 2.14 变量管理器的对话框
14
Stata 严格区分大小写字母(case sensitive)。建议变量名使用小写 字母,便于阅读。 3.审视数据 如想看数据集中的变量名称、标签等,可输入命令 . describe 其中,“describe”的下划线表示,可将该命令简写为“d”。
s 1. 2. 3. 4. 5. 18 11 16 16 12 lnw 6.215 4.868 6.315 6.109 5.964
17
如要罗列从第 11-15 个观测值,可输入命令 . list s lnw in 11/15
Stata专题)b
李红、李阳, 2012秋季
以上方法也可以用于回归计算,比如: regress y x L1.x L2.x regress y x F1.x F2.x regress y x D1.x
李红、李阳, 2012秋季
(四)相关图
为了研究两个时间序列数据之间的关系,我 们用到命令xcorr+自变量+因变量。 xcorr gdp unemp, lags(10) xlabel(10(1)10,grid)
李红、李阳, 2012秋季
(二)定义时间序列在stata中的实现
在进行时间序列的分析之前,首先要定义变量为时 间序列数据。只有定义之后,才能对变量使用时间 序列运算符号,也才能使用时间序列分析的相关命 令。定义时间序列用tsset命令,其基本命令格式为: tsset timevar [, options] 其中, timevar为时间变量。Options分为两类,或 者定义时间单位,或者定义时间周期(即timevar两 个观测值之间的周期数)。Options的相关描述如表 11-1所示。
李红、李阳, 2012秋季
上例中,我们使用的是r的5%的临界值,那 么我们也可以估计r的1%的临界值。 输入命令:vecrank y i c, lags(5) level99
改变临界值之后,选择的最终r值也由原来的r=2变为r=1.
李红、李阳, 2012秋季
S7a. 平稳时间序列模型
自相关(命令语句:ac)与偏相关(pac)
李红、李阳, 2012秋季
输入命令dfuller unempD1
-6.778<-3.480不存 在单位根
李红、李阳, 2012秋季
line unempD1 datevar
Stata门限模型的操作和结果详细解读
S t a t a门限模型的操作和结果详细解读(总3页)-CAL-FENGHAI.-(YICAI)-Company One1-CAL-本页仅作为文档封面,使用请直接删除一、门限面板模型概览?如果你不愿意看下面一堆堆的文字,更不想看计量模型的估计和检验原理,那就去《数量经济技术经济研究》上,找一篇标题带有“双门槛(或者双门限)”的文章,浏览一遍,看看文章计量部分列示的统计量和检验结果。
这样,在软件操作时,你就知道每一步得到的结果有什么意义,怎么解释了,起码心里会有点印象。
一般情况下,一个研究生花费在研究上的时间越多,他的成果越丰富,也就是说,研究成果和研究时间存在某种正向关联。
但是,这种关联是线性的吗在最初阶段,他可能看了两三年的文献,也没有写出一篇优秀的文章,但是一旦过了这个基础期,他的能量和成果将如火山爆发一样喷涌出来,此时,他投入少量的时间,就能产出大量优质文章。
再过几年,他可能会进入另外一种境界,虽然比以前有了极大提高,但是研究进入新的瓶颈期,文章发表的数量减少。
由此可以看出,研究成果与研究年限存在一种阶段性的线性关系。
这个基础期的结点、瓶颈期的起点就像“门槛”一样把研究阶段分成三个部分,在不同部分,成果和时间的线性关系都不同。
这个效应被称为门槛效应或门限效应。
门限效应,是指当一个经济参数达到特定的数值后,引起另外一个经济参数发生突然转向其它发展形式的现象。
作为原因现象的临界值称为门限值。
在上面的例子中,成果和时间存在非线性关系,但是在每个阶段是线性关系。
有些人将这样的模型称为门槛模型,或者门限模型。
如果模型的研究对象包含多个个体多个年度,那么就是门限面板模型。
汉森(Bruce E. Hansen)在门限回归模型上做出了很多贡献。
了解门限模型最好的办法,首先就要阅读他的文章。
他的文章很有特点:条理很清晰,推导过程详细,语言简练,语法不复杂。
有关他的论文、程序、数据可以参考Hansen的个人网站:/~bhansen/progs/progs_subject.htm。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
作业2
陈老师布置的关于美国电力的生产函数
自己练习:为下列变量增加标签 educ:受教育年限。 exper:工龄。 tenure:现有岗位任期。
为变量值增加标签 例如:为变量marrid添加数值标签marry: 1=married; 0=Unmarried 菜单:Data->Labels->Label values->Define or modify label values Data->Labels->Label values->Assign label values to variable 命令: . label define marry 1 “married” 0 “unmarried" . label values married marry
4。标准化系数 reg price mpg weight foreign, beta 5。部分数据回归 reg price mpg weight length foreign in 1/30 (为什么foreign被drop掉?) reg price mpg weight length if foreign==0
Stata上机实验
作业解答
作业1答案 作业2答案
添加标签
1。为整个数据添加标签:例如,将数据命名 为“工资表”。 菜单:Data->Labels->Label dataset 命令:label data “工资表“ 2。为变量增加标签,例如,给变量wage增 加标签“年工资总额” 菜单:Data->Labels->Label variables 命令 label variable wage “年工资总额"
小样本OLS
小样本OLS假设条件较为严格 假设1: 二者之间存在线性关系 y = a0 + a1*x1 + a2*x2 + ... + ak*xk +ε y = Xb +ε 假设2: X 是满秩的,i.e. rank(X) = k 假设3: 干扰项的条Байду номын сангаас期望为零(严格外生性) * E[ε| X] = 0
约束回归
定义约束条件 constraint define n 条件 约束回归语句 Cnsreg 被解释变量 解释变量, constraints(条 件编号)
约束回归
例一:打开production cons def 1 lnl+lnk = 1 cnsreg lny lnl lnk, c (1) 例二:sysuse auto,clear cons def 1 price = weight cons def 2 displacement = weight cons def 3 gear_ratio = -foreign cnsreg mpg price weight displacement gear_ratio foreign length, c(1-3) (本题没有什么经济意义,只是让大家熟悉这种方法)
例题
例一:利用wage2的数据检验明瑟(mincer)工 资方程的简单形式: Ln(wage)=b0+b1*educ+b2*exper +b3*exper^2+ u
例二:利用phillips的数据拟合预期增强的菲 利普斯曲线为
inft − inft = β1(unemt − µ0 ) + ut
e
例三:我国某地区1955---1984农产品收购量 sg、库存量kc存放在文件warehouse.dta中 估计如下方程: Sgt=a+b0kct+b1kct-1+u
回归后预测值的获得
Predict 1。拟合值的获得: predict yhat, xb 或者 predict yhat 2。残差的获得 predict e , residuals 或者 predict e, res
回归的假设检验
Test命令 例一 sysuse auto, clear reg price mpg weight length 1。检验参数的联合显著性 2。分别检验各参数的显著性 3。三个参数对被解释变量的影响相同
例二: use wage2, clear reg lnwage educ tenure exper expersq 1。教育(educ)和工作时间(tenure)对工资的 影响相同。 test educ=tenure 2。工龄(exper)对工资没有影响 test exper 或者 test exper =0 3。检验 educ和 tenure的联合显著性 test educ tenure 或者 test (educ=0) (tenure=0)
2。还可以将变量转换为矩阵 mkmat 变量名表,mat(矩阵名) 练习:sysuse auto reg price mpg weight foreign 要求:利用矩阵运算手动计算出参数
gen cons = 1 mkmat price, mat(y) mkmat mpg weight foreign cons, mat(X) mat b = inv(X'*X)*X'*y mat list b mat list y mat list X
我们可以利用矩阵运算的方法将回归结果展 现的所有统计量都手动计算出来。 大家有兴趣回去做一遍,可以加深你对这些 知识的理解。
逐步回归法
逐步回归法分为逐步剔除和逐步加入。 逐步剔除又分为逐步剔除(Backward selection)和逐步分层剔除 (Backward hierarchical selection) 1。逐步剔除 stepwise, pr(显著性水平): 回归方程 例如:对auto数据 Stepwise,pr(0.05):reg price mpg rep78 headroom trunk weight length turn displacement gear_ratio foreign 2。逐个分层剔除 Stepwise,pr(0.05) hier:reg price mpg rep78 headroom trunk weight length turn displacement gear_ratio foreign 去掉foreign 重新做一遍
回归结果解读
系数/标准误差= t值 P值 系数=0的概率为 p值 在5%的水准上显著不为0 否则和0的差异不显著 0 95%下限=估计值-t值*标准误差 95%下限=估计值+t值*标准误差 置信区间: 系数在95%的概率下会落在---之间 跨越0,则与0不显著
模型常用的其他形式: 对数 平方项 n次方 指数 交乘项 虽然对函数形式的选择有检验方法,但最好 还是从“经济意义”角度确定。
逐步加入又分为逐步加入(Forward selection)和逐步分层加 入(Forward hierarchical selection) 1。逐步加入 stepwise, pe(显著性水平): 回归方程 例如:对auto数据 Stepwise,pe(0.05):reg price mpg rep78 headroom trunk weight length turn displacement gear_ratio foreign 2。逐个分层加入 Stepwise,pe(0.05) hier:reg price mpg rep78 headroom trunk weight length turn displacement gear_ratio foreign
其中,unemt表示第t期的失业率(%),inft 表示第t期的通货膨胀率(%),infte表示预 期通货膨胀率,µ0表示自然失业率(%)。 按照适应性预期理论,infte = inft-1。 令∆inft=inft - inft-1,上述模型可以简化为:
∆inft = β0 + β1unemt + ut
例三:生产函数production use production,clear reg lny lnl lnk test lnl lnk test (lnl=0.8) (lnk=0.2) test lnk+lnl=1
非线性检验:testnl
例一 . sysuse auto gen weight2 = weight^2 reg price mpg trunk length weight weightsq foreign testnl _b[mpg] = 1/_b[weight] testnl (_b[mpg] = 1/_b[weight]) (_b[trunk] = 1/_b[length])
杠杆样本点: reg price mpg weight foreign predict lev, leverage lvr2plot lvr2plot, mlabel(make)
作业1
考察工资方程(数据文件:cps78-85.dta) Log(wage) = Xb+u X中包括educ=教育、exper=工龄、exper2=工龄平 方、tenure=现有岗位的任期、female=性别(女 =1)、y85=85年、y85educ=交叉积、y85fem=交 叉积。 1。建立回归模型 2。给出各参数的99%置信区间 3。检验H1:educ、tenure对工资影响相同、H2: 教育对收入没有影响4。预测拟合值和残差 5。观测离群值和杠杆值
通过上课的学习我们得到:
ˆ = (X' X)−1 X' y β
习惯上我们用 y_hat = X*b /* 被解释变量的拟合值*/ e = y - y_hat = y - Xb /* 残差 */
建立回归方程
打开系统文件auto,建立如下方程: sysuse auto,clear regress price mpg weight foreign Regress命令详解: regress depvar [indepvars] [if] [in] [weight] [, options]