stata常见问题及解决办法个人总结笔记

合集下载

stata学习笔记

stata学习笔记

经济数据的特点与类型。

1、横截面数据:多个经济个体的变量在同一时间点上的取值,如2012年中国各省的GDP2、时间数列数据:指的是某个经济个体的变量在不同时点上的取值,如1978-2012年山东省每年的GDP3、面板数据:多个经济个体的变量在不同时点上的取值,如1978-2012年中国各省的GDP 小样本OLS(最小二乘法):单一方程线性回归最常见方法条件:解释变量与扰动项正交、扰动项无自相关、同方差。

拟合优度:衡量线性回归模型对样本数据的拟合程度(R2),越高说明模型拟合程度越好。

单系数T检验:对回归方程扰动项的具体概率进行假设显著性水平进行检验F检验:整个回归方程是否显著STATA操作简介:如果数据中包含1949-10-01或1949/10/01的时间变量,导入stata后可能会被视为字符串,因此对于日度数据,可以使用命令gen newvar=date(varname,YMD),将其转换为整数日期变量,其中YMD说明原始数据的格式为年月日,如果原始数据的格式为月日年则使用MDY;对于月度数据则gen newvar=monthly(varname,YM)。

.describe:数据的概貌.drop keep:删除和保留.su:统计特征Pwcorr:变量之间相关系数Star(.05):5%显著性水平gen:产生g intc=log(tc):取自然对数. reg:OLS回归.Vce:协方差矩阵reg。

,noc表示在进行回归时不要常数项大样本OLS:只要求解释变量与同期的扰动项正交即可Robust:稳健标准误,如果存在异方差,则应使用稳健标准误最大似然估计法:如果回归方程存在非线性,则使用最大似然估计法(MLE )或非线性最小二乘法(NLS )三类在大样本下渐进等价的统计检验:Wald test LR (似然比检验) LM操作步骤如下:sysuse auto (调用数据集)Hist mpg ,normal (画变量mpg 的直方图,并与正态密度比较)D e n s i t y直方图显示,变量mpg 的分布于正态分布有一定差距。

stata常见问题及解决办法个人总结笔记

stata常见问题及解决办法个人总结笔记

1. 如何输出STATA的图,和保存先输入数据(1)Twoway connected 变量1 变量2 怎样在stata8中做HAUSMAN检验四步曲,重点在于解释结果(1)xtreg y x , fe(2)est store fe(3)xtreg y x, re(4)hausman fe如果拒绝,说明corr(x,ui)=0的假设是有问题的,需要重新设定RE model 后再进行检验,如果模型的设定没有问题,但检验还是拒绝原假设(p值接近0),那么就只能采用FE model 了,因为此时的RE 估计量是有偏的。

(definitely right. 当你使用stata的时候,最重要的命令不是这些是help and find it然后就能找到你的答案了)hausman检验是用来检验用fe还是re的,其原假设是re优于fe,从你的结果来看( Prob>chi2 =),应该拒绝原假设,所以应该用fe3.stata里平方的命令怎么写gen age=age^24. stata里边怎么取对数啊gen lnx=log(x)5.如何用STATA求自然对数如说:ln(X^2)=,如何求X啊. dis sqrt(exp)或者dis exp2)6.关于hausman检验,结果是CHI2(2)=,prob>chi2=,可以使用随机效应模型嘛prob>chi2=,is like p-value.we should reject the null, so fixed effect is effect is not suggested. CHI2(2)=,就意味着拒绝原假设,从而选取固定效应模型。

7.我在做gdp一阶差分单位根检验的时候,输入的命令是ipshin dgdp,lags(1)得到的结果:Im-Pesaran-Shin test for cross-sectionally demeaned dgdpDeterministics chosen: constantt-bar test, N,T = (27,7) Obs= 135 Augmented by 1 lags (average) t-bar cv10 cv5 cv1 W[t-bar] P-value 我不会看这个结果,请问怎么看时否存在单位根阿看哪个数值啊零假设含有单位根,W[t-bar] = , P-value = 。

STATA实用学习笔记

STATA实用学习笔记

北京科技大学STATA应用学习摘录第一章 STATA的基本操作一、设置内存容set mem 500m, perm一、显示输入内容Display 1Display “clive”二、显示数据集结构describeDescribe /d三、编辑editEdit四、重命名变量Rename var1 var2五、显示数据集内容list/browseList in 1List in 2/10六、数据导入:数据文件是文本类型(.csv)1、insheet: . insheet using “C:\Documents and Settings\Administrator\桌面\ST9007\dataset\Fees1.csv”, clear2、内存为空时才可以导入数据集,否则会出现(you must start with an empty dataset)(1)清空内存中的所有变量:.drop _all(2)导入语句后加入“clear”命令。

七、保存文件1、save “C:\Documents and Settings\Administrator\桌面\ST9007\dataset\Fees1.dta”2、save “C:\Documents and Settings\Administrator\桌面\ST9007\dataset\Fees1.dta”, replace八、打开及退出已存文件use1、.Use 文件路径及文件名, clear2、. Drop _all/.exit九、记录命令和输出结果(log)1、开始建立记录文件:log using "J:\phd\output.log", replace2、暂停记录文件:log off3、重新打开记录文件:log on4、关闭记录文件:log close十一、创建和保存程序文件:(doedit, do)1、打开程序编辑窗口:doedit2、写入命令3、保存文件,.do.4、运行命令:.do 程序文件路径及文件名十二、多个数据集合并为一个数据集(变量和结构相同)纵向合并appendinsheet using "J:\phd\Fees1.csv", clearsave "J:\phd\Fees1.dta", replaceinsheet using "J:\phd\Fees2.csv", clearappend using "J:\phd\Fees1.dta"save "J:\phd\Fees1.dta", replace十三、横向合并,在原数据集基础上加上另外的变量merge1、insheet using "J:\phd\Fees1.csv", clearsort companyid yearendsave "J:\phd\Fees1.dta", replacedescribeinsheet using "J:\phd\Fees6.csv", clearsort companyid yearendmerge companyid yearend using "J:\phd\Fees1.dta"save "J:\phd\Fees1.dta", replacedescribe2、_merge==1 obs. From master data_merge==2 obs. From using data_merge==3 obs. From both master and using data十四、帮助文件:help1、. Help describe十五、描述性统计量1、summarize incorporationyear 单个summarize incorporationyear-big6 连续多个summarize _all or simply summarize 所有2、更详细的统计量summarize incorporationyear, detail3、centilecentile auditfees, centile(0(10)100)centile auditfees, centile(0(5)100)4、tabulate不同类型变量的频数和比例tabulate companytypetabulate companytype big6, column 按列计算百分比tabulate companytype big6, row 按行计算百分比tab companytype big6 if companytype<=3, row col 同时按行列和条件计算百分比5、计算满足条件观测的个数count if big6==1count if big6==0 | big6==16、按离散变量排序,对连续变量计算描述性统计量:(1)by companytype, sort: summarize auditfees, detail(2)sort companytypeBy companytype:summarize auditees十六、转换变量1、按公司类型将公开发行股票公司赋值为1,其他为0gen listed=0replace listed=1 if companytype==2replace listed=1 if companytype==3replace listed=1 if companytype==5replace listed=. if companytype==.十七、产生新变量genGenerate newvar=表达式十八、数据类型3、新建变量的过程中定义数据类型●gen str3 gender= "male"●list gender in 1/104、变量所占字节过长●drop gender●gen str30 gender= "male"●browse●describe gender●compress gender5、日期数据类型:%d dates, which is a count of the number of days elapsed since January 1, 1960。

stata笔记常用

stata笔记常用

stata笔记常用Stata: 输出regression table到word和excel1. 安装estout。

最简单的方式是在stata的指令输入:ssc install estout, replaceEST安装的指导网址是:2.跑你的regression3.写下这行指令esttab using test.rtf,然后就会出现个漂亮的表格给你(WORD文档)。

只要再小幅修改,就可以直接用了。

这个档案会存在my document\stata下。

如果你用打开的是一个stata do file,结果会保存到do文件所在文件夹中。

如果要得到excel文件,就把后缀改为.xls或者.csv就可以了4.跑多个其实也不难,只要每跑完一个regression,你把它取个名字存起来:est store m1。

m1是你要改的,第一个model所以我叫m1,第二个的话指令就变成est store m2,依次类推。

5.运行指令:esttab m1 m2 ... using test.rtf就行了。

异方差的检验:Breusch-Pagan test in STATA:其基本命令是:estat hettest var1 var2 var3其中,var1 var2 var3 分别为你认为导致异方差性的几个自变量。

是你自己设定的一个滞后项数量。

同样,如果输出的P-Value 显著小于0.05,则拒绝原假设,即不存在异方差性。

White检验:其基本命令是在完成基本的OLS 回归之后,输入imtest, white如果输出的P-Value 显著小于0.05,则拒绝原假设,即不存在异方差性处理异方差性问题的方法:方法一:WLSWLS是GLS(一般最小二乘法)的一种,也可以说在异方差情形下的GLS就是WLS。

在WLS下,我们设定扰动项的条件方差是某个解释变量子集的函数。

之所以被称为加权最小二乘法,是因为这个估计最小化的是残差的加权平方和,而上述函数的倒数恰为其权重。

(完整版)Stata学习笔记和国贸理论总结

(完整版)Stata学习笔记和国贸理论总结

Stata学习笔记一、认识数据(一)向stata中导入txt、csv格式的数据1.这两种数据可以用文本文档打开,新建记事本,然后将相应文档拖入记事本即可打开数据,复制2.按下stata中的edit按钮,右键选择paste special3.*.xls/*.xlsx数据仅能用Excel打开,不可用记事本打开,打开后会出现乱码,也不要保存,否则就恢复不了。

逗号分隔的数据常为csv数据。

(二)网页数据网页上的表格只要能选中的,都能复制到excel中;网页数据的下载可以通过百度“国家数据”进行搜索、下载二、Do-file 和log文件打开stata后,第一步就要do-file,记录步骤和历史记录,方便日后查看。

Stata处理中保留的三种文件:原始数据(*.dta),记录处理步骤(*.do),以及处理的历史记录(*.smcl)。

三、导入StataStata不识别带有中文的变量,如果导入的数据第一行有中文就没法导入。

但是对于列来说不会出现这个问题,不分析即可(Stata不分析字符串,红色文本显示;被分析的数据,黑色显示);第一行是英文变量名,选择“Treat first row as variable names”在导入新数据的时候,需要清空原有数据,clear命令。

导入空格分隔数据:复制——Stata中选择edit按钮或输入相应命令——右键选择paste special——并选择,确定;导入Excel中数据,复制粘贴即可;逗号分隔数据,选择paste special后点击comma,然后确定。

Stata数据格式为*.dta,导入后统一使用此格式。

四、基本操作(几个命令)(一)use auto,clear 。

在清空原有数据的同时,导入新的auto数据。

(二)browse 。

浏览数据。

(三)describe 和list。

查看数据,describe 和list 使用list命令能使我们根据自己的需要选择数据(例如其与in/if语句的结合使用)。

stata常见问题及解决办法

stata常见问题及解决办法

1. 如何输出STATA的图,和保存?先输入数据(1)Twoway connected 变量1 变量2 //划出折线图(2)twoway scatter 变量1 变量2 //划出散点图2. 怎样在stata8中做HAUSMAN检验?四步曲,重点在于解释结果(1)xtreg y x , fe(2)est store fe(3)xtreg y x, re(4)hausman fe如果拒绝,说明corr(x,ui)=0的假设是有问题的,需要重新设定RE model 后再进行检验,如果模型的设定没有问题,但检验还是拒绝原假设(p值接近0),那么就只能采用FE model 了,因为此时的RE 估计量是有偏的。

(definitely right. 当你使用stata的时候,最重要的命令不是这些是help and find it然后就能找到你的答案了)hausman检验是用来检验用fe还是re的,其原假设是re优于fe,从你的结果来看(Prob>chi2 =0.0000),应该拒绝原假设,所以应该用fe3.stata里平方的命令怎么写?gen age=age^24. stata里边怎么取对数啊?gen lnx=log(x)5.如何用STATA求自然对数?如说:ln(X^2)=-4.8536,如何求X啊?. dis sqrt(exp(-4.8536))或者dis exp(-4.8536/2)6.关于hausman检验,结果是CHI2(2)=2355.81,prob>chi2=0.000,可以使用随机效应模型嘛?prob>chi2=0.000,is like p-value.we should reject the null, so fixed effect is preferred.Randome effect is not suggested. CHI2(2)=2355.81,就意味着拒绝原假设,从而选取固定效应模型。

stata学习体会

stata学习体会

stata学习体会第一篇:stata学习体会stata学习心得(网络版存盘)2009-03-25调整变量格式:format x1 %10.3f ——将x1的列宽固定为10,小数点后取三位format x1 %10.3g ——将x1的列宽固定为10,有效数字取三位format x1 %10.3e ——将x1的列宽固定为10,采用科学计数法format x1 %10.3fc ——将x1的列宽固定为10,小数点后取三位,加入千分位分隔符 format x1 %10.3gc ——将x1的列宽固定为10,有效数字取三位,加入千分位分隔符format x1 %-10.3gc ——将x1的列宽固定为10,有效数字取三位,加入千分位分隔符,加入“-”表示左对齐合并数据:use “C:Documents and Settingsxks桌面2006.dta”, clear merge using “C:Documents and Settingsxks桌面1999.dt a” ——将1999和2006的数据按照样本(observation)排列的自然顺序合并起来use “C:Documents and Settingsxks桌面2006.dta”, clear merge id using “C:Documents and Settingsxks桌面1999.dta” ,unique sort ——将1999和2006的数据按照唯一的(unique)变量id来合并,在合并时对id进行排序(sort)建议采用第一种方法。

对样本进行随机筛选: sample 50 在观测案例中随机选取50%的样本,其余删除 sample 50,count 在观测案例中随机选取50个样本,其余删除查看与编辑数据:browse x1 x2 if x3>3(按所列变量与条件打开数据查看器)edit x1 x2 if x3>3(按所列变量与条件打开数据编辑器)数据合并(merge)与扩展(append)merge表示样本量不变,但增加了一些新变量;append表示样本总量增加了,但变量数目不变。

Stata学习笔记

Stata学习笔记

Stata学习笔记以下命令均采用小写字母Chapter 1 stata入门1.1打开数据use "D:\Stata9\auto.dta", clear 用use命令打开数据sysuse auto,clear auto 为系统数据sysuse为打开系统数据的命令1.2获取帮助Help summarize summarize为需要获取帮助对象可以改为其他的需要帮助的对象Findit summarize,net 寻找网络帮助summarize为需要获取帮助对象Search summarize ,net 寻找网络帮助summarize为需要获取帮助对象显示结果Display 5+91.3描述统计(summarize 可简写成sum)Use atuo,clearSummarize price 描述price的观察值个数、平均值、标准差、最小值、最大值Sum weight summarize可简写成sum Sum weight price 同时完成上面两步1.4绘图Scatter price weight scatter 为绘制散点图命令Line price weight ,sort line 为绘制折线图命令,sort为排序,绘制折线图前需要先排序1.5生成新的数据(generate 可简写成gen)ClearSet obs 1000 设置观测值的组数Gen x=_n _n 为观察值得序号Gen y=x+1001.6控制结果输出显示List n1.7设置屏幕滚动Set more off 先设置此项则显示时,屏幕不停止Set more on 先设置此项则显示时,会使显示停止1.8清除内存中原有内容clear1.9设置文件存取路径(cd)Cd d:\stata d:\stata为路径1.10如果想知道当前路径下有哪些文件,可以用dir 命令来列示.dir1.11假设你想在D 盘的根目录下创建一个新的文件夹mydata 来存放数据文件,命令为mkdir。

互助问答第223问 Stata数据处理问题

互助问答第223问 Stata数据处理问题

问题二:
老师好!在数据处理整合中遇到一些问题想请教:(1)从统计年鉴导出的地区数据,不同年份的表在导入Stata中时,省份不能匹配起来,例如北京市在不同的年份里可能是“北京”“北京市”“北京”,请问应该如何处理能把不同年份的省份变量处理成一致的?(2)生成新变量时需要用到变量的最大值和最小值,在Stata中要怎么调用某一变量的最大值和最小值?期待回复。

谢谢!
回答二:
(1)对于省份的调整,建议使用最简表达:“北京”“内蒙古”等,可以使用subinstr()函数将“市”“省”“自治区”和空格等字符替换掉,例如replace prov=subinstr(prov,"省","",.)命令即为将变量prov的观测值中的“省”字去掉。

(2)两种方法:一是通过egen命令生成新变量,如egen a = max(x);二是通过scalar实现,在对变量进行描述性分析(summarize)后,相关指标储存在r()中,如果要使用变量最大值和最小值进行计算,可以通过scalar储存,之后调用即可。

例如:
sum x
scalar a = r(max)
scalar b = r(min)
学术指导:张晓峒老师
本期解答人:曹晖老师、统计小妹
统筹:易仰楠
编辑:统计小妹
技术:林毅。

stata乱码问题的解决

stata乱码问题的解决

(“Backspace” 键)才能将其删除,否则会出现乱码。
2
(2)Unicode(万国码、统一码)带来的乱码问题 ——stata14、stata15 • Unicode 使得跨语言交流变得更为方便精准,但在引入 Unicode 之 后,Stata 文件中(dta,do,ado 文件等)会出现乱码。 • 解决方法:进行编码翻译(unicode translate),即使用 Stata 14、
5
. unicode encoding set gb18030 encode:编码 . unicode translate surname_test.dtatransla6
本 来 应 该 这 样
(3)显示窗口出现乱码
可 显 示 却 是 这 样
7
• 此种乱码情况的调整方法: • 在主界面,Edit/Preferences/General Preferences/Result color/Color Scheme,改 为simple或classic。
8
4
.unicode analyze surname_test.dta
使用命令 unicode analyze 分析数据集 surname_test.dta 是否需要编码翻译。
结果显示,有一个字符串变量需要编码翻译(1 str# variable needs translation)。为此,将编码设为国 标码(GB18030),再进行翻译。
stata乱码问题的解决 (stata12、stata14、 stata15)
• Stata 对中文字符的支持力度不够——文件名、变量名、标 签说明等尽量用英文。 (1)do 文档中删除中文字符 • 在do-file 窗口中输入、粘贴中文字符没问题。但是若在dofile 窗口中修改中文字符,那么一个字符要按两次删除键

Stata学习笔记

Stata学习笔记

Stata学习笔记1、横截⾯数据:多个经济个体的变量在同⼀时间点上的取值,如2012年中国各省的GDP2、时间数列数据:指的是某个经济个体的变量在不同时点上的取值,如1978-2012年⼭东省每年的GDP3、⾯板数据:多个经济个体的变量在不同时点上的取值,如1978-2012年中国各省的GDP⼩样本OLS(最⼩⼆乘法):单⼀⽅程线性回归最常见⽅法条件:解释变量与扰动项正交、扰动项⽆⾃相关、同⽅差。

拟合优度:衡量线性回归模型对样本数据的拟合程度(R2),越⾼说明模型拟合程度越好。

单系数T检验:对回归⽅程扰动项的具体概率进⾏假设显著性⽔平进⾏检验F检验:整个回归⽅程是否显著STATA操作简介:如果数据中包含1949-10-01或1949/10/01的时间变量,导⼊stata后可能会被视为字符串,因此对于⽇度数据,可以使⽤命令gen newvar=date(varname,YMD),将其转换为整数⽇期变量,其中YMD说明原始数据的格式为年⽉⽇,如果原始数据的格式为⽉⽇年则使⽤MDY;对于⽉度数据则gen newvar=monthly(varname,YM)。

.describe:数据的概貌 .drop keep:删除和保留.su:统计特征 Pwcorr:变量之间相关系数Star(.05):5%显著性⽔平 gen:产⽣g intc=log(tc):取⾃然对数. reg:OLS回归.Vce:协⽅差矩阵 reg。

,noc表⽰在进⾏回归时不要常数项⼤样本OLS:只要求解释变量与同期的扰动项正交即可Robust:稳健标准误,如果存在异⽅差,则应使⽤稳健标准误最⼤似然估计法:如果回归⽅程存在⾮线性,则使⽤最⼤似然估计法(MLE)或⾮线性最⼩⼆乘法(NLS)三类在⼤样本下渐进等价的统计检验:Wald test LR(似然⽐检验) LM操作步骤如下:sysuse auto(调⽤数据集)Hist mpg,normal(画变量mpg的直⽅图,并与正态密度⽐较)直⽅图显⽰,变量mpg的分布于正态分布有⼀定差距。

stata笔记

stata笔记

1.一般检验假设系数为0,t比较大则拒绝假设,认为系数不为0.假设系数为0,P比较小则拒绝假设,认为系数不为0.假设方程不显著,F比较大则拒绝假设,认为方程显著。

2.小样本运用OLS进行估计的前提条件为:(1)线性假定。

即解释变量与被解释变量之间为线性关系。

这一前提可以通过将非线性转换为线性方程来解决。

(2)严格外生性。

即随机扰动项独立于所有解释变量:与解释变量之间所有时候都是正交关系,随机扰动项期望为0。

(工具变量法解决)(3)不存在严格的多重共线性。

一般在现实数据中不会出现,但是设置过多的虚拟变量时,可能会出现这种现象。

Stata可以自动剔除。

(4)扰动项为球型扰动项,即随即扰动项同方差,无自相关性。

3.大样本估计时,一般要求数据在30个以上就可以称为大样本了。

大样本的前提是(1)线性假定(2)渐进独立的平稳过程(3)前定解释变量,即解释变量与同期的扰动项正交。

(4)E(XiXit)为非退化矩阵。

(5)gt为鞅差分序列,且其协方差矩阵为非退化矩阵。

与小样本相比,其不需要严格的外生性和正太随机扰动项的要求。

4.命令稳健标准差回归:reg y x1 x2 x3, robust 回归系数与OLS一样,但标准差存在差异。

如果认为存在异方差,则使用稳健标准差。

使用稳健标准差可以对大样本进行检验。

只要样本容量足够大,在模型出现异方差的情况下,使用稳健标准差时参数估计、假设检验等均可正常进行,即可以很大程度上消除异方差带来的副作用对单个系数进行检验:test lnq=1线性检验:testnl _b[lnpl]=_b[lnq]^25.如果回归模型为非线性,不方便使用OLS,则可以采取最大似然估计法(MLE),或者非线性最小二乘法(NLS)6.违背经典假设,即存在异方差的情况。

截面数据通常会出现异方差。

因此检验异方差可以:(1)看残差图,但只是直观,可能并不准确。

rvfplot (residual-versus-fitted plot) 与拟合值的散点图rvpplot varname (residual-versus-predictor plot) 与解释变量的散点图扰动项的方差随观测值而变动,表示可能存在异方差。

STATA实用学习笔记

STATA实用学习笔记

北京科技大学STATA应用学习摘录第一章 STATA的基本操作一、设置内存容set mem 500m, perm一、显示输入内容Display 1Display “clive”二、显示数据集结构describeDescribe /d三、编辑editEdit四、重命名变量Rename var1 var2五、显示数据集内容list/browseList in 1List in 2/10六、数据导入:数据文件是文本类型(.csv)1、insheet: . insheet using “C:\Documents and Settings\Administrator\桌面\ST9007\dataset\Fees1.csv”, clear2、内存为空时才可以导入数据集,否则会出现(you must start with an empty dataset)(1)清空内存中的所有变量:.drop _all(2)导入语句后加入“clear”命令。

七、保存文件1、save “C:\Documents and Settings\Administrator\桌面\ST9007\dataset\Fees1.dta”2、save “C:\Documents and Settings\Administrator\桌面\ST9007\dataset\Fees1.dta”, replace八、打开及退出已存文件use1、.Use 文件路径及文件名, clear2、. Drop _all/.exit九、记录命令和输出结果(log)1、开始建立记录文件:log using "J:\phd\output.log", replace2、暂停记录文件:log off3、重新打开记录文件:log on4、关闭记录文件:log close十一、创建和保存程序文件:(doedit, do)1、打开程序编辑窗口:doedit2、写入命令3、保存文件,.do.4、运行命令:.do 程序文件路径及文件名十二、多个数据集合并为一个数据集(变量和结构相同)纵向合并appendinsheet using "J:\phd\Fees1.csv", clearsave "J:\phd\Fees1.dta", replaceinsheet using "J:\phd\Fees2.csv", clearappend using "J:\phd\Fees1.dta"save "J:\phd\Fees1.dta", replace十三、横向合并,在原数据集基础上加上另外的变量merge1、insheet using "J:\phd\Fees1.csv", clearsort companyid yearendsave "J:\phd\Fees1.dta", replacedescribeinsheet using "J:\phd\Fees6.csv", clearsort companyid yearendmerge companyid yearend using "J:\phd\Fees1.dta"save "J:\phd\Fees1.dta", replacedescribe2、_merge==1 obs. From master data_merge==2 obs. From using data_merge==3 obs. From both master and using data十四、帮助文件:help1、. Help describe十五、描述性统计量1、summarize incorporationyear 单个summarize incorporationyear-big6 连续多个summarize _all or simply summarize 所有2、更详细的统计量summarize incorporationyear, detail3、centilecentile auditfees, centile(0(10)100)centile auditfees, centile(0(5)100)4、tabulate不同类型变量的频数和比例tabulate companytypetabulate companytype big6, column 按列计算百分比tabulate companytype big6, row 按行计算百分比tab companytype big6 if companytype<=3, row col 同时按行列和条件计算百分比5、计算满足条件观测的个数count if big6==1count if big6==0 | big6==16、按离散变量排序,对连续变量计算描述性统计量:(1)by companytype, sort: summarize auditfees, detail(2)sort companytypeBy companytype:summarize auditees十六、转换变量1、按公司类型将公开发行股票公司赋值为1,其他为0gen listed=0replace listed=1 if companytype==2replace listed=1 if companytype==3replace listed=1 if companytype==5replace listed=. if companytype==.十七、产生新变量genGenerate newvar=表达式十八、数据类型3、新建变量的过程中定义数据类型●gen str3 gender= "male"●list gender in 1/104、变量所占字节过长●drop gender●gen str30 gender= "male"●browse●describe gender●compress gender5、日期数据类型:%d dates, which is a count of the number of days elapsed since January 1, 1960。

stata数据类型不匹配

stata数据类型不匹配

stata数据类型不匹配Stata作为一种统计软件,在数据分析中占据着重要的地位。

然而,在数据处理的过程中,很容易遇到“数据类型不匹配”的问题,这给用户带来了不少困扰。

本文将具体介绍Stata数据类型不匹配的原因和解决办法。

一、Stata数据类型在Stata中,数据类型分为两大类:数值型和字符串型。

数值型包括整型(int)和浮点型(double),其存储方式不同,数据的精度也不一样。

例如,整型的存储方式是定长存储,在占用的空间大小上相对浮点型较小;而浮点型的存储方式是变长存储,在存储精度上相对整型更高。

字符串型则表示文本类型的数据,通常用于存储名称、日期等非数字数据。

二、数据类型不匹配的原因当我们在Stata中进行计算或数据处理时,常常会遇到数据类型不匹配的问题,例如在进行加、减、乘、除等数值运算时,如果两个变量的数据类型不一致,则会出现数据类型不匹配的错误。

造成数据类型不匹配的主要原因有以下几点:(1)数据输入错误。

在Stata中,我们输入数据时可能会犯错误,例如将字符串类型的数据错误地输入为数值型数据,这样就会出现数据类型不匹配。

(2)变量定义不当。

当我们定义变量时,如果没有正确指定数据类型,就会出现数据类型不匹配的问题。

例如,将整型变量的数据定义为浮点型数据,这样也会出现数据类型不匹配。

(3)数据格式不一致。

如果我们从不同的数据源中获取数据,可能会出现数据格式不一致的情况,例如从Excel文件中导入的数据可能会出现数据类型不匹配问题。

三、数据类型不匹配的解决办法当我们在Stata中遇到数据类型不匹配的问题时,应该采取以下解决办法:(1)仔细检查数据输入。

在输入数据时,要仔细检查数据的格式和类型是否正确,尽可能避免输入错误。

(2)正确定义变量类型。

定义变量时,要正确地指定变量的数据类型,避免出现不必要的错误。

(3)数据格式统一。

在将不同数据源中的数据汇合时,要将其格式统一,避免出现数据类型不匹配的问题。

stata笔记要点

stata笔记要点

1.一般检验假设系数为0,t比较大则拒绝假设,认为系数不为0.假设系数为0,P比较小则拒绝假设,认为系数不为0.假设方程不显著,F比较大则拒绝假设,认为方程显著。

2.小样本运用OLS进行估计的前提条件为:(1)线性假定。

即解释变量与被解释变量之间为线性关系。

这一前提可以通过将非线性转换为线性方程来解决。

(2)严格外生性。

即随机扰动项独立于所有解释变量:与解释变量之间所有时候都是正交关系,随机扰动项期望为0。

(工具变量法解决)(3)不存在严格的多重共线性。

一般在现实数据中不会出现,但是设置过多的虚拟变量时,可能会出现这种现象。

Stata可以自动剔除。

(4)扰动项为球型扰动项,即随即扰动项同方差,无自相关性。

3.大样本估计时,一般要求数据在30个以上就可以称为大样本了。

大样本的前提是(1)线性假定(2)渐进独立的平稳过程(3)前定解释变量,即解释变量与同期的扰动项正交。

(4)E(XiXit)为非退化矩阵。

(5)gt为鞅差分序列,且其协方差矩阵为非退化矩阵。

与小样本相比,其不需要严格的外生性和正太随机扰动项的要求。

4.命令稳健标准差回归:reg y x1 x2 x3, robust 回归系数与OLS一样,但标准差存在差异。

如果认为存在异方差,则使用稳健标准差。

使用稳健标准差可以对大样本进行检验。

只要样本容量足够大,在模型出现异方差的情况下,使用稳健标准差时参数估计、假设检验等均可正常进行,即可以很大程度上消除异方差带来的副作用对单个系数进行检验:test lnq=1线性检验:testnl _b[lnpl]=_b[lnq]^25.如果回归模型为非线性,不方便使用OLS,则可以采取最大似然估计法(MLE),或者非线性最小二乘法(NLS)6.违背经典假设,即存在异方差的情况。

截面数据通常会出现异方差。

因此检验异方差可以:(1)看残差图,但只是直观,可能并不准确。

rvfplot (residual-versus-fitted plot) 与拟合值的散点图rvpplot varname (residual-versus-predictor plot) 与解释变量的散点图扰动项的方差随观测值而变动,表示可能存在异方差。

Stata学习笔记

Stata学习笔记

以下命令均采用小写字母Chapter 1 stata入门打开数据use "D:\Stata9\", clear 用use命令打开数据sysuse auto,clear auto 为系统数据 sysuse为打开系统数据的命令获取帮助Help summarize summarize为需要获取帮助对象可以改为其他的需要帮助的对象Findit summarize,net 寻找网络帮助 summarize为需要获取帮助对象Search summarize ,net 寻找网络帮助 summarize为需要获取帮助对象显示结果Display 5+9描述统计(summarize 可简写成sum)Use atuo,clearSummarize price 描述price的观察值个数、平均值、标准差、最小值、最大值Sum weight summarize可简写成sumSum weight price 同时完成上面两步绘图Scatter price weight scatter 为绘制散点图命令Line price weight ,sort line 为绘制折线图命令,sort为排序,绘制折线图前需要先排序生成新的数据(generate 可简写成gen)ClearSet obs 1000 设置观测值的组数Gen x=_n _n 为观察值得序号Gen y=x+100控制结果输出显示List n设置屏幕滚动Set more off 先设置此项则显示时,屏幕不停止Set more on 先设置此项则显示时,会使显示停止清除内存中原有内容clear设置文件存取路径(cd)Cd d:\stata d:\stata为路径如果想知道当前路径下有哪些文件,可以用dir 命令来列示.dir假设你想在D 盘的根目录下创建一个新的文件夹mydata 来存放数据文件,命令为mkdir。

mkdir d:\mydata错误提示List myvar上述命令试图显示变量myvar,但是结果窗口仅出现如下的显示variable myvar not foundr(111);红色信息表明,没有找到一个叫myvar 的变量,的确,我们的数据中并没有这个变量。

stata学习体会

stata学习体会

stata学习心得(网络版存盘)2009-03-25调整变量格式:format x1 %10.3f ——将x1的列宽固定为10,小数点后取三位format x1 %10.3g ——将x1的列宽固定为10,有效数字取三位format x1 %10.3e ——将x1的列宽固定为10,采用科学计数法format x1 %10.3fc ——将x1的列宽固定为10,小数点后取三位,加入千分位分隔符format x1 %10.3gc ——将x1的列宽固定为10,有效数字取三位,加入千分位分隔符format x1 %-10.3gc ——将x1的列宽固定为10,有效数字取三位,加入千分位分隔符,加入“-”表示左对齐合并数据:use "C:\Documents and Settings\xks\桌面\2006.dta", clearmerge using "C:\Documents and Settings\xks\桌面\1999.dta"——将1999和2006的数据按照样本(observation)排列的自然顺序合并起来use "C:\Documents and Settings\xks\桌面\2006.dta", clearmerge id using "C:\Documents and Settings\xks\桌面\1999.dta" ,unique sort——将1999和2006的数据按照唯一的(unique)变量id来合并,在合并时对id进行排序(sort)建议采用第一种方法。

对样本进行随机筛选:sample 50在观测案例中随机选取50%的样本,其余删除sample 50,count在观测案例中随机选取50个样本,其余删除查看与编辑数据:browse x1 x2 if x3>3 (按所列变量与条件打开数据查看器)edit x1 x2 if x3>3 (按所列变量与条件打开数据编辑器)数据合并(merge)与扩展(append)merge表示样本量不变,但增加了一些新变量;append表示样本总量增加了,但变量数目不变。

(完整版)Stata学习笔记和国贸理论总结

(完整版)Stata学习笔记和国贸理论总结

(完整版)Stata学习笔记和国贸理论总结Stata学习笔记⼀、认识数据(⼀)向stata中导⼊txt、csv格式的数据1.这两种数据可以⽤⽂本⽂档打开,新建记事本,然后将相应⽂档拖⼊记事本即可打开数据,复制2.按下stata中的edit按钮,右键选择paste special3.*.xls/*.xlsx数据仅能⽤Excel打开,不可⽤记事本打开,打开后会出现乱码,也不要保存,否则就恢复不了。

逗号分隔的数据常为csv数据。

(⼆)⽹页数据⽹页上的表格只要能选中的,都能复制到excel中;⽹页数据的下载可以通过百度“国家数据”进⾏搜索、下载⼆、Do-file 和log⽂件打开stata后,第⼀步就要do-file,记录步骤和历史记录,⽅便⽇后查看。

Stata处理中保留的三种⽂件:原始数据(*.dta),记录处理步骤(*.do),以及处理的历史记录(*.smcl)。

三、导⼊StataStata不识别带有中⽂的变量,如果导⼊的数据第⼀⾏有中⽂就没法导⼊。

但是对于列来说不会出现这个问题,不分析即可(Stata不分析字符串,红⾊⽂本显⽰;被分析的数据,⿊⾊显⽰);第⼀⾏是英⽂变量名,选择“Treat first row as variable names”在导⼊新数据的时候,需要清空原有数据,clear命令。

导⼊空格分隔数据:复制——Stata中选择edit按钮或输⼊相应命令——右键选择paste special——并选择,确定;导⼊Excel 中数据,复制粘贴即可;逗号分隔数据,选择paste special后点击comma,然后确定。

Stata数据格式为*.dta,导⼊后统⼀使⽤此格式。

四、基本操作(⼏个命令)(⼀)use auto,clear 。

在清空原有数据的同时,导⼊新的auto数据。

(⼆)browse 。

浏览数据。

(三)describe 和list。

查看数据,describe 和list 使⽤list命令能使我们根据⾃⼰的需要选择数据(例如其与in/if语句的结合使⽤)。

【集腋成裘】初学计量时整理的一些stata命令

【集腋成裘】初学计量时整理的一些stata命令

【集腋成裘】初学计量时整理的一些stata命令今天闲翻QQ空间,突然发现自己初学计量时整理的一些stata命令。

当时入手跑stata,经常被一些操作上的小问题给拦住。

遇到问题就上网搜索答案,或咨询同学或自己摸索。

问题解决后,就把一切抛之脑后···久而久之问题复现还是不会。

多次教训之后就着手整理了一个空间日志,把一些stata命令慢慢整理起来。

回头去看,很多命令都太基础了,但这些命令也算是自己学习历程的一个见证。

发到我的公众号上,一方面算是给自己的一种鼓励,督促自己继续不断的“集腋成裘”,积累更多的材料;另一方面,我想不少同学在stata操作中也许也会用上一些命令,我就权且共享之。

#stata集腋成裘#1. codebook显示不全肿么破?——label list2. 小星星快速查看estimatestable,star(0.05,0.01,0.1)3. RElogit:Rare Events Logistic Regression4. 装个新工具ssc instal AAA5. 多说有益 label var XX'XX是XXX'6. 虚拟变量快速构造 i.abc7. 取对数 gen B=log(A)8. outreg自带显著性为二星模式,如何设置三星模式?outreg, starlevels(10 5 1)9. 导出到result 这个word文档里: outreg2using result.doc,replace10. A且B的给我删掉:drop if A==1 & B==111. 输出多个模型运行结果:reg y x1est store m1 reg yx2 eststore m2 reg y x3 est store m3 outreg2 [m1 m2 m3]using table1,word12. 多重共线性检验estat vif13. 夹带一个Excel的私货,表格内绿色小三角如何清除?——“工具”—“错误检查”—“忽略”14. 观测值所在区域某项指标平均值如何生成?——egen 某项指标摄取平均值=mean(某项指标), by(社区编码)15. 清屏——cls -- ClearResults window16. 部分观测值回归 reg y x1 x2 if x3==117. 用outreg2输出比值比oddsratio——outreg2 using myfile,eform word18. 继续夹带Excel私货,CONCATENATE函数为数值添加括号=(“(“.A1.”)”)19. 数字复制粘贴至Excel后括号显示为负号如何处理?选定——设置单元格格式···或使用左上角“文本导入向导···”导入,最后一步设置文本格式20. 内生性问题Hausman testreg y x1 x2 x3...estimates store olsivregress 2sls y x2 x3... (x1=Z1 Z2...)estimates store ivhausman iv ols, constant sigmamore21.IV-probitivprobit y x2 x3 (x1=工具变量)默认最大似然估计,可设置两步估计(含有内生变量的 probit 模型通常有两种估计方法:最大似然估计和两步法,由于前者估计更有效率 (陈强 2014),所以本文采取最大似然法,并使用 stata 中的 ivprobit 命令计算回归结果。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1. 如何输出STATA的图,和保存?
先输入数据
(1)Twoway connected 变量1 变量2 //划出折线图
(2)twoway scatter 变量1 变量2 //划出散点图
2. 怎样在stata8中做HAUSMAN检验?
四步曲,重点在于解释结果
(1)xtreg y x , fe
(2)est store fe
(3)xtreg y x, re
(4)hausman fe
如果拒绝,说明corr(x,ui)=0的假设是有问题的,需要重新设定RE model 后再进行检验,如果模型的设定没有问题,但检验还是拒绝原假设(p值接近0),那么就只能采用FE model 了,因为此时的RE 估计量是有偏的。

(definitely right. 当你使用stata的时候,最重要的命令不是这些是help and find it然后就能找到你的答案了)
hausman检验是用来检验用fe还是re的,其原假设是re优于fe,从你的结果来看(Prob>chi2 =0.0000),应该拒绝原假设,所以应该用fe
3.stata里平方的命令怎么写?
gen age=age^2
4. stata里边怎么取对数啊?
gen lnx=log(x)
5.如何用STATA求自然对数?如说:ln(X^2)=-4.8536,如何求X啊?
. dis sqrt(exp(-4.8536))或者dis exp(-4.8536/2)
6.关于hausman检验,结果是CHI2(2)=2355.81,prob>chi2=0.000,可以使用随机效应模型嘛?
prob>chi2=0.000,is like p-value.
we should reject the null, so fixed effect is preferred.Randome effect is not suggested. CHI2(2)=2355.81,就意味着拒绝原假设,从而选取固定效应模型。

7.我在做gdp一阶差分单位根检验的时候,输入的命令是ipshin dgdp,lags(1)得
到的结果:Im-Pesaran-Shin test for cross-sectionally demeaned dgdpDeterministics chosen: constantt-bar test, N,T = (27,7) Obs = 135 Augmented by 1 lags (average) t-bar cv10 cv5 cv1 W[t-bar] P-value -1.640 -1.700 -1.750 -1.850 -0.703 0.241我不会看这个结果,请问怎么看时否存在单位根阿??看哪个数值啊?
零假设含有单位根,W[t-bar] = -0.703, P-value = 0.241。

不能拒绝含有单位根的零假设。

8.求助达人,能否系统介绍stata作虚拟变量的过程与方法,谢
可以用tabulate命令,假如有31个省的变量province
tabulate province,gen(dumy)
就可以产生dumy1-dumy31变量,
reg y x1 x2 dumy2-dumy31
或者不产生,在回归的时候用xi命令
xi: reg y x1 x2 i.province
9.有会面板数据单位根检验,协整实证研究的吗?
面板单位根已经有现成的stata命令,可以使协整就麻烦一些。

search panel unit, all
10.请问stata在哪里报告d-w统计量啊?
输入dwstat 最后那个就是了,比如:dwstat Durbin-Watson d-statistic(4,12) =1.823504
11.如何用stata对资料作一阶差分
tsset t(for time series)
tsset id t (for panel data)
gen dx = D.x /*一阶差分*/
gen d2x = D2.x /*二阶差分*/
滞后算子为L,使用方法同上。

12.我做面板数据,在stata中用的数据是每半年取一次,那时间变量应该怎么输啊?
199706
199712
现在可以了,呵呵,THANKYOU 。

我原来的恶变量名是YEAR,现在换成DATE,就行了
晕,跟变量名字没有关系吧,应该是tsset的内容有关系。

年度数据是,tsset 变量名,yearly
月度数据是,tsset 变量名,monthly
季度是,tsset x, quarterly
13.在STATA中如何做聚类分析啊?
Stata提供了三种系统聚类的方法:即最短距离法(single linkage)、最长距离法(complete linkage)和类平均法(average linkage)。

Stata用于系统聚类的命令为:
cluster 聚类方法选项变量名[,选择项]
其中,聚类方法选项有:s,代表最短距离法;c,代表最长距离法;a,代表类平均法。

三种方法可任选其一。

选择项有:
name(clname) /* 指定聚类过程的名称
distance_option /* 指定刻划样品间相似性程度的指标(距离、相关系数等)
generate(stub) /* 指定系统变量的前缀
其中,stata提供了21种distance_option选项(适用于连续性资料的共7种,适用于二分类资料的共14种)。

适用于连续性资料的距离或相似系数有:
L2 /* 欧氏距离,为默认选项。

也可用Euclidean或L(2)表示
L1 /* 绝对值距离。

也可用absolute、cityblock、manhattan 或L(1)表示
Linfinity /* 最大值距离。

也可用maximum表示
L(#) /* 明氏距离
Canberra /* 兰氏距离
correlation /* Pearson相关系数
angular或angle /* 夹角余弦
适用于二分类资料的距离有:
matching /* 匹配相似系数
Yule /* Yule相似系数
Pearson /* 点相关系数
14.stata9中如何做卡方检验?
twoway tabulate
用了two way tabulate算出卡方值后如何判断是否要接受H0假设呢,临界值该怎么算,谢谢!
15.用stata对付异方差&自相关in panel data?
(1)对于异方差可以使用white test,方法如下:
regress y x1 x2
predict residus
gen residus2=residus^2
regress residus2 x1 x2 x1*x2 x1^2 x2^2
我在一个材料中发现,panel有专门的一个命令可以实现以上过程,好像是xttest3,or xttest2,但是我使用以后发现stata8.0 无法辨识这个命令,不知道为什么?敬请高手指点!
(2)对于自相关,Stata也有同样的test 验证自相关的存在。

当发现存在有异方差和自相关存在时,在stata中可以使用xtgls实现,具体方法可以使用help xtgls 了解。

16.stata中可不可以进行样本选择?
用if语句啊
reg y x if year>1995 & year<2000
17.请教十等分组的洛仑兹曲线如何计算?
glcurve.ado 命令可以完成
findit glcurve
Stata Journal 6-4 有详细的说明书。

18.STATA中主成分分析与使用主成分法的因子分析的区别
19.stata画3d图?
scat3 module for crude three-dimensional graphics。

相关文档
最新文档