Stata笔记-北京科技大学
STATA实用学习笔记
STATA实⽤学习笔记北京科技⼤学STATA应⽤学习摘录第⼀章 STATA的基本操作⼀、设置内存容set mem 500m, perm⼀、显⽰输⼊内容Display 1Display “clive”⼆、显⽰数据集结构describeDescribe /d三、编辑editEdit四、重命名变量Rename var1 var2五、显⽰数据集内容list/browseList in 1List in 2/10六、数据导⼊:数据⽂件是⽂本类型(.csv)1、insheet: . insheet using “C:\Documents and Settings\Administrator\桌⾯\ST9007\dataset\Fees1.csv”, clear2、内存为空时才可以导⼊数据集,否则会出现(you must start with an empty dataset)(1)清空内存中的所有变量:.drop _all(2)导⼊语句后加⼊“clear”命令。
七、保存⽂件1、save “C:\Documents and Settings\Administrator\桌⾯\ST9007\dataset\Fees1.dta”2、save “C:\Documents and Settings\Administrator\桌⾯\ST9007\dataset\Fees1.dta”, replace ⼋、打开及退出已存⽂件use1、.Use ⽂件路径及⽂件名, clear2、. Drop _all/.exit九、记录命令和输出结果(log)1、开始建⽴记录⽂件:log using "J:\phd\output.log", replace2、暂停记录⽂件:log off3、重新打开记录⽂件:log on4、关闭记录⽂件:log close⼗⼀、创建和保存程序⽂件:(doedit, do)1、打开程序编辑窗⼝:doedit2、写⼊命令3、保存⽂件,.do.4、运⾏命令:.do 程序⽂件路径及⽂件名⼗⼆、多个数据集合并为⼀个数据集(变量和结构相同)纵向合并append insheet using "J:\phd\Fees1.csv", clearsave "J:\phd\Fees1.dta", replaceinsheet using "J:\phd\Fees2.csv", clearappend using "J:\phd\Fees1.dta"save "J:\phd\Fees1.dta", replace⼗三、横向合并,在原数据集基础上加上另外的变量merge1、insheet using "J:\phd\Fees1.csv", clearsort companyid yearendsave "J:\phd\Fees1.dta", replacedescribeinsheet using "J:\phd\Fees6.csv", clearsort companyid yearendmerge companyid yearend using "J:\phd\Fees1.dta"save "J:\phd\Fees1.dta", replacedescribe2、_merge==1 obs. From master data_merge==2 obs. From using data_merge==3 obs. From both master and using data⼗四、帮助⽂件:help1、. Help describe⼗五、描述性统计量1、summarize incorporationyear 单个summarize incorporationyear-big6 连续多个summarize _all or simply summarize 所有2、更详细的统计量summarize incorporationyear, detail3、centilecentile auditfees, centile(0(10)100)centile auditfees, centile(0(5)100)4、tabulate不同类型变量的频数和⽐例tabulate companytypetabulate companytype big6, column 按列计算百分⽐tabulate companytype big6, row 按⾏计算百分⽐tab companytype big6 if companytype<=3, row col 同时按⾏列和条件计算百分⽐5、计算满⾜条件观测的个数count if big6==1count if big6==0 | big6==16、按离散变量排序,对连续变量计算描述性统计量:(1)by companytype, sort: summarize auditfees, detail(2)sort companytypeBy companytype:summarize auditees⼗六、转换变量1、按公司类型将公开发⾏股票公司赋值为1,其他为0gen listed=0replace listed=1 if companytype==2replace listed=1 if companytype==3replace listed=1 if companytype==5replace listed=. if companytype==.⼗七、产⽣新变量genGenerate newvar=表达式⼗⼋、数据类型3、新建变量的过程中定义数据类型●gen str3 gender= "male"●list gender in 1/104、变量所占字节过长●drop gender●gen str30 gender= "male"●browse●describe gender●compress gender5、⽇期数据类型:%d dates, which is a count of the number of days elapsed since January 1, 1960。
(完整版)Stata学习笔记和国贸理论总结
(完整版)Stata学习笔记和国贸理论总结Stata学习笔记⼀、认识数据(⼀)向stata中导⼊txt、csv格式的数据1.这两种数据可以⽤⽂本⽂档打开,新建记事本,然后将相应⽂档拖⼊记事本即可打开数据,复制2.按下stata中的edit按钮,右键选择paste special3.*.xls/*.xlsx数据仅能⽤Excel打开,不可⽤记事本打开,打开后会出现乱码,也不要保存,否则就恢复不了。
逗号分隔的数据常为csv数据。
(⼆)⽹页数据⽹页上的表格只要能选中的,都能复制到excel中;⽹页数据的下载可以通过百度“国家数据”进⾏搜索、下载⼆、Do-file 和log⽂件打开stata后,第⼀步就要do-file,记录步骤和历史记录,⽅便⽇后查看。
Stata处理中保留的三种⽂件:原始数据(*.dta),记录处理步骤(*.do),以及处理的历史记录(*.smcl)。
三、导⼊StataStata不识别带有中⽂的变量,如果导⼊的数据第⼀⾏有中⽂就没法导⼊。
但是对于列来说不会出现这个问题,不分析即可(Stata不分析字符串,红⾊⽂本显⽰;被分析的数据,⿊⾊显⽰);第⼀⾏是英⽂变量名,选择“Treat first row as variable names”在导⼊新数据的时候,需要清空原有数据,clear命令。
导⼊空格分隔数据:复制——Stata中选择edit按钮或输⼊相应命令——右键选择paste special——并选择,确定;导⼊Excel 中数据,复制粘贴即可;逗号分隔数据,选择paste special后点击comma,然后确定。
Stata数据格式为*.dta,导⼊后统⼀使⽤此格式。
四、基本操作(⼏个命令)(⼀)use auto,clear 。
在清空原有数据的同时,导⼊新的auto数据。
(⼆)browse 。
浏览数据。
(三)describe 和list。
查看数据,describe 和list 使⽤list命令能使我们根据⾃⼰的需要选择数据(例如其与in/if语句的结合使⽤)。
(完整版)Stata学习笔记和国贸理论总结
Stata学习笔记一、认识数据(一)向stata中导入txt、csv格式的数据1.这两种数据可以用文本文档打开,新建记事本,然后将相应文档拖入记事本即可打开数据,复制2.按下stata中的edit按钮,右键选择paste special3.*.xls/*.xlsx数据仅能用Excel打开,不可用记事本打开,打开后会出现乱码,也不要保存,否则就恢复不了。
逗号分隔的数据常为csv数据。
(二)网页数据网页上的表格只要能选中的,都能复制到excel中;网页数据的下载可以通过百度“国家数据”进行搜索、下载二、Do-file 和log文件打开stata后,第一步就要do-file,记录步骤和历史记录,方便日后查看。
Stata处理中保留的三种文件:原始数据(*.dta),记录处理步骤(*.do),以及处理的历史记录(*.smcl)。
三、导入StataStata不识别带有中文的变量,如果导入的数据第一行有中文就没法导入。
但是对于列来说不会出现这个问题,不分析即可(Stata不分析字符串,红色文本显示;被分析的数据,黑色显示);第一行是英文变量名,选择“Treat first row as variable names”在导入新数据的时候,需要清空原有数据,clear命令。
导入空格分隔数据:复制——Stata中选择edit按钮或输入相应命令——右键选择paste special——并选择,确定;导入Excel中数据,复制粘贴即可;逗号分隔数据,选择paste special后点击comma,然后确定。
Stata数据格式为*.dta,导入后统一使用此格式。
四、基本操作(几个命令)(一)use auto,clear 。
在清空原有数据的同时,导入新的auto数据。
(二)browse 。
浏览数据。
(三)describe 和list。
查看数据,describe 和list 使用list命令能使我们根据自己的需要选择数据(例如其与in/if语句的结合使用)。
stata笔记要点
1.一般检验假设系数为0,t比较大则拒绝假设,认为系数不为0.假设系数为0,P比较小则拒绝假设,认为系数不为0.假设方程不显著,F比较大则拒绝假设,认为方程显著。
2.小样本运用OLS进行估计的前提条件为:(1)线性假定。
即解释变量与被解释变量之间为线性关系。
这一前提可以通过将非线性转换为线性方程来解决。
(2)严格外生性。
即随机扰动项独立于所有解释变量:与解释变量之间所有时候都是正交关系,随机扰动项期望为0。
(工具变量法解决)(3)不存在严格的多重共线性。
一般在现实数据中不会出现,但是设置过多的虚拟变量时,可能会出现这种现象。
Stata可以自动剔除。
(4)扰动项为球型扰动项,即随即扰动项同方差,无自相关性。
3.大样本估计时,一般要求数据在30个以上就可以称为大样本了。
大样本的前提是(1)线性假定(2)渐进独立的平稳过程(3)前定解释变量,即解释变量与同期的扰动项正交。
(4)E(XiXit)为非退化矩阵。
(5)gt为鞅差分序列,且其协方差矩阵为非退化矩阵。
与小样本相比,其不需要严格的外生性和正太随机扰动项的要求。
4.命令稳健标准差回归:reg y x1 x2 x3, robust 回归系数与OLS一样,但标准差存在差异。
如果认为存在异方差,则使用稳健标准差。
使用稳健标准差可以对大样本进行检验。
只要样本容量足够大,在模型出现异方差的情况下,使用稳健标准差时参数估计、假设检验等均可正常进行,即可以很大程度上消除异方差带来的副作用对单个系数进行检验:test lnq=1线性检验:testnl _b[lnpl]=_b[lnq]^25.如果回归模型为非线性,不方便使用OLS,则可以采取最大似然估计法(MLE),或者非线性最小二乘法(NLS)6.违背经典假设,即存在异方差的情况。
截面数据通常会出现异方差。
因此检验异方差可以:(1)看残差图,但只是直观,可能并不准确。
rvfplot (residual-versus-fitted plot) 与拟合值的散点图rvpplot varname (residual-versus-predictor plot) 与解释变量的散点图扰动项的方差随观测值而变动,表示可能存在异方差。
高级计量经济学讲义(北大CCER)--STATA_NOTE
STATA BASIC COMMANDS(notes for Junsoo Lee)I. BASICclearset memory 80mcd c:cd \work\statainsheet using water.txtsave water.dta* use water.dtalog using water, replacesummarize _alldescribe _allII. MORE on BASICMemoryC:\stata\wstata /k5000C:\stata\wstata /k5000 set matsize 100C:\stata\wstata /k5000 run c:\data\profile.doData filesInfile x1 x2 x3 using test.txt* only text fileInsheet x1 x2 x3 using text.txt* if saved by spreadsheetsave test, replacesave test, appenduse testlistdescribeLog FileLog using test.logLog using test.log, replaceLog using test.log, appendLog closeLog using test.log, noprocBreakCtrl-K Ctrl-breakRegressionRegress y x1 x2Predict yhatRegress y x1 x2, robustvce* variance-covariancevce, corrmatrix v = get(vce)coeff & predgent asif = _b[const] + _b[ed]*ed + _b[tenure]*tenure testregress y x1 x2test x1 = x2* b1 = b2joint restrictionstest 2*(x1+x2) = 3*x3test x4+x5 = 0, accum* two joint restrictionslr testregress y x1 x2lrtest, saving(0)regress y x1 x2 x3lrtestnon-linear restrictionsregress y x1 x2 x3eq one: 3*_b[x2]^2 = _b[x3]eq two: _b[x3] / _b[x2] = 2testnl one twoBy region: regress y x1 x2By foreign: regress y x1 x2Graph y x1 x2 if foreign ==0, correct(.1) symbol(oi)Graph y x1 x2 if foreign ==1, correct(.1) symbol(oi)t-testttest mpg, by(foreign)* Ho: diff = 0 where foreign is a dummy variableCii 97 24 6* n=97 mean=24 std=6 95 c.i.ttest 97 24 6 22* test Ho: mu = 22ListList x1 if x2 > 20List x1 – x5List x1 x2 if x4 > 10 | (x5>3 & x6 > 10)* ~ = not equal & and | or ~ not >= greater than or equal SortSort mpgCreating new variablesgen lx1 = ln(x1)* if same variable is uses, use “replace”.replace x1 = x1 / 1000Gen x3 = 1.05 * x1 if foreign == 0Replace x3 = 1.20 * x1 if foreign == 1ClearDrop _allMoreSet more offSet more onDescriptive statistics SummarizeSum if mpg > 20Sum if foreign == 0Sum x1, detailBy region: summarize x1 x2 CountCount if x == 1Count if y = float(1.1)* precision issueTabulateTab foreignTab x2 foreignTab x2 foreign, chi2* Pearson chi-square test (df=n-1) CorrelateCorr x1 x2Corr x1 x2 if foreign == 0GraphGraph x1 x2Sort foreignGraph x1 x2, by(foreign) total* three graphs; 0, 1, totalTutorial introTutorial graphicsTutorial survivalTutorial logitLong Line* semi-colon should be used.#delimit;summarize x1 x2if foreign == 1;gen x3 = x1 + x2;#delimit crDo fileDo myjobDo myjob.doDo myjob, nostop* don’t stop even with errorsBatch Jobs* at DOSc:\stata\wstata /b do bigjob.doADO filesWhich fitType c:\stata\ado\f\fit.adoType c:\stata\ado\f\fit.hlpThree places to putOfficial C:\stata\adoPersonal C:\adoCurrent .Global S_ADO “C\stata\ado;d:\ado;.”* to refine pathsmacro list S_ADOCDCd d:Cd \work\dataCd “\work\detailed data”Lags and LeadsGen xlag1 = x[_n-1]Gen xlead1 = x[_n+1]Procedures (Program)Program define helloDisplay “hi there”EndDo helloScoreProbit y x1, x2, score(u)* will be stored in UPoisson Regression (Example provided by Todd)#delimit ;* Poisson regression (Ex. 5.3, Greene, p. 208); * For Junsoo Lee;input id y x ;1 6 1.5;2 7 1.8;3 4 1.8;4 10 2.0;5 10 1.3;6 6 1.6;7 4 1.2;8 7 1.9;9 2 1.8;10 3 1.0;11 6 1.4;12 5 0.5;13 3 0.8;14 3 1.1;15 4 0.7;end;list;* Poisson regression;poisson y x ;Poisson MLE (Example provided by David/Todd)clearinsheet using c:\temp\poisson_data.txtlog using c:\temp\poisson_output.log, replace/* this is the "canned" routine that estimates the poisson regression */ poisson y x/* this maximizes lnL directly, using logged factorial of y */program define poisreg1args lnf thetaquietly replace `lnf' = -exp(`theta') + $ML_y1*(`theta') - lnfact($ML_y1) endml model lf poisreg1 (y=x)ml maximize/* this maximizes lnL directly, using the logged gamma function */program define poisreg2version 6args lnf thetaquietly replace `lnf' = -exp(`theta') + $ML_y1*(`theta') - lngamma($ML_y1 + 1)endml model lf poisreg2 (y=x)ml maximizePanel Estimationclearset memory 40mset more offset matsize 350log using panel.log, replaceuse panel.dta, cleartsset state yearregress y x1 x2 state2-state51 yr82-yr95xtivreg y l1.y x1 x2 yr82-yr95 (l.y = l2.y), i(state) fextivreg y l1.y x1 x2 yr82-yr95 (l.y = l2.y), i(state) fdxtivreg y l1.y x1 x2 yr82-yr95 (l.y = l2.y), i(state) re ec2slsxtabond y x1 x2 yr82-yr95, lags(1)xtabond y x1 x2 yr82-yr95, lags(1) twostep log closeOn-line HelpH weibullHelp for ^brier^。
Stata学习笔记和国贸理论总结
Stata学习笔记一、认识数据(一)向stata中导入txt、csv格式得数据1.这两种数据可以用文本文档打开,新建记事本,然后将相应文档拖入记事本即可打开数据,复制2.按下stata中得edit按钮,右键选择paste special3.*、xls/*、xlsx数据仅能用Excel打开,不可用记事本打开,打开后会出现乱码,也不要保存,否则就恢复不了。
逗号分隔得数据常为csv数据。
闡贄鲜饩狈酾阑。
(二)网页数据网页上得表格只要能选中得,都能复制到excel中;网页数据得下载可以通过百度“国家数据”进行搜索、下载恒險谅枫諷为誣。
二、Do-file 与log文件打开stata后,第一步就要do-file,记录步骤与历史记录,方便日后查瞧。
Stata处理中保留得三种文件:原始数据(*、dta),记录处理步骤(*、do),以及处理得历史记录(*、smcl)。
鍥糶斷轻浆辆钓。
三、导入StataStata不识别带有中文得变量,如果导入得数据第一行有中文就没法导入。
但就是对于列来说不会出现这个问题,不分析即可(Stata不分析字符串,红色文本显示;被分析得数据,黑色显示);第一行就是英文变量名,选择“Treat first row as variable names”馀紋锭箩谅绾纭。
在导入新数据得时候,需要清空原有数据,clear命令。
导入空格分隔数据:复制——Stata中选择edit按钮或输入相应命令——右键选择paste special——并选择,确定;导入Excel中数据,复制粘贴即可艰鍤悵铧恥郑顎。
;逗号分隔数据,选择paste special后点击comma,然后确定。
Stata数据格式为*、dta,导入后统一使用此格式。
四、基本操作(几个命令)(一)use auto,clear 。
在清空原有数据得同时,导入新得auto数据。
(二)browse 。
浏览数据。
(三)describe 与list。
查瞧数据,describe 与list 使用list命令能使我们根据自己得需要选择数据(例如其与in/if语句得结合使用)。
stata学习笔记
经济数据的特点与类型。
1、横截面数据:多个经济个体的变量在同一时间点上的取值,如2012年中国各省的GDP2、时间数列数据:指的是某个经济个体的变量在不同时点上的取值,如1978-2012年山东省每年的GDP3、面板数据:多个经济个体的变量在不同时点上的取值,如1978-2012年中国各省的GDP 小样本OLS(最小二乘法):单一方程线性回归最常见方法条件:解释变量与扰动项正交、扰动项无自相关、同方差。
拟合优度:衡量线性回归模型对样本数据的拟合程度(R2),越高说明模型拟合程度越好。
单系数T检验:对回归方程扰动项的具体概率进行假设显著性水平进行检验F检验:整个回归方程是否显著STATA操作简介:如果数据中包含1949-10-01或1949/10/01的时间变量,导入stata后可能会被视为字符串,因此对于日度数据,可以使用命令gen newvar=date(varname,YMD),将其转换为整数日期变量,其中YMD说明原始数据的格式为年月日,如果原始数据的格式为月日年则使用MDY;对于月度数据则gen newvar=monthly(varname,YM)。
.describe:数据的概貌.drop keep:删除和保留.su:统计特征Pwcorr:变量之间相关系数Star(.05):5%显著性水平gen:产生g intc=log(tc):取自然对数. reg:OLS回归.Vce:协方差矩阵reg。
,noc表示在进行回归时不要常数项大样本OLS:只要求解释变量与同期的扰动项正交即可Robust:稳健标准误,如果存在异方差,则应使用稳健标准误最大似然估计法:如果回归方程存在非线性,则使用最大似然估计法(MLE )或非线性最小二乘法(NLS )三类在大样本下渐进等价的统计检验:Wald test LR (似然比检验) LM操作步骤如下:sysuse auto (调用数据集)Hist mpg ,normal (画变量mpg 的直方图,并与正态密度比较)直方图显示,变量mpg 的分布于正态分布有一定差距。
Stata笔记-北京科技大学
Stata笔记-北京科技大学改颜色edit-preference-general prefernce-classic下面命令框-右键-font-改字号命令cd d:\ 改到d盘(change directory)dir查询d盘有什么sysuse auto 系统自带汽车数据,数据变量(字段)显示在右上角br(owse) 浏览数据(字符型红色,数值型黑色,蓝色-右键-value labels-hide all labels标签隐藏)h(elp) li(st) 告诉你命令怎么用,下面有例子左边双击执行,单击复制到命令框order price mpg(单击右边的变量)order make-foreign 改变变量顺序,从make到foreigng(enerate) new=rep78-trunk 输出新变量(rep78,trunk是字段,可单击选择,"."表示缺省,加减乘除+-*/)list if new==14 (==为等于,=为赋值,可以点击more)li(st) if new2>=14 & new2<24 (按q可以退出,即quit)replace new3=rep78 (输错了替换)drop new new2 new3删除变量list if new>10000list make if new<10000|new>2000 (竖线表示或者,回车上面那个)!=表示不等于左边命令,右键savesave data 文件名为datasysuse autopreservereservesave auto2 保存时不需加后缀,删除时带后缀.dtasort price从小到大gsort price 都可以,比较随意gsort -trunk price (默认加号,为排序) order make new (将new排到第二位) aorder (alphabetic 按字母顺序排序)disp(lay) sin(1) 作为计算器使用ln以e为底----------------3.13---------锐思数据库选择数据-----非金融行业负债表----左边-财务报表-非金融行业合并标识-1合并报表调整标识-1报表类型-q4、信息来源-q4公司类别-20-定期报告信息来源:q4a股股票代码截止日期流动资产合计应收账款总资产流动负债合计负债合计所有者权益合计------非金融行业利润表---前同净利润营业收入excel输出(默认)选择列表签+列名------打开STATA------菜单引入文件clear可清除数据varible name 不识别中文选中第一个import first row as varible names第二个import all data as strings意思是将数据看作字符型(不选) br(ouse)展示数据流动比率=流动资产/流动负债资产负债率=总负债/总资产产权比率=总负债/所有者权益合计mkdir d:\hsy1\mydata 建立文件夹cd d:\hsy1\mydata 基于文件夹dir 显示文件夹save bs 保存数据,名为bs直接运行是双击,显示在框内为单击g(enerate) currrate=Totcurass/Tutcurlia 流动比率(等号后面点右上方variables)显示(8 missing values generated)有八个缺失值g lev=Totlia/Totass 负债率leverageg pright= T otlia/ TotSHE 产权比率porpertysave bs2 另存数据drop 为删除变量clear从内存删掉,不会从硬盘删掉------利润表-----importsave isg incorate= Netprf/ Incmope 利润率=净利润/营业利润save is2----clearuse bs2 打开bs2g year=year( EndDt) 。
Stata笔记 北京科技大学
li(st) if new2>=14 & new2<24 (按q可以退出,即quit)
replace new3=rep78 (输错了替换)
drop new new2 new3删除变量
list if new>10000
list make if new<10000|new>2000(竖线表示或者,回车上面那个)
reg因变量(因变量:被解释变量;自变量:解释变量)
set linesize 140加宽显示窗格
reg price rep78 headroom trunk weight (std. err.=standard error,T值,confidence interval置信区间)
P与T反向关系,标准误=T值
. save bs
file bs.dta saved
. clear
. import excel "D:\Stata\BS_AD8BD666A41_(1)0417\newIS_8CBBC6F6EBB_(1)0417.xls", sheet("IS") firstrow
. duplicates drop _Stkcd y,force删除重复的
data
而master data指主数据库,using data从数据库
(替换变量名Stked改成A_Stked)repA_Stked Stked
(替换原数据is3)save is3,replace
clear清除合并
use bs3
duplicates report A_Stkcd year报告重复的变量(两个)
Stata学习笔记
Stata学习笔记以下命令均采用小写字母Chapter 1 stata入门1.1打开数据use "D:\Stata9\auto.dta", clear 用use命令打开数据sysuse auto,clear auto 为系统数据sysuse为打开系统数据的命令1.2获取帮助Help summarize summarize为需要获取帮助对象可以改为其他的需要帮助的对象Findit summarize,net寻找网络帮助summarize为需要获取帮助对象Search summarize ,net 寻找网络帮助summarize为需要获取帮助对象显示结果Display 5+91.3描述统计(summarize 可简写成sum)Use atuo,clearSummarize price 描述price的观察值个数、平均值、标准差、最小值、最大值Sum weight summarize可简写成sum Sum weight price 同时完成上面两步1.4绘图Scatter price weight scatter 为绘制散点图命令Line price weight ,sort line 为绘制折线图命令,sort为排序,绘制折线图前需要先排序1.5生成新的数据(generate 可简写成gen)ClearSet obs 1000 设置观测值的组数Gen x=_n _n 为观察值得序号Gen y=x+1001.6控制结果输出显示List n1.7设置屏幕滚动Set more off 先设置此项则显示时,屏幕不停止Set more on 先设置此项则显示时,会使显示停止1.8清除内存中原有内容clear1.9设置文件存取路径(cd)Cd d:\stata d:\stata为路径1.10如果想知道当前路径下有哪些文件,可以用dir 命令来列示.dir1.11假设你想在D 盘的根目录下创建一个新的文件夹mydata 来存放数据文件,命令为mkdir。
stata笔记常用
stata笔记常用Stata: 输出regression table到word和excel1. 安装estout。
最简单的方式是在stata的指令输入:ssc install estout, replaceEST安装的指导网址是:2.跑你的regression3.写下这行指令esttab using test.rtf,然后就会出现个漂亮的表格给你(WORD文档)。
只要再小幅修改,就可以直接用了。
这个档案会存在my document\stata下。
如果你用打开的是一个stata do file,结果会保存到do文件所在文件夹中。
如果要得到excel文件,就把后缀改为.xls或者.csv就可以了4.跑多个其实也不难,只要每跑完一个regression,你把它取个名字存起来:est store m1。
m1是你要改的,第一个model所以我叫m1,第二个的话指令就变成est store m2,依次类推。
5.运行指令:esttab m1 m2 ... using test.rtf就行了。
异方差的检验:Breusch-Pagan test in STATA:其基本命令是:estat hettest var1 var2 var3其中,var1 var2 var3 分别为你认为导致异方差性的几个自变量。
是你自己设定的一个滞后项数量。
同样,如果输出的P-Value 显著小于0.05,则拒绝原假设,即不存在异方差性。
White检验:其基本命令是在完成基本的OLS 回归之后,输入imtest, white如果输出的P-Value 显著小于0.05,则拒绝原假设,即不存在异方差性处理异方差性问题的方法:方法一:WLSWLS是GLS(一般最小二乘法)的一种,也可以说在异方差情形下的GLS就是WLS。
在WLS下,我们设定扰动项的条件方差是某个解释变量子集的函数。
之所以被称为加权最小二乘法,是因为这个估计最小化的是残差的加权平方和,而上述函数的倒数恰为其权重。
stata学习笔记
stata学习笔记数据管理创建一个新数据edit //在打开的数据表中创建变量和数据input x1 x2 ……set obs 10gen x1=_ngen x2=seq()egen x3=seq(),b(5) t(5)egen x4=fill(3 4 3 4)rename x1 pop //将变量var1改名为poprename x2 placemax C=(1,0.8\0.8,1)drawnorm x1 x2 ,means(1,10) sds(0.3,2) corr(C) n(500)gen x1=invnormal(uniform())gen roll=1+trunc(uniform()*6) 随机产生1-6随机数字gen x=exp(uniform())gen x=-3ln(uniform())gen x=(invnorm(uniform()))^2 卡方分布gen x=invttail(df,uniform()) t分布gen x=invFtail(df1,df2,uniform()) F分布sample 10,countlabel variable pop "population in 1000s,1995" //为变量pop 添加标签label define sex_label 1 "male" 2 "female"label values sex sex_label //为变量sex添加值标签save aaa //保持为aaa.dta文件save,replace合并数据use a.datappend using b.datuse a.datsort placesave,replaceuse b.datsort placemerge place using a.datreshape long grow,i(id) j(year)reshppe wide grow,i(id) j(year)clearcd f:\统计数据\statause aaasort pop //以变量pop排序order place pop //将变量place pop分别放在第一、二位置describle //描述变量信息list //显示变量和变量值list ,sep(3) 以每3行分隔显示list,sepby(var) 以var变量为界显示summarize x //显示变量的基本信息,可加上“,d”显示详细信息by var1 var2,sort:su x (by可用于su ci centile等)tabstat x,stats(mean median sd var skewness kurtosis cv semean p2 iqr)collapse (sum) var1 var2 (sd)var3 (mean) newvar1=var4 (median) newvar2=var5定义变量的子集(if 和in的使用)list pop place sex in 1/50sort poplist pop place in -4/1 //显示pop值最大的四个观察值summarize if pop<1000summarize if place !="china"summarize pop place sex if pop>100 & pop<1000summarize place sex if pop<100 | pop>1000summarize place if pop< . //缺失值比任何数值都大drop pop if place=="china"keep创建和替代变量1、use canada1,cleargenerate gap=flife-mlifelabel variable gap "flife-mlife gap life"format gap %4.1f //固定了宽度4,小数部分1其他%4.1g(宽度4,小数部分至少为1,可以小数或科学计数法显示)、%4.1eformat仅改变显示不影响计算use canada1,cleargenerate type=1replace type=2 if place=="canada"replace type=3 if place=="Yukou"运算符+ - * / ^ mod(x,y)使用函数abs()acos() //di acos(0.5)*180/_pisin cos asin atan atan2() y/x的反正切函数sqrt log()==ln() log10 expceil(x) >x的最小整数floor(x) <x的最大整数round(x) 四舍五入comb() lnfactorial()分布函数ttail(df,t) t>t0.05的概率(单侧)invttail(df,p) 根据概率计算t值,p为右侧概率F(df1,df2,f) 左侧概</x的最大整数率 invF(n1,n2,p)Ftail(df1,df2,f) 右侧概率 invFtail(n1,n2,p)chi2(df,x) 左侧概率chi2tail(df,x) 右侧概率binomial(n,x,p) n次试验中出现x次及更小的概率1-binomial(n,x-1,p)normal(z) 标准正态分布左侧累计概率日期函数(1)假设有数值变量a格式为20100312gen str str_a=string(a,"%10.0f") //转换a为字符变量gen date_a=date(str_a,"YMD") //转换str_a为日期变量,返回值为当前日期-1960年1月1日的数值format date_a %td //转换date_a的格式为日期12May2010 假设有数值变量a格式为20100312101205gen str str_a=string(a,"%16.0f")gen double date_a=clock(str_a,"YMDhms")format date_a %tc假设有三个数值变量m、d、y分别表示月、日、年gen date_a=mdy(m,d,y)egenegen x=seq(),b(3) t(2) 111222111222egen x=fill(100,98) 100 98 96 94egne x=fill(0,2,7,0,2,7)egen x=rowmean(x1,x2,x3) 产生新变量,其值为x1x2x3各行的均值egen x=rowsum(x1,x2,x3) 产生新变量,其值为x1x2x3各行的和egen x=std(a)for num 1/15 :egen xX=std(aX)egen xrank=rank(x)10、其他函数recode group encodegen x1=recode(age,24,28,32,~) //<=24 <=28egen x2=group(x1)encode strvar,gen(numvar) 将字符变量转为数值变量decode numvar,gen(strvar)创建新的分类变量和定序变量假设有分类变量(byte)type(1-3)tab typetab type,gen(type) //产生type1-3三个哑变量2、将数值变量gen x1=recode(age,24,28,32,~) //以<=24 <=28~分组egen x2=group(x1)变量下标di x[4]gen a=x-x[_n-1] //x与其前一个数值的差gen b=x-x[_n+1]从外部ascII文件导入数据以空格分隔,字符串需带引号infile str30 place ulife tlife using aaa.raw //产生三个变量,place为30长度的字符变量compress //压缩place变量为最长的字符以tab或“,”分隔insheet place ulife tlife using aaa.raw,comma(or tab) names 固定栏宽infix year 1-4 wood 5-8 water 9-10 using aaa.raw绘图hist x,bin(10) xlabel(0(2)10) ylabel(100(100)1000) xtick(1(2)11) norm fractionhist x,start(50 width(5) freq by(group,total)graph twoway scatter y x || line y x ||lfit y x,mlabel(id) msymbol(oh/x)graph twoway scatter y x||lfitci,stdfgraph matrix x y zgraph twoway line y x yeargraph twoway line y year ,yaxis(1)|| x year ,yaxis(2)graph twoway area y x yeargraph box x y z,over(group) yline(6.35)graph pie x y z,by(group) pie(3,explode)graph bar (mean)x y z,over(group)grapg dot (median) x1 x2,over(group) marker(1,msymbol(oh)) marker(2,msymbol(x))qnorm x,gridpnorm x,grid交叉表tab a b,sum(x) meantab a b,all tabi a b\ c d,all tab a b [fw=count],alltab1 a b c 分布绘制abc的一维表tab2 a b c 建立所有可能的二维表by c,sort:tab a b,all 以c的不同取值分别绘制a b的二维表table row col col1,by(row1) 绘制多维表sktest x swilk sfrancia正态性检验及数据变换sktest x swilk sfrancia立方严重负偏态平方轻度负偏态平方根轻度正偏态对数正偏态平方根负倒数严重正偏态倒数非常严重正偏态平方倒数同上立方倒数同上ladder x //产生以上8种变换后的正态性检验gladder x //针对ladder结果绘制直方图bcskews newx=x //产生新变量newx,是对x的变换方差齐性检验sdtest x1=x2sdtest x1,by(group)robvar x,by(group) levene检验,返回值W0:均数 W50:中位数 W10:trim10%后的均数方差分析单个样本ttest x=10 signtest x=10 二项分布ttest x1=x2 signrank x1=x2 wilcoxon符号检验ttest x,by(group) ranksum x,by(group) wilcoxon检验ttest x1=x2,unpaired unequalbitest x==pbitesti n k p单因素方差分析oneway x group,tabluate scheffe bonferroni sidak kwallis x,by(group)多因素方差分析anova x a##btest 1.a=2.atest 2.b=3.bbonferonni: r(p)*c c:比较次数,组数X(组数-1)/2scheffe:1-F(组数-1,误差自由度,r(F)/(组数-1,))regresspredict newvar 预测值predict newvar,stdp 预测值标准误anova x a b|aanova x a / id|a b a#banova x a b c.age相关分析(by var:)cor x ypwcorr x y,bonferrior/sidakspearman x y,bonferrior/sidakpcorr y x1-x3 去除其他x的影响后y与x的偏相关系数回归分析基本方法reg y x1 x2 x3 ,beta uncons预测值predict newvar,cooksd hat covratio dfits residuals rstudent rstandard stdp stdfhat>2p/n 发现高杠杆值dfits>2sqrt(p/n) 案例的自变量组合对回归直线的影响力cooksd>4/n 同上welsch>3sqrt(p) 同上covratio: |r-1|>=3p/nrvfplot,yline(0)假设检验reg y x*test x1 x2 x1 和x2回归系数同时为0test x1=x2虚拟变量tab region ,gen(reg) //产生reg1-4四个哑变量reg cmat reg2 //reg2与其他3个地区的比较reg cmat reg1 reg2 reg3 reg4 == xi:reg cmat i.region此方法便于做交互分析char region[omit]4 (与xi共同使用)xi:reg camt i.region逐步回归sw reg y x1-x4,pr(0.06) pe(0.05)sw reg y x1 x2 (x3 x4),lockterm1 pr(0.06)面板数据iis regiontis yearxtreg y x1 x2,rextmixed y 固定变量 || school:随机变量回归诊断estate ic 返回Aic Bic ll(null) ll(model)值(log likelihood对数似然值)quietly reg y x1-x5estimates store fullquietly reg y x1-x4lrtest fullovtest p<0.05提示有二次、三次或四次方项目需要添加hettest p<0.05提示方差不齐,误差散点图不是随机分布的dwstat 一价自相关的durbin-watson检验vif 自变量共线性检查vif>10 平均vif>1 有问题宽容度(vif的倒数)表示该变量独立程度,越大则越独立rvfplot 预测值与残差值的散点图rvpplot x 某一个自变量x与残差的散点图avplot x 去除其他变量影响后的x与y的线性关系,x轴上偏离的数值多为高杠杆值avplotsacprplot x,lowess 虚线在中间部分与直线不重和表示可能x与y存在其他非线性关系,另外可以报告与x具有线性关系的其他自变量lvr2plot 注意拟合不好且具有较高杠杆作用的值可能是高杠杆值hat 较大值提示高杠杆值dfits cooksd covratio 提示对y影响较大的值logistic回归logit y x* logit y x*,orblogit y n x*lrocroctab y x,graphroccomp y x1 x2 比较y与x1的roc曲线和y与x2的是否相同rocgold y x x1 x2 比较y与x(金标准)的roc曲线和y与x1的是否相同lsens,genprob(prob) gensens(sens) genspec(spec)lstatlfit,group(10) est gof,group(10)predict phat,hat deviance ddeviance dbet dx2 dbetaclogit y x*,group(matchvar)ologit y x*mlogit y x*,b(1) mlogit y x*,rrrconstraint define 1 [3]x=2[2]xconstranit define 2 [4]x=3[2]xmlogit y x,c(1 2) b(1)多元方差分析hotelling x*hotelling x*,by(group)manova x1 x2 x3=g b g*b广义线性模型glm y x1 x2 ,family(Gaussian) link(identity) */正态分布线性回归glm y x1 x2,family(binomial) link(logit) */logistics回归glm y x1 x2,family(poisson) link(log) lnoffset(暴露人年变量) poisson y x1 x2,exposure(暴露人年变量)poisgof [,pearson]glm y x1 x2,family(nbinomial) link(log)nbreg y x1 x2gnbreg y x1 x2 ,lnalpha(var)predict主成份分析pca x*screeplot因子分析factor x*,pcf mine(0.5) 主成份法factor x*,ml mine(0.5) 最大似然法factor x*,ipf //迭代主因子法rotate 方差极大旋转rotate,promax 斜交法生存分析stset time,failure(outcome)stsum,by(treat)stci,rmean by(treat)sts list,by(treat)sts graph,by(treat) loststs graph,by(treat) gwoodsts test groupstreg treat group,nohr dist(exponential/weibull)predict new_var if treat==1,survstcox treat group,nohrcox result treat group,dead(outcome) nohrsw cox result treat group,dead(outcome) nohr流行病队列研究ir case exposure time(人年数)iri a b n1 n2cs case exposure [freq=count]csi a b c d,by(group)可使用tb和exact(默认)计算rr可信区间,不能使用woolf 病例对照研究cc case expose,by(group)cci a b c dmcc case controlmcci a b c d可使用exact(默认)、woolf、 cornfield计算rr可信区间tabodds modds不如用logistic、cox比例风险模型。
Stata学习笔记
1、横截面数据:多个经济个体的变量在同一时间点上的取值,如2012年中国各省的GDP2、时间数列数据:指的是某个经济个体的变量在不同时点上的取值,如1978-2012年山东省每年的GDP3、面板数据:多个经济个体的变量在不同时点上的取值,如1978-2012年中国各省的GDP小样本OLS(最小二乘法):单一方程线性回归最常见方法条件:解释变量与扰动项正交、扰动项无自相关、同方差。
拟合优度:衡量线性回归模型对样本数据的拟合程度(R2),越高说明模型拟合程度越好。
单系数T检验:对回归方程扰动项的具体概率进行假设显著性水平进行检验F检验:整个回归方程是否显著STATA操作简介:如果数据中包含1949-10-01或1949/10/01的时间变量,导入stata后可能会被视为字符串,因此对于日度数据,可以使用命令gen newvar=date(varname,YMD),将其转换为整数日期变量,其中YMD说明原始数据的格式为年月日,如果原始数据的格式为月日年则使用MDY;对于月度数据则gen newvar=monthly(varname,YM)。
.describe:数据的概貌 .drop keep:删除和保留.su:统计特征 Pwcorr:变量之间相关系数Star(.05):5%显著性水平 gen:产生g intc=log(tc):取自然对数. reg:OLS回归.Vce:协方差矩阵 reg。
,noc表示在进行回归时不要常数项大样本OLS:只要求解释变量与同期的扰动项正交即可Robust:稳健标准误,如果存在异方差,则应使用稳健标准误最大似然估计法:如果回归方程存在非线性,则使用最大似然估计法(MLE)或非线性最小二乘法(NLS)三类在大样本下渐进等价的统计检验:Wald test LR(似然比检验) LM操作步骤如下:sysuse auto(调用数据集)Hist mpg,normal(画变量mpg的直方图,并与正态密度比较)直方图显示,变量mpg的分布于正态分布有一定差距。
stata统计分析与应用笔记汇总
第一章:Stata概述:help和search都是查找文件的命令但help用于查找精确的命令,search是模糊查找。
还可使用help|contents 来分类查找第二章:数据管理:2.1变量和变量的取值:1.变量的命名:不能以数字开头,区分大小写,不能命名为系统变量名2.变量的取值类型:(1)字符型:字符变量存储格式是str⋕,str表示格式⋕表示该变量的存储最多可容纳的字符数(2)数值型数据:存储格式:byte.int.long.float.double.Stata默认将数字存储为浮点数据,而将计算结果存为双浮点数据。
(3)缺失数据:一般仅用“.”表示3.变量的显示:(1)数值变量的显示格式:a.普通格式有%w.dg, %w.dgc(g表示普通,w表示整个显示所占的字符数,d表示显示的数字中小数点后的位数,c是要求Stata给出带逗号“,”数字显示格式如12345显示为12,345)b.固定格式有%w.df, %w.dfc(f表示固定)c.科学指数法格式:%w.de, (e表示科学计数)(2)字符变量的显示格式:仅有一种%⋕s,%是提示符,#表示显示字符数,s表示字符变量显示格式,默认右对齐,后加“-”可改为左对齐。
(3)使用format命令变量显示格式:format varlist %fmt 或者 format %fmt varlist 4.变量的标签(1)添加数据集的标签使用: label data [“lable”](2)添加变量的标签使用:label variable varname [“lable”](3)label为变量数值添加标签的语法有两部分,先定义数值标签:label define lblname#“lable” [#“lable”](lblname是标签名称) 然后将定义好的数值标签添加到变量上:label values varlist [lblnamel.]2.2创建一个新的数据集1.关于数据集操作的基本命令(1)browse 和edit 命令:browse 用于打开数据浏览器,edit命令用于打开数据编辑器Edit [varlist] [if] [in]browse [varlist] [if] [in](if和in 用于选择需要的子集)(2)rename:rename old_varname new_varname(3)save命令:save [filename] [,save_options]([,save_options]可以指nolabel(不保存设定标签),replace(允许新文件覆盖原文件),all主要用于编程(4)describe:用于产生一个对数据集的简明总结格式:describe [varlist] [,memory_options](命令选项:simple,short,detail,fullnames)(5)list:用于显示变量的数值,其后可以跟需要显示的变量名称语法:list [varlist] [if] [in] [,options](命令选项包括:noobs(不显示观测值的数值),clean,separator,sepby,nolabel)(6)codebook:用于详尽地描述变量的内容,包括变量名称、标签、赋值。
Stata学习笔记和国贸理论总结
stata学习笔记一、认识数据(一)向stata中导入txt. csv格式的数据 1.这两种数据可以用文本文档打开.新建记事本-然后将相应文档拖入记事本即可打开数据,e制2.按下stata中的edit按钮,右键选择paste special3. \xls/\xlsx数据仅能用Excel打开,不可用记事本打开,打开后会出现乱码,也不要保存•否则就恢a不了。
逗号分隔的数常为CSV数据。
(二)网页数据网页上的表格只要能选中的,都能复制到excel中;网页数据的下載可以通过白度“国家数据**进行搜索、下载二、Do-file 和log 文件打开stata后,第一步就要do-file,记录步骤和历史记录•方便fl后査看。
Stata处理中保留的三种文件:原始数据(\dta),记录处理步骤(\do).以及处理的历史记录(*.smcl)o三、导入StataStata不识别带有中文的变a,如果导入的数据第一行有中文就没法导入。
但是对于列来说不会出现这个问题,不分析即可(Stata不分析字符ftb红色文本显示:被分析的数据•黑色显示):第一行是英文变最名.选择-Treat first row as variable names”在导入新数据的时候,需要清空原有数据• clear命令.导入空格分隔数据:复制一tata中选择edit按钮或输入相应命令右键选择Paste special ------ 并选择•确定;导入Excel中数据•复制粘贴即可:逗号分隔数据,选择Paste special后点击comma,然后确定。
Stata数据格式为-・dta,导入后统一使用此格式》(一)use auto, clear。
在清空原有数据的同时,导入新的auto数据。
(二)browse •浏览数据。
(三)describe和list.査看数据,describe和list使用list命令能使我们根据n己的需要选择数据(例如其与in/if语句的结合使用)O(四)ScatterO 作图命令,scatter 散点图(scatter price mpg )(五)Summarizeo描述统计,常写作sum/su,求变量的个数、平均值、标准差、故小值和般大值。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
改颜色edit-preference-general prefernce-classic下面命令框-右键-font-改字号命令cd d:\ 改到d盘(change directory)dir查询d盘有什么sysuse auto 系统自带汽车数据,数据变量(字段)显示在右上角br(owse) 浏览数据(字符型红色,数值型黑色,蓝色-右键-value labels-hide all labels标签隐藏)h(elp) li(st) 告诉你命令怎么用,下面有例子左边双击执行,单击复制到命令框order price mpg(单击右边的变量)order make-foreign 改变变量顺序,从make到foreigng(enerate) new=rep78-trunk 输出新变量(rep78,trunk是字段,可单击选择,"."表示缺省,加减乘除+-*/)list if new==14 (==为等于,=为赋值,可以点击more)li(st) if new2>=14 & new2<24 (按q可以退出,即quit)replace new3=rep78 (输错了替换)drop new new2 new3删除变量list if new>10000list make if new<10000|new>2000 (竖线表示或者,回车上面那个)!=表示不等于左边命令,右键savesave data 文件名为datasysuse autopreservereservesave auto2 保存时不需加后缀,删除时带后缀.dtasort price从小到大gsort price 都可以,比较随意gsort -trunk price (默认加号,为排序)order make new (将new排到第二位)aorder (alphabetic 按字母顺序排序)disp(lay) sin(1) 作为计算器使用ln以e为底----------------3.13---------锐思数据库选择数据-----非金融行业负债表----左边-财务报表-非金融行业合并标识-1合并报表调整标识-1报表类型-q4、信息来源-q4公司类别-20-定期报告信息来源:q4a股股票代码截止日期流动资产合计应收账款总资产流动负债合计负债合计所有者权益合计------非金融行业利润表---前同净利润营业收入excel输出(默认)选择列表签+列名------打开STATA------菜单引入文件clear可清除数据varible name 不识别中文选中第一个import first row as varible names第二个import all data as strings意思是将数据看作字符型(不选)br(ouse)展示数据流动比率=流动资产/流动负债资产负债率=总负债/总资产产权比率=总负债/所有者权益合计mkdir d:\hsy1\mydata 建立文件夹cd d:\hsy1\mydata 基于文件夹dir 显示文件夹save bs 保存数据,名为bs直接运行是双击,显示在框内为单击g(enerate) currrate=Totcurass/Tutcurlia 流动比率(等号后面点右上方variables)显示(8 missing values generated)有八个缺失值g lev=Totlia/Totass 负债率leverageg pright= Totlia/ TotSHE 产权比率porpertysave bs2 另存数据drop 为删除变量clear从内存删掉,不会从硬盘删掉------利润表-----importsave isg incorate= Netprf/ Incmope 利润率=净利润/营业利润save is2----clearuse bs2 打开bs2g year=year( EndDt) 。
year(EndDt)表示从变量EndDt里把年份取出,如month()g month=month( EndDt)save bs3-----clear. use is2. g year=year( EndDt). g month=month( EndDt). save is3----合并merge横向1对1合并,append纵向合并---merge 1:1 A_Stkcd year using bs3注意后面的两个变量名字在原来两个表里是相同的,将bs3合并到现在(is3)中错误类型variables A_Stkcd year do not uniquely identify observations in the master data而master data指主数据库,using data 从数据库(替换变量名Stked 改成A_Stked)rep A_Stked Stked(替换原数据is3)save is3,replaceclear 清除合并use bs3duplicates report A_Stkcd year 报告重复的变量(两个)显示(surplus为多余的)copies | observations surplus----------+---------------------------1 | 17017 021 | 21 2022 | 110 10523 | 46 44--------------------------------------duplicates drop A_Stkcd year,force 同一公司同一年数据删掉,强制删除save bs4(is,bs都除重就可以合并了)keep if _merge==3(3为完全匹配,1,2不完全匹配)drop if _merge!=3 如果不完全匹配去除. save bsis--------------------------300创业板(最小)002中小板000主板keep if substr( A_Stkcd,1,3)=="300" 筛选,substr()为取字符串函数,从第一位开始取取3位,加引号为字符型summerize Totass 看Totass的各种指标,标准差,最大最小值su Totass,detail 可以看到上下四分位截尾,去掉两端1%左右的值缩尾,将99%以后的数值以99%的数值替代,去除极端值,1%一下同理su Totlia,d(etail)su Accrecv-pright 逐个显示变量的信息corr(elation) Totass Totlia 相关性分析,0.3一下不相关,0.3-0.5低度相关,0.5-0.8中度相关pwcorr Totass Totlia 偏相关pwcorr Totass Totlia Totcurrass,sig star(0.05) 显著性水平significance,小于0.05的标星号,星号在它上面------------导出,------------------------------------3.20----------------------------------reg 因变量(因变量:被解释变量;自变量:解释变量)set linesize 140加宽显示窗格reg price rep78 headroom trunk weight (std. err.=standard error,T值,confidence interval置信区间)P与T反向关系,标准误=T值adjusted r-square调整的r方(自变量越多r方越大)*表示P<10%,>5%**表示P<5%,>1%***表示P<1%DF 自由度,degree of freettest rep78=headroom。
t检验做散点图scatter length price。
命令是scatterline 变量名1 变量名2 折线图hist 变量名1 变量名2。
做直方图histogram 柱状图hist 变量名,freqhist 变量名,addl freq--------------------3.27--------------------将家庭记为househood,个人记为people,收入记为income。
输入命令:egen income_people=mean(income),by(househood)就可以了!egen newvar= ma(y), nomiss t(7)即建立一个新变量,等于跨距为7的y的移动平均数,用较短、未对中的平均数取代起点值和终点值。
g y=year( EndDt) 提取年份. order CompanyCode y 将公司代码排第一列,年份排第二列help reshapereshape wide Incmope- InventoryTurnoverRatio,i( CompanyCode) j( y)一定在i和前面有逗号!. g Accrecv2009mean=( Accrecv2009+ Accrecv2008)/2reshape long .....,----------4.17---------------destring 变量名,replace 使字符型变数值型g y=real(substr( Accper,1,4)) 从字符型取年份,并变成数值型,从左向右取四位. drop Accper. order Stkcd y 按变量1,变量2 排序. keep if y==2000|y==2001. g infee=ln( Tcost) 对Tcost取对数产生infee变量. drop Tcostg brandname=1 if substr( Dadtunit,1,4)=="普华"(4441 missing values generated). replace brand=1 if substr( Dadtunit,1,4)=="德勤"(51 real changes made). drop Dadtunit. g opinion=0 if Audittyp=="标准无保留意见". replace opinion=1 if opinion==. 将缺失值替代为1(214 real changes made)-----------------import excel "D:\Stata\BS_AD8BD666A41_(1)0417\newBS_AD8BD666A41_(1)0417.xls", sheet("BS") firstrow. br. g y=year( _EndDt). drop _EndDt. g inasset=ln( _Totass) 对总资产取对数. g invrec=( _Accrecv +_Invtr)/ _Totassdrop _Accrecv _Invtr _Totass. order _A_Stkcd y. save bssaved. clear. import excel "D:\Stata\BS_AD8BD666A41_(1)0417\newIS_8CBBC6F6EBB_(1)0417.xls", sheet("IS") firstrow. duplicates drop _Stkcd y,force删除重复的Duplicates in terms of _Stkcd y(42 observations deleted). drop if _n<3 删除前两行,_n就是序号的意思(2 observations deleted)merge 1:1 _Stkcd y using bs1variables _Stkcd y do not uniquely identify observations in the using data 合并有重复的,在自子数据库use bs1. duplicates drop _Stkcd y,force 与对母数据库同样操作,都除重后就可以合并了Duplicates in terms of _Stkcd y(42 observations deleted). merge 1:1 _Stkcd y using is2Result # of obs.-----------------------------------------not matched 30from master 12 (_merge==1)from using 18 (_merge==2)matched 5,077 (_merge==3)-----------------------------------------. g len=length( _Stkcd) 对股票代码取长度看看有没有长度为0的就是空的. su len 看看len的情况,summarize 发现有长度为0的Variable | Obs Mean Std. Dev. Min Max -------------+--------------------------------------------------------len | 5131 5.948548 .5532848 0 6. list if len==0. drop if len==0 删掉len=0的(44 observations deleted). drop len 去除len变量Merge之后算ROE=净利润/所有者权益. g roe= _Netprf/ _TotSHE. g list=1 if roe>0 & roe<=0.02 产生哑变量list,若。