复旦大学stata精华学习笔记

合集下载

Stata 自学笔记

Stata 自学笔记

Stata笔记1.clear2.input3.savee5.sysuse6.d/des/desc/describe7.sum & return list & ereturn list8.reg9.clear results10.matrix11.type12.insheet13.rename14.infile15.browse16.xmlusepress18.xpose19.tsset20.outfile21.outsheet22.xmlsave23.变量Stata笔记1.clear清除内存数据。

数据都是存入内存来计算的,所以在输入大量数据之前,要先清除内存中的数据来释放空间。

删除的不光包括数据,还有变量,以及Data Editor 中的数据。

(就是删除所有数据,什么都不留)不影响已经存在硬盘上的数据。

(只删除内存中的所有数据)具体使用方法在下文中有具体例子。

手动输入数据。

可以分五次输入,也可以直接复制到Command 。

input x y x50 30 2020 30 5020 52 60end保存数据。

此项如果保存在C 盘可能因为权限不够而报错。

换到其他盘符即可。

save data_name[,replace]save 名称[,如果之前已经有这个名称,则替换(覆盖)。

]使用、导入(.dta )数据。

use data_name[,clear]use “file_path”[,clear]use url[,clear]use 名称[,清除。

]2.input3.savee导入软件安装时自带的数据时用。

sysuse auto,clear导入汽车数据。

显示数据变量信息。

(名称、类型等等)describe[,detail]sum price weight turn(以刚刚导入的汽车价格数据为例,price weight turn 为变量名称)显示一些相关信息。

(观察值个数、平均数、最大最小值等等)5.sysuse6.d/des/desc/describe7.sum & return list & ereturn listreturn listreturn 可以简写为ret返回更多信息(包括sum 没有显示的)ereturn listereturn 可以简写为eret返回更详细的信息。

stata学习笔记

stata学习笔记

经济数据的特点与类型。

1、横截面数据:多个经济个体的变量在同一时间点上的取值,如2012年中国各省的GDP2、时间数列数据:指的是某个经济个体的变量在不同时点上的取值,如1978-2012年山东省每年的GDP3、面板数据:多个经济个体的变量在不同时点上的取值,如1978-2012年中国各省的GDP 小样本OLS(最小二乘法):单一方程线性回归最常见方法条件:解释变量与扰动项正交、扰动项无自相关、同方差。

拟合优度:衡量线性回归模型对样本数据的拟合程度(R2),越高说明模型拟合程度越好。

单系数T检验:对回归方程扰动项的具体概率进行假设显著性水平进行检验F检验:整个回归方程是否显著STATA操作简介:如果数据中包含1949-10-01或1949/10/01的时间变量,导入stata后可能会被视为字符串,因此对于日度数据,可以使用命令gen newvar=date(varname,YMD),将其转换为整数日期变量,其中YMD说明原始数据的格式为年月日,如果原始数据的格式为月日年则使用MDY;对于月度数据则gen newvar=monthly(varname,YM)。

.describe:数据的概貌.drop keep:删除和保留.su:统计特征Pwcorr:变量之间相关系数Star(.05):5%显著性水平gen:产生g intc=log(tc):取自然对数. reg:OLS回归.Vce:协方差矩阵reg。

,noc表示在进行回归时不要常数项大样本OLS:只要求解释变量与同期的扰动项正交即可Robust:稳健标准误,如果存在异方差,则应使用稳健标准误最大似然估计法:如果回归方程存在非线性,则使用最大似然估计法(MLE )或非线性最小二乘法(NLS )三类在大样本下渐进等价的统计检验:Wald test LR (似然比检验) LM操作步骤如下:sysuse auto (调用数据集)Hist mpg ,normal (画变量mpg 的直方图,并与正态密度比较)D e n s i t y直方图显示,变量mpg 的分布于正态分布有一定差距。

(完整版)Stata学习笔记和国贸理论总结

(完整版)Stata学习笔记和国贸理论总结

(完整版)Stata学习笔记和国贸理论总结Stata学习笔记⼀、认识数据(⼀)向stata中导⼊txt、csv格式的数据1.这两种数据可以⽤⽂本⽂档打开,新建记事本,然后将相应⽂档拖⼊记事本即可打开数据,复制2.按下stata中的edit按钮,右键选择paste special3.*.xls/*.xlsx数据仅能⽤Excel打开,不可⽤记事本打开,打开后会出现乱码,也不要保存,否则就恢复不了。

逗号分隔的数据常为csv数据。

(⼆)⽹页数据⽹页上的表格只要能选中的,都能复制到excel中;⽹页数据的下载可以通过百度“国家数据”进⾏搜索、下载⼆、Do-file 和log⽂件打开stata后,第⼀步就要do-file,记录步骤和历史记录,⽅便⽇后查看。

Stata处理中保留的三种⽂件:原始数据(*.dta),记录处理步骤(*.do),以及处理的历史记录(*.smcl)。

三、导⼊StataStata不识别带有中⽂的变量,如果导⼊的数据第⼀⾏有中⽂就没法导⼊。

但是对于列来说不会出现这个问题,不分析即可(Stata不分析字符串,红⾊⽂本显⽰;被分析的数据,⿊⾊显⽰);第⼀⾏是英⽂变量名,选择“Treat first row as variable names”在导⼊新数据的时候,需要清空原有数据,clear命令。

导⼊空格分隔数据:复制——Stata中选择edit按钮或输⼊相应命令——右键选择paste special——并选择,确定;导⼊Excel 中数据,复制粘贴即可;逗号分隔数据,选择paste special后点击comma,然后确定。

Stata数据格式为*.dta,导⼊后统⼀使⽤此格式。

四、基本操作(⼏个命令)(⼀)use auto,clear 。

在清空原有数据的同时,导⼊新的auto数据。

(⼆)browse 。

浏览数据。

(三)describe 和list。

查看数据,describe 和list 使⽤list命令能使我们根据⾃⼰的需要选择数据(例如其与in/if语句的结合使⽤)。

(完整版)Stata学习笔记和国贸理论总结

(完整版)Stata学习笔记和国贸理论总结

Stata学习笔记一、认识数据(一)向stata中导入txt、csv格式的数据1.这两种数据可以用文本文档打开,新建记事本,然后将相应文档拖入记事本即可打开数据,复制2.按下stata中的edit按钮,右键选择paste special3.*.xls/*.xlsx数据仅能用Excel打开,不可用记事本打开,打开后会出现乱码,也不要保存,否则就恢复不了。

逗号分隔的数据常为csv数据。

(二)网页数据网页上的表格只要能选中的,都能复制到excel中;网页数据的下载可以通过百度“国家数据”进行搜索、下载二、Do-file 和log文件打开stata后,第一步就要do-file,记录步骤和历史记录,方便日后查看。

Stata处理中保留的三种文件:原始数据(*.dta),记录处理步骤(*.do),以及处理的历史记录(*.smcl)。

三、导入StataStata不识别带有中文的变量,如果导入的数据第一行有中文就没法导入。

但是对于列来说不会出现这个问题,不分析即可(Stata不分析字符串,红色文本显示;被分析的数据,黑色显示);第一行是英文变量名,选择“Treat first row as variable names”在导入新数据的时候,需要清空原有数据,clear命令。

导入空格分隔数据:复制——Stata中选择edit按钮或输入相应命令——右键选择paste special——并选择,确定;导入Excel中数据,复制粘贴即可;逗号分隔数据,选择paste special后点击comma,然后确定。

Stata数据格式为*.dta,导入后统一使用此格式。

四、基本操作(几个命令)(一)use auto,clear 。

在清空原有数据的同时,导入新的auto数据。

(二)browse 。

浏览数据。

(三)describe 和list。

查看数据,describe 和list 使用list命令能使我们根据自己的需要选择数据(例如其与in/if语句的结合使用)。

Stata学习笔记和国贸理论总结

Stata学习笔记和国贸理论总结

Stata学习笔记一、认识数据(一)向stata中导入txt、csv格式得数据1.这两种数据可以用文本文档打开,新建记事本,然后将相应文档拖入记事本即可打开数据,复制2.按下stata中得edit按钮,右键选择paste special3.*、xls/*、xlsx数据仅能用Excel打开,不可用记事本打开,打开后会出现乱码,也不要保存,否则就恢复不了。

逗号分隔得数据常为csv数据。

闡贄鲜饩狈酾阑。

(二)网页数据网页上得表格只要能选中得,都能复制到excel中;网页数据得下载可以通过百度“国家数据”进行搜索、下载恒險谅枫諷为誣。

二、Do-file 与log文件打开stata后,第一步就要do-file,记录步骤与历史记录,方便日后查瞧。

Stata处理中保留得三种文件:原始数据(*、dta),记录处理步骤(*、do),以及处理得历史记录(*、smcl)。

鍥糶斷轻浆辆钓。

三、导入StataStata不识别带有中文得变量,如果导入得数据第一行有中文就没法导入。

但就是对于列来说不会出现这个问题,不分析即可(Stata不分析字符串,红色文本显示;被分析得数据,黑色显示);第一行就是英文变量名,选择“Treat first row as variable names”馀紋锭箩谅绾纭。

在导入新数据得时候,需要清空原有数据,clear命令。

导入空格分隔数据:复制——Stata中选择edit按钮或输入相应命令——右键选择paste special——并选择,确定;导入Excel中数据,复制粘贴即可艰鍤悵铧恥郑顎。

;逗号分隔数据,选择paste special后点击comma,然后确定。

Stata数据格式为*、dta,导入后统一使用此格式。

四、基本操作(几个命令)(一)use auto,clear 。

在清空原有数据得同时,导入新得auto数据。

(二)browse 。

浏览数据。

(三)describe 与list。

查瞧数据,describe 与list 使用list命令能使我们根据自己得需要选择数据(例如其与in/if语句得结合使用)。

stata学习笔记培训资料

stata学习笔记培训资料

第2 章给水排水工程结构主页章2 第目录混凝土结构设计方法上一章)Design Method of Concrete Structure(下一章助帮第2 章给水排水工程结构本章重点主页?了解结构上的作用、作用效应和结构抗力目录的概念及其随机特性;——了解混凝土结构设计方法的理论基础?上一章可靠度理论;下一章概率极限状?掌握我国规范的设计方法——态设计法。

助帮第2 章给水排水工程结构基本概念2.1§2.1.1 结构上的作用(action)页主1.定义:凡能使结构产生内力、应力、位移、应变、目录2.裂缝的因素,都称为结构上的作用。

上一章分类:2.?直接作用:荷载(集中荷载与分布荷载);下一章?间接作用:温度、收缩、徐变、地基不均匀沉降、助地震等。

.第2 章给水排水工程结构2.1.2 作用效应(action effect)[S]主页定义:作用在结构上产生的反应,如内力、应力、位移、应变、裂缝等,称为作用效应。

目录上一章2.1.3 结构抗力(structural resistance)[R]下一章结构抵抗作用效应的能力,称为结构抗力。

定义:助帮第2 章给水排水工程结构§2.2荷载load2.2.1 荷载分类页主永久荷载(恒载):大小、方向、作用点不随时间改变的荷载为永久荷载,如自重、土压dead load)(目录力、预应力等;可变荷载(活载):大小、方向或作用点随时间改变而上一章(live load)变化的荷载为可变荷载,如楼面和屋面活载、风荷载、雪荷载、下一章吊车荷载、车辆荷载等;偶然荷载:结构使用期间可能不出现,一旦出现,其作助用时间短、效应大的荷载为偶然荷载,如炸力,撞击等。

.第2 章给水排水工程结构2.2.2 荷载代表值(representative values of load)1. 标准值——由设计基准期内最大荷载概率分布的某主页一分位值确定的荷载值,是永久荷载的()characteristic value唯一代表值。

Stata学习笔记

Stata学习笔记

Stata学习笔记1、横截⾯数据:多个经济个体的变量在同⼀时间点上的取值,如2012年中国各省的GDP2、时间数列数据:指的是某个经济个体的变量在不同时点上的取值,如1978-2012年⼭东省每年的GDP3、⾯板数据:多个经济个体的变量在不同时点上的取值,如1978-2012年中国各省的GDP⼩样本OLS(最⼩⼆乘法):单⼀⽅程线性回归最常见⽅法条件:解释变量与扰动项正交、扰动项⽆⾃相关、同⽅差。

拟合优度:衡量线性回归模型对样本数据的拟合程度(R2),越⾼说明模型拟合程度越好。

单系数T检验:对回归⽅程扰动项的具体概率进⾏假设显著性⽔平进⾏检验F检验:整个回归⽅程是否显著STATA操作简介:如果数据中包含1949-10-01或1949/10/01的时间变量,导⼊stata后可能会被视为字符串,因此对于⽇度数据,可以使⽤命令gen newvar=date(varname,YMD),将其转换为整数⽇期变量,其中YMD说明原始数据的格式为年⽉⽇,如果原始数据的格式为⽉⽇年则使⽤MDY;对于⽉度数据则gen newvar=monthly(varname,YM)。

.describe:数据的概貌 .drop keep:删除和保留.su:统计特征 Pwcorr:变量之间相关系数Star(.05):5%显著性⽔平 gen:产⽣g intc=log(tc):取⾃然对数. reg:OLS回归.Vce:协⽅差矩阵 reg。

,noc表⽰在进⾏回归时不要常数项⼤样本OLS:只要求解释变量与同期的扰动项正交即可Robust:稳健标准误,如果存在异⽅差,则应使⽤稳健标准误最⼤似然估计法:如果回归⽅程存在⾮线性,则使⽤最⼤似然估计法(MLE)或⾮线性最⼩⼆乘法(NLS)三类在⼤样本下渐进等价的统计检验:Wald test LR(似然⽐检验) LM操作步骤如下:sysuse auto(调⽤数据集)Hist mpg,normal(画变量mpg的直⽅图,并与正态密度⽐较)直⽅图显⽰,变量mpg的分布于正态分布有⼀定差距。

stata学习笔记

stata学习笔记

stata学习笔记数据管理创建一个新数据edit //在打开的数据表中创建变量和数据input x1 x2 ……set obs 10gen x1=_ngen x2=seq()egen x3=seq(),b(5) t(5)egen x4=fill(3 4 3 4)rename x1 pop //将变量var1改名为poprename x2 placemax C=(1,0.8\0.8,1)drawnorm x1 x2 ,means(1,10) sds(0.3,2) corr(C) n(500)gen x1=invnormal(uniform())gen roll=1+trunc(uniform()*6) 随机产生1-6随机数字gen x=exp(uniform())gen x=-3ln(uniform())gen x=(invnorm(uniform()))^2 卡方分布gen x=invttail(df,uniform()) t分布gen x=invFtail(df1,df2,uniform()) F分布sample 10,countlabel variable pop "population in 1000s,1995" //为变量pop 添加标签label define sex_label 1 "male" 2 "female"label values sex sex_label //为变量sex添加值标签save aaa //保持为aaa.dta文件save,replace合并数据use a.datappend using b.datuse a.datsort placesave,replaceuse b.datsort placemerge place using a.datreshape long grow,i(id) j(year)reshppe wide grow,i(id) j(year)clearcd f:\统计数据\statause aaasort pop //以变量pop排序order place pop //将变量place pop分别放在第一、二位置describle //描述变量信息list //显示变量和变量值list ,sep(3) 以每3行分隔显示list,sepby(var) 以var变量为界显示summarize x //显示变量的基本信息,可加上“,d”显示详细信息by var1 var2,sort:su x (by可用于su ci centile等)tabstat x,stats(mean median sd var skewness kurtosis cv semean p2 iqr)collapse (sum) var1 var2 (sd)var3 (mean) newvar1=var4 (median) newvar2=var5定义变量的子集(if 和in的使用)list pop place sex in 1/50sort poplist pop place in -4/1 //显示pop值最大的四个观察值summarize if pop<1000summarize if place !="china"summarize pop place sex if pop>100 & pop<1000summarize place sex if pop<100 | pop>1000summarize place if pop< . //缺失值比任何数值都大drop pop if place=="china"keep创建和替代变量1、use canada1,cleargenerate gap=flife-mlifelabel variable gap "flife-mlife gap life"format gap %4.1f //固定了宽度4,小数部分1其他%4.1g(宽度4,小数部分至少为1,可以小数或科学计数法显示)、%4.1eformat仅改变显示不影响计算use canada1,cleargenerate type=1replace type=2 if place=="canada"replace type=3 if place=="Yukou"运算符+ - * / ^ mod(x,y)使用函数abs()acos() //di acos(0.5)*180/_pisin cos asin atan atan2() y/x的反正切函数sqrt log()==ln() log10 expceil(x) >x的最小整数floor(x) <x的最大整数round(x) 四舍五入comb() lnfactorial()分布函数ttail(df,t) t>t0.05的概率(单侧)invttail(df,p) 根据概率计算t值,p为右侧概率F(df1,df2,f) 左侧概</x的最大整数率 invF(n1,n2,p)Ftail(df1,df2,f) 右侧概率 invFtail(n1,n2,p)chi2(df,x) 左侧概率chi2tail(df,x) 右侧概率binomial(n,x,p) n次试验中出现x次及更小的概率1-binomial(n,x-1,p)normal(z) 标准正态分布左侧累计概率日期函数(1)假设有数值变量a格式为20100312gen str str_a=string(a,"%10.0f") //转换a为字符变量gen date_a=date(str_a,"YMD") //转换str_a为日期变量,返回值为当前日期-1960年1月1日的数值format date_a %td //转换date_a的格式为日期12May2010 假设有数值变量a格式为20100312101205gen str str_a=string(a,"%16.0f")gen double date_a=clock(str_a,"YMDhms")format date_a %tc假设有三个数值变量m、d、y分别表示月、日、年gen date_a=mdy(m,d,y)egenegen x=seq(),b(3) t(2) 111222111222egen x=fill(100,98) 100 98 96 94egne x=fill(0,2,7,0,2,7)egen x=rowmean(x1,x2,x3) 产生新变量,其值为x1x2x3各行的均值egen x=rowsum(x1,x2,x3) 产生新变量,其值为x1x2x3各行的和egen x=std(a)for num 1/15 :egen xX=std(aX)egen xrank=rank(x)10、其他函数recode group encodegen x1=recode(age,24,28,32,~) //<=24 <=28egen x2=group(x1)encode strvar,gen(numvar) 将字符变量转为数值变量decode numvar,gen(strvar)创建新的分类变量和定序变量假设有分类变量(byte)type(1-3)tab typetab type,gen(type) //产生type1-3三个哑变量2、将数值变量gen x1=recode(age,24,28,32,~) //以<=24 <=28~分组egen x2=group(x1)变量下标di x[4]gen a=x-x[_n-1] //x与其前一个数值的差gen b=x-x[_n+1]从外部ascII文件导入数据以空格分隔,字符串需带引号infile str30 place ulife tlife using aaa.raw //产生三个变量,place为30长度的字符变量compress //压缩place变量为最长的字符以tab或“,”分隔insheet place ulife tlife using aaa.raw,comma(or tab) names 固定栏宽infix year 1-4 wood 5-8 water 9-10 using aaa.raw绘图hist x,bin(10) xlabel(0(2)10) ylabel(100(100)1000) xtick(1(2)11) norm fractionhist x,start(50 width(5) freq by(group,total)graph twoway scatter y x || line y x ||lfit y x,mlabel(id) msymbol(oh/x)graph twoway scatter y x||lfitci,stdfgraph matrix x y zgraph twoway line y x yeargraph twoway line y year ,yaxis(1)|| x year ,yaxis(2)graph twoway area y x yeargraph box x y z,over(group) yline(6.35)graph pie x y z,by(group) pie(3,explode)graph bar (mean)x y z,over(group)grapg dot (median) x1 x2,over(group) marker(1,msymbol(oh)) marker(2,msymbol(x))qnorm x,gridpnorm x,grid交叉表tab a b,sum(x) meantab a b,all tabi a b\ c d,all tab a b [fw=count],alltab1 a b c 分布绘制abc的一维表tab2 a b c 建立所有可能的二维表by c,sort:tab a b,all 以c的不同取值分别绘制a b的二维表table row col col1,by(row1) 绘制多维表sktest x swilk sfrancia正态性检验及数据变换sktest x swilk sfrancia立方严重负偏态平方轻度负偏态平方根轻度正偏态对数正偏态平方根负倒数严重正偏态倒数非常严重正偏态平方倒数同上立方倒数同上ladder x //产生以上8种变换后的正态性检验gladder x //针对ladder结果绘制直方图bcskews newx=x //产生新变量newx,是对x的变换方差齐性检验sdtest x1=x2sdtest x1,by(group)robvar x,by(group) levene检验,返回值W0:均数 W50:中位数 W10:trim10%后的均数方差分析单个样本ttest x=10 signtest x=10 二项分布ttest x1=x2 signrank x1=x2 wilcoxon符号检验ttest x,by(group) ranksum x,by(group) wilcoxon检验ttest x1=x2,unpaired unequalbitest x==pbitesti n k p单因素方差分析oneway x group,tabluate scheffe bonferroni sidak kwallis x,by(group)多因素方差分析anova x a##btest 1.a=2.atest 2.b=3.bbonferonni: r(p)*c c:比较次数,组数X(组数-1)/2scheffe:1-F(组数-1,误差自由度,r(F)/(组数-1,))regresspredict newvar 预测值predict newvar,stdp 预测值标准误anova x a b|aanova x a / id|a b a#banova x a b c.age相关分析(by var:)cor x ypwcorr x y,bonferrior/sidakspearman x y,bonferrior/sidakpcorr y x1-x3 去除其他x的影响后y与x的偏相关系数回归分析基本方法reg y x1 x2 x3 ,beta uncons预测值predict newvar,cooksd hat covratio dfits residuals rstudent rstandard stdp stdfhat>2p/n 发现高杠杆值dfits>2sqrt(p/n) 案例的自变量组合对回归直线的影响力cooksd>4/n 同上welsch>3sqrt(p) 同上covratio: |r-1|>=3p/nrvfplot,yline(0)假设检验reg y x*test x1 x2 x1 和x2回归系数同时为0test x1=x2虚拟变量tab region ,gen(reg) //产生reg1-4四个哑变量reg cmat reg2 //reg2与其他3个地区的比较reg cmat reg1 reg2 reg3 reg4 == xi:reg cmat i.region此方法便于做交互分析char region[omit]4 (与xi共同使用)xi:reg camt i.region逐步回归sw reg y x1-x4,pr(0.06) pe(0.05)sw reg y x1 x2 (x3 x4),lockterm1 pr(0.06)面板数据iis regiontis yearxtreg y x1 x2,rextmixed y 固定变量 || school:随机变量回归诊断estate ic 返回Aic Bic ll(null) ll(model)值(log likelihood对数似然值)quietly reg y x1-x5estimates store fullquietly reg y x1-x4lrtest fullovtest p<0.05提示有二次、三次或四次方项目需要添加hettest p<0.05提示方差不齐,误差散点图不是随机分布的dwstat 一价自相关的durbin-watson检验vif 自变量共线性检查vif>10 平均vif>1 有问题宽容度(vif的倒数)表示该变量独立程度,越大则越独立rvfplot 预测值与残差值的散点图rvpplot x 某一个自变量x与残差的散点图avplot x 去除其他变量影响后的x与y的线性关系,x轴上偏离的数值多为高杠杆值avplotsacprplot x,lowess 虚线在中间部分与直线不重和表示可能x与y存在其他非线性关系,另外可以报告与x具有线性关系的其他自变量lvr2plot 注意拟合不好且具有较高杠杆作用的值可能是高杠杆值hat 较大值提示高杠杆值dfits cooksd covratio 提示对y影响较大的值logistic回归logit y x* logit y x*,orblogit y n x*lrocroctab y x,graphroccomp y x1 x2 比较y与x1的roc曲线和y与x2的是否相同rocgold y x x1 x2 比较y与x(金标准)的roc曲线和y与x1的是否相同lsens,genprob(prob) gensens(sens) genspec(spec)lstatlfit,group(10) est gof,group(10)predict phat,hat deviance ddeviance dbet dx2 dbetaclogit y x*,group(matchvar)ologit y x*mlogit y x*,b(1) mlogit y x*,rrrconstraint define 1 [3]x=2[2]xconstranit define 2 [4]x=3[2]xmlogit y x,c(1 2) b(1)多元方差分析hotelling x*hotelling x*,by(group)manova x1 x2 x3=g b g*b广义线性模型glm y x1 x2 ,family(Gaussian) link(identity) */正态分布线性回归glm y x1 x2,family(binomial) link(logit) */logistics回归glm y x1 x2,family(poisson) link(log) lnoffset(暴露人年变量) poisson y x1 x2,exposure(暴露人年变量)poisgof [,pearson]glm y x1 x2,family(nbinomial) link(log)nbreg y x1 x2gnbreg y x1 x2 ,lnalpha(var)predict主成份分析pca x*screeplot因子分析factor x*,pcf mine(0.5) 主成份法factor x*,ml mine(0.5) 最大似然法factor x*,ipf //迭代主因子法rotate 方差极大旋转rotate,promax 斜交法生存分析stset time,failure(outcome)stsum,by(treat)stci,rmean by(treat)sts list,by(treat)sts graph,by(treat) loststs graph,by(treat) gwoodsts test groupstreg treat group,nohr dist(exponential/weibull)predict new_var if treat==1,survstcox treat group,nohrcox result treat group,dead(outcome) nohrsw cox result treat group,dead(outcome) nohr流行病队列研究ir case exposure time(人年数)iri a b n1 n2cs case exposure [freq=count]csi a b c d,by(group)可使用tb和exact(默认)计算rr可信区间,不能使用woolf 病例对照研究cc case expose,by(group)cci a b c dmcc case controlmcci a b c d可使用exact(默认)、woolf、 cornfield计算rr可信区间tabodds modds不如用logistic、cox比例风险模型。

Stata学习笔记

Stata学习笔记

1、横截面数据:多个经济个体的变量在同一时间点上的取值,如2012年中国各省的GDP2、时间数列数据:指的是某个经济个体的变量在不同时点上的取值,如1978-2012年山东省每年的GDP3、面板数据:多个经济个体的变量在不同时点上的取值,如1978-2012年中国各省的GDP小样本OLS(最小二乘法):单一方程线性回归最常见方法条件:解释变量与扰动项正交、扰动项无自相关、同方差。

拟合优度:衡量线性回归模型对样本数据的拟合程度(R2),越高说明模型拟合程度越好。

单系数T检验:对回归方程扰动项的具体概率进行假设显著性水平进行检验F检验:整个回归方程是否显著STATA操作简介:如果数据中包含1949-10-01或1949/10/01的时间变量,导入stata后可能会被视为字符串,因此对于日度数据,可以使用命令gen newvar=date(varname,YMD),将其转换为整数日期变量,其中YMD说明原始数据的格式为年月日,如果原始数据的格式为月日年则使用MDY;对于月度数据则gen newvar=monthly(varname,YM)。

.describe:数据的概貌 .drop keep:删除和保留.su:统计特征 Pwcorr:变量之间相关系数Star(.05):5%显著性水平 gen:产生g intc=log(tc):取自然对数. reg:OLS回归.Vce:协方差矩阵 reg。

,noc表示在进行回归时不要常数项大样本OLS:只要求解释变量与同期的扰动项正交即可Robust:稳健标准误,如果存在异方差,则应使用稳健标准误最大似然估计法:如果回归方程存在非线性,则使用最大似然估计法(MLE)或非线性最小二乘法(NLS)三类在大样本下渐进等价的统计检验:Wald test LR(似然比检验) LM操作步骤如下:sysuse auto(调用数据集)Hist mpg,normal(画变量mpg的直方图,并与正态密度比较)直方图显示,变量mpg的分布于正态分布有一定差距。

复旦大学stata精华学习笔记

复旦大学stata精华学习笔记

Stata: 输出regression table到word和excel1. 安装estout。

最简单的方式是在stata的指令输入:ssc install estout, replaceEST安装的指导网址是:2.跑你的regression3.写下这行指令esttab using test.rtf,然后就会出现个漂亮的表格给你(WORD 文档)。

只要再小幅修改,就可以直接用了。

这个档案会存在mydocument\stata 下。

如果你用打开的是一个stata do file,结果会保存到do文件所在文件夹中。

如果要得到excel文件,就把后缀改为.xls或者.csv就可以了4.跑多个其实也不难,只要每跑完一个regression,你把它取个名字存起来: est store m1。

m1是你要改的,第一个model所以我叫m1,第二个的话指令就变成est store m2,依次类推。

5.运行指令:esttab m1 m2 ... using test.rtf就行了。

异方差的检验:Breusch-Pagan test in STATA:其基本命令是:estat hettest var1 var2 var3其中,var1 var2 var3 分别为你认为导致异方差性的几个自变量。

是你自己设定的一个滞后项数量。

同样,如果输出的P-Value 显著小于0.05,则拒绝原假设,即不存在异方差性。

White检验:其基本命令是在完成基本的OLS 回归之后,输入imtest, white如果输出的P-Value 显著小于0.05,则拒绝原假设,即不存在异方差性处理异方差性问题的方法:方法一:WLSWLS是GLS(一般最小二乘法)的一种,也可以说在异方差情形下的GLS就是WLS。

在WLS下,我们设定扰动项的条件方差是某个解释变量子集的函数。

之所以被称为加权最小二乘法,是因为这个估计最小化的是残差的加权平方和,而上述函数的倒数恰为其权重。

stata笔记常用

stata笔记常用

stata笔记常用Stata: 输出regression table到word和excel1. 安装estout。

最简单的方式是在stata的指令输入:ssc install estout, replaceEST安装的指导网址是:2.跑你的regression3.写下这行指令esttab using test.rtf,然后就会出现个漂亮的表格给你(WORD文档)。

只要再小幅修改,就可以直接用了。

这个档案会存在my document\stata下。

如果你用打开的是一个stata do file,结果会保存到do文件所在文件夹中。

如果要得到excel文件,就把后缀改为.xls或者.csv就可以了4.跑多个其实也不难,只要每跑完一个regression,你把它取个名字存起来:est store m1。

m1是你要改的,第一个model所以我叫m1,第二个的话指令就变成est store m2,依次类推。

5.运行指令:esttab m1 m2 ... using test.rtf就行了。

异方差的检验:Breusch-Pagan test in STATA:其基本命令是:estat hettest var1 var2 var3其中,var1 var2 var3 分别为你认为导致异方差性的几个自变量。

是你自己设定的一个滞后项数量。

同样,如果输出的P-Value 显著小于0.05,则拒绝原假设,即不存在异方差性。

White检验:其基本命令是在完成基本的OLS 回归之后,输入imtest, white如果输出的P-Value 显著小于0.05,则拒绝原假设,即不存在异方差性处理异方差性问题的方法:方法一:WLSWLS是GLS(一般最小二乘法)的一种,也可以说在异方差情形下的GLS就是WLS。

在WLS下,我们设定扰动项的条件方差是某个解释变量子集的函数。

之所以被称为加权最小二乘法,是因为这个估计最小化的是残差的加权平方和,而上述函数的倒数恰为其权重。

Stata学习笔记

Stata学习笔记

Stata学习笔记以下命令均采⽤⼩写字母Chapter 1 stata⼊门打开数据use "D:\Stata9\", clear ⽤use命令打开数据sysuse auto,clear auto 为系统数据sysuse为打开系统数据的命令获取帮助Help summarize summarize为需要获取帮助对象可以改为其他的需要帮助的对象Findit summarize,net 寻找⽹络帮助summarize为需要获取帮助对象Search summarize ,net 寻找⽹络帮助summarize为需要获取帮助对象显⽰结果Display 5+9描述统计(summarize 可简写成sum)Use atuo,clearSummarize price 描述price的观察值个数、平均值、标准差、最⼩值、最⼤值Sum weight summarize可简写成sumSum weight price 同时完成上⾯两步绘图Scatter price weight scatter 为绘制散点图命令Line price weight ,sort line 为绘制折线图命令,sort为排序,绘制折线图前需要先排序⽣成新的数据(generate 可简写成gen)ClearSet obs 1000 设置观测值的组数Gen x=_n _n 为观察值得序号Gen y=x+100控制结果输出显⽰List n设置屏幕滚动Set more off 先设置此项则显⽰时,屏幕不停⽌Set more on 先设置此项则显⽰时,会使显⽰停⽌清除内存中原有内容clear设置⽂件存取路径(cd)Cd d:\stata d:\stata为路径如果想知道当前路径下有哪些⽂件,可以⽤dir 命令来列⽰.dir假设你想在D 盘的根⽬录下创建⼀个新的⽂件夹mydata 来存放数据⽂件,命令为mkdir。

mkdir d:\mydata错误提⽰List myvar上述命令试图显⽰变量myvar,但是结果窗⼝仅出现如下的显⽰variable myvar not foundr(111);红⾊信息表明,没有找到⼀个叫myvar 的变量,的确,我们的数据中并没有这个变量。

stata统计分析与应用笔记汇总

stata统计分析与应用笔记汇总

第一章:Stata概述:help和search都是查找文件的命令但help用于查找精确的命令,search是模糊查找。

还可使用help|contents 来分类查找第二章:数据管理:2.1变量和变量的取值:1.变量的命名:不能以数字开头,区分大小写,不能命名为系统变量名2.变量的取值类型:(1)字符型:字符变量存储格式是str⋕,str表示格式⋕表示该变量的存储最多可容纳的字符数(2)数值型数据:存储格式:byte.int.long.float.double.Stata默认将数字存储为浮点数据,而将计算结果存为双浮点数据。

(3)缺失数据:一般仅用“.”表示3.变量的显示:(1)数值变量的显示格式:a.普通格式有%w.dg, %w.dgc(g表示普通,w表示整个显示所占的字符数,d表示显示的数字中小数点后的位数,c是要求Stata给出带逗号“,”数字显示格式如12345显示为12,345)b.固定格式有%w.df, %w.dfc(f表示固定)c.科学指数法格式:%w.de, (e表示科学计数)(2)字符变量的显示格式:仅有一种%⋕s,%是提示符,#表示显示字符数,s表示字符变量显示格式,默认右对齐,后加“-”可改为左对齐。

(3)使用format命令变量显示格式:format varlist %fmt 或者 format %fmt varlist 4.变量的标签(1)添加数据集的标签使用: label data [“lable”](2)添加变量的标签使用:label variable varname [“lable”](3)label为变量数值添加标签的语法有两部分,先定义数值标签:label define lblname#“lable” [#“lable”](lblname是标签名称) 然后将定义好的数值标签添加到变量上:label values varlist [lblnamel.]2.2创建一个新的数据集1.关于数据集操作的基本命令(1)browse 和edit 命令:browse 用于打开数据浏览器,edit命令用于打开数据编辑器Edit [varlist] [if] [in]browse [varlist] [if] [in](if和in 用于选择需要的子集)(2)rename:rename old_varname new_varname(3)save命令:save [filename] [,save_options]([,save_options]可以指nolabel(不保存设定标签),replace(允许新文件覆盖原文件),all主要用于编程(4)describe:用于产生一个对数据集的简明总结格式:describe [varlist] [,memory_options](命令选项:simple,short,detail,fullnames)(5)list:用于显示变量的数值,其后可以跟需要显示的变量名称语法:list [varlist] [if] [in] [,options](命令选项包括:noobs(不显示观测值的数值),clean,separator,sepby,nolabel)(6)codebook:用于详尽地描述变量的内容,包括变量名称、标签、赋值。

Stata学习笔记和国贸理论总结

Stata学习笔记和国贸理论总结

stata学习笔记一、认识数据(一)向stata中导入txt. csv格式的数据 1.这两种数据可以用文本文档打开.新建记事本-然后将相应文档拖入记事本即可打开数据,e制2.按下stata中的edit按钮,右键选择paste special3. \xls/\xlsx数据仅能用Excel打开,不可用记事本打开,打开后会出现乱码,也不要保存•否则就恢a不了。

逗号分隔的数常为CSV数据。

(二)网页数据网页上的表格只要能选中的,都能复制到excel中;网页数据的下載可以通过白度“国家数据**进行搜索、下载二、Do-file 和log 文件打开stata后,第一步就要do-file,记录步骤和历史记录•方便fl后査看。

Stata处理中保留的三种文件:原始数据(\dta),记录处理步骤(\do).以及处理的历史记录(*.smcl)o三、导入StataStata不识别带有中文的变a,如果导入的数据第一行有中文就没法导入。

但是对于列来说不会出现这个问题,不分析即可(Stata不分析字符ftb红色文本显示:被分析的数据•黑色显示):第一行是英文变最名.选择-Treat first row as variable names”在导入新数据的时候,需要清空原有数据• clear命令.导入空格分隔数据:复制一tata中选择edit按钮或输入相应命令右键选择Paste special ------ 并选择•确定;导入Excel中数据•复制粘贴即可:逗号分隔数据,选择Paste special后点击comma,然后确定。

Stata数据格式为-・dta,导入后统一使用此格式》(一)use auto, clear。

在清空原有数据的同时,导入新的auto数据。

(二)browse •浏览数据。

(三)describe和list.査看数据,describe和list使用list命令能使我们根据n己的需要选择数据(例如其与in/if语句的结合使用)O(四)ScatterO 作图命令,scatter 散点图(scatter price mpg )(五)Summarizeo描述统计,常写作sum/su,求变量的个数、平均值、标准差、故小值和般大值。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Stata: 输出regression table到word和excel1. 安装estout。

最简单的方式是在stata的指令输入:ssc install estout, replaceEST安装的指导网址是:/bocode/e/estout/installation.html2.跑你的regression3.写下这行指令esttab using test.rtf,然后就会出现个漂亮的表格给你(WORD 文档)。

只要再小幅修改,就可以直接用了。

这个档案会存在my document\stata 下。

如果你用打开的是一个stata do file,结果会保存到do文件所在文件夹中。

如果要得到excel文件,就把后缀改为.xls或者.csv就可以了4.跑多个其实也不难,只要每跑完一个regression,你把它取个名字存起来:est store m1。

m1是你要改的,第一个model所以我叫m1,第二个的话指令就变成est store m2,依次类推。

5.运行指令:esttab m1 m2 ... using test.rtf就行了。

异方差的检验:Breusch-Pagan test in STATA:其基本命令是:estat hettest var1 var2 var3其中,var1 var2 var3 分别为你认为导致异方差性的几个自变量。

是你自己设定的一个滞后项数量。

同样,如果输出的P-Value 显著小于0.05,则拒绝原假设,即不存在异方差性。

White检验:其基本命令是在完成基本的OLS 回归之后,输入imtest, white如果输出的P-Value 显著小于0.05,则拒绝原假设,即不存在异方差性处理异方差性问题的方法:方法一:WLSWLS是GLS(一般最小二乘法)的一种,也可以说在异方差情形下的GLS就是WLS。

在WLS下,我们设定扰动项的条件方差是某个解释变量子集的函数。

之所以被称为加权最小二乘法,是因为这个估计最小化的是残差的加权平方和,而上述函数的倒数恰为其权重。

在stata中实现WLS的方法如下:reg (被解释变量)(解释变量1)(解释变量2)…… [aweight=变量名]其中,aweight后面的变量就是权重,是我们设定的函数。

一种经常的设定是假设扰动项的条件方差是所有解释变量的某个线性组合的指数函数。

在stata中也可以方便地实现:首先做标准的OLS回归,并得到残差项;reg (被解释变量)(解释变量1)(解释变量2)……predict r, resid生成新变量logusq,并用它对所有解释变量做回归,得到这个回归的拟合值,再对这个拟合值求指数函数;gen logusq=ln(r^2)reg logusq (解释变量1) (解释变量2)……predict g, xbgen h=exp(g)最后以h作为权重做WLS回归;reg (被解释变量)(解释变量1)(解释变量2)…… [aweight=h]如果我们确切地知道扰动项的协方差矩阵的形式,那么GLS估计是最小方差线性无偏估计,是所有线性估计中最好的。

显然它比OLS更有效率。

虽然GLS有很多好处,但有一个致命弱点:就是一般而言我们不知道扰动项的协方差矩阵,因而无法保证结果的有效性。

方法二:HC SEThere are 3 kinds of HC SE(1)Huber-White Robust Standard Errors HC1,其基本命令是:reg var1 var2 var3, robustWhite(1980)证明了这种方法得到的标准误是渐进可用(asymptotically valid)的。

这种方法的优点是简单,而且需要的信息少,在各种情况下都通用。

缺点是损失了一些效率。

这种方法在我们日常的实证研究中是最经常使用。

(2)MacKinnon-White SE HC2,其基本命令是:reg var1 var2 var3, hc2(3)Long-Ervin SE HC3,其基本命令是:reg var1 var2 var3, hc3约束条件检验:如果需要检验两个变量,比如x 与y,之间系数之间的关系,以检验两者系数相等为例,我们可以直接输入命令:test x=y再如检验两者系数之和等于1,我们可以直接输入命令:test x+y=1如果输出结果对应的P-Value 小于0.05,则说明原假设显著不成立,即拒绝原假设。

序列相关性问题的检验与处理序列相关性问题的检验:首先,要保证所用的数据必须为时间序列数据。

如果原数据不是时间序列数据,则需要进行必要的处理,最常用的方法就是:gen n=_ntsset n这两个命令的意思是,首先要生成一个时间序列的标志变量n(或者t 也可以);然后通过tsset 命令将这个数据集定义为依据时间序列标志变量n定义的时间序列数据。

最直观的检验方式是通过观察残差分布,其基本步骤是在跑完回归之后,直接输入Predict error, stdp这样就得到了残差值;然后输入命令:plot error n会得到一个error 随n 变化的一个散点图。

D-W检验——对一阶自相关问题的检验:D-W检验是对一阶自相关问题的常用检验方法,但是如果实际问题中存在高阶序列相关性问题,则不能用这个检验方法。

D-W 检验的命令如下:首先,输入回归命令,reg Variable1 Variable2 Variable3…VariableM输出一个简单的OLS估计结果。

然后,再输入命令:dwstat这时会输出一个DW 统计量。

通过与临界值之间的比较,可以得出结论。

也可以执行如下命令estat durbinalt直接进行Durbin检验。

Breusch-GodfreyTest in STATA——检验高阶序列相关性:在得到一个基本回归结果和error 之后,我们假设这样一个关系:et = α0 + α1 et-1 + α2 et-2 …+ αk et-p + β1 x1t + β2 x2t … +βk xkt +εtBG 检验的原假设是:H0 :α1 = α2 = … αp =0。

其基本命令是:bgodfrey , lags(p)其中p 是你自己设定的一个滞后项数量。

如果输出的p-value 显著小于0.05,则可以拒绝原假设,这就意味着模型存在p 阶序列相关性;如果输出的p-value 显著大于0.05 甚至很大,则可以接受原假设,即不存在p 阶序列相关性。

处理序列相关性问题的方法——GLS:常用的几种GLS 方法:(1)Cochrane-Orcutt estimator 和Prais-Winsten estimator其基本命令是prais var1 var2 var3, corc(2)Newey-West standard errors其基本命令是newey var1 var2 var3, lag(3)其中,lag(3)意思是对三阶序列相关性问题进行处理;如果需要对p 阶序列相关性问题进行处理,则为lag(p)t因变量,g,f,c是自变量,_26存放了弟26个观测值,为需要预测的值reg t g f c if _n!=26点预测predict taxpredict if _n==26均值的区间预测predictnl py=predict(xb),ci(lb ub) l(95)因变量的区间预测adjust g=117251.9 f=24649.95 c=99.9,stdf ci level(95)Hausman检验是检验内生性的最常用的方法。

它是通过比较一致估计量与有效估计量的Wald统计量。

命令格式为:.hausman name-constistent [name-efficent] [,options]其中,name-cosistent指一致估计的结果, name-efficent 指有效估计的结果。

注意,一致、有效估计量的先后顺序不能改变。

Option选项:constant 计算检验统计量将常数也包括在内,默认值为排除常数allegs 利用所有方程进行检验,默认只对第一个方程进行检验skipeqs(eqlist) eqlist只能以方程名称而不能以方程序号表示equation(matchlist) 比较设定的方程。

force 即使假设条件不满足仍进行检验df(#) 默认值为一致估计与有效估计的协方差矩阵的差的估计sigmamore 协方差矩阵采用有效估计量的协方差矩阵sigmaless 协方差矩阵采用一致估计量的协方差矩阵tconsistent(string) 一致估计量的标题tefficient(string) 有效估计量的标题工具变量估计命令格式:.ivregress esitimator depvar [varlist1] [varlist2=varlist_iv] [if] [in] [weight][,options]其中,estimator包括2sls,gmm,liml三种。

varlist1为模型中的外生变量,varlist2为模型中的内生变量,varlist_iv为模型中的工具变量。

Nonconstant 不包括常数项Hascons 用户自己设定常数项CMM 选项:wmatrix(wmtype) robust,cluster clustvar,hac kernel, unadjustedcenter 权数矩阵采用中心矩igmm 采用迭代GMM估计eps(#) 参数收敛标准。

默认值为eps(le-6)weps(#) 权数矩阵的收敛标准。

默认值为w eps(le-6)Vce(vcetype) unajusted,robust,cluster clustvar,bootstrap,jackknife,hac kernellevel(#)置信区间First 输出第一阶段的估计结果Small 小样本下的自由度调整.estat firststage [,all forcenonrobust]该命令给出第一阶段的估计结果以及各种统计量,包括排除外生变量的相关性检验。

All选项给出所有的拟合优度统计量。

如果模型存在多个内生变量,则stata给出R2、偏R2、调整的R2 、F统计量;如果模型存在多个内生变量,则stata给出Shea偏R2和调整的偏R2。

forcenonrobust给出最小特征值统计量及其临界值,即使采用稳健估计(这一检验的假设条件是误差项为独立正态分布)。

estat overid[,lag(#) forceweights forcenonrobust]该命令给出了过度识别约束检验。

如果使用2sls估计估计,则Stata给Sargan’s(1958)和Basman’s(1960)卡方统计量,这也是Wooldridge’(1995)稳健得分检验。

相关文档
最新文档