Stata笔记 北京科技大学复习进程
Stata 自学笔记
Stata笔记1.clear2.input3.savee5.sysuse6.d/des/desc/describe7.sum & return list & ereturn list8.reg9.clear results10.matrix11.type12.insheet13.rename14.infile15.browse16.xmlusepress18.xpose19.tsset20.outfile21.outsheet22.xmlsave23.变量Stata笔记1.clear清除内存数据。
数据都是存入内存来计算的,所以在输入大量数据之前,要先清除内存中的数据来释放空间。
删除的不光包括数据,还有变量,以及Data Editor 中的数据。
(就是删除所有数据,什么都不留)不影响已经存在硬盘上的数据。
(只删除内存中的所有数据)具体使用方法在下文中有具体例子。
手动输入数据。
可以分五次输入,也可以直接复制到Command 。
input x y x50 30 2020 30 5020 52 60end保存数据。
此项如果保存在C 盘可能因为权限不够而报错。
换到其他盘符即可。
save data_name[,replace]save 名称[,如果之前已经有这个名称,则替换(覆盖)。
]使用、导入(.dta )数据。
use data_name[,clear]use “file_path”[,clear]use url[,clear]use 名称[,清除。
]2.input3.savee导入软件安装时自带的数据时用。
sysuse auto,clear导入汽车数据。
显示数据变量信息。
(名称、类型等等)describe[,detail]sum price weight turn(以刚刚导入的汽车价格数据为例,price weight turn 为变量名称)显示一些相关信息。
(观察值个数、平均数、最大最小值等等)5.sysuse6.d/des/desc/describe7.sum & return list & ereturn listreturn listreturn 可以简写为ret返回更多信息(包括sum 没有显示的)ereturn listereturn 可以简写为eret返回更详细的信息。
2017北京科技大学行政管理考研答题技巧、复习资料、考试重点、高分笔记
育明教育·斯泰朗考研2017年考研一对一辅导专家北京科技大学公共管理考研必备资料目录一、北京科技大学文法学院公共管理专业简介 (1)二、2016年北京科技大学公共管理专业考研招生情况(育明考研) (3)三、北京科技大学管理学分数线(育明考研) (4)四、北京科技大学公共管理专业近五年硕士研究生报名情况统计表 (4)五、北京科技大学文法学院公共管理专业参考书 (5)六、普通心理学-彭聃龄版笔记 (6)一、北京科技大学文法学院公共管理专业简介公共管理专业是我校创办较早的文科专业之一,招生已10余届,毕业500多人。
该专业又获得迅猛发展,不仅开办了行政管理的硕士点,而且是全国首批开办公共管理硕士(MPA)专业学位的24所学校之一,每年招收大量的硕士研究生,为学生的进一步深造提供了极为有利的条件。
该专业师资力量雄厚,拥有多名硕士生导师,主要研究方向有:行政管理的理论与实践、公共政策研究、劳动管理与社会保障研究、社区建设与社区管理研究等。
该专业注重实践,经常组织学生赴社区和企事业单位进行社会实践,通过实际工作提高学生各方面的能力和素质。
该专业主要培养德智体全面发展,能够从事行政管理工作的高级专门人才。
该专业招收文科生,授予管理学学士学位(北京科技大学考研咨询育明·斯泰朗考研杜老师扣扣:八九三二四一二二六)。
主要课程:行政管理学、政治学、行政法与行政诉讼法、中外政治制度、管理心理学、管理信息系统、行政公文写作、公共关系学等。
此外,为加强学生动手能力的培养,还开设有计算机应用,办公自动化等应用类课程。
毕业生可从事政府部门、社会团体和企事业单位的行政管理工作。
二、2016年北京科技大学公共管理专业考研招生情况(育明考研)2016年北京科技大学文法学院行政管理与教育经济与管理合并为公共管理专业,考试内容与考试科目上都有相应的变化,招生人数也较往年有所增加。
各位同学在报考时要看清考试方向及考试科目。
Stata操作讲义知识讲解
操S义讲作atatStata操作讲义第一讲 Stata操作入门第一节概况Stata最初由美国计算机资源中心(Computer Resource Center)研制,现在为Stata公司的产品,其最新版本为7.0版。
它操作灵活、简单、易学易用,是一个非常有特色的统计分析软件,现在已越来越受到人们的重视和欢迎,并且和SAS、SPSS一起,被称为新的三大权威统计软件。
Stata最为突出的特点是短小精悍、功能强大,其最新的7.0版整个系统只有10M左右,但已经包含了全部的统计分析、数据管理和绘图等功能,尤其是他的统计分析功能极为全面,比起1G以上大小的SAS系统也毫不逊色。
另外,由于Stata在分析时是将数据全部读入内存,在计算全部完成后才和磁盘交换数据,因此运算速度极快。
由于Stata的用户群始终定位于专业统计分析人员,因此他的操作方式也别具一格,在Windows席卷天下的时代,他一直坚持使用命令行/程序操作方式,拒不推出菜单操作系统。
但是,Stata的命令语句极为简洁明快,而且在统计分析命令的设置上又非常有条理,它将相同类型的统计模型均归在同一个命令族下,而不同命令族又可以使用相同功能的选项,这使得用户学习时极易上手。
更为令人叹服的是,Stata语句在简洁的同时又拥有着极高的灵活性,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。
除了操作方式简洁外,Stata的用户接口在其他方面也做得非常简洁,数据格式简单,分析结果输出简洁明快,易于阅读,这一切都使得Stata成为非常适合于进行统计教学的统计软件。
Stata的另一个特点是他的许多高级统计模块均是编程人员用其宏语言写成的程序文件(ADO文件),这些文件可以自行修改、添加和下载。
用户可随时到Stata网站寻找并下载最新的升级文件。
事实上,Stata的这一特点使得他始终处于统计分析方法发展的最前沿,用户几乎总是能很快找到最新统计算法的Stata程序版本,而这也使得Stata自身成了几大统计软件中升级最多、最频繁的一个。
stata学习笔记
经济数据的特点与类型。
1、横截面数据:多个经济个体的变量在同一时间点上的取值,如2012年中国各省的GDP2、时间数列数据:指的是某个经济个体的变量在不同时点上的取值,如1978-2012年山东省每年的GDP3、面板数据:多个经济个体的变量在不同时点上的取值,如1978-2012年中国各省的GDP 小样本OLS(最小二乘法):单一方程线性回归最常见方法条件:解释变量与扰动项正交、扰动项无自相关、同方差。
拟合优度:衡量线性回归模型对样本数据的拟合程度(R2),越高说明模型拟合程度越好。
单系数T检验:对回归方程扰动项的具体概率进行假设显著性水平进行检验F检验:整个回归方程是否显著STATA操作简介:如果数据中包含1949-10-01或1949/10/01的时间变量,导入stata后可能会被视为字符串,因此对于日度数据,可以使用命令gen newvar=date(varname,YMD),将其转换为整数日期变量,其中YMD说明原始数据的格式为年月日,如果原始数据的格式为月日年则使用MDY;对于月度数据则gen newvar=monthly(varname,YM)。
.describe:数据的概貌.drop keep:删除和保留.su:统计特征Pwcorr:变量之间相关系数Star(.05):5%显著性水平gen:产生g intc=log(tc):取自然对数. reg:OLS回归.Vce:协方差矩阵reg。
,noc表示在进行回归时不要常数项大样本OLS:只要求解释变量与同期的扰动项正交即可Robust:稳健标准误,如果存在异方差,则应使用稳健标准误最大似然估计法:如果回归方程存在非线性,则使用最大似然估计法(MLE )或非线性最小二乘法(NLS )三类在大样本下渐进等价的统计检验:Wald test LR (似然比检验) LM操作步骤如下:sysuse auto (调用数据集)Hist mpg ,normal (画变量mpg 的直方图,并与正态密度比较)D e n s i t y直方图显示,变量mpg 的分布于正态分布有一定差距。
(完整版)Stata学习笔记和国贸理论总结
Stata学习笔记一、认识数据(一)向stata中导入txt、csv格式的数据1.这两种数据可以用文本文档打开,新建记事本,然后将相应文档拖入记事本即可打开数据,复制2.按下stata中的edit按钮,右键选择paste special3.*.xls/*.xlsx数据仅能用Excel打开,不可用记事本打开,打开后会出现乱码,也不要保存,否则就恢复不了。
逗号分隔的数据常为csv数据。
(二)网页数据网页上的表格只要能选中的,都能复制到excel中;网页数据的下载可以通过百度“国家数据”进行搜索、下载二、Do-file 和log文件打开stata后,第一步就要do-file,记录步骤和历史记录,方便日后查看。
Stata处理中保留的三种文件:原始数据(*.dta),记录处理步骤(*.do),以及处理的历史记录(*.smcl)。
三、导入StataStata不识别带有中文的变量,如果导入的数据第一行有中文就没法导入。
但是对于列来说不会出现这个问题,不分析即可(Stata不分析字符串,红色文本显示;被分析的数据,黑色显示);第一行是英文变量名,选择“Treat first row as variable names”在导入新数据的时候,需要清空原有数据,clear命令。
导入空格分隔数据:复制——Stata中选择edit按钮或输入相应命令——右键选择paste special——并选择,确定;导入Excel中数据,复制粘贴即可;逗号分隔数据,选择paste special后点击comma,然后确定。
Stata数据格式为*.dta,导入后统一使用此格式。
四、基本操作(几个命令)(一)use auto,clear 。
在清空原有数据的同时,导入新的auto数据。
(二)browse 。
浏览数据。
(三)describe 和list。
查看数据,describe 和list 使用list命令能使我们根据自己的需要选择数据(例如其与in/if语句的结合使用)。
Stata操作讲义知识讲解
Stata操作讲义知识讲解S t a t a操作讲义Stata操作讲义第一讲 Stata操作入门第一节概况Stata最初由美国计算机资源中心(Computer Resource Center)研制,现在为Stata公司的产品,其最新版本为7.0版。
它操作灵活、简单、易学易用,是一个非常有特色的统计分析软件,现在已越来越受到人们的重视和欢迎,并且和SAS、SPSS一起,被称为新的三大权威统计软件。
Stata最为突出的特点是短小精悍、功能强大,其最新的7.0版整个系统只有10M左右,但已经包含了全部的统计分析、数据管理和绘图等功能,尤其是他的统计分析功能极为全面,比起1G以上大小的SAS系统也毫不逊色。
另外,由于Stata在分析时是将数据全部读入内存,在计算全部完成后才和磁盘交换数据,因此运算速度极快。
由于Stata的用户群始终定位于专业统计分析人员,因此他的操作方式也别具一格,在Windows席卷天下的时代,他一直坚持使用命令行/程序操作方式,拒不推出菜单操作系统。
但是,Stata的命令语句极为简洁明快,而且在统计分析命令的设置上又非常有条理,它将相同类型的统计模型均归在同一个命令族下,而不同命令族又可以使用相同功能的选项,这使得用户学习时极易上手。
更为令人叹服的是,Stata语句在简洁的同时又拥有着极高的灵活性,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。
除了操作方式简洁外,Stata的用户接口在其他方面也做得非常简洁,数据格式简单,分析结果输出简洁明快,易于阅读,这一切都使得Stata成为非常适合于进行统计教学的统计软件。
Stata的另一个特点是他的许多高级统计模块均是编程人员用其宏语言写成的程序文件(ADO文件),这些文件可以自行修改、添加和下载。
用户可随时到Stata网站寻找并下载最新的升级文件。
事实上,Stata的这一特点使得他始终处于统计分析方法发展的最前沿,用户几乎总是能很快找到最新统计算法的Stata程序版本,而这也使得Stata 自身成了几大统计软件中升级最多、最频繁的一个。
stata笔记
1.一般检验假设系数为0,t比较大则拒绝假设,认为系数不为0.假设系数为0,P比较小则拒绝假设,认为系数不为0.假设方程不显着,F比较大则拒绝假设,认为方程显着。
2.小样本运用OLS进行估计的前提条件为:(1)线性假定。
即解释变量与被解释变量之间为线性关系。
这一前提可以通过将非线性转换为线性方程来解决。
(2)严格外生性。
即随机扰动项独立于所有解释变量:与解释变量之间所有时候都是正交关系,随机扰动项期望为0。
(工具变量法解决)(3)不存在严格的多重共线性。
一般在现实数据中不会出现,但是设置过多的虚拟变量时,可能会出现这种现象。
Stata可以自动剔除。
(4)扰动项为球型扰动项,即随即扰动项同方差,无自相关性。
3.大样本估计时,一般要求数据在30个以上就可以称为大样本了。
大样本的前提是(1)线性假定(2)渐进独立的平稳过程(3)前定解释变量,即解释变量与同期的扰动项正交。
(4)E(XiXit)为非退化矩阵。
(5)gt为鞅差分序列,且其协方差矩阵为非退化矩阵。
与小样本相比,其不需要严格的外生性和正太随机扰动项的要求。
4.命令稳健标准差回归:reg y x1 x2 x3, robust 回归系数与OLS一样,但标准差存在差异。
如果认为存在异方差,则使用稳健标准差。
使用稳健标准差可以对大样本进行检验。
只要样本容量足够大,在模型出现异方差的情况下,使用稳健标准差时参数估计、假设检验等均可正常进行,即可以很大程度上消除异方差带来的副作用对单个系数进行检验:test lnq=1线性检验:testnl _b[lnpl]=_b[lnq]^25.如果回归模型为非线性,不方便使用OLS,则可以采取最大似然估计法(MLE),或者非线性最小二乘法(NLS)6.违背经典假设,即存在异方差的情况。
截面数据通常会出现异方差。
因此检验异方差可以:(1)看残差图,但只是直观,可能并不准确。
rvfplot (residual-versus-fitted plot) 与拟合值的散点图rvpplot varname (residual-versus-predictor plot) 与解释变量的散点图扰动项的方差随观测值而变动,表示可能存在异方差。
Stata笔记 北京科技大学
li(st) if new2>=14 & new2<24 (按q可以退出,即quit)
replace new3=rep78 (输错了替换)
drop new new2 new3删除变量
list if new>10000
list make if new<10000|new>2000(竖线表示或者,回车上面那个)
reg因变量(因变量:被解释变量;自变量:解释变量)
set linesize 140加宽显示窗格
reg price rep78 headroom trunk weight (std. err.=standard error,T值,confidence interval置信区间)
P与T反向关系,标准误=T值
. save bs
file bs.dta saved
. clear
. import excel "D:\Stata\BS_AD8BD666A41_(1)0417\newIS_8CBBC6F6EBB_(1)0417.xls", sheet("IS") firstrow
. duplicates drop _Stkcd y,force删除重复的
data
而master data指主数据库,using data从数据库
(替换变量名Stked改成A_Stked)repA_Stked Stked
(替换原数据is3)save is3,replace
clear清除合并
use bs3
duplicates report A_Stkcd year报告重复的变量(两个)
Stata学习笔记
以下命令均采用小写字母Chapter 1 stata入门1.1打开数据use "D:\Stata9\auto.dta", clear 用use命令打开数据sysuse auto,clear auto 为系统数据sysuse 为打开系统数据的命令1.2获取帮助Help summarize summarize为需要获取帮助对象可以改为其他的需要帮助的对象Findit summarize,net 寻找网络帮助summarize为需要获取帮助对象Search summarize ,net 寻找网络帮助summarize为需要获取帮助对象显示结果Display 5+91.3描述统计(summarize 可简写成sum)Use atuo,clearSummarize price 描述price的观察值个数、平均值、标准差、最小值、最大值Sum weight summarize可简写成sumSum weight price 同时完成上面两步1.4绘图Scatter price weight scatter 为绘制散点图命令Line price weight ,sort line 为绘制折线图命令,sort为排序,绘制折线图前需要先排序1.5生成新的数据(generate 可简写成gen)ClearSet obs 1000 设置观测值的组数Gen x=_n _n 为观察值得序号Gen y=x+1001.6控制结果输出显示List n1.7设置屏幕滚动Set more off 先设置此项则显示时,屏幕不停止Set more on 先设置此项则显示时,会使显示停止1.8清除内存中原有内容clear1.9设置文件存取路径(cd)Cd d:\stata d:\stata为路径1.10如果想知道当前路径下有哪些文件,可以用dir 命令来列示.dir1.11假设你想在D 盘的根目录下创建一个新的文件夹mydata 来存放数据文件,命令为mkdir。
stata统计分析与应用笔记汇总
第一章:Stata概述:help和search都是查找文件的命令但help用于查找精确的命令,search是模糊查找。
还可使用help|contents 来分类查找第二章:数据管理:2.1变量和变量的取值:1.变量的命名:不能以数字开头,区分大小写,不能命名为系统变量名2.变量的取值类型:(1)字符型:字符变量存储格式是str⋕,str表示格式⋕表示该变量的存储最多可容纳的字符数(2)数值型数据:存储格式:byte.int.long.float.double.Stata默认将数字存储为浮点数据,而将计算结果存为双浮点数据。
(3)缺失数据:一般仅用“.”表示3.变量的显示:(1)数值变量的显示格式:a.普通格式有%w.dg, %w.dgc(g表示普通,w表示整个显示所占的字符数,d表示显示的数字中小数点后的位数,c是要求Stata给出带逗号“,”数字显示格式如12345显示为12,345)b.固定格式有%w.df, %w.dfc(f表示固定)c.科学指数法格式:%w.de, (e表示科学计数)(2)字符变量的显示格式:仅有一种%⋕s,%是提示符,#表示显示字符数,s表示字符变量显示格式,默认右对齐,后加“-”可改为左对齐。
(3)使用format命令变量显示格式:format varlist %fmt 或者 format %fmt varlist 4.变量的标签(1)添加数据集的标签使用: label data [“lable”](2)添加变量的标签使用:label variable varname [“lable”](3)label为变量数值添加标签的语法有两部分,先定义数值标签:label define lblname#“lable” [#“lable”](lblname是标签名称) 然后将定义好的数值标签添加到变量上:label values varlist [lblnamel.]2.2创建一个新的数据集1.关于数据集操作的基本命令(1)browse 和edit 命令:browse 用于打开数据浏览器,edit命令用于打开数据编辑器Edit [varlist] [if] [in]browse [varlist] [if] [in](if和in 用于选择需要的子集)(2)rename:rename old_varname new_varname(3)save命令:save [filename] [,save_options]([,save_options]可以指nolabel(不保存设定标签),replace(允许新文件覆盖原文件),all主要用于编程(4)describe:用于产生一个对数据集的简明总结格式:describe [varlist] [,memory_options](命令选项:simple,short,detail,fullnames)(5)list:用于显示变量的数值,其后可以跟需要显示的变量名称语法:list [varlist] [if] [in] [,options](命令选项包括:noobs(不显示观测值的数值),clean,separator,sepby,nolabel)(6)codebook:用于详尽地描述变量的内容,包括变量名称、标签、赋值。
stata学习笔记
经济数据的特点与类型。
1、横截面数据:多个经济个体的变量在同一时间点上的取值,如2012 年中国各省的GDP2、时间数列数据:指的是某个经济个体的变量在不同时点上的取值,如省每年的 GDP1978-2012 年山东3、面板数据:多个经济个体的变量在不同时点上的取值,如1978-2012 年中国各省的GDP小样本 OLS(最小二乘法):单一方程线性回归最常见方法条件:解释变量与扰动项正交、扰动项无自相关、同方差。
拟合优度:衡量线性回归模型对样本数据的拟合程度(R2),越高说明模型拟合程度越好。
单系数 T 检验:对回归方程扰动项的具体概率进行假设显著性水平进行检验F检验:整个回归方程是否显著STATA 操作简介:如果数据中包含1949-10-01 或 1949/10/01 的时间变量,导入stata 后可能会被视为字符串,因此对于日度数据,可以使用命令gen newvar=date(varname,YMD), 将其转换为整数日期变量,其中 YMD 说明原始数据的格式为年月日,如果原始数据的格式为月日年则使用对于月度数据则 gen newvar=monthly(varname,YM) 。
MDY;.describe :数据的概貌.drop keep :删除和保留.su:统计特征Star( .05): 5%显著性水平g intc=log( tc):取自然对数.Vce:协方差矩阵.Pwcorr:变量之间相关系数gen:产生reg: OLS回归reg。
, noc 表示在进行回归时不要常数项大样本 OLS:只要求解释变量与同期的扰动项正交即可Robust:稳健标准误,如果存在异方差,则应使用稳健标准误y t is n e D 最大似然估计法:如果回归方程存在非线性,则使用最大似然估计法( MLE )或非线性最小二乘法(NLS)三类在大样本下渐进等价的统计检验:Wald test LR(似然比检验)LM操作步骤如下:sysuse auto(调用数据集)Hist mpg, normal (画变量 mpg 的直方图,并与正态密度比较)1.8.6.4.2.10 20 30 40Mileage (mpg)直方图显示,变量mpg 的分布于正态分布有一定差距。
stata学习笔记
stata学习笔记数据管理创建一个新数据edit //在打开的数据表中创建变量和数据input x1 x2 ……set obs 10gen x1=_ngen x2=seq()egen x3=seq(),b(5) t(5)egen x4=fill(3 4 3 4)rename x1 pop //将变量var1改名为poprename x2 placemax C=(1,0.8\0.8,1)drawnorm x1 x2 ,means(1,10) sds(0.3,2) corr(C) n(500)gen x1=invnormal(uniform())gen roll=1+trunc(uniform()*6) 随机产生1-6随机数字gen x=exp(uniform())gen x=-3ln(uniform())gen x=(invnorm(uniform()))^2 卡方分布gen x=invttail(df,uniform()) t分布gen x=invFtail(df1,df2,uniform()) F分布sample 10,countlabel variable pop "population in 1000s,1995" //为变量pop 添加标签label define sex_label 1 "male" 2 "female"label values sex sex_label //为变量sex添加值标签save aaa //保持为aaa.dta文件save,replace合并数据use a.datappend using b.datuse a.datsort placesave,replaceuse b.datsort placemerge place using a.datreshape long grow,i(id) j(year)reshppe wide grow,i(id) j(year)clearcd f:\统计数据\statause aaasort pop //以变量pop排序order place pop //将变量place pop分别放在第一、二位置describle //描述变量信息list //显示变量和变量值list ,sep(3) 以每3行分隔显示list,sepby(var) 以var变量为界显示summarize x //显示变量的基本信息,可加上“,d”显示详细信息by var1 var2,sort:su x (by可用于su ci centile等)tabstat x,stats(mean median sd var skewness kurtosis cv semean p2 iqr)collapse (sum) var1 var2 (sd)var3 (mean) newvar1=var4 (median) newvar2=var5定义变量的子集(if 和in的使用)list pop place sex in 1/50sort poplist pop place in -4/1 //显示pop值最大的四个观察值summarize if pop<1000summarize if place !="china"summarize pop place sex if pop>100 & pop<1000summarize place sex if pop<100 | pop>1000summarize place if pop< . //缺失值比任何数值都大drop pop if place=="china"keep创建和替代变量1、use canada1,cleargenerate gap=flife-mlifelabel variable gap "flife-mlife gap life"format gap %4.1f //固定了宽度4,小数部分1其他%4.1g(宽度4,小数部分至少为1,可以小数或科学计数法显示)、%4.1eformat仅改变显示不影响计算use canada1,cleargenerate type=1replace type=2 if place=="canada"replace type=3 if place=="Yukou"运算符+ - * / ^ mod(x,y)使用函数abs()acos() //di acos(0.5)*180/_pisin cos asin atan atan2() y/x的反正切函数sqrt log()==ln() log10 expceil(x) >x的最小整数floor(x) <x的最大整数round(x) 四舍五入comb() lnfactorial()分布函数ttail(df,t) t>t0.05的概率(单侧)invttail(df,p) 根据概率计算t值,p为右侧概率F(df1,df2,f) 左侧概</x的最大整数率 invF(n1,n2,p)Ftail(df1,df2,f) 右侧概率 invFtail(n1,n2,p)chi2(df,x) 左侧概率chi2tail(df,x) 右侧概率binomial(n,x,p) n次试验中出现x次及更小的概率1-binomial(n,x-1,p)normal(z) 标准正态分布左侧累计概率日期函数(1)假设有数值变量a格式为20100312gen str str_a=string(a,"%10.0f") //转换a为字符变量gen date_a=date(str_a,"YMD") //转换str_a为日期变量,返回值为当前日期-1960年1月1日的数值format date_a %td //转换date_a的格式为日期12May2010 假设有数值变量a格式为20100312101205gen str str_a=string(a,"%16.0f")gen double date_a=clock(str_a,"YMDhms")format date_a %tc假设有三个数值变量m、d、y分别表示月、日、年gen date_a=mdy(m,d,y)egenegen x=seq(),b(3) t(2) 111222111222egen x=fill(100,98) 100 98 96 94egne x=fill(0,2,7,0,2,7)egen x=rowmean(x1,x2,x3) 产生新变量,其值为x1x2x3各行的均值egen x=rowsum(x1,x2,x3) 产生新变量,其值为x1x2x3各行的和egen x=std(a)for num 1/15 :egen xX=std(aX)egen xrank=rank(x)10、其他函数recode group encodegen x1=recode(age,24,28,32,~) //<=24 <=28egen x2=group(x1)encode strvar,gen(numvar) 将字符变量转为数值变量decode numvar,gen(strvar)创建新的分类变量和定序变量假设有分类变量(byte)type(1-3)tab typetab type,gen(type) //产生type1-3三个哑变量2、将数值变量gen x1=recode(age,24,28,32,~) //以<=24 <=28~分组egen x2=group(x1)变量下标di x[4]gen a=x-x[_n-1] //x与其前一个数值的差gen b=x-x[_n+1]从外部ascII文件导入数据以空格分隔,字符串需带引号infile str30 place ulife tlife using aaa.raw //产生三个变量,place为30长度的字符变量compress //压缩place变量为最长的字符以tab或“,”分隔insheet place ulife tlife using aaa.raw,comma(or tab) names 固定栏宽infix year 1-4 wood 5-8 water 9-10 using aaa.raw绘图hist x,bin(10) xlabel(0(2)10) ylabel(100(100)1000) xtick(1(2)11) norm fractionhist x,start(50 width(5) freq by(group,total)graph twoway scatter y x || line y x ||lfit y x,mlabel(id) msymbol(oh/x)graph twoway scatter y x||lfitci,stdfgraph matrix x y zgraph twoway line y x yeargraph twoway line y year ,yaxis(1)|| x year ,yaxis(2)graph twoway area y x yeargraph box x y z,over(group) yline(6.35)graph pie x y z,by(group) pie(3,explode)graph bar (mean)x y z,over(group)grapg dot (median) x1 x2,over(group) marker(1,msymbol(oh)) marker(2,msymbol(x))qnorm x,gridpnorm x,grid交叉表tab a b,sum(x) meantab a b,all tabi a b\ c d,all tab a b [fw=count],alltab1 a b c 分布绘制abc的一维表tab2 a b c 建立所有可能的二维表by c,sort:tab a b,all 以c的不同取值分别绘制a b的二维表table row col col1,by(row1) 绘制多维表sktest x swilk sfrancia正态性检验及数据变换sktest x swilk sfrancia立方严重负偏态平方轻度负偏态平方根轻度正偏态对数正偏态平方根负倒数严重正偏态倒数非常严重正偏态平方倒数同上立方倒数同上ladder x //产生以上8种变换后的正态性检验gladder x //针对ladder结果绘制直方图bcskews newx=x //产生新变量newx,是对x的变换方差齐性检验sdtest x1=x2sdtest x1,by(group)robvar x,by(group) levene检验,返回值W0:均数 W50:中位数 W10:trim10%后的均数方差分析单个样本ttest x=10 signtest x=10 二项分布ttest x1=x2 signrank x1=x2 wilcoxon符号检验ttest x,by(group) ranksum x,by(group) wilcoxon检验ttest x1=x2,unpaired unequalbitest x==pbitesti n k p单因素方差分析oneway x group,tabluate scheffe bonferroni sidak kwallis x,by(group)多因素方差分析anova x a##btest 1.a=2.atest 2.b=3.bbonferonni: r(p)*c c:比较次数,组数X(组数-1)/2scheffe:1-F(组数-1,误差自由度,r(F)/(组数-1,))regresspredict newvar 预测值predict newvar,stdp 预测值标准误anova x a b|aanova x a / id|a b a#banova x a b c.age相关分析(by var:)cor x ypwcorr x y,bonferrior/sidakspearman x y,bonferrior/sidakpcorr y x1-x3 去除其他x的影响后y与x的偏相关系数回归分析基本方法reg y x1 x2 x3 ,beta uncons预测值predict newvar,cooksd hat covratio dfits residuals rstudent rstandard stdp stdfhat>2p/n 发现高杠杆值dfits>2sqrt(p/n) 案例的自变量组合对回归直线的影响力cooksd>4/n 同上welsch>3sqrt(p) 同上covratio: |r-1|>=3p/nrvfplot,yline(0)假设检验reg y x*test x1 x2 x1 和x2回归系数同时为0test x1=x2虚拟变量tab region ,gen(reg) //产生reg1-4四个哑变量reg cmat reg2 //reg2与其他3个地区的比较reg cmat reg1 reg2 reg3 reg4 == xi:reg cmat i.region此方法便于做交互分析char region[omit]4 (与xi共同使用)xi:reg camt i.region逐步回归sw reg y x1-x4,pr(0.06) pe(0.05)sw reg y x1 x2 (x3 x4),lockterm1 pr(0.06)面板数据iis regiontis yearxtreg y x1 x2,rextmixed y 固定变量 || school:随机变量回归诊断estate ic 返回Aic Bic ll(null) ll(model)值(log likelihood对数似然值)quietly reg y x1-x5estimates store fullquietly reg y x1-x4lrtest fullovtest p<0.05提示有二次、三次或四次方项目需要添加hettest p<0.05提示方差不齐,误差散点图不是随机分布的dwstat 一价自相关的durbin-watson检验vif 自变量共线性检查vif>10 平均vif>1 有问题宽容度(vif的倒数)表示该变量独立程度,越大则越独立rvfplot 预测值与残差值的散点图rvpplot x 某一个自变量x与残差的散点图avplot x 去除其他变量影响后的x与y的线性关系,x轴上偏离的数值多为高杠杆值avplotsacprplot x,lowess 虚线在中间部分与直线不重和表示可能x与y存在其他非线性关系,另外可以报告与x具有线性关系的其他自变量lvr2plot 注意拟合不好且具有较高杠杆作用的值可能是高杠杆值hat 较大值提示高杠杆值dfits cooksd covratio 提示对y影响较大的值logistic回归logit y x* logit y x*,orblogit y n x*lrocroctab y x,graphroccomp y x1 x2 比较y与x1的roc曲线和y与x2的是否相同rocgold y x x1 x2 比较y与x(金标准)的roc曲线和y与x1的是否相同lsens,genprob(prob) gensens(sens) genspec(spec)lstatlfit,group(10) est gof,group(10)predict phat,hat deviance ddeviance dbet dx2 dbetaclogit y x*,group(matchvar)ologit y x*mlogit y x*,b(1) mlogit y x*,rrrconstraint define 1 [3]x=2[2]xconstranit define 2 [4]x=3[2]xmlogit y x,c(1 2) b(1)多元方差分析hotelling x*hotelling x*,by(group)manova x1 x2 x3=g b g*b广义线性模型glm y x1 x2 ,family(Gaussian) link(identity) */正态分布线性回归glm y x1 x2,family(binomial) link(logit) */logistics回归glm y x1 x2,family(poisson) link(log) lnoffset(暴露人年变量) poisson y x1 x2,exposure(暴露人年变量)poisgof [,pearson]glm y x1 x2,family(nbinomial) link(log)nbreg y x1 x2gnbreg y x1 x2 ,lnalpha(var)predict主成份分析pca x*screeplot因子分析factor x*,pcf mine(0.5) 主成份法factor x*,ml mine(0.5) 最大似然法factor x*,ipf //迭代主因子法rotate 方差极大旋转rotate,promax 斜交法生存分析stset time,failure(outcome)stsum,by(treat)stci,rmean by(treat)sts list,by(treat)sts graph,by(treat) loststs graph,by(treat) gwoodsts test groupstreg treat group,nohr dist(exponential/weibull)predict new_var if treat==1,survstcox treat group,nohrcox result treat group,dead(outcome) nohrsw cox result treat group,dead(outcome) nohr流行病队列研究ir case exposure time(人年数)iri a b n1 n2cs case exposure [freq=count]csi a b c d,by(group)可使用tb和exact(默认)计算rr可信区间,不能使用woolf 病例对照研究cc case expose,by(group)cci a b c dmcc case controlmcci a b c d可使用exact(默认)、woolf、 cornfield计算rr可信区间tabodds modds不如用logistic、cox比例风险模型。
最新STATA实用学习笔记资料
最新STATA实⽤学习笔记资料北京科技⼤学STATA应⽤学习摘录第⼀章 STATA的基本操作⼀、设置内存容set mem 500m, perm⼀、显⽰输⼊内容Display 1Display “clive”⼆、显⽰数据集结构describeDescribe /d三、编辑editEdit四、重命名变量Rename var1 var2五、显⽰数据集内容list/browseList in 1List in 2/10六、数据导⼊:数据⽂件是⽂本类型(.csv)1、insheet: . insheet using “C:\Documents and Settings\Administrator\桌⾯\ST9007\dataset\Fees1.csv”, clear2、内存为空时才可以导⼊数据集,否则会出现(you must start with an empty dataset)(1)清空内存中的所有变量:.drop _all(2)导⼊语句后加⼊“clear”命令。
七、保存⽂件1、save “C:\Documents and Settings\Administrator\桌⾯\ST9007\dataset\Fees1.dta”2、save “C:\Documents and Settings\Administrator\桌⾯\ST9007\dataset\Fees1.dta”, replace ⼋、打开及退出已存⽂件use1、.Use ⽂件路径及⽂件名, clear2、. Drop _all/.exit九、记录命令和输出结果(log)1、开始建⽴记录⽂件:log using "J:\phd\output.log", replace2、暂停记录⽂件:log off3、重新打开记录⽂件:log on4、关闭记录⽂件:log close⼗⼀、创建和保存程序⽂件:(doedit, do)1、打开程序编辑窗⼝:doedit2、写⼊命令3、保存⽂件,.do.4、运⾏命令:.do 程序⽂件路径及⽂件名⼗⼆、多个数据集合并为⼀个数据集(变量和结构相同)纵向合并append insheet using "J:\phd\Fees1.csv", clearsave "J:\phd\Fees1.dta", replaceinsheet using "J:\phd\Fees2.csv", clearappend using "J:\phd\Fees1.dta"save "J:\phd\Fees1.dta", replace⼗三、横向合并,在原数据集基础上加上另外的变量merge1、insheet using "J:\phd\Fees1.csv", clearsort companyid yearendsave "J:\phd\Fees1.dta", replacedescribeinsheet using "J:\phd\Fees6.csv", clearsort companyid yearendmerge companyid yearend using "J:\phd\Fees1.dta"save "J:\phd\Fees1.dta", replacedescribe2、_merge==1 obs. From master data_merge==2 obs. From using data_merge==3 obs. From both master and using data⼗四、帮助⽂件:help1、. Help describe⼗五、描述性统计量1、summarize incorporationyear 单个summarize incorporationyear-big6 连续多个summarize _all or simply summarize 所有2、更详细的统计量summarize incorporationyear, detail3、centilecentile auditfees, centile(0(10)100)centile auditfees, centile(0(5)100)4、tabulate不同类型变量的频数和⽐例tabulate companytypetabulate companytype big6, column 按列计算百分⽐tabulate companytype big6, row 按⾏计算百分⽐tab companytype big6 if companytype<=3, row col 同时按⾏列和条件计算百分⽐5、计算满⾜条件观测的个数count if big6==1count if big6==0 | big6==16、按离散变量排序,对连续变量计算描述性统计量:(1)by companytype, sort: summarize auditfees, detail(2)sort companytypeBy companytype:summarize auditees⼗六、转换变量1、按公司类型将公开发⾏股票公司赋值为1,其他为0gen listed=0replace listed=1 if companytype==2replace listed=1 if companytype==3replace listed=1 if companytype==5replace listed=. if companytype==.⼗七、产⽣新变量genGenerate newvar=表达式⼗⼋、数据类型3、新建变量的过程中定义数据类型●gen str3 gender= "male"●list gender in 1/104、变量所占字节过长●drop gender●gen str30 gender= "male"●browse●describe gender●compress gender5、⽇期数据类型:%d dates, which is a count of the number of days elapsed since January 1, 1960。
管理统计STATA复习大纲
管理统计复习大纲目录一、描述统计 (2)1. 基本描述统计-sum (2)2.对比描述统计-tabstat (2)3.奇异点的识别(箱线图)-graph box (3)4.正态性的检验 (3)5.正态性的转换(幂转换阶梯)- ladder (4)6.相关性分析(Pearson相关系数)- correlate (4)二、T检验和方差分析 (5)1.T检验- ttest (5)2.方差分析- oneway (6)三、聚类分析&判别分析 (8)1.聚类分析- cluster (8)2.判别分析- discrim (10)四、主成分分析和因子分析 (11)1.主成分分析-pac (11)2.因子分析- factor (13)3.主成分分析和因子分析的区别 (14)五、列联表分析和截面回归 (14)1.多维列联表-table (14)2.列联表分析-tabulate (15)3.截面回归 (16)1.一般截面回归-regress (16)2.逐步回归-sw regress (16)六、非经典假设 (17)1.多重共线性问题 (17)2.内生性问题 (17)3.异方差问题 (18)4.多方程组回归 (18)5.面板数据 (18)七、时间序列分析 (20)1.趋势分析与指数平滑 (20)2.ARIMA模型 (21)3.ARCH模型 (23)八、非线性回归及回归诊断 (24)1.二值响应模型-probit和logit模型 (25)2. 多值响应模型-ologit、mlogit (25)3.角点解模型- tobit (26)4.样本选择模型-heckman (26)九、中介变量&调节变量 (26)一、描述统计1. 基本描述统计-sumsum [变量] [if] [in] [weight] [, options]sum wage if female==1 & age==30 // 对关于女性(female==1)的数据进行描述统计sum wage in 1/200 // 观察前200的样本sum wage in 201/l // 观察后200的样本sum wage educ exper tenure nonwhite female married, separator(3) // 每三个一栏PS:sort wage // 排序,文件内同时也会做出相应调整bysort female: sum wage // 按照性别统计工资情况2.对比描述统计-tabstattabstat 变量[if] [in] [weight] [, option]与sum相比,可灵活的实现统计量的组合,并实现不同变量间的对比描述统计例:tabstat wage lwage, by(female) stat(count mean p50 sd skew kurt) col(stat) long // 基于female为判断依据,分别计算各变量count mean p50 sd skew kurt的值,并转置图表,在图表中显示对应的标签统计量含义图:3.奇异点的识别(箱线图)-graph boxgraph box 变量[if] [in] [weight] [, options] // 纵向图graph hbox 变量[if] [in] [weight] [, options] // 横向图以四分位数间距代表标准差,以“平均数±四分位数”的法则。
Stata笔记北京科技大学复习进程
改颜色edit-preference-general prefernce-classic 下面命令框-右键-font- 改字号命令cd d:\ 改到 d 盘(change directory) dir 查询 d 盘有什么sysuse auto 系统自带汽车数据,数据变量(字段)显示在右上角br(owse)浏览数据(字符型红色,数值型黑色,蓝色-右键-value labels-hide all labels 标签隐藏)h(elp) li(st)告诉你命令怎么用,下面有例子左边双击执行,单击复制到命令框order price mpg (单击右边的变量) order make-foreign 改变变量顺序,从make 到foreign g(enerate)new=rep78-trunk 输出新变量(rep78,trunk 是字段,可单击选择,"." 表示缺省,加减乘除+-*/)list if new==14 (== 为等于,= 为赋值,可以点击more)li(st) if new2>=14 & new2<24 (按q 可以退出,即quit )replace new3=rep78 (输错了替换)drop new new2 new3 删除变量list if new>10000list make if new<10000|new>2000 (竖线表示或者,回车上面那个)!=表示不等于左边命令,右键savesave data 文件名为datasysuse auto preserve reserve save auto2 保存时不需加后缀,删除时带后缀.dta sort price 从小到大gsort price 都可以,比较随意gsort -trunk price (默认加号,为排序)order make new (将new 排到第二位) aorder (alphabetic 按字母顺序排序)disp(lay) sin (1)作为计算器使用ln 以 e 为底--------------- 3.13 -------- 锐思数据库选择数据-- 非金融行业负债表-- 左边-财务报表-非金融行业合并标识-1 合并报表调整标识-1报表类型-q4、信息来源-q4公司类别-20-定期报告信息来源:q4a 股股票代码截止日期流动资产合计应收账款总资产流动负债合计负债合计所有者权益合计非金融行业利润表--- 前同净利润营业收入excel 输出(默认)选择列表签+列名--- 打开STATA ----- file-import-xls 菜单引入文件clear 可清除数据varible name 不识别中文选中第一个import first row as varible names 第二个import all data as strings 意思是将数据看作字符型( 不选) br(ouse)展示数据流动比率=流动资产/流动负债资产负债率= 总负债/总资产产权比率=总负债/所有者权益合计mkdir d:\hsy1\mydata 建立文件夹cd d:\hsy1\mydata 基于文件夹dir 显示文件夹save bs 保存数据,名为bs 直接运行是双击,显示在框内为单击g(enerate)currrate=Totcurass/Tutcurlia 流动比率(等号后面点右上方显示(8 miss ing values gen erated)有八个缺失值g lev=Totlia/Totass 负债率leverageg pright= Totlia/ TotSHE 产权比率porpertysave bs2 另存数据drop 为删除变量clear 从内存删掉,不会从硬盘删掉--- 利润表 -importsave isg incorate= Netprf/ Incmope 利润率=净利润/营业利润save is2 clearuse bs2 打开bs2g year=year( EndDt)。
stata学习笔记
经济数据的特点与类型。
1、横截面数据:多个经济个体的变量在同一时间点上的取值,如2012年中国各省的GDP2、时间数列数据:指的是某个经济个体的变量在不同时点上的取值,如1978-2012年山东省每年的GDP3、面板数据:多个经济个体的变量在不同时点上的取值,如1978-2012年中国各省的GDP 小样本OLS(最小二乘法):单一方程线性回归最常见方法条件:解释变量与扰动项正交、扰动项无自相关、同方差。
拟合优度:衡量线性回归模型对样本数据的拟合程度(R2),越高说明模型拟合程度越好。
单系数T检验:对回归方程扰动项的具体概率进行假设显著性水平进行检验F检验:整个回归方程是否显著STATA操作简介:如果数据中包含1949-10-01或1949/10/01的时间变量,导入stata后可能会被视为字符串,因此对于日度数据,可以使用命令gen newvar=date(varname,YMD),将其转换为整数日期变量,其中YMD说明原始数据的格式为年月日,如果原始数据的格式为月日年则使用MDY;对于月度数据则gen newvar=monthly(varname,YM)。
.describe:数据的概貌.drop keep:删除和保留.su:统计特征Pwcorr:变量之间相关系数Star(.05):5%显著性水平gen:产生g intc=log(tc):取自然对数. reg:OLS回归.Vce:协方差矩阵reg。
,noc表示在进行回归时不要常数项大样本OLS:只要求解释变量与同期的扰动项正交即可Robust:稳健标准误,如果存在异方差,则应使用稳健标准误最大似然估计法:如果回归方程存在非线性,则使用最大似然估计法(MLE )或非线性最小二乘法(NLS )三类在大样本下渐进等价的统计检验:Wald test LR (似然比检验) LM操作步骤如下:sysuse auto (调用数据集)Hist mpg ,normal (画变量mpg 的直方图,并与正态密度比较)直方图显示,变量mpg 的分布于正态分布有一定差距。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
改颜色edit-preference-general prefernce-classic下面命令框-右键-font-改字号命令cd d:\ 改到d盘(change directory)dir查询d盘有什么sysuse auto 系统自带汽车数据,数据变量(字段)显示在右上角br(owse) 浏览数据(字符型红色,数值型黑色,蓝色-右键-value labels-hide all labels标签隐藏)h(elp) li(st) 告诉你命令怎么用,下面有例子左边双击执行,单击复制到命令框order price mpg(单击右边的变量)order make-foreign 改变变量顺序,从make到foreigng(enerate) new=rep78-trunk 输出新变量(rep78,trunk是字段,可单击选择,"."表示缺省,加减乘除+-*/)list if new==14 (==为等于,=为赋值,可以点击more)li(st) if new2>=14 & new2<24 (按q可以退出,即quit)replace new3=rep78 (输错了替换)drop new new2 new3删除变量list if new>10000list make if new<10000|new>2000 (竖线表示或者,回车上面那个)!=表示不等于左边命令,右键savesave data 文件名为datasysuse autopreservereservesave auto2 保存时不需加后缀,删除时带后缀.dtasort price从小到大gsort price 都可以,比较随意gsort -trunk price (默认加号,为排序)order make new (将new排到第二位)aorder (alphabetic 按字母顺序排序)disp(lay) sin(1) 作为计算器使用ln以e为底----------------3.13---------锐思数据库选择数据-----非金融行业负债表----左边-财务报表-非金融行业合并标识-1合并报表调整标识-1报表类型-q4、信息来源-q4公司类别-20-定期报告信息来源:q4a股股票代码截止日期流动资产合计应收账款总资产流动负债合计负债合计所有者权益合计------非金融行业利润表---前同净利润营业收入excel输出(默认)选择列表签+列名------打开STATA------file-import-xls菜单引入文件clear可清除数据varible name 不识别中文选中第一个import first row as varible names第二个import all data as strings意思是将数据看作字符型(不选)br(ouse)展示数据流动比率=流动资产/流动负债资产负债率=总负债/总资产产权比率=总负债/所有者权益合计mkdir d:\hsy1\mydata 建立文件夹cd d:\hsy1\mydata 基于文件夹dir 显示文件夹save bs 保存数据,名为bs直接运行是双击,显示在框内为单击g(enerate) currrate=Totcurass/Tutcurlia 流动比率(等号后面点右上方variables)显示(8 missing values generated)有八个缺失值g lev=Totlia/Totass 负债率leverageg pright= Totlia/ TotSHE 产权比率porpertysave bs2 另存数据drop 为删除变量clear从内存删掉,不会从硬盘删掉------利润表-----importsave isg incorate= Netprf/ Incmope 利润率=净利润/营业利润save is2----clearuse bs2 打开bs2g year=year( EndDt) 。
year(EndDt)表示从变量EndDt里把年份取出,如month()g month=month( EndDt)save bs3-----clear. use is2. g year=year( EndDt). g month=month( EndDt). save is3----合并merge横向1对1合并,append纵向合并---merge 1:1 A_Stkcd year using bs3注意后面的两个变量名字在原来两个表里是相同的,将bs3合并到现在(is3)中错误类型variables A_Stkcd year do not uniquely identify observations in the master data而master data指主数据库,using data 从数据库(替换变量名Stked 改成A_Stked)rep A_Stked Stked(替换原数据is3)save is3,replaceclear 清除合并use bs3duplicates report A_Stkcd year 报告重复的变量(两个)显示(surplus为多余的)copies | observations surplus----------+---------------------------1 | 17017 021 | 21 2022 | 110 10523 | 46 44--------------------------------------duplicates drop A_Stkcd year,force 同一公司同一年数据删掉,强制删除save bs4(is,bs都除重就可以合并了)keep if _merge==3(3为完全匹配,1,2不完全匹配)drop if _merge!=3 如果不完全匹配去除. save bsis--------------------------300创业板(最小)002中小板000主板keep if substr( A_Stkcd,1,3)=="300" 筛选,substr()为取字符串函数,从第一位开始取取3位,加引号为字符型summerize Totass 看Totass的各种指标,标准差,最大最小值su Totass,detail 可以看到上下四分位截尾,去掉两端1%左右的值缩尾,将99%以后的数值以99%的数值替代,去除极端值,1%一下同理su Totlia,d(etail)su Accrecv-pright 逐个显示变量的信息corr(elation) Totass Totlia 相关性分析,0.3一下不相关,0.3-0.5低度相关,0.5-0.8中度相关pwcorr Totass Totlia 偏相关pwcorr Totass Totlia Totcurrass,sig star(0.05) 显著性水平significance,小于0.05的标星号,星号在它上面------------导出,file-export------------------------------------3.20----------------------------------reg 因变量(因变量:被解释变量;自变量:解释变量)set linesize 140加宽显示窗格reg price rep78 headroom trunk weight (std. err.=standard error,T值,confidence interval置信区间)P与T反向关系,标准误=T值adjusted r-square调整的r方(自变量越多r方越大)*表示P<10%,>5%**表示P<5%,>1%***表示P<1%DF 自由度,degree of freettest rep78=headroom。
t检验做散点图scatter length price。
命令是scatterline 变量名1 变量名2 折线图hist 变量名1 变量名2。
做直方图histogram 柱状图hist 变量名,freqhist 变量名,addl freq--------------------3.27--------------------将家庭记为househood,个人记为people,收入记为income。
输入命令:egen income_people=mean(income),by(househood)就可以了!egen newvar= ma(y), nomiss t(7)即建立一个新变量,等于跨距为7的y的移动平均数,用较短、未对中的平均数取代起点值和终点值。
g y=year( EndDt) 提取年份. order CompanyCode y 将公司代码排第一列,年份排第二列help reshapereshape wide Incmope- InventoryTurnoverRatio,i( CompanyCode) j( y)一定在i和前面有逗号!. g Accrecv2009mean=( Accrecv2009+ Accrecv2008)/2reshape long .....,----------4.17---------------destring 变量名,replace 使字符型变数值型g y=real(substr( Accper,1,4)) 从字符型取年份,并变成数值型,从左向右取四位. drop Accper. order Stkcd y 按变量1,变量2 排序. keep if y==2000|y==2001. g infee=ln( Tcost) 对Tcost取对数产生infee变量. drop Tcostg brandname=1 if substr( Dadtunit,1,4)=="普华"(4441 missing values generated). replace brand=1 if substr( Dadtunit,1,4)=="德勤"(51 real changes made). drop Dadtunit. g opinion=0 if Audittyp=="标准无保留意见". replace opinion=1 if opinion==. 将缺失值替代为1(214 real changes made)-----------------import excel "D:\Stata\BS_AD8BD666A41_(1)0417\newBS_AD8BD666A41_(1)0417.xls", sheet("BS") firstrow. br. g y=year( _EndDt). drop _EndDt. g inasset=ln( _Totass) 对总资产取对数. g invrec=( _Accrecv +_Invtr)/ _Totassdrop _Accrecv _Invtr _Totass. order _A_Stkcd y. save bsfile bs.dta saved. clear. import excel "D:\Stata\BS_AD8BD666A41_(1)0417\newIS_8CBBC6F6EBB_(1)0417.xls", sheet("IS") firstrow. duplicates drop _Stkcd y,force删除重复的Duplicates in terms of _Stkcd y(42 observations deleted). drop if _n<3 删除前两行,_n就是序号的意思(2 observations deleted)merge 1:1 _Stkcd y using bs1variables _Stkcd y do not uniquely identify observations in the using data 合并有重复的,在自子数据库use bs1. duplicates drop _Stkcd y,force 与对母数据库同样操作,都除重后就可以合并了Duplicates in terms of _Stkcd y(42 observations deleted). merge 1:1 _Stkcd y using is2Result # of obs.-----------------------------------------not matched 30from master 12 (_merge==1)from using 18 (_merge==2)matched 5,077 (_merge==3)-----------------------------------------. g len=length( _Stkcd) 对股票代码取长度看看有没有长度为0的就是空的. su len 看看len的情况,summarize 发现有长度为0的Variable | Obs Mean Std. Dev. Min Max -------------+--------------------------------------------------------len | 5131 5.948548 .5532848 0 6. list if len==0. drop if len==0 删掉len=0的(44 observations deleted). drop len 去除len变量Merge之后算ROE=净利润/所有者权益. g roe= _Netprf/ _TotSHE. g list=1 if roe>0 & roe<=0.02 产生哑变量list,若。