中国工业企业数据库与Stata简介综述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(2)对现有变量重新赋值
命令格式: replace oldvar = exp [if exp] [in range]
含义说明: oldvar为现有的变量。对满足[if exp]和[in range]的样本,oldvar将根据表达式exp重新赋值。 比如:replace v211=. if v211<=0 (若工业增加值非正, 令其取缺失值)
宏观经济分析与政策模拟讨论班
中国工业企业数据库与Stata简介
主要内容
1、中国工业企业数据库介绍
2、数据格式转换——Stat-Transfer软件介绍
3、Stata12介绍
4、Stata操作实例
1.数据库介绍
中国工业企业数据库来源于国家统计局。数据库的统计对 象为规模以上工业企业,包括全部国有工业企业和年主营 业务收入 500 万元及以上的非国有工业企业,与《中国统 计年鉴》的工业部分和《中国工业统计年鉴》的覆盖范围 一致。区别是工业企业数据库是企业层面的原始数据,而
标即可。
4.1 Stata 的日志
• 例:
• (开始运行)
• log using D:\Econometrics\logfiles\20150510.log • …………………. • (Stata命令) • …………………..
• log close
• (结束运行) • 从而20150510.log就记录了从“log using”命令到 “log close”命令之间Stata运行的所有结果。
auto.dta数据库,命令:use auto
注意:Stata 中字母的大小写是严格区分的,因此Stata 建议对于变量名 一律使用小写字母。
4.3 将数据导入Stata
use命令的基本语句,具体格式如下:
use [varlist] [if] [in] using filename [, clear nolabel]
价格,mpg=每加仑油所行驶的英里数,weight=汽车的重量,foreign表示是否
是进口车,如果foreign=0代表是国产车,如果foreign=1代表是进口车。
4.3 将数据导入Stata
(2)打开数据文件中的部分变量
有时,并不需要将数据文件中的所有变量全部打开,因为
原始数据内容丰富,含有很多变量,而研究可能只涉及其 中的几个变量。所以若只打开auto文件中的make和price 这两个变量,应该使用如下命令: use make price using auto
据库已有很多学者做出了非常有价值的研究成果。受数据
取得难度的限制,拥有该数据库的研究机构在国内还并不 多,因此该数据库在研究领域有广阔的应用前景。
1.数据库介绍
数据库里的企业用“法人代码”(FRDM)作为标志。数 据库覆盖的企业不会一成不变,每年都有新增企业和减少 企业,绝大部分企业的资料是连续的。尽管原则上每个企
左上 “Review”(历史窗口):记录着自启动Stata以来的命令。
右上“Variables”(变量窗口):记录着Stata 内存中的所有变量。 右下“Properties”(性质窗口):显示当前数据文件与变量的性质
中上“Results”(结果窗口):显示执行Stata 命令后的输出结果。
中下“Command”(命令窗口):在此窗口输入Stata 命令。
式出现,在使用时需要使用参照代码表。
2.Stat-Transfer介绍
• Transfer软件专用于转换不同格式的数据文件,Access 数据通过 Transfer软件可转换为 Stata 格式的数据。 • (1)数据转换( Transfer)选项卡 • (2)变量选择( Variables)选项卡 • (3)记录选择( Observations)选项卡 • (4)其他选项( Option)选项卡
4.3 将数据导入Stata
打开Stata 软件后,点击Data → Data Editor图标,即可 打开一个类似Excel的空白表格。然后,用Excel打开文件, 复制文件中的相关数据,并粘贴到Data Editor中。
导入数据的另一方法是,点击菜单“File”→“Import”,然
后导入各种格式的数据。 Stata默认的数据文件扩展名为.dta,打开stata内置的
4.2 do文件
用Stata的do文件编辑器记下做过的工作:在Stata窗口 上部的工具栏中有一个小按钮 ,把鼠标放上去会出现 “New Do-file Editor”,点击它就会出现do文件编辑 器。 在do-file文件中,用*表示注释内容,Stata在运行dofile文件时会跳过这些注释语句。
含义说明:use是打开数据的命令语句,varlist代表变量名 称,if是条件语句,in是范围语句,using filename代表数据 文件路径。 (1)打开数据文件中的全部数据
如果想要打开auto数据文件中的全部数据,输入命令:
use auto
auto.dta美国汽车产业的横截面数据(1978年) ,变量主要包括:price=汽车的
3.Stata12 介绍
Stata软件是现今较为流行的统计计量分析软件,具有强 大的数据处理和分析功能,且操作简单、使用灵活、易学 易用、运行速度极快。Stata的另一个特点是它的许多高
级统计模块均是编程人员用宏语言写成的程序文件
(ADO文件),这些文件可以自行修改、添加和下载。 安装好 Stata 后,点击电脑桌面上的Stata 图标,即可打 开Stata。此时可以看到,在最上方有一排菜单,即 “File Edit Data Graphics Statistics User Window Help”。在此之下,有五个窗口,分别为:
例子。
3.help和search
网络帮助可以采用如下命令获得
findit scat3
search scat3 这两条命令等价,均为寻找绘三维立体图的命令scat3。 由于scat3不是Stata内置命令,所以需要通过这两个命令 搜索并下载安装后才能使用。
区别:help用于查找精确的命令名,search是模糊查找,
2.Stat-Transfer介绍
在Transfer这个界面上,通过几个下拉式菜单,选择需要 转换数据库的源文件和目标文件的类型、名称,点击转换 (Transfer) 就可实现数据间的简单转换。软件支持的数据 类型包括我们常用的SAS、SPSS、STATA、S-Plus、 Excel、Epi Info等等。 如果在转换数据时,只对其中的一部分观察值感兴趣, 可 以利用 “变量选择”或者 “记录选择”,进行部分数据转
3.寻求帮助与网络资源
通过多种途径可以获得 Stata 的帮助,主要的途径有三个: 手册、 Stata 自带帮助和网络帮助。 Stata手册是一本学 习Stata使用的权威书籍,它按字母顺序排列出了Stata所 有相关的命令。 Stata的自带帮助系统是使用最方便,也
是最常用的方法 ,我们可以在记住极少量基本命令的基
“年鉴”是按不同维度得到的加总数据。
1.数据库介绍
截止 2011 年,数据库共收录了 58 万多家工业企业,占 中国工业总产值的95%左右,覆盖了中国工业40多个大类、 90多个中类、600多个小类,每个企业提供超过上百个变
量,是目前国内最为全面和权威的企业层面数据。该数据
库是我国经济学和管理学研究领域的重要资料,利用该数
础上,方便地运用Stata命令。
3.help和search
Stata自带帮助系统: help 显示出Stata所有帮助内容的目录结构。比如 想了解regress的用法,可在Stata Command中输
入如下语句:
help regress
Stata会提供关于regress用法的详细说明,并配以
2.Stat-Transfer介绍
Transfer软件还提供了一些其它的功能, 如在转换过程中 更换变量名,自动运行变量输出类型的优化功能,设置日 期时间型数据的读写格式,对缺失值的各种处理方式的设 定,随机种子的产生或设定,设置文本格式文件的读取格 式,Excel工作簿中工作表的选取,覆盖文件前确认提示等 其它功能。
(log)的文件名,并存储在指定的位置。此后,在 Stata中的所有操作及其输出结果,都将被记录在此日志 中,直至选择退出。 如果要暂时关闭日志(不再记录输出结果),输入命令
wenku.baidu.com
“log off”。如果要恢复使用日志,输入命令“log on”。
如果要彻底退出日志,输入命令“log close” 。如果要 查看日志文件中的内容,点击存储位置上的日志文件图
Drop Constants选项,则自动将变量值恒为常数或缺失值
的变量略去,这在数据繁多时特别能体现出其优越性。
2.Stat-Transfer介绍
在记录选择上,可选择全部记录,亦可选择部分记录。这一
部分的记录选取,用户可以通过条件限定来实现。如:要求
Variable1的值大于300或者Variable2的值为偶数,在选项卡 的文本框中输入相应的约束条件:where Variable1> 300, 或者 where Variable2%2=0。还可以利用软件自带的函数来 实现一些较复杂的数据选取,例如,按20%比例进行简单随 机抽样(where samp_rand(0.2)),按10%比例进行系统抽样 (间隔抽样) (where samp_syst(10))。
findit与search命令类似,但其可以进一步搜索网络上的 信息。
3.几个主要的网站
(1) STATA公司官方网站http://www.stata.com (2) STATA资源链接 http://www.stata.com/links/resources.html
(3) STATA出版社http://www.stata-press.com
use make price部分表示需要打开make和price两个变量,
using auto部分表示打开的数据文件路径及名称。
4.4 变量生成与处理
(1)生成新变量
命令格式:generate newvar = exp [if exp] [in range]
含义说明:newvar是生成的新变量,exp是由现有变量
4、Stata操作与实例
4.1 Stata 的日志 4.2 do文件 4.3 数据导入
4.4 变量的生成与处理
4.5 数据的合并 4.6 数据类型转换 4.7 描述统计 4.8 画图
4.9 回归分析
4.1 Stata 的日志
log文件以后缀“.log”表示,用于记录Stata的运行结果。
可点击菜单“File”→“Log”→“Begin”,然后输入日志
生成新变量的算术或逻辑表达式,[if exp] 和[in range]指
定对哪些观测计算新变量值。 比如:gen a = f314*f314 (新变量a等于f314的平方) gen F= f314/v210 变量含义:f314固定资产净值年平均余额
v210从业人员平均人数
4.4 变量生成与处理
换。
2.Stat-Transfer介绍
在变量选择上,可选择全部变量,亦可选择部分变量,同时 还可在转换中重新设置变量输出的数据类型,如浮点型(float), 日期型(date),时间型(time),字符型(string) 等。软件还支持 优化(Optimize)功能;Use Doubles选项在转换时可将有小 数位的变量设置成双精度型 (double),保证数据的精度;
(4) STATA电子杂志http://www.stata-journal.com/ (5) STATA技术公告版 http://www.stata.com/support/faqs/ http://fmwww.bc.edu/gstat/docs/gsafaq.html http://www.ats.ucla.edu/stat/stata/examples/default.html
业的法人代码不会改变,在极少数情况下,企业会改换企
业名称或法人代码。数据库从1995年开始,最近更新到
2011年。
1.数据库介绍
数据库对每个企业给出两类信息,一是企业经营成果有关 的信息,包括资金流量表、资产负债表和损益表的主要信 息,以及雇用员工和生产活动信息;二是对企业身份、生
产经营活动内容和状态进行定性描述的信息,以代码的形
命令格式: replace oldvar = exp [if exp] [in range]
含义说明: oldvar为现有的变量。对满足[if exp]和[in range]的样本,oldvar将根据表达式exp重新赋值。 比如:replace v211=. if v211<=0 (若工业增加值非正, 令其取缺失值)
宏观经济分析与政策模拟讨论班
中国工业企业数据库与Stata简介
主要内容
1、中国工业企业数据库介绍
2、数据格式转换——Stat-Transfer软件介绍
3、Stata12介绍
4、Stata操作实例
1.数据库介绍
中国工业企业数据库来源于国家统计局。数据库的统计对 象为规模以上工业企业,包括全部国有工业企业和年主营 业务收入 500 万元及以上的非国有工业企业,与《中国统 计年鉴》的工业部分和《中国工业统计年鉴》的覆盖范围 一致。区别是工业企业数据库是企业层面的原始数据,而
标即可。
4.1 Stata 的日志
• 例:
• (开始运行)
• log using D:\Econometrics\logfiles\20150510.log • …………………. • (Stata命令) • …………………..
• log close
• (结束运行) • 从而20150510.log就记录了从“log using”命令到 “log close”命令之间Stata运行的所有结果。
auto.dta数据库,命令:use auto
注意:Stata 中字母的大小写是严格区分的,因此Stata 建议对于变量名 一律使用小写字母。
4.3 将数据导入Stata
use命令的基本语句,具体格式如下:
use [varlist] [if] [in] using filename [, clear nolabel]
价格,mpg=每加仑油所行驶的英里数,weight=汽车的重量,foreign表示是否
是进口车,如果foreign=0代表是国产车,如果foreign=1代表是进口车。
4.3 将数据导入Stata
(2)打开数据文件中的部分变量
有时,并不需要将数据文件中的所有变量全部打开,因为
原始数据内容丰富,含有很多变量,而研究可能只涉及其 中的几个变量。所以若只打开auto文件中的make和price 这两个变量,应该使用如下命令: use make price using auto
据库已有很多学者做出了非常有价值的研究成果。受数据
取得难度的限制,拥有该数据库的研究机构在国内还并不 多,因此该数据库在研究领域有广阔的应用前景。
1.数据库介绍
数据库里的企业用“法人代码”(FRDM)作为标志。数 据库覆盖的企业不会一成不变,每年都有新增企业和减少 企业,绝大部分企业的资料是连续的。尽管原则上每个企
左上 “Review”(历史窗口):记录着自启动Stata以来的命令。
右上“Variables”(变量窗口):记录着Stata 内存中的所有变量。 右下“Properties”(性质窗口):显示当前数据文件与变量的性质
中上“Results”(结果窗口):显示执行Stata 命令后的输出结果。
中下“Command”(命令窗口):在此窗口输入Stata 命令。
式出现,在使用时需要使用参照代码表。
2.Stat-Transfer介绍
• Transfer软件专用于转换不同格式的数据文件,Access 数据通过 Transfer软件可转换为 Stata 格式的数据。 • (1)数据转换( Transfer)选项卡 • (2)变量选择( Variables)选项卡 • (3)记录选择( Observations)选项卡 • (4)其他选项( Option)选项卡
4.3 将数据导入Stata
打开Stata 软件后,点击Data → Data Editor图标,即可 打开一个类似Excel的空白表格。然后,用Excel打开文件, 复制文件中的相关数据,并粘贴到Data Editor中。
导入数据的另一方法是,点击菜单“File”→“Import”,然
后导入各种格式的数据。 Stata默认的数据文件扩展名为.dta,打开stata内置的
4.2 do文件
用Stata的do文件编辑器记下做过的工作:在Stata窗口 上部的工具栏中有一个小按钮 ,把鼠标放上去会出现 “New Do-file Editor”,点击它就会出现do文件编辑 器。 在do-file文件中,用*表示注释内容,Stata在运行dofile文件时会跳过这些注释语句。
含义说明:use是打开数据的命令语句,varlist代表变量名 称,if是条件语句,in是范围语句,using filename代表数据 文件路径。 (1)打开数据文件中的全部数据
如果想要打开auto数据文件中的全部数据,输入命令:
use auto
auto.dta美国汽车产业的横截面数据(1978年) ,变量主要包括:price=汽车的
3.Stata12 介绍
Stata软件是现今较为流行的统计计量分析软件,具有强 大的数据处理和分析功能,且操作简单、使用灵活、易学 易用、运行速度极快。Stata的另一个特点是它的许多高
级统计模块均是编程人员用宏语言写成的程序文件
(ADO文件),这些文件可以自行修改、添加和下载。 安装好 Stata 后,点击电脑桌面上的Stata 图标,即可打 开Stata。此时可以看到,在最上方有一排菜单,即 “File Edit Data Graphics Statistics User Window Help”。在此之下,有五个窗口,分别为:
例子。
3.help和search
网络帮助可以采用如下命令获得
findit scat3
search scat3 这两条命令等价,均为寻找绘三维立体图的命令scat3。 由于scat3不是Stata内置命令,所以需要通过这两个命令 搜索并下载安装后才能使用。
区别:help用于查找精确的命令名,search是模糊查找,
2.Stat-Transfer介绍
在Transfer这个界面上,通过几个下拉式菜单,选择需要 转换数据库的源文件和目标文件的类型、名称,点击转换 (Transfer) 就可实现数据间的简单转换。软件支持的数据 类型包括我们常用的SAS、SPSS、STATA、S-Plus、 Excel、Epi Info等等。 如果在转换数据时,只对其中的一部分观察值感兴趣, 可 以利用 “变量选择”或者 “记录选择”,进行部分数据转
3.寻求帮助与网络资源
通过多种途径可以获得 Stata 的帮助,主要的途径有三个: 手册、 Stata 自带帮助和网络帮助。 Stata手册是一本学 习Stata使用的权威书籍,它按字母顺序排列出了Stata所 有相关的命令。 Stata的自带帮助系统是使用最方便,也
是最常用的方法 ,我们可以在记住极少量基本命令的基
“年鉴”是按不同维度得到的加总数据。
1.数据库介绍
截止 2011 年,数据库共收录了 58 万多家工业企业,占 中国工业总产值的95%左右,覆盖了中国工业40多个大类、 90多个中类、600多个小类,每个企业提供超过上百个变
量,是目前国内最为全面和权威的企业层面数据。该数据
库是我国经济学和管理学研究领域的重要资料,利用该数
础上,方便地运用Stata命令。
3.help和search
Stata自带帮助系统: help 显示出Stata所有帮助内容的目录结构。比如 想了解regress的用法,可在Stata Command中输
入如下语句:
help regress
Stata会提供关于regress用法的详细说明,并配以
2.Stat-Transfer介绍
Transfer软件还提供了一些其它的功能, 如在转换过程中 更换变量名,自动运行变量输出类型的优化功能,设置日 期时间型数据的读写格式,对缺失值的各种处理方式的设 定,随机种子的产生或设定,设置文本格式文件的读取格 式,Excel工作簿中工作表的选取,覆盖文件前确认提示等 其它功能。
(log)的文件名,并存储在指定的位置。此后,在 Stata中的所有操作及其输出结果,都将被记录在此日志 中,直至选择退出。 如果要暂时关闭日志(不再记录输出结果),输入命令
wenku.baidu.com
“log off”。如果要恢复使用日志,输入命令“log on”。
如果要彻底退出日志,输入命令“log close” 。如果要 查看日志文件中的内容,点击存储位置上的日志文件图
Drop Constants选项,则自动将变量值恒为常数或缺失值
的变量略去,这在数据繁多时特别能体现出其优越性。
2.Stat-Transfer介绍
在记录选择上,可选择全部记录,亦可选择部分记录。这一
部分的记录选取,用户可以通过条件限定来实现。如:要求
Variable1的值大于300或者Variable2的值为偶数,在选项卡 的文本框中输入相应的约束条件:where Variable1> 300, 或者 where Variable2%2=0。还可以利用软件自带的函数来 实现一些较复杂的数据选取,例如,按20%比例进行简单随 机抽样(where samp_rand(0.2)),按10%比例进行系统抽样 (间隔抽样) (where samp_syst(10))。
findit与search命令类似,但其可以进一步搜索网络上的 信息。
3.几个主要的网站
(1) STATA公司官方网站http://www.stata.com (2) STATA资源链接 http://www.stata.com/links/resources.html
(3) STATA出版社http://www.stata-press.com
use make price部分表示需要打开make和price两个变量,
using auto部分表示打开的数据文件路径及名称。
4.4 变量生成与处理
(1)生成新变量
命令格式:generate newvar = exp [if exp] [in range]
含义说明:newvar是生成的新变量,exp是由现有变量
4、Stata操作与实例
4.1 Stata 的日志 4.2 do文件 4.3 数据导入
4.4 变量的生成与处理
4.5 数据的合并 4.6 数据类型转换 4.7 描述统计 4.8 画图
4.9 回归分析
4.1 Stata 的日志
log文件以后缀“.log”表示,用于记录Stata的运行结果。
可点击菜单“File”→“Log”→“Begin”,然后输入日志
生成新变量的算术或逻辑表达式,[if exp] 和[in range]指
定对哪些观测计算新变量值。 比如:gen a = f314*f314 (新变量a等于f314的平方) gen F= f314/v210 变量含义:f314固定资产净值年平均余额
v210从业人员平均人数
4.4 变量生成与处理
换。
2.Stat-Transfer介绍
在变量选择上,可选择全部变量,亦可选择部分变量,同时 还可在转换中重新设置变量输出的数据类型,如浮点型(float), 日期型(date),时间型(time),字符型(string) 等。软件还支持 优化(Optimize)功能;Use Doubles选项在转换时可将有小 数位的变量设置成双精度型 (double),保证数据的精度;
(4) STATA电子杂志http://www.stata-journal.com/ (5) STATA技术公告版 http://www.stata.com/support/faqs/ http://fmwww.bc.edu/gstat/docs/gsafaq.html http://www.ats.ucla.edu/stat/stata/examples/default.html
业的法人代码不会改变,在极少数情况下,企业会改换企
业名称或法人代码。数据库从1995年开始,最近更新到
2011年。
1.数据库介绍
数据库对每个企业给出两类信息,一是企业经营成果有关 的信息,包括资金流量表、资产负债表和损益表的主要信 息,以及雇用员工和生产活动信息;二是对企业身份、生
产经营活动内容和状态进行定性描述的信息,以代码的形