STATA入门3 数据

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

3数据

数据文件是一个矩形的矩阵,这个矩阵的每一行都代表或对应着一个“观测单位”(比如是一个人,一个村或一个地区等等),矩阵的每一列都代表或对应着一个“变量”(比如年龄,身高、体重,月工资收入等等)。因此,数据文件矩阵中的每一个元素(case)都代表或对应着某一个“观测单位”(如张三、李四,A 厂、B厂)中的某一个“变量”(比如年龄、体重,月收入等等)的变量值或观察值。

3.1 打开示例数据和网络数据:use

3.1.1 示例数据

示例数据为STATA帮助文件中所用的数据,其后辍名为.dta,如果在STATA 软件当前路径下,直接用use命令即可打开,如果不在当前路径下,则可以使用sysuse命令打开。

. use auto,clear //打开汽车数据auto.dta

. cd d:/ //改变路径到d:/

. use auto, clear

file auto.dta not found //系统提示无法找到文件,因为auto.dta不在d:/ r(601);

3.1.2 从网络获取数据

上述示例数据可能没有全部下载安装于你的电脑中,因此简单地使用use和sysuse命令时,可能出现错误,如

. use nlswork, clear

file nlswork.dta not found

此时,如果确定该数据为示例数据,可以直接通过网络获取,其命令为:. use /data/r9/nlswork //从网站获取数据,或者. webuse nlswork, clear //与前一命令等价,从STATA官方数据库获取数据webuse只能从/data这一路径获取数据,如果不是该网站的数据,webuse失效,只能把网站地址完全写出来。使用该命令时必须确保网络连接正常.

另一个网络数据较多的地方是波士登大学的数据中心,我们所用的《计量经济学导论》一书中所使用的全部数据都可以通过该数据中心获得。比如. use /ec-p/data/wooldridge/CEOSAL1

即打开教材中例2.3中所使用的CEO数据。

use命令只能打开后辍名为“*.dta”格式的数据,.dta格式以外的数据,STATA 不能直接读取,需要从外部读入,最简单而直接的办法是复制和粘贴,但有时没有其他软件,比如有SAS格式或SPSS格式的数据,但没有SAS软件和SPSS 软件,此时需要用STATA提供的其他命令或者使用transfer数据格式转化软件。在讨论其他输入或导入数据的方法之前,我们先来学习一点数据类型的知识。

3.2数据类型

STATA通常把变量划分为三类:分别是数值型,字符型和日期型

3.2.1数值变量:

用0、1、2…9及+、–(正负号)与小数点“(.)”来表示。在输入数据时,逗号不能被识别,如1,024应该直接写成1024.其他示例

5

-5

5.2

5.2e+3

5.2e-2

后面两个数据为科学计数法的数据,分别表示5200和0.052.其中的e相当于10,因此5.2e+3的意思是:5.2*103=5200

数值型变量按其精度区分,又有五种类型,分别是:

存贮类型最小最大0-领域字节--------------------------------------------------------------------- byte -127 100 +/-1 1 int -32,767 32,740 +/-1 2 long -2,147,483,647 2,147,483,620 +/-1 4

float -1.70141173319*10^38 1.70141173319*10^36 +/-10^-36 4 double -8.9884656743*10^307 8.9884656743*10^307 +/-10^-323 8 当运算精度要求很高的时候,需要将变量设置成浮点型和双精度型。

注意1和 1.0000的精度是不同的,前者在(0.5,1.5)区间内近似,而后者在(0.99995,1.00005)区间内近似。若多次运算反复取四舍五入,精度较低时将使计算误差迅速变大,然而,精度高时占用的内存资源较多。下面的命令有助于理解变量存贮类型变换。

clear

set obs 1

obs was 0, now 1 //提示信息说,之前系统中没有观察单位,现在有了一个gen a=1 //生成一个新变量a,令a取值为1

d /*d为describ命令的略写,describ命令显示数据集的属

性信息,注意观察显示结果中,a的storage type为float型,

浮点型为默认类型*/

Contains data

obs: 1 (观察值个数)

vars: 1 (变量个数)

size: 8 (99.9% of memory free)(内存空间大小)

storage display value

variable name type format label variable label

a float %9.0g

Sorted by: (按什么分类)

Note: dataset has changed since last saved(注释)

compress //在不损害信息的基础上压缩,使数据占用空间尽可能小

a was float, now byte//a由浮点型变为了字节型

d // 注意a的storag

e type现在为byte型

replace a=101 /* 注意a的storage type现在自动升为int型,

因为byte最大只能为100*/

a was byte now int

(1 real change made)

replace a=100

compress

d//重新变回到byte型

replace a=32741//直接变到long型,因为int型最大只能到32740

gen double b=1 //直接生成双精度变量b

recast double a//将a变成双精度变量b

d//注意到a和b均为双精度型

相关文档
最新文档