stata初级入门2-数据篇解析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
范例:deocde price, genrate(price2)
包括数值数据的字符转换
destring命令: 将字符变量转换为数值变量
语法:destring [varlist], [generate (newvarlist) | replace] [options]
options:ignore (“chars”) 删除字符变量中的非数 值字符,force将非数值字符转换为缺失值
《计量经济学软件应用》课程讲义
11
2.变量属性的显示
菜单操作: DataDescribe Data in Memory
Describe命令,语法格 式:describe [var1 var2 …]用于,可显示1 个,或多个。
如describe foreign
s t o r a g e d i s p l a y v a l u e v a r i a b l en a m e t y p e f o r m a t l a b e l
Stata 入门2 ——数据篇
2021年2月16日星期二
《计量经济学软件应用》课程讲义
1
一、数据录入
直接录入 打开dta数据文件 导入其它格式的数据文件 其它方式
2021年2月16日星期二
《计量经济学软件应用》课程讲义
2
1直接录入
(1)直接在stata中录入(适用于小样 本少变量数据):打开程序,调用数据 编辑窗口,直接录入数据,如excel中操 作。
d o u b l e - 8 . 9 8 8 4 6 5 6 7 4 3 * 1 0 ^ 3 0 7 8 . 9 8 8 4 6 5 6 7 4 3 * 1 0 ^ 3 0 7 + / - 1 0 ^ - 3 2 3 8
P r e c i s i o n f o r f l o a t i s 3 . 7 9 5 x 1 0 ^ - 8 . P r e c i s i o n f o r d o u b l e i s 1 . 4 1 4 x 1 0 ^ - 1 6 .
10
1.变量属性,如名称、标签、值标签
变量名:由英文字符、数字、中文字符组成。
字母大小写表示的含义不同!!!
标签:对变量含义的解释
值标签:用于对分类变量值的含义进行解释
如foreign有domestic和foreign,在数据量化上,可用0代 表domestic,1代表foreign。
2021年2月16日星期二
(x86)\Stata12\auto.dta", clear
(2)其它格式的数据文件
Excel数据:*.xls, *xlsx。这是stata12新增的功能。 用spreadsheet建立的ASCII(txt)数据:*.raw, *.txt, *.csv
,用insheet命令。 固定列宽的ASCII(txt)数据:*.dct,用infix命令 以dictionary格式建的ASCII(txt)数据:*.dct, *.raw,用
数值变量和字符变量的转换
encode命令:将字符变量转换为数值变量。
格式:encode varname [if] [in], generate(newvar) [label (name) noextend]
菜单: Data > Create or change data > Other variabletransformation commands > Convert variables from string to numeric
在search all中敲入搜索关键词:找到可能你需要的 程序包,而后安装即可。
这个方法安装的外挂命令,不会在菜单中出现,需 要你记住命令名。
2021年2月16日星期二
《计量经济学软件应用》课程讲义
8
二、数据的保存或导出
1保存用save/save as 2导出
从file菜单中export选项下选择你想保存的格式; 用outfile,outsheet,fdasave,xmlsave命令
变量标签(label)的定义:label命令,语法:label var varname “##”,如label var foreign “car type”。除用于定义变 量的标签外,其还可用于定义数据的标签,如label data “auto in American”
分类(或指示)变量的值标签定义:亦label命令,要完成分 类变量值的标签定义有两步,如把变量foreign取值为0,定义 为domestic,取值为1,定义为foreign,并用origin表示该变 量值标签定义结果:
6.变量值的修改
replace命令 格式:replace oldvar=exp [if] [in] [,
nopromote] 范例:如replace id=1
7.缺失值的处理
在现有的调查中,经常用88, 99,888,999,….等来表示不 知道或不清楚。
在stata中如何一般用”.”来表示该变量的观测缺失值。 将变量缺失值转化为数值,用mvencode命令
b y t e
- 1 2 7
1 0 0 + / - 1
1
i n t
- 3 2 , 7 6 7
3 2 , 7 4 0 + / - 1
2
l o n g
- 2 , 1 4 7 , 4 8 3 , 6 4 7 2 , 1 4 7 , 4 8 3 , 6 2 0+ / - 1
4
f l o a t - 1 . 7 0 1 4 1 1 7 3 3 1 9 * 1 0 ^ 3 8 1 . 7 0 1 4 1 1 7 3 3 1 9 * 1 0 ^ 3 8 + / - 1 0 ^ - 3 8 4
2021年2月16日星期二
《计量经济学软件应用》课程讲义
18
菜单操作:
Data > Create or change data > Create new variable Data > Create or change data > Create new variable (extended)
字符型数据
S t r i n g s t o r a g e M a x i m u m t y p e l e n g t h B y t e s
s t r 1 1 1 s t r 2 2 2
. . . . . . . . . . . . . . . s t r 2 4 4 2 4 4 2 4 4
调用数据窗口方式:(a)在command窗口中 输入edit命令;(b)点工具栏上的
(2)在excel中录入后,直接复制到 stata数据编辑窗口中。
(3)键盘直接输入:在command窗口, 用input命令。划线部分输入
. drop _all . input x y
xy 1. 1 2 2. 3 4 3. 5 6 4. 7 8 5. 9 10 6. end
v a r i a b l e l a b e l
f o r e i g n
b y t e % 8 . 0 g
o r i g i n C a rt y p e
2021年2月16日星期二
《计量经济学软件应用》课程讲义
12
3.变量属性的修改
变量名更改:rename命令,常用语法格式:rename old_var new_var,如rename income inc.
范例: mvdecode rep78, mv(998=. \ 999=.a)
《计量经济学软件应用》课程讲义
2021年2月16日星期二
21
菜单操作:
Data > Create or change data > Other variable-transformation commands > Change missing values to numeric或Change numeric values to missing
2021年2月16日星期二
《计量经济学软件应用》课程讲义
9
三、数据操作
变量名、标签等属性 变量属性显示和修改 变量的数据类型和长度 变量生成和变量值修改 缺失值的处理 变量的剔除和保留 数据的排序 字符变量和数值变量的相互转换
2021年2月16日星期二
《计量经济学软件应用》课程讲义
《计量经济学软件应用》课程讲义
7
3.其它方式
(1)用StatTrr 9软件将各种格式的数据转换成 dta格式数据
前提是你安装了这个软件
(2)安装外挂命令程序包,如usespss.ado程 序包就是一个用于读取spss生成的格式数据的 程序包。
范例:
use "C:\Program Files (x86)\Stata12\auto.dta", clear use "C:\Program Files (x86)\Stata12\auto.dta", clear
nolabel use make price using "C:\Program Files
infile命令。 无格式的ASCII(txt)数据: *.txt, *.raw,用infile命令。 SAS XPORT数据:*.xpt,用fdause命令。 ODBC数据源:包括access数据源,*.mdb,dBase数据
源,*.dbf xml数据:*.xml
菜单操作:
2021年2月16日星期二
label define origin 0 “domestic” 1 “foreign”
label values foreign origin
2021年2月16日星期二
《计量经济学软件应用》课程讲义
13
4.变量的数据类型和长度
整数数值型:
(1)byte,(2)int, (3)long。
小数数值型:
?用outfileoutsheetfdasavexmlsave命令2019年12月6日星期五计量经济学软件应用课程讲义9三数据操作?变量名标签等属性?变量属性显示和修改?变量的数据类型和长度?变量生成和变量值修改?缺失值的处理?变量的剔除和保留?数据的排序?字符变量和数值变量的相互转换2019年12月6日星期五计量经济学软件应用课程讲义101
范例:encode make, generate(make2)
decode命令:将数值变量转换为字符变量
格式:decode varname [if] [in], generate(newvar) [maxlength(#)]
菜单: Data > Create or change data > Other variabletransformation commands > Convert variables from numeric to string
(1)float,(2)double。
数值型数据一般定义为float型,除非你 有特别定义。
字符串型:string
2021年2月16日星期二
《计量经济学软件应用》课程讲义
14
数值型数据
S t o r a g e t y p e
M i n i m u m
C l o s e s t t o 0 w i t h o u t M a x i m u m b e i n g 0 b y t e s
tostring命令: 将字符变量转换为数值变量
语法:tostring varlist, [generate (newvarlist) | replace]
5.新变量生成
generate/egen命令: gen命令格式:generate [type] newvar=exp [if] [in] 范例:gen id=. egen命令格式:它是gen的更高级应用, egen [type] newvar=fcn(arguments) [if] [in] [, options] 范例:egen mmpg=mean(mpg)
格式:mvencode varlist [if] [in], mv(#|mvc=# [\ mvc=#...] [\ else=#]) [override]
范例: mvencode rep78 if foreign == 0, mv(998)
将变量的某些数值转化为缺失值,用mvdecode命令
格式: mvdecode varlist [if] [in], mv(numlist | numlist=mvc [\ numlist=mvc...])
2021年2月16日星期二
《计量经济学软件应用》课程讲义
3
2.数据文件的读取
(1)Stata数据文件,后缀.dta
直接双击
菜单操作:在工具栏上直接点击 Open:
或File >
2021年2月16日星期二
《计量经济学软件应用》课程讲义
4
use 命令
语法格式: use [, clear nolabel],读取整个数据文件 use [varlist] [if] [in] using [, clear nolabel],从数 据文件中仅读取几个变量
包括数值数据的字符转换
destring命令: 将字符变量转换为数值变量
语法:destring [varlist], [generate (newvarlist) | replace] [options]
options:ignore (“chars”) 删除字符变量中的非数 值字符,force将非数值字符转换为缺失值
《计量经济学软件应用》课程讲义
11
2.变量属性的显示
菜单操作: DataDescribe Data in Memory
Describe命令,语法格 式:describe [var1 var2 …]用于,可显示1 个,或多个。
如describe foreign
s t o r a g e d i s p l a y v a l u e v a r i a b l en a m e t y p e f o r m a t l a b e l
Stata 入门2 ——数据篇
2021年2月16日星期二
《计量经济学软件应用》课程讲义
1
一、数据录入
直接录入 打开dta数据文件 导入其它格式的数据文件 其它方式
2021年2月16日星期二
《计量经济学软件应用》课程讲义
2
1直接录入
(1)直接在stata中录入(适用于小样 本少变量数据):打开程序,调用数据 编辑窗口,直接录入数据,如excel中操 作。
d o u b l e - 8 . 9 8 8 4 6 5 6 7 4 3 * 1 0 ^ 3 0 7 8 . 9 8 8 4 6 5 6 7 4 3 * 1 0 ^ 3 0 7 + / - 1 0 ^ - 3 2 3 8
P r e c i s i o n f o r f l o a t i s 3 . 7 9 5 x 1 0 ^ - 8 . P r e c i s i o n f o r d o u b l e i s 1 . 4 1 4 x 1 0 ^ - 1 6 .
10
1.变量属性,如名称、标签、值标签
变量名:由英文字符、数字、中文字符组成。
字母大小写表示的含义不同!!!
标签:对变量含义的解释
值标签:用于对分类变量值的含义进行解释
如foreign有domestic和foreign,在数据量化上,可用0代 表domestic,1代表foreign。
2021年2月16日星期二
(x86)\Stata12\auto.dta", clear
(2)其它格式的数据文件
Excel数据:*.xls, *xlsx。这是stata12新增的功能。 用spreadsheet建立的ASCII(txt)数据:*.raw, *.txt, *.csv
,用insheet命令。 固定列宽的ASCII(txt)数据:*.dct,用infix命令 以dictionary格式建的ASCII(txt)数据:*.dct, *.raw,用
数值变量和字符变量的转换
encode命令:将字符变量转换为数值变量。
格式:encode varname [if] [in], generate(newvar) [label (name) noextend]
菜单: Data > Create or change data > Other variabletransformation commands > Convert variables from string to numeric
在search all中敲入搜索关键词:找到可能你需要的 程序包,而后安装即可。
这个方法安装的外挂命令,不会在菜单中出现,需 要你记住命令名。
2021年2月16日星期二
《计量经济学软件应用》课程讲义
8
二、数据的保存或导出
1保存用save/save as 2导出
从file菜单中export选项下选择你想保存的格式; 用outfile,outsheet,fdasave,xmlsave命令
变量标签(label)的定义:label命令,语法:label var varname “##”,如label var foreign “car type”。除用于定义变 量的标签外,其还可用于定义数据的标签,如label data “auto in American”
分类(或指示)变量的值标签定义:亦label命令,要完成分 类变量值的标签定义有两步,如把变量foreign取值为0,定义 为domestic,取值为1,定义为foreign,并用origin表示该变 量值标签定义结果:
6.变量值的修改
replace命令 格式:replace oldvar=exp [if] [in] [,
nopromote] 范例:如replace id=1
7.缺失值的处理
在现有的调查中,经常用88, 99,888,999,….等来表示不 知道或不清楚。
在stata中如何一般用”.”来表示该变量的观测缺失值。 将变量缺失值转化为数值,用mvencode命令
b y t e
- 1 2 7
1 0 0 + / - 1
1
i n t
- 3 2 , 7 6 7
3 2 , 7 4 0 + / - 1
2
l o n g
- 2 , 1 4 7 , 4 8 3 , 6 4 7 2 , 1 4 7 , 4 8 3 , 6 2 0+ / - 1
4
f l o a t - 1 . 7 0 1 4 1 1 7 3 3 1 9 * 1 0 ^ 3 8 1 . 7 0 1 4 1 1 7 3 3 1 9 * 1 0 ^ 3 8 + / - 1 0 ^ - 3 8 4
2021年2月16日星期二
《计量经济学软件应用》课程讲义
18
菜单操作:
Data > Create or change data > Create new variable Data > Create or change data > Create new variable (extended)
字符型数据
S t r i n g s t o r a g e M a x i m u m t y p e l e n g t h B y t e s
s t r 1 1 1 s t r 2 2 2
. . . . . . . . . . . . . . . s t r 2 4 4 2 4 4 2 4 4
调用数据窗口方式:(a)在command窗口中 输入edit命令;(b)点工具栏上的
(2)在excel中录入后,直接复制到 stata数据编辑窗口中。
(3)键盘直接输入:在command窗口, 用input命令。划线部分输入
. drop _all . input x y
xy 1. 1 2 2. 3 4 3. 5 6 4. 7 8 5. 9 10 6. end
v a r i a b l e l a b e l
f o r e i g n
b y t e % 8 . 0 g
o r i g i n C a rt y p e
2021年2月16日星期二
《计量经济学软件应用》课程讲义
12
3.变量属性的修改
变量名更改:rename命令,常用语法格式:rename old_var new_var,如rename income inc.
范例: mvdecode rep78, mv(998=. \ 999=.a)
《计量经济学软件应用》课程讲义
2021年2月16日星期二
21
菜单操作:
Data > Create or change data > Other variable-transformation commands > Change missing values to numeric或Change numeric values to missing
2021年2月16日星期二
《计量经济学软件应用》课程讲义
9
三、数据操作
变量名、标签等属性 变量属性显示和修改 变量的数据类型和长度 变量生成和变量值修改 缺失值的处理 变量的剔除和保留 数据的排序 字符变量和数值变量的相互转换
2021年2月16日星期二
《计量经济学软件应用》课程讲义
《计量经济学软件应用》课程讲义
7
3.其它方式
(1)用StatTrr 9软件将各种格式的数据转换成 dta格式数据
前提是你安装了这个软件
(2)安装外挂命令程序包,如usespss.ado程 序包就是一个用于读取spss生成的格式数据的 程序包。
范例:
use "C:\Program Files (x86)\Stata12\auto.dta", clear use "C:\Program Files (x86)\Stata12\auto.dta", clear
nolabel use make price using "C:\Program Files
infile命令。 无格式的ASCII(txt)数据: *.txt, *.raw,用infile命令。 SAS XPORT数据:*.xpt,用fdause命令。 ODBC数据源:包括access数据源,*.mdb,dBase数据
源,*.dbf xml数据:*.xml
菜单操作:
2021年2月16日星期二
label define origin 0 “domestic” 1 “foreign”
label values foreign origin
2021年2月16日星期二
《计量经济学软件应用》课程讲义
13
4.变量的数据类型和长度
整数数值型:
(1)byte,(2)int, (3)long。
小数数值型:
?用outfileoutsheetfdasavexmlsave命令2019年12月6日星期五计量经济学软件应用课程讲义9三数据操作?变量名标签等属性?变量属性显示和修改?变量的数据类型和长度?变量生成和变量值修改?缺失值的处理?变量的剔除和保留?数据的排序?字符变量和数值变量的相互转换2019年12月6日星期五计量经济学软件应用课程讲义101
范例:encode make, generate(make2)
decode命令:将数值变量转换为字符变量
格式:decode varname [if] [in], generate(newvar) [maxlength(#)]
菜单: Data > Create or change data > Other variabletransformation commands > Convert variables from numeric to string
(1)float,(2)double。
数值型数据一般定义为float型,除非你 有特别定义。
字符串型:string
2021年2月16日星期二
《计量经济学软件应用》课程讲义
14
数值型数据
S t o r a g e t y p e
M i n i m u m
C l o s e s t t o 0 w i t h o u t M a x i m u m b e i n g 0 b y t e s
tostring命令: 将字符变量转换为数值变量
语法:tostring varlist, [generate (newvarlist) | replace]
5.新变量生成
generate/egen命令: gen命令格式:generate [type] newvar=exp [if] [in] 范例:gen id=. egen命令格式:它是gen的更高级应用, egen [type] newvar=fcn(arguments) [if] [in] [, options] 范例:egen mmpg=mean(mpg)
格式:mvencode varlist [if] [in], mv(#|mvc=# [\ mvc=#...] [\ else=#]) [override]
范例: mvencode rep78 if foreign == 0, mv(998)
将变量的某些数值转化为缺失值,用mvdecode命令
格式: mvdecode varlist [if] [in], mv(numlist | numlist=mvc [\ numlist=mvc...])
2021年2月16日星期二
《计量经济学软件应用》课程讲义
3
2.数据文件的读取
(1)Stata数据文件,后缀.dta
直接双击
菜单操作:在工具栏上直接点击 Open:
或File >
2021年2月16日星期二
《计量经济学软件应用》课程讲义
4
use 命令
语法格式: use [, clear nolabel],读取整个数据文件 use [varlist] [if] [in] using [, clear nolabel],从数 据文件中仅读取几个变量