第一讲之 stata简介
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Do 文 件
• • • • •
3、stata的命令格式 [特殊选项]关键词 命令参数[,命令选项] 例:by 变量1: Command变量2 if in,Options By urban:sum edu if age>6 in5/12 特殊选项:特殊选项中最常用的有自动生成哑变量 (dummy variables)的“xi”命令,分组执行相同语句的 “by”命令,执行逐步回归分析的“sw”命令,按指定的条 件重复执行的“for”命令等。 • 关键词:指明了所执行的是哪一条Stata命令,大多数命令 的关键词都是采用相关的英文单词。 • 命令参数:指明相应的命令在执行时需要 使用的变量、参 数等是什么。大多数Stata命令都需要指定参数。 • 命令选项:对相应的命令进行限制或更精确的指定,在命 令中不一定出现。
命 令 回 顾 窗口
结 果 窗口
变量名 窗口
命令窗口
• 保存记录的两种方法:
– 第一,使用log命令 – 第二,鼠标右键点击该窗口出现下列选项
• Save Review Contents; (.do文件) • Copy Review Contents to Clipboard.
• 除窗口之外,stata的菜单栏也很重要
• 1、数值变量资料的一般分析: – 参数估计,t检验,单因素和多因素的方差分析, 协方差分析,交互效应模型,平衡和非平衡设计, 嵌套设计,随机效应,缺项数据的处理,方差齐性 检验,正态性检验,变量变换等。 • 2、等级资料的一般分析:秩变换,秩和检验,秩相 关等。 • 3、相关与回归分析: – 简单相关,偏相关,典型相关,以及多达数十种的 回归分析方法,如多元线性回归,逐步回归,加权 回归,稳键回归,二阶段回归,百分位数(中位数) 回归,残差分析、强影响点分析,Panel分析等。
第一讲之 stata简介
参考书籍
第一讲 stata简介及计量应用
• 一、 stata简介
– Stata最初由美国计算机资源中心(Computer Resource Center)研制,现在为Stata公司的产品, 已连续推出10个版本。它操作灵活、简单、易学易用, 是一个非常有特色的统计分析软件,越来越受到人们 的重视和欢迎,并且和SAS、SPSS一起,被称为新的三 大权威统计软件。 – 短小精悍、功能强大 – 广泛应用于社会科学、行为科学、生物统计、流行病 学及其他多种学科领域。
http://www.ats.ucla.edu/stat/stata/
(一)stata的特点与功能
• Stata功能
– 1、数据管理: – 2、数据分析:统计功能、计量分析、模拟分析 – 3、图形制作 – 4、矩阵运算 – 5、程序设计:Stata编程、 Mata矩阵编程语言
(二) Stata的统计功能
%9.2gc %9 .4f %9 .0fc
1.4142
1.4142 1.4142 1
12345
12, 345 12345.0000 12,345
固定格式
科学指数
%w.de
%9.2f
1.41e+00
1.23e+04
字符变量的显示格式:字符变量的显示格式只有一种。其表达式为%#s。其中, %是一个提示符;#表示显示的字符数,即宽度;s表示字符变量的显示格式。 使用format命令规范变量的显示格式为变量规定显示格式: format varlist %fmt 或者 format %fmt varlist 显示变量目前所采用的格式:format [varlist]
– 默认将数字存储为浮点数据,而将计算结果存为双浮 点数据
• 缺失数据:Stata有27个数值型代
• 码:. 、.a、.b、.c、.d、…….z。 • 一般而言用 “.” 作为缺失值
• 数值变量的格式
格式 表达式 表达式举例 12345
普通格式
%w.dg
%w.dgc %w.df %w.dfc
%9.0g
四、数据管理
• 1、变量及其取值 • 字符型数据:存储格式是str#,其中str表示Stata 使用字符型变量的格式,而#表示Stata该变量的 存储最多可容纳的字符数。 • 如str7;beijing;shanghai(×) • 数值型数据:取整(integer)和浮点(floating point)
• 帮助文件(最为重要的两个命令)
– help – Search – findit
三、数据的管理
• 1、数据的输入 • (1)从键盘输入数据 • 使用input命令制定相应的变量名称,然后一次录 入数据,最后使用end语句表明数据录入结束。
– 例1 在某实验中得到如下数据,请在Stata中建立数据 集。 – 观测数据 –X 1 3 5 7 9 – Y 2 4 6 8 10
二、Stata操作入门
• 1、stata的进入与退出
– 无须安装 – 点击
• 即可进入 Stata,并出现命令窗口。 • 在Stata的菜单中选 File ,再选 exit ,如数据已经存盘, 则可退出Stata。如数据未存盘,则Stata给出如下提 示:“Data has changed without being saved. Do you really want to exit?”(数据已改变,但未存盘,是否真 的要退出?)如要退出,则按 确定 ,否则按 取消 。 将数据存盘后再退出。
30.6
29.9 28.6 32 29.8
Florida
Georgia
9746324
5463105
二、Stata操作入门
• 2、stata的默认界面的四个窗口
– 结果窗口:位于界面右上部,软件运行中的所有信息, 如所执行的命令、执行结果和出错信息等均在这里列 出
– 命令窗口:位结果窗口下方,此处用于键入需要执行 的命令。
– 命令回顾窗口:位于界面左上方,所有执行过的命令 会依次在该窗口中列出,单击后命令即被自动拷贝到 命令窗口中。 – 变量名窗口:位于界面左下方,列出当前数据集中的 所有变量名称
(五) Stata的程序设计功能
• 也具有很强 的程序语言 功能 • Stata的ado文 件(高级统计 部分)都是用 Stata自己的 语言编写的。
prog define rp set obs `2’ set seed `3’ gen rp=. /* 定义程序名 /* 定义数据库的最大记录数 /* 设置随机数种子, /* 定义变量 rp,用于存放 Poisson 分布 随机数 local lamda0=exp(`1’) /* 计算 lamda0=exp( ) local j=1 /* j=1 while `j’<`2’+1 { /* 对 j<n 循环,j 表示产生的第 j 个 Poisson 分布随机数 local i=1 /* i=1 local r0=1 /* r0=1 while `i’>0 { /* i 循环 local r1=uniform() /* r1=均匀分布的随机数 local r0=`r1’*`r0’ /* r0=r1*t0 if `r0’< `lamda0’{ /* 如果 r0<lamda0 local n0= `i’-1 /* n0= i-1 local i=-1 /* i=-1 } local i= `i’+1 /* i 循环 } quiet replace rp=`n0 ’if /* 第 j 个 rp=n0 _n==`j’ local j= `j’+1 /* j 循环 } end
(四) Stata的矩阵运算功能
• 矩阵代数是多元统计分析的重要工具, Stata提供了多元统计分析中所需的矩阵基 本运算,如矩阵的加、积、逆等; • 还提供了一些高级运算,如特征根、特征 向量、奇异值分解等;在执行完某些统计 分析命令后,还提供了一些系统矩阵,如 估计系数向量、估计系数的协方差矩阵等。
(一)stata的特点与功能
特点: 1、Stata将统计功能与计量分析较完整地结合起来。
2、命令简单 3、界面灵活
4、速度快:分析时将数据全部读入内存,计算全部完成后才和 磁盘交换数据。 5、图形精美,便于使用直接用如WORD等软件调用。 6、帮助详尽:没有教材的前提下,可以通过stata在线帮助,软 件自身的帮助或其他网络帮助,较短时间内通过自学而掌握该软 件的使用。 7、记录分析过程:将研究思路、想法、做法一一储存起来。 8、网络资源丰富:用户可以free download最新升级文件,及其 他用户编写的高级程序,并可以自行修改、添加。 http://www.stata.com http://www.stata-press.com http://www.stata-journal.com
• 数据输入后,单击preserve键确认所输数据, 按关闭键 即可退出编辑器。
• (3)拷贝、粘贴方式交互数据 • 见do文件
图 在 EXCEL 中的数据格式
图 粘贴入 Stata 后的数据格式
如何不通过粘贴方式录入Excel数据表格? (4)其他的数据录入方式: .using 文件路径(.dta);.insheet 文件路径(.txt)
• 4、记忆空间命令(memory) • set memory 2m
注意:Stata对大写和小写十分敏感,所有的命令都是 小写的。
• 5、帮助文件与命令
– Stata Manual(人大论坛) – 初学手册“Getting started with stata for Windows” – 用户指南“User’s Guide”
(二) Stata的统计功能
• 5、微观数据分析: – logistic回归,Probit回归,及其他广义线性模型, 随机效应的logistic回归,随机效应的Poisson回 归,等。 • 6、其它方法:质量控制、模拟分析、Bootstrap分 析、Jackknife法等。
(三)Stata的作图功能
• • • • • • • •
. input x y x y 1. 1 2 2. 3 4 3. 5 6 4. 7 8 5. 9 10 6. end
变量命名原则:可达32个字符,组成为A~Z,a~z,0~9与下画线“_” 组成 ,不能以数字开头,大小写区分。
• (2)用stata的数据编辑工具
– 在命令栏键入edit或在stata的window下拉菜单 中单击data editor或点击编辑图标 即可进 入stata数据编辑器。 – 在输入数据后,双击纵格顶端的变量名栏可以 更改变量名,可在label栏中注释变量名 – 的含义,点击OK确认 。 – (如下图所示)
例:有如下表所示的一个数据集format.dta,每个 变量在Stata中的显示类型如下:state为%14s表名 美国各州的名称,因而是字符型变量;pop为 %11.0g表明该州的总人口,是数值型变量;而 medage是各州人口的年龄中位数,显示格式是 %9.0g,以浮点型方式存储。我们希望将各个变 量的显示方式做如下转换: stata %14s——>%-14s(即由右对齐改为左对齐); pop %11.0g——>%12.0gc(增加三位一个的数字分 界符); medage %9.0g——>%8.1f(要求显示一位小数)。
Байду номын сангаас
state Alabama Alaska Arizona
pop 3893888 401851 2718215
medage 29.3 26.1 29.2
Arkansas
California Colorado Connecticut Delaware
2286435
23667902 2889964 3107576 594338
• Stata的作图模块,主要提供如下八种基本 图形的制作:
– 直方图(histogram),条形图(bar), 百分条图 (oneway),百分圆图(pie),散点图(twoway),散 点图矩阵(matrix),星形图(star),分位数图。这 些图形的巧妙应用,可以满足绝大多数用户的 统计作图要求。 – 在有些非绘图命令中,也提供了专门绘制某种 图形的功能,如在生存分析中,提供了绘制生 存曲线图,回归分析中提供了残差图等。