stata简单讲义第六讲
第六讲方差分析

第六讲⽅差分析第五章⽅差分析第⼀节概述前⾯介绍了两样本均数⽐较的t 检验,但在实际研究中经常需要多组均数的⽐较。
如:例5.1 患有某种肿瘤的⼤⽩⿏接受不同实验处理后(对照未服药;服抗癌A 药;服抗癌B 药;服抗癌C 药),2周后体内存活的肿瘤细胞数如表5.1所⽰,⽐较不同实验处理后的平均存活肿瘤细胞数是否有差异。
表5.1 不同实验处理后存活肿瘤细胞数(有丝分裂细胞/10个⾼倍镜视野)对照服抗癌A 药服抗癌B 药服抗癌C 药合计48 45 23 5 50 51 20 6 46 47 22 0 52 48 19 2 48 47 21 250 4 N5 6 5 6 22 x48.80 48.00 21.00 3.17 33.45 s2.282.191.582.2320.14本例中共有4种实验处理,在实验设计中称为⼀个因素中的4个⽔平:第⼀个⽔平为对照处理;第⼆个⽔平为服⽤A 药处理;第三个⽔平为服⽤B 药处理;第四个⽔平为服⽤C 药处理。
根据本例的研究问题,相应的假设检验为H 0:µ1=µ2=µ3=µ4 vs H 1:µ1,µ2,µ3,µ4不全相同●不能⽤t 检验进⾏两两⽐较,第⼀类错误会增⼤。
由于本例共有4组的均数需要⽐较。
如果⽤t 检验进⾏两两⽐较,共要进⾏246C =次t 检验。
如果每次t 检验犯第⼀类错误的概率为0.05,则不犯第⼀类错误的概率为0.95,6次都不犯第⼀类错误的概率为60.950.7351=,因此在6次t 检验中⾄少有⼀次犯第⼀类错误的概率为610.950.26490.05-=>>。
由此可见⽤t 检验进⾏多组均数的⽐较会增⼤犯第⼀类错误的概率。
●要⽤⽅差分析或多组的秩和检验(Kruskal Wallis test)的⽅法进⾏多组⽐较:⽅差分析的英⽂全称为Analysis of Variance ,缩写简称为ANOVA 。
让你快速上手的stata讲义

Stata简明讲义王非中国经济研究中心ebwf@〇、写在前面的话关于学习Stata的意义,大家只需知道:目前,Stata是计量经济学、特别是微观计量经济学的主流软件。
因此,Stata很重要、很有用,而大家也会在使用Stata 的过程中慢慢体会到它的特点。
本讲义取名为“Stata简明讲义”,意在突出“简”和“明”两个字。
虽然讲义长达五十多页,但相比Stata的完全手册来说,还不及九牛之一毛,故为“简”。
实际上,完全手册中的很多内容都鲜有人(特别是计量经济学者)问津,而本讲义列出的内容则是大家经常用到的操作;所以,“简”也有“简”的好处。
即便如此,掌握这份讲义也并非易事。
所谓“明”,是明晰的意思。
本讲义本着“手把手教”的精神,力求把每项操作都说得具体明晰,以方便初学者(特别是没有程序操作经历的初学者)尽快上手。
至于本讲义在“简明”上做得怎么样,还需要各位读者来评判。
中心的一位学长邹传伟,曾经写过一份“Stata介绍”,在网上可以下载。
那份讲义比较全面,但不够具体明晰。
本讲义参照那份讲义,在框架上查漏补缺,并进一步地明晰化。
本讲义第二部分的“do文件”和第七部分的“残差分析”的相关内容均来自于中心的沈艳老师的相关讲义,而沈老师对于本讲义的成形给予了细致的指导。
本讲义附带了一些数据文件,其中“WAGE1.dta”和“WAGEPRC.dta”均来自Wooldridge的中级计量教材的数据集,而其他数据则为作者自己的杜撰。
尽管从别人那里拿来了许多好东西,但本讲义的任何错误仍源于作者自己的疏忽。
本讲义是这样安排的:第一部分讲Stata的界面,第二部分讲do文件,第三部分讲怎样把数据导入Stata,第四部分专门讲help和search命令以及帮助文件的阅读方法,第五部分讲数据的描述及管理,第六部分讲如何画图,第七部分讲初步的回归分析。
祝各位学习愉快。
一、Stata长什么样?首先,让我们看看Stata长什么样。
我们以Stata 9.1(以下简称Stata)为例。
stata简明教程

几个简单的例子 di use sysuse sum scatter gen
举例:画出Y=X2的曲线图
drop _all (drop data from memory) set obs 100 (make 100 observations) gen x = _n (x = 1, 2, 3, .., 100) gen y = x^2 (y = 2, 4, 9, .., 10000) scatter y x (make a graph)
命令格式简介
stata命令格式
[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options]
1。Command 命令动词,经常用缩写。 2。varlist 表示一个变量或者多个变量,多 个变量之间用空格隔开。如 sum price weight
添加标签
打开wage1数据文件。 1。为整个数据添加标签:例如,将数据命名为“工 资表”。
菜单:Data->Labels->Label dataset 命令:label data “工资表“ 2。为变量增加标签,例如,给变量wage增加标签 “年工资总额” 菜单:Data->Labels->Label variables 命令 label variable wage “年工资总额”
summarize---sum describe------des 得到正确命令缩写的简单方法:看help。
几条最简单的命令
use 打开数据文件,一般加clear选型清空 内存中现有数据。 sysuse 打开系统数据文件。 describe 描述数据 edit 利用数据编辑器进行数据编辑 list 类似于edit,但只能显示不能修改数据。
stata入门中文讲义_经济学_高等教育_教育专区

Stata及数据处理目录第一章STATA基础 (3)1.1 命令格式 (4)1.2 缩写、关系式和错误信息 (6)1.3 do文件 (6)1.4 标量和矩阵 (7)1.5 使用Stata命令的结果 (8)1.6 宏 (10)1.7 循环语句 (11)1.8 用户写的程序 (15)1.9 参考文献 (15)1.10 练习 (15)第二章数据管理和画图 (18)2.1数据类型和格式 (18)2.2 数据输入 (19)2.3 画图 (21)第3章线性回归基础 (22)3.1 数据和数据描述 (22)3.1.1 变量描述 (23)3.1.2 简单统计 (23)3.1.3 二维表 (23)3.1.4 加统计信息的一维表 (26)3.1.5 统计检验 (26)3.1.6 数据画图 (27)3.2 回归分析 (28)3.2.1 相关分析 (28)3.2.2 线性回归 (29)3.2.3 假设检验 Wald test (30)3.2.4 估计结果呈现 (30)3.3 预测 (34)3.4 Stata 资源 (35)第4章数据处理的组织方法 (36)1、可执行程序的编写与执行 (36)方法1:do文件 (36)方法2:交互式-program-命令 (36)方法3:在do文件中使用program命令 (38)方法4:do文件合并 (39)方法5:ado 文件 (40)2、do文件的组织 (40)3、数据导入 (40)4、_n和_N的用法 (44)第一章STATA基础STATA的使用有两种方式,即菜单驱动和命令驱动。
菜单驱动比较适合于初学者,容易入学,而命令驱动更有效率,适合于高级用户。
我们主要着眼于经验分析,因而重点介绍命令驱动模式。
图1.1Stata12.1的基本界面关于STATA的使用,可以参考Stata手册,特别是[GS] Getting Started with Stata,尤其是第1章A sample session和第2章The Stata User Interface。
STATA 教学大纲

(2)内生性问题,包括处理效应模型和倾向得分匹配分析两类模型(第5讲),作为这一讲的基础,在第4讲中,将介绍Logit模型;
(3)随机边界分析相关的模型:传统的SFA模型、异质性SFA模型、面板SFA模型,以及双边SFA模型(第6讲);
序列相关检验和过度识别检验(Sargan检验)
面板VAR模型简介
冲击反应函数 (பைடு நூலகம்RF)、方差分解 (FEVD)
应用实例(介绍3篇论文)
第2讲(3小时)
自抽样和蒙特卡洛模拟
Bootstrap的原理和Stata实现
Bootstrap组间系数差异检验
Bootstrap获取复杂统计量的临界值
Monte Carlo的基本原理
多元Logit模型(Multinomial Logit)
应用实例(介绍3篇论文)
第5讲(3小时)
内生性问题
Heckman选择模型(Heckman Selection Model)
处理效应模型(Treatment Effect Model)
倾向得分匹配分析(Propensity Score Matching, PSM)
第6讲(3小时)
时间序列模拟分析
时间序列简介
ARIMA过程模拟分析
白噪声和随机游走过程模拟分析
伪回归问题模拟分析
GARCH模型模拟分析
第7讲(3小时)
面板数据模型
静态面板模型:固定效应和随机效应
基于Bootstrap的Hausman检验
异方差和序列相关(Bootstrap、Cluster调整标准误)
Stata学习讲义

Stata学习讲义刘志阔一、如何导入数据Stata的数据处理功能是极其强大的,不过我们最好在excel中整理数据,然后导入到stata中就可以了。
命令:insheet using name.csv*注意,Stata只能用csv格式,另外把数据放到stata的目录中。
二、如何进行回归Stata中有很多命令,这些命令都是现成的,直接用就可以了。
不过,怎么用是个问题。
熟悉命令的基础上学会如何使用Help。
最简单的命令reg做ols回归,xtreg处理面板等。
命令:reg y x*注意,Stata命令的格式,自己回去看手册。
网络帮助可以采用如下命令获得findit scat3, net;search scat3, net三、如何导出结果Stata可以直接导出发表论文中回归结果,当然不是完全一样。
命令:outreg2 Results using name.word四、如何画图Stata的画图功能也是极其强大的,可以画出各种类型的图标。
命令:scatter y x || lfit y x五、如何存储结果Stata可以储存回归结果,便于分析。
命令:log using name log closed1.codebook可以查看数据有没有缺失2.xml_tab estout 可以输出结果3.qui tab year, gen(yr) 可以生产时间虚拟变量。
4.g q=quarterly( qtr,"YQ")5.form q %tq6.recode province (min/11=1) (12/19=2) (20/31=3)gen eastern=(province==1)gen middle=(province==2)gen western=(province==3)Logout 命令可以把界面内容存到word里面,而不用复制。
Logout,save(名称) word/excel replace:各种描述性命令,statsXml_tab可以输出Excel格式的结果。
《STATA简易操作》课件

使用Stata进行生存分析,包括数据导 入、选择合适的生存分析模型、参数 估计和结果解释。
分析生存曲线和风险函数,探究影响 因素对生存时间的影响。
进行模型假设检验和模型比较。
案例三:面板数据分析
总结词:利用面板数据分析方
法,探究个体、时间和其他变
量的交互作用。
01
详细描述
绘制折线图
折线图用于展示随时间变化的数据 趋势。
VS
在Stata中,可以通过输入“line yvar xvar”命令来绘制折线图。其中 yvar代表要展示的数据变量,xvar代 表时间变量。还可以通过添加选项来 修改线条样式、标记等。
05
Stata实战案例
案例一:线性回归分析
总结词:通过线性回归分析,探究自变量与因 变量之间的关系。
01
确定研究问题,选择合适的自变量和因变 量。
03
02
详细描述
04
使用Stata进行线性回归分析,包括数据 导入、模型设定、参数估计和结果解释。
分析模型的拟合优度,如判定系数、调整 判定系数等。
05
06
检验模型的假设条件,如线性关系、误差 项独立同分布等。
案例二:生存分析
总结词:利用生存分析方法,研究生 存时间与影响因素之间的关系。 详细描述
多元回归
探讨多个自变量对因变量的影响,以 及交互项和平方项的设定。
面板数据分析
面板数据介绍
阐述面板数据的概念、特点及其在经济学中 的应用。
固定效应与随机效应模型
比较两种模型的适用场景和结果解释。
面板数据的单位根与协整检验
介绍用于检验数据稳定性和长期关系的检验 方法。
Stata讲义

• save数据保存命令
– save,replace
• erase 删除数据命令
– 一定要加上扩展名
• describe 数据一般描述命令 • codebook 展示各变量情况的命令 • sum 展示各变量数量情况的命令 • generate 生成新变量命令 • rename 变量重命名命令 • drop 删除变量或观察值的命令 • keep 保留变量或观察值的命令 • sort 对某些变量按观察值大小进行排序的命令
– 从低到高 – 从高到低
• order 变量顺序的重新排列命令 • note 加标注命令
• replace 变量替换命令 • tabulate 联列表命令 • display 显示计算结果的命令 • count 报告共有多少观察值的命令 • log 日志文件命令 • mkdir 生成新路径命令 • cd 设置文件路径命令
• 与其它文件(SAS、SPSS)之间的互动
– Statransfer软件.
• 如何读取不知名的文件?
– .dat的文件?例子。 – Infix
• Set memory
– Infile1 – Infile2
• Help命令的用法。
简单的数据操作命令
• use打开数据库命令 • clear清空内存数据命令 • edit数据编辑命令 • input手动录入命令 • insheet、outsheet、infix等数据转换命令。 • set mem设置内存命令
?setmem设置内存命令?save数据保存命令savereplace?erase删除数据命令一定要加上扩展名?describe数据一般描述命令?codebook展示各变量情况的命令?sum展示各变量数量情况的命令?generate生成新变量命令?rename变量重命名命令?drop删除变量或观察值的命令?keep保留变量或观察值的命令?sort对某些变量按观察值大小进行排序的命令从低到高从高到低?order变量顺序的重新排列命令?note加标注命令?replace变量替换命令?tabulate联列表命令?display显示计算结果的命令?count报告共有多少观察值的命令?log日志文件命令?mkdir生成新路径命令?cd设置文件路径命令补充命令?rmdir移去某个文件夹mkdirgggrmdirggg很傻的命令?gsort扩展排序命令useautoclearsortpricesortpricegsortprice?saveold保存成老版本的格式?infile数据读取命令加权命令weight?计算加权平均值?scorenum?650193?64926?64823?64716?64621?64526?64432?64323?64238?64129?64038?sumscore?sumscoreweightnum补充命令?rmdir移去某个文件夹mkdirgggrmdirggg很傻的命令?gsort扩展排序命令useautoclearsortpricesortpricegsortprice?saveold保存成老版本的格式?infile数据读取命令加权命令weight?计算加权平均值?scorenum?650193?64926?64823?64716?64621?64526?64432?64323?64238?64129?64038?sumscore?sumscoreweightnum怎么样偷懒
第六讲 随机区组

第六讲配伍区组设计资料的统计分析的Stata实现例1 某研究者用某药物治疗高血压患者10名,治疗前后舒张压的变化情况见表9-1。
表9-1 10名患者用某药物治疗后的舒张压测定值(mmHg)患者编号(1)治疗前(2)治疗后(3)差值d(4)=(3)-(2)12 3 4 5 67 89 10 115110129109110116116116120104116901088992901101208896-120212218266- 4328Stata数据为:Stata命令为:ttest x1= x2结果为:P=0.0035,治疗前后舒张压有差别,治疗后下降。
例2为了解不同治疗方法对高胆固醇血症的疗效,根据专业要求,在采取相关清洗或洗脱措施,保证相邻两次疗效不受影响的前提下,某研究者用3种不同方法对9只受试动物进行实验,其血浆胆固醇测定值(mmol/L)见表9-3。
表9-3 3种治疗方法的血浆胆固醇测定结果(mmol/L)动物编号甲方法乙方法丙方法1 2 3 4 5 6 10.106.7813.227.787.476.116.695.4012.676.565.655.267.746.8310.957.206.855.887 89 6.028.087.565.436.265.065.797.876.45Stata数据为:Stata命令为:结果为:P=0.0006,3种不同方法得到的血浆胆固醇测定值(mmol/L)不全相同。
例3将30只小白鼠按体重、性别、窝别、活泼性分成10个区组,每个区组的3只小白鼠随机分配到3个实验组,分别以不同蛋白质饲料进行喂养,60天后测量小白鼠的体重增加量(g),数据如表9-4。
表9-4 三种饲料喂养30只小白鼠的体重增加量(g)区组饲料ⅠⅡⅢ1 2 3 4 5 6 7 8 9 10 304041413648334537323344625244414955534877687681847875737472Stata数据为:1. 建立检验假设,确定检验水准 针对处理组H 0:三种不同饲料喂养的小白鼠体重平均增加量相同H 1:三种不同饲料喂养的小白鼠体重平均增加量不同或不全相同05.0=α针对区组H 0:对于任何一种饲料喂养,10个区组的小白鼠平均体重增加量相同 H 1:对于任何一种饲料喂养,10个区组的小白鼠平均体重增加量不同或不全相同05.0=αStata命令为:结果为:则P处理<0.01,P区组>0.05,表9-6中P值为统计软件计算后直接给出的数值。
第六讲工具变量回归

3. Cragg-Donald Wald F 统计量 4. Kleibergen-Paap Wald rk F 统计量” Stata命令:ivreg2
第六讲工具变量回归
如果存在弱工具变量该怎么办?
1. 如果有很多工具变量,有部分强工具变量和部分 弱工具变量,可以舍弃较弱的工具变量而选用相关性 较强的工具变量子集。在stata中,可以使用ivreg2 命令进行“冗余检验”,以决定选择舍弃哪个工具变 量。(直观上,冗余工具变量是那些第一阶段回归中 不显著的变量。)
造成误差项与回归变量相关(内生性)的原 因很多,但我们主要考虑如下几个方面: 遗漏变量偏差 变量有测量误差 双向因果关系。
第六讲工具变量回归
遗漏变量偏差
第六讲工具变量回归
第六讲工具变量回归
变量有测量误差
测量数据正确时:假设方程为:
Yi01Xiui
当存在测量误差时:方程为:
Yi 01Xivi
所以我们有:
第六讲工具变量回归
识别标准: Sargan 统计量 J统计量 C统计量
过度识别检验的 Stata 命令:
estat overid
第六讲工具变量回归
究竟该用 OLS 还是工具变量法
豪斯曼检验 原假设为: H0 :所有解释变量均为外生变量 reg y x1 Байду номын сангаас2 est store ols ivregress 2sls y x1 (x2=z1 z2) est store iv hausman iv ols, sigmamore
lw工资对数s受教育年限age年龄expr工龄tenure在现单位的工作年数iq智商med母亲的受教育年限kww在knowledgeoftheworldofwork测试中的成绩mrt婚姻虚拟变量已婚1rns美国南方虚拟变量住在南方1smsa大城市虚拟变量住在大城市1year有数据的最早年份19661973年中的某一年
Stata简明使用教程

中国经济研究中心 王非
一、Stata 长什么样?
首先,让我们看看 Stata 长什么样。我们以 Stata 9.1(以下简称 Stata)为例。点 击可执行文件“wstata.exe”,即可看到 Stata 的基本界面:
中间黑色背景的区域就是 Stata 的基本显示界面,数据分析的结果一般显示在这 一区域中。在我看来,黑色的背景有助于减缓视觉疲劳。如果你不喜欢这种显示 方式,可以把鼠标放在这一区域中,点击鼠标右键,进而设定自己喜欢的显示方 式。
下面是一个 do 文件的一部分(选自沈艳老师的相关讲义),我们借此看一下 do 文件是个怎样的东西。
3
Stata 简明讲义
中国经济研究中心 王非
第一行是这个 do 文件的名称,do 文件的后缀名是“do”。第二行是这个 do 文件 的作用,即你要通过这份操作计划书做什么事情。这两行不是操作的内容,而是 对操作的注释。在 do 文件中,注释的部分用“/*”和“*/”包裹起来。有编程经 验的人都知道,注释在程序里非常重要。从上面的 do 文件可以看出,注释不仅 出现在开头,而且出现在每一段命令之前。注释虽然不直接参与程序的运行,但 却可以帮助你清晰地规划将要做的事情,也可以帮助你在事后准确地回忆起曾经 做过的事情,还可以帮助他人较快地读懂你的操作计划。一个好的注释必须简洁、 清晰,能用短短几个词就准确地描述你要做的事情。
stata简单讲义第六讲

表示在固定年龄情况下的身高总体均数。 上 述 公 式 称 为 直 线 回 归 方 程 。 其 中 为 回 归 系 数 ( regression coefficient),或称为斜率(slope);称为常数项(constant),或称为
截距(intercept)。回归系数表示 x 变化一个单位 y 平均变化个单位。
明显的离群点,故说明所建回归方程比较理想。
110.0 114.5 112.5 116.5 110.0 114.5 110.0 113.1
117.0 122.0 119.0 119.0 125.5 120.5 122.0 120.6
125.5 122.5 123.5 120.5 123.0 124.0 126.5 124.0
由于男孩的身高与年龄有关系,不同的年龄组的平均身高是不同
x | 1.0000
|
|
y | 0.5994 1.0000
| 0.0182
|
Pearson 相关系数=0.5994,P 值=0.0182<0.05,因此可以认为身高与体
重呈正线性相关。
注意:Pearson 相关系数又称为线性相关系数并且要求 X 和 Y 双正态
分布,通常在检查中要求 X 服从正态分布并且 Y 服从正态分布。
如果不满足双正态分布时,可以计算 Spearman 相关系数又称为非参
数相关系数。
Spearman 相关系数的计算基本思想为:用 X 和 Y 的秩代替它们的原
始数据,然后代入 Pearson 相关系数的计算公式并且检验与 Pearson
相关系数类同。
Stata 实现
spearman x y
Number of obs =
e|
stata上机实验第六讲 离散选择模型(共43张PPT)

左边断尾:truncreg y x1 x2 x3,ll(#) 右边(yòu bian)断尾:truncreg y x1 x2 x3,ul(#) 双边断尾:truncreg y x1 x2 x3,ll(#) ul(#)、
sysuse auto,clear truncreg price weight length gear_ratio, ll(10000) reg price weight length gear_ratio if price>=10000
第四页,共43页。
1。获得个体取值为1的概率。 predict p1,pr list p1 foreign 比照一下结果,判断(pànduàn)有正有误 2。对预测准确率的判断(pànduàn) estat class 结果解读
第五页,共43页。
敏感性〔Sensitivity〕指 Pr(yˆi 1|yi 1) 即真实值取1而预测准确的概率(gàilǜ); 特异性〔Specificity〕是指Pr(y ˆi 0|yi 0) 即真实值取0而预测准确的概率(gàilǜ)。 默认的门限值为0.5。
第二十八页,共43页。
tobit y x1 x2 x3,ll(#) 〔变量<#的被左截断(jié duàn)〕
tobit y x1 x2 x3,ul(#)〔变量>#的被右截断(jié duàn)〕
tobit y x1 x2 x3,ll(#) ul(#)〔l同时定义下限和 上限〕
第二十九页,共43页。
123,情况会发生变化。
第三十二页,共43页。
set seed 12345 gen x3 = uniform() set seed 12345 gen x4 = uniform() list x3 x4 in 1/50
stata第六讲

•
to the respective lag. For example, ar(1.4 .8) indicates that the
•
AR coefficients be 1.4 for lag 1, and .8 for lag 2.
• macoef(numlist) is similar to arcoef(), but specifies the moving average
• 4。产生两个随机游走过程
• sim_arma ar_2, ar(1) nobs(300)
• sim_arma ar_3, ar(1) nobs(300)
• 将文件保存起来
• arcoef(numlist) specifies the autoregressive coefficients corresponding
• 打开模拟文件,对两个随机游走过程建立回归方 程:
• sim_arma ar_2, ar(1) nobs(300) • sim_arma ar_3, ar(1) nobs(300) • reg ar_2 ar_3 • dwstat
单位根检验
• D-F 检验(Dickey-Fuller t-test) • ADF 检验(Augmented Dickey-Fuller test) • DF-GLS检验 (modified Dickey-Fuller) • PP 检验 • KPSS 检验
• varbasic dlinvest dlincome dlconsumption , irf (未正交化)
• 当消费的差分有一个正的冲击,投资的差分是怎 么变化的(右上角)
• 5。平稳性检验
• varstable
• varstable, graph
STATA简明讲义

Stata 简明讲义
中国经济研究中心 王非
方便——导入新数据时,只需改变“use”命令后的文件名即可,而不需改变数 据的路径。3、在菜单栏中选择“File Æ Open”,并选择数据所在的路径;4、点 击图标栏的 ,并选择数据所在的路径。
在前两种方式中,“use”命令后面,往往需要加一个“clear”。打个比方,想炒 一锅新菜,得把原来的一锅菜倒出去;同样,想导入一个新数据,得把原来的数 据清理出 Stata。“clear”就是把原来的数据清理出 Stata 的命令。
Stata 默认的数据文件是后缀名为“dta”的文件。讲义附带的一个数据文件是 “WAGE1.dta”,它可以直接用 Stata 打开。打开的方式无非有以下几种:1、运 行“use”命令加数据的路径和名称。2、像上文中列出的 do 文件那样,先用“cd” 命令进入数据所在的目录,然后用“use”命令直接加数据的名称来导入数据。 当要操作的许多的数据文件都在同一个目录下面时,用这样的方法导入数据比较
围绕着黑色区域,有三个白色背景的框,左边两个,下边一个。左下角的框的标
2
Stata 简明讲义
中国经济研究中心 王非
题 是 “ Variables ”, 这 里 会 显 示 数 据 中 所 有 变 量 的 名 称 。 下 边 的 框 的 标 题 是 “Command”,这里用来输入各种操作命令,命令操作的结果一般会显示在黑色 区域中。左上角的框的标题是“Review”,这里会显示你曾经操作过的所有命令。 在三个框的右上角,均有这样一个小图标: 。点击它会使框隐藏起来,其效果 类似于把 QQ 拖到屏幕的边上;再次点击会恢复原状。而点击右上角另外一个图 标 ,会把相应的框关掉;如果想再次打开,可以点击菜单栏的“Window”,并 选择相应的框。
stata学习资料-第六章

6.1问题:假如我们有一个截面数据,内容是一些病人在一些诊所就诊的记录,比如病人信息和诊所ID。
我们还有一个表,内容是每个诊所对应的地区编号。
我们怎么把表二中的地区编号和表一中的每个诊所联系起来,或者说如何将两张表整合到一起?比较二的方法:用if条件筛选,逐个代换。
P118有介绍核心知识点:merge命令的使用主键一对多情况下的数据整合其中作为主键的clinicid 在表一中并不是唯一确定的观测值不能简单的1:1匹配合并这时就需要用到1:m或m:1use 表一merge m:1 主键using 表二(此处为m:1是因为表一中clinicid有重复)结果为:备注:关于新版和旧版命令的区别:一是语法区别,旧版是merge 主键using 表二, uniqusing. 其中uniqusing是用来确定唯一观测值的,新版省掉了。
二是新版不用先对主键排序才能合并,而旧版命令必须排序。
m:m即表一和表二中主键clinicid都不唯一。
语法为merge m:m 主键using 表二6.2问题:很多数据源提供的数据适用于展示但不适用于分析处理,如何将其转换成我们所需要的形式核心知识点: reshape命令的使用reshape 命令是stata提供的重要的数据管理工具之一。
如果我们想要调整你现有数据的结构,就要熟悉reshape的两个功能:一是变宽,一是变长。
具体讲,可能是把某种数据变成时序数据、或者是把时序数据变成某种数据。
有时候问题比较麻烦,我们需要对数据进行两次reshape,才能调整到我们想要的结果。
举例:将表一变成表二形式表一有四个变量,分别是country,tradeflow, Yr1990, Yr1991.其中tradeflow是作为一个变量主体,分为imports和exports,而1990和1991的贸易流是作为两个并列的变量主体。
我们要把它转成面板数据,分两步。
第一是Yr1990和Yr1991改成时间序列,tradeflow暂时不变。
stata学习资料-第六章

6.1问题:假如我们有一个截面数据,内容是一些病人在一些诊所就诊的记录,比如病人信息和诊所ID。
我们还有一个表,内容是每个诊所对应的地区编号。
我们怎么把表二中的地区编号和表一中的每个诊所联系起来,或者说如何将两张表整合到一起?比较二的方法:用if条件筛选,逐个代换。
P118有介绍核心知识点:merge命令的使用主键一对多情况下的数据整合其中作为主键的clinicid 在表一中并不是唯一确定的观测值不能简单的1:1匹配合并这时就需要用到1:m或m:1use 表一merge m:1 主键using 表二(此处为m:1是因为表一中clinicid有重复)结果为:备注:关于新版和旧版命令的区别:一是语法区别,旧版是merge 主键using 表二, uniqusing. 其中uniqusing是用来确定唯一观测值的,新版省掉了。
二是新版不用先对主键排序才能合并,而旧版命令必须排序。
m:m即表一和表二中主键clinicid都不唯一。
语法为merge m:m 主键using 表二6.2问题:很多数据源提供的数据适用于展示但不适用于分析处理,如何将其转换成我们所需要的形式核心知识点: reshape命令的使用reshape 命令是stata提供的重要的数据管理工具之一。
如果我们想要调整你现有数据的结构,就要熟悉reshape的两个功能:一是变宽,一是变长。
具体讲,可能是把某种数据变成时序数据、或者是把时序数据变成某种数据。
有时候问题比较麻烦,我们需要对数据进行两次reshape,才能调整到我们想要的结果。
举例:将表一变成表二形式表一有四个变量,分别是country,tradeflow, Yr1990, Yr1991.其中tradeflow是作为一个变量主体,分为imports和exports,而1990和1991的贸易流是作为两个并列的变量主体。
我们要把它转成面板数据,分两步。
第一是Yr1990和Yr1991改成时间序列,tradeflow暂时不变。
Stata操作讲义_经济学_高等教育_教育专区

Stata操作讲义第一讲Stata操作入门第一节概况Stata最初由美国计算机资源中心(Computer Resource Center)研制,现在为Stata公司的产品,其最新版本为7.0版。
它操作灵活、简单、易学易用,是一个非常有特色的统计分析软件,现在已越来越受到人们的重视和欢迎,并且和SAS、SPSS一起,被称为新的三大权威统计软件。
Stata最为突出的特点是短小精悍、功能强大,其最新的7.0版整个系统只有10M左右,但已经包含了全部的统计分析、数据管理和绘图等功能,尤其是他的统计分析功能极为全面,比起1G以上大小的SAS系统也毫不逊色。
另外,由于Stata在分析时是将数据全部读入内存,在计算全部完成后才和磁盘交换数据,因此运算速度极快。
由于Stata的用户群始终定位于专业统计分析人员,因此他的操作方式也别具一格,在Windows席卷天下的时代,他一直坚持使用命令行/程序操作方式,拒不推出菜单操作系统。
但是,Stata的命令语句极为简洁明快,而且在统计分析命令的设置上又非常有条理,它将相同类型的统计模型均归在同一个命令族下,而不同命令族又可以使用相同功能的选项,这使得用户学习时极易上手。
更为令人叹服的是,Stata语句在简洁的同时又拥有着极高的灵活性,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。
除了操作方式简洁外,Stata的用户接口在其他方面也做得非常简洁,数据格式简单,分析结果输出简洁明快,易于阅读,这一切都使得Stata成为非常适合于进行统计教学的统计软件。
Stata的另一个特点是他的许多高级统计模块均是编程人员用其宏语言写成的程序文件(ADO文件),这些文件可以自行修改、添加和下载。
用户可随时到Stata网站寻找并下载最新的升级文件。
事实上,Stata的这一特点使得他始终处于统计分析方法发展的最前沿,用户几乎总是能很快找到最新统计算法的Stata程序版本,而这也使得Stata自身成了几大统计软件中升级最多、最频繁的一个。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
线性相关和回归
赵耐青
在实际研究中,经常要考察两个指标之间的关系,即:相关性。
现以体重与身高的关系为例,分析两个变量之间的相关性。
要求身高和体重呈双正态分布,既:在身高和体重平均数的附近的频数较多,远离身高和体重平均数的频数较少。
样本相关系数计算公式(称为Pearson 相关系数):
)
()
()
)((2
2
YY
XX
XY L L L Y Y X X Y Y X X r =
----=
∑
∑
∑
(1)
1. 考察随机模拟相关的情况。
显示两个变量相关的散点图程序simur.ado (本教材配套程序,使用见前言)。
命令为simur 样本量 总体相关系数 如显示样本量为100,ρ=0的散点图 本例命令为simur 100 0
如显示样本量为200,ρ=0.8的散点图本例命令为simur 200 0.8
如显示样本量为200,ρ=0.99的散点图本例命令为simur 200 0.99
如显示样本量为200,ρ=-0.99的散点图
本例命令为simur 200 -0.99
例1. 测得某地15名正常成年男子的身高x(cm)、体重y(kg)如试计算x和y之间的相关系数r并检验H0:ρ=0 vs H1: ρ≠0。
α=0.05
数据格式为
176.0 69.0
175.0 74.0
172.0 68.0
170.0 64.0
173.0 68.5
168.0 56.0
172.0 54.0
170.0 62.0
172.0 63.0
173.0 67.0
168.0 60.0
171.0 68.0
172.0 76.0
173.0 65.0
Stata命令pwcorr 变量1 变量2 …变量m,sig
本例命令pwcorr x y,sig
pwcorr x y,sig
Pearson相关系数=0.5994,P值=0.0182<0.05,因此可以认为身高与体重呈正线性相关。
注意:Pearson相关系数又称为线性相关系数并且要求X和Y双正态分布,通常在检查中要求X服从正态分布并且Y服从正态分布。
如果不满足双正态分布时,可以计算Spearman相关系数又称为非参数相关系数。
Spearman相关系数的计算基本思想为:用X和Y的秩代替它们的原始数据,然后代入Pearson相关系数的计算公式并且检验与Pearson 相关系数类同。
Stata实现
spearman x y
stata计算结果与手算的结果一致。
结论为身高与体重呈正相关,并且有统计学意义。
直线回归
例2 为了研究3岁至8岁男孩身高与年龄的规律,在某地区在3岁至8岁男孩中随机抽样,共分6个年龄层抽样:3岁,4岁,…,8岁,每个层抽10个男孩,共抽60个男孩。
资料如下:
60个男孩的身高资料如下
年龄3岁4岁5岁6岁7岁8岁
身高92.5 96.5 106.0 115.5 125.5 121.5 97.0 101.0 104.0 115.5 117.5 128.5 96.0 105.5 107.0 111.5 118.0 124.0
96.5 102.0 109.5 110.0 117.0 125.5 97.0 105.0 111.0 114.5 122.0 122.5 92.0 99.5 107.5 112.5 119.0 123.5 96.5 102.0 107.0 116.5 119.0 120.5 91.0 100.0 111.5 110.0 125.5 123.0 96.0 106.5 103.0 114.5 120.5 124.0 99.0 100.0 109.0 110.0 122.0 126.5 平均身高
95.4 101.8 107.6 113.1 120.6 124.0
由于男孩的身高与年龄有关系,不同的年龄组的平均身高是不同的,由平均身高与年龄作图可以发现:年龄与平均身高的点在一条直线附近。
考虑到样本均数存在抽样误差,故有理由认为身高的总体均数与年龄的关系可能是一条直线关系x
μαβ=+y
,其中y 表示身高,x 表示
年龄。
由于身高的总体均数与年龄有关,所以更正确地标记应为
x
μαβ=+y|x
表示在固定年龄情况下的身高总体均数。
上述公式称为直线回归方程。
其中β为回归系数(regression coefficient ),或称为斜率(slope );α称为常数项(constant ),或称为
截距(intercept)。
回归系数β表示x变化一个单位y平均变化β个单位。
当x和y都是随机的,x、y间呈正相关时β>0,x、y间呈负相关时β<0,x、y间独立时β=0。
一般情况而言,参数α和β是未知的。
对于本例而言,不同民族和不同地区,α和β往往是不同的,因此需要进行估计的。
由于不同年龄的身高实际观察值应在对应的身高总体均数附近(即:实际观察值与总体均数之间仅存在个体变异的差异),故可以用年龄和实际身高观察值的资料对未知参数α和β进行估计。
得到样本估计的回归方程
ˆy a bx
=+
二、直线回归方程的建立
直线回归分析的Stata实现:
数据结构:
392.5
397
396
396.5
397
392
396.5
391
396
399
496.5
4101
4105.5
4102
4105
499.5
4102
4100
4106.5 4100 5106 5104 5107 5109.5 5111 5107.5 5107 5111.5 5103 5109 6115.5 6115.5 6111.5 6110 6114.5 6112.5 6116.5 6110 6114.5 6110 7125.5 7117.5 7118 7117 7122 7119 7119 7125.5 7120.5 7122 8121.5 8128.5 8124 8125.5 8122.5 8123.5 8120.5 8123 8124 8126.5
多重线性回归命令为
regress 因变量 自变量1 自变量2 ……自变量m 直线回归命令regress 因变量 自变量 本例为 regress y x ,得到下列结果:
得到回归系数b=5.854286,常数项a=78.18746,回归系数的检验统计量t b =27.88,P 值<0.0001,可以认为Y 与X 呈直线回归关系。
来源 平方和SS 自由度df
均方MS F P 值 回归 5997.71571 1 5997.71571 777.41
<0.0001
残差 447.467619 58 7.71495895
合计
6445.18333
59
称2
1SS R
SS =-
残差合计
为决定系数(本例Stata 计算结果R-squared=0.9306),因此
0≤R 2≤1,因此残差平方和SSE 越小,决定系数R 2就越接近1。
特别当所有的残差为0时,SSE=0,相应的决定系数R 2=1。
决定系数R 2表示y 被x 所解释的部分所占的百分比,R 2越接近于1说明x 对y 的解释越充分。
残差=应变量观察值(y )-预测值(ˆy
) Stata 的残差计算命令
在输入回归命令regress y x后,再
输入predict e,residual计算残差并用变量e表示残差
输入sktest e残差的正态性检验
输入predict yy 计算预测值。
残差正态性检验(H0:残差正态分布,α=0.05)
P值=0.5534>>0.05,可以认为残差呈正态分布。
所建立的回归方程是否有意义,仅凭借假设检验的结论或R2的大小还不能充分说明问题。
残差Y
=的大小直接反应回归方程的
-
Y
eˆ
优劣,经常采用图示的方法,以e做纵轴,Yˆ为横轴作图来考察残差的变化,如果残差比较均匀地散布在e=0的周围,没有明显的散布趋势和明显的离群点,则说明所建回归方程比较理想,否则要借助统计软件做进一步诊断。
graph 残差预测值
本例graph e yy
说明残差比较均匀地散布在e=0的周围,没有明显的散布趋势和明显的离群点,故说明所建回归方程比较理想。