stata回归分析完整步骤-吐血推荐

合集下载

Stata软件之回归分析

Stata软件之回归分析

调整的判定系数(Adj R-squared)、F统计量的值、回归方程标准误或均方
根误(Root MSE, ˆ 或 S.E.) 以及其他一些统计量的信息。
上述回归分析的菜单操作实现:Statistics→Linear models and related→
Linear regression→弹出对话框,在Dependent Variable选项框中选择或键
写出样本回归方程为: wagˆe3.58470.3937edu
(0.4589) (0.0488)
即如果受教育年限增加1年,平均来说小时工资会增加0.39元。
三、简单回归分析的Stata软件操作实例
Source
Model Residual
Total
SS
df
MS
1402.97461
1 1402.97461
edu exp
expsq health migrant wage
more
float float float float
%9.0g %9.0g %9.0g %9.0g
float %9.0g float %9.0g
float float float float
%9.0g %9.0g %9.0g %9.0g
= 4.6469
wage
Coef5% Conf. Interval]
edu _cons
.3937442 .0488491 3.584695 .4589088
8.06 0.000 7.81 0.000
.2979069 2.684359
.4895815 4.485031
y 1xu 即假定截距系数 0 0 时,该模型被称为过原点回归;过 原点回归在实际中有一定的应用,但除非有非常明确的理 论分析表明 0 0 ,否则不宜轻易使用过原点回归模型。

stata回归分析完整步骤-吐血推荐12页

stata回归分析完整步骤-吐血推荐12页

stata回归分析完整步骤——吐血推荐****下载连乘函数prod,方法为:findit dm71sort stkcd date //对公司和日期排序gen r1=1+r //r为实际公司的股票收益率gen r2=1+r_yq //r_yq为公司的预期股票收益率egen r3=prod(r1),by(stkcd date) //求每个公司事件日的累计复合收益率egen r4=prod(r2),by(stkcd date) //求每个公司事件日的累计预期的复合收益率gen r=r4-r3capture clear (清空内存中的数据)capture log close (关闭所有打开的日志文件)set mem 128m (设置用于stata使用的内存容量)set more off (关闭more选项。

如果打开该选项,那么结果分屏输出,即一次只输出一屏结果。

你按空格键后再输出下一屏,直到全部输完。

如果关闭则中间不停,一次全部输出。

)set matsize 4000 (设置矩阵的最大阶数。

我用的是不是太大了?)cd D: (进入数据所在的盘符和文件夹。

和dos的命令行很相似。

)log using (文件名).log,replace (打开日志文件,并更新。

日志文件将记录下所有文件运行后给出的结果,如果你修改了文件内容,replace选项可以将其更新为最近运行的结果。

)use (文件名),clear (打开数据文件。

)(文件内容)log close (关闭日志文件。

)exit,clear (退出并清空内存中的数据。

)假设你清楚地知道所需的变量,现在要做的是检查数据、生成必要的数据并形成数据库供将来使用。

检查数据的重要命令包括codebook,su,ta,des和list。

其中,codebook提供的信息最全面,缺点是不能使用if条件限制范围,所以,有时还要用别的帮帮忙。

su空格加变量名报告相应变量的非缺失的观察个数,均值,标准差,最小值和最大值。

金融数据库如何使用STATA做回归分析 ppt课件

金融数据库如何使用STATA做回归分析 ppt课件
– 实验数据:在实验环境中获得 – 非实验数据:对个人、企业或者经济系统中进
行观测得到
• 通常情况下,社会科学使用非实验数据。
金融数据库如何使用STATA做回归 分析
数据类型
• 时间序列:变量由不同时间的观测值构成。如1993年至 2015年股票价格,GDP, CPI,汽车销售量。
• 横截面数据:在某个时点对个人、企业、家庭、国家等个 体采集样本形成的数据。如某时点股票价格、GDP, CPI, 汽车销售量,某年份个人、家庭收入,企业销售额。
– 多元回归,回归分析推断,大样本理论 – 虚拟变量回归 – 异方差,自相关
• 使用STATA做多元回归分析
– 数据导入、描述、画图 – 回归分析、回归诊断
金融数据库如何使用STATA做回归 分析
教材
• 计量经济学
– 伍德里奇,计量经济学导论,人民大学出版社 – Chattefueer & Hadi, Regression Analysis by Sample – Stock & Watson, 计量经济学导论 – Jonhnston: Econometric Methods

金融数据库如何使用STATA做回归 分析
国内常用微观数据5
• 中国家庭动态跟踪调查数据。( Chinese Family Panel Studies, CFPS) 。
– 是北京大学中国社会科学调查中心(ISSS)实施的一项旨在通过跟 踪搜集个体、家庭、社区三个层次的数据,反映中国社会、经济、 人口、教育和健康的变迁。2008年在北京、上海、广东的展开探 索性调查,调查规模为2400户;2009年在北京、上海、广东三地 展开工具性测试跟踪调查,测试CAPI技术、调查进程实时管理技 术、调查进程实时技术支持系统、数据质量实时监控技术的稳定 性和可靠性。2010年在全国(西藏、青海、新疆、宁夏、内蒙古、 海南、香港、澳门、台湾不在其列)正式实施,调查规模为 16000户,每年一次跟踪调查。

stata回归分析完整步骤-吐血推荐

stata回归分析完整步骤-吐血推荐

stata回归分析完整步骤——吐血推荐****下载连乘函数prod,方法为:findit dm71sort stkcd date //对公司和日期排序gen r1=1+r //r为实际公司的股票收益率gen r2=1+r_yq //r_yq为公司的预期股票收益率egen r3=prod(r1),by(stkcd date) //求每个公司事件日的累计复合收益率egen r4=prod(r2),by(stkcd date) //求每个公司事件日的累计预期的复合收益率gen r=r4-r3capture clear (清空内存中的数据)capture log close (关闭所有打开的日志文件)set mem 128m (设置用于stata使用的内存容量)set more off (关闭more选项。

如果打开该选项,那么结果分屏输出,即一次只输出一屏结果。

你按空格键后再输出下一屏,直到全部输完。

如果关闭则中间不停,一次全部输出。

)set matsize 4000 (设置矩阵的最大阶数。

我用的是不是太大了?)cd D: (进入数据所在的盘符和文件夹。

和dos的命令行很相似。

)log using (文件名).log,replace (打开日志文件,并更新。

日志文件将记录下所有文件运行后给出的结果,如果你修改了文件内容,replace选项可以将其更新为最近运行的结果。

)use (文件名),clear (打开数据文件。

)(文件内容)log close (关闭日志文件。

)exit,clear (退出并清空内存中的数据。

)假设你清楚地知道所需的变量,现在要做的是检查数据、生成必要的数据并形成数据库供将来使用。

检查数据的重要命令包括codebook,su,ta,des和list。

其中,codebook提供的信息最全面,缺点是不能使用if条件限制范围,所以,有时还要用别的帮帮忙。

su空格加变量名报告相应变量的非缺失的观察个数,均值,标准差,最小值和最大值。

stata基准回归的步骤说明

stata基准回归的步骤说明

stata基准回归的步骤说明【Stata基准回归的步骤说明】1. 引言Stata是一种功能强大的统计软件,可用于数据分析和建模。

其中,基准回归是一种常用的统计方法,用于评估一个或多个自变量对因变量的影响。

本文将介绍Stata中进行基准回归的步骤。

2. 数据准备在进行基准回归前,首先需要准备好所需的数据集。

可以使用Stata 的数据导入功能,将数据从外部文件导入到Stata环境中。

确保数据的格式正确,缺失值已被处理,并进行必要的数据清洗。

3. 设置工作环境在Stata中,使用do文件来组织分析过程。

在do文件中设置工作环境,指定当前工作目录,并加载所需的命令和工具包。

常用的命令包括"clear"(清除当前工作空间)、"use"(导入数据集)和"sysuse"(使用Stata内置数据集)。

4. 描述性统计在进行基准回归之前,先对数据进行描述性统计。

可以使用Stata的"summarize"命令来计算各个变量的均值、标准差、最小值和最大值等统计指标。

这有助于对数据的整体分布和特征有一个初步了解。

5. 指定回归模型在Stata中,使用"regress"命令进行回归分析。

通过指定因变量和自变量,可以构建回归模型。

使用如下命令:regress Y X1 X2 X3,其中Y是因变量,X1、X2和X3是自变量。

6. 检验回归模型的拟合度在得到回归模型后,需要评估模型的拟合度。

可以使用R方和调整R方来衡量模型对观测数据的拟合程度。

在Stata中,可以通过"estat"命令来获取这些统计量,例如"estat summ"命令获取回归模型的汇总信息。

7. 检验回归系数的显著性在回归分析中,通常需要检验回归系数的显著性。

Stata提供了多种方法来评估回归系数的显著性,包括t检验、F检验和置信区间。

stata时间序列回归步骤命令

stata时间序列回归步骤命令

stata时间序列回归步骤命令1.引言1.1 概述概述部分的内容:时间序列回归是一种经济学和统计学领域中常用的分析方法,用于研究随时间变化的因果关系。

它涉及使用时间上的观测数据来分析自变量和因变量之间的关系,并预测未来的值。

Stata是一种功能强大的统计软件,广泛用于数据分析和经济研究。

在Stata中,有一系列的命令可供使用,用于进行时间序列回归分析。

本文将介绍使用Stata进行时间序列回归分析的步骤和相应的命令。

通过学习这些命令,读者将能够熟练地使用Stata进行时间序列回归分析,并获得准确和可靠的结果。

本文主要包括以下章节内容:1. 引言部分介绍了时间序列回归的概述、文章结构和目的,旨在帮助读者全面了解本文内容。

2. 正文部分将详细介绍时间序列回归的概念和原理,并介绍Stata中的时间序列回归命令。

这些命令包括数据准备、建立模型、模型估计和统计推断等步骤。

3. 结论部分对本文进行总结,并展望时间序列回归在未来的应用前景。

同时,还会指出时间序列回归分析中可能存在的局限性,以及可能的改进方向。

通过本文的学习,读者将了解时间序列回归分析的基本概念和步骤,掌握对时间序列数据进行回归分析的方法和技巧,并能够运用Stata软件进行实际的分析工作。

1.2文章结构文章结构(Article Structure)本文将按照以下结构进行叙述。

第一部分为引言部分,目的是对时间序列回归步骤命令进行一个概述,并说明本文的目的。

接下来,第二部分将详细介绍时间序列回归的概念和一般步骤,并使用stata命令进行说明。

同时,本文还将重点介绍两个关键要点,这些要点对于正确进行时间序列回归分析非常重要。

最后,第三部分为结论,将总结本文的主要内容,并展望一下未来可能的研究方向。

在正文部分,我们将首先概述时间序列回归的基本概念,并提供了一个对该方法的整体认识。

然后,我们将详细介绍stata时间序列回归步骤命令的使用方法,包括数据导入、变量设定、模型拟合和结果解释等。

stata中回归分析常用方法

stata中回归分析常用方法

stata中回归分析常⽤⽅法// 按键盘上的PageUp可以使⽤上⼀次输⼊的代码(Matleb中是上箭头)// 清除所有变量clear// 清屏和 matlab的clc类似cls// 导⼊数据(其实是我们直接在界⾯上粘贴过来的,我们⽤⿏标点界⾯导⼊更⽅便本条请删除后再复制到论⽂中,如果评委⽼师看到了就知道这不是你写的了)// import excel "C:\Users\hc_lzp\Desktop\数学建模视频录制\第7讲.多元回归分析\代码和例题数据\课堂中讲解的奶粉数据.xlsx",sheet("Sheet1") firstrowimport excel "课堂中讲解的奶粉数据.xlsx", sheet("Sheet1") firstrow// 定量变量的描述性统计summarize 团购价元评价量商品⽑重kg// 定性变量的频数分布,并得到相应字母开头的虚拟变量tabulate 配⽅,gen(A)tabulate 奶源产地 ,gen(B)tabulate 国产或进⼝ ,gen(C)tabulate 适⽤年龄岁 ,gen(D)tabulate 包装单位 ,gen(E)tabulate 分类 ,gen(F)tabulate 段位 ,gen(G)// 下⾯进⾏回归regress 评价量团购价元商品⽑重kg// 下⾯的语句可帮助我们把回归结果保存在Word⽂档中// 在使⽤之前需要运⾏下⾯这个代码来安装下这个功能包(运⾏⼀次之后就可以注释掉了)// ssc install reg2docx, all replace// 如果安装出现connection timed out的错误,可以尝试换成⼿机热点联⽹,如果⼿机热点也不能下载,就不⽤这个命令吧,可以⾃⼰做⼀个回归结果表,如果觉得⿇烦就直接把回归结果截图。

est store m1reg2docx m1 using m1.docx, replace// *** p<0.01 ** p<0.05 * p<0.1//regress y x1 x2 ... xk,beta//标准化回归// Stata会⾃动剔除多重共线性的变量regress 评价量团购价元商品⽑重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4 est store m2reg2docx m2 using m2.docx, replace// 得到标准化回归系数regress 评价量团购价元商品⽑重kg, b// 画出残差与拟合值的散点图regress 评价量团购价元商品⽑重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4 rvfplot// 残差与拟合值的散点图graph export a1.png ,replace// 残差与⾃变量团购价的散点图rvpplot 团购价元graph export a2.png ,replace// 为什么评价量的拟合值会出现负数?// 描述性统计并给出分位数对应的数值summarize 评价量,d// 作评价量的概率密度估计图kdensity 评价量graph export a3.png ,replace// 异⽅差BP检验estat hettest ,rhs iid// 异⽅差怀特检验estat imtest,white// 使⽤OLS + 稳健的标准误regress 评价量团购价元商品⽑重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4, r est store m3reg2docx m3 using m3.docx, replace// 计算VIFestat vif// 逐步回归(⼀定要注意完全多重共线性的影响)// 向前逐步回归(后⾯的r表⽰稳健的标准误)stepwise reg 评价量团购价元商品⽑重kg A1 A3 B1 B2 B3 B4 B5 B6 B7 B9 C1 D1 D2 D3 D4 E1 E2 E3 F1 G1 G2 G3, r pe(0.05) // 向后逐步回归(后⾯的r表⽰稳健的标准误)stepwise reg 评价量团购价元商品⽑重kg A1 A3 B1 B2 B3 B4 B5 B6 B7 B9 C1 D1 D2 D3 D4 E1 E2 E3 F1 G1 G2 G3, r pr(0.05) // 向后逐步回归的同时使⽤标准化回归系数(在r后⾯跟上⼀个b即可)stepwise reg 评价量团购价元商品⽑重kg A1 A3 B1 B2 B3 B4 B5 B6 B7 B9 C1 D1 D2 D3 D4 E1 E2 E3 F1 G1 G2 G3, r b pr(0.05) // 补充语法 (⼤家不需要具体的去学Stata软件,掌握我课堂上教给⼤家的⼀些命令应对数学建模⽐赛就可以啦)// 事实上⼤家学好Excel,学好后应对90%的数据预处理问题都能解决// (1) ⽤已知变量⽣成新的变量generate lny = log(评价量)generate price_square = 团购价元 ^2generate interaction_term = 团购价元*商品⽑重kg// (2) 修改变量名称,因为⽤中⽂命名变量名称有时候可能容易出现未知Bugrename 团购价元 price。

stata 分类变量回归

stata 分类变量回归

stata 分类变量回归在Stata中,进行分类变量回归可以通过使用回归分析的命令来实现。

在回归模型中,分类变量通常需要进行虚拟变量编码,也称为哑变量编码,以便将其纳入回归模型中。

以下是在Stata中进行分类变量回归的一般步骤:1. 创建虚拟变量:首先,你需要将分类变量转换为虚拟变量。

在Stata中,你可以使用命令 "tabulate" 来查看分类变量的不同取值,并使用 "tabulate" 命令后面加上 "generate" 选项来生成虚拟变量。

例如,如果你的分类变量是 "group",你可以使用以下命令来生成虚拟变量:tabulate group, generate(group_dummy)。

2. 运行回归分析:一旦生成了虚拟变量,你可以将这些变量与其他自变量一起纳入回归模型中。

使用 "regress" 命令可以进行最小二乘回归分析。

例如,如果你的因变量是 "y",自变量包括连续变量 "x" 和虚拟变量 "group_dummy1" 和 "group_dummy2",你可以使用以下命令进行回归分析:regress y x group_dummy1 group_dummy2。

3. 解释结果,在得到回归结果后,你需要解释虚拟变量的系数。

系数表示了每个虚拟变量对因变量的影响。

通常,虚拟变量的系数表示了该变量相对于参照组的影响。

此外,在Stata中还有其他一些用于处理分类变量的命令,如"xi" 命令用于创建虚拟变量,以及 "tabulate" 命令用于查看分类变量的分布情况。

在进行分类变量回归时,还需要考虑模型的适配性、残差分析等问题,以确保回归模型的有效性和准确性。

总之,通过以上步骤,你可以在Stata中进行分类变量回归分析,并得到相应的回归结果和解释。

5分钟速学stata面板数据回归初学者超实用!

5分钟速学stata面板数据回归初学者超实用!

5分钟速学stata面板数据回归初学者超实用!5 分钟速学 Stata 面板数据回归初学者超实用!在当今的数据分析领域,Stata 软件因其强大的功能和易用性而备受青睐。

对于初学者来说,掌握 Stata 面板数据回归是一项具有挑战性但又十分有用的技能。

在接下来的 5 分钟里,让我们一起快速了解一下Stata 面板数据回归的基础知识和实用技巧。

一、什么是面板数据面板数据(Panel Data)是指在不同时间点上对多个个体进行观测所得到的数据集合。

与横截面数据(只在一个时间点上对多个个体进行观测)和时间序列数据(只对一个个体在不同时间点上进行观测)相比,面板数据结合了两者的特点,能够提供更丰富的信息和更有效的估计。

想象一下,我们要研究不同公司在多年间的销售额变化情况。

如果我们只有某一年各个公司的销售额数据,那就是横截面数据;如果我们只有一家公司多年的销售额数据,那就是时间序列数据;而如果我们有多家公司多年的销售额数据,那这就是面板数据。

二、为什么要使用面板数据回归面板数据回归有许多优点。

首先,它可以控制个体之间未观测到的异质性。

例如,不同公司可能具有不同的管理水平、企业文化等,这些因素很难直接测量,但在面板数据中可以通过个体固定效应或随机效应来控制。

其次,面板数据通常包含更多的信息和变化,有助于提高估计的准确性和效率。

此外,面板数据还可以用于分析动态关系,例如研究过去的投资如何影响当前的产出。

三、Stata 中面板数据的基本命令在 Stata 中,处理面板数据首先要告诉软件数据的结构。

我们使用`xtset` 命令来完成这个任务。

假设我们的数据中,个体变量是`company` ,时间变量是`year` ,那么命令就是:```stataxtset company year```接下来,我们可以进行面板数据回归。

常见的模型有固定效应模型(Fixed Effects Model)和随机效应模型(Random Effects Model)。

第四讲 stata线性回归分析

第四讲 stata线性回归分析
在线性相关关系;二者可能有非线性关系
ii. 当变量间的非线性关系程度较大时,可导致 r =0 iii. 当 r =0 或很小时,不能轻易说二者不相关,而应该结合散点
图做出合理的解释(图 8.1e) (e) 相关系数值受离群点(outliers)影响很大。基于平均的数据会中和个
体之间的差异,并可能夸大相关系数
是否相关 关系是否密切 关系的性质是什么(是正相关还是负相关)
随着x的变化,y值的变化程度就确定二者是否相关和相关的强 度
当x增加(减少)时,y的取值也随之增加(减少),则x和y 之间呈正相关关系;相反,当x增加(减少)时,y的取值却随 之减少(增加),则和之间呈负相关关系
相关分析的方法包括散点图和相关系数
相关系数的计算
. correlate [变量名]


①:. correlate也可写为corr,是生成变量之间相关系数矩阵、
协相关矩阵、回归系数相关矩阵的基本命令;
②:需要生成相关关系的变量名称
如:corr age edu weight height
若要给出相关系数(每个变量的上行)及其假定检验的P 指,使用命令:
这条直线称为回归直线; 该直线方程称为回归方程。
一元线性回归是回归分析中最简单、最基本的回归分析, 描述两个变量之间的关系。
它是根据统计资料,寻求一个变量与另一个变量关系的恰 当数学表达式的经验方程,来近似地表示变量间的平均变 化关系的一种统计分析方法:
其中一个变量作为DV或被解释变量,通常用y表示; 另一个变量IV(预测变量或解释变量)通常用x表示。
度(比如,路程 = 时间 速度);长方形的边长与面积之间的关系,等
2、统计相关
现实事物之间的联系不像函数关系那样容易确定 现象之间存在关联;但无法确定具体关系,不能像函数关

stata回归分析完整步骤-吐血推荐

stata回归分析完整步骤-吐血推荐

stata回归分析完整步骤-吐血推荐tata回归分析完整步骤——吐血推荐egenr3=prod(r1),by(tkcddate)//求每个公司事件日的累计复合收益率egenr4=prod(r2),by(tkcddate)//求每个公司事件日的累计预期的复合收益率genr=r4-r3captureclear(清空内存中的数据)capturelogcloe(关闭所有打开的日志文件)etmem128m(设置用于tata使用的内存容量)etmoreoff(关闭more选项。

如果打开该选项,那么结果分屏输出,即一次只输出一屏结果。

你按空格键后再输出下一屏,直到全部输完。

如果关闭则中间不停,一次全部输出。

)etmatize4000(设置矩阵的最大阶数。

我用的是不是太大了?)cdD:(进入数据所在的盘符和文件夹。

和do的命令行很相似。

)loguing(文件名).log,replace(打开日志文件,并更新。

日志文件将记录下所有文件运行后给出的结果,如果你修改了文件内容,replace选项可以将其更新为最近运行的结果。

)ue(文件名),clear(打开数据文件。

)(文件内容)logcloe(关闭日志文件。

)e某it,clear(退出并清空内存中的数据。

)报告的结果是正在使用的数据库中的所有变量的相应信息。

说起来苍白无力,打开tata亲自实验一下吧。

顺带说点儿题外话。

除了codebook之外,上述统计类的命令都属于r族命令(又称一般命令)。

执行后都可以使用returnlit报告储存在r ()中的统计结果。

最典型的r族命令当属ummarize。

它会把样本量、均值、标准差、方差、最小值、最大值、总和等统计信息储存起来。

你在执行u之后,只需敲入returnlit就可以得到所有这些信息。

其实,和一般命令的return命令类似,估计命令(又称e族命令)也有ereturn命令,具有报告,储存信息的功能。

在更复杂的编程中,比如对回归分解,计算一些程序中无法直接计算的统计量,这些功能更是必不可少。

stata标准化回归

stata标准化回归

stata标准化回归Stata标准化回归。

在Stata中,标准化回归是一种常见的数据分析方法,它可以帮助研究者探索自变量和因变量之间的关系,并消除不同变量之间的量纲影响。

本文将介绍Stata中如何进行标准化回归分析,并解释其在实际研究中的应用。

首先,我们需要明确标准化回归的概念。

标准化回归是指在进行回归分析时,将所有的自变量和因变量都进行标准化处理,使它们的均值为0,标准差为1。

这样做的好处是可以消除变量之间的量纲影响,使得不同变量之间的系数可以进行比较。

在Stata中,我们可以利用“regress”命令进行标准化回归分析。

接下来,我们将通过一个实例来演示如何在Stata中进行标准化回归分析。

假设我们有一个数据集,包括自变量X1、X2和X3,以及因变量Y。

首先,我们需要打开Stata软件并导入数据集,然后输入以下命令进行标准化回归分析:```stata。

regress Y X1 X2 X3。

```。

在执行以上命令后,我们可以得到回归系数的估计值以及相关的统计检验结果。

但这些系数并不能直接用来比较自变量之间的影响,因为它们受到不同变量量纲的影响。

因此,接下来我们需要进行标准化处理。

在Stata中,我们可以使用“stdize”命令对变量进行标准化处理,具体命令如下:```stata。

stdize X1 X2 X3, replace。

```。

执行以上命令后,我们可以得到标准化后的自变量X1、X2和X3。

接着,我们再次执行回归分析命令,但这次是针对标准化后的变量:```stata。

regress Y X1 X2 X3。

```。

通过以上步骤,我们就可以得到标准化回归的结果。

在结果中,我们可以比较各自变量的系数大小,从而判断它们对因变量的影响程度。

此外,我们还可以利用Stata提供的其他命令和图表来进一步分析回归结果,例如残差分析、影响诊断等。

总之,标准化回归是一种非常有用的数据分析方法,它可以帮助研究者更准确地理解变量之间的关系。

stata回归分析

stata回归分析

clear sysuse auto reg mpg weight outreg using d:\temp.txt, replace 3aster bdec(4) tdec(4) nol adjr2 reg mpg dis outreg using d:\temp.txt, append 3aster bdec(4) tdec(4) nol adjr2 reg mpg headroom outreg using d:\temp.txt, append 3aster bdec(4) tdec(4) nol adjr2 reg mpg weight dis headroom outreg using d:\temp.txt, append 3aster bdec(4) tdec(4) nol adjr2 reg mpg weight dis headroom foreign outreg using d:\temp.txt, append 3aster bdec(4) tdec(4) nol adjr2




clear sysuse auto table foreign table foreign, nol sum mpg if foreign==0 sum mpg if foreign==1 tabstat mpg, s(N mean median sd min max ) by(foreign) c(s) reg mpg foreign
y 0 1 x1 2 x2 k xk
~iid N (0, )
2




寻找回归关系 graph box varlist 建立回归方程,进行计算 regress var (independent variable) varlist (dependent variables) 残差及其相关信息 predict, (residual/rsstudent/xb/stdp/cooksd /leverage/) 回归拟合图 tw store, estimate table xml_tab;outreg2;estout;modltbl;mktab; outtex;est2tex

Stata软件之回归分析

Stata软件之回归分析
40 0
0
10
20
30
5
10 years of education Fitted values
15
20
hourly wage
三、简单回归分析的Stata软件操作实例
7、wage对edu的OLS回归,只使用年龄小于或等于30岁的样 本。命令如下: reg wage edu if age<=30 得到以下运行结果,保存该运行结果;
Variable age edu exp expsq wage lnwage Obs 1225 1225 1225 1225 1225 1225 Mean 36.79755 8.992653 21.8049 613.9776 7.1255 1.808352 Std. Dev. 10.67631 2.719068 11.77443 548.3072 4.766828 .5307399 Min 16 0 0 0 1.25 .2231435 Max 60 19 50 2500 37.5 3.624341
计量经济软件应用
——Stata软件实验之一元、 多元回归分析
内容概要
一、实验目的 二、简单回归分析的Stata基本命令 三、简单回归分析的Stata软件操作实例 四、多元回归分析的Stata基本命令 五、多元回归分析的Stata软件操作实例
一、实验目的:
掌握运用Stata软件进行简单回归分析以及 多元回归分析的操作方法和步骤,并能看懂 Stata软件运行结果。
三、简单回归分析的Stata软件操作实例
1、打开数据文件。直接双击“工资方程1.dta”文件;或者点 击Stata窗口工具栏最左侧的Open键,然后选择“工资方程 1.dta”即可;或者先复制Excel表S-2中的数据,再点击Stata 窗口工具栏右起第4个Data Editor键,将数据粘贴到打开的 数据编辑窗口中,然后关闭该数据编辑窗口,点击工具栏左 起第二个Save键保存数据,保存时需要给数据文件命名。 2、给出数据的简要描述。使用describe命令,简写为: des 得到以下运行结果;

stata回归分析完整步骤-吐血推荐-推荐下载

stata回归分析完整步骤-吐血推荐-推荐下载

stata回归分析完整步骤——吐血推荐****下载连乘函数prod,方法为:findit dm71sort stkcd date //对公司和日期排序gen r1=1+r //r为实际公司的股票收益率gen r2=1+r_yq //r_yq为公司的预期股票收益率egen r3=prod(r1),by(stkcd date) //求每个公司事件日的累计复合收益率egen r4=prod(r2),by(stkcd date) //求每个公司事件日的累计预期的复合收益率gen r=r4-r3capture clear (清空内存中的数据)capture log close (关闭所有打开的日志文件)set mem 128m (设置用于stata使用的内存容量)set more off (关闭more选项。

如果打开该选项,那么结果分屏输出,即一次只输出一屏结果。

你按空格键后再输出下一屏,直到全部输完。

如果关闭则中间不停,一次全部输出。

)set matsize 4000 (设置矩阵的最大阶数。

我用的是不是太大了?)cd D: (进入数据所在的盘符和文件夹。

和dos的命令行很相似。

)log using (文件名).log,replace (打开日志文件,并更新。

日志文件将记录下所有文件运行后给出的结果,如果你修改了文件内容,replace选项可以将其更新为最近运行的结果。

)use (文件名),clear (打开数据文件。

)(文件内容)log close (关闭日志文件。

)exit,clear (退出并清空内存中的数据。

)假设你清楚地知道所需的变量,现在要做的是检查数据、生成必要的数据并形成数据库供将来使用。

检查数据的重要命令包括codebook,su,ta,des和list。

其中,codebook提供的信息最全面,缺点是不能使用if条件限制范围,所以,有时还要用别的帮帮忙。

su 空格加变量名报告相应变量的非缺失的观察个数,均值,标准差,最小值和最大值。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

stata回归分析完整步骤——吐血推荐****下载连乘函数prod,方法为:findit dm71sort stkcd date //对公司和日期排序gen r1=1+r //r为实际公司的股票收益率gen r2=1+r_yq //r_yq为公司的预期股票收益率egen r3=prod(r1),by(stkcd date) //求每个公司事件日的累计复合收益率egen r4=prod(r2),by(stkcd date) //求每个公司事件日的累计预期的复合收益率gen r=r4-r3capture clear (清空内存中的数据)capture log close (关闭所有打开的日志文件)set mem 128m (设置用于stata使用的内存容量)set more off (关闭more选项。

如果打开该选项,那么结果分屏输出,即一次只输出一屏结果。

你按空格键后再输出下一屏,直到全部输完。

如果关闭则中间不停,一次全部输出。

)set matsize 4000 (设置矩阵的最大阶数。

我用的是不是太大了?)cd D: (进入数据所在的盘符和文件夹。

和dos的命令行很相似。

)log using (文件名).log,replace (打开日志文件,并更新。

日志文件将记录下所有文件运行后给出的结果,如果你修改了文件内容,replace选项可以将其更新为最近运行的结果。

)use (文件名),clear (打开数据文件。

)(文件内容)log close (关闭日志文件。

)exit,clear (退出并清空内存中的数据。

)假设你清楚地知道所需的变量,现在要做的是检查数据、生成必要的数据并形成数据库供将来使用。

检查数据的重要命令包括codebook,su,ta,des和list。

其中,codebook提供的信息最全面,缺点是不能使用if条件限制范围,所以,有时还要用别的帮帮忙。

su空格加变量名报告相应变量的非缺失的观察个数,均值,标准差,最小值和最大值。

ta空格后面加一个(或两个)变量名是报告某个变量(或两个变量二维)的取值(不含缺失值)的频数,比率和按大小排列的累积比率。

des后面可以加任意个变量名,只要数据中有。

它报告变量的存储的类型,显示的格式和标签。

标签中一般记录这个变量的定义和单位。

list报告变量的观察值,可以用if或in来限制范围。

所有这些命令都可以后面不加任何变量名,报告的结果是正在使用的数据库中的所有变量的相应信息。

说起来苍白无力,打开stata 亲自实验一下吧。

顺带说点儿题外话。

除了codebook之外,上述统计类的命令都属于r族命令(又称一般命令)。

执行后都可以使用return list报告储存在r()中的统计结果。

最典型的r族命令当属summarize。

它会把样本量、均值、标准差、方差、最小值、最大值、总和等统计信息储存起来。

你在执行su之后,只需敲入return list就可以得到所有这些信息。

其实,和一般命令的return命令类似,估计命令(又称e族命令)也有ereturn命令,具有报告,储存信息的功能。

在更复杂的编程中,比如对回归分解,计算一些程序中无法直接计算的统计量,这些功能更是必不可少。

检查数据时,先用codebook看一下它的值域和单位。

如果有-9,-99这样的取值,查一下问卷中对缺失值的记录方法。

确定它们是缺失值后,改为用点记录。

命令是replace (变量名)=. if (变量名)==-9。

再看一下用点记录的缺失值有多少,作为选用变量的一个依据。

得到可用的数据后,我会给没有标签的变量加上注解。

或者统一标签;或者统一变量的命名规则。

更改变量名的命令是ren (原变量名)空格(新变量名)。

定义标签的命令是labe l var (变量名)空格”(标签内容)”。

整齐划一的变量名有助于记忆,简明的标签有助于明确变量的单位等信息。

如果你需要使用通过原始变量派生出的新变量,那么就需要了解gen,egen和replace这三个命令。

gen和replace常常在一起使用。

它们的基本语法是gen (或replace)空格(变量名)=(表达式)。

二者的不同之处在于gen是生成新变量,replace是重新定义旧变量。

虚拟变量是我们常常需要用到的一类派生变量。

如果你需要生成的虚拟变量个数不多,可以有两种方法生成。

一种是简明方法:gen空格(变量名)=((限制条件))[这外面的小括弧是命令需要的,里面的小括弧不是命令需要的,只是说明“限制条件”并非命令]。

如果某个观察满足限制条件,那么它的这个虚拟变量取值为1,否则为0。

另一种要麻烦一点。

就是gen (变量名)=1 if (取值为一限制条件)replace(相同的变量名)=0 if (取值为零的限制条件)两个方法貌似一样,但有一个小小的区别。

如果限制条件中使用的变量都没有任何缺失值,那么两种方法的结果一样。

如果有缺失值,第一种方法会把是缺失值的观察的虚拟变量都定义为0。

而第二种方法可以将虚拟变量的取值分为三种,一是等于1,二是等于0,三是等于缺失值。

这样就避免了把本来信息不明的观察错误地纳入到回归中去。

下次再讲如何方便地生成成百上千个虚拟变量。

大量的虚拟变量往往是根据某个已知变量的取值生成的。

比如,在某个回归中希望控制每个观察所在的社区,即希望控制标记社区的虚拟变量。

社区数目可能有成百上千个,如果用上次的所说的方法生成就需要重复成百上千次,这也太笨了。

大量生成虚拟变量的命令如下;ta (变量名), gen((变量名))第一个括号里的变量名是已知的变量,在上面的例子中是社区编码。

后一个括号里的变量名是新生成的虚拟变量的共同前缀,后面跟数字表示不同的虚拟变量。

如果我在这里填入d,那么,上述命令就会新生成d1,d2,等等,直到所有社区都有一个虚拟变量。

在回归中控制社区变量,只需简单地放入这些变量即可。

一个麻烦是虚拟变量太多,怎么简单地加入呢?一个办法是用省略符号,d*表示所有d字母开头的变量,另一法是用破折号,d1-d150表示第一个到第150个社区虚拟变量(假设共有150个社区)。

还有一种方法可以在回归中直接控制虚拟变量,而无需真的去生成这些虚拟变量。

使用命令areg可以做到,它的语法是areg (被解释变量)(解释变量), absorb(变量名)absorb选项后面的变量名和前面讲的命令中第一个变量名相同。

在上面的例子中即为社区编码。

回归的结果和在reg中直接加入相应的虚拟变量相同。

生成变量的最后一招是egen。

egen和gen都用于生成新变量,但egen的特点是它更强大的函数功能。

gen可以支持一些函数,egen支持额外的函数。

如果用gen搞不定,就得用ege n想办法了。

不过我比较懒,到现在为止只用用取平均、加和这些简单的函数。

有的时候数据情况复杂一些,往往生成所需变量不是非常直接,就需要多几个过程。

曾经碰到原始数据中记录日期有些怪异的格式。

比如,1991年10月23日被记录为19911023。

我想使用它年份和月份,并生成虚拟变量。

下面是我的做法:gen yr=int(date)gen mo=int((data-yr*10000)/100)ta yr, gen( yd)ta mo, gen( md)假设你已经生成了所有需要的变量,现在最重要的就是保存好你的工作。

使用的命令是sav e空格(文件名),replace。

和前面介绍的一样,replace选项将更新你对数据库的修改,所以一定要小心使用。

最好另存一个新的数据库,如果把原始库改了又变不回去,就叫天不应叫地不灵了。

前面说的都是对单个数据库的简单操作,但有时我们需要改变数据的结构,或者抽取来自不同数据库的信息,因此需要更方便的命令。

这一类命令中我用过的有:改变数据的纵横结构的命令reshape,生成退化的数据库collapse,合并数据库的命令append和merge。

纵列(longitudinal)数据通常包括同一个行为者(agent)在不同时期的观察,所以处理这类数据常常需要把数据库从宽表变成长表,或者相反。

所谓宽表是以每个行为者为一个观察,不同时期的变量都记录在这个观察下,例如,行为者是厂商,时期有2000、2001年,变量是雇佣人数和所在城市,假设雇佣人数在不同时期不同,所在城市则不变。

宽表记录的格式是每个厂商是一个观察,没有时期变量,雇佣人数有两个变量,分别记录2000年和20 01年的人数,所在城市只有一个变量。

所谓长表是行为者和时期共同定义观察,在上面的例子中,每个厂商有两个观察,有时期变量,雇佣人数和所在城市都只有一个,它们和时期变量共同定义相应时期的变量取值。

在上面的例子下,把宽表变成长表的命令格式如下:reshape long (雇佣人数的变量名), i((标记厂商的变量名)) j((标记时期的变量名)) 因为所在城市不随时期变化,所以在转换格式时不用放在reshapelong后面,转换前后也不改变什么。

相反地,如果把长表变成宽表则使用如下命令reshape wide (雇佣人数的变量名), i((标记厂商的变量名)) j((标记时期的变量名)) 唯一的区别是long换成了wide。

collapse的用处是计算某个数据库的一些统计量,再把它存为只含有这些统计量的数据库。

用到这个命令的机会不多,我使用它是因为它可以计算中位数和从1到99的百分位数,这些统计量在常规的数据描述命令中没有。

如果要计算中位数,其命令的语法如下collapse (median) ((变量名)), by((变量名))生成的新数据库中记录了第一个括号中的变量(可以是多个变量)的中位数。

右面的by选项是根据某个变量分组计算中位数,没有这个选项则计算全部样本的中位数。

合并数据库有两种方式,一种是增加观察,另一种是增加变量。

第一种用append,用在两个数据库的格式一样,但观察不一样,只需用append空格using空格(文件名)就可以狗尾续貂了。

简单明了,不会有什么错。

另一种就不同了,需要格外小心。

如果两个数据库中包含共同的观察,但是变量不同,希望从一个数据库中提取一些变量到另一个数据库中用m erge。

完整的命令如下:use(文件名)[打开辅助数据库]sort (变量名)[根据变量排序,这个变量是两个数据库共有的识别信息]save (文件名),replace[保存辅助数据库]use(文件名)[打开主数据库]sort (变量名)[对相同的变量排序]merge (变量名) using (文件名), keep((变量名))[第一个变量名即为前面sort后面的变量名,文件名是辅助数据库的名字,后面的变量名是希望提取的变量名]ta_merge[显示_merge的取值情况。

相关文档
最新文档