stata课堂笔记

合集下载

stata学习笔记

stata学习笔记

经济数据的特点与类型。

1、横截面数据:多个经济个体的变量在同一时间点上的取值,如2012年中国各省的GDP2、时间数列数据:指的是某个经济个体的变量在不同时点上的取值,如1978-2012年山东省每年的GDP3、面板数据:多个经济个体的变量在不同时点上的取值,如1978-2012年中国各省的GDP 小样本OLS(最小二乘法):单一方程线性回归最常见方法条件:解释变量与扰动项正交、扰动项无自相关、同方差。

拟合优度:衡量线性回归模型对样本数据的拟合程度(R2),越高说明模型拟合程度越好。

单系数T检验:对回归方程扰动项的具体概率进行假设显著性水平进行检验F检验:整个回归方程是否显著STATA操作简介:如果数据中包含1949-10-01或1949/10/01的时间变量,导入stata后可能会被视为字符串,因此对于日度数据,可以使用命令gen newvar=date(varname,YMD),将其转换为整数日期变量,其中YMD说明原始数据的格式为年月日,如果原始数据的格式为月日年则使用MDY;对于月度数据则gen newvar=monthly(varname,YM)。

.describe:数据的概貌.drop keep:删除和保留.su:统计特征Pwcorr:变量之间相关系数Star(.05):5%显著性水平gen:产生g intc=log(tc):取自然对数. reg:OLS回归.Vce:协方差矩阵reg。

,noc表示在进行回归时不要常数项大样本OLS:只要求解释变量与同期的扰动项正交即可Robust:稳健标准误,如果存在异方差,则应使用稳健标准误最大似然估计法:如果回归方程存在非线性,则使用最大似然估计法(MLE )或非线性最小二乘法(NLS )三类在大样本下渐进等价的统计检验:Wald test LR (似然比检验) LM操作步骤如下:sysuse auto (调用数据集)Hist mpg ,normal (画变量mpg 的直方图,并与正态密度比较)D e n s i t y直方图显示,变量mpg 的分布于正态分布有一定差距。

stata学习笔记

stata学习笔记

经济数据的特点与类型。

1、横截面数据:多个经济个体的变量在同一时间点上的取值,如2012年中国各省的GDP2、时间数列数据:指的是某个经济个体的变量在不同时点上的取值,如1978-2012年山东省每年的GDP3、面板数据:多个经济个体的变量在不同时点上的取值,如1978-2012年中国各省的GDP 小样本OLS(最小二乘法):单一方程线性回归最常见方法条件:解释变量与扰动项正交、扰动项无自相关、同方差。

拟合优度:衡量线性回归模型对样本数据的拟合程度(R2),越高说明模型拟合程度越好。

单系数T检验:对回归方程扰动项的具体概率进行假设显著性水平进行检验F检验:整个回归方程是否显著STATA操作简介:如果数据中包含1949-10-01或1949/10/01的时间变量,导入stata后可能会被视为字符串,因此对于日度数据,可以使用命令gen newvar=date(varname,YMD),将其转换为整数日期变量,其中YMD说明原始数据的格式为年月日,如果原始数据的格式为月日年则使用MDY;对于月度数据则gen newvar=monthly(varname,YM)。

.describe:数据的概貌.drop keep:删除和保留.su:统计特征Pwcorr:变量之间相关系数Star(.05):5%显著性水平gen:产生g intc=log(tc):取自然对数. reg:OLS回归.Vce:协方差矩阵reg。

,noc表示在进行回归时不要常数项大样本OLS:只要求解释变量与同期的扰动项正交即可Robust:稳健标准误,如果存在异方差,则应使用稳健标准误最大似然估计法:如果回归方程存在非线性,则使用最大似然估计法(MLE )或非线性最小二乘法(NLS )三类在大样本下渐进等价的统计检验:Wald test LR (似然比检验) LM操作步骤如下:sysuse auto (调用数据集)Hist mpg ,normal (画变量mpg 的直方图,并与正态密度比较)D e n s i t y直方图显示,变量mpg 的分布于正态分布有一定差距。

(完整版)Stata学习笔记和国贸理论总结

(完整版)Stata学习笔记和国贸理论总结

Stata学习笔记一、认识数据(一)向stata中导入txt、csv格式的数据1.这两种数据可以用文本文档打开,新建记事本,然后将相应文档拖入记事本即可打开数据,复制2.按下stata中的edit按钮,右键选择paste special3.*.xls/*.xlsx数据仅能用Excel打开,不可用记事本打开,打开后会出现乱码,也不要保存,否则就恢复不了。

逗号分隔的数据常为csv数据。

(二)网页数据网页上的表格只要能选中的,都能复制到excel中;网页数据的下载可以通过百度“国家数据”进行搜索、下载二、Do-file 和log文件打开stata后,第一步就要do-file,记录步骤和历史记录,方便日后查看。

Stata处理中保留的三种文件:原始数据(*.dta),记录处理步骤(*.do),以及处理的历史记录(*.smcl)。

三、导入StataStata不识别带有中文的变量,如果导入的数据第一行有中文就没法导入。

但是对于列来说不会出现这个问题,不分析即可(Stata不分析字符串,红色文本显示;被分析的数据,黑色显示);第一行是英文变量名,选择“Treat first row as variable names”在导入新数据的时候,需要清空原有数据,clear命令。

导入空格分隔数据:复制——Stata中选择edit按钮或输入相应命令——右键选择paste special——并选择,确定;导入Excel中数据,复制粘贴即可;逗号分隔数据,选择paste special后点击comma,然后确定。

Stata数据格式为*.dta,导入后统一使用此格式。

四、基本操作(几个命令)(一)use auto,clear 。

在清空原有数据的同时,导入新的auto数据。

(二)browse 。

浏览数据。

(三)describe 和list。

查看数据,describe 和list 使用list命令能使我们根据自己的需要选择数据(例如其与in/if语句的结合使用)。

stata学习笔记培训资料

stata学习笔记培训资料

第2 章给水排水工程结构主页章2 第目录混凝土结构设计方法上一章)Design Method of Concrete Structure(下一章助帮第2 章给水排水工程结构本章重点主页?了解结构上的作用、作用效应和结构抗力目录的概念及其随机特性;——了解混凝土结构设计方法的理论基础?上一章可靠度理论;下一章概率极限状?掌握我国规范的设计方法——态设计法。

助帮第2 章给水排水工程结构基本概念2.1§2.1.1 结构上的作用(action)页主1.定义:凡能使结构产生内力、应力、位移、应变、目录2.裂缝的因素,都称为结构上的作用。

上一章分类:2.?直接作用:荷载(集中荷载与分布荷载);下一章?间接作用:温度、收缩、徐变、地基不均匀沉降、助地震等。

.第2 章给水排水工程结构2.1.2 作用效应(action effect)[S]主页定义:作用在结构上产生的反应,如内力、应力、位移、应变、裂缝等,称为作用效应。

目录上一章2.1.3 结构抗力(structural resistance)[R]下一章结构抵抗作用效应的能力,称为结构抗力。

定义:助帮第2 章给水排水工程结构§2.2荷载load2.2.1 荷载分类页主永久荷载(恒载):大小、方向、作用点不随时间改变的荷载为永久荷载,如自重、土压dead load)(目录力、预应力等;可变荷载(活载):大小、方向或作用点随时间改变而上一章(live load)变化的荷载为可变荷载,如楼面和屋面活载、风荷载、雪荷载、下一章吊车荷载、车辆荷载等;偶然荷载:结构使用期间可能不出现,一旦出现,其作助用时间短、效应大的荷载为偶然荷载,如炸力,撞击等。

.第2 章给水排水工程结构2.2.2 荷载代表值(representative values of load)1. 标准值——由设计基准期内最大荷载概率分布的某主页一分位值确定的荷载值,是永久荷载的()characteristic value唯一代表值。

stata学习笔记(stata学习笔记)

stata学习笔记(stata学习笔记)

stata学习笔记(stata学习笔记)data managementCreate a new dataEdit / / variables in the data table and the creation of open dataInput x1 x2......Set OBS 10Gen x1=_nGen, x2=seq ()Egen, x3=seq (), B (5) t (5)Egen x4=fill (3434)Rename X1 pop / / variable VAR1 renamed popRename x2 placeMax C= (1,0.8\0.8,1)Drawnorm, x1, X2, means (1,10), SDS (0.3,2), corr (C), n (500)Gen x1=invnormal (uniform ())Gen roll=1+trunc (uniform () *6) randomly generates 1-6 randomnumbersGen x=exp (uniform ())Gen x=-3ln (uniform ())Gen x= (invnorm (uniform ())) ^2 chi square distributionGen, x=invttail (DF, uniform ()) t distributionGen, x=invFtail (DF1, df2, uniform ()) F distributionSample 10, countLabel variable pop population in 1000s, 1995 "/ / add tags for the variable popLabel define, sex_label 1, "male", 2 "female""Label values sex sex_label / / add value labels for the variable sexSave AAA / / keep the aaa.dta fileSave, replaceMerge dataUse a.datAppend using B.datUse a.datSort placeSave, replaceUse B.datSort placeMerge place using a.datReshape, long, grow, I (ID), J (year)Reshppe, wide, grow, I (ID), J (year)ClearCD f:\ statistics \stataUse AAASort pop / / as the pop variable orderingOrder place pop place pop / / variables were placed in the first, second positionDescrible / / description variable informationList / / show variable and variable valuesList, Sep (3) is shown separately in each of the 3 linesList, sepby (VaR) is shown as bounded by the VaR variableSummarize X / / display basic information variables, can add "d" to display detailed informationBy, VAR1, var2, sort:su, X (by can be used for Su, CI, centile, etc.)Tabstat, x, stats (mean, median, SD,, VaR, skewness, kurtosis, IQR, CV, semean, P2, etc)Collapse (sum), VAR1, var2 (SD), var3 (mean), newvar1=var4 (median), newvar2=var5A subset of variables (used by if and in)List, pop, place, sex, in, 1/50Sort popList pop place in -4/1 / / four observation shows that the value of pop maximumSummarize if pop<1000Summarize if place = = "China""Summarize, pop, place, sex, if, pop>100 & pop<1000Summarize place sex if pop<100 pop>1000 |Summarize place if pop<. / / the missing value is bigger than any numericalDrop, pop, if, place==, "China""KeepCreate and replace variables1, use, canada1, clearGenerate gap=flife-mlife"Label variable gap" "flife-mlife gap life""Format gap%4.1f / / fixed width of 4 decimal 1Other%4.1g (width 4, decimal part at least 1, can be displayed by decimal or scientific notation),%4.1eFormat only changes the display and does not affect the calculationUse, canada1, clearGenerate type=1Replace, type=2, if, place==, "Canada""Replace, type=3, if, place==, "Yukou""operator+ * / ^ mod (x, y)Use function(ABS)ACOS () //di ACOS (0.5) *180/_piSin, cos, asin, atan, atan2 () y/x's tangent functionSqrt, log (), ==ln (), log10, expThe smallest integer of ceil (x) >xThe maximum integer of floor (x) <xRound (x) four into fiveComb () lnfactorial ()distribution functionProbability of Ttail (DF, t) t>t0.05 (Dan Ce)Invttail (DF, P) calculates the T value based on the probability, and P is the right probabilityF (DF1, df2, f) left probability invF (N1, N2, P)Ftail (DF1, df2, f) the right probability invFtail (N1, N2, P)Chi2 (DF, x) left probabilityChi2tail (DF, x) right probabilityBinomial (n, x, P), n trials, x times and smaller probability1-binomial (n, X-1, P)Normal (z) standard normal distribution, left, cumulative probabilityDate function(1) assume that the numeric variable a is 20100312Gen str str_a=string (a,%10.0f) / / a conversion to character variableGene _ to date = DATE ("STR _, Ymd") / / 转换str _ a为日期变量, 返回值为当前日期 - 1960年1月1日的数值FORMAT DATE _% TD / / 转换date _ a的格式为日期12may2010假设有数值变量a格式为20100312101205STR str Gene _ = String ("% 16.0f")To _ = Clock Gene Double Date (STR _, "ymdhms")_% TC to date format假设有三个数值变量m、d、y分别表示月、日、年Gene _ date to mdy = (m, d)EgenEgen = seq (x t), B (3) (2) 111222111222Egen fill (x = 100,98) 100 98 94 96X = (0,2,7,0,2,7 egne fill)Rowmean egen x = (x1, X2, x3) 产生新变量, 其值为x1x2x3各行的均值Rowsum egen x = (x1, X2, x3) 产生新变量, 其值为x1x2x3各行的和Egen = STD X (a)Num 1: 15 for STD / egen xx = (AX)Xrank egen = RANK (X)10、其他函数Recode Group encodeX1 = recode gene (AGE, 24,28,32, ~) / / < < = 24 = 28Egen Group (x2 = x1)Strvar Gene ENCODE, 将字符变量转为数值变量 (numvar)Decode numvar, Gene (strvar)创建新的分类变量和定序变量假设有分类变量 (byte) type (1 - 3)Tab typeTab type, Gene (type) / / 产生type1 - 3三个哑变量2、将数值变量X1 = recode gene (AGE, 24,28,32, ~) / / 以 < < = 24 = 28~分组Egen Group (x2 = x1)变量下标Di x [4]Gene _ = X - X [N - 1] / / x与其前一个数值的差B gene _ = X - X [n + 1]从外部ascii文件导入数据以空格分隔, 字符串需带引号Str30 INFILE Place ulife tlife using aaa.raw / / 产生三个变量, place为30长度的字符变量COMPRESS / / 压缩place变量为最长的字符以tab或 "," 分隔Insheet Place ulife tlife using aaa.raw, comma (or tab).固定栏宽Infix Wood Year 1 - 4 5 - 8 9 - 10 aaa.raw using Water绘图Hist X, Bin (10) xlabel (0 (2) 10) ylabel (100 1000 xtick (100) (1) (2) 11) Norm fractionHist Start (50 x width (5) (FREQ by Group, total)Graph TwoWay Scatter and | | X Line and | | lfit X and X, mlabel (ID) msymbol (o / X)Graph TwoWay Scatter and x | | lfitci, STDFGraph Matrix X and ZGraph TwoWay line and year XGraph TwoWay line and yaxis (1 year) | yaxis | x Year (2)Graph TwoWay area and year XGraph box x and Z over (Group) yline (6.35).Graph pie x and Z, by (Group) foot (3, explode)Graph BAR (Mean) of X and Z, over (Group)Grapg DOT (median) x1 x2, over (Group) Marker (1, msymbol (OH) (2) Marker, msymbol (X))X Qnorm, GridPnorm X, Grid交叉表Tab B, SUM (X) meanTab B, All tabi B \ C D, All tab b] [FW = count, AllA B C 分布绘制abc的一维表 tab1A B C 建立所有可能的二维表 Tab2Sort by: a B C, Tab, All 以c的不同取值分别绘制a b的二维表Table Row col (col1, by 绘制多维表 row1)Sktest x swilk sfrancia正态性检验及数据变换Sktest x swilk sfrancia立方严重负偏态平方轻度负偏态平方根轻度正偏态对数正偏态平方根负倒数严重正偏态倒数非常严重正偏态平方倒数同上立方倒数同上X / / 产生以上8种变换后的正态性检验 LadderGladder X / / 针对ladder结果绘制直方图Bcskews newx = X / / 产生新变量newx, 是对x的变换方差齐性检验Sdtest X1 = x2Sdtest X1, by (Group)Robvar X, by levene检验, 返回值 (Group)W0: 均数 W50: 中位数 W10: 后的均数 trim10%方差分析单个样本TTEST (x = 10 signtest x = 10 二项分布ttest x1 = x2 signrank x1 = x2 wilcoxon符号检验ttest x city (group) ranksum x city (group) wilcoxon检验ttest x1 = x2, unpaired unequalbitest x = = pbitesti n c p单因素方差分析oneway x group, tabluate scheffe bonferroni sidak kwallis x city (group)多因素方差分析anova x a # # btest 1 (a = (test 2 (b = 3. bbonferonni: r (p) * c c: 比较次数, 组数x (组数 - 1) / 2scheffe: 1 - f (组数 - 1, 误差自由度, r (f) / (组数 - 1))regresspredict newvar 预测值predict newvar, stdp 预测值标准误anova x a b | aanova x a / id | a b a # banova x a b c.age相关分析 (town was:)cor x ypwcorr x y, bonferrior / sidakspearman x y, bonferrior / sidakpcorr y x1 - x3 去除其他x的影响后y与x的偏相关系数回归分析基本方法reg y x1 x2 x3, beta uncons预测值predict newvar, cooksd hat covratio dfits residuals rstudent rstandard stdp stdfhat > 2p / n 发现高杠杆值dfits > 2sqrt (p / n) 案例的自变量组合对回归直线的影响力cooksd > 4 / n 同上welsch > 3sqrt (p) 同上covratio: | r - 1 | > = 3p / nrvfplot, yline (0)假设检验reg x * ytest x1 x2 x1 和x2回归系数同时为0test x1 = x2虚拟变量loss region gene (reg) / / 产生reg1 - 4四个哑变量reg cmat reg2 / / reg2与其他3个地区的比较reg cmat reg1 reg2 reg3 reg4 = = xi: reg cmat i.region 此方法便于做交互分析char region [omit] 4 (与xi共同使用)xi: reg camt i.region逐步回归sw reg y x1 - x4, per (. 06) pe (0.05)sw reg y x1 x2 (x3, x4) lockterm1 per (. 06)面板数据iis regionten yearxtreg y x1 x2, rextmixed y 固定变量 | | school: 随机变量回归诊断estate ic 返回aic bic ll (null) ll (model) 值 (log likelihood 对数似然值)quietly reg y x1 - 85estimates of large fullquietly reg y x1 - x4lrtest fullovtest p < 0.05提示有二次、三次或四次方项目需要添加hettest p < 0.05提示方差不齐, 误差散点图不是随机分布的dwstat 一价自相关的durbin - watson检验kic 自变量共线性检查kic > 10 平均vif > 1 有问题宽容度 (vif的倒数) 表示该变量独立程度, 越大则越独立rvfplot 预测值与残差值的散点图rvpplot x 某一个自变量x与残差的散点图avplot x 去除其他变量影响后的x与y的线性关系, x轴上偏离的数值多为高杠杆值avplotsacprplot x, lowess 虚线在中间部分与直线不重和表示可能x与y 存在其他非线性关系,另外可以报告与x具有线性关系的其他自变量lvr2plot 注意拟合不好且具有较高杠杆作用的值可能是高杠杆值hat 较大值提示高杠杆值dfits cooksd covratio 提示对y影响较大的值logistic回归logit y x * logit y x *, orblogit n x * ylrocroctab y x, graphroccomp y x1 x2 比较y与x1的roc曲线和y与x2的是否相同rocgold y x x1 x2 比较y与x (金标准) 的roc曲线和y与x1的是否相同lsens, genprob (prob) gensens (sen) genspec (spec)lstatlfit, group (10) est gof, group (10)predict the phat, hat deviance ddeviance dbet dx2 dbetaclogit y x *, group (matchvar)ologit x * ymlogit y x *, b (1) mlogit y x *, rrrconstraint define 1 [3] x = 2 [2] xconstranit define 2 [4] x = 3 [2] xmlogit y x, c (1, 2) b (1)多元方差分析hotelling x *hotelling x *, city (group)manova x1 x2 x3 = g b g * b广义线性模型gaec y x1 x2家庭(高斯)链接(身份)* /正态分布线性回归GLM y x1 x2,家庭(二项式)链接(Logit)* /物流回归GLM y x1 x2,家庭(Poisson)链接(日志)lnoffset(暴露人年变量)泊松y x1 x2,曝光(暴露人年变量)poisgof [皮尔森]GLM y x1 x2,家庭(nbinomial)链接(日志)nbreg y x1 x2gnbreg y x1 x2,lnalpha(VAR)预测主成份分析PCA X点状图因子分析X因子*,PCF矿(0.5)主成份法X因子*,ML矿(0.5)最大似然法X因子*,IPF /迭代主因子法旋转方差极大旋转旋转,旋转斜交法生存分析认识时间,失败(结果)stsum,由(治疗)后缀树,由rmean(处理)STS列表,由(治疗)以损失为例的STS图STS图,通过gwood(治疗)STS测试组streg治疗组,诺尔公司(指数/ Weibull)预测new_var = = 1如果治疗,监测stcox治疗组,诺尔考克斯结果治疗组,死亡(结果)诺尔申银万国考克斯结果治疗组,死亡(结果)诺尔流行病队列研究IR案例的曝光时间(人年数)硝酸铵CS案例曝光[或数]CSI(A组)可使用结核病和精确(默认)计算RR可信区间,不能使用伍尔夫病例对照研究cc案例由(组)公开甲丙氨酯MCC的病例对照选择A B C D可使用精确(默认)、伍尔夫、麦田计算RR可信区间tabodds模型不如用物流、考克斯比例风险模型。

Stata学习笔记

Stata学习笔记

Stata学习笔记以下命令均采用小写字母Chapter 1 stata入门1.1打开数据use "D:\Stata9\auto.dta", clear 用use命令打开数据sysuse auto,clear auto 为系统数据sysuse为打开系统数据的命令1.2获取帮助Help summarize summarize为需要获取帮助对象可以改为其他的需要帮助的对象Findit summarize,net 寻找网络帮助summarize为需要获取帮助对象Search summarize ,net 寻找网络帮助summarize为需要获取帮助对象显示结果Display 5+91.3描述统计(summarize 可简写成sum)Use atuo,clearSummarize price 描述price的观察值个数、平均值、标准差、最小值、最大值Sum weight summarize可简写成sum Sum weight price 同时完成上面两步1.4绘图Scatter price weight scatter 为绘制散点图命令Line price weight ,sort line 为绘制折线图命令,sort为排序,绘制折线图前需要先排序1.5生成新的数据(generate 可简写成gen)ClearSet obs 1000 设置观测值的组数Gen x=_n _n 为观察值得序号Gen y=x+1001.6控制结果输出显示List n1.7设置屏幕滚动Set more off 先设置此项则显示时,屏幕不停止Set more on 先设置此项则显示时,会使显示停止1.8清除内存中原有内容clear1.9设置文件存取路径(cd)Cd d:\stata d:\stata为路径1.10如果想知道当前路径下有哪些文件,可以用dir 命令来列示.dir1.11假设你想在D 盘的根目录下创建一个新的文件夹mydata 来存放数据文件,命令为mkdir。

stata统计分析与应用笔记汇总

stata统计分析与应用笔记汇总

第一章:Stata概述:help和search都是查找文件的命令但help用于查找精确的命令,search是模糊查找。

还可使用help|contents 来分类查找第二章:数据管理:2.1变量和变量的取值:1.变量的命名:不能以数字开头,区分大小写,不能命名为系统变量名2.变量的取值类型:(1)字符型:字符变量存储格式是str⋕,str表示格式⋕表示该变量的存储最多可容纳的字符数(2)数值型数据:存储格式:byte.int.long.float.double.Stata默认将数字存储为浮点数据,而将计算结果存为双浮点数据。

(3)缺失数据:一般仅用“.”表示3.变量的显示:(1)数值变量的显示格式:a.普通格式有%w.dg, %w.dgc(g表示普通,w表示整个显示所占的字符数,d表示显示的数字中小数点后的位数,c是要求Stata给出带逗号“,”数字显示格式如12345显示为12,345)b.固定格式有%w.df, %w.dfc(f表示固定)c.科学指数法格式:%w.de, (e表示科学计数)(2)字符变量的显示格式:仅有一种%⋕s,%是提示符,#表示显示字符数,s表示字符变量显示格式,默认右对齐,后加“-”可改为左对齐。

(3)使用format命令变量显示格式:format varlist %fmt 或者 format %fmt varlist 4.变量的标签(1)添加数据集的标签使用: label data [“lable”](2)添加变量的标签使用:label variable varname [“lable”](3)label为变量数值添加标签的语法有两部分,先定义数值标签:label define lblname#“lable” [#“lable”](lblname是标签名称) 然后将定义好的数值标签添加到变量上:label values varlist [lblnamel.]2.2创建一个新的数据集1.关于数据集操作的基本命令(1)browse 和edit 命令:browse 用于打开数据浏览器,edit命令用于打开数据编辑器Edit [varlist] [if] [in]browse [varlist] [if] [in](if和in 用于选择需要的子集)(2)rename:rename old_varname new_varname(3)save命令:save [filename] [,save_options]([,save_options]可以指nolabel(不保存设定标签),replace(允许新文件覆盖原文件),all主要用于编程(4)describe:用于产生一个对数据集的简明总结格式:describe [varlist] [,memory_options](命令选项:simple,short,detail,fullnames)(5)list:用于显示变量的数值,其后可以跟需要显示的变量名称语法:list [varlist] [if] [in] [,options](命令选项包括:noobs(不显示观测值的数值),clean,separator,sepby,nolabel)(6)codebook:用于详尽地描述变量的内容,包括变量名称、标签、赋值。

Stata学习笔记之令狐文艳创作

Stata学习笔记之令狐文艳创作

以下命令均采用小写字母令狐文艳Chapter 1 stata入门1.1打开数据use "D:\Stata9\auto.dta", clear 用use命令打开数据sysuse auto,clear auto 为系统数据 sysuse为打开系统数据的命令1.2获取帮助Help summarize summarize为需要获取帮助对象可以改为其他的需要帮助的对象Findit summarize,net寻找网络帮助 summarize为需要获取帮助对象Search summarize ,net 寻找网络帮助 summarize为需要获取帮助对象显示结果Display 5+91.3描述统计(summarize 可简写成sum)Use atuo,clearSummarize price 描述price的观察值个数、平均值、标准差、最小值、最大值Sum weight summarize可简写成sumSum weight price 同时完成上面两步1.4绘图Scatter price weight scatter 为绘制散点图命令Line price weight ,sort line 为绘制折线图命令,sort为排序,绘制折线图前需要先排序1.5生成新的数据(generate 可简写成gen)ClearSet obs 1000 设置观测值的组数Gen x=_n _n 为观察值得序号Gen y=x+1001.6控制结果输出显示List n1.7设置屏幕滚动Set more off 先设置此项则显示时,屏幕不停止Set more on 先设置此项则显示时,会使显示停止1.8清除内存中原有内容clear1.9设置文件存取路径(cd)Cd d:\stata d:\stata为路径1.10如果想知道当前路径下有哪些文件,可以用dir 命令来列示.dir1.11假设你想在D 盘的根目录下创建一个新的文件夹mydata来存放数据文件,命令为mkdir。

Stata学习笔记

Stata学习笔记

Stata学习笔记1、横截⾯数据:多个经济个体的变量在同⼀时间点上的取值,如2012年中国各省的GDP2、时间数列数据:指的是某个经济个体的变量在不同时点上的取值,如1978-2012年⼭东省每年的GDP3、⾯板数据:多个经济个体的变量在不同时点上的取值,如1978-2012年中国各省的GDP⼩样本OLS(最⼩⼆乘法):单⼀⽅程线性回归最常见⽅法条件:解释变量与扰动项正交、扰动项⽆⾃相关、同⽅差。

拟合优度:衡量线性回归模型对样本数据的拟合程度(R2),越⾼说明模型拟合程度越好。

单系数T检验:对回归⽅程扰动项的具体概率进⾏假设显著性⽔平进⾏检验F检验:整个回归⽅程是否显著STATA操作简介:如果数据中包含1949-10-01或1949/10/01的时间变量,导⼊stata后可能会被视为字符串,因此对于⽇度数据,可以使⽤命令gen newvar=date(varname,YMD),将其转换为整数⽇期变量,其中YMD说明原始数据的格式为年⽉⽇,如果原始数据的格式为⽉⽇年则使⽤MDY;对于⽉度数据则gen newvar=monthly(varname,YM)。

.describe:数据的概貌 .drop keep:删除和保留.su:统计特征 Pwcorr:变量之间相关系数Star(.05):5%显著性⽔平 gen:产⽣g intc=log(tc):取⾃然对数. reg:OLS回归.Vce:协⽅差矩阵 reg。

,noc表⽰在进⾏回归时不要常数项⼤样本OLS:只要求解释变量与同期的扰动项正交即可Robust:稳健标准误,如果存在异⽅差,则应使⽤稳健标准误最⼤似然估计法:如果回归⽅程存在⾮线性,则使⽤最⼤似然估计法(MLE)或⾮线性最⼩⼆乘法(NLS)三类在⼤样本下渐进等价的统计检验:Wald test LR(似然⽐检验) LM操作步骤如下:sysuse auto(调⽤数据集)Hist mpg,normal(画变量mpg的直⽅图,并与正态密度⽐较)直⽅图显⽰,变量mpg的分布于正态分布有⼀定差距。

Stata学习笔记

Stata学习笔记

Stata学习笔记以下命令均采用小写字母Chapter 1 stata入门1.1打开数据use "D:\Stata9\auto.dta", clear 用use命令打开数据sysuse auto,clear auto 为系统数据sysuse为打开系统数据的命令1.2获取帮助Help summarize summarize为需要获取帮助对象可以改为其他的需要帮助的对象Findit summarize,net寻找网络帮助summarize为需要获取帮助对象Search summarize ,net 寻找网络帮助summarize为需要获取帮助对象显示结果Display 5+91.3描述统计(summarize 可简写成sum)Use atuo,clearSummarize price 描述price的观察值个数、平均值、标准差、最小值、最大值Sum weight summarize可简写成sum Sum weight price 同时完成上面两步1.4绘图Scatter price weight scatter 为绘制散点图命令Line price weight ,sort line 为绘制折线图命令,sort为排序,绘制折线图前需要先排序1.5生成新的数据(generate 可简写成gen)ClearSet obs 1000 设置观测值的组数Gen x=_n _n 为观察值得序号Gen y=x+1001.6控制结果输出显示List n1.7设置屏幕滚动Set more off 先设置此项则显示时,屏幕不停止Set more on 先设置此项则显示时,会使显示停止1.8清除内存中原有内容clear1.9设置文件存取路径(cd)Cd d:\stata d:\stata为路径1.10如果想知道当前路径下有哪些文件,可以用dir 命令来列示.dir1.11假设你想在D 盘的根目录下创建一个新的文件夹mydata 来存放数据文件,命令为mkdir。

STATA实用学习笔记

STATA实用学习笔记

北京科技大学STATA应用学习摘录第一章 STATA的基本操作一、设置内存容set mem 500m, perm一、显示输入内容Display 1Display “clive”二、显示数据集结构describeDescribe /d三、编辑editEdit四、重命名变量Rename var1 var2五、显示数据集内容list/browseList in 1List in 2/10六、数据导入:数据文件是文本类型(.csv)1、insheet: . insheet using “C:\Documents and Settings\Administrator\桌面\ST9007\dataset\Fees1.csv”, clear2、内存为空时才可以导入数据集,否则会出现(you must start with an empty dataset)(1)清空内存中的所有变量:.drop _all(2)导入语句后加入“clear”命令。

七、保存文件1、save “C:\Documents and Settings\Administrator\桌面\ST9007\dataset\Fees1.dta”2、save “C:\Documents and Settings\Administrator\桌面\ST9007\dataset\Fees1.dta”, replace八、打开及退出已存文件use1、.Use 文件路径及文件名, clear2、. Drop _all/.exit九、记录命令和输出结果(log)1、开始建立记录文件:log using "J:\phd\output.log", replace2、暂停记录文件:log off3、重新打开记录文件:log on4、关闭记录文件:log close十一、创建和保存程序文件:(doedit, do)1、打开程序编辑窗口:doedit2、写入命令3、保存文件,.do.4、运行命令:.do 程序文件路径及文件名十二、多个数据集合并为一个数据集(变量和结构相同)纵向合并appendinsheet using "J:\phd\Fees1.csv", clearsave "J:\phd\Fees1.dta", replaceinsheet using "J:\phd\Fees2.csv", clearappend using "J:\phd\Fees1.dta"save "J:\phd\Fees1.dta", replace十三、横向合并,在原数据集基础上加上另外的变量merge1、insheet using "J:\phd\Fees1.csv", clearsort companyid yearendsave "J:\phd\Fees1.dta", replacedescribeinsheet using "J:\phd\Fees6.csv", clearsort companyid yearendmerge companyid yearend using "J:\phd\Fees1.dta"save "J:\phd\Fees1.dta", replacedescribe2、_merge==1 obs. From master data_merge==2 obs. From using data_merge==3 obs. From both master and using data十四、帮助文件:help1、. Help describe十五、描述性统计量1、summarize incorporationyear 单个summarize incorporationyear-big6 连续多个summarize _all or simply summarize 所有2、更详细的统计量summarize incorporationyear, detail3、centilecentile auditfees, centile(0(10)100)centile auditfees, centile(0(5)100)4、tabulate不同类型变量的频数和比例tabulate companytypetabulate companytype big6, column 按列计算百分比tabulate companytype big6, row 按行计算百分比tab companytype big6 if companytype<=3, row col 同时按行列和条件计算百分比5、计算满足条件观测的个数count if big6==1count if big6==0 | big6==16、按离散变量排序,对连续变量计算描述性统计量:(1)by companytype, sort: summarize auditfees, detail(2)sort companytypeBy companytype:summarize auditees十六、转换变量1、按公司类型将公开发行股票公司赋值为1,其他为0gen listed=0replace listed=1 if companytype==2replace listed=1 if companytype==3replace listed=1 if companytype==5replace listed=. if companytype==.十七、产生新变量genGenerate newvar=表达式十八、数据类型3、新建变量的过程中定义数据类型●gen str3 gender= "male"●list gender in 1/104、变量所占字节过长●drop gender●gen str30 gender= "male"●browse●describe gender●compress gender5、日期数据类型:%d dates, which is a count of the number of days elapsed since January 1, 1960。

STATA实用学习笔记

STATA实用学习笔记

北京科技大学STATA应用学习摘录第一章 STATA的基本操作一、设置内存容set mem 500m, perm一、显示输入内容Display 1Display “clive”二、显示数据集结构describeDescribe /d三、编辑editEdit四、重命名变量Rename var1 var2五、显示数据集内容list/browseList in 1List in 2/10六、数据导入:数据文件是文本类型(.csv)1、insheet: . insheet using “C:\Documents and Settings\Administrator\桌面\ST9007\dataset\Fees1.csv”, clear2、内存为空时才可以导入数据集,否则会出现(you must start with an empty dataset)(1)清空内存中的所有变量:.drop _all(2)导入语句后加入“clear”命令。

七、保存文件1、save “C:\Documents and Settings\Administrator\桌面\ST9007\dataset\Fees1.dta”2、save “C:\Documents and Settings\Administrator\桌面\ST9007\dataset\Fees1.dta”, replace八、打开及退出已存文件use1、.Use 文件路径及文件名, clear2、. Drop _all/.exit九、记录命令和输出结果(log)1、开始建立记录文件:log using "J:\phd\output.log", replace2、暂停记录文件:log off3、重新打开记录文件:log on4、关闭记录文件:log close十一、创建和保存程序文件:(doedit, do)1、打开程序编辑窗口:doedit2、写入命令3、保存文件,.do.4、运行命令:.do 程序文件路径及文件名十二、多个数据集合并为一个数据集(变量和结构相同)纵向合并appendinsheet using "J:\phd\Fees1.csv", clearsave "J:\phd\Fees1.dta", replaceinsheet using "J:\phd\Fees2.csv", clearappend using "J:\phd\Fees1.dta"save "J:\phd\Fees1.dta", replace十三、横向合并,在原数据集基础上加上另外的变量merge1、insheet using "J:\phd\Fees1.csv", clearsort companyid yearendsave "J:\phd\Fees1.dta", replacedescribeinsheet using "J:\phd\Fees6.csv", clearsort companyid yearendmerge companyid yearend using "J:\phd\Fees1.dta"save "J:\phd\Fees1.dta", replacedescribe2、_merge==1 obs. From master data_merge==2 obs. From using data_merge==3 obs. From both master and using data十四、帮助文件:help1、. Help describe十五、描述性统计量1、summarize incorporationyear 单个summarize incorporationyear-big6 连续多个summarize _all or simply summarize 所有2、更详细的统计量summarize incorporationyear, detail3、centilecentile auditfees, centile(0(10)100)centile auditfees, centile(0(5)100)4、tabulate不同类型变量的频数和比例tabulate companytypetabulate companytype big6, column 按列计算百分比tabulate companytype big6, row 按行计算百分比tab companytype big6 if companytype<=3, row col 同时按行列和条件计算百分比5、计算满足条件观测的个数count if big6==1count if big6==0 | big6==16、按离散变量排序,对连续变量计算描述性统计量:(1)by companytype, sort: summarize auditfees, detail(2)sort companytypeBy companytype:summarize auditees十六、转换变量1、按公司类型将公开发行股票公司赋值为1,其他为0gen listed=0replace listed=1 if companytype==2replace listed=1 if companytype==3replace listed=1 if companytype==5replace listed=. if companytype==.十七、产生新变量genGenerate newvar=表达式十八、数据类型3、新建变量的过程中定义数据类型●gen str3 gender= "male"●list gender in 1/104、变量所占字节过长●drop gender●gen str30 gender= "male"●browse●describe gender●compress gender5、日期数据类型:%d dates, which is a count of the number of days elapsed since January 1, 1960。

stata笔记常用

stata笔记常用

stata笔记常用Stata: 输出regression table到word和excel1. 安装estout。

最简单的方式是在stata的指令输入:ssc install estout, replaceEST安装的指导网址是:2.跑你的regression3.写下这行指令esttab using test.rtf,然后就会出现个漂亮的表格给你(WORD文档)。

只要再小幅修改,就可以直接用了。

这个档案会存在my document\stata下。

如果你用打开的是一个stata do file,结果会保存到do文件所在文件夹中。

如果要得到excel文件,就把后缀改为.xls或者.csv就可以了4.跑多个其实也不难,只要每跑完一个regression,你把它取个名字存起来:est store m1。

m1是你要改的,第一个model所以我叫m1,第二个的话指令就变成est store m2,依次类推。

5.运行指令:esttab m1 m2 ... using test.rtf就行了。

异方差的检验:Breusch-Pagan test in STATA:其基本命令是:estat hettest var1 var2 var3其中,var1 var2 var3 分别为你认为导致异方差性的几个自变量。

是你自己设定的一个滞后项数量。

同样,如果输出的P-Value 显著小于0.05,则拒绝原假设,即不存在异方差性。

White检验:其基本命令是在完成基本的OLS 回归之后,输入imtest, white如果输出的P-Value 显著小于0.05,则拒绝原假设,即不存在异方差性处理异方差性问题的方法:方法一:WLSWLS是GLS(一般最小二乘法)的一种,也可以说在异方差情形下的GLS就是WLS。

在WLS下,我们设定扰动项的条件方差是某个解释变量子集的函数。

之所以被称为加权最小二乘法,是因为这个估计最小化的是残差的加权平方和,而上述函数的倒数恰为其权重。

stata统计分析与应用笔记汇总

stata统计分析与应用笔记汇总

第一章:Stata概述:help和search都是查找文件的命令但help用于查找精确的命令,search是模糊查找。

还可使用help|contents 来分类查找第二章:数据管理:2.1变量和变量的取值:1.变量的命名:不能以数字开头,区分大小写,不能命名为系统变量名2.变量的取值类型:(1)字符型:字符变量存储格式是str⋕,str表示格式⋕表示该变量的存储最多可容纳的字符数(2)数值型数据:存储格式:byte.int.long.float.double.Stata默认将数字存储为浮点数据,而将计算结果存为双浮点数据。

(3)缺失数据:一般仅用“.”表示3.变量的显示:(1)数值变量的显示格式:a.普通格式有%w.dg, %w.dgc(g表示普通,w表示整个显示所占的字符数,d表示显示的数字中小数点后的位数,c是要求Stata给出带逗号“,”数字显示格式如12345显示为12,345)b.固定格式有%w.df, %w.dfc(f表示固定)c.科学指数法格式:%w.de, (e表示科学计数)(2)字符变量的显示格式:仅有一种%⋕s,%是提示符,#表示显示字符数,s表示字符变量显示格式,默认右对齐,后加“-”可改为左对齐。

(3)使用format命令变量显示格式:format varlist %fmt 或者 format %fmt varlist 4.变量的标签(1)添加数据集的标签使用: label data [“lable”](2)添加变量的标签使用:label variable varname [“lable”](3)label为变量数值添加标签的语法有两部分,先定义数值标签:label define lblname#“lable” [#“lable”](lblname是标签名称) 然后将定义好的数值标签添加到变量上:label values varlist [lblnamel.]2.2创建一个新的数据集1.关于数据集操作的基本命令(1)browse 和edit 命令:browse 用于打开数据浏览器,edit命令用于打开数据编辑器Edit [varlist] [if] [in]browse [varlist] [if] [in](if和in 用于选择需要的子集)(2)rename:rename old_varname new_varname(3)save命令:save [filename] [,save_options]([,save_options]可以指nolabel(不保存设定标签),replace(允许新文件覆盖原文件),all主要用于编程(4)describe:用于产生一个对数据集的简明总结格式:describe [varlist] [,memory_options](命令选项:simple,short,detail,fullnames)(5)list:用于显示变量的数值,其后可以跟需要显示的变量名称语法:list [varlist] [if] [in] [,options](命令选项包括:noobs(不显示观测值的数值),clean,separator,sepby,nolabel)(6)codebook:用于详尽地描述变量的内容,包括变量名称、标签、赋值。

Stata笔记-北京科技大学

Stata笔记-北京科技大学

改颜色edit-preference-general prefernce-classic下面命令框-右键-font-改字号命令cd d:\ 改到d盘(change directory)dir查询d盘有什么sysuse auto 系统自带汽车数据,数据变量(字段)显示在右上角br(owse) 浏览数据(字符型红色,数值型黑色,蓝色-右键-value labels-hide all labels标签隐藏)h(elp) li(st) 告诉你命令怎么用,下面有例子左边双击执行,单击复制到命令框order price mpg(单击右边的变量)order make-foreign 改变变量顺序,从make到foreigng(enerate) new=rep78-trunk 输出新变量(rep78,trunk是字段,可单击选择,"."表示缺省,加减乘除+-*/)list if new==14 (==为等于,=为赋值,可以点击more)li(st) if new2>=14 & new2<24 (按q可以退出,即quit)replace new3=rep78 (输错了替换)drop new new2 new3删除变量list if new>10000list make if new<10000|new>2000 (竖线表示或者,回车上面那个)!=表示不等于左边命令,右键savesave data 文件名为datasysuse autopreservereservesave auto2 保存时不需加后缀,删除时带后缀.dtasort price从小到大gsort price 都可以,比较随意gsort -trunk price (默认加号,为排序)order make new (将new排到第二位)aorder (alphabetic 按字母顺序排序)disp(lay) sin(1) 作为计算器使用ln以e为底----------------3.13---------锐思数据库选择数据-----非金融行业负债表----左边-财务报表-非金融行业合并标识-1合并报表调整标识-1报表类型-q4、信息来源-q4公司类别-20-定期报告信息来源:q4a股股票代码截止日期流动资产合计应收账款总资产流动负债合计负债合计所有者权益合计------非金融行业利润表---前同净利润营业收入excel输出(默认)选择列表签+列名------打开STATA------菜单引入文件clear可清除数据varible name 不识别中文选中第一个import first row as varible names第二个import all data as strings意思是将数据看作字符型(不选)br(ouse)展示数据流动比率=流动资产/流动负债资产负债率=总负债/总资产产权比率=总负债/所有者权益合计mkdir d:\hsy1\mydata 建立文件夹cd d:\hsy1\mydata 基于文件夹dir 显示文件夹save bs 保存数据,名为bs直接运行是双击,显示在框内为单击g(enerate) currrate=Totcurass/Tutcurlia 流动比率(等号后面点右上方variables)显示(8 missing values generated)有八个缺失值g lev=Totlia/Totass 负债率leverageg pright= Totlia/ TotSHE 产权比率porpertysave bs2 另存数据drop 为删除变量clear从内存删掉,不会从硬盘删掉------利润表-----importsave isg incorate= Netprf/ Incmope 利润率=净利润/营业利润save is2----clearuse bs2 打开bs2g year=year( EndDt) 。

Stata学习笔记和国贸理论总结

Stata学习笔记和国贸理论总结

stata学习笔记一、认识数据(一)向stata中导入txt. csv格式的数据 1.这两种数据可以用文本文档打开.新建记事本-然后将相应文档拖入记事本即可打开数据,e制2.按下stata中的edit按钮,右键选择paste special3. \xls/\xlsx数据仅能用Excel打开,不可用记事本打开,打开后会出现乱码,也不要保存•否则就恢a不了。

逗号分隔的数常为CSV数据。

(二)网页数据网页上的表格只要能选中的,都能复制到excel中;网页数据的下載可以通过白度“国家数据**进行搜索、下载二、Do-file 和log 文件打开stata后,第一步就要do-file,记录步骤和历史记录•方便fl后査看。

Stata处理中保留的三种文件:原始数据(\dta),记录处理步骤(\do).以及处理的历史记录(*.smcl)o三、导入StataStata不识别带有中文的变a,如果导入的数据第一行有中文就没法导入。

但是对于列来说不会出现这个问题,不分析即可(Stata不分析字符ftb红色文本显示:被分析的数据•黑色显示):第一行是英文变最名.选择-Treat first row as variable names”在导入新数据的时候,需要清空原有数据• clear命令.导入空格分隔数据:复制一tata中选择edit按钮或输入相应命令右键选择Paste special ------ 并选择•确定;导入Excel中数据•复制粘贴即可:逗号分隔数据,选择Paste special后点击comma,然后确定。

Stata数据格式为-・dta,导入后统一使用此格式》(一)use auto, clear。

在清空原有数据的同时,导入新的auto数据。

(二)browse •浏览数据。

(三)describe和list.査看数据,describe和list使用list命令能使我们根据n己的需要选择数据(例如其与in/if语句的结合使用)O(四)ScatterO 作图命令,scatter 散点图(scatter price mpg )(五)Summarizeo描述统计,常写作sum/su,求变量的个数、平均值、标准差、故小值和般大值。

Stata笔记-北京科技大学

Stata笔记-北京科技大学

改颜色edit-preference-general prefernce-classic下面命令框-右键-font-改字号命令cd d:\ 改到d盘(change directory)dir查询d盘有什么sysuse auto 系统自带汽车数据,数据变量(字段)显示在右上角br(owse) 浏览数据(字符型红色,数值型黑色,蓝色-右键-value labels-hide all labels标签隐藏)h(elp) li(st) 告诉你命令怎么用,下面有例子左边双击执行,单击复制到命令框order price mpg(单击右边的变量)order make-foreign 改变变量顺序,从make到foreigng(enerate) new=rep78-trunk 输出新变量(rep78,trunk是字段,可单击选择,"."表示缺省,加减乘除+-*/)list if new==14 (==为等于,=为赋值,可以点击more)li(st) if new2>=14 & new2<24 (按q可以退出,即quit)replace new3=rep78 (输错了替换)drop new new2 new3删除变量list if new>10000list make if new<10000|new>2000 (竖线表示或者,回车上面那个)!=表示不等于左边命令,右键savesave data 文件名为datasysuse autopreservereservesave auto2 保存时不需加后缀,删除时带后缀.dtasort price从小到大gsort price 都可以,比较随意gsort -trunk price (默认加号,为排序)order make new (将new排到第二位)aorder (alphabetic 按字母顺序排序)disp(lay) sin(1) 作为计算器使用ln以e为底----------------3.13---------锐思数据库选择数据-----非金融行业负债表----左边-财务报表-非金融行业合并标识-1合并报表调整标识-1报表类型-q4、信息来源-q4公司类别-20-定期报告信息来源:q4a股股票代码截止日期流动资产合计应收账款总资产流动负债合计负债合计所有者权益合计------非金融行业利润表---前同净利润营业收入excel输出(默认)选择列表签+列名------打开STATA------菜单引入文件clear可清除数据varible name 不识别中文选中第一个import first row as varible names第二个import all data as strings意思是将数据看作字符型(不选)br(ouse)展示数据流动比率=流动资产/流动负债资产负债率=总负债/总资产产权比率=总负债/所有者权益合计mkdir d:\hsy1\mydata 建立文件夹cd d:\hsy1\mydata 基于文件夹dir 显示文件夹save bs 保存数据,名为bs直接运行是双击,显示在框内为单击g(enerate) currrate=Totcurass/Tutcurlia 流动比率(等号后面点右上方variables)显示(8 missing values generated)有八个缺失值g lev=Totlia/Totass 负债率leverageg pright= Totlia/ TotSHE 产权比率porpertysave bs2 另存数据drop 为删除变量clear从内存删掉,不会从硬盘删掉------利润表-----importsave isg incorate= Netprf/ Incmope 利润率=净利润/营业利润save is2----clearuse bs2 打开bs2g year=year( EndDt) 。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2016.4.1 Y=b0+b1x+u Fare=bo+bi dist +u Predict: y 尖,除了 x 之外的其他因素也影响与,除此之外还有 u Y 尖和真实值之间的差为残差—SSR SSR=squares
衡量不能用模型衡量,解释的波动? 1. Measure variation of diference between predict and sample 2. Measure variation that can not explained by model SS—sum of squares 方差 measure variation 波动、变化 2 SST—total sum of squares = 方差和 --- 聚散 2 SSE— explainable sum of squares= Measure variaton that can be explained by model 1-SSR/SST=SSE/SST=R2 d.f: degree of freedom 自由度 取值不受限制的变量个数 stata 中自由度:观测值-1-(未知数 -1) 残差的自由度:增加样本量 1. 增加未知数 2. 运用低速收敛模型 OLS 是告诉收敛,时间序列是低速 什么是好的回归? 仅有 R2 不能判断----引力模型 理论和实证相符 Root MSE ( mse 的开方)衡量回归的波动
a 值:能够容忍的犯错误的概率。 p 值:犯错误的概率。 A 值:如果在观测点附近有样本:正常取,比如 5%,10%,15% 如果在观测点附近没有样本:低于 0.1% A 值与什么有关:1. Research subject 2. Spread of samples 3. Number of obs 回归不需要常数(或常数为 0 ) : reg price sqrft, noconstant on condition that 房地产(面积为零时价格为零) ;差分方程(常数项相减消失)
有无常数项方程存在自由度的区别(87,88)
数据:4 1. Log(wage)=a0+a1educ+u 2. IQ=d0+d1educ+v 3. Log(wage)=b0+b1educ+b2IQ+e 如果自变量存在相关性时,如果 x 不是研究重点,可以不予理会,如果是重点可 以考量后删除一个。 如果自变量和误差项间存在相关性:使用工具变量,除非: 平衡面板:把所有的都列出来。 Cor 的正负不能代表系数前的符号(因为会存在不平衡面板)
twoway histogram z, blcolor(blue)|| histogram z2, blcolor(red) X~N(a,c^2) Y~N(b,d^2) X+x~N(a+x,c^2) Y*y~N(by,Y^2d^2) X+Y~N(a+b,a^2+b^2+2cov(X,Y)) 常用函数: Y=ln(X) gen y= Y=eX gen y= exp(x) Y=xa gen y=x^a
4.22.2016 数据的纵向合并 -csv 文件 横向合并: 1. 排序: Sort var1 var2 var3...------ 先将两组数据排序, 先按 var1 排序, 再按 var2 排 2. 合并: merge var1 var2 var3 using C:\stata 数据\5\trade.dta— merge 合并,参 考变量,路径 3. Check _merge 1 表示本文件有合并文件没有 2 本文件没有,合并文件有 3 本文件有合并文件也有 4. Drop _merge 删掉 _merge 变量后继续合并。 交叉项有时也能对 y 产生影响,考虑交差项时,要把交叉项的每一种排列组合情 况, 例: abc—a b c ab ac bc abc 都要参与回归; 如果有完全一样的可以只写一个, 例:aab perfect collinner 完全共线。 1. A b identical 2. A= b c 3. A+b=c 4. C1a+c2b=d abd 是变量,回归后会踢掉一个。 假设性检验(5/5b vote) Step1. Express the hypothesis in terms of paranetors Null hypothsis H 0 alternative hypothsis H1 Step2. Build a text statistic Step3. Find extrual value of Step4. conclusion H0: Beta1=-beta2 Beta1+Beta2=0 H1:!=0 T=(beta1+beta2)/var(beta1+beta2)^0.5 =(beta1+beta2)/var(varbeta1+varbeta2+covbeta1,beta2) (变量的协方差可以用 cor 命令实现,但是系数的协方差要用以下方法进行) estat vce 给出上次回归时系数的协方差 得到 covbeta1,beta2=-0.003 t= -1 <t0.1,n=1.65 fail to reject H0
Y=7.486-0.032x P 值很小,认为是显著的。 Coef. : 系数 统计意义上:blabla
上面那条线:y=7.146-0.043x 下面:y=7.556-0.021x 置信区间:真值有 95%的概率落在两条线之前
2016.3.18 Uniform distribution---均匀分布 Drop xxx----删除某变量 drop _all /* Drop previous data */ 清空之前的运行结果和内存 preserve 记忆数据,当操作出现错误可以用 restore 进行还原。注意:一个 preserve 对应一个 restore * Define number of observations set obs 10-------样本数据有 10 个观测值 * Generate draws from uniform distribution (b=1, a=0) gen x = (uniform())-------gen 生成一个变量 *List all of the observations *(use list when the number of observations is not large) list x -------把变量等观测值直接打出来 * Calculate summary statistics for x summarize x * Construct histogram for x histogram x, density * Generate draws for Bernoulli distribution P(x=1)=0.5; P(x=0)=0.5 gen y = x <=0.50 可以用 data editor 展示数据, (这时 x>0.5 的被替换为了 1) Gen z=0 Replace z=1 if x<=0.5 list y * Calculate summary statistics for y summarize y * Construct histogram for y set seed 10101 drop _all /* Drop previous data */ * Change this for different sample size set obs 1000000 * Generate N(0,1) using inverse-transformation method gen z = invnorm(uniform())------ 先按照均匀分布抽取随机数,对应分布函数,再转 换成密度函数。 list z summarize z histogram z *Generate normal random variables with different means and varisances using z gen z2 = 2 + z list z z2 summarize z z2 *Construct overlaping histograms of Z and Z2
2016.4.8 出现异常值的处理:1. 不要删除,可能会产生新的研究方向。 2. 取 ln——既有极大又有极小值时; 舍弃量的概念, 把系数改为变动的百分比。 3. 1. Level-level 2. Level-log 3. Log-level 程度不取 log 4. Log-log 数据 4 斜率 slope 半弹性:目的是使结果更加线性( p 值) 半弹性:Eg:贸易量和开放程度:通常对贸易量取对数,开放 变化的百分比,弹性
回归方程:y=a+bx+e
解释各个变量,及误差项服从的分布
回归方程 OLS:reg var1(y) var2.....(x) R-squared 大于 1%一般认为是正常的 _cons:constant 常数 系数 系数的标准差 t 值:与观测样本有关,与置信区间的选择有关 p 值:假设为真,拒绝假设的概率
第一张要出现的表:统计论述表 sum 数据缺失 分布不均:(均值 - 中位数)/均值 绝对值越大,分布越不均 Sum +var, detail: 可以获得中位数和均值。 Tab +var :显示频率 Correlate +var1 +var2 : 显示两变量相关性 画图,柱状图:graphic---histogram----varible--bwghtlbs graphic---twoway---scatter---creat---y:bwghtlbs x:cigs 散点图和 graph twoway (lfit (bwghtlbs cigs)) (scatter (bwghtlbs cigs)) 回归线放在一 个图 加 graph twoway (lfitci (bwghtlbs cigs)) (scatter (bwghtlbs cigs)) 散点图和直线 加置信区间
相关文档
最新文档