stata入门简明课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
命令:inspect
5.4显示数据(list,browse)
Eg:命令:list A B C D,sep(10) noobs
list C if D>18
5.5排序数据(sort)
所谓排序,就是按关键变量数值的递增或递减次序进行排列。用作排序运算依据的关键变量可以是数字类型,也可以是字符类型。参与排序的变量可以只有一个,也可以有两个或者多个。
命令:tabulate var
菜单:statistics-summaries,tables,and tests-frequency tables-One-way table
注意:当tabulate的后边接两个变量的时候,则生成它们之间的交叉表
在使用tab进行频数分析的时候,常常会接多个变量,则得到“too many variables specified”的错误提示,下面区分一下tabtab1 tab2这三条命令:
命令:
logity x1 x2(参数估计)
logistic y x1 x2(提供发生比)
分析结果的实质是一样的,但输出结果的表现形式有所不同。
9.3时间序列
S
一、Stata安装及注意事项
1.1.下载stata13.rar软件后,请解压到D盘(其他盘id=1245846483&uk=604047888
二、数据清理 以及问卷的信度与效度检验
三、界面介绍
菜单路径:Data-describe data-describe data contents(codebook)
命令: codebook
5.3描述变量的属性(inspect)
在了解变量的一些基本信息之后,还需要对变量的频数分布、中央趋势、离散趋势等进行描述。
菜单路径:Data-describe data-Inspect variables
e “文件路径和名称” in X/Y (读入部分样本,X~Y之间的观察值)
d. use “文件路径和名称” if条件语句
4.3数据的类型
Byte字节型
Int整数型
Float浮点型
Double双精度型
Str字符型
4.4变量名与数据标签的修改
1)命令方式修改
rename原变量名 新变量名
2) beldata “这是一份农村调查数据”
菜单:statistics-summaries,tables,and tests-summary statistics-summary statistics
命令:summarize varlist ,detail
format income %6.2f///限定输出格式
sum income, format
命令:correlate varlist
graph matrixincome edu age ,maxis(ylabel(none) xlabel(none))
c.模型成立的条件
1)零均值Leabharlann 定2)同方差假定3)无自相关假定
4)解释变量与扰动项不相关假定
5)在重复抽样中Xi的值是固定的
在重复的样本中,解释变量Xi所取的值被认为是固定的,也就是说Xi是非随机的。
9.1线性回归(OLS)
a.相关散点图(scatterplot)
eg: gen x1=_n
gen y1=-x1
scatter y1 x1
b.相关系数
-1<R<1接近0表示两变量的线性关系微弱或者完全不相关
相关系数仅能衡量两个变量之间的线性关系,不能提供曲线关系的信息。因此R=0不一定表示两变量之间没有任何关系。
推断性统计方法运用概率理论,根据观察到的样本特征预测和推断总体特征。
但是几种推断性统计分析(假定检验和方差分析)都存在一定的局限。比如,假定检验只能同时分析两个变量,且分类变量只能有两个取值。方差分析虽然客服了该局限,分类的自变量可以有多个取值,且同时允许分析连续的因变量是否随多个自变量的不同取值各异。但方差分析本身除了提供F统计量外,并不提供更多的信息;而且方差分析主要用于分类自变量与数值型因变量之间的分析。虽然它也能纳数值型自变量于分析之中,但是不能提供单个自变量对因变量作用的大小。从方差分析发展而来的另一种推断性统计方法——回归分析,可以客服这些局限。
输入数据的方式有六种,包括键盘输入数据,读入文本文件数据,将spss或Excel数据文件直接复制或者导入,或者先利用其他软件将文件导成.dta格式。
1、Excel数据的导入
2、.dta数据的读入
e “文件路径和名称” (读入全部数据)
e varlist using “文件路径和名称”(读入部分变量)
d.命令
regressvarlist, option
reg edu age
reg edu age ,r
异方差(截面数据很容易出现异方差)
异方差的检验
1)看残差图(rvfplot)
2)怀特检验(estat imtest, white)
3)BP检验(estat hettest)
异方差的处理
1)OLS+稳健标准误
hist wage
gen ln_wage=ln(wage)
hist ln(wage) ,normal
disln(10-----100----10000)
8.5饼图
8.6箱线图
九、回归分析
前边的章节介绍了社会科学中定量分析方法的过程与步骤,熟悉数据、描述数据和处理数据的基本技术,包括了解数据的基本特征和分布、修改和生成变量、数据的清理、数据分组以及绘图的基本程序命令和窗口路径。
describe, short(只输出数据的样本量、变量的数目、数据的大小等)
describe, detail
变量名 变量的保存形式 表现格式 变量取值的标签变量的标签
5.2变量编码簿(codebook)
在对数据基本情况有了了解之后,我们再来了解一下变量的具体信息。codebook命令相当于编码簿,提供数值型变量的描述性统计,也获得字符型变量相关信息的简洁途径。
list sex sex1
6.4生成分组变量
gen agegrp=0
replace agegrp=1 if age>=18&age<25
replace agegrp=2 if age>=25&age<35
replace agegrp=3 if age>=35&age<55
replace agegrp=4 if age>=55
1、五个窗口
2、菜单基本功能介绍
3、工具栏快捷键的介绍
4、语法和命令
四、数据的输入与熟悉
4.1log(记录文件)
1、菜单操作
2、命令输入
a.logusing“文件路径和名称”
b. log off
log on
log close
4.2数据的读入与另存
数据分析的第一步是,将数据处理成为Stata所用的格式。
7.3描述数值型数据统计量的其他方法
tabsum、tabstat、table等命令,在此不再详细介绍。
八、图形的制作与数据的描述
8.1散点图
Scatter描绘散点图,且是双向关系图,反映两个变量之间的关系。其图形反映Y轴的数值是否随X轴数值的变化而发生相应的变化。
eg:scatterincome edu
命令:sortB C D
gsort :既可以对当前数据从小到大,也可以从大到小(-号置于一个变量前)。
*缺失值被默认为大于正数的最大值
六、变量的生成与处理
6.1新变量的生成和改变
命令:gen新变量名 =表达式1
eg:genx =_n
gen x2=x^2
list x x2
scatter x x2
replace变量名=表达式2if条件表达式
(输出稳健标准误:如果使用的数据采取了分步骤、多阶段的聚类抽样设计和方法,同一单位的样本不一定完全独立,从而违背了统计理论的一个基本原则。其后果是,出现异方差,分析结果可能出现偏误。robust有助于克服这一不足。)
2)广义最小二乘法(GLS)
3)加权最小二乘法(WLS)自行学习
4)可行广义最小二乘法
tab:可用于生成单个变量的频数分布,或两个变量的交叉分布
tab1:可接多个变量,但只能分别生成单个变量的频数分布,不能生成交叉表
tab2:可以生成多个双变量的交叉表
eg:tabexport age nation edu income using results.txt,s(mean sd) replace
2)判定系数R^2
度量估计的回归方程的拟合优度
表明模型中的自变量对因变量变异的解释能力
3)T检验
对回归系数的显著性进行检验。即检验回归系数是否等于0
e.结果的输出
logout,save(mytable) word replace: reg D F C
9.2Logistic(最大似然法)
Logistics回归分析是对因变量为定性变量的回归分析。它是一种非线性模型。其基本特点是:因变量必须是二分类变量。
replace agegrp=. if age==.
(分组要遵守不重不漏原则,对于缺失值要注意,因为缺失值默认为正无穷)
6.5变量类型的转换
a.将字符型变量转换为数值型变量
eg:destring nation,gen(newvar)
destring nation ,replace
七、数据的描述
7.1变量频数分布
自相关
1)时间序列数据,往往会出现自相关
2)截面数据中的自相关
3)认为处理:移动平均数,内插值
4)设定误差:如果模型设定中遗漏了某个自相关的解释变量,并被纳入到扰动项中,则会引起扰动项的自相关。
自相关的检验:
1)画图 scatter
2)BG检验
3)DW检验
处理方法:
1)使用:OLS+异方差自相关稳健的标准误
2)使用OLS+聚类稳健的标准误
3)使用可行广义最小二乘法(FGLS)
4)修改模型设定
结果解读:包括三部分左上方是方差分析结果,右上方是回归统计量,下部分是参数估计的内容。
方差分析部分给出了回归平方和(Model),残差平方和(R),总平方和(T),自由度以及回归和残差的均方(MS)
1)F检验
F检验是对总体回归方程的显著性检验,即对因变量与自变量之间的线性关系是否显著的一种假设检验。
1excel文件路径和名称项入全部数据usevarlistusingint整数型float浮点型double双精度型str字符型44量名与数据的修改命令方式修改renamelabeldatalabelvaragelabeldefinesex11malefemalelabelvaluessexsex1browse窗口菜方式lookforvar数据的描述51数据的描述desdescribesimple出数据中的量名称describeshort量的数目数据的大小等describedetail数据基本情况有了了解之后我再来了解一下量的具体信息
shellout results.txt
7.2变量的中央趋势和离散趋势
集中趋势是指数据分布的一种表现形式。频数最多的组段代表了中心位置,从两侧到中心,频数分布是逐步增加的。集中趋势包括变量的均值、中数、众数、最大值、最小值等。离散趋势,从中心到两侧,频数分布是逐渐减少的,反映了数据的离散程度。主要测量方法包括方差、极差、标准差。
bel var age年龄
beldefine sex1 1”male”0”female”
label values sex sex1
browse
(蓝色:文字与数字有对应关系的)
labelbook
窗口菜单方式
lookforvar(搜索变量)
五、数据库的描述
5.1数据的描述(des)
describe, simple (只输出数据中的变量名称)
sysuse auto,clear
twoway scatter price wei
graph matrixprice wei len mpg
Scatter有很多选项 helpscatter
8.2线图
8.3条形图
8.4直方图(histogram)
hist age,discrete
sysuse nlsw88.dta,clear
回归分析研究的主要对象是客观事物之间的联系,表现为变量之间的统计关系。
在进行回归分析之前,首先必须掌握变量之间是否相关。只有变量之间存在关系,才有必要进行回归分析。假如当X增加时,Y的取值发生相应的变化,则X与Y之间时相关的;假如当X增加时,Y的取值没有确定的变化,则X与Y之间时不相关或者没有相关关系的。对风牛马不相及的事件进行回归时没有任何意义的。
6.2变量的生成规则
a.变量的名称可长达32个字符,必须以字母或字符开头,也可以下划线开头,但是不能使用空白字符或!?等特殊字符。变量最后一个字符不能是句号。
b.变量名称必须唯一
c.要区分大小写,不能混用
6.3生成字符型变量
gensex1=”male”
replace sex1=”female”if sex==0
相关文档
最新文档