基础统计-STATA统计软件操作
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
按变量x的分类,生成变量y的箱线图: graph box y, over(x); 按变量x的分类,生成变量y1和y2的箱线图graph box y1 y2, over(x); 按变量x的分类,生成变量y的横向箱线图:graph hbox y, over(x); 生成x1、x2、x3的矩阵图,只显示一半:graph matrix x1 x2 x3, half 将图形x1和x2合并:graph combine x1 x2
graph pie; graph pie,over(x)
按照x变量分类的纵向条形图:
给变量x、y、z(三者之和为100%)生成饼图:
按变量x的分类,生成一张饼图:
图形的制作
直方图。
生成一张变量x的取值图:histogram x; 按变量x的分类,生成一张其取值图histogram x,discrete;
数据的合并
(系统变量)
关于系统变量:_merge,它的取值限于
1=观察值仅来自主要数据,使用数据没有匹配的样本, 2=观察值仅来自使用数据,主要数据没有匹配的样本, 3=观察值来自于主要数据和使用数据。
若使用update选项,还会有:
4=观察值来自于主要数据和使用数据,且主要数据的 缺失值得到更新, 5=观察值来自于主要数据和使用数据,且两个数据的 数值不匹配。
ຫໍສະໝຸດ Baidu
使用gen…replace命令生成新变量;
recode nv 原变量的取值=新变量的取值 *=其他取 值(*表示所有其他没有列出的数值),gen(新变量 名)
变量的生成与处理
生成分类变量:
egen 新变量命=cut(旧变量名),at(取值的下限) eg:egen agegrp1=cut(age),at(0,7,13,16,20)
tab 分组变量a,contents(mean b sd b)
表示按照变量a分组计算变量b的均值和标准差; 表示按照变量a和b分组计算变量c的均值和d的 标准差;
tab a b, contents(mean c sd d)
描述数据的统计量
tab a b, contents(mean c),row col,
gsort mothid-age; by mothid:gen order=_n; reshape wide kidid age girl yob,i(mothid) (order)。
数据转换:宽——长
程序:
reshape long 变量名,i(观察值的标识符) j(次标 识符)。
missing将缺失值与有效值同样对待; wrap不自动换行宽表; nokey不显示单元格提示; nolabel不使用数值标签。
描述数据的统计量
sum+变量名;s
um a,detail(给出更详细的信息); bysort urban:sum a(在不同城乡分布中统计变 量a)
五大功能:
数据管理、统计分析、图形制作、矩阵运算和程序设计。 Command(命令)、Results(结果)、Review(回顾)、 Variables(变量)。 文件(File)、编辑(Edit)、偏好(Prefs,用户界面设 置菜单)、数据(Data,数据的基本处理、描述、排序、 改变变量、生成新变量、整合数据、拆分数据等)、图表 (Graphics)、统计(Statistics数据分析)、使用者 (User)、窗口(Window)、帮助(help) Log(记录文件窗口)、Viewer(帮助窗口)、Results(分析结 果窗口)、Do-file Editor(编程窗口)、Data Editor(数据编辑 窗口)、Data Browse(数据浏览窗口)、Clear-moreCondition(显示更多结果)、Break(不要显示更多结果)。
Stata数据类型及特点
与数据类型对应的是数据库中变量的存储类型 (storage type):。
字符型:保存格式为str…,省略表示的是字符位数 数值型:保存格式有byte, int, long, float, double。默 认格式是float,前三种只保留整数,占空间最大到 最小的顺序是double, float, long, int, byte
表示按照变量a和b分组计算变量c的均值,然后计算行 和列均值。
展示一个或多个数值型变量的描述性统计量,默认输 出均值;
tabstat a b c d
tabstat a b c d, by(e) statistics (mean sd median) columns(statistics)
表示按照e分类计算变量a、b、c、d的均值、标准差、 中位值,格式是列为统计量。 表示按照变量a、b分类计算c的统计量
数据的合并(横向)
横向合并
作用:增加变量(merge)。 菜单:Data-Combine datasets-Merge two datasets或DataCombine datasets-Merge multiple datasets 程序:先看使用数据:use “文件路径和名称”,sort 关 键变量名,save“文件路径和名称”,replace; 再看主要数据,use“文件路径和名称”,sort关键变量 名; 最后,合并数据:merge 关键变量名 using “文件路径和 名称”,keep(变量)。
数据转换:长——宽
程序:
reshape wide 变量名,i(观察值的标识符) j(次标识符)。 “变量名”表示一组同样内容的变量的共同的前缀, 即X_ij中的X,指定希望转换的变量名称;选项i及括号 捏的变量一起,指定观察值的标识符,或表示取值独 一无二、代表每个逻辑观察值的变量。 eg:
数据排序:
sort。 例:比较城乡孩子的性别bysort urban: inspect girl或者sort urban然后by urban: inspect girl.
变量的生成与处理
注意事项:
不要使用新变量取代旧变量; 充分了解原始变量的分布以及每个数值代表的含义; 遵循不重不漏; 将原始变量和新变量的取值进行对比,检查是否有误; 注意原始变量的缺失值。 gen…replace if共同使用形成分组变量
gen numobs=count(personid), by(personid year)
数据的合并(纵向)
纵向合并:
作用:增加样本量 命令:append 菜单:Data-Combine datasets-Append datasets; 程序:append using“文件路径和名称”;append using“文件路径和名称”,keep 变量名。
箱线图。
矩阵图。
区间估计
单个总体均值的区间估计:
求多个变量的置信区间,对变量的数目没限制: ci x1 x2 x3。 eg:bysort urban: ci x1 x2 x3 if age>14. mean x1 x2 x3,输出均值、标准误和95%的置信 区间。 按变量e分类来求取a、b、c三个变量的区间估 计:mean a b c,over(e)
界面:
菜单基本功能:
快捷根据图表的基本功能:
Stata数据的读入
log文件。
创建文件:log using “文件路径和名称”,其后带 append表示在原有文件的基础上增加新内容,其后 带replace表示取代原记录文件; 暂停:log off; 再次开始:log on; 关闭:log close。
数据的转换(reshape)
数据的结构:
宽数据(wide format) 长数据(long format)
菜单:
Data-Create or change variables-Other variable transformation commands-Convert data between wide & long。
交互分类表:
.tab a b或者.tab2 a b c(给出其中任意两变量的交互分类 表) 统计量的检验:
附加命令的功能。
Chi2:计算Person卡发值,检验交互表中的行与列变量是否独 立,不能用于加强数据; exact:展示Fisher精确检验的显著水平; expected gamma:展示Goodman和Kruskal的gamma值和其渐近 线的标准误,适合于定序数据,不能与加权数据连用; lrchi2:展示似然卡方,若任意单元格的频数为0,该选项无法 执行; taub:展示Kendall的tau-b值及其渐近线的标准误,适合于定序 数据; V:展示Cramer的V。
tab a b,sum(c)
图形的制作
y和x的散点图:
graph twoway scatter y x;twoway scatter y x; scatter y x
y和x的线图:
graph twoway line y x;twoway line y x; line y x。注意: 先将x排序再做图,否则图会杂乱无章。 graph bar y,over(x);按照x变量分类的横向条形图: graph hbar y,over(x);
数据库的描述
描述数据的基本情况:describe, d
describe, simple:只展示变量名; describe,short:报告变量总体情况; describe,detail:输出全部变量的全部信息; describe a b c:描述部分变量的情况。
变量编码本:
codebook。 codebook+变量名:描述变量特征。
双变量描述
附加命令的功能。
单元格:
cchi2:展示每个单元格对Person卡方的贡献; clrchi2展示每个单元格对似然卡方的贡献; column提供列百分比; row提供行百分比; cell提供总百分比; expected提供每个单元格的期望频数; nofreq不显示频数或者不显示具体表格,直接显示统计量。
数据的存储空间:
增加存储空间(set mem 40m) 清空存储空间(clear,相当于drop all)。
Stata数据的读入
数据的读入:
可直接读入下列尾缀形式的数 据.dta/.txt/.raw/.xls; 读入文件中的部分变量:use a b c using“文件路 径和名称”; 读入文件中的部分样本:use “文件路径和名称” in X/Y(X、Y表示个案序号); 读入文件中某些特征的样本:use“文件路径和 名称”if 条件句;
STATA统计软件操作
Stata入门 Stata的数据读入 数据库的描述 变量的生成与处理 数据的合并 数据的转换 单变量描述 双变量描述
描述数据的统计量 图形的制作 参数估计:区间估计 假设检验 方差分析 相关分析 线性回归分析
Stata入门
压缩变量的命令为compress
Compress为压缩所有变量; Compress yr*为压缩共同前缀的变量; Compress a-c为压缩从a到c之间的所有变量。
数据库的描述
描述变量取值的基本命令参数:
inspect。
显示数据:
browse直接进入数据的浏览窗口; list最好指定变量,否则会输出数据中所有变量 的分布。
egen a_mean=mean(a),by (b)
按照变量b的分类生成均值变量:
生成一个变量b和c的行均值变量(avg),忽略缺 失值:
egen avg=rmean(b c) egen zweight=std(weight)
生成标准数值:
计算每一年观察的样本,从而了解在每年的调查 中,有多少相同的样本(或相同的个体):
“变量名”表示根据次标识符指定的、有共同 主干但尾缀不同的一组变量,生成一(多)个 新变量;选项i指定观察值的标识符,具有独一 无二的取值,是代表每个逻辑观察值的变量。
单变量描述
单个变量频数统计:
.tabulate a相当于tab a。
多个变量的单变量描述:
.tab1 a b c。
双变量描述
graph pie; graph pie,over(x)
按照x变量分类的纵向条形图:
给变量x、y、z(三者之和为100%)生成饼图:
按变量x的分类,生成一张饼图:
图形的制作
直方图。
生成一张变量x的取值图:histogram x; 按变量x的分类,生成一张其取值图histogram x,discrete;
数据的合并
(系统变量)
关于系统变量:_merge,它的取值限于
1=观察值仅来自主要数据,使用数据没有匹配的样本, 2=观察值仅来自使用数据,主要数据没有匹配的样本, 3=观察值来自于主要数据和使用数据。
若使用update选项,还会有:
4=观察值来自于主要数据和使用数据,且主要数据的 缺失值得到更新, 5=观察值来自于主要数据和使用数据,且两个数据的 数值不匹配。
ຫໍສະໝຸດ Baidu
使用gen…replace命令生成新变量;
recode nv 原变量的取值=新变量的取值 *=其他取 值(*表示所有其他没有列出的数值),gen(新变量 名)
变量的生成与处理
生成分类变量:
egen 新变量命=cut(旧变量名),at(取值的下限) eg:egen agegrp1=cut(age),at(0,7,13,16,20)
tab 分组变量a,contents(mean b sd b)
表示按照变量a分组计算变量b的均值和标准差; 表示按照变量a和b分组计算变量c的均值和d的 标准差;
tab a b, contents(mean c sd d)
描述数据的统计量
tab a b, contents(mean c),row col,
gsort mothid-age; by mothid:gen order=_n; reshape wide kidid age girl yob,i(mothid) (order)。
数据转换:宽——长
程序:
reshape long 变量名,i(观察值的标识符) j(次标 识符)。
missing将缺失值与有效值同样对待; wrap不自动换行宽表; nokey不显示单元格提示; nolabel不使用数值标签。
描述数据的统计量
sum+变量名;s
um a,detail(给出更详细的信息); bysort urban:sum a(在不同城乡分布中统计变 量a)
五大功能:
数据管理、统计分析、图形制作、矩阵运算和程序设计。 Command(命令)、Results(结果)、Review(回顾)、 Variables(变量)。 文件(File)、编辑(Edit)、偏好(Prefs,用户界面设 置菜单)、数据(Data,数据的基本处理、描述、排序、 改变变量、生成新变量、整合数据、拆分数据等)、图表 (Graphics)、统计(Statistics数据分析)、使用者 (User)、窗口(Window)、帮助(help) Log(记录文件窗口)、Viewer(帮助窗口)、Results(分析结 果窗口)、Do-file Editor(编程窗口)、Data Editor(数据编辑 窗口)、Data Browse(数据浏览窗口)、Clear-moreCondition(显示更多结果)、Break(不要显示更多结果)。
Stata数据类型及特点
与数据类型对应的是数据库中变量的存储类型 (storage type):。
字符型:保存格式为str…,省略表示的是字符位数 数值型:保存格式有byte, int, long, float, double。默 认格式是float,前三种只保留整数,占空间最大到 最小的顺序是double, float, long, int, byte
表示按照变量a和b分组计算变量c的均值,然后计算行 和列均值。
展示一个或多个数值型变量的描述性统计量,默认输 出均值;
tabstat a b c d
tabstat a b c d, by(e) statistics (mean sd median) columns(statistics)
表示按照e分类计算变量a、b、c、d的均值、标准差、 中位值,格式是列为统计量。 表示按照变量a、b分类计算c的统计量
数据的合并(横向)
横向合并
作用:增加变量(merge)。 菜单:Data-Combine datasets-Merge two datasets或DataCombine datasets-Merge multiple datasets 程序:先看使用数据:use “文件路径和名称”,sort 关 键变量名,save“文件路径和名称”,replace; 再看主要数据,use“文件路径和名称”,sort关键变量 名; 最后,合并数据:merge 关键变量名 using “文件路径和 名称”,keep(变量)。
数据转换:长——宽
程序:
reshape wide 变量名,i(观察值的标识符) j(次标识符)。 “变量名”表示一组同样内容的变量的共同的前缀, 即X_ij中的X,指定希望转换的变量名称;选项i及括号 捏的变量一起,指定观察值的标识符,或表示取值独 一无二、代表每个逻辑观察值的变量。 eg:
数据排序:
sort。 例:比较城乡孩子的性别bysort urban: inspect girl或者sort urban然后by urban: inspect girl.
变量的生成与处理
注意事项:
不要使用新变量取代旧变量; 充分了解原始变量的分布以及每个数值代表的含义; 遵循不重不漏; 将原始变量和新变量的取值进行对比,检查是否有误; 注意原始变量的缺失值。 gen…replace if共同使用形成分组变量
gen numobs=count(personid), by(personid year)
数据的合并(纵向)
纵向合并:
作用:增加样本量 命令:append 菜单:Data-Combine datasets-Append datasets; 程序:append using“文件路径和名称”;append using“文件路径和名称”,keep 变量名。
箱线图。
矩阵图。
区间估计
单个总体均值的区间估计:
求多个变量的置信区间,对变量的数目没限制: ci x1 x2 x3。 eg:bysort urban: ci x1 x2 x3 if age>14. mean x1 x2 x3,输出均值、标准误和95%的置信 区间。 按变量e分类来求取a、b、c三个变量的区间估 计:mean a b c,over(e)
界面:
菜单基本功能:
快捷根据图表的基本功能:
Stata数据的读入
log文件。
创建文件:log using “文件路径和名称”,其后带 append表示在原有文件的基础上增加新内容,其后 带replace表示取代原记录文件; 暂停:log off; 再次开始:log on; 关闭:log close。
数据的转换(reshape)
数据的结构:
宽数据(wide format) 长数据(long format)
菜单:
Data-Create or change variables-Other variable transformation commands-Convert data between wide & long。
交互分类表:
.tab a b或者.tab2 a b c(给出其中任意两变量的交互分类 表) 统计量的检验:
附加命令的功能。
Chi2:计算Person卡发值,检验交互表中的行与列变量是否独 立,不能用于加强数据; exact:展示Fisher精确检验的显著水平; expected gamma:展示Goodman和Kruskal的gamma值和其渐近 线的标准误,适合于定序数据,不能与加权数据连用; lrchi2:展示似然卡方,若任意单元格的频数为0,该选项无法 执行; taub:展示Kendall的tau-b值及其渐近线的标准误,适合于定序 数据; V:展示Cramer的V。
tab a b,sum(c)
图形的制作
y和x的散点图:
graph twoway scatter y x;twoway scatter y x; scatter y x
y和x的线图:
graph twoway line y x;twoway line y x; line y x。注意: 先将x排序再做图,否则图会杂乱无章。 graph bar y,over(x);按照x变量分类的横向条形图: graph hbar y,over(x);
数据库的描述
描述数据的基本情况:describe, d
describe, simple:只展示变量名; describe,short:报告变量总体情况; describe,detail:输出全部变量的全部信息; describe a b c:描述部分变量的情况。
变量编码本:
codebook。 codebook+变量名:描述变量特征。
双变量描述
附加命令的功能。
单元格:
cchi2:展示每个单元格对Person卡方的贡献; clrchi2展示每个单元格对似然卡方的贡献; column提供列百分比; row提供行百分比; cell提供总百分比; expected提供每个单元格的期望频数; nofreq不显示频数或者不显示具体表格,直接显示统计量。
数据的存储空间:
增加存储空间(set mem 40m) 清空存储空间(clear,相当于drop all)。
Stata数据的读入
数据的读入:
可直接读入下列尾缀形式的数 据.dta/.txt/.raw/.xls; 读入文件中的部分变量:use a b c using“文件路 径和名称”; 读入文件中的部分样本:use “文件路径和名称” in X/Y(X、Y表示个案序号); 读入文件中某些特征的样本:use“文件路径和 名称”if 条件句;
STATA统计软件操作
Stata入门 Stata的数据读入 数据库的描述 变量的生成与处理 数据的合并 数据的转换 单变量描述 双变量描述
描述数据的统计量 图形的制作 参数估计:区间估计 假设检验 方差分析 相关分析 线性回归分析
Stata入门
压缩变量的命令为compress
Compress为压缩所有变量; Compress yr*为压缩共同前缀的变量; Compress a-c为压缩从a到c之间的所有变量。
数据库的描述
描述变量取值的基本命令参数:
inspect。
显示数据:
browse直接进入数据的浏览窗口; list最好指定变量,否则会输出数据中所有变量 的分布。
egen a_mean=mean(a),by (b)
按照变量b的分类生成均值变量:
生成一个变量b和c的行均值变量(avg),忽略缺 失值:
egen avg=rmean(b c) egen zweight=std(weight)
生成标准数值:
计算每一年观察的样本,从而了解在每年的调查 中,有多少相同的样本(或相同的个体):
“变量名”表示根据次标识符指定的、有共同 主干但尾缀不同的一组变量,生成一(多)个 新变量;选项i指定观察值的标识符,具有独一 无二的取值,是代表每个逻辑观察值的变量。
单变量描述
单个变量频数统计:
.tabulate a相当于tab a。
多个变量的单变量描述:
.tab1 a b c。
双变量描述