stata初级入门3-描述性统计指标

合集下载

Stata软件基本操作:统计描述入门

Stata软件基本操作:统计描述入门

Stata软件基本操作和数据分析入门第二讲统计描述入门赵耐青一调查某市1998年110名19岁男性青年的身高(cm)资料如下,计算均数、标准差、中位数、百分位数和频数表。

Stata数据结构(读者可以把数据直接粘贴到Stata的Edit窗口)在介绍统计分析命令之前,先介绍打开一个保存统计分析结果的文件操作:计算样本的均数、标准差、最大值和最小值命令1:su 变量名 (可以多个变量:即:su 变量名1 变量名2 …变量名m)命令2:su 变量名,d (可以多个变量:即:su 变量名1 变量名2 …变量名m,d) 本例命令su x本例命令. su x,d计算百分位数还可以用专用命令centile。

centile 变量名(可以多个变量),centile(要计算的百分位数) 例如计算P2.5,P97.5等centile 变量名,centile(2.5 97.5)本例计算P2.5,P97.5,P50,P25,P75。

本例命令. centile x,centile(2.5 25 50 75 97.5)制作频数表,组距为2,从164开始,gen f=int((x-164)/2)*2+164 其中int( )表示取整数tab f 频数汇总和频率计算作频数图命令 graph 变量,bin(#) norm其中#表示频数图的组数;norm表示画一条相应的正态曲线(可以不要) 本例命令为graph x,bin(8) norm为了使坐标更清楚地在图上显示,可以输入下列命令graph x,bin(8) xlabel norm ylabel图形可以从Stata中复制到word中来,操作如下:计算几何均数可以用means 变量名(可以多个变量:即:means 变量1 …变量m) means x作Pie图描述构成比:每一类的频数用一个变量表示,命令:graph 各类频数变量名,pie第1地区血型构成比的Pie图的命令和图graph a b o ab if area==1,pie注意逻辑表达式中if area==1是两个等号。

第五章 statar软件教程-描述性统计分析

第五章 statar软件教程-描述性统计分析
首先我们对wage变量进行偏度—峰度检验,
(2)接下来我们对wage变量分别进行W检验Swilk(Shapiro-Wilk W test for normality)和 W' 检验Sfrancia(Shapiro-Francia W' test for normality),
(3)最后演示D’ Agostino检验,使用的命令是sktestdc,这里我们 使用未经调整过的卡方检验,即添加noadjust选项:
Page 11
STATA从入门到精通
5.4.3改变数据的分布
Stata提供了一个非 常强大的工具“幂阶 梯”(ladder of powers)可以尝试 表5-11所列的九种转 换的可能,然后依次 进行偏度——峰度检 验。
表5-11 幂转换阶梯
转换(tansfermation)
公式

立方(cube)
graph box命令的选项:
over(varname[, over_subopts]):设定分组变量,变量可以是数值型或 者字符型变量,可以设置多达三个的分组变量。[, over_subopts]可以 指定用于排序的变量名称,也可以使用sort(1),则表明按照第一个分组 变量排序。默认排序方式为从小到大,在[, over_subopts]加入 descending则指定为按照中位数从大到小降序排列。
Page 14
STATA从入门到精通
5.5相关系数
常用的相关系数共有如下四种:Pearson相关系数、.Kendall τ相关系数、 Spearman秩相关系数以及偏相关系数。 Stata的相关系数命令不仅可以得到通常的相关系数,还可以计算协方差 矩阵,更为有用的是它还提供了对缺失值的不同处理方法。 Pearson相关系数

stata中如何导出描述性统计结果

stata中如何导出描述性统计结果

Stata入门——如何导出描述性统计1.打开stata,进入do file 界面。

2.导入需要分析的数据// use “文件路径”,clear (文件路径可以通过shift+鼠标右键获得)3.输入描述性统计命令// tabstat 变量1 变量2 变量3......变量X, s(N mean sd min max)f(%12.3f) c(s) (其中tabstat是进行表格格式统计;s为statistics,其后面根据的是所需要的统计量内容,若需要其他统计量,可以键入help tabstat,运行后得出帮助;f为数据汇报表格格式format,c(s)代表用统计量名称作为列名)进行完上述操作之后,基本完成了变量的描述性统计,接下来需要做的是将上述得到的结果导出到excel导出命令有的软件需要事先安装,安装编码为ssc install logout,运行后可继续操作4.输入导出命令//logout,save(mytable)word replace:)(word代表保存的格式,可以代替为excel等,replace代表若已存在该文件则替代,无则直接保存)//导出结果可以导出到excel再复制到word再右键自动调整格式,这样得出的表格格式会相对美观。

综上,导出描述性统计的完整命令可以键入为:logout,save(mytable)word replace:)(word代表保存的格式,可以代替为excel等,replace代表若已存在该文件则替代,无则直接保存)tabstat 变量1 变量2 变量3......变量X, s(N mean sd min max)f(%12.3f) c(s) (其中tabstat是进行表格格式统计;s为statistics,其后面根据的是所需要的统计量内容,若需要其他统计量,可以键入help tabstat,运行后得出帮助;f为数据汇报表格格式format,c(s)代表用统计量名称作为列名)。

stata中变量描述分析和作图..

stata中变量描述分析和作图..
• Stata的默认方法是,tab后面的第一个变量被当成行变量, 第二个变量被当成列变量
• .tab2也提供双变量的交叉分析表 • .tab和tab2的主要区别在于,前者仅可以用于两个变量的
交互分析(tab后面最多只能有两个变量);tab2可同时 生成多个两两变量之间的交互频数分布表
例1
.tab girl enroll, chi2 column row miss nokey ① ② ③④⑤
6.3.频数分布的常见错误之二
• too many values • 导致这类错误的原因在于,在试图生成两个变量的交叉表
时,每个变量都包含太多的取值。比如:
. tab age weight . too many values
(变量的取值太多)
• 这里,变量age和weight均为连续变量,且都有很多的取值, 尤其是weight
多变量频数分布
. tab1 [变量a 变量b 变量c]


①:同时获得多个变量频数分布的基本命令
②:需要输出频数分布的变量名称
• 与tab或tabulate不同的是, . tab1可接多个变量 . tab girl urban
– 该命令告诉Stata,给变量girl和urban各自生成一张频数分布表
菜单窗口
• 在Stata的窗口菜单下,有多种描述数据频数分布 特征的选项,每一选项都具有一定独特的功能, 但有些功能是相通的
窗口路径 Table of summary statistics (table) Table of summary statistics (tabstat) One/two-way table of summary statistics One-way tables

stata初级入门描述性统计指标

stata初级入门描述性统计指标
选项:missing缺失值也作一类,plot作柱状图 范例:tabulate foreign/tab1 foreign id
2020年10月13日星期二《计量经济学Fra bibliotek件应用》8
菜单1: Statistics > Summaries, tables, and
tests > Tables > One-way tables
《计量经济学软件应用》
4
菜单:Statistics>Summaries, tables, and tests >Tables>Table of summary statistics (tabstat)
2020年10月13日星期二
《计量经济学软件应用》
5
ameans命令
估计算术、几何和调和平均数 语法:ameans [varlist] [if] [in] [weight]
stata入门3 ——统计指标篇
江金启 沈阳农业大学经济管理学院
一、基本描述统计量
summarize命令
可概括观测值个数、平均值、标准差、最大值和最 小值五个指标。
语法:summarize varlist [in] [if] [weight] [,options] 选项:detail可统计方差、偏度、峰度和各个分位
列联表给出从属于两个分类变量不同类别的观测 值的频数
如果两个分类变量各有r,c个类别,则列联表共有 r×c个单元格
Car type
id
1
2
Total
Domestic Foreign
7
37
44
4
16
20
Total
11
53
64

stata描述性统计代码

stata描述性统计代码

stata描述性统计代码Stata是一种强大的数据分析软件,它提供了丰富的统计分析功能和数据处理工具。

在Stata中进行描述性统计分析是非常常见的一种数据处理任务,下面是一些常用的Stata描述性统计代码: 1. 描述性统计分析summarize varname通过summarize命令可以计算变量varname的描述性统计量,包括平均数、标准差、最小值、最大值、中位数等。

2. 频数统计tabulate varname通过tabulate命令可以计算变量varname的频数统计,包括每个取值的频数和频率。

3. 分组统计summarize varname, by(groupvar)通过by子句可以按照groupvar变量进行分组统计,计算每个组别内变量varname的描述性统计量。

4. 交叉统计tabulate varname1 varname2通过tabulate命令可以计算两个变量varname1和varname2的交叉统计表,包括每个组合的频数和频率。

5. 分组交叉统计tabulate varname1 varname2, by(groupvar)通过by子句可以按照groupvar变量进行分组交叉统计,计算每个组别内两个变量varname1和varname2的交叉统计表。

6. 相关分析correlate varname1 varname2通过correlate命令可以计算两个变量varname1和varname2之间的相关系数和协方差。

7. 回归分析regress depvar indepvar1 indepvar2...通过regress命令可以进行回归分析,其中depvar为因变量,indepvar1、indepvar2等为自变量。

以上是一些常用的Stata描述性统计代码,可以帮助你快速地完成数据分析任务。

stata描述性统计命令

stata描述性统计命令

stata描述性统计命令
Stata的描述性统计命令有多种,它们可以帮助研究者更好地了解数
据集的总体特征。

summarize命令用于描述变量的汇总统计。

它可以提供数据的总体基
本统计信息,包括变量的极值,求和和平均值,标准偏差,偏度和峰度等。

tabstat命令可以提供许多汇总统计,如平均数,极差,中位数,众数,标准偏差,偏度和峰度等。

means命令用于计算一般变量的平均值,可以指定组分的变量(空格
分隔),以计算某个变量对应不同组分的平均值。

summarize, tabstat和means命令都可以设置if和in选项,以按
某个条件或某组约束变量汇总统计。

假设检验命令可以用于检验某个假设是否为真。

t-test可以用来检
验均值之间是否存在显著差异;ranksum可以用来检验两个样本是否具有
相同或不同的数据分布;correlate可以用来检验两个变量之间是否存在
线性关系。

graph box可以创建箱线图,以显示一组数据的总体分布。

histogram可以创建一种特定的直方图,可以清楚地显示数据的分布
状况。

Stata还提供了其他描述性统计命令,比如contrast,prtest,correlate等,用于更深入地了解数据集的总体特征。

(完整版)STATA第二章描述性统计命令与输出结果说明

(完整版)STATA第二章描述性统计命令与输出结果说明

第二章描述性统计命令与输出结果说明上述数据也可以用变量x表示血磷测定值,分组变量group=0表示患者组和group=1表示健康组(如:患者组中第一个数据为2.6,则x=2.6,group=0;又如:健康组中第三个数据为1.98,则x为1.98以及group为1),并假定这些数据已以STATA格式存入ex2a.dta文件中。

计算资料均数,标准差命令summarize,以述资料为例:. summarizeVariable Obs Mean Std. Dev. Min Maxx1 11 4.710909 1.302977 2.6 6.53x2 13 3.354615 1.304368 1.67 5.78Mean 均值;Std.Dev.标准差即:本例中急性克山病患者组的样本数为11,血磷测定值均数为4.711(mg%),相应的标准差为1.303,最小值为2.6以及最大值为6.53;健康组的样本量为13,血磷测定值均数为3.3546,相应的标准差为1.3044,最小值为1.67以及最大值为5.78。

计算资料均数,标准差,中位数,低四分位数和高四分位数的命令summarize 以及子命令detail,仍以述资料为例:. summarize x1 x2,detailx1Percentiles Smallest1% 2.6 2.65% 2.6 3.2410% 3.24 3.73 Obs 1125% 3.73 3.73 Sum of Wgt. 1150% 4.73 Mean 4.710909Largest Std. Dev. 1.30297775% 5.78 5.5890% 6.4 5.78 Variance 1.69774995% 6.53 6.4 Skewness -.081344699% 6.53 6.53 Kurtosis 1.809951x2Percentiles Smallest1% 1.67 1.675% 1.67 1.9810% 1.98 1.98 Obs 1325% 2.33 2.33 Sum of Wgt. 1350% 3.6 Mean 3.354615Largest Std. Dev. 1.30436875% 4.17 4.1790% 4.82 4.57 Variance 1.70137795% 5.78 4.82 Skewness .296394399% 5.78 5.78 Kurtosis 1.875392.结果:Percentiles 显示了从1%到99%的分位数的取值。

Stata统计分析命令..

Stata统计分析命令..

Stata统计分析常用命令汇总一、winsorize极端值处理范围:一般在1%和99%分位做极端值处理,对于小于1%的数用1%的值赋值,对于大于99%的数用99%的值赋值。

1、Stata中的单变量极端值处理:stata 11.0,在命令窗口输入“findit winsor”后,系统弹出一个窗口,安装winsor模块安装好模块之后,就可以调用winsor命令,命令格式:winsor var1, gen(new var) p(0.01) 或者在命令窗口中输入:ssc install winsor安装winsor命令。

winsor命令不能进行批量处理。

2、批量进行winsorize极端值处理:打开链接:/judson.caskey/data.html,找到winsorizeJ,点击右键,另存为到stata中的ado/plus/目录下即可。

命令格式:winsorizeJ var1var2var3,suffix(w)即可,这样会生成三个新变量,var1w var2w var3w,而且默认的是上下1%winsorize。

如果要修改分位点,则写成如下格式:winsorizeJ var 1 var2 var3,suffix(w) cuts(5 95)。

3、Excel中的极端值处理:(略)winsor2 命令使用说明简介:winsor2 winsorize or trim (if trim option is specified) the variables in varlist at particular percentiles specified by option cuts(# #). In defult, new variables will be generated with a suffix "_w" or "_tr", which can be changed by specifying suffix() option. The replace option replaces the variables with their winsorized or trimmed ones.相比于winsor命令的改进:(1) 可以批量处理多个变量;(2) 不仅可以winsor,也可以trimming;(3) 附加了by() 选项,可以分组winsor 或trimming;(4) 增加了replace 选项,可以不必生成新变量,直接替换原变量。

第五章 statar软件教程-描述性统计分析

第五章 statar软件教程-描述性统计分析

sfrancia varlist [if] [in]
④D’ Agostino检验
sktestdc varlist [=exp] [if exp] [in range] [, noadjust]
Page 10
STATA从入门到精通
【例5-4】下面我们依次举例说明这四个命令的使用,这里用到的数据仍 然是小时工资数据集wage1.dta。
变异程度的度量:极差、方差、标准差
相对位置的度量:标准得分 偏度和峰度:如果数据的分布是对称的,则偏度系数为0;如果偏度系数明显不等 于0,表明分布是非对称的。若偏度系数大于1或者小于-1,被称为高度偏态分布。 峰度通常是与标准正态分布比较,Stata计算的峰度系数未减3,故而是与3作比 较而不是与0作比较。若峰度系数等于3则服从标准正态分布,反之则意味着分 布比正态分布更尖或者更平。
表511幂转换阶梯转换tansfermation公式作用立方cubex3缓解负偏态平方squarex2同上原始rawx无平方根squarerootx05缓解正偏态对数loglogx同上平方根负倒数negatinereciprocalrootx05同上负倒数negatinereciprocalx同上平方负倒数nagatinereciprocalquarex2同上立方负倒数nagatinereciprocalcubex3同上page14stata从入门到精通幂阶梯共有三个相关的命令第一个命令ladder尝试表58所涉及到的九种转换然后分别进行正态性检验这是幂阶梯最基本的命令
Page 15
STATA从入门到精通
【例5-6】使用数据集wage.dta,完成如下任务:
(1)得到的wage、educ、exper、tenure之间的相关系数矩阵, (2)得到的wage、educ、exper、tenure之间的协方差矩阵,

STATA第二章描述性统计命令与输出结果说明

STATA第二章描述性统计命令与输出结果说明

第二章描述性统计‎命令与输出‎结果说明例:某地测定克‎山病患者与‎克山病健康‎人的血磷测‎定值如下表‎据。

上述数据也‎可以用变量‎x表示血磷‎测定值,分组变量g‎r oup=0表示患者‎组和gro‎u p=1表示健康‎组(如:患者组中第‎一个数据为‎2.6,则x=2.6,group‎=0;又如:健康组中第‎三个数据为‎1.98,则x为1.98以及g‎r oup为‎1),并假定这些‎数据已以S‎T ATA格‎式存入ex‎2a.dta文件‎中。

计算资料均‎数,标准差命令‎s u mma‎r ize,以述资料为例:. summarizeVariable Obs Mean Std. Dev. Min Maxx1 11 4.710909 1.302977 2.6 6.53x2 13 3.354615 1.304368 1.67 5.78Mean 均值;Std.Dev.标准差即:本例中急性‎克山病患者‎组的样本数‎为11,血磷测定值‎均数为4.711(mg%),相应的标准‎差为1.303,最小值为2‎.6以及最大‎值为6.53;健康组的样‎本量为13‎,血磷测定值‎均数为3.3546,相应的标准‎差为1.3044,最小值为1‎.67以及最‎大值为5.78。

计算资料均‎数,标准差,中位数,低四分位数‎和高四分位‎数的命令s‎ummar‎i ze 以及‎子命令de‎t ail,仍以述资料‎为例:. summarize x1 x2,detailx1Percentiles Smallest1% 2.6 2.65% 2.6 3.2410% 3.24 3.73 Obs 1125% 3.73 3.73 Sum of Wgt. 1150% 4.73 Mean 4.710909Largest Std. Dev. 1.30297775% 5.78 5.5890% 6.4 5.78 Variance 1.69774995% 6.53 6.4 Skewness -.081344699% 6.53 6.53 Kurtosis 1.809951x2Percentiles Smallest1% 1.67 1.675% 1.67 1.9810% 1.98 1.98 Obs 1325% 2.33 2.33 Sum of Wgt. 1350% 3.6 Mean 3.354615Largest Std. Dev. 1.30436875% 4.17 4.1790% 4.82 4.57 Variance 1.70137795% 5.78 4.82 Skewness .296394399% 5.78 5.78 Kurtosis 1.875392.结果:Perce‎n tile‎s显示了从1‎%到99%的分位数的‎取值。

stata输出命令全记录:描述性统计、相关性分析、回归结果

stata输出命令全记录:描述性统计、相关性分析、回归结果

stata输出命令全记录:描述性统计、相关性分析、回归结果一、描述性统计ssc install outreg2【安装outreg2】sum var1 var2……【描述性统计命令sum 变量var1 var2……】outreg2 using test1.doc, replace sum(log)【将结果输出到test1.doc文件中】二、相关系数表方法1:ssc install logout【安装logout】logout, save(test2) word replace: pwcorr var1 var2……, sig star(0.1)【将结果输出到test2.rtf文件中,p值小于0.1的标*】方法2:ssc install logout【安装logout】网上下载pwcorr_a.ado文件,放入stata12\ado\base\p 文件夹中logout, save(test3) word replace: pwcorr_a var1 var2……, star1(0.01)star5(0.05)star10(0.1)【将结果输出到test3.rtf文件中,p值小于0.1的标*,小于0.05标**,小于0.01标***】需要注意的是,logout 命令得到的表格一般会存在错位和空行的现象,这就需要手动做一些调整,如将第一行的表头往右移一列,p 值向右移,并将多余的行删掉,同时还要对p 值加上括号,并在表的底端注明星号的含义。

三、回归结果qui reg y x(qui表示执行命令但不汇报回归结果)est sto ols(est sto表示储存回归结果,文件名为ols)est table ols,b se(选择项“b”表示显示回归系数,“se”表示显示标准误)用一颗星表示10%的显著性,两颗星表示5%的显著性,三颗星表示 1%的显著性,可使用如下命令:est table ols,star(0.1 0.05 0.01)Stata 官方命令“estimates table”无法同时显示回归系数、标准误与表示显著性的星号。

stata做描述统计步骤

stata做描述统计步骤

stata做描述统计步骤
首先,导入数据集auto.dta通过存储文件打开该数据的stata命令为:use "D:\你自己存放auto.dta文件的路径\auto.dta"。

或者打开stata软件自带的数据集。

相应的Stata命令为sysuse auto,clear出现这样的结果表示数据导入成功。

数据导入成功以后,可先输入stata 命令:describe查看数据集的大致信息。

接下来,我们根据自己的研究需要,选择具体的变量或者全部的变量进行描述性分析。

Stata的操作演示如下:输入stata命令:summarize
summarize后可以跟具体变量的名称,如果不跟变量名称,则默认对全部变量进行描述性分析,两种结果如下:
(1)输入命令:summarize,得到全部变量的描述性统计结果。

(2)输入命令:summarize price mpg rep78 headroom,得到部分变量的描述性统计结果。

打开描述性统计结果1.doc文件对其进行整理,使之符合论文的要求以及更美观。

stata描述性统计代码

stata描述性统计代码

stata描述性统计代码
Stata是统计分析软件之一,其描述性统计功能应用广泛,可以快速地计算数据的基本统计量和一些描述性指标。

以下是Stata 描述性统计代码示例。

1. 导入数据
使用命令“use”或“import”导入数据,例如:
use 'C:Usersexampledata.dta'
2. 计算基本统计量
使用命令“summarize”或“su”计算变量的基本统计量,例如:
su var1 var2 var3
该命令将输出变量var1、var2和var3的均值、标准差、最小值、最大值和有效观测数量。

3. 计算频数和百分比
使用命令“tabulate”或“tab”计算分类变量的频数和百分比,例如:
tab var4
该命令将输出变量var4的频数和百分比,以及每个类别的有效观测数量。

4. 绘制直方图
使用命令“histogram”或“hist”绘制变量的直方图,例如: hist var5
该命令将输出变量var5的直方图,并计算出分布的峰值和中位数。

5. 计算相关系数
使用命令“correlate”或“corr”计算变量之间的相关系数,例如:
corr var1 var2 var3
该命令将输出变量var1、var2和var3之间的相关系数矩阵。

6. 计算回归分析
使用命令“regress”或“reg”进行回归分析,例如:
regress var1 var2 var3
该命令将输出变量var1、var2和var3的回归系数、标准误差、t值、p值和R-squared。

以上是Stata描述性统计代码示例,可以根据不同的数据和研究需求进行相应的调整和扩展。

stata描述性统计代码

stata描述性统计代码

stata描述性统计代码
Stata是一种流行的统计分析软件,可用于数据管理、数据分析和图形展示等多种应用。

在分析数据时,描述性统计是最基础、最常用的方法之一。

本文将介绍使用Stata进行描述性统计分析的代码。

1. 导入数据
首先需要将数据导入到Stata中进行分析。

假设数据保存在名为data.dta的Stata数据文件中,则可以使用以下命令将数据导入: ```
use data.dta
```
2. 描述性统计
Stata提供了多种方式进行描述性统计分析,包括简单的统计量、频率分布表、交叉表、分组统计等。

以下是一些常用的命令和语法: - 简单统计量
可以使用summarize命令计算变量的均值、标准差、最小值、最大值等统计量。

```
summarize var1 var2 var3
```
- 频率分布表
使用tabulate命令可以生成变量的频率分布表。

```
tabulate var1
```
- 交叉表
使用tab命令可以生成多变量的交叉表。

```
tab var1 var2
```
- 分组统计
使用collapse命令可以进行数据的分组统计。

```
collapse (mean) var1 var2, by(group_var)
```
以上是Stata进行描述性统计的一些基本命令和语法,可以根据具体数据和需求进行调整和扩展。

stata初级入门3-描述性统计指标

stata初级入门3-描述性统计指标

2021/1/7
《计量经济学软件应用》
15
四、列联表描述统计量
tabulate, summarize() :单个或两个分类变量 的描述性统计
格式:tabulate varname1 [varname2] [if] [in] [weight] [, options]
选项:[no] means(不)包含均值,[no] standard(不)包含标准差,[no] freq(不) 包含频数,[no] obs(不)包含观测值个数, missing将缺失值作为一类
tab2 varlist [if] [in] [weight] [, options]
范例:tab2 foreign id rep78
2021/1/7
《计量经济学软件应用》
14
菜单:Statistics > Summaries, tables, and tests > Tables > All possible two-way tabulations
2021/1/7
《计量经济学软件应用》
5
ameans命令
估计算术、几何和调和平均数 语法:ameans [varlist] [if] [in] [weight]
[,options] 范例:ameans price
2021/1/7
《计量经济学软件应用》
6
菜单:Statistics > Summaries, tables, and tests > Summary and descriptive statistics > Arith./geometric/harmonic means
语法: tabstat varlist [if] [in] [weight] [, options] 选项:默认结果是均值。

Stata—描述性统计

Stata—描述性统计

Stata—描述性统计1.资料的基本信息①summarizesummarize:汇总所有变量的名称,个案数⽬,均值,标准差等,缩写为sumformat age %6.2f:指定age变量的统计量输出时的保留2位⼩数sum age, format:结合上个命令,对年龄变量进⾏描述的汇总保留2位⼩数sum age,detail:汇总更加详细的信息②codebookcodebook没有sum详细codebook:汇总所有变量codebook var:汇总var变量③inspectinspect age:可以画出简单的直⽅图2.基本信息的统计①tabulate和table命令tabulate places:对places变量进⾏列表统计,此命令可缩写为tabtable places:只有频数统计,不可缩写为tabtab places price:统计不同地⽅的价格的列表tab places price:统计不同places的price的列表②tabstat命令tabstat price places:显⽰2个变量的平均值tabstat price places, stats(mean med min max):显⽰2个变量的平均值,中位数等统计量tabstat price places, stat(mean med min max p25) col(s) format(%6.2f):均值等统计量在表格的⾏中,并且将结果⼩数点保持在2位。

此命令也可以写为tabstat price places, s(mean med min max) c(s) f(%6.2f)。

tabstat price places, s(mean med min max) c(s) f(%6.2f) by (gender):根据性别分类来陈述上述的统计量。

③结果呈现(1)将Stata中的结果选中,右击⿏标选择Copy table,直接贴⼊Excel或者Word。

Stata教程:描述性统计命令与输出结果说明

Stata教程:描述性统计命令与输出结果说明

本节STATA命令摘要by分组变量:]summarize变量名1变量名2…变量名m[,detail]ci变量名1变量名2…变量名m[,level(#)binomialpoissonexposure(varname)by(分组变量)]cii样本量均数标准差[,level(#)]tab1变量名[,generate(变量名)]·资料特征描述(均数,中位数,离散程度)例:某地测定克山病患者与克山病健康人的血磷测定值如下表(数据摘自四川医学院主编的卫生统计学,1978出版,p21):患者2.63.243.733.734.324.735.185.585.786.406.53健康人1.671.981.982.332.342.503.603.734.144.174.574.825.78并假定这些数据已以STATA格式存入ex2.dta文件中,其中变量x1为患者的血磷测定值数据,变量x2为健康人的血磷测定值数据。

上述数据也可以用变量x表示血磷测定值,分组变量group=0表示患者组和group=1表示健康组(如:患者组中第一个数据为2.6,则x=2.6,group=0;又如:健康组中第三个数据为1.98,则x为1.98以及group为1),并假定这些数据已以STATA格式存入ex2a.dta文件中。

计算资料均数,标准差命令summarize,以述资料为例:useex2,clearsummarizex1x2结果:变量样本数均数标准差最小值最大值Variable|ObsMeanStd.Dev.MinMax---------+x1|114.7109091.3029772.66.53x2|133.3546151.3043681.675.78即:本例中急性克山病患者组的样本数为11,血磷测定值均数为4.711(mg%),相应的标准差为1.303,最小值为2.6以及最大值为6.53;健康组的样本量为13,血磷测定值均数为3.3546,相应的标准差为1.3044,最小值为1.67以及最大值为5.78。

Stata统计分析命令

Stata统计分析命令

Stata统计分析常用命令汇总一、winsorize极端值处理范围:一般在1%和99%分位做极端值处理,对于小于1%的数用1%的值赋值,对于大于99%的数用99%的值赋值。

1、Stata中的单变量极端值处理:stata 11.0,在命令窗口输入“findit winsor”后,系统弹出一个窗口,安装winsor模块安装好模块之后,就可以调用winsor命令,命令格式:winsor var1, gen(new var) p(0.01) 或者在命令窗口中输入:ssc install winsor安装winsor命令。

winsor命令不能进行批量处理。

2、批量进行winsorize极端值处理:打开链接:/judson.caskey/data.html,找到winsorizeJ,点击右键,另存为到stata中的ado/plus/目录下即可。

命令格式:winsorizeJ var1var2var3,suffix(w)即可,这样会生成三个新变量,var1w var2w var3w,而且默认的是上下1%winsorize。

如果要修改分位点,则写成如下格式:winsorizeJ var 1 var2 var3,suffix(w) cuts(5 95)。

3、Excel中的极端值处理:(略)winsor2 命令使用说明简介:winsor2 winsorize or trim (if trim option is specified) the variables in varlist at particular percentiles specified by option cuts(# #). In defult, new variables will be generated with a suffix "_w" or "_tr", which can be changed by specifying suffix() option. The replace option replaces the variables with their winsorized or trimmed ones.相比于winsor命令的改进:(1) 可以批量处理多个变量;(2) 不仅可以winsor,也可以trimming;(3) 附加了by() 选项,可以分组winsor 或trimming;(4) 增加了replace 选项,可以不必生成新变量,直接替换原变量。

【stata代码模板】描述性统计_summarize_table_tablestat

【stata代码模板】描述性统计_summarize_table_tablestat

【stata代码模板】描述性统计_summarize_table_tablestat(1)summarize简单描述————————————————模板————————————————summarize 要描述的变量1 要描述的变量2… if var==value1,detail format ————————————————模板————————————————If用来筛选满足条件的数据。

detail意味着详细描述,比缺省状态下多出偏度、峰度、方差、9个百分位数、4个最大值、4个最小值。

Format则将显示格式设置为变量的显示格式,而不是默认的普通格式。

这三个选项可以不要。

比如,描述班级中,女生的语文和英语成绩tummarize Chinese English if gender==”女”(2)table列表统计——————————————模板——————————————table 行变量列变量,row c(统计量1 变量1 统计量2 变量2 …) ——————————————模板——————————————也可以只有行变量,没有列变量。

Row的作用是产生总计行total,可以缺省。

统计量1 变量1:如mean x就是x的均值。

常用的统计量有:Freq 频数Mean 均值Sd 标准差SumCount 非缺失值个数N 同countMaxMinMedianP# 第#百分位数Iqr 四分位数之差,即上四分位数-下四分位数比如,描述不同班级不同性别的语文平均成绩,即班级作为行变量,性别作为列变量:table class,gender,row c(mean)(3)tabstat多个变量进行描述———————————————————模板——————————————————tabstat 要描述的变量1 要描述的变量2 要描述的变量3 … if…,stat(统计量1 统计量2 …) by (分类变量)———————————————————模板——————————————————比如,按班级分组计算语文、英语和数学成绩的均值:tabstat Chinese English maths,stat(mean) by(class)。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数等指标。 范例:summarize price mpg
2020年2月8日星期六
《计量经济学软件应用》
2
菜单:Statistics > Summaries, tables, and tests > Summary and descriptive statistics > Summary statistics
2020年2月8日星期六
《计量经济学软件应用》
19
六、正态性检验
sktest varname swilk varname
2020年2月8日星期六
《计量经济学软件应用》
20
本讲练习
2020年2月8日星期六
《计量经济学软件应用》
21
列联表给出从属于两个分类变量不同类别的观测 值的频数
如果两个分类变量各有r,c个类别,则列联表共有 r×c个单元格
Car type
id
1
2
Total
Domestic Foreign
7
37
44
4
16
20
Total
11
53
64
2020年2月8日星期六
《计量经济学软件应用》
11
tabulate命令: 语法1——指定两个变量的列联表
[,options] 范例:ameans price
2020年2月8日星期六
《计量经济学软件应用》
6
菜单:Statistics > Summaries, tables, and tests > Summary and descriptive statistics > Arith./geometric/harmonic means
2020年2月8日星期六
《计量经济学软件应用》
16
菜单:Statistics > Summaries, tables, and tests > Tables > One/two-way table of summary statistics
2020年2月8日星期六
《计量经济学软件应用》
17
五、经验分布函数
2020年2月8日星期六
《计量经济学软件应用》
15
四、列联表描述统计量
tabulate, summarize() :单个或两个分类变量 的描述性统计
格式:tabulate varname1 [varname2] [if] [in] [weight] [, options]
选项:[no] means(不)包含均值,[no] standard(不)包含标准差,[no] freq(不) 包含频数,[no] obs(不)包含观测值个数, missing将缺失值作为一类
《计量经济学软件应用》
4
菜单:Statistics>Summaries, tables, and tests >Tables>Table of summary statistics (tabstat)
2020年2月8日星期六
《计量经济学软件应用》
5
ameans命令
估计算术、几何和调和平均数 语法:ameans [varlist] [if] [in] [weight]
2020年2月8日星期六
《计量经济学软件应用》
9
菜单2:Statistics > Summaries, tables, and tests > Tables > Multiple one-way tables
2020年2月8日星期六
《计量经济学软件应用》
10
三、两个分类变量的列联表
列联表是考察两个分类变量相关关系的方法
2020年2月8日星期六
《计量经济学软件应用》
7
二、单个分类变量的汇总统计
tabulate/tab1命令
对分类变量的描述统计是观察其不同类别的频 数或百分数。
语法1:tabulate varname [if] [in] [weight] [, options]
语法2: tab1 varlist [if] [in] [weight] [, options]
标值。 nototal不报告总体统计值,通常是与by()配合使用 missing用by()选项时,显示by()变量的缺失值也作
一类的结果。
范例:tabstat price mpg, by(id) statistics(mean ma mi sd n) missing
2020年2月8日星期六
选项:missing缺失值也作一类,plot作柱状图 范例:tabulate foreign/tab1 foreign id
2020年2月8日星期六
《计量经济学软件应用》
8
菜单1: Statistics > Summaries, tables, and
tests > Tables > One-way tables
2020年2月8日星期六
《计量经济学软件应用》
3
tabstat命令
语法: tabstat varlist [if] [in] [weight] [, options] 选项:默认结果是均值。
by(varname) 按变量varname进行分组描述性统计; statistics(statname [...]) 报告指定的描述性统计指
stata入门3 ——统计指标篇
一、基本描述统计量
summarize命令
可概括观测值个数、平均值、标准差、最大值和最 小值五个指标。
语法:summarize varlist [in] [if] [weight] [,options] 选项:detail可统计方差、偏度、峰度和各个分位
tabulate varname1 varname2 [if] [in] [weight] [, options]
范例:tabulate foreign id
2020年2月8日星期六
《计量经济学软件应用》
12
菜单:Statistics > Summaries, tables, and tests > Tables > Two-way tables with measures of association
对变量累积分布函数的估计
cumul命令:通常与scatter(做散点图)一起使 用
格式:cumul varname [if] [in] [weight], generate (newvar) [options]
选项:freq使用频数作为累积分布
范例:cumul price, generate(cprice)
2020年2月8日星期六
《计量经济学软件应用》
13
语法2——多个变量内存在的所有可能列联分 析结果
tab2 varlist [if] [in] [weight] [, options]
范例:tab2 foreign id rep78
2020年2月8日星期六
《计量经济学软件应用》
14
菜单:Statistics > Summaries, tables, and tests > Tables > All possible two-way tabulations

scatter cprice price
2020年2月8日星期六
《计量tatistics > Summaries, tables, and tests > Distributional plots and tests > Generate cumulative distribution
相关文档
最新文档