第五章 statar软件教程-描述性统计分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Page 11
STATA从入门到精通
5.4.3改变数据的分布
Stata提供了一个非 常强大的工具“幂阶 梯”(ladder of powers)可以尝试 表5-11所列的九种转 换的可能,然后依次 进行偏度——峰度检 验。
表5-11 幂转换阶梯 转换(tansfermation) 立方(cube) 平方(square) 公式 x3 x2 作用 缓解负偏态 同上
ຫໍສະໝຸດ Baidu
Page 15
STATA从入门到精通
【例5-6】使用数据集wage.dta,完成如下任务:
(1)得到的wage、educ、exper、tenure之间的相关系数矩阵, (2)得到的wage、educ、exper、tenure之间的协方差矩阵,
(3)sig选项给每一个相关系数做显著性检验,这个检验的原假设是 总体相关系数是0,在每一个相关系数下方标明了检验的p值。 star(.05)是为显著性超过0.05的相关系数打上星号,print(.05)则是仅 显示这些显著的相关系数,在下面的命令中我们添加这三个选项
原始(raw)
平方根(square-root) 对数(log) 平方根负倒数(negatine reciprocal root) 负倒数(negatine reciprocal) 平方负倒数(nagatine reciprocal quare) 立方负倒数(nagatine reciprocal cube)
(4)相关系数数字背后的图形直觉可以用graph matrix来方便的实 现
Page 16
STATA从入门到精通
本章结束,谢谢观看!
17
semean 平均标准误 (sd/sqrt(n))
skewness偏度 median 中位数
iqr 四分位数间距(p75 - p25) q 等价于写p25 p50 p75
Page 5
STATA从入门到精通
【例5-2】这里使用的是wage1.dta数据集,我们说明使用tabstat计 算变量wage和log(wage)的相关统计量。
(1)首先使用stat()要求定制输出地统计指标:观测值的个数、平均 数、中位数、标准差、偏度、峰度, (2)如果在命令中加入选项col(stat)通过让统计量以列的方式呈现, 可以使结果更便于分析和对比, (3)下面我们加入by(female)选项和long选项,要求Stata根据性别 分别统计wage和lwage两个变量,并且标注变量名称:
by( ):另一种设置分组的方法,当分组变量过多时,利用该选项可以是图 形更加美观明了。
Page 7
STATA从入门到精通
【例5-3】我们仍以wage数据集为例,说明箱线图绘制命令的使用。
(1)首先在不加入任何选项的情况下绘制箱线图: (2)利用箱线图还可以比较不同性别的工资分布情况,
首先我们对wage变量进行偏度—峰度检验,
(2)接下来我们对wage变量分别进行W检验Swilk(Shapiro-Wilk W test for normality)和 W' 检验Sfrancia(Shapiro-Francia W' test for normality),
(3)最后演示D’ Agostino检验,使用的命令是sktestdc,这里我们 使用未经调整过的卡方检验,即添加noadjust选项:
接下来两个命令可以对这九种转换分别作直方图和分位正态图,以便直 观地判断各种转换的可行性,它们的格式是:
gladder varname [if] [in]
qladder varname [if] [in]
Page 13
STATA从入门到精通
【例5-5】下面我们具体说明这三个命令的使用,这里仍然使用 wage.dta数据集。
sfrancia varlist [if] [in]
④D’ Agostino检验
sktestdc varlist [=exp] [if exp] [in range] [, noadjust]
Page 10
STATA从入门到精通
【例5-4】下面我们依次举例说明这四个命令的使用,这里用到的数据仍 然是小时工资数据集wage1.dta。
(1)对wage、educ、exper、tenure、nonwhite、female、married 做基本的统计分析, (2)Summarize命令加上detail选项容许我们对某些重要的变量做更加 详尽的分析, (3)在summarize后使用in或者if来限制条件,可以获得对某个子样本 的描述性统计。 (4)使用outreg2命令导出描述性统计量。
各种正态性统计检验的命令格式和选项如下:
①偏度—峰度检验
sktest varlist [if] [in] [weight] [, noadjust]
noadjust选项用未经调整过的检验结果代替Royston (1991)对整体卡方 检验和显著性水平做调整后的结果,可能会降低检验的显著性水平, 使拒绝原假设的可能下降。
Page 4
STATA从入门到精通
使用tabstat命令计算描述性统计量
. tabstat varlist [if] [in] [weight] [, options]
选项 mean sum range var 含义 平均数 加总 极差 方差 count / n sd 观测值数目 标准差 max/ min 最大值、最小值 cv 变异系数 (sd/mean) kurtosis p# 峰度 #%百分位数
x
x0.5 log(x) -x0.5 -x -x2 -x3

缓解正偏态 同上 同上 同上 同上 同上
Page 12
STATA从入门到精通
幂阶梯共有三个相关的命令,第一个命令ladder尝试表5.8所涉及到的九 种转换,然后分别进行正态性检验,这是幂阶梯最基本的命令:
ladder varname [if] [in]
format
separator(#) separator(0)
使用变量的显示格式。
每#个变量画一条分界线,默认为separator(5), 禁止使用分界线。
Page 3
STATA从入门到精通
【例5-1】现在我们利用小时工资数据集举例说明summarize的使用。 要求使用summarize命令对wage.dta执行如下操作:
Page 8
STATA从入门到精通
5.4数据的正态性检验和数据转换
1.分位——正态图
分位——正态图的绘制的命令格式如下,
qnorm varname [if] [in] [, options]
2.正态性统计检验 这里我们介绍进行偏度—峰度检验(sktest)、D’ Agostino检验、 Shapiro—Wilk W检验和Shapiro—Francia W’检验的Stata命令。
Page 2
STATA从入门到精通
5.2描述性统计量的Stata实现
使用summarize命令计算和导出描述性统计量
summarize [varlist] [if] [in] [weight] [, options]
summarize命令的选项及其含义 detail 产生更加详细的统计变量,包括偏度、峰度、最小和最 大的四个值以及各种百分位数。 meanonly 仅计算和显示平均数,本选项在编程中比较有用。
Stata的相关系数命令不仅可以得到通常的相关系数,还可以计算协方差 矩阵,更为有用的是它还提供了对缺失值的不同处理方法。 Pearson相关系数
correlate [varlist] [if] [in] [weight] [, correlate_options] pwcorr [varlist] [if] [in] [weight] [, pwcorr_options]
graph box命令的选项:
over(varname[, over_subopts]):设定分组变量,变量可以是数值型或 者字符型变量,可以设置多达三个的分组变量。[, over_subopts]可以 指定用于排序的变量名称,也可以使用sort(1),则表明按照第一个分组 变量排序。默认排序方式为从小到大,在[, over_subopts]加入 descending则指定为按照中位数从大到小降序排列。
变异程度的度量:极差、方差、标准差
相对位置的度量:标准得分 偏度和峰度:如果数据的分布是对称的,则偏度系数为0;如果偏度系数明显不等 于0,表明分布是非对称的。若偏度系数大于1或者小于-1,被称为高度偏态分布。 峰度通常是与标准正态分布比较,Stata计算的峰度系数未减3,故而是与3作比 较而不是与0作比较。若峰度系数等于3则服从标准正态分布,反之则意味着分 布比正态分布更尖或者更平。
STATA 从入门到精通
第五章 描述性统计分析
5.1 描述性统计的原理
5.1.1定性变量
定义5.1 对给定的类,类(或组)频数是指落入这个类中的观测值的个数。 定义5.2 对给定的类,类(或组)相对频率是指落入这个类中的观测值的个数相 对于观测值总数的比例。 因此,频率和频数是描述定性变量的两个重要指标。 5.1.2.定量变量 集中趋势的度量:均值、中位数、众数。
Page 9
STATA从入门到精通
②Shapiro—Wilk W检验
swilk varlist [if] [in] [, options]
该命令的选项及其含义是:generate(newvar) :产生包含W检验系 数的新变量; lnnormal:对ln(X-k)做正态性检验,其中k使得ln(X) 偏度为0。我们使用lnskew0来确定k的取值。 ③Shapiro—Francia W’检验
Page 6
STATA从入门到精通
5.3探测异常值——箱线图
下面的第一个命令绘制纵向图,第二个命令绘制横向图。
graph box yvars [if] [in] [weight] [, options]
graph hbox yvars [if] [in] [weight] [, options]
(1)对wage尝试表5.11中的各种转换
(2)尝试命令gladder以及分位—正态图的幂阶梯版本qladder,通过 这两个命令可以非常轻松地比较每种转换的直方图和正态分布曲线。
Page 14
STATA从入门到精通
5.5相关系数
常用的相关系数共有如下四种:Pearson相关系数、.Kendall τ相关系数、 Spearman秩相关系数以及偏相关系数。
相关文档
最新文档