Stata教学:描述性统计与绘图
stata初级入门3-描述性统计指标
2020年2月8日星期六
《计量经济学软件应用》
2
菜单:Statistics > Summaries, tables, and tests > Summary and descriptive statistics > Summary statistics
2020年2月8日星期六
《计量经济学软件应用》
19
六、正态性检验
sktest varname swilk varname
2020年2月8日星期六
《计量经济学软件应用》
20
本讲练习
2020年2月8日星期六
《计量经济学软件应用》
21
列联表给出从属于两个分类变量不同类别的观测 值的频数
如果两个分类变量各有r,c个类别,则列联表共有 r×c个单元格
Car type
id
1
2
Total
Domestic Foreign
7
37
44
4
16
20
Total
11
53
64
2020年2月8日星期六
《计量经济学软件应用》
11
tabulate命令: 语法1——指定两个变量的列联表
[,options] 范例:ameans price
2020年2月8日星期六
《计量经济学软件应用》
6
菜单:Statistics > Summaries, tables, and tests > Summary and descriptive statistics > Arith./geometric/harmonic means
stata初级入门3-描述性统计指标
2021/3/26
2
菜单:Statistics > Summaries, tables, and tests > Summary and descriptive statistics > Summary statistics
2021/3/26
2021/3/26
16
菜单:Statistics > Summaries, tables, and tests > Tables > One/two-way table of summary statistics
2021/3/26
17
五、经验分布函数
对变量累积分布函数的估计
cumul命令:通常与scatter(做散点图)一起使 用
如果两个分类变量各有r,c个类别,则列联表共有 r×c个单元格
C a r t y p e
i d 1
2 T o t a l
D o m e s t i c F o r e i g n
7 4
3 7 1 6
4 4 2 0
T o t a lFra bibliotek1 15 3
6 4
2021/3/26
11
tabulate命令: 语法1——指定两个变量的列联表
2021/3/26
13
语法2——多个变量内存在的所有可能列联分 析结果
tab2 varlist [if] [in] [weight] [, options]
范例:tab2 foreign id rep78
2021/3/26
14
菜单:Statistics > Summaries, tables, and tests > Tables > All possible two-way tabulations
Stata软件基本操作:统计描述入门
Stata软件基本操作和数据分析入门第二讲统计描述入门赵耐青一调查某市1998年110名19岁男性青年的身高(cm)资料如下,计算均数、标准差、中位数、百分位数和频数表。
Stata数据结构(读者可以把数据直接粘贴到Stata的Edit窗口)在介绍统计分析命令之前,先介绍打开一个保存统计分析结果的文件操作:计算样本的均数、标准差、最大值和最小值命令1:su 变量名 (可以多个变量:即:su 变量名1 变量名2 …变量名m)命令2:su 变量名,d (可以多个变量:即:su 变量名1 变量名2 …变量名m,d) 本例命令su x本例命令. su x,d计算百分位数还可以用专用命令centile。
centile 变量名(可以多个变量),centile(要计算的百分位数) 例如计算P2.5,P97.5等centile 变量名,centile(2.5 97.5)本例计算P2.5,P97.5,P50,P25,P75。
本例命令. centile x,centile(2.5 25 50 75 97.5)制作频数表,组距为2,从164开始,gen f=int((x-164)/2)*2+164 其中int( )表示取整数tab f 频数汇总和频率计算作频数图命令 graph 变量,bin(#) norm其中#表示频数图的组数;norm表示画一条相应的正态曲线(可以不要) 本例命令为graph x,bin(8) norm为了使坐标更清楚地在图上显示,可以输入下列命令graph x,bin(8) xlabel norm ylabel图形可以从Stata中复制到word中来,操作如下:计算几何均数可以用means 变量名(可以多个变量:即:means 变量1 …变量m) means x作Pie图描述构成比:每一类的频数用一个变量表示,命令:graph 各类频数变量名,pie第1地区血型构成比的Pie图的命令和图graph a b o ab if area==1,pie注意逻辑表达式中if area==1是两个等号。
第五章 statar软件教程-描述性统计分析
(2)接下来我们对wage变量分别进行W检验Swilk(Shapiro-Wilk W test for normality)和 W' 检验Sfrancia(Shapiro-Francia W' test for normality),
(3)最后演示D’ Agostino检验,使用的命令是sktestdc,这里我们 使用未经调整过的卡方检验,即添加noadjust选项:
Page 11
STATA从入门到精通
5.4.3改变数据的分布
Stata提供了一个非 常强大的工具“幂阶 梯”(ladder of powers)可以尝试 表5-11所列的九种转 换的可能,然后依次 进行偏度——峰度检 验。
表5-11 幂转换阶梯
转换(tansfermation)
公式
立方(cube)
graph box命令的选项:
over(varname[, over_subopts]):设定分组变量,变量可以是数值型或 者字符型变量,可以设置多达三个的分组变量。[, over_subopts]可以 指定用于排序的变量名称,也可以使用sort(1),则表明按照第一个分组 变量排序。默认排序方式为从小到大,在[, over_subopts]加入 descending则指定为按照中位数从大到小降序排列。
Page 14
STATA从入门到精通
5.5相关系数
常用的相关系数共有如下四种:Pearson相关系数、.Kendall τ相关系数、 Spearman秩相关系数以及偏相关系数。 Stata的相关系数命令不仅可以得到通常的相关系数,还可以计算协方差 矩阵,更为有用的是它还提供了对缺失值的不同处理方法。 Pearson相关系数
stata中变量描述分析和作图..
• .tab2也提供双变量的交叉分析表 • .tab和tab2的主要区别在于,前者仅可以用于两个变量的
交互分析(tab后面最多只能有两个变量);tab2可同时 生成多个两两变量之间的交互频数分布表
例1
.tab girl enroll, chi2 column row miss nokey ① ② ③④⑤
6.3.频数分布的常见错误之二
• too many values • 导致这类错误的原因在于,在试图生成两个变量的交叉表
时,每个变量都包含太多的取值。比如:
. tab age weight . too many values
(变量的取值太多)
• 这里,变量age和weight均为连续变量,且都有很多的取值, 尤其是weight
多变量频数分布
. tab1 [变量a 变量b 变量c]
①
②
①:同时获得多个变量频数分布的基本命令
②:需要输出频数分布的变量名称
• 与tab或tabulate不同的是, . tab1可接多个变量 . tab girl urban
– 该命令告诉Stata,给变量girl和urban各自生成一张频数分布表
菜单窗口
• 在Stata的窗口菜单下,有多种描述数据频数分布 特征的选项,每一选项都具有一定独特的功能, 但有些功能是相通的
窗口路径 Table of summary statistics (table) Table of summary statistics (tabstat) One/two-way table of summary statistics One-way tables
stata初级入门3-描述性统计指标
2021/1/7
《计量经济学软件应用》
15
四、列联表描述统计量
tabulate, summarize() :单个或两个分类变量 的描述性统计
格式:tabulate varname1 [varname2] [if] [in] [weight] [, options]
选项:[no] means(不)包含均值,[no] standard(不)包含标准差,[no] freq(不) 包含频数,[no] obs(不)包含观测值个数, missing将缺失值作为一类
tab2 varlist [if] [in] [weight] [, options]
范例:tab2 foreign id rep78
2021/1/7
《计量经济学软件应用》
14
菜单:Statistics > Summaries, tables, and tests > Tables > All possible two-way tabulations
2021/1/7
《计量经济学软件应用》
5
ameans命令
估计算术、几何和调和平均数 语法:ameans [varlist] [if] [in] [weight]
[,options] 范例:ameans price
2021/1/7
《计量经济学软件应用》
6
菜单:Statistics > Summaries, tables, and tests > Summary and descriptive statistics > Arith./geometric/harmonic means
语法: tabstat varlist [if] [in] [weight] [, options] 选项:默认结果是均值。
stata初级入门3-描述性统计指标课件
• 菜单:Statistics > Summaries, tables, and tests > Tables > One/two-way table of summary statistics
stata初级入门3-描述性统计指标
五、经验分布函数
• 对变量累积分布函数的估计
指标。 • 范例:summarize price mpg
stata初级入门3-描述性统计指标
• 菜单:Statistics > Summaries, tables, and tests > Summary and descriptive statistics > Summary statistics
• 列联表给出从属于两个分类变量不同类别的观测值的 频数
• 如果两个分类变量各有r,c个类别,则列联表共有r×c 个单元格
C a r t y p e
D o m e s t i c F o r e i g n
T o t a l
i d 1
7 4
1 1
2
3 7 1 6
5 3
T o t a l
4 4 2 0
stata初级入门3-描述性统计指标
六、正态性检验
• sktest varname • swilk varname
stata初级入门3-描述性统计指标
本讲练习
stata初级入门3-描述性统计指标
stata入门3 ——统计指标篇
stata初级入门3-描述性统计指标
一、基本描述统计量
• summarize命令
• 可概括观测值个数、平均值、标准差、最大值和最小值 五个指标。
第三讲 描述性统计与统计绘图
茎叶图及盒形图 通过茎叶图 (stem-and-leaf plot) 可了解数据分布 的结构,通过盒形图 (箱线图 box plot) 也能直观地 展现数据分布的主要特征. 茎叶图:由“茎”和“叶”两部分构成,其图形由数字 组成;以数据的高位数作树茎,低位数作树叶。 min 盒形图: Q1
中位数
Q3
第三讲 描述性统计与统计绘图
统计软件分析与应用
第三讲 描述性统计与统计绘图
§1 描述性统计分析 (descriptive analysis)
描述性统计分析是用表格、图形和描述统计量 等统计语言去描述数据的面貌特征,把数据本身所 包含的信息加以总结概括、整理简化.
一、描述性统计量
一维数据的描述性统计量有:均值、分位数 (中位数, 四分位数等),方差、标准差、变异 系数、极差、四分位极差,偏度系数、峰度系数等. 多维数据的数字特征有: 均值向量、协方差 矩阵、相关矩阵等. 统计软件分析与应用
例:书p77起例3-6——例3-9 统计软件分析与应用
第三讲 描述性统计与统计绘图
proc gchart 过程
proc gchart过程可以绘制垂直和水平的直方图、块形图、 圆饼图、星形图等,可形象地描述变量值的分布及两个以上 变量之间的关系. proc gchart 过程的语句格式:
proc gchart data=数据集; vbar 变量列表</<通用选项列表><vbar专用选项列表>>; hbar 变量列表</<通用选项列表><hbar专用选项列表>>; block 变量列表</<通用选项列表><block专用选项列表>>; pie 变量列表</<通用选项列表><pie专用选项列表>>; star 变量列表</<通用选项列表>< star专用选项列表>>; by 变量列表; run;
stata绘图基本知识
例1
绘制散点图旳基本语法 [twoway] scatter varlist [if] [in] [weight] [, option] 下列三个命令是等价旳 graph twoway scatter…… twoway scatter…… scatter……
connect(1)表白以直线旳方式连接相邻旳两个点; msymbol(i)表白散点旳显示方式为“看不见”, 假如我们将括号中旳i改为O,那么这个选项旳意思就是以“黑圈”旳
绘制标绘图和拟合图 绘制一次拟合图形 twoway lfit yvar xvar [if] [in] [weight] [,option]
绘制二次拟合图 twoway qfit yvar xvar [if] [in] [weight] [,option]
绘制lowess拟合图形 twoway lowess yvar xvar [if] [in] [,option]
此次主要简介
绘制散点图 散点显示选项、散点标签选项、连线选项、振荡选项
二维绘图选项 坐标轴尺度选项、坐标轴刻度选项、坐标轴标题选项、
轴线选择选项、scale选项旳设定。
绘制曲线标绘图和连线标绘图 绘制拟合图形(一次拟合图形和二次拟合图形) 绘制条形图 绘制箱线图
详细例题涉及旳知识点
gmin命令表达在最小值处增长网格线 gmax命令表达在最大值处增长网格线
例6
by选项旳设定 by旳根据是分类变量,例如性别、民族、国内国外等, by选项旳语法为:by(varlist[,byopts])
选项total表达除了对每一种组别分别作图外,还要添加一种具有全部 样本旳图形;
为y轴变量,而将最终一种变 当成x轴变量。
散点显示选项(marker_options)
stata中变量描述分析和作图
150
6
Percent
4
2
0
Percent
0
1
2
3
4
5
6
7
8 9 10 11 12 13 14 15 16 17 18 age in 2004
0
0
2
4
6
8
10
50
100 children's height in 2004
150
200
正态分布(normal distribution)
• 一个变量的集中位置居中,左右两侧频数基本对称的分布
离散趋势:极差或者全距(range,R)
• 数据分布的另一种表现形式。从中心到两侧,频数分布逐 渐减少。反映了数据的离散程度或变异程度; • 描述离散趋势的方法包括:级差、方差、标准差; • 极差或者全距(range,R):表示变量取值中的最大值 和最小值之差。适合所有分布类型的数据; R=最大值-最小值
---1=girl |
0 |
Freq.
1,248
Percent
53.70
Cum.
53.70
------------+-----------------------------------
1 |
Total |
1,076
2,324
46.30
100.00
100.00
------------+-----------------------------------
• .tab提供、且只能提供双变量的交叉分析,生成二者之间 的交叉频数分布,相当于命令tabulate
– 若其令后面仅有一个变量,则Stata输出该变量的频数分布 – 若多于两个变量,则会出现错误提示
Stata_画图专题(2):基础绘图命令
1.2 scatter:散点图
命令格式
[
]
[ ][ ][
][
]
twoway scatter varlist if in weight , options
[
][
]
scatter varlist || lfit varlist || line varlist
其中下划线、方括号的含义与前面相同,不赘述。此处 varlist 是变量列表,一般二维的散点图 就是两个变量;[options] 是可选参数,参数很多,请 help scatter 来查看。常用的有 “连线” connect(l) 和 “去散点” msymbol(i),在下面的结果中可以看到。在第二行的命令中给出了散 点图的用途 —“构造回归曲线” lfit。第二行命令的意思是(1)画出散点图,(2)拟合回归直 线并(3)按点的先后顺序连接起来。上述三个可以组合起来使用。
• “堆叠”,即表示多个柱状图叠在一起(看累计总值及每组占比),命令是 stack。
其余的选项请 help graph bar 来查看。上述两行命令区别是第二行命令只是水平 (horizontal) 形式的条形图。
表 3: 描述统计命令 命令 含义
mean median
p1 p50 p99
sd sum count max/min first/last
string functions
programming functions
datetime_functions time-series functions
matrix functions
三角函数、取整、对/指数、最值等 伯努利、卡方、正态、几何分布等 符合某一概率分布的随机数组 字符串拼接、提取、长度及 ASCII 码等 e/r/s 型返回值及其他编程方面的函数 对于日期/时间数据的转化、提取等
第五章 statar软件教程-描述性统计分析
sfrancia varlist [if] [in]
④D’ Agostino检验
sktestdc varlist [=exp] [if exp] [in range] [, noadjust]
Page 10
STATA从入门到精通
【例5-4】下面我们依次举例说明这四个命令的使用,这里用到的数据仍 然是小时工资数据集wage1.dta。
变异程度的度量:极差、方差、标准差
相对位置的度量:标准得分 偏度和峰度:如果数据的分布是对称的,则偏度系数为0;如果偏度系数明显不等 于0,表明分布是非对称的。若偏度系数大于1或者小于-1,被称为高度偏态分布。 峰度通常是与标准正态分布比较,Stata计算的峰度系数未减3,故而是与3作比 较而不是与0作比较。若峰度系数等于3则服从标准正态分布,反之则意味着分 布比正态分布更尖或者更平。
表511幂转换阶梯转换tansfermation公式作用立方cubex3缓解负偏态平方squarex2同上原始rawx无平方根squarerootx05缓解正偏态对数loglogx同上平方根负倒数negatinereciprocalrootx05同上负倒数negatinereciprocalx同上平方负倒数nagatinereciprocalquarex2同上立方负倒数nagatinereciprocalcubex3同上page14stata从入门到精通幂阶梯共有三个相关的命令第一个命令ladder尝试表58所涉及到的九种转换然后分别进行正态性检验这是幂阶梯最基本的命令
Page 15
STATA从入门到精通
【例5-6】使用数据集wage.dta,完成如下任务:
(1)得到的wage、educ、exper、tenure之间的相关系数矩阵, (2)得到的wage、educ、exper、tenure之间的协方差矩阵,
Stata统计分析与建模入门教学
Stata统计分析与建模入门教学第一章:Stata的介绍和基本操作Stata是一款专业的统计分析软件,被广泛应用于学术研究、政府机构和企业中。
本章将介绍Stata的基本功能和操作界面,包括数据导入、数据管理和数据处理等内容。
学习者可以通过本章的教学示例,快速熟悉Stata的基本操作,并掌握如何在Stata中进行数据的读取和保存。
第二章:数据清理和准备本章重点介绍如何对原始数据进行清洗和准备,以便于后续的统计分析和建模。
内容包括缺失值处理、异常值处理、数据变量的重编码和转换等。
通过学习本章,学习者将掌握如何使用Stata 来处理常见的数据质量问题,保证数据的准确性和完整性。
第三章:描述性统计和数据可视化描述性统计和数据可视化是统计分析的常用方法,可以帮助研究者对数据进行初步的了解和分析。
本章将介绍在Stata中如何计算和呈现数据的描述统计量,包括均值、标准差、百分位数等指标,并且教学者将指导学生使用Stata绘制直方图、散点图和箱线图等数据可视化图形。
第四章:假设检验和置信区间假设检验和置信区间是统计学中重要的概念和方法,可以用于推断总体参数,并进行统计显著性检验。
本章将介绍如何在Stata中进行常见的假设检验,比如 t检验、方差分析和卡方检验等,并演示如何计算和解释置信区间。
学习者通过本章的学习,将能够掌握在Stata中进行假设检验的方法和技巧。
第五章:线性回归分析线性回归分析是最常用的统计建模方法之一,可以用于探究自变量与因变量之间的关系。
本章将介绍在Stata中进行线性回归分析的步骤和技巧,包括模型的建立、参数估计和统计推断等内容。
学习者将通过本章学会如何使用Stata进行简单线性回归和多元线性回归分析,并能够对回归模型进行解释和评估。
第六章:非线性回归分析非线性回归分析是一类应用广泛的统计建模方法,用于描述自变量和因变量之间的非线性关系。
本章将介绍在Stata中进行非线性回归分析的方法和技巧,包括多项式回归、对数回归和指数回归等内容。
第五讲-数据描述性分析与绘图
• 若要计算数据的加权平均,可以用 weighted.mean()函数,其基本格式为: weighted.mean(x, w, na.rm=FALSE) • 其中w是数据x的权重系数,其维数与x相同,基 本用法与mean()相同,唯一有区别的地方是: weighted.mean()不适用于数据框,它作用在数据 框的时候,和作用于矩阵的时候,结果是一样的, 返回全部数据的加权平均 • 另外,对向量就平均等价于sum(x)/length(x), sum()的用法和mean类似,只不过前者是求和
• > w<-c(75, 64, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, 66.6, 64, 57, 69, 56.9, 50, 72) • > w.mean <- mean(2, trim=0.1); w.mean [1] 62.53846 • trim的取值在0.1-0.5之间,可以消除极端值对均值的影 响。 • 若数据当中含有缺失值NA时,可以加na.rm来处理 • > w.na<-c(75, 64, 47.4, 66.9, 62.2, 62.2, 58.2, 63.5, 66.6, 64, 57, 69, 56.9, 50, 72, NA) > mean(w.na); NA > w.na.mean<-mean(w.na, na.rm=TRUE); [1] 62.36
x y Min. :36.97 Min. :9.044e-05 1st Qu.:49.08 1st Qu.:4.402e-03 Median :61.20 Median :1.603e-02 Mean :61.20 Mean :2.061e-02 3rd Qu.:73.32 3rd Qu.:3.409e-02 Max. :85.43 Max. :5.518e-02
STATA软件应用(二)作图、统计描述
/*包含缺失值 /*不显示频数 /*不显示数值标记
分类变量资料的描述
两个变量交叉分类描述 tabulate变量1 变量2 [,cell column missing nofreq nolabel] tab2 变量1 变量2 变量3…… [,tabulate_options]
detail /* 详细描述,缺失时为简单描述 centile(# [# ...]) /* 指定需要计算的百分位数 meansd /* 指定百分位数用近似正态法,缺失时为直接算法 cci /* 指定百分位数的可信区间用保守算法 normal /* 指定百分位数的可信区间用近似正态法 level(#) /* 指定百分位数的可信区间的可信限
箱式图
180 120 140 160
Before
After
Before
After
Male
Female
例ex6
散点图:反应变量之间的关系
graph y x
71
gra y x,c(.) s(O)
y
63 30 x 39
线图
gra y x,c(l) s(d)
71
y
63 30 x 39
线图
gra y x,c(l[-]) s(p) sort
115.4 114.8 116.3 125.6 123 114.7 120.7 124.1
122.5 126.1 120 118.4 121 120.8 120.7 116.8
121.5 113.2 117.7 123.8 119.5 119.6 120.2 112.2
124.4 112.7 122.8 124.4 117.4 114.9 122.4 118.4 120.6 120.7 118.9 123.1 120 127.1
最新stata操作介绍之制图和统计分析(二)教学内容
. describe
• summarize命令: • summarize可以计算和导出描述性统计量的最大值、最小值、均值
和标准差等。summarize的命令格式如下: . summarize [varlist] [if] [in] [weight][,options]
• 完整直线图图例:
数据处理与运算
二、统计分析
•描述性统计
统计分析的第一步就是计算出描述性统计量。这些描述性统计 量使用简单的数字来表示变量的分布特征,包括集中趋势、离散趋 势等。
Stata中实现描述性统计分析的命令主要有: describe; summarize;
tabstat;
• describe 命令: • describe命令用于产生一个对数据集的简明总结表格,其格式如下:
• 例: . tabstat sales,by(advert) statistics(sum mean sd cv median)
此课件下载可自行编辑修改,仅供参考! 感谢您的支持,我们努力做得更好! 谢谢!
• 例:
. summarize sales prices advert
• tabstat命令: tabstat与summarize相似,但它的灵活性高于summarize。该命令可
以通过statistics( )添加各种所需要的统计量。 • tabstat命令格式如下:
. tabstat [varlist] [if] [in] [weight][,options]
stata操作介绍之制图和统 计分析(二)
数据处理与运算
一、Stata制图
Stata制图命令: 1、单个直线图的命令主体:
stata中变量描述分析和作图..
数据描述的方法
• 获得数据的目的是为了描述和分析数据,回答研究问题 • 数据分析的第一步是描述变量的基本特征。只有在熟悉数 据的基本特征和变量分布的基础上,才能决定如何对数据 作进一步处理
• 描述性统计通过一系列的程序帮助组织、归纳、总结样本 的基本特征。常见的方法包括
– 频数分布、百分比、分位数、均值和标准差、中数、众数、最大 值和最小值等单变量分析(univariate analysis)。考察变量的属 性分布 – 二元或多元交叉表、二元相关关系分析 – 图形
---1=girl |
0 |
Freq.
1,248
Percent
53.70
Cum.
53.70
------------+-----------------------------------
1 |
Total |
1,076
2,324
46.30
100.00
100.00
------------+-----------------------------------
菜单窗口
• 在Stata的窗口菜单下,有多种描述数据频数分布 特征的选项,每一选项都具有一定独特的功能, 但有些功能是相通的
窗口路径 Table of summary statistics (table) Table of summary statistics (tabstat) One/two-way table of summary statistics One-way tables Multiple one-way tables Two-way tables with measure of ass. All possible two-way tabulations Table calculator
stata描述数据分布的方法
stata描述数据分布的方法
在Stata中描述数据分布的方法主要有以下几种:
1. 描述性统计:Stata提供了各种描述性统计命令,如summarize、tabulate等,可以用来计算数据的均值、中位数、众数、标准差等统计指标,以及生成频数表、交叉表等统计表格。
2. 直方图:Stata可以通过直方图来展示数据的分布情况,可以直观地看到数据的集中趋势、离散程度和分布形状。
3. 核密度估计图:对于连续型数据,可以使用Stata的核密度估计命令(kdensity)来生成核密度估计图,展示数据的分布情况。
4. P-P图和Q-Q图:P-P图和Q-Q图可以用来评估数据是否符合特定的概率分布,如正态分布。
如果数据符合特定的概率分布,则P-P图和Q-Q图
的点应该落在理论直线上。
5. 箱线图:箱线图可以用来展示数据的四分位数、中位数、最大值、最小值等统计指标,以及异常值的情况。
箱线图可以帮助我们识别异常值、离群点等异常数据。
这些方法可以帮助您全面了解数据的分布情况,从而更好地进行数据分析。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 如果一行要寫很長,超過80字元的規定
• 可以用「#delimit ;」這個指令來處理,取代 原來的換行規定,Stata一直要讀到;才會執行 指令
• 復原的話用「#delimit cr」
儲存do-file
執行do-file
確認正確的路徑
變數名稱改變了
describe
在command視窗打 入describe,發現 變數值也已經執行 了
label variable height "身高" label variable nethour "每週上網時數" label variable havepc "住處有無電腦" label variable math "自評數學程度" label variable socstat "對社統的感覺"
用do-file來界定變數和變數值標籤
label values religion rellb label define yesno 1 "有" 2 "沒有" label values havepc yesno label define degree 5 "很好" 4 "好" 3 "還可以" 2 "不好" 1 "很不好" label values math degree label define fearlb 1 "很害怕" 2 "害怕" 3 "沒有感覺" 4 "喜歡" 5 "很喜歡" label values socstat fearlb
data- browser
• 工具列data-data browser (只能瀏覽, 不能改變)
連續變數的直方圖
• 工具列-graphics-histogram
輸入變數名稱
選擇Y軸項目
直方圖
分組需調整
summarize 變數名稱, detail
• 為了調整分組,我們先看看身高的分佈狀況
• summarize height, detail
分組從150到185為範圍數的直方圖
• 工具列-graphics-histogram
直方間要有間距 每個直方頂上 要標示次數 (人數)
調整X軸
自行輸入變數值標籤
間斷或類別變數的直方圖
類別變數的次數分配表
• Command視窗輸入 • Tab1 gender fethnic methnic religion
label values gender glb1 label define glb1 1 "男" 2 "女“ label define ethlb1 1 "本省閩南人" 2 "本省客家人" 3 "大陸各省市" 4 "原住民" 5 "其他 " label values fethnic ethlb1 label values methnic ethlb1 label define hrlb 1 "北北基" 2"桃竹苗" 3"中中彰投" 4 "雲嘉南" 5 "高高屏" 6 "花東宜 蘭" 7 "金馬澎湖" 8 "其他" label values hregist hrlb label define rellb 1"台灣民間信仰" 2"佛教" 3 "基督教" 4 "天主教" 5 "沒有宗教信仰" 6 "其他"
168
Mean
166.6
Largest Std. Dev. 7.582875
171
175
178
178 Variance
57.5
180
180 Skewness .2408674
181
181 Kurtosis 2.19615
重分組
• 150-185公分,每5公分為一組。
150到185每5每公個分直一方組以5公分為一組, 最低一組的最小值為150
身高
-------------------------------------------------------------
Percentiles Smallest
1%
153
153
5%
155
155
10%
160
160 Obs
25
25%
161
160 Sum of Wgt.
25
50%
75% 90% 95% 99%
Tab1的結果:次數分配表
出現6,因為當初變數值6沒有 給予標籤
出現more表示尚有結 果未呈現,按space
Tab1的結果:次數分配表
Stata教學
描述性統計
用do-file來界定變數並加上標籤
Do-file編輯器
用do-file來界定變數和變數值標籤
use student.dta rename var1 gender rename var2 hregist rename var3 fethnic rename var4 methnic rename var5 religion rename var6 height rename var7 nethour rename var8 havepc rename var9 math rename var10 socstat
label variable gender "性別" label variable hregist "戶籍地" label variable fethnic "父親籍貫" label variable methnic "母親籍貫" label variable religion "宗教信仰"
用do-file來界定變數和變數值標籤