stata中变量描述分析和作
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三讲 描述性分析与画图
• 进行描述性统计分析的目的:
• 对数据进行描述性分析的目的是熟悉和了 解数据的基本统计特征,把握数据的总体 分布形态,进而决定如何对数据作进一步 处理,进而回答所要研究的问题。
本章主要内容
6.1.频数分布 6.2.条件频数分布 6.3.频数分布的常见错误分析及解决方法 6.4.变量的中央趋势和离散趋势 6.5.描述数值型数据统计量的其它方法 6.6.画图
– 二元或多元交叉表、二元相关关系分析 – 图形
描述性分析的菜单窗口
该内容是statistics菜单下的首个选项: Statistics – Summaries,tables & tests
6.1.频数分布
频数、比例(proportion)、百分比 (percentage)和比率(ratio)等描述性统 计方法适用于所有类型数据,包括定性、 定序、定距和定比数据。
功能 计算展示多种统计量 计算展示多种统计量 提供均值和标准误
单变量的频数分布
多个变量的频数分布 两个变量的交叉表 多个变量的交叉表 利用指定的数值计算
单变量频数分布
. tab [变量名] ①②
①:. tab也可写为tabulation,是获得频数分布的基本命令 ②:需要输出频数分布的变量名称 • 该命令不对频数分布作任何定义,只提供单个变量的频数分布
①: 提供两个变量关系的卡方 ②: 提供列变量的百分比 ③: 提供行变量的百分比 ④: 提供缺失变量的比例 ⑤: 压缩单元格内容的提示
girl |
school enrollment
0=boy |
1=enrolled --- 0=not
---1=girl |
0
1
.|
Total
-----------+---------------------------------+----------
多变量频数分布
. tab1 [变量a 变量b 变量c]
①
②
①:同时获得多个变量频数分布的基本命令
②:需要输出频数分布的变量名称
• 与tab或tabulate不同的是, . tab1可接多个变量 . tab girl urban
– 该命令告诉Stata,给变量girl和urban各自生成一张频数分布表
Multiple one-way tables Two-way tables with measure of ass. All possible two-way tabulations Table calculator
相应的基本命令 .table .tabstat .tabulate…, sum(…) .tabulate …, subpop(…) .tab1 .tab .tab2 .tabi
6.2.条件频数分布
条件频数分布也称交叉频数表为或 列联表,同时生成两个变量之间关系 的频数分布,属于相关分析中的一种.
基本命令
• .tab提供、且只能提供双变量的交叉分析,生成二者之间 的交叉频数分布,相当于命令tabulate
– 若其令后面仅有一个变量,则Stata输出该变量的频数分布 – 若多于两个变量,则会出现错误提示
0|
96
735
294 |
1,125
|
8.53
65.33
26.13 |
100.00
|
59.63
51.91
56.11 |
53.55
-----------+---------------------------------+----------
1|
65
681
230 |
976
|
6.66
69.77
23.57 |
频数与频数分布
• 频数也称次数,即分布在各个类别中的数据个数 • 频数分布就是对样本中变量的不同属性出现次数的描述
– 假如一个班60%的同学是女生,40%的同学是男生,则60%和40%是 女生和男生的分布情况
– 2000年人口普查显示,中国7%的人群年龄在65岁及以上,则7%是 当时老年人口在总人口中所占的比例
菜单窗口
• 在Stata的窗口菜单下,有多种描述数据频数分布 特征的选项,每一选项都具有一定独特的功能, 但有些功能是相通的
窗口路径 Table of summary statistics (table) Table of summary statistics (tabstat) One/two-way table of summary statistics One-way tables
• Stata的默认方法是,tab后面的第一个变量被当成行变量, 第二个变量被当成列变量
• .tab2也提供双变量的交叉分析表 • .tab和tab2的主要区别在于,前者仅可以用于两个变量的
交互分析(tab后面最多只能有两个变量);tab2可同时 生成多个两两变量之间的交互频数分布表
例1
.tab girl enroll, chi2 column row miss nokey ① ② ③④⑤
. tab girl
– 该命令告诉Stata,给变量girl生成一张频数分布表
girl in |
2004, 0=boy |
---1=girl |
Freq. Percent
Cum.
------------+-----------------------------------
0|
1,248
53.70
数据描述的方法
• 获得数据的目的是为了描述和分析数据,回答研究问题
• 数据分析的第一步是描述变量的基本特征。只有在熟悉数 据的基本特征和变量分布的基础上,才能决定如何对数据 作进一步处理
• 描述性统计通过一系列的程序帮助组织、归纳、总结样本 的基本特征。常见的方法包括
– 频数分布、百分比、分位数、均值和标准差、中数、众数、最大 值和最小值等单变量分析(univariate analysis)。考察变量的属 性分布
100.00
53.70
1|
1,076
46.30
100.00
Baidu Nhomakorabea
------------+-----------------------------------
Total |
2,324
100.00
• 输出结果显示,该数据一共有2324个观察值 • 变量girl有两个取值:0代表男孩,1代表女孩 • 样本中有1248个男孩,占53.7%;女孩为1075,占46.3%
• 进行描述性统计分析的目的:
• 对数据进行描述性分析的目的是熟悉和了 解数据的基本统计特征,把握数据的总体 分布形态,进而决定如何对数据作进一步 处理,进而回答所要研究的问题。
本章主要内容
6.1.频数分布 6.2.条件频数分布 6.3.频数分布的常见错误分析及解决方法 6.4.变量的中央趋势和离散趋势 6.5.描述数值型数据统计量的其它方法 6.6.画图
– 二元或多元交叉表、二元相关关系分析 – 图形
描述性分析的菜单窗口
该内容是statistics菜单下的首个选项: Statistics – Summaries,tables & tests
6.1.频数分布
频数、比例(proportion)、百分比 (percentage)和比率(ratio)等描述性统 计方法适用于所有类型数据,包括定性、 定序、定距和定比数据。
功能 计算展示多种统计量 计算展示多种统计量 提供均值和标准误
单变量的频数分布
多个变量的频数分布 两个变量的交叉表 多个变量的交叉表 利用指定的数值计算
单变量频数分布
. tab [变量名] ①②
①:. tab也可写为tabulation,是获得频数分布的基本命令 ②:需要输出频数分布的变量名称 • 该命令不对频数分布作任何定义,只提供单个变量的频数分布
①: 提供两个变量关系的卡方 ②: 提供列变量的百分比 ③: 提供行变量的百分比 ④: 提供缺失变量的比例 ⑤: 压缩单元格内容的提示
girl |
school enrollment
0=boy |
1=enrolled --- 0=not
---1=girl |
0
1
.|
Total
-----------+---------------------------------+----------
多变量频数分布
. tab1 [变量a 变量b 变量c]
①
②
①:同时获得多个变量频数分布的基本命令
②:需要输出频数分布的变量名称
• 与tab或tabulate不同的是, . tab1可接多个变量 . tab girl urban
– 该命令告诉Stata,给变量girl和urban各自生成一张频数分布表
Multiple one-way tables Two-way tables with measure of ass. All possible two-way tabulations Table calculator
相应的基本命令 .table .tabstat .tabulate…, sum(…) .tabulate …, subpop(…) .tab1 .tab .tab2 .tabi
6.2.条件频数分布
条件频数分布也称交叉频数表为或 列联表,同时生成两个变量之间关系 的频数分布,属于相关分析中的一种.
基本命令
• .tab提供、且只能提供双变量的交叉分析,生成二者之间 的交叉频数分布,相当于命令tabulate
– 若其令后面仅有一个变量,则Stata输出该变量的频数分布 – 若多于两个变量,则会出现错误提示
0|
96
735
294 |
1,125
|
8.53
65.33
26.13 |
100.00
|
59.63
51.91
56.11 |
53.55
-----------+---------------------------------+----------
1|
65
681
230 |
976
|
6.66
69.77
23.57 |
频数与频数分布
• 频数也称次数,即分布在各个类别中的数据个数 • 频数分布就是对样本中变量的不同属性出现次数的描述
– 假如一个班60%的同学是女生,40%的同学是男生,则60%和40%是 女生和男生的分布情况
– 2000年人口普查显示,中国7%的人群年龄在65岁及以上,则7%是 当时老年人口在总人口中所占的比例
菜单窗口
• 在Stata的窗口菜单下,有多种描述数据频数分布 特征的选项,每一选项都具有一定独特的功能, 但有些功能是相通的
窗口路径 Table of summary statistics (table) Table of summary statistics (tabstat) One/two-way table of summary statistics One-way tables
• Stata的默认方法是,tab后面的第一个变量被当成行变量, 第二个变量被当成列变量
• .tab2也提供双变量的交叉分析表 • .tab和tab2的主要区别在于,前者仅可以用于两个变量的
交互分析(tab后面最多只能有两个变量);tab2可同时 生成多个两两变量之间的交互频数分布表
例1
.tab girl enroll, chi2 column row miss nokey ① ② ③④⑤
. tab girl
– 该命令告诉Stata,给变量girl生成一张频数分布表
girl in |
2004, 0=boy |
---1=girl |
Freq. Percent
Cum.
------------+-----------------------------------
0|
1,248
53.70
数据描述的方法
• 获得数据的目的是为了描述和分析数据,回答研究问题
• 数据分析的第一步是描述变量的基本特征。只有在熟悉数 据的基本特征和变量分布的基础上,才能决定如何对数据 作进一步处理
• 描述性统计通过一系列的程序帮助组织、归纳、总结样本 的基本特征。常见的方法包括
– 频数分布、百分比、分位数、均值和标准差、中数、众数、最大 值和最小值等单变量分析(univariate analysis)。考察变量的属 性分布
100.00
53.70
1|
1,076
46.30
100.00
Baidu Nhomakorabea
------------+-----------------------------------
Total |
2,324
100.00
• 输出结果显示,该数据一共有2324个观察值 • 变量girl有两个取值:0代表男孩,1代表女孩 • 样本中有1248个男孩,占53.7%;女孩为1075,占46.3%