SAS统计的基本教程

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
run;
12
第二节 频数统计与柱状图
若不要计算某些指标,可在tables语句设定 选
项,可用的选项有:
nocum-----不要累计的频数和百分数 nopercent-----不要百分数和累计百分数 例如只要计算年龄取值的频数和累计频数,
其程序为:
proc freq data=sasuser.class1;
二、表示分散程度的特征量
方差、标准差、极差、四分位差、变异系数和标准误
(即均值的标准差)
三、表示形状的特征量
偏度和峰度
2
❖ N-观测个数
Sum Wgts-加权和
❖ Mean-均值
Sum-总和
❖ Std Dev-标准差 Variance-方差
❖ Skewness-偏度 Kurtosis-峰度
❖ USS-加权平方和 VSS-加权离差平方和
vbar x / midpoints=10 20 30 40 50;
❖;
❖ 例四:正态假设检验
❖ proc univariate data=wh100 normal;
❖ var w;
❖ title '100名学生体重数据的正态性检验';
5
❖ run;
过程步名 Sort Print Gchart Univariate Means Freq Npar1way Ttest Anova GLM REG Corr Logistic Phreg
14
第二节 频数统计与柱状图
若有权变量的数据,可用weight语句加权:
data stud; input sex n;
cards; 1 40 0 55 ; run; proc freq data=stud; tables sex; weight n; run;
15
第二节 频数统计与柱状图
对于连续型数据通常使用组距式分组。 例如将数据class1中的体重数值由24公斤至 80公斤,每8公斤为一组,按组统计的体重 频数表。这里常用的是使用Format过程或 形成一个新的变量。
样本数据的情况、取不同数值的比例 描述了样本取值的分布,通过频数可进一 步了解总体相应指标的分布。
对于频数统计,除了用列表记录变量 取不同数值的频数、百分数外,还常用柱 状图或饼图等图形工具来表示。柱状图也 称条形图。
7
第二节 频数统计与柱状图
一、用INSIGHT作频数统计和柱状图
(一)用INSIGHT作柱状图
(一)用FREQ过程作频数统计 利用编程统计频数和百分数可以使用PROC
FEEQ。它最简单的用法是:
proc freq data=数据集名; tables 变量名列;
run;
11
来自百度文库
第二节 频数统计与柱状图
例如对数据集CLASS1的变量SEX和 AGE要统计其频数和百分数,其程序为:
PROC freq data=sasuser.class1; tables age sex;
label gweight=‘体重分组值’;
run;
proc freq data=tmp;
tables gweight;
run;
/*程序在p59*/
18
(2) Data stud;
set xw.class1; If weight>=72 If 64<=weight<72 If 56<=weight<64 If 48<=weight<56 If 40<=weight<48 If 32<=weight<40 If weight<32
基础统计分析过程
❖ 第一节 描述统计量 ❖ 第二节 频数统计与柱状图 ❖ 第三节 常用描述统计量计算
1
第一节 描述统计量
介已绍知描一述组这试组验数(据或的观几测类)特数征据量为。:X1,X2……Xn,以下
一、表示位置的特征量
位均值(mean)、众数(m0)、中位数(me)和百分
数(percentile)
tables age / nopercent;
run;
13
第二节 频数统计与柱状图
若为了将频数高的放在前面或者有其他需求 要改变输出结果中变量值的排列次序,可在proc freq语句中加入选项:
order=internal|freq|data|formatted internal----按变量的值排序 freq----按频数降序排列 data----按数据集中值的出现次序排列 formatted----按变量格式化的值排序
❖ 168.8 54.0 169.1 66.2 177.5 60.0 177.0 66.2 169.9 55.9 167.4 54.4
❖ 169.3 58.4 172.8 72.8 169.8 58.0 160.0 65.3 179.1 62.2 172.3 49.8
❖ 163.3 46.5 172.9 66.7 165.4 58.0 175.8 63.2 162.3 52.2 165.4 65.7
4
❖ data wh100;
❖ input h w @@;
❖ cards;
❖ 172.4 75.0 169.3 54.8 169.3 64.0 171.4 64.8 166.5 47.4 171.4 62.2
❖ 168.2 66.9 165.1 52.0 168.8 62.2 167.8 65.0 165.8 62.2 167.8 65.0
16
❖ 第一种:对变量weight规定一个格式

proc format;
value wfmt low-32=’24-32’
32-40=’32-40’
40-48=’40-48’
48-56=’48-56’
56-64=’56-64’
64-72=’64-72’
72-high=’72-80’; /*书上格式不好用*/
❖ 164.4 58.7 169.9 57.5 164.9 63.5 160.3 55.2 175.0 66.6 172.5 73.5
❖ 172.0 64.0 168.4 57.0 155.0 57.0 175.5 63.9 172.3 69.0 168.6 58.0
❖ 176.4 56.9 173.2 57.5 167.5 50.0 169.4 52.2 166.7 72.0 169.5 57.0
9
第二节 频数统计与柱状图
二、用分析员应用作频数统计和直方图 Statistics=>Descriptive=>Frequency counts… 1、分析变量sex、age 2、解释各按钮 3、注意图表输出位置 4、按性别分组 5、作加权演示
10
第二节 频数统计与柱状图
三、用编程作频数统计与柱状图
❖ 165.7 55.4 161.2 48.5 172.8 57.0 175.1 75.5 157.5 50.5 169.8 62.9
❖ 168.6 63.4 172.6 61.0 163.8 58.5 165.1 61.5 166.7 52.5 170.9 61.0
❖ 166.1 69.5 166.2 62.5 172.4 52.6 172.8 60.0 177.8 63.9 162.7 56.8
文件:P59_2.sas
19
第二节 频数统计与柱状图
(二)用CHART过程作直方图
CHART过程是用图表的方式形象地表示变 量取值及两个以上变量之间的关系。它所描述的 图形有直方图(条形图)、块形图、饼形图、星 形图。这里着重介绍直方图。
CHART过程产生的图形有三个因素决定: 选择图形表示方法;显示图表变量值的统计量; 规定分组的特性。
功能
将数据集按指定变量排序
将数据集中数据列表输出
绘统计图
对指定的数值变量作详细的统计描述
对指定的数值变量作简单的统计描述
对指定的分类变量作统计描述和检验
非参数检验
进行t检验
进行方差分析
拟合一般线性模型
拟合线性回归模型
进行相关分析
拟合Logistic回归模型
拟合cox比例风险模型
6
第二节 频数统计与柱状图
❖ 171.5 59.3 176.6 66.3 181.7 68.6 175.2 74.9 169.5 59.5 169.6 61.5
❖ 169.1 63.1 185.5 77.0 173.9 65.5 162.5 50.0 171.5 58.5 175.6 59.8
❖ 166.0 75.5 167.2 63.3 171.9 57.0 176.6 58.4 177.3 67.0 169.2 71.8
❖ 百分数( TYPE= PCT)
❖ 累计频数( TYPE= CFREQ)
❖ 累计百分数( TYPE= CPCT)
❖ 总和( TYPE= SUM)
❖ 平均数( TYPE= MEAN)
通过选项TYPE=取以上几种选择来显示不 同
统计量的图形
22
第二节 频数统计与柱状图
(3)分组特性的选择 ❖ 用于分组的变量选项DISCRETE ❖ 用于并排分组的选项GROUP= ❖ 用于分子组的选项SUBGROUP= ❖ 对连续变量用区间中点定位的选项MIDPOINTS= ❖ 选项SUMVAR=规定收集对均值、总和、或频数的汇
Run; proc freq data=stud ;
tables gweight; run;
then then then then then then then
gweight='72-80'; gweight='64-72'; gweight='56-64'; gweight='48-56'; gweight='40-48'; gweight='32-40'; gweight='24-32';
②FREQ=变量——用来规定数据集中的某个变量,它 的值表示相应观测的频数(或权数)
③LEVELS=条图个数——当VBAR语句中给定的的图 表量量是连续时,改选项用来规定每个图表变量的 条图个数。
25
第二节 频数统计与柱状图
④MIDPOINTS=中值列——通过规定每个图表或 线段表示的区间中点来定义图表变量的变化范 围。例如语句,
20
第二节 频数统计与柱状图
(1)图形表示方法的选择 ❖ 垂直条形图或垂直直方图(VBAR语句) ❖ 横条形图或水平直方图(HBAR语句) ❖ 块形图(BLOCK语句) ❖ 饼形图(PIE语句) ❖ 星形图(STAR语句)
21
第二节 频数统计与柱状图
(2)汇总统计量的选择
❖ 频数(TYPE=FREQ)
❖ CV-变异系数
❖ Std Mean-均值的标准误差
3
正态性检验
❖ 在PROC UNIVARIATE语句中加上NORMAL 选项可以进行正态性检验。例如,我们要检 验SASUSER.GPA 中GPA是否服从正态分布, 只要用如下UNIVARIATE过程:
❖ proc univariate data=sasuser.gpa normal; var gpa;run;
❖ 166.2 49.8 181.7 63.0 175.8 68.3 172.3 55.5 172.7 58.5 174.3 64.0
❖ 171.2 59.0 174.8 68.0 165.4 55.5 169.1 64.8 167.9 62.0 176.8 64.0
❖ 183.5 69.9 165.5 48.6 171.0 70.5 170.3 58.5
run;
proc freq data=sasuser.class1;
tables weight;
format weight wfmt.;
run;
/*程序名为p58*1/7
第二种:形成一个新的变量gweight
(1)
data tmp;
set sasuser.class1;
gweight=int((weight-16)/8);
Analyze =>…. Histogram/Bar Chart(Y)
1、分析sex、age、height三个变量 2、按性别分组输出 3、解释图形的下三角菜单 数据文件:class1
8
第二节 频数统计与柱状图
(二)用INSIGHT作频数统计
Analyze => Distribution(Y) 1、作sex、age的频数统计 2、按性别分组作age的频数统计
总变量
23
第二节 频数统计与柱状图
基本格式:
PROC CHART <选项>; /*选项有DATA=*/ VBAR 变量名列 </<标准选项><VBAR特有选项>>; HBAR 变量名列 </<标准选项><HBAR特有选项>>;
RUN;
24
第二节 频数统计与柱状图
标准选项
①DISCRETE——用来指明数值图表变量是离散的而 不是连续的。如果省略该选项,则CHART过程假定 所有数值变量都是连续的。
相关文档
最新文档