第四讲 SAS的描述统计(2)
SAS中的描述性统计过程
SAS中的描述性统计过程(2012-08-01 18:07:01)▼分类:数据分析挖掘标签:杂谈SAS中的描述性统计过程描述性统计指标的计算可以用四个不同的过程来实现,它们分别是means过程、summary过程、univariate过程以及tabulate过程。
它们在功能范围和具体的操作方法上存在一定的差别,下面我们大概了解一下它们的异同点。
相同点:他们均可计算出均数、标准差、方差、标准误、总和、加权值的总和、最大值、最小值、全距、校正的和未校正的离差平方和、变异系数、样本分布位置的t检验统计量、遗漏数据和有效数据个数等,均可应用by语句将样本分割为若干个更小的样本,以便分别进行分析。
不同点:(1)means过程、summary过程、univariate过程可以计算样本的偏度(skewness)和峰度(kurtosis),而tabulate过程不计算这些统计量;(2)univariate过程可以计算出样本的众数(mode),其它三个过程不计算众数;(3)summary过程执行后不会自动给出分析的结果,须引用output语句和print过程来显示分析结果,而其它三个过程则会自动显示分析的结果;(4)univariate过程具有统计制图的功能,其它三个过程则没有;(5)tabulate过程不产生输出资料文件(存储各种输出数据的文件),其它三个均产生输出资料文件。
统计制图的过程均可以实现对样本分布特征的图形表示,一般情况下可以使用的有chart过程、plot过程、gchart过程和gplot过程。
大家有没有发现前两个和后两个只有一个字母‘g’(代表graph)的差别,其实它们之间(只差一个字母g的过程之间)的统计描述功能是相同的,区别仅在于绘制出的图形的复杂和美观程度。
chart过程和plot过程绘制的图形类似于我们用文本字符堆积起来的图形,只能概括地反映出资料分布的大体形状,实际上这两个过程绘制的图形并不能称之为图形,因为他根本就没有涉及一般意义上图形的任何一种元素(如颜色、分辨率等)。
SAS统计分析课件2
Proc freq过程需与tables 语句同时使用,若缺省, 则对所有变量做一个频数 表
Slide 13
三 计量资料的统计量描述 常见的数据统计描述量及意义 a 表示位置的特征量:均值,众数,中位数,百分位数 表示位置的特征量:均值,众数,中位数,百分位数 均值:数据的平均值.----Mean 众数:观测值中出现最频繁的数值----Mode 中位数:观测值排序中处于中间位置的值---Median 百分位数:中位数的推广.----P99
Slide 4
统计资料的描述
图形描述 表格描述 统计量描述 一 图形描述
A 散点图与曲线图 data student; input class sex $ age weight height @@; cards; 1 f 15 46 156 1 f 14 41 149 1 m 15 50 160 1 m 13 48 155 1 m 14 38 150 2 m 16 55 165 2 m 16 60 170 2 f 17 50 160 2 f 16 60 165 2 m 17 65 175 3 f 18 65 165 3 f 17 58 160 3 m 18 70 180 3 f 18 61 162 3 m 17 68 176 ; run; ;
Slide 6
Proc gplot; Symbol1 i=none v=b line=1 c=r; Symbol2 i=none v=a line=2 c=b; Plot weight*age=1 height*age=2/overlay; Run;
该程序分别画出了体重对年龄和身高对年龄的散点图
Slide 7
n(n + 1) ∑ ( xi − x )4 3(n − 1)2 Kurtosis g2 = (n − 1)(n − 2)(n − 3) s4 (n − 2)(n − 3)
SAS描述性统计
统计程式
MEANS过程 MEANS过程
统计程式
例题4.1,进入SAS的显示管理系统,在编辑窗口输入程式: 例题4.1,进入SAS的显示管理系统,在编辑窗口输入程式: 4.1,进入SAS的显示管理系统 ex; 9;输入一个数据集,其中一个变量长度为9 data ex;length name$ 9;输入一个数据集,其中一个变量长度为9 t1- @@; input name sex$ group$ t1-t3 @@;将数据行中的数分别赋给几个变量 Cards; Cards; wangdong 1 1 90 70 60 xueping 2 2 85 95 88 输入一组数据行 让其他SAS SAS语句使用 zhouhua 1 1 77 84 69 heyan 1 2 95 78 88 让其他SAS语句使用 hufang 1 2 78 77 69 zhangqun 1 1 93 91 89 ; maxdec=2;将数据集EX EX中的观测值进行简单描述性统计 proc means maxdec=2;将数据集EX中的观测值进行简单描述性统计 t1-t3; group;按组别将t1 t2、t3中的值分类统计 t1、 var t1-t3;class group;按组别将t1、t2、t3中的值分类统计 maxdec=4; proc means mean std cv maxdec=4;需要描述的变量 t1-t3; group;run; 按组别将t1 t2、t3值的分析结果打印 t1、 var t1-t3; class group;run; 按组别将t1、t2、t3值的分析结果打印
统计程式
MEANS过程 MEANS过程
统计程式
例题4.3,进入SAS的显示管理系统,在编辑窗口输入程式: 例题4.3,进入SAS的显示管理系统,在编辑窗口输入程式: 4.3,进入SAS的显示管理系统 ex; @@;d=xdata ex; input x y @@;d=x-y; Cards; Cards; 11.3 15 15 13.5 12.8 10 11 12 13 12.3 14 13.8 14 13.5 13.5 12 14.7 11.4 13.8 12 ; std; y; proc means n mean std; var x y; prt; d;run; proc means n mean std t prt; var d;run; 程式中的第一个proc means作 的简单的描述性统计, 程式中的第一个proc means作x与y的简单的描述性统计, 第二个proc means作 的总体均值差为0的显著性检验。 第二个proc means作x与y的总体均值差为0的显著性检验。
统计描述与SAS过程解读
语句说明
1、proc univariate <option-list>语句
options除了类似与means过程的选项外还有:
(1) freq:要求生成包含变量值、频数、百分数 和累积频数的频率表 (2)Normal:要求检验输入的数据是否服从正 态分布 (3)Plot:要求生成茎叶图、盒型图、正态概率 图 (4)pctldef=value:规定计算百分位数的方法
指定变量表示相应观测出现的频数
6、WEIGHT语句:WEIGHT variable;
指定变量表示相应观测的权数
7、ID语句:一般格式 ID variable;
对产生的数据集增加一个或几个附加变量,用于识别输出数 据集里的观测。
8、OUTPUT语句:
一般格式: OUTPUT<OUT=SAS-data-set><output-statistic-list> <MAXID<(var-1<id-list-1><…var-n<(id-list-n)>>)>=name-list> <MINID <(var-1<id-list-1><…var-n<(id-list-n)>>)>=name-list>;
G1 0, 非对称的左偏分布,即随机变量取值在左边比较分散;
峰度:度量总体分布尾部粗细程度(与正态分布相比)
G2
E(X
4
sas描述性统计分析
28
27
26
散点图
25
24
23
22
21 女 20 1900 1920 1940 1960 1980 2000 男
定性变量的图表示:饼图 定性变量(或属性变量,分类变量 )不能点出直方图、散点图或茎 叶图,但可以描绘出它们各类的 比例。
饼图
定性变量的图表示:条形图
从每一条可以看出讲各种语言的 实际人数,而且分别给出了每 个语种中母语和日常使用的人 数(在图中并排放置)。条形 图显示比例不如饼图直观。
数据的“尺度”
另一个常用的尺度统计量为(样本)标 准差 (standard deviation) 。度量样 本中各数值到均值距离的一种平均。 标准差实际上是方差 (variance) 的平方 根。如果记样本中的观测值为 x1,…,xn,则样本方差为
数据的“尺度”
两个均值一样,但右边的要 “胖”些,方差为左边的一 倍
描述性统计分析
East China JiaoTong University
如 同 给 人 画 像 一 样
数 据 的 描 述
在对数据进行深入加工之前,总 应该对数据有所印象。 可以借助于图形和简单的运算, 来了解数据的一些特征。 由于数据是从总体中产生的,其 特征也反映了总体的特征。对 数据的描述也是对其总体的一 个近似的描述。
其中茎叶图中茎的单位为10cm,而叶子单位为1cm。比如,由于 第一行茎为150cm,因此叶子中的九个数字001223344代表九个数 目150、150、151、152、152、153、153、154、154cm等。每 行左边有一个频数(比如第一行有9个数目,第二行有17个等等); 可以看出最长的一行为从165cm到169cm的一段(有35个数)。
SAS中的描述性统计过程
SAS中的描述性统计过程(2012-08-01 18:07:01)标签:分类:SAS中的描述性统计过程描述性统计指标的计算可以用四个不同的过程来实现,它们分别是means过程、summary过程、univariate过程以及tabulate 过程。
它们在功能范围和具体的操作方法上存在一定的差别,下面我们大概了解一下它们的异同点。
相同点:他们均可计算出均数、标准差、方差、标准误、总和、加权值的总和、最大值、最小值、全距、校正的和未校正的离差平方和、变异系数、样本分布位置的t检验统计量、遗漏数据和有效数据个数等,均可应用by语句将样本分割为若干个更小的样本,以便分别进行分析。
不同点:(1)means过程、summary过程、univariate过程可以计算样本的偏度(skewness)和峰度(kurtosis),而tabulate过程不计算这些统计量;(2)univariate过程可以计算出样本的众数(mode),其它三个过程不计算众数;(3)summary过程执行后不会自动给出分析的结果,须引用output语句和print过程来显示分析结果,而其它三个过程则会自动显示分析的结果;(4)univariate过程具有统计制图的功能,其它三个过程则没有;(5)tabulate过程不产生输出资料文件(存储各种输出数据的文件),其它三个均产生输出资料文件。
统计制图的过程均可以实现对样本分布特征的图形表示,一般情况下可以使用的有chart过程、plot过程、gchart过程和gplot 过程。
大家有没有发现前两个和后两个只有一个字母‘g’(代表graph)的差别,其实它们之间(只差一个字母g的过程之间)的统计描述功能是相同的,区别仅在于绘制出的图形的复杂和美观程度。
chart过程和plot过程绘制的图形类似于我们用文本字符堆积起来的图形,只能概括地反映出资料分布的大体形状,实际上这两个过程绘制的图形并不能称之为图形,因为他根本就没有涉及一般意义上图形的任何一种元素(如颜色、分辨率等)。
SAS的描述统计功能
2.2.2 用“分析家”计算统计量
❖1. 启动“分析家”
▪ 选择主菜单“Solutions(解决方 案)”→“Analysis(分析)”→“Analyst (分析家)”,打开“分析家”窗口。
▪ 选择主菜单“File(文件)”→“Open By SAS Name”,打开“Select A Member”对话 框,选择数据集Mylib.sryzc。
2.3 统计图形
❖2.3.1 定量变量的图形表示 ❖2.3.2 分类变量的图形表示
2.3.1 定量变量的图形表示
❖1. 直方图
▪ 对于数值型变量,常用直方图(histogram) 来展示变量取值的分布。将变量取值的范围分 成若干区间,在等间隔区间的情况,每个区间 的长度称为组距。考察数据落入每一区间的频 数与频率,在每个区间上画一个矩形,它的宽 度是组距,它的高度可以是频数、频率或密度 (频率/组距),在高度是密度的情况,每一 矩形的面积恰是数据落入区间的频率,这种直 方图可以估计总体的概率密度。
❖2. 校正平方和(Corrected sum of squares)
n
CSS (xi x)2
i1
2.1.5 其它统计量
❖3. 未校正平方和(Uncorrected sum of squares)
n
USS xi2
i1
❖4. k阶原点矩
Ak
1 n
n i1
xik,k1,2,...
• 其中A1即为均值 x 。
家庭总支出 2060 2236 1455 1040 2366 1966 2400 1250 1350 1794 2550 1380 1200 2305 1316
2.2.1 用INSIGHT计算统计量
❖2. 在INSIGHT中打开数据集
SAS统计应用基础(第二讲)共4讲
2.SELECT…WHEN语句 2.SELECT…WHEN语句
语法格式:
SELECT (表达式); WHEN(数值1) 执行语句A; WHEN(数值2) 执行语句B; … OTHERWISE 执行语句Z; END;
语法格式:
SELECT; WHEN (条件1) 执行语句A; WHEN (条件2) 执行语句B; … OTHERWISE 执行语句Z; END;
Data temp; Input varx $ vary varz; Datalines4; 24;77 195 177 24;31 220 213 24;56 173 166 24;12 135 125 ;;;;
4. INFILE语句
主要功能:指定一个包含原始数据的外部文本文件,从而使得
数据步可以从这一文本文件读入数据块。
④在较长的程序段前后加上空行、注释语句等以突出分段。
2.1.4 SAS程序的运行
菜单方式:run →submit
SAS程
序的调 用方式
ቤተ መጻሕፍቲ ባይዱ
直接按F8键 单击工具栏“小人右跑” 按钮
注:如果选中某一段程序,然后运行,则系统只执行被选择部分。 该功能在调试程序时非常有用。
2.1.5 SAS程序中的注释
使长程序清晰易读的方法: 1.在相应程序段考虑使用空行分隔; 2.使用注释加以说明 SAS中的注释方式有两种格式: SAS中的注释方式有两种格式: 中的注释方式有两种格式
建议编写SAS程序遵循以下规则: 建议编写SAS程序遵循以下规则: SAS程序遵循以下规则
①除非特别长的语句,每个语句尽量只占一行。如必须要 占多行,从第二行起使用缩进格式以突出语句结构。 ②所有数据步和过程步均主动加上“run;”语句作为结束。 其 第一个语句和最后的RUN语句由第一列开始书写,其他 语句按程序的逻辑结构层次遵循缩进格式书写,以使得 程序结构更为清晰。 ③尽量只使用小写字母。
SAS统计分析与应用(第四讲)
详细描述
多元线性回归分析通过建立多元线性方程组来描述多个因变量与多个自变量之间的关系,并利用最小二乘法来估计回归系数。这种方法可以用于预测多个因变量的值,并评估多个自变量对因变量的影响程度。
数学模型
Y1 = β01 + β11X1 + β21X2 + ... + ε1
多元线性回归分析
Y2 = β02 + β12X1 + β22X2 + ... + ε2
01
双因素方差分析是用于比较两个分类变量对数值型因变量的影响的统计方法。
02
它通过分析两个分类变量对数值型因变量的交互作用和单独作用,判断两个分类变量对数值型因变量的影响是否显著。
双因素方差分析
04
回归分析
总结词
一元线性回归分析是用来研究一个因变量与一个自变量之间的线性关系的回归分析方法。
数学模型
01
02
03
04
t检验
用于比较两组Biblioteka 据的均值是否存在显著差异,如独立样本t检验和配对样本t检验。
方差分析
用于比较两组或多组数据的方差是否存在显著差异,如单因素方差分析和多因素方差分析。
卡方检验
用于比较实际观测频数与期望频数之间的差异,如拟合优度检验和独立性检验。
非参数检验
不依赖于总体分布的假设检验方法,如符号检验、秩次检验等。
Y = β0 + β1X + ε
参数解释
Y是因变量,β0是截距,β1是斜率,X是自变量,ε是误差项。
详细描述
一元线性回归分析通过建立线性方程来描述因变量和自变量之间的关系,并利用最小二乘法来估计回归系数。这种方法可以用于预测因变量的值,并评估自变量对因变量的影响程度。
SAS描述统计
4、箱线图
• 箱线图(boxplot)也是一类重要的观察数据分 布的图形,它是五数概括的图形表示
1998GDP
广 东
-2000
0
2000
4000
6000
8000
10000
4、箱线图
• 离群值截断点 位于上四分位数+1.5四分位距以外的点; 位于下四分位数 -1.5四分位距以外的点都 可以称为离群值(outliers)
5561 4607 3845 4717 5188 3470
3020
3021 3023 3025 3027
男
男 男 男 女
大专
本科 本科 大专 本科
12424
11132 9782 9757 10631
5570
5385 4766 4355 4836
3029
3030 3035 3038 3039
女
男 男 男 女
SAS系统是由模块构成,主要模块有: SAS/BASE模块
· Base SAS 作为SAS系统的核心,负责数据管理,交互应用 环境管理,进行用户语言处理,调用其它SAS模块。Base SAS 为SAS系统的数据库提供了丰富的数据管理功能,还支 持标准的SQL语言对数据进行操作。Base SAS能够制作从简 单列表到比较复杂的统计报表。 Base SAS可进行基本的描 述性统计及基本相关系数的计算,进行正态分布检验等。
输出窗口显示SAS程序的文本型输出(图形输出单独有一个GRAPHICS窗 口)。输出分页显示。
2、LOG 显示程序运行信息记录窗口,运行记录窗口记录
程序的运行情况,运行是成功还是出错,运行所用时间,如果出错,错在 什么地方。运行记录窗口中以红色显示的是错误信息。
统计软件SAS基础2
• 输出结果分类整理为“矩”、“位置和变异性基本测度”、 “位置检验”、“正态性检验”、“分位数”、“极值观 测”、“图”七部分内容。
13:01:35 10
对示例做KS检验
proc univariate data=income noprint;/*调用UNIVARIATE过程*/ var x; /*指定分析的变量*/ histogram/noplot /*HISTOGRAM语句, 不显示直方图*/ normal(mu=est sigma=est) /*检验正态分布,参数使用估计值*/ lognormal(zeta=est sigma=est theta=est)/*检验对数正态*/ exponential(sigma=est theta=est) /*检验指数分布*/ weibull(sigma=est c=est theta=est); /*检验韦伯分布*/ run;
13:01:35 13
FREQ语法简要说明 • 1) FREQ语句的[选择项]: 为可选项,常用选项如下。 • Data=:指定SAS数据集。用来说明要做FREQ的数据集名,如 果省略这一项,则指定最新建立的数据集。 • ORDER=FREQ|DATA|INTERNAL|FORMATTED:此选项规 定变量水平的记录排列次序。ORDER=FREQ表示按频数下 降的次序排列,最大的频数的水平第一个出 现;ORDER=DATA表示按输入数据集中出现的次序排 列;ORDER=INTERNAL表示按非格式化值的次序排列; ORDER=FORMATTED表示按格式化值的次序,默认时为 RDER=INTERNAL . • 2 ) BY: 指定分组变量。 • 3 ) TABLES: 指定需条件频数的变量表;可选的[/选择项]提供 一些专门的统计项目。 • 4 ) WEIGHT: 指定权重变量。 • 5 ) OUTPUT: 指定输出结果到数据集。
SAS中的描述性统计过程
SAS中的描述性统计过程SAS是一种强大的统计分析软件,提供了丰富的描述性统计分析过程。
这些过程可以帮助统计分析师对数据进行总体的描述和了解。
下面将详细介绍SAS中的描述性统计过程及其应用。
一、数据准备在进行描述性统计之前,需要准备数据。
SAS可以导入各种格式的数据集,如SAS数据集、CSV文件、Excel文件等。
导入数据后,可以使用SAS的数据步骤对数据进行预处理,包括数据清洗、缺失值处理、变量转换等。
这样可以确保数据的质量和完整性。
二、数据探索1.频数统计SAS提供了PROCFREQ过程来计算变量的频数、百分比和交叉表。
可以使用该过程来了解变量的分布情况、缺失值情况和数据异常情况。
通过频数统计,可以发现数据集中的异常值或需要进一步处理的特殊情况。
2.描述性统计SAS中的PROCMEANS和PROCSUMMARY过程可计算变量的均值、标准差、最大值、最小值、中位数等描述性统计量。
这些统计量可以帮助我们了解数据的中心趋势、离散程度和分布情况。
此外,我们还可以使用PROCUNIVARIATE过程来绘制直方图、箱线图和正态概率图,以更直观地了解数据的分布情况。
3.相关分析SAS提供了PROCCORR过程来计算变量之间的相关系数。
通过相关分析,可以了解变量之间的线性关系强度和方向。
PROCCORR还可以生成相关矩阵和散点图,帮助我们观察变量之间的关系。
4.排序和排名SAS提供了PROCRANK过程来对变量进行排序和排名。
排序可以帮助我们找出变量中的异常值或极端值。
排名可以用于对变量进行等级分类,如将考试成绩按照从高到低进行排名。
5.缺失值处理SAS提供了多种方法来处理缺失值,如删除带有缺失值的观测、使用均值或中位数代替缺失值、使用插补方法进行缺失值估计等。
可以使用PROCMEANS、PROCUNIVARIATE和PROCMI过程对缺失值进行处理。
三、数据汇总和报告1.数据表汇总SAS中的PROCTABULATE和PROCREPORT过程可以生成数据表和报告。
SAS—第四讲
第四讲:SAS Data步和SAS数据集编辑建立SAS数据集之后,需要对数据集进行必要的编辑。
如删除一些变量或观测、产生新变量等等。
利用SAS的DATA步,通过编程可以灵活的对SAS数据集进行编辑。
§4.1 SAS编程基础1、SAS程序SAS语句:由SAS关键词、SAS名字、特殊字符和运算符组成的字符串,并以分号(;)结尾。
它要求SAS系统执行一个操作或给SAS系统提供信息。
如:data score;proc means;set A;等都是SAS语句,其中的data 、proc、set等都是关键词,score、means、A等为SAS名字。
SAS关键词:除个别语句(赋值语句、累加语句、注释语句和空语句)外,SAS语句都是以关键词开始的,相当于一句话中的动词,告诉SAS要执行什么操作。
如data 关键词告诉SAS要产生一个数据集合。
SAS名字:可以理解为SAS关键词的作用对象。
SAS名字分很多种,如变量名、数据集合名、过程名等。
如语句data score;中的score就是数据集合名,它表明要产生一个临时数据集合score。
SAS名字的命名规则与Window命名规则类似。
例如,第一个字符必须是字母或者下划线、不能出现空格和一些特殊字符($、@、#等),也不能和系统已有的特殊名字重名。
SAS程序:按一定次序排列、并以run;语句结束的一系列语句,具有特定功能。
SAS程序分为两大类:DATA(数据)步和PROC(过程)步。
DATA可以产生一个或多个SAS数据集合,并可以对所创建的集合进行必要的运算和操作。
报表编写、文件管理、信息检索等都在DATA步中完成。
PROC步从SAS系统的过程库中调出过程并执行,执行的对象通常是一个SAS数据集合。
因此,PROC后面紧接的是过程名,然后是对数据集合的指定。
如PROC means data=class;就是对临时数据库(work)中的数据集合class进行描述统计分析。
4-数值化描述
第四讲:资料的统计描述(二):数值化描述SPSS的许多模块均可完成资料的数值化描述,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中:Frequencies过程的特色是产生频数表,不论对计量或计数资料都适用; Descriptive过程则进行一般性的统计描述,主要用于满足正态分布的计量资料,其特色为可以对原始数据进行标准正态性转换; Explore过程用于对数据概况不清时的探索性分析;Crosstabs过程则完成计数资料和等级资料的统计描述和一般的统计检验,常用的X2检验也在其中完成;Ratio过程用于对两个数值变量计算其相对比指标(其中涉及许多在医学统计学中不常用的相对比指标)。
Frequencies:频数表分布是统计描述中最常用的方法之一。
该命令不但可以产生频数表还可以绘制常用的条图、圆图以及直方图等描述统计图,同时可以计算相应的描述数据集中、离散趋势以及分布形态的统计量。
和Descriptive过程相比,它更加适用于分类变量。
研究者想研究某地110名20岁男大学生的身高(cm),请计算相应的集中、离散趋势以及分布形态的统计量指标;生成一个由11个组段组成的频数分布表;并且作适当的统计图。
根据我们的经验,相同性别同年龄人群的身高近似服从正态分布,因此可以考虑用算术平均数与标准差描述其集中与离散趋势,用偏态系数与峰态系数描述其分布形态,用直方图描述其频数分布。
打开“身高.sav”,点击Frequencies:将身高选入variables中,系统默认结果输出时显示频数分布表(Display frequency tables),但是该表和我们的要求相差甚远,必须对其进行调整,调整方法见后所述。
进而可以在statistics中选择统计量。
该对话框为选用统计量,其中Mode为众数,表述为在原始数据众出现频数最多的数值。
至于values are group midpoint表示当计算百分位数时,如果选择该项则频数表中的数值为组段的组中值;通常情况下由于我们输入的都是原始数据,所以在算百分位数时通常该项均不选。
SAS编程:描述性统计
SAS 统计分析与应用 从入门到精通 一、描述统计量
(1)表示位置的统计量
1、基本概念
均值:由样本的总和除以样本的个数 ,即
1 n x xi n i 1
中位数:将样本按照大小顺序排列之后,处于中间位置的样本值 众数:样本中出现频率最大的样本值
SAS 统计分析与应用 从入门到精通
描述性统计
描述统计量
统计图形
SAS 统计分析与应用 从入门到精通 一、描述统计量
描述性统计是最基本的统计分析,通过对原始数据进行总括和描述 来说明总体的情况和特征。描述性统计一方面利用一系列数字指标来概 括数据的信息,另一方面利用直观简单的图形来展现数据的特性。
SAS 统计分析与应用 从入门到精通 一、描述统计量
关键字 N NMISS MEAN VAR STDDEV | STD STDERR CV SUM SUMWGT CSS USS SKEWNESS KURTOSIS 有效观测数 缺失值个数 均值 方差 标准差 标准误 变异系数 总和 加权值总和 校正平方和 未校正平方和 偏度 峰度 统计量 MAX MIN RANGE ቤተ መጻሕፍቲ ባይዱEDIAN Q1 Q3 QRANGE P1 P5 P10 P90 P95 P99
1 n s ( xi x ) 2 n 1 i 1
2
标准误 :样本均值的标准误差,定义为
n 1 sm ( xi x ) 2 n(n 1) i 1 n
变异系数 :是将标准差表示为均值的百分数,即
极差:样本中最大值与最小值之差
CV
s 100 % x
SAS 统计分析与应用 从入门到精通 一、描述统计量
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ID
R_ID Income Outgo
ID
R_ID Income Outgo
1
2
1794
1550
16
2
2200
2060
2
2
1716
1365
17
1
2730
2236
3
1
3410
2730
18
1
2496
1455
4
2
1765
1530
19
1
1760
1040
5
2
1 14 4275.00 2400.00 3305.00
4275.00
1760.00
2 16 2460.00 1740.50 2192.00
2460.00
1080.00
-----------------------------------------------------------------------------------------------------------------
(2).应用举例
例3:某单位对100名健康的女大学生测定了血清总蛋白含 量(g/L),试做单变量描述性统计分析。
data aa; input x @@; cards; 74.3 78.8 ……70.4 ; proc means; run; proc means maxdec=2 n min max mean std stderr cv; run;
run;
使用BY语句分区域输出统计量:
R_ID=1
The MEANS Procedure
Analysis Variable : INCOME Income
N Mean Median 1st Pctl 5th Ptcl 95th Pctl 99th Pctl --------------------------------------------------------------------------------------------------
Upper
Quartile Quartile Maximum Minimum --------------------------------------------------------------------
2400.00 3305.00 4275.00 1760.00 --------------------------------------------------------------------
Analysis Variable : INCOME Income
R_ID Obs N
Mean Median 1st Pctl 5th Ptcl 95th Pctl
-----------------------------------------------------------------------------------------------------------------
14 2803.71 2775.00 1760.00 1760.00 4275.00 4275.00 --------------------------------------------------------------------------------------------------
Lower
新数据集中统计量用原变量名
2) 统计量关键字=新名字列表
3) 统计量关键字(变量列表)=新名字列表
(2)把变量height和weight的均值(新名分别取为hmean和wmean ) 和标准差(新名字分别取为hstd 和wstd )输出到新数据集result3.
proc means data=bclass noprint ; var height weight ; output out=result3 mean=hmean wmean std=hstd wstd ;
输出结果:
MEANS 过程
分析变量:x
N 最小值 最大值 均值 标准偏差 标准误差 偏差系数
100 64.30 84.30 73.66 3.94
0.39
5.35
例4 下表为两个不同地区居民家庭收入和支出情 况的抽样调查(单位:元),试分别统计收入和 支出情况。
将下表中数据输入成Excel文件sryzc.xls。4个变 量名分别为:ID、R_ID、Income和Outgo,该四个变量 分别表示“家庭编号”、“地区编号”、“家庭总收 入”和“家庭总支出”。
proc means data=bclass noprint ; var height weight ; output out=result2 mean= ;
run ; Proc print data=result2;run;
output <选项> < 输出统计量列表> ;
输出统计量列表形式:
1) 统计量关键字=
2184
1900
20
1
2820
2366
6
2
2050
2050
21
2
2250
1966
7
2
2460
2184
22
1
3170
240081Fra bibliotek1976
1170
23
2
1200
1250
9
1
2850
2496
24
2
1776
1350
10
1
4275
2760
25
2
1980
1794
11
2
2010
1275
26
1
2455
2550
12
1
R_ID=2
Analysis Variable : INCOME Income
N Mean Median 1st Pctl 5th Ptcl 95th Pctl 99th Pctl
16 1889.44 1983.00 1080.00 1080.00 2460.00 2460.00 ---------------------------------------------------------------------------------------------
在PROC MEANS语句中使用统计量关键字列表。输出数 据集sryzc中收入(Income) 的观测个数、均值、中位数、第一 百分位数、第五百分位数、第九十五百分位数、第九十九百分 位数、第一四分位数、第三四分位数、最大值、最小值。
proc means data =sryzc n mean median p1 p5 p95 p99 q1 q3 max min var ;
例5 1) 使用BY语句, 将上例中的数据按地区(R_Id)分组,计算 统计量:
proc sort data = sryzc; by R_Id;
run; proc means data = sryzc n mean median
p1 p5 p95 p99 q1 q3 max min; var Income; by R_Id;
关键字 skewness
kurtosis t probt q1 q3 qrange p1 p5 p10 p90 p95 p99 clm lclm uclm
所代表的含义 偏度
峰度 分布位置假设检验之t统计量 上述t统计量对应的概率值 第一四分位数 第三四分位数 四分位数间距 第一百分位数 第五百分位数 第十百分位数 第九十百分位数 第九十五百分位数 第九十九百分位数 置信限 置信下限 置信上限
1、MEANS过程(均值过程)
(1) 语法格式
Proc means <选项> <输出统计量关键字列表> ; < Var 分析变量名列 ;> <Class 分类变量名列 ;> <by 分类变量名列 ; > <Output out=数据集名 < 输出统计量列表> ; >
Run ;
Proc means 主语句选项:
SAS运行结果:
可以计算的描述性统计量关键字及其含义见下表。
关键字 n
nmiss mean std stderr var median mode cv max min sum sumwgt css uss range
所代表的含义 有效数据记录数
缺失数据记录数 均值 标准差 标准误 方差 中位数 众数 变异系数 最大值 最小值 总计 加权值总计 校正平方和 未校正平方和 极差
Lower
Upper
Quartile Quartile Maximum Minimum --------------------------------------------------------------------
1740.50 2192.00 2460.00 1080.00 --------------------------------------------------------------------
1.DATA=SAS数据集 指出SAS数据集的名称,若省略,则使用最近产生的数据集。
2.MAXDEC=数字 指定该过程输出结果中小数部分的最大位数(0到8).默认是8。 3. ALPHA= 置信水平为1- . 默认为 =0.05.
Means过程默认输出统计量只有五个: N, Mean , Std , Min , Max
var Income; run;
运行结果
(3) 使用CLASS语句或BY语句
class 分类变量名列 ;