sas中的描述统计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
当数据的总体分布为正态分布时,峰度近似为 0;当分布较正态分布的尾部更分散时,峰度 为正,否则峰度为负。当峰度为正时,两侧极端数据较多;当峰度为负时,两侧极端数据较 少。 下面我们对偏度与峰度作进一步的说明。 总体偏度是度量总体分布是否偏向某一侧的指标。对于对称的分布,偏度为 0。例如, 对于正态分布,因 3 0 ,故 G1 0 。若总体分布在右侧更为扩展,偏度为正;若总体分 布在左侧更为扩展,偏度为负。我们看到,总体偏度的这一特性与样本偏度的相应特性是相 似的。 总体峰度是以同方差的正态分布为标准, 比较总体分布尾部分散性的指标。 当总体分布 是正态分布时,因 4 3 ,故总体峰度 G2 0 。当 G2 0 时,总体分布中极端数值分布
2.众数是观测值中出现最频繁的数值,记为 m0 。 3.中位数 设 x1 , x2 ,, xn 是 n 个观测值,将它们按数值由小到大记为 x(1) x(2) x( n ) ,这就 是 次 序 统 计 量 。 显 然 , 最 小 次 序 计 量 x(1) 与 最 大 次 序 计 量 x( n ) 分 别 为
二. 利用已有的 SAS 数据集建立新的 SAS 数据集
◆两个 SAS 数据集的合并 1)串联 语句形式: DATA name(新数据集名); SET A B; 说明:两数据集必须有相同的变量。 2)并联 语句形式: DATA name(新数据集名); MERGE A B; 说明:两数据集必须有相同数据行。 ◆变量值的排序 语句形式: DATA new name; PROC SORT DATA=name; BY (DESCENDING 降序,否则就是升序排列) variable; ◆删除数据集中的某些数据行 语句形式:
s s2
1 n ( xi x )2 n 1 i 1
极差的计算公式是 R x( n ) x(1) . 它是描述数据分散性的数字特征,数据越分散,级 差越大。 四分位极差 上、下四分位数之差称为四分位极差(或半极差) : R1 Q3 Q1 ,它也是度量样本分 散性的重要数字特征,特别对于具有异常值的数据,它作为分散性的度量具有稳健性,因此 在稳健性数据分析中具有重要作用。 刻画数据相对分散性的度量是变异系数: CV 100 标准误: sm
3
DATA new name; SET DATA=name; IF conditions THEN DELETE; 说明: “conditions”数据行的序号或某个变量的取值所满足的条件。 ◆删除数据集中某些变量及其观测值 语句形式: DATA new name; SET DATA=name; DROP variables(要删除的变量名) (或 KEEP variables 需要保留的变量名) ◆产生新变量及其观测值 语句形式: DATA new name; SET DATA=old name; 变量的变换公式; RUN;
第一节 描述统计量
已知一组试验数据或观测数据为 x1 , x2 ,, xn ,以下介绍描述这组数据的几种特征量。
一. 表示位置的特征量
表示位置的特征量有均值、众数、中位数和百分数等。 1.均值是 x1 , x2 ,, xn , 的平均数: x
1 n xi ,它表示数据的集中位置。 n i 1
一. 数据的输入与输出
◆数据集的建立 SAS 系统是按每个观测向量逐个处理数据,一个典型的 SAS 数据集由变量行和数据行 组成: 变量行 V1
V2 Vm
1
v11 v12 v 21 v22 数据行 vn1 vn 2
v1m v2 m vnm
建立 SAS 数据集的常用方法有两种,一是在程序窗口直接输入数据,二是利用已有数 据集建立 SAS 数据集。 1. 直接输入数据建立 SAS 数据集 在程序窗口直接输入数据,其基本语句形式为 DATA name; INPUT variables; CARDS; data lines ; ◆说明: 1 )要建立永久性数据集,要采用二级命名。若不赋予数据集名称,则自动赋予名称 DATA1、DATA2、„。 2)非数据变量,需要在变量名后空一格,再写“$” 。输入变量的格式有两种:自由和 固定。 ①自由格式输入。在“INPUT”后依次输入各变量,变量之间用空格分开; ②格式化输入。 方式一:通过指定每个变量的取值所占据的列数输入相应变量的值。在每个变量名后, 空一格指出该变量的值所占据的列数。例如, INPUT ID 1-2 NAME $ 4-20 VAR1 22-24 VAR2 26-30; 则 SAS 系统读入数据时,将第一、二列的数值赋给变量 ID,第 4 到第 20 列的字符赋给变量 NAME,依次类推。 方式二:W.d 格式。其中 W 表示变量取值所占据的总列数,d 表示从右到左小数部分的 列数。例如, INPUT ID 2. NAME $ 10. VAR1 5.2; 则 SAS 系统读入每行数据时,指针首先从第一列开始,将前两列的数值赋给变量 ID,这是 指针在第三列,从第 3 到开始,移过 10 列到第十三列,将前面 10 列内容赋给非数值型变量
四. 逻辑语句与循环语句
◆逻辑语句 语句形式:
4
IF conditions THEN command; ELSE command; ◆循环语句 SAS 循环语句以“DO”开始, “END”结束,有三种形式: 1)DO variable=a TO b BY increment; 2)DO UNTIL (condition); 3)DO WHILE (condition)
x(1) min xi , x( n ) max xi 。
1i n 1i n
中位数 me 是将数据排序后属于中间位置的值,其计算公式是
n为奇数; x( n 1 2) , me 1 2 ( x( n 2) x( n 21) ), n为偶数.
中位数是描述数据中心位置的数字特征。大体上比中位数大或小的数据个数为整个数据个 数的一半。对于对称分布的数据,均值与中位数较接近;对于偏态分布的数据,均值与中 位数不同。中位数的又一显著特点是不受异常值(特大或特小)的影响,具有稳健性(解 释定义) ,因此它是数据分析中相当重要的统计量。 4。百分位数
SAS(Statistical Analysis System 缩写)软件是应用最为广泛的数据分析软件之一,该软 件系统于 1966 年由美国 North Carolina 州立大学开始研制,十年后成立 SAS 研究所,经过 近四十年的不断发展与完善,目前已成为大型集成应用软件系统,即有完备的数据存取、管 理、分析和显示功能,被誉为数据处理和系统分析领域的国际标准软件系统。该软件包含了 从简单的描述性分析到复杂的多元统计、生存分析等广泛的数据分析方法。 为便于区分,我们约定对 SAS 系统的专用语句及编程语句用大写字母,对一些说明性 的语句用小写字母,而在具体上机编程中不必如此(即不分大小写) 。 SAS 系统是在 Windows 环境下的一个数据分析软件,其界面包括三部分:程序窗口 (Editor) 、log 窗口及输出结果窗口(Output) 。程序窗口用于编写 SAS 程序,当程序提交 执行后, Log 窗口显示所提交程序的主要语句, 输入、 输出数据集的有关信息(如变量个数, 观测值个数等)以及执行的情况说明,执行所提交程序所用的时间等。如程序有错,该窗口 还指出错误的地方及错误的信息。 输出窗口则按照程序要求或各过程的默认输出内容打印出 分析结果。在程序窗口中,按右键 submit all 或工具栏中 run 中 submit 即可执行语句。
5
它是中位数的推广。把数据从小到大的排序后,处于 p % 位置的值称为 p 百分位数。 第 t 百分位数 yt 的计算公式是
wk.baidu.com
j nt /100 x( j 1) , yt 1 (x( j ) x( j 1) ), j nt /100 2
其中 j [nt /100] 。第 50 百分位数就是中位数。在实际应用中,第 75 百分位与第 25 百分 位数比较重要,它们分别称为上、下四分位数,并分别简记为 Q3 , Q1 。
三. SAS 系统的数学运算符号及常用的 SAS 函数
◆数学运算符号 幂运算“**” ,加法“+” ,减法“-” ,乘法“*” ,除法“/” 。 表达式:变量名=数学表达式或‘非数值字符串’ ◆SAS 函数 见表 9.2。 在均匀分布和正态分布等的随机函数中,需要给定初值“Seed” ,否则在不同的时刻产 生不同的随机数。 简单统计量函数种, “arguments”表示一系列数据或已经赋值的一系列变量,将数据或 变量逐个列出,并用“, ”分开;或者在变量前面加“OF”而不要逗号。
g2
n(n 1) (n 1)(n 2)(n 3) s 4
(x x )
i 1 i
n
4
3
(n 1) 2 (n 2)(n 3)
n 2 (n 1)u4 (n 1) 2 3 (n 1)(n 2)(n 3) s 4 (n 2)(n 3)
n 1 s ( xi x ) 2 n(n 1) i 1 n
s (%) x
6
三.表示分布形状的特征量
偏度与峰度是刻度数据的偏态、尾重程度的度量,它们与数据的矩有关。数据的矩分为 原点矩与中心矩。 K 阶原点矩 vk
1 n 1 n k xi ,K 阶中心矩 uk ( xi x ) k 。显然,一阶原点矩 v1 即均 n i 1 n i 1 1 n ( xi x )2 也称为方差。 n i 1
二.表示分散程度的特征量
表示分散程度的特征量有方差、标准差、极差、四分位极差、变异系数与标准误(即 均值的标准差)等。 方差是描述数据取值分散性的一个度量,它是数据相对于均值的偏差平方的平均:
s2
标准差
1 n ( xi x )2 n 1 i 1
方差的开方称为标准差。方差的量纲与数据的量纲不一致,它是数据量纲的平方,而 标准差的量纲与数据量纲一致。计算公式为
4
范围较广,此种分布称为粗尾的。当 G2 0 时,两侧极端数据较少,此种分布成为细尾的。 计算数据的上述数字特征可以通过 SAS 系统 proc means 过程或 proc univariate 过程来实
第一章 描述统计
教学目标:本章是数据分析的描述性分析,需要掌握数据的一些基本数字特征、相关分 析,以及数据的分布检验,并能够熟练地运用 SAS 软件计算数字特征、相关分析、作出数 据的分布图及进行分布检验。 重难点:运用 SAS 软件计算数字特征、相关分析、作出数据的分布图及进行分布检验。
第零节 SAS 系统简介
值。二阶中心矩 u2
偏度的计算公式为
g1
n n 2u3 n ( xi x )3 3 (n 1)(n 2) s i 1 ( n 1)( n 2) s 3
其中 s 是标准差。偏度是刻画数据对称性的指标。关于均值对称的数据其偏度为 0,右侧更 分散的数据偏度为正,左侧更分散的数据偏度为负。 峰度的计算公式为
2
NAME,将接下来 5 列的数值赋给变量 VAR1,并使最后两列为小数部分。 3)如果数据的每一行有多于二组观测向量,则在变量后加“@@” 。 4) “; ”表示数据结束。 2. 利用外部数据集建立 SAS 数据集 DATA name(新数据集名); INFILE ‘drive location: file name’(外部数据集的路径及数据集名称) ; INPUT variables(根据外部数据集的格式确定相应得变量输入格式); ◆SAS 数据集的输出 格式:PROC PRINT DATA=name; 说明:打印观测向量序号 OBS、各变量名及其取值。
相关文档
最新文档