sas期末复习 PPT

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1) 由英文字母、数字、下划线组成; 2) 第一个字符必须是字母或下划线; 3) 不区分大、小写字母。 另外,SAS逻辑库名最多用8个字符;数据集和变 量的名字最多用32个字符。
name, aBC, x1, student_1, class-1, 12abs, stu$
1. 2 用INSIGHT创建数据集
2.2.1 用INSIGHT计算统计量
▪ 选择选项矩统计量和分位数,取消默认的选 项:“Box Plot/Mosaic Plot”和 “Histogram/Bar Chart”,单击“OK”按钮,即 可得到变量Income按“R_Id”分组的各种矩统 计量(Moments)和分位数(Quantiles),如 图所示。
计算中心
SAS过程步的一般形式
SAS过程步的一般形式为:
PROC <过程名> [DATA=<输入数据集>] [<选项>]; <过程语句>/<选项>; <过程语句>/<选项>; RUN;
各个过程步的功能一定要很清楚
(5) FORMAT语句和LABEL语句 过程步中的FORMAT语句可以为变量输出规定一个 输出格式,比如:
❖1.4.2 指定逻辑库
▪ 1. 一个逻辑库连接一个文件夹
建立逻辑库,又称为指定逻辑库,其实质是把一 个库名和一个实际文件夹(此文件夹必须已经存在) 联系起来,指定逻辑库的命令语句为全程语句,其 格式如下:
LIBNAME <逻辑库名> "<路径>";
例如指定的库名为“Mylib1”,路径为: “e:\data\”,SAS语句如下:
0.05,0.01等,用a表示,称为显著性水平或检验水平。
概率P值
❖ 实际的显著性水平:概率P值
▪ SAS系统根据样本分布和样本数据自动计算一个实际 的显著性水平:概率P值
▪ P< α,说明实际计算的显著性水平比理论的显著性水 平更小,小概率事件在一次实验中发生的几率更小( 比理论设定的概率还小)。此时在P值的显著性水平条 件下,如果还能够观测到小概率事件发生,则说明假 设更加不可靠,应拒绝原假设;
libname mylib1 "e:\data\";
SAS编程基础
变量名
例如:
数据集名
data f2005;
input number name $;
cards;
200541001 zhao 200541002 qian 200541003 sun 200541004 li ;
❖ CARDS语句表明后面是数据行; 1.cards必须与input配合使用; 2.在一个data步中只能使用一个cards; 3.Cards必须是data步中最后一个语句; 4.分号单独使用一行,或者省略;
❖ 基本思想:首先假设原假设是真的成立,然后考虑在原假 设成立的条件下,已经观测到的样本信息出现的概率,如Baidu Nhomakorabea果这个概率很小,这就表明一个概率很小的事件在一次试 验中发生了,这与小概率原理相违背,表明原来的假设有 问题,应予以否定,即拒绝这个假设。
❖ “概率很小”:一般在检验之前都事先指定,比如概率为
语句B
[ELSE 语句B;]
计算中心
选择语句
SELECT (选择表达式); WHEN(值列表) 语句; WHEN(值列表) 语句; …… OTHERWISE 语句;
END;
表达式1

表达式2

假 表达式3 ...
表达式n-1

真 语句1
真 语句2


语句 ... 语句n-1 3
语句n
其中“选择表达式”是一个取数值、字符型值的变量或表达式,“值列表”为一项 或者若干项,多项之间逗号分开,每项可以是一个与选择表达式相同取值类型的表达式。 “语句”可以是单个语句或复合语句。执行SELECT结构时,先计算出选择表达式和 值列表中的所有值,然后把选择表达式值由前向后与值列表中的值相比,发现相等值则 执行对应的语句,然后退出SELECT结构(不再查看后面的值列表). 如果选择表达式的值不等于任何值列表中的值则执行OTHERWISE对应的语句,这 种情况下没有OTHERWISE语句会出错。
结果显示t统计量的p值 = 0.0005 < 0.05,因此拒绝 原假设。说明两套试卷有显著差异。
将两批工人的测量结果看作两个样本,但其数据 都放在一个数据集之中,所需的时间值是记录在同 一分析变量f之下,而两种方法的差别是由变量g的 值加以区分的,所以g可作为分类变量。检验代码如 下:
▪ 同一受试对象处理前后的数据; ▪ 同一受试对象两个部位的数据; ▪ 同一样品用两种方法(仪器等)检验的结果;
▪ 配对的两个受试对象分别接受两种处理后的数据。
❖ 配对t检验的实质同于单样本t检验,可将此类资料看成是
差均值数的m 0样=0本的均比数较d,所其代检表验的统未计知量总构体造均如数下m:d 与已知总体
等需要重点掌握。
1.1.2 使用SAS
❖ 子窗口 SAS子窗口有十几个,但初始状态下能见到的是 最常用的五个子窗口:
● Explorer窗口:资源管理器窗口 ● Editor窗口:增强的程序编辑器。 ● Log窗口:记录程序的运行情况。 ● Output窗口:显示SAS程序中各过程的运行结果。 ● Results窗口:管理SAS程序的输出结果。
t=d-md=d-0= d ,=n-1
S d
Sd/ n Sd/ n
❖3.2.3 使用TTEST过程
TTEST过程可以执行单样本均值的t检验、配对数据 的t检验以及双样本均值比较的t检验。
▪ 1. 语法格式
PROC TTEST <选项列表>; [CLASS <分组变量名>;] [VAR <分析变量名列表>;] [PAIRED <变量名列表>;] [BY <分组变量名>;]
2.2.1 用INSIGHT计算统计量
❖3. 计算统计量
选择菜单“Analyze(分析)”→“Distribution (Y) (分布)”,打开“Distribution (Y)”对话框。在数 据集sryzc的变量列表中,选择Income为分析变量, 选择R_Id,为分组变量。
单击“Output(输出)”按钮,在打开的对话框中 包含描述性统计量选项。
结果显示t统计量的p值 = 0.5734,不能拒绝 (57.34%的把握)原假设:均值 = 70。
▪ 4. 配对两样本均值的假设检验
在例3-8中检验两套试卷有无显著差异,代码如 下:
proc ttest data=sjcj; paired A*B;
run;
代码运行结果给出了对原假设μ1 – μ2 = 0所作的t 检验的p值,如图3-16所示。
▪ P> α,在P值的显著性水平条件下,如果能够观测到 小概率事件发生,则说明假设可能没有任何问题。因 为观测一个概率比较大的事件,其发生的可能性本来 就比较大,故不能对假设做出否定的判断。
❖ 因此,在SAS系统中进行假设检验,往往从P值入手
配对设计资料t检验的基础理论
❖ 配对设计主要有四种情况:
1.1.3 SAS对数据文件的管理
❖ SAS每次启动时会自动指定5个 逻辑库 ▪ Work,Sasuser,Sashelp, Gismaps,Maps ▪ Sasuser库保存与用户个人设 置有关的文件 ▪ Sashelp库保存与SAS帮助系 统、例子有关的文件。
逻辑库和SAS文件
Libname aa “e:\sasdata”; 定义一逻辑库aa
RUN;
其中,PROC TTEST和RUN语句是必须的,其 余语句都是可选的,而且可调换顺序。
▪ 3. 单样本总体均值的假设检验
在例3-8中增加原假设选项以及置信水平,代码 如下:
proc ttest h0=70 alpha = 0.01 data=sjcj; var A;
run;
代码运行结果除了给出变量A在99%置信水平下 的均值、标准差的置信区间外,还给出对假设μ0 = 70,所作的t-检验的p值,如图3-15所示。
Data aa.class;
新建一数据集class
....
....
Sas中数据集 aa.Class
SAS数据集
SAS逻辑库
aa
E:\sasdata
Windows下文件 Class.sas7bdat
1.1.3 SAS对数据文件的管理
❖ SAS的名字 SAS的名字(数据集名、变量名、逻辑库名等 等)有以下命名规则:
SAS程序概述
❖2. SAS语言书写规则 ▪ 一个SAS语句有两个重要特征:
由SAS关键词(keyword)开始; 总是以分号“;”结束; 所有的标点符号必须采用英文半角的输入方式
1.4 SAS编程初步
❖ SAS系统不仅可以用交互式方式进 行数据操作和统计分析,还具备强 大的编程语言功能。
❖ 在SAS系统中,可以利用EDITOR 窗口编写程序;
68.27%
-2.58 -1.96 -1 905
%99 %
1 1.96 2.58
标准正态曲线下面积恒等于 1 或 100%;
❖区间 1 的面积为 68.27%;
区间 1.96 的面积为 95.00%;
区间 2 .5 8 的面积为 99.00%。
假设检验的基本思想
❖ 小概率原理: 概率很小的事件在一次试验中几乎不会发生,若小概率事 件在一次事件中发生了,就被认为是不合理的。
性值。如样本均值( x)、样本方差(s2)、样本比例(P
)等。
会得出并识别37页所有的统计量
2.1.2 表示数据位置的统计量
• 均值(Mean) 2. 中位数(Median或Med) 3. 众数(Mode) 4. 百分位数(Percentile)
2.1.3 表示数据分散程度的统计量
1. 极差(Range)与半极差(Interquartile range) 2. 方差(Variance或Var) 3. 标准差(Standard deviation或Std Dev) 4. 变异系数(Coefficient of Variation或CV)
2.3.1 定量变量的图形表示
1. 直方图 2. 盒形图 3. 散点图 4. 线图
主要了解各种图形的组成,不要求命令方式
第二部分 sas统计部分 ❖ 会要求写程序
3.1 区间估计与假设检验的基本概念
❖3.1.1 区间估计 ▪ 统计学中的几种分布 ▪ 抽样误差 ▪ 区间估计
❖3.1.2 假设检验
变量分为两种类型:字符型变量和数值型变量。在 INSIGHT中,为了区分变量在分析中的不同作用 ,又按变量的测量水平分为两类: ● 区间型变量(interval variable):区间型变量 必须是数值型变量,可以对其观测值进行四则 运算,计算各种统计量; ● 列名型变量(nominal variable):列名型变 量可以是数值型的,也可以是字符型的,在 INSIGHT中常起分类作用。
proc print data=c200501; format math 9.1 chinese 9.1;
run;
使得列出的数学、语文成绩宽度占9位,带一位小数。
参数与统计量
参数(parameter):参数是用来描述总体特征的概括性值
。如总体平均值(μ)、总体方差(2)、总体比例(π)
等。 统计量(statistics):统计量是用来描述样本特征的概括
run;
例如:
data f2005; input number name $ @@; cards;
200541001 zhao 200541002 qian 200541003 sun 200541004 li ; run;
分支语句
❖ IF语句
IF 表达式;
Y
N
表达式1

IF 表达式 THEN 语句A; 语 句 A
复习
题型
❖ 单选 ❖ 填空
以上主要是sas基础部分 ❖ 分析和问答题:第三章到第五章,每章一个大题
第一部分 sas基础
使用SAS
对于常用的一些统计分析方法,SAS系统中的如 下三种方法可以达到同样的目的:
▪ INSIGHT(“交互式数据分析”) ▪ Analyst(“分析家”) ▪ 直接编程
Insight和分析家不要求具体的步骤。 命令方式中比如建库,建立数据集,set,merge
大家应该也有点累了,稍作休息
大家有疑问的,可以询问和交流
10
SAS程序概述
❖1. 数据步与过程步
▪ SAS程序包括多个步骤和一些控制语句,一 般情况下由两种类型的程序步(steps)组成: 数据步(DATA steps)和过程步(PROC steps)。有时SAS程序还包括一些全程语句, 用以控制贯穿整个SAS程序的某些选项、变量 或程序运行的环境。
相关文档
最新文档