sas期末复习
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
武汉大学计算机学院
配对设计资料t检验的基础理论
配对设计主要有四种情况:
同一受试对象处理前后的数据; 同一受试对象两个部位的数据; 同一样品用两种方法(仪器等)检验的结果; 配对的两个受试对象分别接受两种处理后的数据。 配对t检验的实质同于单样本t检验,可将此类资料看成是 差值的样本均数 d 所代表的未知总体均数 m d 与已知总体 均数 m 0=0的比较,其检验统计量构造如下:
逻辑库和SAS文件
Libname aa “e:\sasdata”; 定义一逻辑库aa 新建一数据集class Data aa.class; .... ....
Sas中数据集 aa.Class aa E:\sasdata
SAS数据集
SAS逻辑库
Windows下文件 Class.sas7bd百度文库t
武汉大学计算机学院
•
例如指定的库名为“Mylib1”,路径为: “e:\data\”,SAS语句如下:
libname mylib1 "e:\data\";
武汉大学计算机学院
SAS编程基础
变量名 例如:
数据集名
data f2005; input number name $; cards; 200541001 zhao CARDS语句表明后面是数据行; 200541002 qian 1.cards必须与input配合使用; 2.在一个data步中只能使用一个cards; 200541003 sun 3.Cards必须是data步中最后一个语句; 200541004 li 4.分号单独使用一行,或者省略; ; run;
武汉大学计算机学院
68.27% -2.58 -1.96 -1
0 95 9 9 % %
1
1.96 2.58
标准正态曲线下面积恒等于 1 或 100% ; 区间 1 的面积为 68.27% ; 区间
1.96 的面积为 95.00% ;
武汉大学计算机学院
区间 2 . 5 8 的面积为 99.00% 。
武汉大学计算机学院 计算中心
SAS过程步的一般形式 SAS过程步的一般形式为:
PROC <过程名> [DATA=<输入数据集>] [<选项>]; <过程语句>/<选项>; <过程语句>/<选项>; RUN;
各个过程步的功能一定要很清楚
武汉大学计算机学院
(5) FORMAT语句和LABEL语句 过程步中的FORMAT语句可以为变量输出规定一个 输出格式,比如:
武汉大学计算机学院
SAS程序概述
1. 数据步与过程步
SAS程序包括多个步骤和一些控制语句,一 般情况下由两种类型的程序步(steps)组成 :数据步(DATA steps)和过程步(PROC steps)。有时SAS程序还包括一些全程语句 ,用以控制贯穿整个SAS程序的某些选项、变 量或程序运行的环境。
Y
表达式1
N
语句A
语句B
武汉大学计算机学院 计算中心
选择语句
SELECT (选择表达式); WHEN(值列表) 语句; WHEN(值列表) 语句; …… OTHERWISE 语句; END;
表达式1
假 假 假 ... 假
表达式2
表达式3
表达式n-1
真 语句1
真 语句2
真 语句 3
真 ... 语句n-1 语句n
武汉大学计算机学院
1. 2 用INSIGHT创建数据集 变量分为两种类型:字符型变量和数值型变量。在 INSIGHT中,为了区分变量在分析中的不同作用 ,又按变量的测量水平分为两类: ● 区间型变量(interval variable):区间型变 量必须是数值型变量,可以对其观测值进行四 则运算,计算各种统计量; ● 列名型变量(nominal variable):列名型变 量可以是数值型的,也可以是字符型的,在 INSIGHT中常起分类作用。
•
其中,PROC TTEST和RUN语句是必须的,其 余语句都是可选的,而且可调换顺序。
武汉大学计算机学院
3. 单样本总体均值的假设检验
• 在例3-8中增加原假设选项以及置信水平,代码 如下:
proc ttest h0=70 alpha = 0.01 data=sjcj; var A; run;
武汉大学计算机学院
例如:
data f2005; input number name $ @@; cards; 200541001 zhao 200541002 qian 200541003 sun 200541004 li ; run;
武汉大学计算机学院
分支语句
IF语句 IF 表达式; 或 IF 表达式 THEN 语句A; [ELSE 语句B;]
武汉大学计算机学院
1.1.3 SAS对数据文件的管理 SAS每次启动时会自动指定5个 逻辑库 Work,Sasuser,Sashelp, Gismaps,Maps Sasuser库保存与用户个人设 置有关的文件 Sashelp库保存与SAS帮助系 统、例子有关的文件。
武汉大学计算机学院
武汉大学计算机学院
SAS程序概述
2. SAS语言书写规则
一个SAS语句有两个重要特征:
• 由SAS关键词(keyword)开始; • 总是以分号“;”结束; • 所有的标点符号必须采用英文半角的输入方式
武汉大学计算机学院
1.4 SAS编程初步
SAS系统不仅可以用交互式方式进 行数据操作和统计分析,还具备强 大的编程语言功能。
proc print data=c200501; format math 9.1 chinese 9.1; run;
使得列出的数学、语文成绩宽度占9位,带一位小数。
武汉大学计算机学院
参数与统计量
参数(parameter):参数是用来描述总体特征的概括性 值。如总体平均值(μ)、总体方差(2)、总体比例(π )等。 统计量(statistics):统计量是用来描述样本特征的概括 性值。如样本均值( x )、样本方差(s2)、样本比例(P )等。
假设检验的基本思想
小概率原理: 概率很小的事件在一次试验中几乎不会发生,若小概率事 件在一次事件中发生了,就被认为是不合理的。 基本思想:首先假设原假设是真的成立,然后考虑在原 假设成立的条件下,已经观测到的样本信息出现的概率 ,如果这个概率很小,这就表明一个概率很小的事件在 一次试验中发生了,这与小概率原理相违背,表明原来 的假设有问题,应予以否定,即拒绝这个假设。 “概率很小”:一般在检验之前都事先指定,比如概率 为0.05,0.01等,用a表示,称为显著性水平或检验水平 。
武汉大学计算机学院
2.2.1 用INSIGHT计算统计量
3. 计算统计量
• 选择菜单“Analyze(分析)”→“Distribution (Y)(分布)”,打开“Distribution (Y)”对话框。 在数据集sryzc的变量列表中,选择Income为分析 变量,选择R_Id,为分组变量。 •
武汉大学计算机学院
武汉大学计算机学院
武汉大学计算机学院
概率P值
实际的显著性水平:概率P值
SAS系统根据样本分布和样本数据自动计算一个实际 的显著性水平:概率P值 P< α,说明实际计算的显著性水平比理论的显著性水 平更小,小概率事件在一次实验中发生的几率更小( 比理论设定的概率还小)。此时在P值的显著性水平条 件下,如果还能够观测到小概率事件发生,则说明假 设更加不可靠,应拒绝原假设; P> α,在P值的显著性水平条件下,如果能够观测到 小概率事件发生,则说明假设可能没有任何问题。因 为观测一个概率比较大的事件,其发生的可能性本来 就比较大,故不能对假设做出否定的判断。 因此,在SAS系统中进行假设检验,往往从P值入手
其中“选择表达式”是一个取数值、字符型值的变量或表达式,“值列表”为一项 或者若干项,多项之间逗号分开,每项可以是一个与选择表达式相同取值类型的表达式。 “语句”可以是单个语句或复合语句。执行SELECT结构时,先计算出选择表达式和 值列表中的所有值,然后把选择表达式值由前向后与值列表中的值相比,发现相等值则 执行对应的语句,然后退出SELECT结构(不再查看后面的值列表). 如果选择表达式的值不等于任何值列表中的值则执行OTHERWISE对应的语句,这 种情况下没有OTHERWISE语句会出错。
• 单击“Output(输出)”按钮,在打开的对话框中 包含描述性统计量选项。
武汉大学计算机学院
2.2.1 用INSIGHT计算统计量
选择选项矩统计量和分位数,取消默认的选 项:“Box Plot/Mosaic Plot”和 “Histogram/Bar Chart”,单击“OK”按钮, 即可得到变量Income按“R_Id”分组的各种矩 统计量(Moments)和分位数(Quantiles) ,如图所示。
在SAS系统中,可以利用EDITOR 窗口编写程序;
武汉大学计算机学院
1.4.2 指定逻辑库 1. 一个逻辑库连接一个文件夹
• 建立逻辑库,又称为指定逻辑库,其实质是把一 个库名和一个实际文件夹(此文件夹必须已经存在) 联系起来,指定逻辑库的命令语句为全程语句,其 格式如下:
– LIBNAME <逻辑库名> "<路径>";
Insight和分析家不要求具体的步骤。 命令方式中比如建库,建立数据集,set,merge 等需要重点掌握。
武汉大学计算机学院
1.1.2 使用SAS 子窗口 SAS子窗口有十几个,但初始状态下能见到的是 最常用的五个子窗口:
● Explorer窗口:资源管理器窗口 ● Editor窗口:增强的程序编辑器。 ● Log窗口:记录程序的运行情况。 ● Output窗口:显示SAS程序中各过程的运行结果。 ● Results窗口:管理SAS程序的输出结果。
会得出并识别37页所有的统计量
武汉大学计算机学院
2.1.2 表示数据位置的统计量
1. 均值(Mean)
2. 中位数(Median或Med)
3. 众数(Mode) 4. 百分位数(Percentile)
武汉大学计算机学院
2.1.3 表示数据分散程度的统计量
1. 极差(Range)与半极差(Interquartile range) 2. 方差(Variance或Var) 3. 标准差(Standard deviation或Std Dev) 4. 变异系数(Coefficient of Variation或CV)
武汉大学计算机学院
2.3.1 定量变量的图形表示
1. 直方图 2. 盒形图 3. 散点图 4. 线图 主要了解各种图形的组成,不要求命令方式
武汉大学计算机学院
第二部分 sas统计部分
会要求写程序
武汉大学计算机学院
3.1 区间估计与假设检验的基本概念
3.1.1 区间估计 统计学中的几种分布 抽样误差 区间估计 3.1.2 假设检验
d - md d -0 d t= = = , = n - 1 Sd Sd / n Sd / n
武汉大学计算机学院
武汉大学计算机学院
3.2.3 使用TTEST过程
• TTEST过程可以执行单样本均值的t检验、配对数据 的t检验以及双样本均值比较的t检验。
1. 语法格式
PROC TTEST <选项列表>; [CLASS <分组变量名>;] [VAR <分析变量名列表>;] [PAIRED <变量名列表>;] [BY <分组变量名>;] RUN;
复习
武汉大学计算机学院
题型
单选 填空 以上主要是sas基础部分 分析和问答题:第三章到第五章,每章一个大题
武汉大学计算机学院
第一部分 sas基础
武汉大学计算机学院
使用SAS
对于常用的一些统计分析方法,SAS系统中的如 下三种方法可以达到同样的目的: INSIGHT(“交互式数据分析”) Analyst(“分析家”) 直接编程
1.1.3 SAS对数据文件的管理 SAS的名字
SAS的名字(数据集名、变量名、逻辑库名等 等)有以下命名规则:
1) 由英文字母、数字、下划线组成; 2) 第一个字符必须是字母或下划线; 3) 不区分大、小写字母。 另外,SAS逻辑库名最多用8个字符;数据集和变 量的名字最多用32个字符。 name, aBC, x1, student_1, class-1, 12abs, stu$
配对设计资料t检验的基础理论
配对设计主要有四种情况:
同一受试对象处理前后的数据; 同一受试对象两个部位的数据; 同一样品用两种方法(仪器等)检验的结果; 配对的两个受试对象分别接受两种处理后的数据。 配对t检验的实质同于单样本t检验,可将此类资料看成是 差值的样本均数 d 所代表的未知总体均数 m d 与已知总体 均数 m 0=0的比较,其检验统计量构造如下:
逻辑库和SAS文件
Libname aa “e:\sasdata”; 定义一逻辑库aa 新建一数据集class Data aa.class; .... ....
Sas中数据集 aa.Class aa E:\sasdata
SAS数据集
SAS逻辑库
Windows下文件 Class.sas7bd百度文库t
武汉大学计算机学院
•
例如指定的库名为“Mylib1”,路径为: “e:\data\”,SAS语句如下:
libname mylib1 "e:\data\";
武汉大学计算机学院
SAS编程基础
变量名 例如:
数据集名
data f2005; input number name $; cards; 200541001 zhao CARDS语句表明后面是数据行; 200541002 qian 1.cards必须与input配合使用; 2.在一个data步中只能使用一个cards; 200541003 sun 3.Cards必须是data步中最后一个语句; 200541004 li 4.分号单独使用一行,或者省略; ; run;
武汉大学计算机学院
68.27% -2.58 -1.96 -1
0 95 9 9 % %
1
1.96 2.58
标准正态曲线下面积恒等于 1 或 100% ; 区间 1 的面积为 68.27% ; 区间
1.96 的面积为 95.00% ;
武汉大学计算机学院
区间 2 . 5 8 的面积为 99.00% 。
武汉大学计算机学院 计算中心
SAS过程步的一般形式 SAS过程步的一般形式为:
PROC <过程名> [DATA=<输入数据集>] [<选项>]; <过程语句>/<选项>; <过程语句>/<选项>; RUN;
各个过程步的功能一定要很清楚
武汉大学计算机学院
(5) FORMAT语句和LABEL语句 过程步中的FORMAT语句可以为变量输出规定一个 输出格式,比如:
武汉大学计算机学院
SAS程序概述
1. 数据步与过程步
SAS程序包括多个步骤和一些控制语句,一 般情况下由两种类型的程序步(steps)组成 :数据步(DATA steps)和过程步(PROC steps)。有时SAS程序还包括一些全程语句 ,用以控制贯穿整个SAS程序的某些选项、变 量或程序运行的环境。
Y
表达式1
N
语句A
语句B
武汉大学计算机学院 计算中心
选择语句
SELECT (选择表达式); WHEN(值列表) 语句; WHEN(值列表) 语句; …… OTHERWISE 语句; END;
表达式1
假 假 假 ... 假
表达式2
表达式3
表达式n-1
真 语句1
真 语句2
真 语句 3
真 ... 语句n-1 语句n
武汉大学计算机学院
1. 2 用INSIGHT创建数据集 变量分为两种类型:字符型变量和数值型变量。在 INSIGHT中,为了区分变量在分析中的不同作用 ,又按变量的测量水平分为两类: ● 区间型变量(interval variable):区间型变 量必须是数值型变量,可以对其观测值进行四 则运算,计算各种统计量; ● 列名型变量(nominal variable):列名型变 量可以是数值型的,也可以是字符型的,在 INSIGHT中常起分类作用。
•
其中,PROC TTEST和RUN语句是必须的,其 余语句都是可选的,而且可调换顺序。
武汉大学计算机学院
3. 单样本总体均值的假设检验
• 在例3-8中增加原假设选项以及置信水平,代码 如下:
proc ttest h0=70 alpha = 0.01 data=sjcj; var A; run;
武汉大学计算机学院
例如:
data f2005; input number name $ @@; cards; 200541001 zhao 200541002 qian 200541003 sun 200541004 li ; run;
武汉大学计算机学院
分支语句
IF语句 IF 表达式; 或 IF 表达式 THEN 语句A; [ELSE 语句B;]
武汉大学计算机学院
1.1.3 SAS对数据文件的管理 SAS每次启动时会自动指定5个 逻辑库 Work,Sasuser,Sashelp, Gismaps,Maps Sasuser库保存与用户个人设 置有关的文件 Sashelp库保存与SAS帮助系 统、例子有关的文件。
武汉大学计算机学院
武汉大学计算机学院
SAS程序概述
2. SAS语言书写规则
一个SAS语句有两个重要特征:
• 由SAS关键词(keyword)开始; • 总是以分号“;”结束; • 所有的标点符号必须采用英文半角的输入方式
武汉大学计算机学院
1.4 SAS编程初步
SAS系统不仅可以用交互式方式进 行数据操作和统计分析,还具备强 大的编程语言功能。
proc print data=c200501; format math 9.1 chinese 9.1; run;
使得列出的数学、语文成绩宽度占9位,带一位小数。
武汉大学计算机学院
参数与统计量
参数(parameter):参数是用来描述总体特征的概括性 值。如总体平均值(μ)、总体方差(2)、总体比例(π )等。 统计量(statistics):统计量是用来描述样本特征的概括 性值。如样本均值( x )、样本方差(s2)、样本比例(P )等。
假设检验的基本思想
小概率原理: 概率很小的事件在一次试验中几乎不会发生,若小概率事 件在一次事件中发生了,就被认为是不合理的。 基本思想:首先假设原假设是真的成立,然后考虑在原 假设成立的条件下,已经观测到的样本信息出现的概率 ,如果这个概率很小,这就表明一个概率很小的事件在 一次试验中发生了,这与小概率原理相违背,表明原来 的假设有问题,应予以否定,即拒绝这个假设。 “概率很小”:一般在检验之前都事先指定,比如概率 为0.05,0.01等,用a表示,称为显著性水平或检验水平 。
武汉大学计算机学院
2.2.1 用INSIGHT计算统计量
3. 计算统计量
• 选择菜单“Analyze(分析)”→“Distribution (Y)(分布)”,打开“Distribution (Y)”对话框。 在数据集sryzc的变量列表中,选择Income为分析 变量,选择R_Id,为分组变量。 •
武汉大学计算机学院
武汉大学计算机学院
武汉大学计算机学院
概率P值
实际的显著性水平:概率P值
SAS系统根据样本分布和样本数据自动计算一个实际 的显著性水平:概率P值 P< α,说明实际计算的显著性水平比理论的显著性水 平更小,小概率事件在一次实验中发生的几率更小( 比理论设定的概率还小)。此时在P值的显著性水平条 件下,如果还能够观测到小概率事件发生,则说明假 设更加不可靠,应拒绝原假设; P> α,在P值的显著性水平条件下,如果能够观测到 小概率事件发生,则说明假设可能没有任何问题。因 为观测一个概率比较大的事件,其发生的可能性本来 就比较大,故不能对假设做出否定的判断。 因此,在SAS系统中进行假设检验,往往从P值入手
其中“选择表达式”是一个取数值、字符型值的变量或表达式,“值列表”为一项 或者若干项,多项之间逗号分开,每项可以是一个与选择表达式相同取值类型的表达式。 “语句”可以是单个语句或复合语句。执行SELECT结构时,先计算出选择表达式和 值列表中的所有值,然后把选择表达式值由前向后与值列表中的值相比,发现相等值则 执行对应的语句,然后退出SELECT结构(不再查看后面的值列表). 如果选择表达式的值不等于任何值列表中的值则执行OTHERWISE对应的语句,这 种情况下没有OTHERWISE语句会出错。
• 单击“Output(输出)”按钮,在打开的对话框中 包含描述性统计量选项。
武汉大学计算机学院
2.2.1 用INSIGHT计算统计量
选择选项矩统计量和分位数,取消默认的选 项:“Box Plot/Mosaic Plot”和 “Histogram/Bar Chart”,单击“OK”按钮, 即可得到变量Income按“R_Id”分组的各种矩 统计量(Moments)和分位数(Quantiles) ,如图所示。
在SAS系统中,可以利用EDITOR 窗口编写程序;
武汉大学计算机学院
1.4.2 指定逻辑库 1. 一个逻辑库连接一个文件夹
• 建立逻辑库,又称为指定逻辑库,其实质是把一 个库名和一个实际文件夹(此文件夹必须已经存在) 联系起来,指定逻辑库的命令语句为全程语句,其 格式如下:
– LIBNAME <逻辑库名> "<路径>";
Insight和分析家不要求具体的步骤。 命令方式中比如建库,建立数据集,set,merge 等需要重点掌握。
武汉大学计算机学院
1.1.2 使用SAS 子窗口 SAS子窗口有十几个,但初始状态下能见到的是 最常用的五个子窗口:
● Explorer窗口:资源管理器窗口 ● Editor窗口:增强的程序编辑器。 ● Log窗口:记录程序的运行情况。 ● Output窗口:显示SAS程序中各过程的运行结果。 ● Results窗口:管理SAS程序的输出结果。
会得出并识别37页所有的统计量
武汉大学计算机学院
2.1.2 表示数据位置的统计量
1. 均值(Mean)
2. 中位数(Median或Med)
3. 众数(Mode) 4. 百分位数(Percentile)
武汉大学计算机学院
2.1.3 表示数据分散程度的统计量
1. 极差(Range)与半极差(Interquartile range) 2. 方差(Variance或Var) 3. 标准差(Standard deviation或Std Dev) 4. 变异系数(Coefficient of Variation或CV)
武汉大学计算机学院
2.3.1 定量变量的图形表示
1. 直方图 2. 盒形图 3. 散点图 4. 线图 主要了解各种图形的组成,不要求命令方式
武汉大学计算机学院
第二部分 sas统计部分
会要求写程序
武汉大学计算机学院
3.1 区间估计与假设检验的基本概念
3.1.1 区间估计 统计学中的几种分布 抽样误差 区间估计 3.1.2 假设检验
d - md d -0 d t= = = , = n - 1 Sd Sd / n Sd / n
武汉大学计算机学院
武汉大学计算机学院
3.2.3 使用TTEST过程
• TTEST过程可以执行单样本均值的t检验、配对数据 的t检验以及双样本均值比较的t检验。
1. 语法格式
PROC TTEST <选项列表>; [CLASS <分组变量名>;] [VAR <分析变量名列表>;] [PAIRED <变量名列表>;] [BY <分组变量名>;] RUN;
复习
武汉大学计算机学院
题型
单选 填空 以上主要是sas基础部分 分析和问答题:第三章到第五章,每章一个大题
武汉大学计算机学院
第一部分 sas基础
武汉大学计算机学院
使用SAS
对于常用的一些统计分析方法,SAS系统中的如 下三种方法可以达到同样的目的: INSIGHT(“交互式数据分析”) Analyst(“分析家”) 直接编程
1.1.3 SAS对数据文件的管理 SAS的名字
SAS的名字(数据集名、变量名、逻辑库名等 等)有以下命名规则:
1) 由英文字母、数字、下划线组成; 2) 第一个字符必须是字母或下划线; 3) 不区分大、小写字母。 另外,SAS逻辑库名最多用8个字符;数据集和变 量的名字最多用32个字符。 name, aBC, x1, student_1, class-1, 12abs, stu$