SAS复习总结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
蔡泽蕲
Freq 过程:
Proc Freq data=dataset;
table x*y/option;
By var1;
Class var2;
Weight f;
Run;
输出x*y的频数表,by语句的使用要求var1已经排过序. option可为chisp,分析x、y(两独立样本)的不同水平的差异是否显著,卡方检验。
当x、y为两配对样本时,option为agree,进行配对样本差异是否显著的检验。
Sort 过程:
Proc sort data=dataset out=dataset;
By (descending) var1 (descending) var2;
Run;
对数据集中的var1、var2变量依次排序,默认从小到大,descending为从大到小。
缺失out 时新数据集覆盖原数据集。
Means 过程
Proc means data=dataset option;
Var x;
By var1;
Class var2;
Freq var3; /*不能用weight*/
Output out=输出数据集统计量名=自定义名;
Run;
输出option统计量,当包含t和prt 时输出x的期望为0的t检验,用于配对样本的t检验。
无option时,默认输出N、std、mean、min、max五个统计量。
还可输出其它很多统计计量。
特别的两个选项:maxdec=n ,alpha=value分别指定结果保留位数和置信度
Univariate 过程
Proc univariate data=dataset option;
Var x;
By var1;
Freq var2;
Output out=输出数据集统计量=自定义变量名;
Run;
Option 可为freq(生成频数表)、normal(检验变量是否服从正态分布)、plot(生成茎叶图、箱线图、正太概率图)、cibasic(计算均值置信区间)、cipctldf(计算中位数置信区间)。
统计量可为:各检验统计量及分位数。
当option为“mu0=scalar”时,计算x的期望(中位数)为scalar的t检验和符号秩和检验。
符号秩和检验适用于非正太样本,而t检验则用于正太样本。
配对样本计算配对差,独立样本使用class。
Cibasic基于正太分布,cipctldf基于非正态分布。
Proc ttest data=dataset h0=scalar;
Var x;
(class y;)
(paried var1*var2;) /*配对样本的t检验*/
Run;
H0默认为0.
Anova 过程
Proc test data=dataset;
Where var1<scalar; /*设定数据提取条件*/
Class var1 var2; /*var1、var2为因素A和因素B,没有因素B时,省略B*/
Model x=var1 var2 var1*var2; /*设定分析模型参数,单因素时只有一个*/
Means var1/option; /*var1和var2必须为分组变量,不能为连续变量*/
Run;
Option为hovtest=bartlett时输出x的各组方差齐次性检验;option为lsd时,输出最小显著差比较;option为alpha可指定置信度;option为tukey或scheffe时,进行tukey或scheffe 检验,对var1进行两两比较(snk也行),并得到均值差的置信区间。
也可以为regwq;
Reg过程
Proc reg data=dataset;
Model var1=var2 var3 var4/r clm chi option /*设置模型,r表示要求进行残差分析*/
Var n; /*在reg过程中,对model语句后还有用到的变量,必须用var语句声明*/ Plot student.*n; /*要求画出以学生化残差为纵坐标,n为横纵标的散点图*/
Output out=dataset ......
Run;
Option 可为selection=stepwise slentry=0.1 slstay=0.1,分步法筛选自变量。
Gplot过程
Proc gplot data=dataset;
Plot vvar1*hvar1 ... varn*hvarn /legend=legend1 vaxis=axis1 haxis=axis2 vref=50 option;
Label vvar1=’纵走标签’ hvar1=’横走标签’; /*标签可以这样指定,也可以在axis中指定*/ Symbol1 v=plus|star|x|none|square i=join|spline|needle|n w=width c=red|blue|green
/*v定义图形中数据点的符号,i指定数据点的连线方式(直线、光滑曲线、点到坐标轴的垂直线、无,w指定宽度,c指定颜色*/ Symbol2 ...
Legend1 label=(“statement”) value=(“statement1”...”statementn”);
Axis1 label=(angle=-90 rotate=90 “label”) reflabel=(‘vref=50’);
Run;
Option位置也可为vaxis=1 to 10 by 2等;gplot默认画散点图;当i=rl | rq | rc时,分别要求画纵坐标对横坐标的线性回归、二次回归、三次回归曲线;当i=rlclm95 | rlcli95时,分别绘制95%置信区间和95%预测区间曲线,95也可以是90.
Proc corr data=dataset option;
Var x y;
Run;
Option 可以为pearson 和spearman,分别计算pearson相关和spearman相关。
也可以为fisher计算pearson相关,同时计算95%置信区间。
Pearson相关用于计算连续数据的相关,spearman相关用于计算等级数据相关。
Format 过程
Proc format;
Value A 1=”第一组” 2=”第二组”;
Value B 1=”第一种因素” 2=”第二种因素”;
Run;
Proc ...
Format a A.;
Format b B.;
...
Run;
Format 过程用来定义值标签,如变量a、b各有两个值,可以定义这两个值的标签,在关联的时候,标签后面需要加一个“.”。
Npar1way 过程
Proc npar1way data=dataset wilcoxon;
Format ...;
Var var1;
Class group;
Exact wilcoxon; /*给出精确概率值*/
Run;
Npar1way过程用来进行两独立样本的非参数检验riate过程。