武汉大学SAS总复习笔记(精品版)
Sas学习笔记
Sas学习笔记人文社会科学学院高等教育学专业张宁S100081674整个SAS程序结构可以分为两个部分,数据data步与过程proc步。
data步1:输入数据(包括手动输入数据、从文本文件中导入数据)a使用手动方法输入数据基本形式是:Data 数据集;Input 变量名(包括格式设置);/*在input语句中需要指定的格式必须和cards中数据的格式一致,需要考虑字符型与数值型数据的不同,以及是否是标准数据,根据实际情况调整数据格式设定*//* 同时在读入数据的时候,需要参考数据的形式,指定输入的起始位置与字符数,包括使用@指针控制、指定起始列终止列、指定字符数等*/其他语句;/*循环语句,选择语句等*//*sas表达式:sas运算符(包括算数、比较、逻辑)sas函数(包括算数函数、常用函数等)*/Cards ;数据;/*其中数据之间默认为空格作为分隔符,如果分隔符为其他符号,则要在input语句中指定delimiter=‘’*/Run;b使用文本文件导入法基本形式是:Data 数据集;变量属性设定;Infile‘文件地址’(firstobs=,obs= ,missover);Input;其他语句;/*循环语句,选择语句,sas表达式*/Run;当然输入数据的时候可以直接使用sas导入数据选项,根据情况设定形式,导入数据。
c总之在data步中常见的语句有:DA TA语句PUT语句——输出语句SET语句——读取观测语句ATTRIB语句——设定变量属性赋值语句——计算SAS表达式,给变量赋值DROP语句——删除变量语句KEEP语句——保留变量语句IF语句——条件语句DO-END语句——循环语句DELETE语句——删除语句OUTPUT语句——输出到数据集语句COMMENT语句——注释语句ARRAY语句——数组语句在实际操作中,可以灵活的使用这些语句实现数据处理。
2:同时在数据步中可以使用语句实现数据集的加工、合并和拼接a数据集排序/*事先对SAS数据集进行排序,是其它SAS程序通过使用BY语句直接调用该数据集及对数据集进行合并或串接的前提*/PROC SORT OPTIONS ;BY 〔DESCENDING〕变量名列表;END;b数据集串联/*在串联中必须要求同一个变量在不同数据集中数据形式一致,如果不一致,则需使用put函数将数据形式转换*/Concatenate方式Data 新数据集;Set 输入数据集1 输入数据集2 ……;/*可以使用(in=变量k)的形式检测来自哪个数据集*/Run;Interleave方式:Data 新数据集;Set 输入数据集1 输入数据集2 ……;By by-variables ;/*必须排序*/Run;c数据集并联/*用MERGE 语句并接SAS数据集*/MERGE (一对一合并)DATA 新数据集;MERGE 输入数据集1 输入数据集2 ……;RUN;MATCH MERGE(匹配合并)DATA 新数据集;MERGE 输入数据集1 输入数据集2 ……;BY by-variables ;RUN;d修改数据集modify/*modify语句修改数据集,并且此过程不能形成新的数据集,并且不需要排序*/data主数据集名称;modify 主数据集名称更新数据集名称;run;Update/*可以产生新的数据集,需要使用by排序*/data 数据集名称update 主数据集名称更新数据集名称;by变量名称;/*该语句必须出现,而且必须在该data步之前对update语句中的数据集进行排序*/run;Proc步该过程常用的sas语句有:V AR语句—指定分析变量MODEL语句—指定统计建模的模型/*一般采用‘因变量=自变量/选项’的形式*/BY语句—指定分组变量/*使用之前一般要使用proc sort语句进行排序*/CLASS语句—指定分类变量OUTPUT语句—指定输出结果存放的数据集FREQ语句—指定一个重复数变量WEIGHT语句—指定一个权重变量ID语句—指定用来标识观测的变量WHERE语句—选择输入数据集的一个行子集进行分析LABEL语句—为变量指定一个临时标签FORMAT语句—为变量输出规定一个输出格式/*过程步中规定的格式只是在本次运算中起作用,而数据步中规定的实行在整个数据集中永久存在*/1:使用proc print语句输出表格PROC FORMAT;V ALUE ;/*使用该语句定义用户格式*/PROC PRINT DATA 数据集SPLIT='*' ;/*使用该语句控制显示中的格式,使其按要求换行*/ID 变量名; /*把指定的变量在取消obs 的情况下排在表格最左列*/V AR 变量列表;/*需要输出的变量*/WHERE 条件表达式…;SUM 变量序列;/*变量需要处理的形式*/BY 变量名; /*在先前进行排序的情况下,对数据进行分组并要求每组进行小计*/PAGEBY 变量序列;/*是报告表格按组分页*/TITLEn'语句';/*使用该语句控制表头显示可以最多有十个标注*/FOOTNOTEn语句';LABEL 变量1= ‘label(标*签)’……;/*控制表头显示,可使用起始中split=定义的方式美化表格*/FORMA T ;/*用户自定格式的使用*/RUN;2:使用proc tabulate语句输出汇总表格PROC FORMAT;V ALUE ;/*使用该语句定义用户格式*/PROC TABULATE data 数据集options;CLASS /*分类变量,可以是数值型也可以是字符型*/;V AR ;/*分析变量,必须是数值型*/FORMAT ;/*用户自定格式的使用*/TABLE page-v,row-v,colum-v / options;/*table语句中使用的变量必须是class与var中定义过的变量*//*包括元素与操作符,根据操作符的不同控制表格格式,无=每个变量占一单独列;,=两个表达式产生一个二维列表分别代表行和列;两个,=三维列表分别是页行列;*隔开两个表示交叉列表*//*options选项控制表格其他形式,如使用rts控制第一列宽度*/KEYLABEL ;/*使用该语句为all类变量以及所有的统计量加标记*/TITLEn'语句';/*使用该语句控制表头显示可以最多有十个标注*/FOOTNOTEn语句';LABEL 变量1= ‘label(标*签)’……;/*控制表头显示,可使用起始中split=定义的方式美化表格*/RUN;3:使用proc gplot语句绘制散点及折线图PROC GPLOT DATA=数据集;PLOT 纵坐标变量*横坐标变量/选项;/*控制坐标轴:HAXIS=Values|Axisn定义水平轴的刻度;VAXIS=Values|Axisn定义垂直轴的刻度;NOAXIS取消坐标轴及相关的文字;CAXIS=Color定义坐标轴的颜色;CTEXT=Color定义坐标轴文本的颜色*//*加框:FRAME加框;CFRAME= Color给坐标轴包围的区域填色*/ SYMBOL V=I=W=C=;/*V=NONE;PLUS'+';STAR'*';SQUARE'方块';DIAMOND'菱形';TRIANGLG'三角形'*//*I= NONE ;JOIN'直线连接';SPLINE'光滑曲线连接';NEEDLE'从数据到横坐标画垂直线'*//*C=RED;GREEN;BLUE;ORANGE*/LABEL ; 变量1= ‘label(标*签)’……;/*控制表头显示,可使用起始中split=定义的方式美化表格*/TITLE C=颜色H=高度及单位F=字体;/*使用该语句控制表头显示可以最多有十个标注*/FOOTNOTE C=颜色H=高度及单位F=字体;RUN;4:使用proc gcharts语句绘制饼图及柱状图PATTERN c=颜色v=花纹;PROC GCHART DA TA=数据集;VBAR|HBAR|PIE|STAR|BLOCK/*垂直柱状图/水平柱状图/圆饼图/星形图/立体柱状图*/分类变量名列/选项;/*DISCRET/*指定分类方式*/MIDPOINT=列举值/*指定分组中点*/ SUMV AR=变量名/*指定分析变量*/TYPE=FREQ|SUM|MEAN|PCT /*指定统计量(无SUMVAR时缺省为FREQ,否则为SUM )*/GROUP=变量名/*指定分组作图*/SUBGROUP=变量名/*指定柱内分组*/FILL=S(SOLID)|X(CROSS)/*设定饼图的花纹*/*/LABEL ; 变量1= ‘label(标*签)’……;/*控制表头显示,可使用起始中split=定义的方式美化表格*/TITLE C=颜色H=高度及单位F=字体;/*使用该语句控制表头显示可以最多有十个标注*/FOOTNOTE C=颜色H=高度及单位F=字体;RUN;5:使用proc univariate、means、freq语句进行定量资料的统计描述PROC UNIV ARIATE DATA= 数据集名options;/*NOPRINT禁止统计报告在OUTPUT视窗中输出PLOT 绘出茎叶图、箱式图和正态概率图FREQ 给出频数表NORMAL 对变量进行正态性检验*/V AR 变量名列;BY 变量名列; /*排序*/FREQ 变量名;WEIGHT 变量名;ID 变量名;OUTPUT OUT= 数据集名关键字= 新变量名列.../*常用关键字有:基本统计量:N MEAN STD(标准差)CV(变异系数)SUM VAR(方差)RANG 百分位数描述:MIN P1 P5 P10 Q1 MEDIAN Q3 P90 P95 P99MAX与假设检验有关的统计量有:STDMEAN(标准误)T */pctlpts=百分位数, ...pctlpre=新变量名列;Run;PROC MEANS [ DATA= 数据集名选项统计量关键字列表;/*选项有:NOPRINT 禁止统计在OUTPUT视窗中输出MAXDEC=n 给出列表输出的最大小数位数,缺省值为2*/V AR 变量名列;BY 变量名列;CLASS 变量名列;FREQ 变量名;WEIGHT 变量名;ID 变量名列;OUTPUT OUT= 数据集名关键字= 新变量名列... ;/*关键字有:基本统计量有:N MEAN STD(标准差)CV(变异系数)SUM VAR(方差)RANG MIN MAX;与假设检验有关的统计量有:STDERR(标准误)T PRT(与t对应的p值) LCLM(可信区间下限) UCLM(可信区间上限)*/Run;PROC FREQ data+;TABLES 请求式/ 选项;/* 常用选项有ORDER=FREQ 按频数递减顺序排列ORDER=DATA 按数据集中出现的顺序排列ORDER=INTERNAL 按内部值排列(缺省) ORDER=FORMATTED 按外部格式值排列*/WEIGHT 变量名;BY 变量名列;Run;6:使用proc corr过程进行相关系数计算(相关关系散点图可以参照gplot语句)PROC CORR DATA=数据集OPTIONS;/*PEARSON 计算皮尔逊相关系数(缺省值);SPEARMAN 计算斯皮尔曼等级相关系数;NOSIMPLE 不打印输出各变量的描述性统计量;NOPROB 省略检验统计量p-值;COV(COVARIANCE) 打印协方差矩阵;NOCCORR 储存时省略相关系数;OUTP=指定皮尔逊相关系数存储的数据集;OUTS= 指定斯皮尔曼相关系数存储的数据集*/ V AR 变量名列;WITH 变量名列;/*计算with指定变量与var指定变量之间的相关系数*/PARTIAL 变量名列;RUN;7:使用proc reg过程进行回归分析PROC REG DATA= 数据集名OPTIONS;/*SIMPLE 计算并打印各变量的基本描述性统计量;SXORR 打印各变量的相关行列式;NOPRINT不打印输出;OUTEST=数据集名指定回归值输出的数据集;COVOUT=数据集名将所估计的协方差阵存入数据集;OUTSSCP=数据集名指定相关矩阵输出的数据集*/V AR 变量名列;BY 变量名列;FREQ 变量名列;MODEL 因变量=自变量/OPTIONS;/*model语句的作用可分为以下四个方面:1.关于报表打印的选项NOPRINT不打印MODEL语句所界定的分析结果;ALL 打印MODEL语句所有分析结果*//*2.界定参数估计值的选项STB 打印标准化回归系数;COVB 输出估计值的协方差阵;VIF 输出方差膨胀因子;COLLIN 进行多元共线性分析*//*3.关于预测值、预测误差的选项P计算每一个观测值y的期望值及其标准误;R 在P选项的基础上对预测误差做进一步分析;CLI 输出单个预测值95﹪的置信区间;CLM 输出预测值均值95﹪的置信区间;INFLUENCE 分析观测值对参数估计和模型预测值的影响*//*4.关于界定回归模型的选项SELECTION=none|forward|backward|stepwise|cp |rsquare|adjrsq 指定自动进行变量选择的方法;NOINT 规定回归模型中不包含截距项.*/OUTPUT OUT=数据集名关键字=新变量名列;RUN;PROC GPLOT DA TA=数据集;/*做回归图*/PLOT 纵轴变量名*横轴变量名;SYMBOL V=符号C=颜色I=none|rl|rq|rc /*不加线线性二次三次*/其他选项;RUN;。
SAS使用学习笔记(对应分析)
SAS使用学习笔记(对应分析)1对应分析是不仅研究变量之间的关系、还要研究样品之间的关系。
它通过在同一个直角坐标系内同时表达出变量与样品两者之间的相互关系。
2对应分析例子下面是某研究者收集到的资料,试分析各种基因频率与民族之间的关系。
各民族下面的小数是44种基因出现的频率。
基因型(JY)藏族(Z) 尼泊尔(N) 印度(Y) 汉族(H)。
程序:DATA b;INPUT jy $ 1-3 z 6-11 n 14-19 y 22-27 h 30-35;cards;A1 0.0308 0.01800.11900.0149A2 0.3333 0.10700.14800.3492A3 0.0204 0.01900.10100.0176A9 0.3037 0.27900.15600.1414A100.0409 0.01800.03900.0313A110.1354 0.42200.12600.2977A280.0000 0.01800.08300.0094A300.0413 0.00000.00000.0217A310.0518 0.03700.02200.0121A320.0000 0.01900.03900.0013A330.0000 0.06700.08300.0608B5 0.2828 0.11800.13400.0825B7 0.0000 0.01900.08000.0244B8 0.0102 0.01180.04500.0094B120.0102 0.03700.06600.0121B130.0102 0.07700.00600.0650B140.0000 0.00000.00600.0013B150.1923 0.25400.09600.1092B180.0050 0.02800.02200.0000B270.1067 0.00000.02600.0204B350.0626 0.05700.14800.0342B370.0102 0.01800.00900.0067B380.04650.0470 0.00300.0015B390.01020.0000 0.00900.0176B460.01020.00900.00000.1813B480.05720.15000.00300.0108B500.01020.01800.03700.0000B530.00500.0000 0.00600.0000B540.01530.00000.00000.0176B550.05720.02800.02600.0217B560.01020.00900.00600.0040B570.00500.01800.03900.0341B580.00000.06700.03300.0139B600.06260.02800.02200.0723B610.08990.00000.08300.1080B700.00500.00000.00800.0000C1 0.08990.03700.02300.1716C2 0.02040.00000.07300.0397C3 0.17980.10700.08300.3269C4 0.16510.07700.13400.0495C5 0.00000.00900.01600.0054C6 0.02560.24500.04500.0081C7 0.17120.21800.11900.1152C8 0.00500.00000.00400.0027;run;PROC CORRESP data=b OUTC=ccc;VAR z n y h;LABEL z='藏族'n='尼泊尔'y='印度'h='汉族';ID jy;RUN;DATA ccc;SET ccc;X=dim1;Y=dim2;XSYS ='2';YSYS ='2';TEXT =jy;SIZE =2;LABEL X='Dimension 1'Y='Dimension 2';keep X Y TEXT XSYS YSYS SIZE;RUN;PROC GPLOT DATA=ccc;SYMBOL1V=#;AXIS1LENGTH=5 IN ORDER=-1.3 TO 1.3 BY 0.2;AXIS2LENGTH=5 IN ORDER=-1.3 TO 1.3 BY 0.2;PLOT Y*X=1 / ANNOTATE=ccc FRAME HAXIS=AXIS1VAXIS=AXIS2 HREF=0VREF=0;RUN;输出:The CORRESP ProcedureInertia and Chi-Square DecompositionSingular Principal Chi- CumulativeValue Inertia Square Percent Percent 8 16 24 32 40----+----+----+----+----+---0.42302 0.17895 1.83072 41.61 41.61 **************************0.39266 0.15418 1.57736 35.85 77.46 **********************0.31137 0.09695 0.99184 22.54 100.00 **************Total 0.43007 4.39992 100.00Degrees of Freedom = 129SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP ProcedureRow CoordinatesDim1 Dim2A1 0.5878 0.8300A2 -0.4233 0.1209A3 0.5708 0.7845A9 0.0741 -0.1562A10 -0.0466 0.2818A11 0.0191 -0.3738A28 0.8269 0.8844A30 -0.7954 0.0516A31 0.1126 -0.1366A32 0.9506 0.5206A33 0.2931 0.1666B5 -0.0085 0.0766B7 0.5508 0.7576B8 0.5282 0.6647B12 0.6453 0.3736B13 -0.1439 -0.5749B14 0.6310 1.2240B15 0.1193 -0.3016B18 0.8250 -0.1198B27 -0.3381 0.2782B35 0.4306 0.4728B37 0.2494 -0.2481B38 0.1990 -0.6104B46 -1.2499 0.0376B48 0.4093 -0.9132B50 0.7714 0.4510B53 0.3664 0.8090B54 -0.9706 0.0684B55 -0.0427 0.0207B56 0.1278 -0.1051B57 0.0754 0.3742B58 0.6482 -0.3801B60 -0.4505 0.0137B61 -0.3745 0.4819B70 0.4748 0.9100C1 -0.7041 0.0091C2 0.0968 0.8397C3 -0.5193 0.0178C4 0.1452 0.2307C5 0.5711 0.3791C6 0.7305 -0.8444C7 0.1169 -0.1805C8 -0.1612 0.5353SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP ProcedureSummary Statistics for the Row PointsQuality Mass InertiaA1 0.9966 0.0179 0.0431A2 0.9583 0.0916 0.0431A3 0.9744 0.0154 0.0347A9 0.3838 0.0860 0.0156A10 0.8715 0.0126 0.0027A11 0.6324 0.0959 0.0494A28 0.9068 0.0108 0.0406A30 0.5695 0.0062 0.0160A31 0.1562 0.0120 0.0056A32 0.9073 0.0058 0.0174A33 0.2820 0.0206 0.0193B5 0.0274 0.0603 0.0304B7 0.7996 0.0121 0.0308B8 0.9666 0.0075 0.0129B12 0.9043 0.0122 0.0175B14 0.9031 0.0007 0.0035B15 0.8864 0.0637 0.0176B18 0.9645 0.0054 0.0090B27 0.1832 0.0150 0.0364B35 0.9998 0.0295 0.0281B37 0.9998 0.0043 0.0012B38 0.5599 0.0096 0.0164B39 0.9636 0.0036 0.0040B46 0.6708 0.0196 0.1062B48 0.9847 0.0216 0.0511B50 0.9990 0.0064 0.0118B53 0.7205 0.0011 0.0027B54 0.9637 0.0032 0.0073B55 0.0150 0.0130 0.0045B56 0.3142 0.0029 0.0006B57 0.3852 0.0094 0.0083B58 0.7578 0.0111 0.0193B60 0.9902 0.0181 0.0086B61 0.9992 0.0275 0.0238B70 0.8576 0.0013 0.0036C1 0.9447 0.0314 0.0383C2 0.9242 0.0130 0.0234C3 0.9069 0.0681 0.0471C4 0.3959 0.0416 0.0182C5 0.6915 0.0030 0.0047C6 0.9669 0.0316 0.0949C7 0.9160 0.0609 0.0072C8 0.7360 0.0011 0.0011SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP ProcedurePartial Contributions to Inertia for the Row PointsDim1 Dim2A1 0.0345 0.0798A2 0.0918 0.0087A3 0.0281 0.0616A9 0.0026 0.0136A10 0.0002 0.0065A11 0.0002 0.0869A28 0.0412 0.0547A30 0.0218 0.0001A31 0.0009 0.0015A32 0.0293 0.0102A33 0.0099 0.0037B5 0.0000 0.0023B7 0.0204 0.0449B8 0.0116 0.0214B12 0.0285 0.0111B13 0.0018 0.0332B14 0.0016 0.0069B15 0.0051 0.0376B18 0.0204 0.0005B27 0.0096 0.0075B35 0.0306 0.0428B37 0.0015 0.0017B38 0.0021 0.0231B39 0.0059 0.0040B46 0.1711 0.0002B48 0.0202 0.1168B50 0.0212 0.0084B53 0.0008 0.0046B54 0.0169 0.0001B55 0.0001 0.0000B56 0.0003 0.0002B57 0.0003 0.0085B58 0.0261 0.0104B60 0.0205 0.0000B61 0.0215 0.0414B70 0.0016 0.0068C1 0.0871 0.0000C2 0.0007 0.0595C3 0.1026 0.0001C4 0.0049 0.0144C5 0.0054 0.0028C6 0.0944 0.1463C7 0.0047 0.0129C8 0.0002 0.0021SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP ProcedureIndices of the Coordinates that Contribute Most to Inertia for the Row PointsDim1 Dim2 BestA1 2 2 2 A2 1 0 1 A3 2 2 2 A9 0 0 2 A10 0 0 2 A11 0 2 2 A28 2 2 2 A30 1 0 1 A31 0 0 2 A32 1 0 1 A33 0 0 1 B5 0 0 2 B7 0 2 2 B8 0 0 2 B12 1 0 1 B13 0 2 2 B14 0 0 2 B15 0 2 2 B18 0 0 1 B27 0 0 1 B35 2 2 2 B37 0 0 2 B38 0 0 2 B39 0 0 1 B46 1 0 1 B48 0 2 2 B50 0 0 1 B53 0 0 2 B54 0 0 1 B55 0 0 1 B56 0 0 1 B57 0 0 2 B58 1 0 1 B60 0 0 1 B61 2 2 2 B70 0 0 2 C1 1 0 1 C2 0 2 2 C3 1 0 1 C4 0 0 2 C5 0 0 1 C6 2 2 2 C7 0 0 2C8 0 0 2SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP ProcedureSquared Cosines for the Row PointsDim1 Dim2A1 0.3329 0.6637A2 0.8860 0.0723A3 0.3373 0.6371A9 0.0705 0.3133A10 0.0232 0.8483A11 0.0016 0.6307A28 0.4230 0.4838A30 0.5671 0.0024A31 0.0632 0.0931A32 0.6979 0.2094A33 0.2131 0.0689B5 0.0003 0.0270B7 0.2765 0.5231B8 0.3742 0.5924B12 0.6773 0.2270B13 0.0341 0.5446B14 0.1896 0.7135B15 0.1198 0.7666B18 0.9445 0.0199B27 0.1092 0.0739B35 0.4533 0.5465B37 0.5025 0.4972B38 0.0538 0.5061B39 0.6037 0.3599B46 0.6702 0.0006B48 0.1647 0.8200B50 0.7445 0.2545B53 0.1227 0.5979B54 0.9589 0.0048B55 0.0122 0.0029B56 0.1874 0.1268B57 0.0150 0.3701B58 0.5639 0.1939B60 0.9893 0.0009B61 0.3762 0.6230B70 0.1835 0.6741C1 0.9445 0.0002C2 0.0121 0.9121C3 0.9058 0.0011C4 0.1123 0.2836C5 0.4801 0.2115C6 0.4139 0.5530C7 0.2707 0.6453C8 0.0612 0.6748SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP ProcedureColumn CoordinatesDim1 Dim2藏族 -0.2025 0.0083尼泊尔 0.3658 -0.5460印度 0.4529 0.5754汉族 -0.5915 0.0430Summary Statistics for the Column PointsQuality Mass Inertia藏族 0.1413 0.2629 0.1777尼泊尔 0.9737 0.2630 0.2713印度 0.9815 0.2274 0.2888汉族 0.7697 0.2468 0.2622Partial Contributions to Inertia for the Column PointsDim1 Dim2藏族 0.0602 0.0001尼泊尔 0.1967 0.5086印度 0.2606 0.4883汉族 0.4825 0.0030Indices of the Coordinates that Contribute Most to Inertia for the Column PointsDim1 Dim2 Best藏族 0 0 1尼泊尔 2 2 2印度 2 2 2汉族 1 0 1 Squared Cosines for the Column PointsDim1 Dim2藏族 0.1411 0.0002尼泊尔 0.3016 0.6721印度 0.3754 0.6060汉族 0.7657 0.0040说明:根据Column CoordinatesDim1 Dim2藏族 -0.2025 0.0083尼泊尔 0.3658 -0.5460印度 0.4529 0.5754汉族 -0.5915 0.0430,我们可以得到:藏族=-0.202490Dim1+0.008300Dim2尼泊尔= 0.365818Dim1-0.546045Dim2印度= 0.452903Dim1+0.575439Dim2汉族=-0.591500Dim1+0.042981Dim2在以dim1与dim2作为横轴与纵轴的直角坐标系内,每个变量就是1个点,如Z(藏族)点的坐标为(-0.202490,0.008300)。
非常实用的sas课程--个人笔记
一、数值变量1、单样本2、两独立样本3、两配对样本4、数据的Excel转sas5、多组样本方差分析6、两因素多水平的重复测量资料的分析7、随机区组设计资料的方差分析8、协方差9、完全随机设计资料的协方差分析10、直线相关分析11、多变量回归分析目录二、分类变量四格表基础公式连续校正公式配对四格表资料的x2检验RXC表三、样本含量的估计一、数值变量1、单样本:正态数据ttest课本p51data a; /*建立数据集*/ input X @@; datalines; 171 79 135 78 118 175 122 105 111 140 138 132 142 140 168 113 131 145 128 124 134 116 129 155 135 134 136 113 119 132 ;proc print data=a; /*打印数据集;每一次重新运行下面语句,必须有这一步为前提,目的为把数据存入内存*/ run;proc means n mean median std min max data=a; /*描述的统计量;描述数据集的特征*/ var X; run;proc univariate normal plot data=a; /*正态性分析;查看test for normality中Shapiro-Wilk 的W 值0.945184 对应的Pr < W 0.1255 正态性检验,发现p值大于0.05,则为正态分布的数据*/ var X; run;proc ttest h0=140; /*假设检验;语句的选择以正态性分析结果为准*/ var X; run;非参数统计方法:/*过去对2型糖尿病患者的研究得出其BMI=28.4。
*/data a; input patno wt_kg ht_cm; ht_m=ht_cm/100;BMI=wt_kg/(ht_m*ht_m);datalines;1 101.7 1782 107.1 1703 114.2 1914 111.9 1795 80.1 1826 118.1 1777 85.0 1848 89.1 1829 195.8 18410 97.8 18311 78.7 . /*缺省值用“.”表示*/12 117.5 17213 122.8 18314 91.1 16915 112.1 17716 122.1 18017 89.7 184 ;proc print data=a; run;proc means n mean median std min max data=a; var wt_kg ht_cm BMI; run;proc univariate normal plot data=a; /*查看test for normality中Shapiro-Wilk 的W 值0.849997 对应的 Pr < W 0.0136 正态性检验,发现p值小于0.05,则为非正态数据*/ var BMI; run;/*以下为另外两种检验正态性分布的方法*/proc rank out=rnk data=a; /*按照BMI运用rank的过程排序,产生新变量r_BMI,输出的数据集为rnk*/ var BMI; ranks r_BMI; run;proc sort data=a; /*对rnk数据集中的BMI,也是检验正态的直观办法*/by BMI; run;proc print data=rnk; /*检验BMI的原始值和其秩次r_BMI的对应关系是否正确*/ var BMI r_BMI; run;proc plot data=rnk; /*输出QQ-plot,检验BMI是否正态。
SAS复习提纲
SAS复习提纲第一章:子窗口(五个常用窗口):程序编辑窗口(Editor)、运行记录窗口(Log)、输出窗口(Output)、结果窗口(Results)、浏览器窗口(Explorer)SAS中的文件名:(1)程序: .sas(2)数据集: .sas7bdatSAS系统中的两个层次:高级:逻辑库低级:数据集文件名:逻辑库名.数据集名e.g. aa.bb,其中aa是逻辑库名,bb是数据集名(特别地,如果不指明逻辑库名,则表示存储在临时逻辑库WORK中的SAS文件。
)SAS中的逻辑库:临时库:唯一临时库,名为work永久库:除临时库外的所有逻辑库自定义逻辑库语句:Libname <逻辑库名> “<SAS文件的储存目录> “; ←注意分号!Run;SAS的名字(数据集名、变量名、逻辑库名等等)有以下命名规则:1) 由英文字母、数字、下划线组成;2) 第一个字符必须是字母或下划线;3) 不区分大、小写字母。
数据集导入(Excel下):菜单-导入数据数据集中变量的输入输出格式的一般形式[$] 格式名<w>.<d>$字符变量的输入输出格式(字符型还是数值型)w格式的宽度(包括小数点符号,正负号等)d在数值型格式中指明小数点后数值的位数用INSIGHT创建数据集1.启动SAS INSIGHT模块,在“SAS INSIGHT:Open”对话框的”逻辑库“列表框中,选定库逻辑名2.单击“新建”按钮3.在行列交汇处的数据区输入数据值变量分为两种类型:字符型变量和数值型变量。
在INSIGHT中,为了区分变量在分析中的不同作用,又按变量的测量水平分为两类:● 区间型变量(interval variable):区间型变量必须是数值型变量,可以对其观测值进行四则运算,计算各种统计量;● 列名型变量(nominal variable):列名型变量可以是数值型的,也可以是字符型的,在INSIGHT中常起分类作用。
sas课程笔记
目录1、数据导入(对于导入数据参见little sas book第二章) (2)1.1创建新逻辑库创建新逻辑库有两种方法: (2)1.2 将你的数据放入SAS*/ (3)1.3用LIBNAME语句使用永久数据集 (3)2、开发数据(参见little sas book第三章) (3)2.1 格式、输入、读取 (3)2.2 用IF THEN DO END 和else if选择数据或选取部分数据 (5)2.3 求取最大值和总值 (6)2.4 累加和累乘 (7)2.5数组处理 (7)练习计算某只股票某段时间的累计收益率和年化收益率(提取数据和计算) (8)3、函数- COMPBL & COMPRESS、 (11)3.1 COMPBL & COMPRESS去掉空格 (11)3.2 INDEX;是找寻后一个变量在前一个变量中的位置 (12)3.3 SCAN提取字串、SUBSTR替换字串 (12)3.4 VERIFY;核实某字符的存在 (13)3.5 UPCASE vs. LOWCASE; (13)3.6 日期时间的显示和计算 (14)3.7 Truncation 用函数处理具体数值 (16)3.8 数据转置 (18)3.9 概率统计与随机抽样函数 (18)练习计算A股股票在2014年的双周收益率序列 (21)4、对表的处理 (22)4.1 表的连接 (22)4.2 表的合并 (24)5、数据查询实例 (27)6、利用宏 (30)6.1 利用宏程序导入股票日交易数据 (30)6.2用宏程序导入两个文本文件的数据并计算两只股票的总收益率和(几何平均)年收益率 (32)6.3 求winners50和losers50(答案) (33)6.4.1定义宏变量 (35)6.4.2引用宏变量 (36)6.4.3 多次引用宏变量 (36)6.4.4 改变宏变量的值 (37)6.4.5 如何隔开宏变量引用和文本 (38)6.4.6 显示宏变量值 (38)6.4.7 间接引用宏变量&& (38)6.4.8 定义宏和调用宏(什么是宏?) (39)6.4.9 宏参数(定义在宏%MACRO语句内的宏变量) (40)6.4.10 宏程序语句和宏函数 (41)1、对于在CSMAR下载的数据,用foxpro格式下载,然后用Stat/Transfer转换成SAS格式;对于在RESSET数据库下载的数据,建议使用下载数据时自动生成的数据导入程序(可能要稍作修改)导入SAS。
SAS基本知识汇总
一SAS表达式简介1.SAS常数表达式(1)数值常数如: 1.23、 -5、 0.5E-10。
(2)字符常数如: name1='TOME'、 name2='MARY'、name3='JOHN'。
(3)日期(d)、时间(t)、日时(dt)常数如: d1='01JAN80'd、t1='9:25:19't、dt1='18JAN80:9:27:05'dt。
2.SAS运算符(1)前缀算符与后缀算符前缀算符, 即正号或负号; 如: +Y; -25; -COS(30); +(X*Y); 后缀算符,即两个运算对象之间的运算符号, 如: 1+9; 4-2; 6<8。
(2)只含一个运算符的简单表达式(Ⅰ组)和含有多于一个运算符的复合表达式(Ⅱ组)Ⅰ组, 如: A+B; C-D; E*F; G/H; Ⅱ组, 如: 1-EXP(N/(N-1)); 100-LOG(N*(N+1));(3)操作运算的顺序求一个复合表达式的值时, 其操作运算的顺序和优先级遵从如下的规则:SAS的运算符及其在运算顺序上的优先级━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━优先级组别运算符号等价表示运算符号含义之说明━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━第 0 组 ( ) 括号第 1 组 ** + - 乘方, 正数, 负数^ >< <> NOT MIN MAX 逻辑非, 最小, 最大第 2 组* / 乘, 除第 3 组+ - 加, 减第 4 组‖或|| 字串连接第 5 组< <= LT LE 小于, 小于等于= ^= EQ NE 等于, 不等于>= > GE GT 大于等于, 大于IN 等于一列元数中的某一个第 6 组& AND 逻辑与第 7 组|或| OR 逻辑或━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━各组的计算顺序分别为: 第0组由内向外;其他各组均自左至右。
sas复习
SAS复习提纲一、数据的输入及输出菜单方式文件-----数据导入/数据导出SAS数据的work工作区输入和调用解决方案—分析—分析家PROC IMPORT 方式PROC IMPORTdatafile="f:\mydata\sas\inflation.xls"OUT=ACPIDBMS=excel2000 REPLACE ;sheet='ACPI';getnames=yes;run;proc print DATA=ACPI(obs=15);run;编辑窗口操作方法PROC DATA;INPUT X Y @@;CARDS;XXXXXXXX;RUN;PROC PRINT DATA=XX;V AR __;RUN;二、排序及分组data example3;input name $ 1-10 sex $ math chinese; cards;李明男 92 98张红艺女 89 106王思明男 86 90张聪男 98 109刘颍女 80 110run;proc print data=example3noobs label;label name='姓名' sex='性别'math='数学成绩' chinese='语文成绩'; run;proc sort data=example3;by sex;run;proc print data=example3 noobs;by sex;run;三、简单的运算原有数据集data=case1;其中有变量x y计算Z=x^3+1/yData case2;Set case1;Z=x^3+1/yRun;data example2;input name $ 1-10 sex $ math chinese;avg = math*0.5 + chinese/120*100*0.5;cards;李明男 92 98张红艺女 89 106王思明男 86 90张聪男 98 109刘颍女 80 110;run;proc print;run;proc sort data= example2;by descending avg;run;proc print;run;四、简单正态随机数的产生data example4;do time=-50 to 1000 by 1;noise=rannor(12345);if time>0 then output ;end ;print data= example4;run;1t t t y y με-=++ ~(0,1)t N εdata a;mu=0;y1=5;do time=-100 to 1100;noise=rannor(785); y=mu+y1+noise;if time>0 then output ; y1=y;end ;五、基本描述统计proc means data=;var x;run;proc univariate data=;var x; run;PROC MEANS DATA =shenzheng MEAN STD Q1 MEDIAN Q3 skew kurt ; VAR open close r1;RUN ;六、图形PROC CHART/PROC GCHARTVBAR HBAR BLOCK PIE STAR data example1;input name$1-11 sex$ title$ age;cards;Zhouli M P 50Yuke F AP 48Liping F AP 47Liuling M L 37Wangfang F L 28Zhulin M P 44Yuhong F AP 40Liqing F AP 42Liulijun M L 30Wangfang F L 25Leiming M AP 32Fangjin M L 26Liuming M AP 36;run;proc print data=example1;run;quit;PROC CHART DATA=example1;VBAR sex;HBAR sex;BLOCK Sex;PIE Title;star Title;RUN;PROC GCHART DATA=example1;VBAR sex;HBAR sex;BLOCK Sex;PIE Title;star Title;RUN;/*5个高分辨率图形/PROC PLOT/PROC GPLOT [1] PROC PLOTDATA example2;n=0;DO x=0TO360BY5;y=sin(x*3.14159/180);OUTPUT;END;PROC PLOT ;PLOT y*x='+'/vref=0;RUN;DATA example3;DO x=0TO360BY30;y=sin(x*3.14159/180);z=2*x/180-2;OUTPUT;END;PROC PLOT ;PLOT y*x='+' z*x='*'/OVERLAY vref=0; run;DATA example4;DO x=-10TO10BY1;DO y=-10TO10BY0.5;z=sqrt(x*x+y*y);OUTPUT;END;END;PROC PLOT;PLOT y*x=z/CONTOUR;RUN;[2] PROC GPLOTDATA example5;input milk@@;time=intnx('month','1jan1962'd,_n_-1); format time date.;cards;589 561 640 656 727 697 640 599 568 577 553 582 600 566 653 673 742 716 660 617 583 587 565 598 628 618 688 705 770 736 678 639604 611 594 634 658 622 709 722 782 756 702 653 615 621 602 635 677 635 736 755 811 798 735 697 661 667 645 688 713 667 762 784 837 817 767 722 681 687 660 698 717 696 775 796 858 826 783 740 701 706 677 711 734 690 785 805 871 845 801 764 725 723 690 734 750 707 807 824 886 859 819 783 740 747 711 751 804 756 860 878 942 913 869 834 790 800 763 800 826 799 890 900 961 935 894 855 809 810 766 805 821 773 883 898 957 924 881 837 784 791 760 802 828 778 889 902 969 947 908 867 815 812 773 813 834 782 892 903 966 937 896 858 817 827 797 843 ;run;proc gplot;plot milk*time;symbol v=square i=join c=red;run;七、报表及列列联表一维PROC FRE Q DATA=CLASS;TABLE AGE;RUN;quit;二维PROC FREQ;TABLE SEX*AGE;RUN;quit;列联表从这些罪行的组合看,是否于性别无关。
sas试题课笔记三Word版
NOTE: 从数据集 DATA.HF000012 读取了 124 个观测。
WHERE (date>='01AUG2006'D) and (tvolume>=100000) and (tprice>0); NOTE: 数据集 EX.BLOCK 有 124 个观测和 31 个变量。
NOTE: "DATA 语句"所用时间(总处理时间):实际时间 0.15 秒CPU 时间 0.10 秒可见 if语句是先读取数据然后再选择符合要求的观测而where语句则是直接读入满足条件的观测〓★作业 3.2 先用select语句再用 where语句〓★作业3.4〓★第一题〓d d a a t t a a ex.hm3_4_1(keep=date prevclpr oppr clpr color fluctuate); informat color $6.;★老师加的默认长度是多少呢?〓se t data.stk000001;fluctuate=(clpr-prevclpr)/prevclpr;★可以放在if语句后〓if oppr>clpr then color='red';if oppr<clpr then color='green';run;★if还可以写成这样:proc sort data=ex.blocktrade;★老师的做法接在第一步后〓by date;run;d d a a t t a a num;set ex.blocktrade;by date;if first.date then num=0;num+1;if last.date;keep date num;run;merge ex.blocktrade num(in=id); by date;if id=1;run;do n=1to50;t=t*2*n;output;end;run;★作业3.5〓★第一题〓★第二题〓d d a a t t a a ex.derivative;array s(0:20) s_0-s_20;do i=1to1000;s_0=17.18;do j=0to19;s(j+1)=s(j)*exp((0.03-0.15**2/2)*0.05+0.15*sqrt(0.05)*rannor(0)); end;output;end;drop i j;run;d d a a t t a a ex.average_derivative;set ex.derivative;if min(of s_1-s_20)<15then value=(18- min(of s_1-s_20))*exp(-0.03*1);★这里不确定value中所用的t值是否应为1〓if min(of s_1-s_20)>=15then value=0;run;★作业3.5〓★老师的答案〓★a)〓d d a a t t a a ex.ex3_5_1;array S(0:20) S_0-S_20;do i=1to1000;S_0=17.18;do j=0to19;S(j+1)=S(j)*exp((0.03-0.15**2/2)*0.1+0.15*sqrt(0.05)*rannor(0));end;output;end;drop i j;run;run;★b)〓d d a a t t a a ex3_5_3;set ex3_5_1;array S(0:20) S_0-S_20;do j=0to20;if S(j)<=15then leave;end;if j=21then value=0;else do;payoff=18-S(j);value=payoff*exp(-0.03*j*0.05);end;drop j payoff;run;(注:可编辑下载,若有不当之处,请指正,谢谢!)。
SAS入门笔记
SAS入门笔记SAS入门之一:SAS语言构成一、SAS语句:两类:●数据步:生成数据集、计算、整理数据和自编程计算。
自己用SAS编程序进行计算主要在数据步中进行。
以DATA语句开头,以RUN语句结尾。
DATA步中可以使用INPUT、CARDS、INFILE 、SET、MERGE等语句指定数据来源输入数据,也可以用赋值、分支、循环等编程结构直接生成数据或对输入的数据进行修改。
●过程步:调用SAS已编好的处理过程对数据进行处理,对数据进行分析、报告二、SAS表达式几种常量:●数值型:12,-7.5,2.5E-10 日期、时间等变量存为数值型●字符型:'Beijing',"Li Ming","李明"●日期型:'13JUL1998'd●时间型:'14:20't●日期时间型:'13JUL1998:14:20:32'dt●SAS中用一个单独的小数点来表示缺失值常量变量长度规定:LENGTH 变量名$ 长度;LENGTH name $ 20;运算符:●算术运算符:+-* / **●比较运算符:=^=> < >=<=INEQ NE GT LT GE LEIN的用法:prov in ('Beijing', 'Tianjin', 'Shanghai', 'Chongqing')●逻辑运算符:&(AND) |(OR) ^(NOT)复杂的逻辑表达式最好用括号表示其运算优先级以免误记优先规则并可利于阅读程序。
●其他运算符:|| 连接两个字符串<> 用于取两个运算值中较大一个(比如3<>5结果为5)用于取两个运算值中较小一个的>< (比如3><5结果为3)SAS入门之二:SAS用作一般高级语言(1)●DATA●赋值语句:isfem = (sex='女'); /*生成一个取值为0或1的变量,性别为女时为1,否则为0。
SAS备课笔记_简单线性回归、多元线性回归
回归分析-简单线性回归、多元线性回归比较:方差分析是处理试验数据的一类统计方法。
这类统计方法的特点是所考察的指标(因变量)Y 是测量得到的数值变量(连续变量),而影响指标的因子(自变量)水平是试验者安排的几个不同值(称这种因子为分类变量或离散变量)。
试验的目的是找出影响指标的主要因子及水平。
在实际问题中,还经常遇到这样一些数据,它们不是有意安排的试验得到的数据,而是对生产过程测量记录下来的数据。
对它们进行分析,目的是想找出对我们所关心的指标(因变量)Y 有影响为因素(也称自变量或回归变量)m x x x ,......,,21,并建立用m x x x ,......,,21预报Y 的经验公式。
对于现实世界,不仅要知其然,而且要知其所以然。
顾客对商品和服务的反映对于商家是至关重要的,但是仅仅有满意顾客的比例是不够的,商家希望了解什么是影响顾客观点的因素,以及这些因素是如何起作用的。
类似地,医疗卫生部门不能仅仅知道某流行病的发病率,而且想知道什么变量影响发病率,如何影响发病率的。
发现变量之间的统计关系,并且用此规律来帮助我们进行决策才是统计实践的最终目的。
一般来说,统计可以根据目前所拥有的信息(数据)来建立人们所关心的变量和其他有关变量的关系。
这种关系一般称为模型(model )。
假如用Y 表示感兴趣的变量,用X 表示其他可能与Y 有关的变量(x 也可能是若干变量组成的向量)。
则所需要的是建立一个函数关系Y=f(X)。
这里Y 称为因变量或响应变量(dependent variable, response variable ),而X 称为自变量,也称为解释变量或协变量(independent variable ,explanatory variable, covariate)。
建立这种关系的过程就叫做回归(regression )。
一旦建立了回归模型,除了对各种变量的关系有了进一步的定量理解之外,还可以利用该模型(函数或关系式)通过自变量对因变量做预测(prediction )。
SAS笔记
1. cards与datalinesCards语句与datalines语句可以通用。
如果输入数据中含有分号,可用cards4语句或datalines4语句,同时,数据结尾用4个分号表示数据输入结束。
Cards4例data;input number citation $50.;cards4;1 Berry2 LIN ET AL., 1995; BRADY, 19933 BERG, 1990; ROA, 1994; WILLIAMS, 1992;;;;run;2. Transpose用过SPSS的人都知道,SPSS的数据转置功能还是很强大的,而且很直观,那么SAS 呢?想必SAS那么强大的统计软件也不会落后的。
TRANSPOSE这个功能就可以完成转置功能。
TRANSPOSE过程将一个数据集进行转置,使行变为列而列变为行,也就是使原数据集中样品的观测值变换成新数据集中变量的观测值,而原数据集中变量的观测值则变换成新数据集中样品的观测值。
TRANSPOSE过程的格式如下所示:PROC TRANSPOSE <DATA=input-data-set> <LET> <NAME=name> <OUT=output-data-set> <PREFIX=prefix>;BY <DESCENDING> variable-1 <...<DESCENDING> variable-n> <NOTSORTED>;COPY variable(s);ID variable;IDLABEL variable;VAR variable(s);在PROC TRANSPOSE语句中可能出现的选择项有:1)DA TA=数据集名,用来说明要转置的数据集名,如果省略这一选择,则指定最新建立的数据集。
2)OUT=数据集名,用来说明转置所建立的新数据集名,如果省略这一选择,SAS将按内部程式给出新的数据集名。
sas笔记
sas笔记一、基本操作Editor窗口打开sas程序(扩展名*.sas) Log窗口 Output窗口 Explorer窗口Results窗口蓝色绿色 Set MergeIf (if。
thendelete) Drop(keep)二、描述性统计1. Proc Formatvalue height 0-50=‘<50’ 50-60=‘50-60’ 60-high=‘>60’ 2. Proc freq data=名字 order=freqTables 列表变量名/out=数据集名 norow nocol nopercent(table y*x) FormatLabel weight=‘高度’ By 变量3. Proc univariate data=名字 Var 分析变量Histogram 变量/midpoints=7 to 29 by 2 4. Proc mens5. Proc gchartVbar竖直或hbar 横向 Vbar math / group=sexPie sex/type=percent(以百分数显示) Block math/group=sex 图形关键字 Block Hbar绘制的图形类型方块图水平的条形图图形关键字 pie pie3d绘制的图形类型饼形图三维饼形图hbar3d Vbar vbar3d6.Proc gplot Plot x*ySymbol value=star color=red 选项 Value = 符号 Color = 颜色 CV =颜色 H = n POINTLABEL i = 连线方式 CI = 颜色 L = n Width = n意义水平的三维条形图 donut 竖立的条形图竖立的三维条形图star环形图星形图取值plus, x, star, square, diamond, triangle, hash, y, z, paw, point, dot, circleblack, red, green, blue, cyan,magenta, gray, pink, orange, brown, yellow单位有:cell, cm, pct, pt, innone, join, spline, needle0 �C 空白线,1 - 实线,2 �C 虚线表示点使用的符号表示点的符号及连线的颜色专指点的符号的颜色指名符号的大小在点的附近表明Y轴变量的值指明连线的方式专指连线的颜色 n 为线型的序号 n表示线的宽度7.proc g3d data=名字曲面图 Plot x*y=z8.proc gcontour data= 曲面图对应的等高线图 Plot x*y=z/nolegend autolabel三、T检验 >0.05 接受H0(差异有统计学意义)用于检验两个样本总体均数是否相等独立的,来自正态分布的总体定量资料对于两组独立样本的定量资料,要求方差相等,两组资料来自正态总体用proc univariate Proc meansProc ttest(能提供基本统计量的计算,对单样本资料、配对设计资料和两独立样本进行t检验)第一步,正态性检验 proc univariate normal (夏皮洛威尔克)Var 分析变量Freq 频数变量(频数分布资料时用)Class 分类变量(两组独立资料时用)第二步,proc ttest h0=30(已知的总体均数为30)Var 分析变量( paired x1*x2 配对设计资料时用,检验两组均值是否一致)Freq 频数变量(频数分布资料时用)Class 分类变量(两组独立资料时用)四、方差分析变异来源总变异组间自由度 N-1 k-1SS2(x?x)??iji?1j?1kniMSF2n(x?x)?ii i?1kSS组间k?1SS组内N―kMS组间MS组内组内N-k SS总―SS组间适用于多个样本均数的比较,资料独立,正态,各总体方差相等方差分析可用于分析主效应,交互效应方差分析方法:完全随机设计方差分析(单因素方差分析)随机区组方差分析(双因素方差分析,无需方差齐性检验)析因方差分析重复测量方差分析使用 proc anova(各样本数一样)和proc glm(generalized linear model)第一步,正态检验 proc univariate normal Var class 第二步, proc glmClass g 分类变量(分类变量即自变量,必须为离散型变量) Modelx=g(因变量=自变量或自变量之间的交互效应)效应模型, Means g/hovtest snk(means 列出比较组的均数和标准差)(hovtest各比较组的方差齐性检验,homogeneity of variance test,默认levene)(snk 进行均数间的多重比较 student Newman keuls)Lsmeans a*b/tdiff(析因设计资料时用,列出变量或交互效应各水平的均值)(tdiff 表示对变量各水平均值或交互效应各水平均值进行两两比较的t检验)1与2、3、4有差别 2与1、4有差别 3与1、4有差别 4与1、2、3有差别第三步,多重比较五、卡方检验卡方检验是检验观测值的频率分布与理论分布是否吻合的一种统计方法用法有卡方拟合优度检验(根据样本的频率分布检验总体分布是否吻合假定的分布,两个率或两个构成比比较的卡方检验)卡方独立性检验(一份随机样本按两种属性分类,其个体来自第一个变量某类别的概率与来自第二个变量某类别的概率是否独立)Proc freq可进行列联表资料的卡方检验Weight 权重变量(使每个量初始权重为1)Tables 行变量*列变量/expected chisq nocol norow nopercent (exact 表示用fisher’s确切概率法,理论频数小于5)Testp(0.1667,0.1667,0.1667,0.1667)(expected输出各个格子的理论频数)(chisq 进行卡方统计量的计算)N>=40 T>5 普通卡方检验 T为理论频数(行*列/总) N>=40 1<=T<5 校正卡方检验N<40 T<1 fisher’s确切概率法卡方:卡方拟合优度检验 df=(k-1)/(k-r-1)列联表独立性检验(2X22Xc rX2 rXc)配对设计资料的卡方检验 ( table r*c/agree )六、基于秩次的非参数统计参数统计方法(t检验、方差分析)对总体分布的参数进行估计或检验非参数统计方法不需要对总体分布形状做出任何假定,适用于总体不正态分布、分布未知、正态分布但方差不齐性、分析等级资料SAS过程:单样本、配对资料 prco univariate中的signed rank 符号秩和检验(服从正态,t 检验)完全随机设计两样本两独立样本 proc npar1way中的wilcoxon (exact确切概率法,适用于样本量较少)完全随机设计多样本(单因素) proc npar1way中的kruskal-wallis随机区组设计(双因素)proc rank(计算秩得分)再proc glm(分析秩次) Exact在两样本量相同时,sas以秩和较大者作为统计量进行概率值的计算在两样本量不同时,sas以较小者的秩和进行概率值的计算Z includes a continuity correction of 0.5统计量包含了一个0.5的连续校正多个样本Average scores were used for ties 在系列计算中使用了平均得分先用exact test,后用Z(n>50)感谢您的阅读,祝您生活愉快。
统计学(sas复习总结)
程序步分为两种: 数据步(data step)
data:数据步的开始、命名要创立的 数据集。 Input:确定输入的数据所对应的变量。 cards:输入数据。
过程步(proc step)
proc:过程步的开始。 Output:输出过程步运行结果
Set语句:1、引用数据集 2、纵向合并数据集(合并时不 会根据id进行匹配)
如求X服从二项分布,则 P(X =k)=probbnml (p ,n,k)-probbnml (p,n,k-1) =PDF(“Binomial”,k,p,n)
如X服从泊松分布,则 P(X=k)=Poisson(p,k)-Poisson(p,k-1) =PDF(“poisson”,k,p)。
SAS中常用的正态分布相关函数
卡方检验
proc freq; tables r*c/chisq expected exact; weight f; run;
注:1.tables语句中的chisq选项指定进行卡方 检验, expected选项指定输出理论频数
2.exact 输出确切概率/四格表资料不加 此选项也可以输出确切概率
3.weight语句指定权重变量为f
• 线性相关: proc corr ; var x y; run; 秩相关: proc corr spearman; var x y; run; 列联相关: proc freq;weight f; table r*c/chisq nocol norow nopct; run;
回归分析: proc reg; model y=x/clm cli; plot y*x/conf pred; run;
Proc univariate normal *进行正态性 检验 proc ttest:调用ttest过程进行t检验 paired:指出t检验重要比较的变量 对 class:指出分类变量
sas各过程笔记+描述性统计+线性回归+logistic回归+生存+判别+聚类+主成分+因子分析
第一部分:基本统计方法注:主要讲述过程:means(描述性统计);freq(算频数表);univariate(检验);anova(方差分析);ttest(检验);glm(广义线性回归);npar1way(非参,wilcox)一:计量资料的统计分析方法1.01均值+频数表+百分位数+正态检验、茎叶图、箱形图、正态概率图data ex2_1;input x@@;low=2.3;dis=0.3;z=x-mod(x-low,dis);cards;3.964.23 4.42 3.595.12 4.02 4.32 3.72 4.76 4.164.61 4.263.774.20 4.36 3.07 4.89 3.97 4.28 3.64 4.66 4.044.55 4.254.63 3.91 4.41 3.525.03 4.01 4.30 4.19 4.75 4.144.57 4.264.56 3.79 3.89 4.21 4.95 3.98 4.29 3.67 4.69 4.124.56 4.264.66 4.28 3.83 4.205.24 4.02 4.33 3.76 4.81 4.173.96 3.274.61 4.26 3.96 4.23 3.76 4.01 4.29 3.67 3.39 4.124.27 3.614.98 4.24 3.83 4.20 3.71 4.03 4.34 4.69 3.62 4.184.26 4.365.28 4.21 4.42 4.36 3.66 4.02 4.31 4.83 3.59 3.973.964.495.11 4.20 4.36 4.54 3.72 3.97 4.28 4.76 3.21 4.044.56 4.254.92 4.23 4.47 3.605.23 4.02 4.32 4.68 4.76 3.694.61 4.263.894.21 4.36 3.425.01 4.01 4.29 3.68 4.71 4.134.57 4.264.035.46 4.16 3.64 4.16 3.76;/*freq语句,算频数表*/proc freq;tables z;run;proc means data=ex2_1n mean std stderr clm;var x;run;data ex2_1;input x f@@;cards;3.07 23.27 33.47 93.67 143.87 224.07 304.27 214.47 154.67 104.87 65.07 45.27 2;run;proc means;freq f;var x;run;/*把freq f改成weight f就是把f当权重或频数来算,f则在0,1之间*//*计算x的95%的置信区间*/proc univariate data=ex2_1;var x;output out=pctpctlpre=ppctlpts=2.5 97.5;run;proc print data=pct;run;/*正态检验、茎叶图、箱形图、正态概率图*/proc univariate data=ex2_1normalplot;var x;run;/*Extreme Observation显示的值是最小的5个极值和最大的5个极值*/1.02几何均值data ex2_5;input x f@@;y=log10(x);cards;10 420 340 1080 10160 11320 15640 141280 2;proc means noprint;/*调用means过程,不显示结果*/var y;freq f;output out=b/*结果输出到数据集b中*/mean=logmean;/*把数据集b中均数的变量名mean改为logmean*/run;data c;/*新建数据集c*/set b;/*调用数据集b*/g=10**logmean;/*计算变量logmean的反对数,该值就是x的几何均数,将该值赋值给变量g*/ proc print data=c;var g;run;/*这个是计算平通平均数的值*/proc means data=ex2_5;var x;freq f;run;1.03已知均值和方差求置信区间-单样本+单样本与总体/*单样本*/data ex3_2;n=10;mean=166.95;std=3.64;t=tinv(0.975,n-1);pts=t*std/sqrt(n);lclm=mean-pts;uclm=mean+pts;proc print;var lclm uclm;run;/*单样本与总体均值*/data ex3_5;n=36;/*样本量*/s_m=130.83;/*样本均值*/std=25.74;/*样本标准差*/p_m=140;/*总体均值*/df=n-1;/*自由度*/t=(s_m-p_m)/(std/sqrt(n));p=(1-probt(abs(t),df))*2;/*根据t值计算p值*/run;proc print;var t p;run;1.06双样本均值相等检验+两组分开+两组一起算+两组样本量不同/*双样本分开算*/data ex3_4;n1=29;n2=32;m1=20.10;m2=16.89;s1=7.02;s2=8.46;ss1=s1**2*(n1-1);ss2=s2**2*(n2-1);sc2=(ss1+ss2)/(n1+n2-2);se=sqrt(sc2*(1/n1+1/n2));t=tinv(0.975,n1+n2-2);lclm=(m1-m2)-t*se;uclm=(m1-m2)+t*se;proc print;var t se lclm uclm;run;/*双样本相减后再算*//*用MEANS作配对资料两个样本均数比较的t检验*/data ex3_6;input x1 x2 @@;d=x1-x2;cards;0.840 0.5800.591 0.5090.674 0.5000.632 0.3160.687 0.3370.978 0.5170.750 0.4540.730 0.5121.200 0.9970.870 0.506;proc means t prt;var d;run;/*用UNIVARIATE过程作配对资料两样本均数比较的t检验*/ proc univariate data=ex3_6;var d;run;/*双样本两组样本量不同*/data ex3_7;input x@@;if _n_<21 then c=1;/*当观测数小于21时,变量c的值为1,表示试验组*/else c=2;/*其余变量c的值为2,表示对照组*/cards;-0.70 -5.60 2.00 2.80 0.70 3.50 4.00 5.80 7.10 -0.502.50 -1.60 1.703.00 0.404.50 4.60 2.50 6.00 -1.403.70 6.50 5.00 5.20 0.80 0.20 0.60 3.40 6.60 -1.106.00 3.80 2.00 1.60 2.00 2.20 1.20 3.10 1.70 -2.00;proc ttest;/*调用ttest过程*/var x;/*定义分析变量为x*/class c;/*定义分组变量为c*/run;1.08-1.13anova方差分析过程+一维分组+二维分组+三维分组/*只有一组分组因素*/data ex4_2;input x c @@;cards;3.53 1 2.42 2 2.86 3 0.89 44.59 1 3.36 2 2.28 3 1.06 44.34 1 4.32 2 2.39 3 1.08 42.66 1 2.34 2 2.28 3 1.27 43.59 1 2.68 2 2.48 3 1.63 43.13 1 2.95 2 2.28 3 1.89 43.30 1 2.36 2 3.48 3 1.31 44.04 1 2.56 2 2.42 3 2.51 43.53 1 2.52 2 2.41 3 1.88 43.56 1 2.27 2 2.66 3 1.41 43.85 1 2.98 2 3.29 3 3.19 44.07 1 3.72 2 2.70 3 1.92 41.37 12.65 2 2.66 3 0.94 43.93 1 2.22 2 3.68 3 2.11 42.33 1 2.90 2 2.65 3 2.81 42.98 1 1.98 2 2.66 3 1.98 44.00 1 2.63 2 2.32 3 1.74 43.55 1 2.86 2 2.61 3 2.16 42.64 1 2.93 23.64 3 3.37 42.56 1 2.17 2 2.58 3 2.97 43.50 1 2.72 2 3.65 3 1.69 43.25 1 1.56 2 3.21 3 1.19 42.96 13.11 2 2.23 3 2.17 44.30 1 1.81 2 2.32 3 2.28 43.52 1 1.77 2 2.68 3 1.72 43.93 1 2.80 2 3.04 3 2.47 44.19 1 3.57 2 2.81 3 1.02 42.96 1 2.97 23.02 3 2.52 44.16 1 4.02 2 1.97 3 2.10 42.59 1 2.31 2 1.68 33.71 4;proc anova;/*调用anova过程*/class c;/*定义分组变量为c*/model x=c;/*定义模型,分析g对x的影响*/means c/dunnett;/*用LSD法对多组均数过行两两比较*/means c/hovtest;/*作方差齐性检验,默认levene法,p值大于0.05,则认为是g组方差相等*/run;quit;/*有两组分组因素*/data ex4_4;input x a b@@;cards;0.82 1 10.65 2 10.51 3 10.73 1 20.54 2 20.23 3 20.43 1 30.34 2 30.28 3 30.41 1 40.21 2 40.31 3 40.68 1 50.43 2 50.24 3 5;proc anova;class a b;/*定义分组变量a和b*/model x=a b;/*定义模型,分析a和b对x影响*/means a/snk;/*用SNK法对变量a的多组均数进行两两比较*/run;quit;1.15嵌套设计资料的方差分析glm过程一级因素+二组因素(glm过程要先class再model)/*嵌套设计资料的方差分析*/data ex11_6;input x a b @@;cards;82 1 184 1 191 1 288 1 285 1 383 1 365 2 461 2 462 2 559 2 556 2 660 2 671 3 767 3 775 3 878 3 885 3 989 3 9;proc glm;/*调用glm过程*/class a b;/*定义分组变量为a和b*/model x=a a(b);/*定义模型,以a为一组因素,b为二级因素*/run;quit;1.17重复测量资料的方差分析data ex12_2;input t1 t2 g@@;/*确定变量名称,t1和t2分别为两个时间点的分析变量,g为处理因素变量,b为区组变量*/cards;130 114 1124 110 1136 126 1128 116 1122 102 1118 100 1116 98 1138 122 1126 108 1124 106 1118 124 2132 122 2134 132 2114 96 2118 124 2128 118 2118 116 2132 122 2120 124 2134 128 2;proc glm;/*调用glm过程*/class g;/*定义分组变量g*/model t1 t2=g;/*定义模型,分析g对变量t1和t2的影响*/repeated time 2/*命名重复因子为time,有2个水平*/contrast(1)/*表示以第一时间点为对照点*//summary;/*考察不同时间点与对照时间点比较的结果*/run;quit;data ex12_3;input t0-t4 g@@;cards;120 108 112 120 117 1118 109 115 126 123 1119 112 119 124 118 1121 112 119 126 120 1127 121 127 133 126 1121 120 118 131 137 2122 121 119 129 133 2128 129 126 135 142 2117 115 111 123 131 2118 114 116 123 133 2131 119 118 135 129 3129 128 121 148 132 3123 123 120 143 136 3123 121 116 145 126 3125 124 118 142 130 3;proc glm;class g;model t0-t4=g;repeated time 5/*命名重复因子为time,有2个水平*/contrast(1);run;quit;二:计数资料的统计分析方法2.1四格表资料的卡方检验data ex7_1;input r c f@@;/*确定变量名称,r为行变量,c为列变量,f为频数变量*/ cards;1 1 991 2 52 1 752 2 21;proc freq;/*调用freq过程*/weight f;/*定义f为频数变量*/tables r*c/*作r*c的列联表*//chisq/*对列联表作卡方检验*/expected;/*输出每个格的理论频数*/run;2.5阳性事件发生的概率(二项分布)data ex6_1;do x=6 to 8;/*建立循环,变量x从6到8*/p1=probbnml(0.7,10,x);/*计算二项分布随机变量不大于x的概率*/p2=probbnml(0.7,10,x-1);/*计算二项分布随机变量不大于x-1的概率*/p=p1-p2;*/计算出现x的概率*/output;/*结果输出*/end;proc print;var x p;run;2.6正态分布法计算总体率的可信区间data ex6_3;n=100;x=55;p=x/n;sp=sqrt(p*(1-p)/n);u=probit(0.975);usp=u*sp;lclm=p-usp;uclm=p+usp;proc print;var n p sp lclm uclm;run;2.7样本率与总体率的比较(直接法——单侧检验)data ex6_4;d=probbnml(0.55,10,8);p=1-d;proc print;var p;run;2.8样本率与总体率的比较(直接法——双侧检验)data ex6_5;p01=probbnml(0.6,10,9);p02=probbnml(0.6,10,8);p0=p01-p02;/*计算出现9的概率*/do i=0to10;/*建立循环,变量i从0到10*/p11=probbnml(0.6,10,i);p12=probbnml(0.6,10,i-1);p1=p11-p12;/*计算出现i的概率*/if i=0then p1=p11; /*定义出现0的概率*/if p1<=p0 then output; /*如果出现i的概率小于出现9的概率,则保留在数据集中*/ end;proc means sum;var p1;run;2.9两个样本率比较的z检验data ex6_7;n1=120;n2=110;x1=36;x2=22;p1=x1/n1;p2=x2/n2;pc=(x1+x2)/(n1+n2);/*计算合并发生率*/sp=sqrt(pc*(1-pc)*(1/n1+1/n2));/*计算两个率相差的标准误差*/u=(p1-p2)/sp;/*计算u值*/p=(1-probnorm(abs(u)))*2;/*计算p值*/format u p 5.4;/*输出格式为小数点后保留4位*/proc print;var pc sp u p;run;2.10.Poisson分布的样本均数与总体均数比较(直接法)data ex6_12;n=120;/*确定样本例数*/pai=0.008; /*确定总体率*/lam=n*pai; /*计算总体均数lamda*/x=4; /*确定实际发生数*/p=1-poisson(lam,x-1);/*计算实际发生数所对应的概率*/proc print;var lam p;run;2.11 Poisson分布的样本均数与总体均数比较(正态近似法)data ex6_12;n=25000;/*样本量*/x=123; /*样本均数*/pi=0.003; /*确定总体率*/lam=n*pi; /*计算总体均数*/u=(x-lam)/sqrt(lam*(1-pi)); /*计算u值*/p=1-probnorm(abs(u)); /*计算u值所对应的p值*/proc print;var lam u p;run;2.14负二项分布的参数估计data ex6_16;input x f@@;cards;0 301 142 83 44 25 06 2;proc univariate;var x;freq f;output out=mv2var=v;run;data k;set mv2;k=mu**2/(v-mu);proc print;var mu k;run;三、非参数统计方法3.2单个样本中位数和总体中位数比较data ex8_2;input x1@@;median=45.30;/*假设中位数为45.30*/d=x1-median; /*计算x1和假设中位数的差值*/cards;44.21 45.30 46.39 49.47 51.05 53.1653.26 54.37 57.16 67.37 71.05 87.37;proc univariate; /*调用univariate过程度*/var d;run;proc means median; /*调用means过程计算x1实际的中位数*/var x1;run;3.3两个独立样本比较的Wilcoxon秩和检验(R对应函数wilcox.test())data ex8_3;input x c @@;/*确定变量名称,x、c分别为分析变量和分组变量(类别多于两类一样的写法)*/2.78 13.23 14.20 14.87 15.12 16.21 17.18 18.05 18.56 19.60 13.23 23.50 24.04 24.15 24.28 24.34 24.47 24.64 24.75 24.82 24.95 25.10 2;proc npar1way wilcoxon;/*调用npar1way过程,进行wilcoxon分析*/var x;/*定义分析变量为x*/class c;/*定义分组变量为c*/run;3.4等级资料的两样本比较data ex8_4;input c g f@@;/*确定变量名称,f为频数,c为分类,g为要分析的变量(分类多种类似)*/ cards;1 1 11 2 81 3 161 4 101 5 42 1 22 2 232 3 112 5 0;proc npar1way wilcoxon;/*调用npar1way过程,进行wilcoxon分析*/freq f;/*确定频数变量为f*/var g;/*定义分析变量g*/class c;/*定义分组变量c*/run;第二部分:多元统计分析方法注:主要讲述过程:reg(回归),corr(相关分析),nlin(对数曲线回归),logistic(逻辑回归),phreg(条件logistic回归分析+cox回归),life test(生存分析),discrim(判别分析),stepdisc(逐步回归),cluster(聚类),varclus(指标聚类),princomp(主成分分析),factor(因子分析),cancorr(典型相关分析)一:回归和相关分析1.1两个变量的直线回归分析data ex9_1;input x y;/*确定变量名称*/cards;13 3.5411 3.019 3.096 2.488 2.5610 3.3612 3.187 2.65;proc reg;/*调用reg过程*/model y=x;/*定义模型,以y为应变量,以x为自变量*//*在model语句后面加上选项,得到一些有用的统计量,常用的有:stb(输出标准化偏回归系数)、p(输出每个观测的实际值、预测值和残差)、cli(输出每个观测预测值均数的双侧95%置信区间)、clm(输出每个观测预测值的双侧95%置信范围)*//*例如:model y=x /stb p cli */plot y*x;/*画出散点图*/run;1.2两个变量的直线相关分析data ex9_5;input x y;cards;43 217.2274 316.1851 231.1158 220.9650 254.7065 293.8454 263.2857 271.7367 263.4669 276.5380 341.1548 261.0038 213.2085 315.1254 252.08;proc corr;/*若要求作spearman相关分析,则可以写成proc corr spearman */ var x y;run;/*得到一个相关系数矩阵*/1.4加权直线加回data ex9_9;input x y;w=1/(x*x); /*设置权重变量w*/cards;0.11 4.000.12 5.100.21 9.500.30 9.000.34 17.200.44 14.000.56 18.900.60 29.400.69 22.100.80 41.50;proc reg;weight w;/*定义权重变量w*/model y=x;/*定义模型,以y为因变量,以x为自变量*/run;1.5两个直线回归系数的比较data ex9_12;input x y c@@;cards;13 3.54 111 3.01 19 3.09 16 2.48 18 2.56 110 3.36 112 3.18 17 2.65 110 3.01 29 2.83 211 2.92 212 3.09 215 3.98 216 3.89 28 2.21 27 2.39 210 2.74 215 3.36 2;proc glm;class c;model y=x c x*c;/*定义模型,分析x、c以及x和c的交互作用对y的影响,即判断两总体直线回归系数是否相同*/run;proc glm;class c;model y=x c;/*上一步已排除协变量的影响,然后再分析两分析变量是否来自同一总体*/run;1.6两个变量的对数曲线回归data ex9_13;input x y;cards;0.005 34.110.050 57.990.500 94.495.000 128.5025.000 169.98;proc nlin;/*调用nlin过程*/parms a=0 b=0; /*定义初始值*/model y=a+b*log10(x); /*定义对数模型,以y为因变以量,x为自变量*/ run;1.7两个变量的指数曲线回归分析data ex9_14;input x y;cards;2 545 507 4510 3714 3519 2526 2031 1634 1838 1345 852 1153 860 465 6;proc nlin;parms a=4 b=0.03;/*定义初始值*/model y=exp(a+b*x);/*定义指数模型,以y为因变量,x为自变量*/run;1.8多元回归data ex15_1;input x1-x4 y@@;/*确定变量名称,x1,x2,x3,x4分别为自变量,y为应变量*/ cards;5.68 1.90 4.53 8.20 11.203.79 1.64 7.32 6.90 8.806.02 3.56 6.95 10.80 12.304.85 1.075.88 8.30 11.604.60 2.32 4.05 7.50 13.406.05 0.64 1.42 13.60 18.304.90 8.50 12.60 8.50 11.107.08 3.00 6.75 11.50 12.103.85 2.11 16.28 7.90 9.604.65 0.63 6.59 7.10 8.404.59 1.97 3.61 8.70 9.304.29 1.97 6.61 7.80 10.607.97 1.93 7.57 9.90 8.406.19 1.18 1.42 6.90 9.606.13 2.06 10.35 10.50 10.905.71 1.78 8.53 8.00 10.106.40 2.40 4.53 10.30 14.806.06 3.67 12.797.10 9.105.09 1.03 2.53 8.90 10.806.13 1.71 5.28 9.90 10.205.78 3.36 2.96 8.00 13.605.43 1.13 4.31 11.30 14.906.50 6.21 3.47 12.30 16.007.98 7.92 3.37 9.80 13.2011.54 10.89 1.20 10.50 20.005.84 0.92 8.616.40 13.303.84 1.20 6.45 9.60 10.40;proc reg;model y=x1-x4;/*也可以写成model y=x1 x2 x3 x4;*/run;1.9逐步回归data ex12_2;input x1-x4 y@@;cards;5.68 1.90 4.53 8.20 11.203.79 1.64 7.32 6.90 8.806.02 3.56 6.95 10.80 12.304.85 1.075.88 8.30 11.604.60 2.32 4.05 7.50 13.406.05 0.64 1.42 13.60 18.304.90 8.50 12.60 8.50 11.107.08 3.00 6.75 11.50 12.103.85 2.11 16.28 7.90 9.604.65 0.63 6.59 7.10 8.404.59 1.97 3.61 8.70 9.304.29 1.97 6.61 7.80 10.607.97 1.93 7.57 9.90 8.406.19 1.18 1.42 6.90 9.606.13 2.06 10.35 10.50 10.905.71 1.78 8.53 8.00 10.106.40 2.40 4.53 10.30 14.806.06 3.67 12.797.10 9.105.09 1.03 2.53 8.90 10.806.13 1.71 5.28 9.90 10.205.78 3.36 2.96 8.00 13.605.43 1.13 4.31 11.30 14.906.50 6.21 3.47 12.30 16.007.98 7.92 3.37 9.80 13.2011.54 10.89 1.20 10.50 20.005.84 0.92 8.616.40 13.303.84 1.20 6.45 9.60 10.40;proc reg;model y=x1-x4/selection=stepwise/*定义模型,以y因变量,x1-x4为变量进行多元回归分析*/ sle=0.10/*定义入先变量的界值*/sls=0.10;/*定义剔除变量的界值*/run;三:logistic回归3.1 两个变量logistic回归分析data ex16_1;input y x1 x2 f@@;/*确定变量名称,y为发病情况,x1为吸烟情况,x2为饮酒情况,f为发生频数*/cards;1 0 0 631 0 1 631 1 0 441 1 1 2650 0 0 1360 0 1 1070 1 0 570 1 1 151;proc logistic;/*调用logistic过程*/freq f;/*定义频数变量f*/model y=x1 x2;/*定义模型,以y为因变量,x1和x2为自变量*/run;3.2 1:M配对资料的条件logistic回归分析data ex16_3;input i y x1-x6 @@;/*确定变量名称,i为区组变量,y为病人情况,1为病例,0为对照,x1-x6为危险因素*/t=2-y;/*定义时间变量*/cards;1 1 3 5 1 1 1 01 0 1 1 1 3 3 01 0 1 1 1 3 3 02 1 13 1 1 3 02 0 1 1 13 2 02 0 1 2 13 2 03 1 14 1 3 2 03 0 1 5 1 3 2 03 0 14 1 3 2 04 1 1 4 1 2 1 14 0 2 1 1 3 2 05 1 2 4 2 3 2 0 5 0 1 2 1 3 3 05 0 2 3 1 3 2 06 1 1 3 1 3 2 1 6 0 1 2 1 3 2 06 0 1 3 2 3 3 07 1 2 1 1 3 2 1 7 0 1 1 1 3 3 07 0 1 1 1 3 3 08 1 1 2 3 2 2 0 8 0 1 5 1 3 2 08 0 1 2 1 3 1 09 1 3 4 3 3 2 0 9 0 1 1 1 3 3 09 0 1 4 1 3 1 010 1 1 4 1 3 3 1 10 0 1 4 1 3 3 010 0 1 2 1 3 1 011 1 3 4 1 3 2 0 11 0 3 4 1 3 1 011 0 1 5 1 3 1 012 1 1 4 3 3 3 0 12 0 1 5 1 3 2 012 0 1 5 1 3 3 013 1 1 4 1 3 2 0 13 0 1 1 1 3 1 013 0 1 1 1 3 2 014 1 1 3 1 3 2 1 14 0 1 1 1 3 1 014 0 1 2 1 3 3 015 1 1 4 1 3 2 0 15 0 1 5 1 3 3 015 0 1 5 1 3 3 016 1 1 4 2 3 1 0 16 0 2 1 1 3 3 016 0 1 1 3 3 2 017 1 2 3 1 3 2 0 17 0 1 1 2 3 2 017 0 1 2 1 3 2 018 1 1 4 1 3 2 0 18 0 1 1 1 2 1 0 18 0 1 2 1 3 2 019 0 1 1 1 2 1 019 0 2 2 2 3 1 020 1 1 4 2 3 2 120 0 1 5 1 3 3 020 0 1 4 1 3 2 021 1 1 5 1 2 1 021 0 1 4 1 3 2 021 0 1 2 1 3 2 122 1 1 2 2 3 1 022 0 1 2 1 3 2 022 0 1 1 1 3 3 023 1 1 3 1 2 2 023 0 1 1 1 3 1 123 0 1 1 2 3 2 124 1 1 2 2 3 2 124 0 1 1 1 3 2 024 0 1 1 2 3 2 025 1 1 4 1 1 1 125 0 1 1 1 3 2 025 0 1 1 1 3 3 0;proc phreg;/*调用phreg过程*/model t*y(0)=x1-x6/*定义模型,以t为时间变量,y为截尾变量,x1-x6为自变量*//selection=stepwise/*选择逐步回归方法筛选变量*/sle=0.1sls=0.1/*入选和剔除的界值均为0.1*/ties=discrete;/*用离散logistic模型替代比例危险模型*/strata i;/*定义区组变量*/run;2.3 应变量为多分类资料的logistic回归data ex16_5;input x1 x2 y f;/*x1是两个社区,x2是性别,Y是获取健康知识途径(传统大众媒介=1,网络=2,社区宣传=3,f为频数)*/cards;0 0 1 200 0 2 350 0 3 260 1 1 100 1 2 270 1 3 571 0 1 421 02 171 1 1 161 12 121 1 3 26;proc logistic;freq f;/*定义频数变量为f*/model y(ref='3')/*定义模型,以y为因变量,ref语句指时参照的类别为“社区宣传”,最后得到结果均为与“社区宣传”相对应*/=x1 x2/*定义x1和x2为自变量*//link=glogit;/*指定多分类应变量回归模型*/run;四:生存分析4.1乘积极限法估计生存率,例17-2甲、乙两种手术方法的生存率估计data ex17_2;input t d@@;/*确定变量名称,t为时间变量,d为截尾变量*/cards;1 13 15 15 15 16 16 16 17 18 110 110 114 017 119 020 022 026 034 134 044 159 1;proc lifetest;/*调用lifetest过程*/time t*d(0);/*定义模型,以t为时间变量,d为截尾变量,变量值为0表示截尾数据*/ run;4.2寿命表法估计生存率data ex17_3;input t d f@@;cards;0 0 00 1 4561 0 391 1 2262 0 222 1 1523 0 233 1 1714 0 244 1 1355 0 1075 1 1256 0 1336 1 837 0 1027 1 748 0 688 1 519 0 649 1 4210 0 4510 1 4311 0 5311 1 3412 0 3312 1 1813 0 2714 0 3314 1 615 0 2015 1 0;proc lifetest method=life/*调用lifetest过程,指定用寿命表法估计生存率*/ width=1;/*表示每间隔1估计生存率*/freq f;/*表示以f为频数变量*/time t*d(0);/*定义模型,以t为时间变量,d为截尾变量,变量值为0表示截尾数据*/ run;4.3生存曲线比较的log-rank检验及制作生存曲线data ex17_4;input t d g @@;cards;1 1 13 1 15 1 15 1 15 1 16 1 16 1 16 1 17 1 18 1 110 1 110 1 114 0 117 1 119 0 120 0 122 0 126 0 131 0 134 1 134 0 144 1 159 1 11 1 21 1 22 1 23 1 23 1 24 1 24 1 24 1 26 1 26 1 28 1 29 1 29 1 210 1 211 1 212 1 213 1 215 1 217 1 218 1 2;proc lifetest plot=(s);/*调用lifetest过程并做生存曲线图*/ time t*d(0);strata g;/*定义变量g为分组变量*/run;4.4.cox回归分析data ex17_5;input x1-x6 t y @@;cards;54 0 0 1 1 0 52 057 0 1 0 0 0 51 058 0 0 0 1 1 35 143 1 1 1 1 0 103 048 0 1 0 0 0 7 140 0 1 0 0 0 60 044 0 1 0 0 0 58 036 0 0 0 1 1 29 139 1 1 1 0 1 70 042 0 1 0 0 1 67 042 0 1 0 0 0 66 042 1 0 1 1 0 87 051 1 1 1 0 0 85 055 0 1 0 0 1 82 052 1 1 1 0 1 74 0 48 1 1 1 0 0 63 0 54 1 0 1 1 1 101 0 38 0 1 0 0 0 100 0 40 1 1 1 0 1 66 1 38 0 0 0 1 0 93 0 19 0 0 0 1 0 24 1 67 1 0 1 1 0 93 0 37 0 0 1 1 0 90 0 43 1 0 0 1 0 15 149 0 0 0 1 0 3 150 1 1 1 1 1 87 0 53 1 1 1 0 0 120 0 32 1 1 1 0 0 120 0 46 0 1 0 0 1 120 043 1 0 1 1 0 120 044 1 0 1 1 0 120 0 62 0 0 0 1 0 120 0 40 1 1 1 0 1 40 1 50 1 0 0 1 0 26 1 33 1 1 0 0 0 120 0 57 1 1 1 0 0 120 0 48 1 0 0 1 0 120 0 28 0 0 0 1 0 3 1 54 1 0 1 1 0 120 1 35 0 1 0 1 1 7 1 47 0 0 0 1 0 18 1 49 1 0 1 1 0 120 0 43 0 1 0 0 0 120 0 48 1 1 0 0 0 15 1 44 0 0 0 1 0 4 1 60 1 1 1 0 0 120 0 40 0 0 0 1 0 16 1 32 0 1 0 0 1 24 1 44 0 0 0 1 1 19 1 48 1 0 0 1 0 120 0 72 0 1 0 1 0 24 1 42 0 0 0 1 0 2 1 63 1 0 1 1 0 120 0 55 0 1 1 0 0 12 1 39 0 0 0 1 0 5 1 44 0 0 0 1 0 120 0 42 1 1 1 0 0 120 061 0 1 0 1 0 40 145 1 0 1 1 0 108 038 0 1 0 0 0 24 162 0 0 0 1 0 16 1;proc phreg;model t*y(1)=x1-x6/*定义模型,以t为时间变量,y为截尾变量,变量值1表示截尾数据,x1-x6为危险因素*//selection=stepwisesle=0.05sls=0.05;run;五:判别和聚类分析5.1判别分析data ex18_4;input x1-x4 g; /*确定变量名称,x1-x4为用于进行判别分析的指标,g为分组变量*/ cards;6.0 -11.5 19 90 1-11.0 -18.5 25 -36 390.2 -17.0 17 3 2-4.0 -15.0 13 54 10.0 -14.0 20 35 20.5 -11.5 19 37 3-10.0 -19.0 21 -42 30.0 -23.0 5 -35 120.0 -22.0 8 -20 3-100.0 -21.4 7 -15 1-100.0 -21.5 15 -40 213.0 -17.2 18 2 2-5.0 -18.5 15 18 110.0 -18.0 14 50 1-8.0 -14.0 16 56 10.6 -13.0 26 21 3-40.0 -20.0 22 -50 3;proc discrim;class g;/*定义分组变量为g*/var x1-x4;/*定义用于分析的指标变量为x1-x4*/run;(结果横向是真实值,竖向的预测值)5.2逐步判别分析data ex18_5;input x1-x4 g;cards;6.0 -11.5 19 90 1-11.0 -18.5 25 -36 390.2 -17.0 17 3 2-4.0 -15.0 13 54 10.0 -14.0 20 35 20.5 -11.5 19 37 3-10.0 -19.0 21 -42 30.0 -23.0 5 -35 120.0 -22.0 8 -20 3-100.0 -21.4 7 -15 1-100.0 -21.5 15 -40 213.0 -17.2 18 2 2-5.0 -18.5 15 18 110.0 -18.0 14 50 1-8.0 -14.0 16 56 10.6 -13.0 26 21 3-40.0 -20.0 22 -50 3;proc stepdisc /*调用stepdisc过程*/slentry=0.2/*确定入选标准为0.2*/slstay=0.3;/*确定剔除标准为0.3*/class g;/*定义分组变量为g*/var x1-x4;/*定义用于分析的指标变量为x1-x4*/run;(筛选出变量后,调用discrim过程对筛选出的变量作判别分析,即先做5.2再做5.1)5.3作样品聚类和指标聚类data ex19_3;input x1-x9;cards;46 25 5 2138 1.68 0.35 8.11 4 4 35 12 20 3510 2.76 1.43 6.84 3 3 52 25 20 2784 2.19 0.54 4.11 3 3 32 7 20 2451 1.93 0.47 11.45 9 6 38 22 0 3247 2.56 0.80 11.68 5 5 51 31 30 3710 2.92 0.37 11.60 2 2 40 9 10 3194 2.51 0.40 11.40 5 5 34 17 20 4658 3.67 0.46 11.35 3 3 50 29 0 5019 3.95 0.47 13.45 10 8 42 20 20 7482 5.89 0.12 13.11 0 0 57 30 15 3800 2.99 0.19 10.76 2 236 15 20 2478 1.95 0.25 10.00 0 037 12 0 3827 3.01 0.82 10.50 4 4 52 32 0 2984 2.35 0.16 11.15 3 3 52 32 10 3749 2.95 0.72 11.45 11 10 42 27 30 4941 3.89 0.73 13.80 7 6 44 27 20 3948 3.11 0.33 13.65 16 14 40 21 5 3360 2.64 0.37 11.40 0 0 38 21 5 2936 2.31 0.69 11.40 1 1 44 27 20 6851 5.39 0.99 12.28 7 6 43 27 0 3926 3.09 0.47 11.95 0 0 26 10 3 4381 3.45 0.52 11.80 7 5 37 18 20 7142 5.62 0.85 11.81 5 5 28 9 20 2612 2.06 0.37 11.65 1 1 25 9 30 2638 2.08 0.78 12.25 1 1 34 14 20 4322 3.40 0.41 15.00 5 5 50 32 20 2862 2.25 0.69 8.80 2 2;proc cluster/*调用cluster过程*/method=average;/*采用类平均法进行聚类*/var x1-x9;/*定义用于分析的指标变量x1-x9*/run;proc treegraphics haxis=axis1 horizontal;/*调用tree过程输出聚类图,并将图横向输出*/ run;/*对各个指标聚类,即对9个变量聚类*/proc varclus;/*调用varclus过程*/var x1-x9;/*定义用于分析的指标变量x1-x9*/run;六、主成分分析和因子分析6.1主成分分析data ex20_1;input x1-x6;cards;92 77 80 95 99 12697 75 77 80 95 12595 80 70 78 89 12075 75 73 88 98 11092 68 72 79 88 11390 85 80 70 78 10372 93 75 77 80 10088 70 76 72 81 10264 70 69 85 93 10570 73 70 87 84 10078 69 75 73 89 9778 72 71 68 75 9675 64 63 76 73 9284 66 77 55 65 7670 64 51 60 67 8858 72 75 62 52 7582 73 40 50 48 6145 65 42 47 43 60;proc princomp;/*调用princomp过程,对6个变量做主成分分析,结果包括主成分累积贡献率,特征向量矩阵*/run;6.2因子分析data ex20_2;input x1-x9;cards;4.34 389 99.06 1.23 25.46 93.15 3.56 97.51 61.663.45 271 88.28 0.85 23.55 94.31 2.44 97.94 73.334.38 385 103.97 1.21 26.54 92.53 4.02 98.484.18 377 99.48 1.19 26.89 93.86 2.92 99.41 63.164.32 378 102.01 1.19 27.63 93.18 1.99 99.71 80.004.13 349 97.55 1.10 27.34 90.63 4.38 99.03 63.164.57 361 91.66 1.14 24.89 90.60 2.73 99.69 73.534.31 209 62.18 0.52 31.74 91.67 3.65 99.48 61.114.06 425 83.27 0.93 26.56 93.81 3.09 99.48 70.734.43 458 92.39 0.95 24.26 91.12 4.21 99.76 79.074.13 496 95.43 1.03 28.75 93.43 3.50 99.10 80.494.10 514 92.99 1.07 26.31 93.24 4.22 100.00 78.954.11 490 80.90 0.97 26.90 93.68 4.97 99.77 80.533.53 344 79.66 0.68 31.87 94.77 3.59 100.00 81.974.16 508 90.98 1.01 29.43 95.75 2.77 98.72 62.864.17 545 92.98 1.08 26.92 94.89 3.14 99.41 82.354.16 507 95.10 1.01 25.82 94.41 2.80 99.35 60.614.86 540 93.17 1.07 27.59 93.47 2.77 99.80 70.215.06 552 84.38 1.10 27.56 95.15 3.10 98.63 69.234.03 453 72.69 0.90 26.03 91.94 4.50 99.05 60.424.15 529 86.53 1.05 22.40 91.52 3.84 98.58 68.423.94 515 91.01 1.02 25.44 94.88 2.56 99.36 73.914.12 552 89.14 1.10 25.70 92.65 3.87 95.52 66.674.42 597 90.18 1.18 26.94 93.03 3.76 99.28 73.813.05 437 78.81 0.87 23.05 94.46 4.03 96.223.94 477 87.34 0.95 26.78 91.784.57 94.28 87.344.14 638 88.57 1.27 26.53 95.16 1.67 94.50 91.673.87 583 89.82 1.16 22.66 93.43 3.55 94.49 89.074.08 552 90.19 1.10 22.53 90.36 3.47 97.88 87.144.14 551 90.81 1.09 23.06 91.65 2.47 97.72 87.134.04 574 81.36 1.14 26.65 93.74 1.61 98.20 93.023.93 515 76.87 1.02 23.88 93.82 3.09 95.46 88.373.90 555 80.58 1.10 23.08 94.38 2.06 96.82 91.793.62 554 87.21 1.10 22.50 92.43 3.22 97.16 87.773.75 586 90.31 1.12 23.73 92.47 2.07 97.74 93.893.77 627 86.47 1.24 23.22 91.17 3.40 98.98 89.80;proc factor/*调用factor过程*/n=4;/*确定因子数为4,如果不写就默认为3*/run;proc factorn=4rotate=quartimax;/*因子旋转的方法为四次方最大正交旋转*/run;七、典型相关分析(具体解释看ppt“SAS-典型相关分析(可以先上本章_再上对应分析)”)data ex21_1;input x1-x4 y1-y4;cards;1210 120.7 23.4 59.8 11.3 67.6 1.92 2.71 1040 121.2 22.9 59.0 10.1 66.5 1.92 2.60 1620 121.5 24.6 59.5 9.5 67.8 1.95 2.64 1690 122.5 24.4 60.7 11.0 69.2 2.08 2.64 1150 122.7 27.2 64.5 10.5 69.1 2.19 2.84 1150 123.2 20.0 56.1 10.4 59.3 1.83 2.61 1460 123.3 24.9 58.4 10.5 69.0 2.01 2.72 1190 123.4 21.8 59.0 10.6 67.4 1.90 2.71 1840 123.9 23.5 60.2 9.6 67.1 2.00 2.84 1250 124.5 25.2 63.0 11.2 67.8 2.05 2.78 1480 124.8 22.3 58.1 10.7 67.9 2.05 2.73 1310 124.9 22.0 58.0 10.5 67.8 1.98 2.68 1660 125.3 24.7 60.0 10.8 69.3 1.95 2.80 1580 125.6 22.8 59.0 9.4 69.1 2.00 2.65 1460 125.8 25.7 61.0 10.2 69.6 1.95 2.70 1240 126.0 30.2 68.0 9.2 67.1 2.14 2.88 1100 126.2 25.2 60.5 9.8 68.4 1.98 2.72 1250 126.8 23.6 58.5 10.2 67.5 1.94 2.74 1270 127.1 23.0 57.7 10.8 69.8 1.90 2.78 1300 127.6 24.3 59.0 10.3 67.9 1.93 2.84 1350 127.7 24.1 60.0 11.0 69.7 2.03 2.77 1250 128.3 21.6 55.5 10.4 68.5 1.83 2.70 1720 128.5 27.1 62.0 11.4 71.2 2.03 2.75 1480 128.5 22.6 57.4 10.0 67.3 2.04 2.83 1380 129.4 24.9 60.5 11.5 69.8 2.04 2.76 1170 129.0 26.7 63.7 9.6 67.4 2.13 2.98 1640 129.8 26.1 62.0 9.8 71.0 2.00 2.84 1640 131.6 28.7 62.8 9.7 70.7 1.89 2.89 1150 130.2 25.0 58.6 10.5 71.8 1.96 2.78 1430 130.5 26.1 60.7 10.8 68.6 2.05 2.77 1150 130.6 23.4 54.4 11.8 69.2 1.96 2.78 1150 131.4 25.5 63.2 10.2 70.4 2.05 2.84 1320 131.6 25.6 58.9 10.9 70.2 2.06 2.86 1360 131.7 27.4 62.0 10.9 73.5 1.99 2.70 1460 132.0 26.3 61.5 11.1 71.2 2.17 2.13 1380 132.2 25.7 61.4 10.1 70.1 1.96 2.83 1300 132.5 24.5 57.0 10.8 71.8 2.02 2.84 1220 132.7 27.0 61.3 10.1 72.2 2.08 2.80 1320 132.9 25.2 60.5 11.2 73.1 2.01 2.73 1910 133.1 30.1 67.0 9.0 87.1 2.15 2.97 1800 133.5 26.5 62.5 9.8 71.7 2.07 2.82 1560 133.6 24.8 58.5 10.3 72.2 1.93 2.79 1840 134.0 26.0 60.5 10.4 73.0 1.98 2.741590 134.4 25.5 60.7 9.6 69.9 1.99 2.81 1430 134.1 26.6 63.0 11.2 72.2 2.06 2.90 1760 134.6 32.5 66.0 9.9 87.4 2.61 2.98 1470 135.3 27.9 61.8 10.1 73.3 2.20 2.78 1580 135.6 28.1 65.8 9.8 73.1 2.05 2.89 1580 136.5 28.2 62.0 11.8 72.9 2.17 2.92 1840 137.1 27.6 62.8 9.5 72.4 2.11 2.91 1810 137.4 28.3 62.5 9.4 74.2 2.06 3.00 1850 138.1 29.5 62.4 9.7 72.3 2.12 4.02 2120 140.0 34.9 68.8 9.5 87.9 2.74 4.15 1760 140.7 32.0 64.4 10.2 74.0 2.17 4.05 1800 141.0 32.5 63.8 9.5 88.2 2.65 4.08 1260 141.7 29.1 65.0 9.7 88.2 2.68 2.90 1860 142.4 19.3 70.0 10.1 89.6 2.71 4.06 1800 144.7 27.0 58.3 10.8 74.8 2.10 2.82 1470 136.8 26.3 61.4 10.0 72.2 2.07 2.93 1260 121.1 22.9 59.0 10.6 66.3 2.05 2.76 1570 132.7 25.3 58.6 11.5 73.6 2.16 2.78 1290 125.0 25.7 60.5 10.1 68.8 2.00 2.69 1580 133.2 27.3 60.7 9.6 71.7 2.11 2.85 1690 132.8 28.6 64.7 9.6 72.9 2.19 4.08 1670 131.6 25.4 59.7 10.6 69.8 2.14 2.76 1300 133.1 25.9 58.0 10.1 69.7 2.12 2.83 1610 134.0 25.8 59.6 9.4 70.8 2.10 2.88 1580 134.3 26.3 61.2 10.2 72.2 2.14 2.84 1570 129.1 27.7 62.2 11.1 72.9 2.09 2.93 1660 140.1 32.1 67.0 9.3 87.1 2.15 4.03 1040 132.6 27.9 62.0 10.3 72.5 2.08 2.81 1290 128.3 23.6 58.5 9.3 69.0 1.97 2.76 1980 145.8 34.5 68.0 9.8 89.7 2.68 4.25 1210 133.3 25.6 61.5 9.9 71.0 2.11 2.82 1300 134.3 25.6 61.0 10.5 73.2 2.02 2.83 1310 138.1 27.8 61.2 9.9 73.5 2.09 2.78 1590 135.6 25.9 59.6 9.6 72.8 2.10 2.91 1270 128.3 24.1 58.5 10.3 69.2 1.92 2.77 1310 129.7 24.7 61.7 10.1 69.4 2.03 2.80 2280 143.6 37.6 70.0 9.7 88.8 2.17 4.18 1580 136.6 32.3 67.2 10.3 87.1 2.66 4.04 2370 147.4 38.8 73.0 10.8 90.7 2.82 4.38 ;proc cancorr;/*调用cancorr过程*/var x1-x4;/*定义一组变组变量*/with y1-y3;/*定义另一组变量*/。
武汉大学SAS复习整理全10页word文档
一、数据集的建立2.用INSIGHT创建数据集1)启动SAS INSIGHT模块,在“SAS INSIGHT:Open”对话框的”逻辑库“列表框中,选定库逻辑名2)单击“新建”按钮,在行列交汇处的数据区输入数据值(注意列名型变量和区间型变量,后面方差分析、相关性分析等都要注意!)3)数据集的保存:“文件” →“保存” →“数据” ;选择保存的逻辑库名,并输入数据集名;二、基本统计分析1.用INSIGHT计算统计量1)在INSIGHT中打开数据集在菜单中选择“Solution(解决方案)”→“Analysis(分析)”“Interactive Data Analysis(交互式数据分析)”,打开“SAS/INSIGHT Open”对话框,在对话框中选择数据集,单击“Open(打开)”按钮,即可在INSIGHT中打开数据窗口2)选择菜单“Analyze(分析)”→“Distribution (Y)(分布)”,打开“Distribution (Y)”对话框。
在数据集的变量列表中,选择分析变量X、分组变量Y。
(注意:分组变量就是那种可以区别不同种类的变量,例如地区编号、科目、组号等等,而分析变量一般是需要分析的数据,例如成绩,身高书目)3)单击“Output(输出)”按钮,在打开的对话框中包含描述性统计量选项。
4)选择选项矩统计量和分位数,取消默认的选项:“Box Plot/Mosaic Plot”和“Histogram/Bar Chart”,单击“OK”按钮,即可得到变量按分组的各种矩统计量(Moments)和分位数(Quantiles)2.]用“分析家”计算统计量1)启动“分析家”选择主菜单“Solutions(解决方案)”→“Analysis(分析)”→“Analyst(分析家)”,打开“分析家”窗口。
选择主菜单“File(文件)”→“按SAS名称打开”,打开“选择成员”对话框,选择数据集。
2)通过Summary Statistics菜单计算描述性统计量选择主菜单“Statistics(统计)”→“Descriptive(描述性统计)”→“Summary Statistics(汇总统计量)”,打开“Summary Statistics”对话框,选择变量列表中分析变量,单击“Analysis”按钮,选定分析变量单击“Statistics”按钮,打开“Summary Statistics:Statistics”对话框。
SAS备课笔记_第三部分_描述统计分析
目录一、描述性分析的分类_______________________________________________ 2(一)数据分类_________________________________________________________ 2(二)定量数据的描述性分析_____________________________________________ 3(三)定性数据的描述性分析_____________________________________________ 4(四)例题的数据说明___________________________________________________ 4二、SAS实现-程序___________________________________________________ 5(一)means过程_______________________________________________________ 5(二)summary过程_____________________________________________________ 7(三)univariate过程 ____________________________________________________ 9(四)tabulat过程______________________________________________________ 13(五)四个过程的比较__________________________________________________ 14(六)freq过程________________________________________________________ 14(七)capability过程___________________________________________________ 16(八)gchart过程 ______________________________________________________ 18(九)gplot过程 _______________________________________________________ 20三、SAS实现-图形界面______________________________________________ 21(一)SAS/ASSIST _____________________________________________________ 21(二)SAS/ANALYST(分析家)_________________________________________ 22(三)SAS/INSIGHT(交互式数据分析)__________________________________ 23(四)三种方法比较____________________________________________________ 23第三部分数据的描述性分析描述性统计分析(Descriptive Statistics )是基础统计分析(Elementary Statistics),是综合统计分析(Summary Statistics)。
sas试题课笔记一.doc
/●宏编程技术●/●怎样显示宏变量的值?解释下面的程序;/●注意在解释程序时每一句需要解释且结果要解释●/data_null_; /●通过数据步处理数据,但不建立数据集●/%let a=first; /●建立宏变量a,值为first●/%let b=macro variable; /●用宏程序语句%let定义宏变量,一个%let语句只能定义一个宏变量;%put &a !!! &b !!!; /●‘&宏变量名’引用宏变量的值;%put语句显示宏变量的值,将文本输出到 SAS的日志窗口;/●在log窗口输出 first !!! macro variable !!!●/ run; /●提交程序●/●答 %put是显示宏变量最简单的方法;/●9——解释并调用下面一段宏●/%macro names(name, number); ●定义含参数的宏,宏参数是一种特殊的宏变量;%do n=1%to &number; /●利用宏循环语句循环生成一系列字符串,循环宏变量n从1到&number●/&name&n /●调用宏变量name和宏变量n,生成字符串●/%end; /●结束宏循环语句●/%mend names; /●结束宏names的定义●/%names(sas,6); /●调用宏names●//●11.在数据步中变量x的值赋于给宏变量A时这两种程序都可以吗●/call symput('A',x); ●将变量的值赋于宏变量,一个子程序只能将一个变量的值赋于宏变量;%let A=x; ●%let语句定义的是宏变量的值,调用宏变量A时,相当于调用了字符串x;●答:不可以,应该用call symput('A',x)%let定义的宏变量,其值为赋值符号后面的字符串'X',不会进行变量运算;data a;set data.class nobs=nobs;call symput ('b',nobs);%let a=nobs;%put &a &b; ●从下面的日志窗口的结果可以看出宏变量a的值被定义为字符串‘nobs’而宏变量b的定义为变量nobs的值; run;/● data a;26 set data.class nobs=nobs;27 call symput ('b',nobs);28 %let a=nobs;29 %put &a &b;nobs 1930 run;NOTE: 数字值已转换为字符值,位置:(行:列)。
2023年sas分析方法笔记
Proccorrdata=数据集;
Var变量名变量名;
Run;
结果:
简朴记录量
相关系数及p值
3.8gplot过程:绘制散点图和曲线图,绘制回归曲线。
Procgplotdata=数据集名称;
Symbol曲线类型;
Plot竖轴变量*横轴变量;
Run;
Procgplotdata=sasuser.score;
2.3生成报表: Report→Tables
2.4变量计算: Date→Transform
2.5绘制记录图
2.5.1条形图: Graph→BarChart→Horizontal
2.5.2饼图: Graph→PieChart
2.5.3直方图: Graph→Histogram
2.5.4概率图: Graph→Probalityplot
2.7.6成对样本均值t检查:成对样本检查中总体是相关的。
Statistics→Hypothesistests→Two-Samplepairedt-testformeans
2.7.7两样本比例检查:检查两个总体中某个比例的值是否相等。
Statistics→Hypothesistests→Two-Sampletestforproportions
Procmeansdata=sasuser.stock;
Varprice;
Run;
3.5univariate过程
Procunivariatedata=数据集;
Var分析变量;
Run;
结果:
Moments:记录量的各阶矩,例如一阶矩就是均值,二阶矩就是方差等;
BasicStatisticalMeasures:基本记录量;
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第1章SAS基础1.SAS工作界面与方式2.常用工作模块–VIEWTABLE模块✧Viewtable第一行显示变量的标签–初识INSIGHT模块✧表格的列称为变量,表格的行称为观测✧变量分为:字符型和数值型(按变量的测量水平可分为:区间型变量和列名型变量)–初识“分析家”3.SAS文件的管理方式✧逻辑库(临时+永久)✧数据集(描述部分+数据部分-变量、观测)4.数据集的建立5.SAS编程初步第2章SAS的描述统计功能• 2.1 描述性统计的基本概念总体:总体是指所研究对象的全体组成的集合。
样本:样本是指从总体中抽取的部分对象(个体)组成的集合。
样本中包含个体的个数称为样本容量。
参数:参数是用来描述总体特征的概括性值。
统计量:统计量使用来描述样本特征的概括性值。
–表示数据位置的统计量✧均值:所有观测值得平均值,是描述数据取值中心位置的一个度量。
✧中位数:中位数是描述观测数据中心位置的统计量,大体上其数据大小为观测值的一半。
优点是不受个别极端数据的影响。
✧众数:观测值中出现最多的数称为众数。
✧百分位数:分位数也是描述数据分布和位置的统计量。
–表示数据分散程度的统计量✧极差与半极差:极差就是数据中的最大值和最小值之间的差。
半极差是上下四分位数之差,描述了中间半数观测值得散布情况。
✧方差与标准差:反映数据对其均值中心的某种离散程度。
✧变异系数:将标准差表示为均值的百分数。
–表示数据分布形状的统计量✧偏度:刻画数据对称性的指标。
(均值对称时为零,左侧数据分散时为负,右侧时为正)✧峰度:描述数据向分布尾端散布的趋势。
(标准正态分布时为零,尾部较正态分布分散时为正,集中时为负)–正态分布• 2.2 在SAS中计算统计量• 2.3 统计图形(定量变量和分类变量的图形表示)–什么类型数据适合用什么图形定量变量:✧直方图数值型变量展示变量取值的分布可以估计总体的概率密度,组距对直方图的形态影响很大。
可以看出数据分布的疏密。
✧盒形图简洁地表现数据在数轴上的分布及其特点中间横线是数据的中位数。
封闭盒子的上下两横线(边)分别为上、下四分位数(点)。
盒子的长度是分布的四分位间距。
类似标准差触须线最长可以延伸到四分位间距的1.5倍。
异常点考虑剔除可以大体看出数据集中在什么范围,上下两侧是否对称。
常将分类数据的若干个盒形图放在一个图中比较。
✧散点图得到的数据有两个变量,希望了解两个变量的关系回归分析✧线图表示变量间的取值变化情况,有单式和复式两种。
常用来描述变量与时间变量的关系。
分类变量:✧条形图——给出分类变量取每个值的频数。
✧饼图——对分类变量描述其频数取值的比例。
✧马赛克图——针对两个以上分类变量。
直观显示两个以上变量每种取值组合的观测个数和比例。
• 2.4 用SAS绘制统计图形–图形结果的查看–过程步语句实现制图✧Gchart、Gplot、第3章区间估计与假设检验1、假设检验的理论依据✧对总体参数进行假设检验时,首先要给定一个原假设H0,H0是关于总体参数的描述,与此同时存在一个与H0相对立的备选假设H1,H0与H1有且只有一个成立;经过一次抽样,若发生了小概率事件(通常把概率小于0.05的事件称为小概率事件),可以依据“小概率事件在一次试验中几乎不可能发生”的理由,怀疑原假设不真,做出拒绝原假设H0,接受H1的决定;反之,若小概率事件没有发生,就没有理由拒绝H0,从而因做出拒绝H0的决定。
2、均值比较的T检验的一般步骤✧1、根据问题确立原假设H0和备选假设H1;✧2、确立一个显著水平α,它是衡量稀有性(小概率事件)的标准,常取为0.05;✧3、根据SAS计算出的p值,就可以在指定的显著水平下,作出拒绝或者不能拒绝原假设的决定。
–单样本T检验–独立样本T检验(不匹配)–配对样本T检验(成对匹配)3、分布检验✧分布拟合图直方图顶端的形态为折线,而常用的一些分布的密度曲线如正态分布等都是光滑曲线,所谓分布拟合图就是在限定的参数分布类中通过对参数的估计,用估计得到的参数所对应的密度曲线去拟合直方图顶部的形态。
✧QQ图一种散点图,横坐标为标准正态分布的分位数,可以帮助我们方便地鉴别数据的分布是否近似于某种类型的分布。
还可获得分布的偏度和峰值的粗略信息。
要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似的在一条直线附近,该直线的斜率为总体的标准差,截距为总体的均值。
正态性检验第4章相关和回归分析1、什么是相关分析?如何实现相关分析,如何判断是否相关及相关程度.✧变量之间的关系有函数关系和相关关系,其中相关关系是指变量间的某种非确定的依赖关系。
寻找变量间相关关系的规律称为相关分析。
✧相关分析就是对变量之间的相关关系进行描述与度量,简单相关分析通常指对两变量见相关关系的研究。
✧方法:散点图:直观地看出变量之间的关系形态及关系强度。
相关关系的表现形态大体上可分为线性相关(变量之间的关系近似地表现为一条直线)、非线性相关(变量之间的关系近似地表现为一条曲线)、完全相关(各观测点落在一条曲线上——函数关系)和不相关(观测点分散无规律)等几种。
相关系数:准确度量两个变量之间的关系密切程度。
置信椭圆:若两变量不相关,椭圆应为圆;拉长的椭圆为相关。
椭圆的长短轴之比可衡量相关的强度。
✧相关分析的显著性检验:t分布检验2、回归分析✧考察变量之间的数量伴随关系,用于解决预测和控制✧目的是根据所建立的回归方程,用自变量的值估计或预测因变量的值。
但方程是根据样本数据得出的,所以是否真实需要检验。
✧显著性检验包括:回归方程的检验、回归系数的检验。
●insight线性回归的实现一元、多元●分析家下线性回归的实现一元、多元●用REG过程线性回归的实现✧(见最后)第5章方差分析✧方差分析是检验多个总体均值是否相等的一种统计方法。
研究分类变量(因素)对数值型变量(指标)的影响。
✧找出有显著影响因素的最好水平的方法:通过检验各总体的均值是否相等,来判断分类型自变量对数值型因变量(响应变量)是否有显著影响。
✧目的就是在H0(μ1=μ2=…=μk)成立的条件下,通过分析各处理组均数之间差别大小,推断k个总体均数间有无差别,从而说明处理因素的效果是否存在。
✧总变差=组间差别+组内误差1、方差分析中的有关概念✧因子/因素:影响因变量的、可控制的定性变量或离散变量(影响分析变量的因素)✧水平:各因素具有的表现(因素的不同取值)✧因变量:待分析的变量✧组间方差:水平间的方差,即组间离均差平方和除以自由度k-1,其中k为水平数。
它既包括系统性因素,也包括随机性因素。
✧组内方差:水平内部方差,即组内离均差平方和除以自由度n-k,其中n为样本容量。
仅包括随机性因素。
✧方差分析适合解决哪一类问题:•两个或多个样本均数间的比较;•分析两个或多个因素间的交互作用;•回归方程的线性假设检验;•多元线性回归分析中偏回归系数的假设检验;•两样本的方差齐性检验等。
✧方差分析的基本思想:•将总方差分解为由于随机抽样引起的差异(个体间差异,随机误差)和由于研究因素所造成的差异(系统误差)两部分,然后比较这两部分差异在总方差中所占的比重。
两者差别不大,说明试验条件的变化(因素水平的不同)对试验结果影响不大;如果两者相差较大,且系统误差大的多,说明系统条件变化引出的误差不可忽视。
3、单因素方差分析的实现结果解读3、什么情形需进一步做多重比较✧在方差分析中,不论是单因素或多因素的分析结果,都是检验关于参数的一个整体的假设。
若原假设被拒绝,表明某个因素各个水平下的响应有显著差异或因素间存在交互影响,但并不了解某两个水平下的响应是否有差异。
所以在方差分析后,还常需要对各水平下响应变量的均值进行估计和比较。
第8章聚类分析1、什么是聚类分析✧聚类分析实际上是要建立一种分类方法,它将样品或变量按照其性质上的亲疏、相似程度进行分析。
2、如何用过程步实现聚类分析(CLUSTER)✧Proc cluster data=mylib.nm10 standard method=ward✧Outtree=otree pseudo;✧Copy group;✧Run;3、绘制谱系聚类图(TREE)✧Proc tree data=otree horizontal;✧Id group;✧Run;过程步进行单样本总体均值的假设检验✧proc ttest h0=70 alpha = 0.01 data=sjcj;✧var A;✧run;过程步配对两样本均值的假设检验✧proc ttest data=sjcj;✧paired A*B;✧run;过程步计算描述性统计量✧Proc means data=aa n mean median q1 q3 max min;✧Var income;✧Run;过程步进行正态性检验✧Proc univariate data=aa normal;✧Var weight;✧Run;过程步进行假设检验✧Proc ttest data=aa;✧Class g;✧Var f;✧Run;过程步进行回归分析(REG过程)✧Proc reg data=aa;✧Var y x1 x2 x3;✧Model y=x1 x2 x3;✧Run;✧Model y=x1 x2 x3/selection=stepwise;✧Run;。