SAS笔记第七章,相关与回归分析
sas回归分析
sas回归分析数据预处理->数据探索->模型选择->残差检验、共线性争端,强影响点判断->模型修正(否->模型选择,是->模型预测)⼀:数据预处理⼆:数据探索看y是否服从正态分布(PP图)proc univariate data=reg.b_fitness;var Runtime -- Performance;histogram Runtime -- Performance / normal; /*主要从统计指标上⾯看*/probplot Runtime -- Performance /normal (mu=est sigma=est color=red w=2);/*主要从图形来看*/run;看x的离散程度(散点图)看y与x的相关系数(散点图,R^2)proc gplot data=reg.b_fitness;plot Oxygen_Consumption *(Run_PulseRest_PulseMaximum_PulsePerformanceRuntimeAgeWeight);symbol v=dot color=red;run;quit;proc corr data=reg.b_fitness;var Run_Pulse Rest_Pulse Maximum_Pulse Performance Runtime Age Weight;with Oxygen_Consumption;run;三:模型选择CP法(全模型法)功能:在特定的模型⼤⼩范围内,找出指定的最佳模型(具有最⼩CP)BEST=N 表⽰在不同的变量个数组成的模型中,选择N个最好的模型,所有组合数为[2^(变量个数)-1]在由1个⾃变量组成的模型中选N个最好的在由2个⾃变量组成的模型中选N个最好的。
在由M(总共变量的个数)个⾃变量组成的模型中选N个最好的总共会选M*N个模型这⾥统计量为Cp,建议是Cp<=p ,p是所有变量个数加1逐步法向前回归法特点:和变量进⼊的顺序有很⼤关系,如果第⼀个进来的变量的解释效应过⼤,很可能造成后进的变量进不来模型引⼊第⼀个变量进⼊⽅程,对整个⽅程进⾏F检验,并对单个回归系数进⾏T检验,计算残差平⽅和Se1,如果通过检验则保留,否则剔除引⼊第⼆个变量进⼊⽅程,对整个⽅程进⾏F检验,并对单个回归系数进⾏T检验,计算残差平⽅和Se2,那么Se1>Se2,称Se1-Se2为第⼆个变量的偏回归平⽅和,如果该值明显偏⼤,则保留,说明其对因变量有影响,否则剔除。
SAS学习系列21. 相关分析
21. 相关分析相关分析和回归分析是研究变量与变量间相互关系的重要方法。
相关分析是研究两个或两组变量之间的线性相关情况,回归分析是拟合出变量间的表达式关系。
(一)Pearson直线相关一、适用于两个变量均为服从正态分布,每对数据对应的点在直角坐标系中(即散点图)呈现直线趋势。
做相关分析时,要注意剔除异常值;相关关系不一定是因果关系。
二、用相关系数r∈[-1,1]来表示相关程度的大小:r>0: 正相关;r<0: 负相关;r=0: 不相关;r=1: 完全正相关;r=-1: 完全负相关。
相关程度的判断标准:看相关系数的平方r2,若r2<0.5,结果无实际价值。
注:相关系数只是刻画直线相关(Y=X2相关系数≠1)。
三、假设检验1. H0: 总体相关系数ρ=0;H1: ρ≠0;计算r值,P值,若P值≤α,则在显著水平α下拒绝H0;2. 若H0成立,从ρ=0的总体中抽样,所得到的样本相关系数r 呈对称分布(近似正态分布),此时可用t 检验。
3. 必要时对相关系数做区间估计从相关系数ρ≠0的总体中抽样,样本相关系数的分布是偏态的。
用Z变换后,服从某种正态分布,估计z,再变换回r.(二)Spearman等级相关,也称Spearman秩相关对于不符合正态分布的资料,不用原始数据计算相关系数,而是将原始观察值由小到大编秩,然后根据秩次来计算秩相关系数r s, 以此来说明两个变量间相关关系的密切程度。
适用于某些不能准确地测量指标值而只能以严重程度、名次先后、反映大小等定出的等级资料;也适用于某些不呈正态分布或难于判断分布的资料。
关于编秩将各X i由小到大编秩得R Xi(1,…n),当遇到相等的值时要用平均秩,例如X2=X4,按编秩为3和4,应该取平均秩R x2=R x4=(3+4)/2=3.5假设检验H0: 总体相关系数ρs=0;H1: ρs≠0;计算r值,P值,若P值≤α,则在显著水平α下拒绝H0;另外,Kendall等级相关系数τ∈[-1,1],也可以对两个变量作等级相关分析,而且可对多个变量作等级相关分析。
第7章SAS统计相关与回归分析
第7章SAS统计相关与回归分析相关与回归分析是SAS统计的重要方法之一,用于研究变量之间的关系以及预测和解释变量的变化。
本文将介绍相关与回归分析的基本概念、方法和SAS的实现步骤。
相关分析是一种用来衡量两个或多个变量之间关系强度的统计方法。
它可以通过计算相关系数来量化这种关系。
相关系数的取值范围在-1到1之间,其中1表示完全正相关,-1表示完全负相关,0表示没有相关性。
常用的相关系数有皮尔逊相关系数和斯皮尔曼相关系数。
皮尔逊相关系数用于度量两个连续变量之间的线性关系,而斯皮尔曼相关系数则适用于度量有序变量之间的非线性关系或连续变量之间的非线性关系。
回归分析则是用来建立和预测两个或多个变量之间关系的方法。
它可以通过构建回归模型来找到自变量与因变量之间的最佳拟合线。
常用的回归模型有简单线性回归和多元线性回归。
简单线性回归是指只有一个自变量与一个因变量之间的关系,而多元线性回归则指有多个自变量与一个因变量之间的关系。
回归模型的好坏可以通过R方值来评估,其值越接近1表明模型的拟合度越好。
在SAS中进行相关与回归分析需要使用PROCCORR和PROCREG两个过程。
PROCCORR用于计算相关系数,而PROCREG则用于建立和拟合回归模型。
首先,我们使用PROCCORR过程计算相关系数。
以下是SAS代码示例:```proc corr data=dataset;var variable1 variable2;run;```其中,dataset代表数据集的名称,variable1和variable2代表需要计算相关系数的变量。
运行以上代码后,SAS会输出皮尔逊相关系数和斯皮尔曼相关系数的结果。
接下来,我们使用PROCREG过程进行回归分析。
以下是SAS代码示例:```proc reg data=dataset;model dependent = independent1 independent2;run;```其中,dependent代表因变量,independent1和independent2代表自变量。
SAS整理下之相关分析和回归分析
SAS整理下之相关分析和回归分析相关分析1.⽤INSIGHT模块作相关分析先说⼀下建⽴数据集,找到题中的某句话的意思是,“为了弄清楚。
形成的原因,或者是为了分析。
的影响因素。
”找到这句话就成功⼀半了,将这个。
元素就写到Y的列下,其他的元素就设成X1 X2。
这样,有⼏个元素就⼏列,但是Y只有⼀列,⽽X就看题中给得了!!1. 制作散点图⾸先制作变量之间的散点图,以便判断变量之间的相关性。
步骤如下:1) 在INSIGHT模块中,打开数据集;2) 选择菜单“Analyze(分析)”→“Scatter Plot (Y X)(散点图)”;3) 在打开的“Scatter Plot (Y X)”对话框中选定Y变量:Y;选定X变量:x1、x2、x3、x4;4) 单击“OK”按钮,得到变量的分析结果。
从各散点的分布情况看,初步有⼀个跟每个元素的线性关系密切或不密切就⾏了。
2. 相关系数计算1) 在INSIGHT模块中,打开数据集;2) 选择菜单“Analyze(分析)”→“Multivariate (Y X)(多变量)”;3) 在打开的“Multivariate (Y X)”对话框中选定Y变量:Y;选定X变量:x1、x2、x3、x4;4) 单击“OK”按钮,得到分析结果。
结果显⽰各变量的统计量和相关(系数)矩阵,从相关矩阵中可以看出,相关系数⾼的就关系密切,相关系数低的就关系不密切。
5) 为了检验各总体变量的相关系数是否为零,选择菜单:“Tables”→“CORR p-values”,得到相关系数为零的原假设的p值,如图所⽰。
基于这些p值,拒绝原假设,即Y因素与其他⼏个变量之间均存在着显著的正相关关系;若p值>0.05,则⽆法拒绝原假设。
3. 置信椭圆继续上述步骤。
6) 选择菜单:“Curves”→“Scatter Plot Cont Ellipse”→“Prediction:95%”,得到Y与其他⼏个变量的散点图及预测值的置信椭圆变量Y和x1间散点图上的这个椭圆被拉得很长,表明变量Y和x1之间有很强的相关性。
sas第7章
SAS 统计分析与应用 从入门到精通
6、GLM过程 、 过程
二、多元线性回归
GLM过程用来分析符合一般线性模型(General Linear Modeling) 的数据,利用该过程也可以实现一元线性回归和多元线性回归,其语句 格式为: PROC GLM DATA=数据集名 <选项>; MODEL 因变量名=自变量名列表 </选项>; BY 分组变量名; RUN; 其中,PROC语句和MODEL语句是必须的,其他语句可以根据用 户需要进行选用。
SAS 统计分析与应用 从入门到精通
1、可化为线性的曲线回归 、
三、曲线回归
由于曲线回归没有固定的模型和方法,因而很难进行处理和分析。但 是对于一些基本的曲线模型,我们可以通过变换将它们转化为线性模型, 继而利用线性回归的方法进行分析。
SAS 统计分析与应用 从入门到精通
2、REG 过程 、
三、曲线回归
2、模型的检验 、
一、一元线性回归
SAS 统计分析与应用 从入门到精通
2、模型的检验 、
一、一元线性回归
SAS 统计分析与应用 从入门到精通
3、利用回归方程进行预测 、
一、一元线性回归
SAS 统计分析与应用 从入门到精通
4、REG过程 、 过程
一、一元线性回归
REG过程是SAS系统中提供的用于一般线性回归的过程,通过此 过程可以实现一元回归分析,包括模型的建立和检验等。REG过程中 有很多的语句和选项,其中用于一元回归的基本语句格式为: PROC REG DATA=数据集名 <选项>; MODEL 因变量名=自变量名 </选项>; PLOT 纵轴变量名*横轴变量名 <=符号> </选项>; BY 分组变量名; RUN; 其中,PROC语句和MODEL语句是必须的,其他语句可以根据用 户需要进行选用。
SAS备课笔记_简单线性回归、多元线性回归
回归分析-简单线性回归、多元线性回归比较:方差分析是处理试验数据的一类统计方法。
这类统计方法的特点是所考察的指标(因变量)Y 是测量得到的数值变量(连续变量),而影响指标的因子(自变量)水平是试验者安排的几个不同值(称这种因子为分类变量或离散变量)。
试验的目的是找出影响指标的主要因子及水平。
在实际问题中,还经常遇到这样一些数据,它们不是有意安排的试验得到的数据,而是对生产过程测量记录下来的数据。
对它们进行分析,目的是想找出对我们所关心的指标(因变量)Y 有影响为因素(也称自变量或回归变量)m x x x ,......,,21,并建立用m x x x ,......,,21预报Y 的经验公式。
对于现实世界,不仅要知其然,而且要知其所以然。
顾客对商品和服务的反映对于商家是至关重要的,但是仅仅有满意顾客的比例是不够的,商家希望了解什么是影响顾客观点的因素,以及这些因素是如何起作用的。
类似地,医疗卫生部门不能仅仅知道某流行病的发病率,而且想知道什么变量影响发病率,如何影响发病率的。
发现变量之间的统计关系,并且用此规律来帮助我们进行决策才是统计实践的最终目的。
一般来说,统计可以根据目前所拥有的信息(数据)来建立人们所关心的变量和其他有关变量的关系。
这种关系一般称为模型(model )。
假如用Y 表示感兴趣的变量,用X 表示其他可能与Y 有关的变量(x 也可能是若干变量组成的向量)。
则所需要的是建立一个函数关系Y=f(X)。
这里Y 称为因变量或响应变量(dependent variable, response variable ),而X 称为自变量,也称为解释变量或协变量(independent variable ,explanatory variable, covariate)。
建立这种关系的过程就叫做回归(regression )。
一旦建立了回归模型,除了对各种变量的关系有了进一步的定量理解之外,还可以利用该模型(函数或关系式)通过自变量对因变量做预测(prediction )。
SAS的相关与回归多元回归(正式)PPT课件
• 相关分析和回归分析是研究现象之间相关关系的 两种基本方法。所谓相关分析,就是用一个指标 来表明现象间相互依存关系的密切程度。
直线相关分析介绍
• 设有两个变量x和y,变量y随变量x一起变化,并 完全依赖于x,当变量x取某个数值时,y依确定 的关系取相应的值,则称y是x的函数,记为 y = f (x),其中x称为自变量,y称为因变量。各观 测点落在一条线上。
等级相关(秩相关)
• 按以下公式计算Spearman等级相关系数
6 d2
rs
1 n(n2
1)
• rs值界于-1与1之间,rs为正表示正相关,
rs为负表示负相关,rs为零表示为零相关。
样本等级相关系数rs是总体相关系数的估计
值。
例题
• 某省调查了1995年到1999年当地居民18 类死因的构成以及每种死因导致的潜在工 作损失年数WYPLL的构成。以死因构成为
相关系数
• 所谓相关分析,就是分析测定变量间相互依存关系的密 切程度的统计方法。一般可以借助相关系数来进行相关 分析。
• 相关系数是表示两个变量(X,Y)之间线性关系密切程 度的指标,用r表示,其值在-1至+1间。如两者呈正相 关,r呈正值,r=1时为完全正相关;如两者呈负相关则 r呈负值,而r=-1时为完全负相关。完全正相关或负相 关时,所有图点都在直线回归线上;点子的分布在直线 回归线上下越离散,r的绝对值越小。当例数相等时, 相关系数的绝对值越接近1,相关越密切;越接近于0, 相关越不密切。当r=0时,说明X和Y两个变量之间无直 线关系。
回归分析与相关分析
相关分析与回归分析
第11页
根据回归函数的意义,当X取xi时,Y的期望值 应为f(xi),由于随机误差,观察值yi与f(xi)之间有
一定的差距,即:
yi f (xi ) i
i是第i次试验的误差。 对于Y ( y1, y2 , , yn) , X (x1, x2 , , xn )和 (1, 2 , , n ) 有
27 May 2020
相关分析与回归分析
第22页
三、回归方程的检验
1.随机误差 2 的估计
由一元线性回归方程的模型:
yi a bxi i i ~ N (0 , 2 )
Y ~ N (a bx , 2 )
以D剩为基础作为 2的估计是合理的,其估计为
n
n
D剩
2 i
( yi (aˆ bˆxi ))2
27 May 2020
相关分析与回归分析
第8页
第二节 回归分析
一、确定回归函数的思想
要全面地考察两个变量 X、Y 之间的关系,我们就要研究Y 的
条件分布 F (y | X=x ) 随 X 取值 x 的变化情况. 很自然我们会 想到用 F ( y | X=x ) 的数学期望(平均值)来代替它,这样就可 以通过研究 x 与 Y 的条件期望值之间的关系来代表 X 与 Y 之 间的关系. 即:
显著. n个y值的总差异记为D总
n
D总= ( yi y) 2 l yy
程进行预测和控制.
27 May 2020
相关分析与回归分析
第6页
“回归” 一词的历史渊源
“回归”一词最早由Francis Galton引入。英国著
名人类学家Franics Galton(1822-1911)于1885年在
sas回归分析
X
16
相关分析
相关与回归
相关分析量化连续型变量之间
线性相关的强度;
回归分析确定一个连续变量与
另一些连续变量间的相互依赖关 系.
17
相关分析
本节的练习题
对学生数据(CLASS),完成以下练习: (1) 计算AGE,WEIGHT,HEIGHT的相关系数 (2) 绘制WEIGHT与HEIGHT的散点图(男女用不同颜色 表示).
13
相关分析
绘制散点图—PLOT和GPLOT过程
散点图是直观地观察连续变化变量间相依关 系的重要工具。利用编程可绘制两个变量的散 proc plot data=class ; 点图。 或
plot weight*height=‘*’ ; Run ;
Symbol v=star cv=red; proc gplot data=class; plot weight*height ; Run ;
10
相关分析
相关系数(Correlation Coef.)
正相关: 一个变量数值 增加时另一个 变量也增加
负相关: 一个变量数值 增加时另一个 变量减少
11
相关分析
相关系数的计算--CORR过程
PROC CORR DATA=数据集名; RUN; PROC CORR DATA=数据集名; var 变量名列; Corr语句默认返回pearson相关 with 变量名列; 系数和简单描述统计分析,可
n
i 1
( Yi b0 b1 x i ) 2 m in
^
24
一元线性回归分析
回归的方差分解
因变量(Y)
ˆ Y b0 b1 x
自变量(x)
25
SAS实验 相关与回归分析
学生实验报告学生实验报告一、实验目的及要求:1、目的学会和掌握参数估计与假设检验2、内容及要求学会用SAS作总体均值、方差估计,以及单样本均值、方差比例检验,双样本均值、方差、比例的比较和配对样本均值比较检验等操作二、仪器用具:三、实验方法与步骤:步骤一、运行SAS软件,新建各题要用到的数据集;步骤二、新建数据集后,输入analyst命令或在点击解决方案—分析—分析家,进入分析员应用环境;步骤三、在分析员应用环境打开新建的数据集;步骤四、再根据各题要求,点击统计选项来分析。
四、实验结果与数据处理:1.下面是某地一年级的12位女生的体重(kg)和肺活量(L)的数据试求肺活量对体重的回归方程。
体重42 42 46 46 46 50 50 50 52 52 58 58 肺活量2.55 2.2 2.75 2.4 2.8 2.813.41 3.1 3.46 2.85 3.5 3(1)对肺活量和体重进行相关分析。
绘制体重与肺活量的散点图,计算其相关系数。
并对输出结果进行解释。
①将数据保存至EXCEL文件,导入数据,得到数据集;②在INSIGHT环境中调入数据,绘制体重与肺活量的散点图,如图所示。
③在INSIGHT环境中利用多元进行分析,得出体重与肺活量的相关系数。
“单变量统计量”中提供了每个变量的5个统计量,分别为数量、均值、标准差、最小值和最大值。
“相关系数举证”中则提供了变量间的相关系数,体重(weight )和肺活量(pulmonary)的相关系数为0.7495(2)判断体重和肺活量两变量的关系,拟合肺活量对体重的方程,对回归系数进行解释和对回归系数进行检验,绘制残差图。
①用insight 视图下的分析来拟合肺活量对体重的方程;得到简单线性回归方程为 X Y 0588.00004.0+== 对回归系数进行解释和对回归系数进行检验:上表提供模型拟合的汇总度量,肺活量的均值是2.9025 ,模型的5617.02=R ,说明肺活量变异的大约56%可以由体重来说明。
sas各过程笔记描述性统计线性回归logistic回归生存分析判别分析聚类分析主成分分析因子分析
第一部分:基本统计方法注:主要讲述过程:means(描述性统计);freq(算频数表);univariate(检验);anova(方差分析);ttest(检验);glm(广义线性回归);npar1way(非参,wilcox)一:计量资料的统计分析方法1.01均值+频数表+百分位数+正态检验、茎叶图、箱形图、正态概率图data ex2_1;input x@@;low=2.3;dis=0.3;z=x-mod(x-low,dis);cards;3.964.23 4.42 3.595.12 4.02 4.32 3.72 4.76 4.164.61 4.263.774.20 4.36 3.07 4.89 3.97 4.28 3.64 4.66 4.044.55 4.254.63 3.91 4.41 3.525.03 4.01 4.30 4.19 4.75 4.144.57 4.264.56 3.79 3.89 4.21 4.95 3.98 4.29 3.67 4.69 4.124.56 4.264.66 4.28 3.83 4.205.24 4.02 4.33 3.76 4.81 4.173.96 3.274.61 4.26 3.96 4.23 3.76 4.01 4.29 3.67 3.39 4.124.27 3.614.98 4.24 3.83 4.20 3.71 4.03 4.34 4.69 3.62 4.184.26 4.365.28 4.21 4.42 4.36 3.66 4.02 4.31 4.83 3.59 3.973.964.495.11 4.20 4.36 4.54 3.72 3.97 4.28 4.76 3.21 4.044.56 4.254.92 4.23 4.47 3.605.23 4.02 4.32 4.68 4.76 3.694.61 4.263.894.21 4.36 3.425.01 4.01 4.29 3.68 4.71 4.134.57 4.264.035.46 4.16 3.64 4.16 3.76;/*freq语句,算频数表*/proc freq;tables z;run;proc means data=ex2_1n mean std stderr clm;var x;run;data ex2_1;input x f@@;cards;3.07 23.27 33.47 93.67 143.87 224.07 304.27 214.47 154.67 104.87 65.07 45.27 2;run;proc means;freq f;var x;run;/*把freq f改成weight f就是把f当权重或频数来算,f则在0,1之间*//*计算x的95%的置信区间*/proc univariate data=ex2_1;var x;output out=pctpctlpre=ppctlpts=2.5 97.5;run;proc print data=pct;run;/*正态检验、茎叶图、箱形图、正态概率图*/proc univariate data=ex2_1normalplot;var x;run;/*Extreme Observation显示的值是最小的5个极值和最大的5个极值*/1.02几何均值data ex2_5;input x f@@;y=log10(x);cards;10 420 340 1080 10160 11320 15640 141280 2;proc means noprint;/*调用means过程,不显示结果*/var y;freq f;output out=b/*结果输出到数据集b中*/mean=logmean;/*把数据集b中均数的变量名mean改为logmean*/run;data c;/*新建数据集c*/set b;/*调用数据集b*/g=10**logmean;/*计算变量logmean的反对数,该值就是x的几何均数,将该值赋值给变量g*/ proc print data=c;var g;run;/*这个是计算平通平均数的值*/proc means data=ex2_5;var x;freq f;run;1.03已知均值和方差求置信区间-单样本+单样本与总体/*单样本*/data ex3_2;n=10;mean=166.95;std=3.64;t=tinv(0.975,n-1);pts=t*std/sqrt(n);lclm=mean-pts;uclm=mean+pts;proc print;var lclm uclm;run;/*单样本与总体均值*/data ex3_5;n=36;/*样本量*/s_m=130.83;/*样本均值*/std=25.74;/*样本标准差*/p_m=140;/*总体均值*/df=n-1;/*自由度*/t=(s_m-p_m)/(std/sqrt(n));p=(1-probt(abs(t),df))*2;/*根据t值计算p值*/run;proc print;var t p;run;1.06双样本均值相等检验+两组分开+两组一起算+两组样本量不同/*双样本分开算*/data ex3_4;n1=29;n2=32;m1=20.10;m2=16.89;s1=7.02;s2=8.46;ss1=s1**2*(n1-1);ss2=s2**2*(n2-1);sc2=(ss1+ss2)/(n1+n2-2);se=sqrt(sc2*(1/n1+1/n2));t=tinv(0.975,n1+n2-2);lclm=(m1-m2)-t*se;uclm=(m1-m2)+t*se;proc print;var t se lclm uclm;run;/*双样本相减后再算*//*用MEANS作配对资料两个样本均数比较的t检验*/data ex3_6;input x1 x2 @@;d=x1-x2;cards;0.840 0.5800.591 0.5090.674 0.5000.632 0.3160.687 0.3370.978 0.5170.750 0.4540.730 0.5121.200 0.9970.870 0.506;proc means t prt;var d;run;/*用UNIVARIATE过程作配对资料两样本均数比较的t检验*/ proc univariate data=ex3_6;var d;run;/*双样本两组样本量不同*/data ex3_7;input x@@;if _n_<21 then c=1;/*当观测数小于21时,变量c的值为1,表示试验组*/else c=2;/*其余变量c的值为2,表示对照组*/cards;-0.70 -5.60 2.00 2.80 0.70 3.50 4.00 5.80 7.10 -0.502.50 -1.60 1.703.00 0.404.50 4.60 2.50 6.00 -1.403.70 6.50 5.00 5.20 0.80 0.20 0.60 3.40 6.60 -1.106.00 3.80 2.00 1.60 2.00 2.20 1.20 3.10 1.70 -2.00;proc ttest;/*调用ttest过程*/var x;/*定义分析变量为x*/class c;/*定义分组变量为c*/run;1.08-1.13anova方差分析过程+一维分组+二维分组+三维分组/*只有一组分组因素*/data ex4_2;input x c @@;cards;3.53 1 2.42 2 2.86 3 0.89 44.59 1 3.36 2 2.28 3 1.06 44.34 1 4.32 2 2.39 3 1.08 42.66 1 2.34 2 2.28 3 1.27 43.59 1 2.68 2 2.48 3 1.63 43.13 1 2.95 2 2.28 3 1.89 43.30 1 2.36 2 3.48 3 1.31 44.04 1 2.56 2 2.42 3 2.51 43.53 1 2.52 2 2.41 3 1.88 43.56 1 2.27 2 2.66 3 1.41 43.85 1 2.98 2 3.29 3 3.19 44.07 1 3.72 2 2.70 3 1.92 41.37 12.65 2 2.66 3 0.94 43.93 1 2.22 2 3.68 3 2.11 42.33 1 2.90 2 2.65 3 2.81 42.98 1 1.98 2 2.66 3 1.98 44.00 1 2.63 2 2.32 3 1.74 43.55 1 2.86 2 2.61 3 2.16 42.64 1 2.93 23.64 3 3.37 42.56 1 2.17 2 2.58 3 2.97 43.50 1 2.72 2 3.65 3 1.69 43.25 1 1.56 2 3.21 3 1.19 42.96 13.11 2 2.23 3 2.17 44.30 1 1.81 2 2.32 3 2.28 43.52 1 1.77 2 2.68 3 1.72 43.93 1 2.80 2 3.04 3 2.47 44.19 1 3.57 2 2.81 3 1.02 42.96 1 2.97 23.02 3 2.52 44.16 1 4.02 2 1.97 3 2.10 42.59 1 2.31 2 1.68 33.71 4;proc anova;/*调用anova过程*/class c;/*定义分组变量为c*/model x=c;/*定义模型,分析g对x的影响*/means c/dunnett;/*用LSD法对多组均数过行两两比较*/means c/hovtest;/*作方差齐性检验,默认levene法,p值大于0.05,则认为是g组方差相等*/run;quit;/*有两组分组因素*/data ex4_4;input x a b@@;cards;0.82 1 10.65 2 10.51 3 10.73 1 20.54 2 20.23 3 20.43 1 30.34 2 30.28 3 30.41 1 40.21 2 40.31 3 40.68 1 50.43 2 50.24 3 5;proc anova;class a b;/*定义分组变量a和b*/model x=a b;/*定义模型,分析a和b对x影响*/means a/snk;/*用SNK法对变量a的多组均数进行两两比较*/run;quit;1.15嵌套设计资料的方差分析glm过程一级因素+二组因素/*嵌套设计资料的方差分析*/data ex11_6;input x a b @@;cards;82 1 184 1 191 1 288 1 285 1 383 1 365 2 461 2 462 2 559 2 556 2 660 2 671 3 767 3 775 3 878 3 885 3 989 3 9;proc glm;/*调用glm过程*/class a b;/*定义分组变量为a和b*/model x=a a(b);/*定义模型,以a为一组因素,b为二级因素*/run;quit;1.17重复测量资料的方差分析data ex12_2;input t1 t2 g@@;/*确定变量名称,t1和t2分别为两个时间点的分析变量,g为处理因素变量,b为区组变量*/cards;130 114 1124 110 1136 126 1128 116 1122 102 1118 100 1116 98 1138 122 1126 108 1124 106 1118 124 2132 122 2134 132 2114 96 2118 124 2128 118 2118 116 2132 122 2120 124 2134 128 2;proc glm;/*调用glm过程*/class g;/*定义分组变量g*/model t1 t2=g;/*定义模型,分析g对变量t1和t2的影响*/repeated time 2/*命名重复因子为time,有2个水平*/contrast(1)/*表示以第一时间点为对照点*//summary;/*考察不同时间点与对照时间点比较的结果*/run;quit;data ex12_3;input t0-t4 g@@;cards;120 108 112 120 117 1118 109 115 126 123 1119 112 119 124 118 1121 112 119 126 120 1127 121 127 133 126 1121 120 118 131 137 2122 121 119 129 133 2128 129 126 135 142 2117 115 111 123 131 2118 114 116 123 133 2131 119 118 135 129 3129 128 121 148 132 3123 123 120 143 136 3123 121 116 145 126 3125 124 118 142 130 3;proc glm;class g;model t0-t4=g;repeated time 5/*命名重复因子为time,有2个水平*/contrast(1);run;quit;二:计数资料的统计分析方法2.1四格表资料的卡方检验data ex7_1;input r c f@@;/*确定变量名称,r为行变量,c为列变量,f为频数变量*/ cards;1 1 991 2 52 1 752 2 21;proc freq;/*调用freq过程*/weight f;/*定义f为频数变量*/tables r*c/*作r*c的列联表*//chisq/*对列联表作卡方检验*/expected;/*输出每个格的理论频数*/run;2.5阳性事件发生的概率(二项分布)data ex6_1;do x=6 to 8;/*建立循环,变量x从6到8*/p1=probbnml(0.7,10,x);/*计算二项分布随机变量不大于x的概率*/p2=probbnml(0.7,10,x-1);/*计算二项分布随机变量不大于x-1的概率*/p=p1-p2;*/计算出现x的概率*/output;/*结果输出*/end;proc print;var x p;run;2.6正态分布法计算总体率的可信区间data ex6_3;n=100;x=55;p=x/n;sp=sqrt(p*(1-p)/n);u=probit(0.975);usp=u*sp;lclm=p-usp;uclm=p+usp;proc print;var n p sp lclm uclm;run;2.7样本率与总体率的比较(直接法——单侧检验)data ex6_4;d=probbnml(0.55,10,8);p=1-d;proc print;var p;run;2.8样本率与总体率的比较(直接法——双侧检验)data ex6_5;p01=probbnml(0.6,10,9);p02=probbnml(0.6,10,8);p0=p01-p02;/*计算出现9的概率*/do i=0to10;/*建立循环,变量i从0到10*/p11=probbnml(0.6,10,i);p12=probbnml(0.6,10,i-1);p1=p11-p12;/*计算出现i的概率*/if i=0then p1=p11; /*定义出现0的概率*/if p1<=p0 then output; /*如果出现i的概率小于出现9的概率,则保留在数据集中*/ end;proc means sum;var p1;run;2.9两个样本率比较的z检验data ex6_7;n1=120;n2=110;x1=36;x2=22;p1=x1/n1;p2=x2/n2;pc=(x1+x2)/(n1+n2);/*计算合并发生率*/sp=sqrt(pc*(1-pc)*(1/n1+1/n2));/*计算两个率相差的标准误差*/u=(p1-p2)/sp;/*计算u值*/p=(1-probnorm(abs(u)))*2;/*计算p值*/format u p 5.4;/*输出格式为小数点后保留4位*/proc print;var pc sp u p;run;2.10.Poisson分布的样本均数与总体均数比较(直接法)data ex6_12;n=120;/*确定样本例数*/pai=0.008; /*确定总体率*/lam=n*pai; /*计算总体均数lamda*/x=4; /*确定实际发生数*/p=1-poisson(lam,x-1);/*计算实际发生数所对应的概率*/proc print;var lam p;run;2.11 Poisson分布的样本均数与总体均数比较(正态近似法)data ex6_12;n=25000;/*样本量*/x=123; /*样本均数*/pi=0.003; /*确定总体率*/lam=n*pi; /*计算总体均数*/u=(x-lam)/sqrt(lam*(1-pi)); /*计算u值*/p=1-probnorm(abs(u)); /*计算u值所对应的p值*/proc print;var lam u p;run;2.14负二项分布的参数估计data ex6_16;input x f@@;cards;0 301 142 83 44 25 06 2;proc univariate;var x;freq f;output out=mv2var=v;run;data k;set mv2;k=mu**2/(v-mu);proc print;var mu k;run;三、非参数统计方法3.2单个样本中位数和总体中位数比较data ex8_2;input x1@@;median=45.30;/*假设中位数为45.30*/d=x1-median; /*计算x1和假设中位数的差值*/cards;44.21 45.30 46.39 49.47 51.05 53.1653.26 54.37 57.16 67.37 71.05 87.37;proc univariate; /*调用univariate过程度*/var d;run;proc means median; /*调用means过程计算x1实际的中位数*/var x1;run;3.3两个独立样本比较的Wilcoxon秩和检验(R对应函数wilcox.test())data ex8_3;input x c @@;/*确定变量名称,x、c分别为分析变量和分组变量(类别多于两类一样的写法)*/2.78 13.23 14.20 14.87 15.12 16.21 17.18 18.05 18.56 19.60 13.23 23.50 24.04 24.15 24.28 24.34 24.47 24.64 24.75 24.82 24.95 25.10 2;proc npar1way wilcoxon;/*调用npar1way过程,进行wilcoxon分析*/var x;/*定义分析变量为x*/class c;/*定义分组变量为c*/run;3.4等级资料的两样本比较data ex8_4;input c g f@@;/*确定变量名称,f为频数,c为分类,g为要分析的变量(分类多种类似)*/ cards;1 1 11 2 81 3 161 4 101 5 42 1 22 2 232 3 112 5 0;proc npar1way wilcoxon;/*调用npar1way过程,进行wilcoxon分析*/freq f;/*确定频数变量为f*/var g;/*定义分析变量g*/class c;/*定义分组变量c*/run;第二部分:多元统计分析方法注:主要讲述过程:reg(回归),corr(相关分析),nlin(对数曲线回归),logistic(逻辑回归),phreg(条件logistic回归分析+cox回归),life test(生存分析),discrim(判别分析),stepdisc(逐步回归),cluster(聚类),varclus(指标聚类),princomp(主成分分析),factor(因子分析),cancorr(典型相关分析)一:回归和相关分析1.1两个变量的直线回归分析data ex9_1;input x y;/*确定变量名称*/cards;13 3.5411 3.019 3.096 2.488 2.5610 3.3612 3.187 2.65;proc reg;/*调用reg过程*/model y=x;/*定义模型,以y为应变量,以x为自变量*//*在model语句后面加上选项,得到一些有用的统计量,常用的有:stb(输出标准化偏回归系数)、p(输出每个观测的实际值、预测值和残差)、cli(输出每个观测预测值均数的双侧95%置信区间)、clm(输出每个观测预测值的双侧95%置信范围)*//*例如:model y=x /stb p cli */plot y*x;/*画出散点图*/run;1.2两个变量的直线相关分析data ex9_5;input x y;cards;43 217.2274 316.1851 231.1158 220.9650 254.7065 293.8454 263.2857 271.7367 263.4669 276.5380 341.1548 261.0038 213.2085 315.1254 252.08;proc corr;/*若要求作spearman相关分析,则可以写成proc corr spearman */ var x y;run;/*得到一个相关系数矩阵*/1.4加权直线加回data ex9_9;input x y;w=1/(x*x); /*设置权重变量w*/cards;0.11 4.000.12 5.100.21 9.500.30 9.000.34 17.200.44 14.000.56 18.900.60 29.400.69 22.100.80 41.50;proc reg;weight w;/*定义权重变量w*/model y=x;/*定义模型,以y为因变量,以x为自变量*/run;1.5两个直线回归系数的比较data ex9_12;input x y c@@;cards;13 3.54 111 3.01 19 3.09 16 2.48 18 2.56 110 3.36 112 3.18 17 2.65 110 3.01 29 2.83 211 2.92 212 3.09 215 3.98 216 3.89 28 2.21 27 2.39 210 2.74 215 3.36 2;proc glm;class c;model y=x c x*c;/*定义模型,分析x、c以及x和c的交互作用对y的影响,即判断两总体直线回归系数是否相同*/run;proc glm;class c;model y=x c;/*上一步已排除协变量的影响,然后再分析两分析变量是否来自同一总体*/run;1.6两个变量的对数曲线回归data ex9_13;input x y;cards;0.005 34.110.050 57.990.500 94.495.000 128.5025.000 169.98;proc nlin;/*调用nlin过程*/parms a=0 b=0; /*定义初始值*/model y=a+b*log10(x); /*定义对数模型,以y为因变以量,x为自变量*/ run;1.7两个变量的指数曲线回归分析data ex9_14;input x y;cards;2 545 507 4510 3714 3519 2526 2031 1634 1838 1345 852 1153 860 465 6;proc nlin;parms a=4 b=0.03;/*定义初始值*/model y=exp(a+b*x);/*定义指数模型,以y为因变量,x为自变量*/run;1.8多元回归data ex15_1;input x1-x4 y@@;/*确定变量名称,x1,x2,x3,x4分别为自变量,y为应变量*/ cards;5.68 1.90 4.53 8.20 11.203.79 1.64 7.32 6.90 8.806.02 3.56 6.95 10.80 12.304.85 1.075.88 8.30 11.604.60 2.32 4.05 7.50 13.406.05 0.64 1.42 13.60 18.304.90 8.50 12.60 8.50 11.107.08 3.00 6.75 11.50 12.103.85 2.11 16.28 7.90 9.604.65 0.63 6.59 7.10 8.404.59 1.97 3.61 8.70 9.304.29 1.97 6.61 7.80 10.607.97 1.93 7.57 9.90 8.406.19 1.18 1.42 6.90 9.606.13 2.06 10.35 10.50 10.905.71 1.78 8.53 8.00 10.106.40 2.40 4.53 10.30 14.806.06 3.67 12.797.10 9.105.09 1.03 2.53 8.90 10.806.13 1.71 5.28 9.90 10.205.78 3.36 2.96 8.00 13.605.43 1.13 4.31 11.30 14.906.50 6.21 3.47 12.30 16.007.98 7.92 3.37 9.80 13.2011.54 10.89 1.20 10.50 20.005.84 0.92 8.616.40 13.303.84 1.20 6.45 9.60 10.40;proc reg;model y=x1-x4;/*也可以写成model y=x1 x2 x3 x4;*/run;1.9逐步回归data ex12_2;input x1-x4 y@@;cards;5.68 1.90 4.53 8.20 11.203.79 1.64 7.32 6.90 8.806.02 3.56 6.95 10.80 12.304.85 1.075.88 8.30 11.604.60 2.32 4.05 7.50 13.406.05 0.64 1.42 13.60 18.304.90 8.50 12.60 8.50 11.107.08 3.00 6.75 11.50 12.103.85 2.11 16.28 7.90 9.604.65 0.63 6.59 7.10 8.404.59 1.97 3.61 8.70 9.304.29 1.97 6.61 7.80 10.607.97 1.93 7.57 9.90 8.406.19 1.18 1.42 6.90 9.606.13 2.06 10.35 10.50 10.905.71 1.78 8.53 8.00 10.106.40 2.40 4.53 10.30 14.806.06 3.67 12.797.10 9.105.09 1.03 2.53 8.90 10.806.13 1.71 5.28 9.90 10.205.78 3.36 2.96 8.00 13.605.43 1.13 4.31 11.30 14.906.50 6.21 3.47 12.30 16.007.98 7.92 3.37 9.80 13.2011.54 10.89 1.20 10.50 20.005.84 0.92 8.616.40 13.303.84 1.20 6.45 9.60 10.40;proc reg;model y=x1-x4/selection=stepwise/*定义模型,以y因变量,x1-x4为变量进行多元回归分析*/ sle=0.10/*定义入先变量的界值*/sls=0.10;/*定义剔除变量的界值*/run;三:logistic回归3.1 两个变量logistic回归分析data ex16_1;input y x1 x2 f@@;/*确定变量名称,y为发病情况,x1为吸烟情况,x2为饮酒情况,f为发生频数*/cards;1 0 0 631 0 1 631 1 0 441 1 1 2650 0 0 1360 0 1 1070 1 0 570 1 1 151;proc logistic;/*调用logistic过程*/freq f;/*定义频数变量f*/model y=x1 x2;/*定义模型,以y为因变量,x1和x2为自变量*/run;3.2 1:M配对资料的条件logistic回归分析data ex16_3;input i y x1-x6 @@;/*确定变量名称,i为区组变量,y为病人情况,1为病例,0为对照,x1-x6为危险因素*/t=2-y;/*定义时间变量*/cards;1 1 3 5 1 1 1 01 0 1 1 1 3 3 01 0 1 1 1 3 3 02 1 13 1 1 3 02 0 1 1 13 2 02 0 1 2 13 2 03 1 14 1 3 2 03 0 1 5 1 3 2 03 0 14 1 3 2 04 1 1 4 1 2 1 14 0 2 1 1 3 2 05 1 2 4 2 3 2 0 5 0 1 2 1 3 3 05 0 2 3 1 3 2 06 1 1 3 1 3 2 1 6 0 1 2 1 3 2 06 0 1 3 2 3 3 07 1 2 1 1 3 2 1 7 0 1 1 1 3 3 07 0 1 1 1 3 3 08 1 1 2 3 2 2 0 8 0 1 5 1 3 2 08 0 1 2 1 3 1 09 1 3 4 3 3 2 0 9 0 1 1 1 3 3 09 0 1 4 1 3 1 010 1 1 4 1 3 3 1 10 0 1 4 1 3 3 010 0 1 2 1 3 1 011 1 3 4 1 3 2 0 11 0 3 4 1 3 1 011 0 1 5 1 3 1 012 1 1 4 3 3 3 0 12 0 1 5 1 3 2 012 0 1 5 1 3 3 013 1 1 4 1 3 2 0 13 0 1 1 1 3 1 013 0 1 1 1 3 2 014 1 1 3 1 3 2 1 14 0 1 1 1 3 1 014 0 1 2 1 3 3 015 1 1 4 1 3 2 0 15 0 1 5 1 3 3 015 0 1 5 1 3 3 016 1 1 4 2 3 1 0 16 0 2 1 1 3 3 016 0 1 1 3 3 2 017 1 2 3 1 3 2 0 17 0 1 1 2 3 2 017 0 1 2 1 3 2 018 1 1 4 1 3 2 0 18 0 1 1 1 2 1 0 18 0 1 2 1 3 2 019 0 1 1 1 2 1 019 0 2 2 2 3 1 020 1 1 4 2 3 2 120 0 1 5 1 3 3 020 0 1 4 1 3 2 021 1 1 5 1 2 1 021 0 1 4 1 3 2 021 0 1 2 1 3 2 122 1 1 2 2 3 1 022 0 1 2 1 3 2 022 0 1 1 1 3 3 023 1 1 3 1 2 2 023 0 1 1 1 3 1 123 0 1 1 2 3 2 124 1 1 2 2 3 2 124 0 1 1 1 3 2 024 0 1 1 2 3 2 025 1 1 4 1 1 1 125 0 1 1 1 3 2 025 0 1 1 1 3 3 0;proc phreg;/*调用phreg过程*/model t*y(0)=x1-x6/*定义模型,以t为时间变量,y为截尾变量,x1-x6为自变量*//selection=stepwise/*选择逐步回归方法筛选变量*/sle=0.1sls=0.1/*入选和剔除的界值均为0.1*/ties=discrete;/*用离散logistic模型替代比例危险模型*/strata i;/*定义区组变量*/run;2.3 应变量为多分类资料的logistic回归data ex16_5;input x1 x2 y f;/*x1是两个社区,x2是性别,Y是获取健康知识途径(传统大众媒介=1,网络=2,社区宣传=3,f为频数)*/cards;0 0 1 200 0 2 350 0 3 260 1 1 100 1 2 270 1 3 571 0 1 421 02 171 1 1 161 12 121 1 3 26;proc logistic;freq f;/*定义频数变量为f*/model y(ref='3')/*定义模型,以y为因变量,ref语句指时参照的类别为“社区宣传”,最后得到结果均为与“社区宣传”相对应*/=x1 x2/*定义x1和x2为自变量*//link=glogit;/*指定多分类应变量回归模型*/run;四:生存分析4.1乘积极限法估计生存率,例17-2甲、乙两种手术方法的生存率估计data ex17_2;input t d@@;/*确定变量名称,t为时间变量,d为截尾变量*/cards;1 13 15 15 15 16 16 16 17 18 110 110 114 017 119 020 022 026 034 134 044 159 1;proc lifetest;/*调用lifetest过程*/time t*d(0);/*定义模型,以t为时间变量,d为截尾变量,变量值为0表示截尾数据*/ run;4.2寿命表法估计生存率data ex17_3;input t d f@@;cards;0 0 00 1 4561 0 391 1 2262 0 222 1 1523 0 233 1 1714 0 244 1 1355 0 1075 1 1256 0 1336 1 837 0 1027 1 748 0 688 1 519 0 649 1 4210 0 4510 1 4311 0 5311 1 3412 0 3312 1 1813 0 2714 0 3314 1 615 0 2015 1 0;proc lifetest method=life/*调用lifetest过程,指定用寿命表法估计生存率*/ width=1;/*表示每间隔1估计生存率*/freq f;/*表示以f为频数变量*/time t*d(0);/*定义模型,以t为时间变量,d为截尾变量,变量值为0表示截尾数据*/ run;4.3生存曲线比较的log-rank检验及制作生存曲线data ex17_4;input t d g @@;cards;1 1 13 1 15 1 15 1 15 1 16 1 16 1 16 1 17 1 18 1 110 1 110 1 114 0 117 1 119 0 120 0 122 0 126 0 131 0 134 1 134 0 144 1 159 1 11 1 21 1 22 1 23 1 23 1 24 1 24 1 24 1 26 1 26 1 28 1 29 1 29 1 210 1 211 1 212 1 213 1 215 1 217 1 218 1 2;proc lifetest plot=(s);/*调用lifetest过程并做生存曲线图*/ time t*d(0);strata g;/*定义变量g为分组变量*/run;4.4.cox回归分析data ex17_5;input x1-x6 t y @@;cards;54 0 0 1 1 0 52 057 0 1 0 0 0 51 058 0 0 0 1 1 35 143 1 1 1 1 0 103 048 0 1 0 0 0 7 140 0 1 0 0 0 60 044 0 1 0 0 0 58 036 0 0 0 1 1 29 139 1 1 1 0 1 70 042 0 1 0 0 1 67 042 0 1 0 0 0 66 042 1 0 1 1 0 87 051 1 1 1 0 0 85 049 1 1 1 0 1 76 0 52 1 1 1 0 1 74 0 48 1 1 1 0 0 63 0 54 1 0 1 1 1 101 0 38 0 1 0 0 0 100 0 40 1 1 1 0 1 66 1 38 0 0 0 1 0 93 0 19 0 0 0 1 0 24 1 67 1 0 1 1 0 93 0 37 0 0 1 1 0 90 0 43 1 0 0 1 0 15 149 0 0 0 1 0 3 150 1 1 1 1 1 87 0 53 1 1 1 0 0 120 0 32 1 1 1 0 0 120 0 46 0 1 0 0 1 120 043 1 0 1 1 0 120 044 1 0 1 1 0 120 0 62 0 0 0 1 0 120 0 40 1 1 1 0 1 40 1 50 1 0 0 1 0 26 1 33 1 1 0 0 0 120 0 57 1 1 1 0 0 120 0 48 1 0 0 1 0 120 0 28 0 0 0 1 0 3 1 54 1 0 1 1 0 120 1 35 0 1 0 1 1 7 1 47 0 0 0 1 0 18 1 49 1 0 1 1 0 120 0 43 0 1 0 0 0 120 0 48 1 1 0 0 0 15 1 44 0 0 0 1 0 4 1 60 1 1 1 0 0 120 0 40 0 0 0 1 0 16 1 32 0 1 0 0 1 24 1 44 0 0 0 1 1 19 1 48 1 0 0 1 0 120 0 72 0 1 0 1 0 24 1 42 0 0 0 1 0 2 1 63 1 0 1 1 0 120 0 55 0 1 1 0 0 12 1 39 0 0 0 1 0 5 1 44 0 0 0 1 0 120 074 0 0 0 1 1 7 161 0 1 0 1 0 40 145 1 0 1 1 0 108 038 0 1 0 0 0 24 162 0 0 0 1 0 16 1;proc phreg;model t*y(1)=x1-x6/*定义模型,以t为时间变量,y为截尾变量,变量值1表示截尾数据,x1-x6为危险因素*//selection=stepwisesle=0.05sls=0.05;run;五:判别和聚类分析5.1判别分析data ex18_4;input x1-x4 g; /*确定变量名称,x1-x4为用于进行判别分析的指标,g为分组变量*/ cards;6.0 -11.5 19 90 1-11.0 -18.5 25 -36 390.2 -17.0 17 3 2-4.0 -15.0 13 54 10.0 -14.0 20 35 20.5 -11.5 19 37 3-10.0 -19.0 21 -42 30.0 -23.0 5 -35 120.0 -22.0 8 -20 3-100.0 -21.4 7 -15 1-100.0 -21.5 15 -40 213.0 -17.2 18 2 2-5.0 -18.5 15 18 110.0 -18.0 14 50 1-8.0 -14.0 16 56 10.6 -13.0 26 21 3-40.0 -20.0 22 -50 3;proc discrim;class g;/*定义分组变量为g*/var x1-x4;/*定义用于分析的指标变量为x1-x4*/run;(结果横向是真实值,竖向的预测值)5.2逐步判别分析data ex18_5;input x1-x4 g;cards;6.0 -11.5 19 90 1-11.0 -18.5 25 -36 390.2 -17.0 17 3 2-4.0 -15.0 13 54 10.0 -14.0 20 35 20.5 -11.5 19 37 3-10.0 -19.0 21 -42 30.0 -23.0 5 -35 120.0 -22.0 8 -20 3-100.0 -21.4 7 -15 1-100.0 -21.5 15 -40 213.0 -17.2 18 2 2-5.0 -18.5 15 18 110.0 -18.0 14 50 1-8.0 -14.0 16 56 10.6 -13.0 26 21 3-40.0 -20.0 22 -50 3;proc stepdisc /*调用stepdisc过程*/slentry=0.2/*确定入选标准为0.2*/slstay=0.3;/*确定剔除标准为0.3*/class g;/*定义分组变量为g*/var x1-x4;/*定义用于分析的指标变量为x1-x4*/run;(筛选出变量后,调用discrim过程对筛选出的变量作判别分析,即先做5.2再做5.1)5.3作样品聚类和指标聚类data ex19_3;input x1-x9;cards;46 25 5 2138 1.68 0.35 8.11 4 4 35 12 20 3510 2.76 1.43 6.84 3 3 52 25 20 2784 2.19 0.54 4.11 3 3 32 7 20 2451 1.93 0.47 11.45 9 6 38 22 0 3247 2.56 0.80 11.68 5 5 51 31 30 3710 2.92 0.37 11.60 2 2 40 9 10 3194 2.51 0.40 11.40 5 5 34 17 20 4658 3.67 0.46 11.35 3 3 50 29 0 5019 3.95 0.47 13.45 10 8 42 20 20 7482 5.89 0.12 13.11 0 0 57 30 15 3800 2.99 0.19 10.76 2 236 15 20 2478 1.95 0.25 10.00 0 037 12 0 3827 3.01 0.82 10.50 4 4 52 32 0 2984 2.35 0.16 11.15 3 3 52 32 10 3749 2.95 0.72 11.45 11 10 42 27 30 4941 3.89 0.73 13.80 7 6 44 27 20 3948 3.11 0.33 13.65 16 14 40 21 5 3360 2.64 0.37 11.40 0 0 38 21 5 2936 2.31 0.69 11.40 1 1 44 27 20 6851 5.39 0.99 12.28 7 6 43 27 0 3926 3.09 0.47 11.95 0 0 26 10 3 4381 3.45 0.52 11.80 7 5 37 18 20 7142 5.62 0.85 11.81 5 5 28 9 20 2612 2.06 0.37 11.65 1 1 25 9 30 2638 2.08 0.78 12.25 1 1 34 14 20 4322 3.40 0.41 15.00 5 5 50 32 20 2862 2.25 0.69 8.80 2 2;proc cluster/*调用cluster过程*/method=average;/*采用类平均法进行聚类*/var x1-x9;/*定义用于分析的指标变量x1-x9*/run;proc treegraphics haxis=axis1 horizontal;/*调用tree过程输出聚类图,并将图横向输出*/ run;/*对各个指标聚类,即对9个变量聚类*/proc varclus;/*调用varclus过程*/var x1-x9;/*定义用于分析的指标变量x1-x9*/run;六、主成分分析和因子分析6.1主成分分析data ex20_1;input x1-x6;cards;92 77 80 95 99 12697 75 77 80 95 12595 80 70 78 89 12075 75 73 88 98 11092 68 72 79 88 11390 85 80 70 78 10372 93 75 77 80 10088 70 76 72 81 10264 70 69 85 93 10570 73 70 87 84 10078 69 75 73 89 9778 72 71 68 75 9675 64 63 76 73 9284 66 77 55 65 7670 64 51 60 67 8858 72 75 62 52 7582 73 40 50 48 6145 65 42 47 43 60;proc princomp;/*调用princomp过程,对6个变量做主成分分析,结果包括主成分累积贡献率,特征向量矩阵*/run;6.2因子分析data ex20_2;input x1-x9;cards;4.34 389 99.06 1.23 25.46 93.15 3.56 97.51 61.663.45 271 88.28 0.85 23.55 94.31 2.44 97.94 73.334.38 385 103.97 1.21 26.54 92.53 4.02 98.484.18 377 99.48 1.19 26.89 93.86 2.92 99.41 63.164.32 378 102.01 1.19 27.63 93.18 1.99 99.71 80.004.13 349 97.55 1.10 27.34 90.63 4.38 99.03 63.164.57 361 91.66 1.14 24.89 90.60 2.73 99.69 73.534.31 209 62.18 0.52 31.74 91.67 3.65 99.48 61.114.06 425 83.27 0.93 26.56 93.81 3.09 99.48 70.734.43 458 92.39 0.95 24.26 91.12 4.21 99.76 79.074.13 496 95.43 1.03 28.75 93.43 3.50 99.10 80.494.10 514 92.99 1.07 26.31 93.24 4.22 100.00 78.954.11 490 80.90 0.97 26.90 93.68 4.97 99.77 80.533.53 344 79.66 0.68 31.87 94.77 3.59 100.00 81.974.16 508 90.98 1.01 29.43 95.75 2.77 98.72 62.864.17 545 92.98 1.08 26.92 94.89 3.14 99.41 82.354.16 507 95.10 1.01 25.82 94.41 2.80 99.35 60.614.86 540 93.17 1.07 27.59 93.47 2.77 99.80 70.215.06 552 84.38 1.10 27.56 95.15 3.10 98.63 69.234.03 453 72.69 0.90 26.03 91.94 4.50 99.05 60.424.15 529 86.53 1.05 22.40 91.52 3.84 98.58 68.423.94 515 91.01 1.02 25.44 94.88 2.56 99.36 73.914.12 552 89.14 1.10 25.70 92.65 3.87 95.52 66.674.42 597 90.18 1.18 26.94 93.03 3.76 99.28 73.813.05 437 78.81 0.87 23.05 94.46 4.03 96.223.94 477 87.34 0.95 26.78 91.784.57 94.28 87.344.14 638 88.57 1.27 26.53 95.16 1.67 94.50 91.673.87 583 89.82 1.16 22.66 93.43 3.55 94.49 89.074.08 552 90.19 1.10 22.53 90.36 3.47 97.88 87.144.14 551 90.81 1.09 23.06 91.65 2.47 97.72 87.134.04 574 81.36 1.14 26.65 93.74 1.61 98.20 93.023.93 515 76.87 1.02 23.88 93.82 3.09 95.46 88.373.90 555 80.58 1.10 23.08 94.38 2.06 96.82 91.793.62 554 87.21 1.10 22.50 92.43 3.22 97.16 87.773.75 586 90.31 1.12 23.73 92.47 2.07 97.74 93.893.77 627 86.47 1.24 23.22 91.17 3.40 98.98 89.80;proc factor/*调用factor过程*/n=4;/*确定因子数为4,如果不写就默认为3*/run;proc factorn=4rotate=quartimax;/*因子旋转的方法为四次方最大正交旋转*/run;七、典型相关分析data ex21_1;input x1-x4 y1-y4;cards;1210 120.1 23.8 61.0 10.2 66.3 2.01 2.731210 120.7 23.4 59.8 11.3 67.6 1.92 2.711040 121.2 22.9 59.0 10.1 66.5 1.92 2.601620 121.5 24.6 59.5 9.5 67.8 1.95 2.641690 122.5 24.4 60.7 11.0 69.2 2.08 2.641150 122.7 27.2 64.5 10.5 69.1 2.19 2.841460 123.3 24.9 58.4 10.5 69.0 2.01 2.72 1190 123.4 21.8 59.0 10.6 67.4 1.90 2.71 1840 123.9 23.5 60.2 9.6 67.1 2.00 2.84 1250 124.5 25.2 63.0 11.2 67.8 2.05 2.78 1480 124.8 22.3 58.1 10.7 67.9 2.05 2.73 1310 124.9 22.0 58.0 10.5 67.8 1.98 2.68 1660 125.3 24.7 60.0 10.8 69.3 1.95 2.80 1580 125.6 22.8 59.0 9.4 69.1 2.00 2.65 1460 125.8 25.7 61.0 10.2 69.6 1.95 2.70 1240 126.0 30.2 68.0 9.2 67.1 2.14 2.88 1100 126.2 25.2 60.5 9.8 68.4 1.98 2.72 1250 126.8 23.6 58.5 10.2 67.5 1.94 2.74 1270 127.1 23.0 57.7 10.8 69.8 1.90 2.78 1300 127.6 24.3 59.0 10.3 67.9 1.93 2.84 1350 127.7 24.1 60.0 11.0 69.7 2.03 2.77 1250 128.3 21.6 55.5 10.4 68.5 1.83 2.70 1720 128.5 27.1 62.0 11.4 71.2 2.03 2.75 1480 128.5 22.6 57.4 10.0 67.3 2.04 2.83 1380 129.4 24.9 60.5 11.5 69.8 2.04 2.76 1170 129.0 26.7 63.7 9.6 67.4 2.13 2.98 1640 129.8 26.1 62.0 9.8 71.0 2.00 2.84 1640 131.6 28.7 62.8 9.7 70.7 1.89 2.89 1150 130.2 25.0 58.6 10.5 71.8 1.96 2.78 1430 130.5 26.1 60.7 10.8 68.6 2.05 2.77 1150 130.6 23.4 54.4 11.8 69.2 1.96 2.78 1150 131.4 25.5 63.2 10.2 70.4 2.05 2.84 1320 131.6 25.6 58.9 10.9 70.2 2.06 2.86 1360 131.7 27.4 62.0 10.9 73.5 1.99 2.70 1460 132.0 26.3 61.5 11.1 71.2 2.17 2.13 1380 132.2 25.7 61.4 10.1 70.1 1.96 2.83 1300 132.5 24.5 57.0 10.8 71.8 2.02 2.84 1220 132.7 27.0 61.3 10.1 72.2 2.08 2.80 1320 132.9 25.2 60.5 11.2 73.1 2.01 2.73 1910 133.1 30.1 67.0 9.0 87.1 2.15 2.97 1800 133.5 26.5 62.5 9.8 71.7 2.07 2.82 1560 133.6 24.8 58.5 10.3 72.2 1.93 2.79 1840 134.0 26.0 60.5 10.4 73.0 1.98 2.74 1470 134.3 28.2 62.0 11.3 87.2 2.66 4.03 1590 134.4 25.5 60.7 9.6 69.9 1.99 2.81 1430 134.1 26.6 63.0 11.2 72.2 2.06 2.90 1760 134.6 32.5 66.0 9.9 87.4 2.61 2.98 1470 135.3 27.9 61.8 10.1 73.3 2.20 2.78 1580 135.6 28.1 65.8 9.8 73.1 2.05 2.891840 137.1 27.6 62.8 9.5 72.4 2.11 2.91 1810 137.4 28.3 62.5 9.4 74.2 2.06 3.00 1850 138.1 29.5 62.4 9.7 72.3 2.12 4.02 2120 140.0 34.9 68.8 9.5 87.9 2.74 4.15 1760 140.7 32.0 64.4 10.2 74.0 2.17 4.05 1800 141.0 32.5 63.8 9.5 88.2 2.65 4.08 1260 141.7 29.1 65.0 9.7 88.2 2.68 2.90 1860 142.4 19.3 70.0 10.1 89.6 2.71 4.06 1800 144.7 27.0 58.3 10.8 74.8 2.10 2.82 1470 136.8 26.3 61.4 10.0 72.2 2.07 2.93 1260 121.1 22.9 59.0 10.6 66.3 2.05 2.76 1570 132.7 25.3 58.6 11.5 73.6 2.16 2.78 1290 125.0 25.7 60.5 10.1 68.8 2.00 2.69 1580 133.2 27.3 60.7 9.6 71.7 2.11 2.85 1690 132.8 28.6 64.7 9.6 72.9 2.19 4.08 1670 131.6 25.4 59.7 10.6 69.8 2.14 2.76 1300 133.1 25.9 58.0 10.1 69.7 2.12 2.83 1610 134.0 25.8 59.6 9.4 70.8 2.10 2.88 1580 134.3 26.3 61.2 10.2 72.2 2.14 2.84 1570 129.1 27.7 62.2 11.1 72.9 2.09 2.93 1660 140.1 32.1 67.0 9.3 87.1 2.15 4.03 1040 132.6 27.9 62.0 10.3 72.5 2.08 2.81 1290 128.3 23.6 58.5 9.3 69.0 1.97 2.76 1980 145.8 34.5 68.0 9.8 89.7 2.68 4.25 1210 133.3 25.6 61.5 9.9 71.0 2.11 2.82 1300 134.3 25.6 61.0 10.5 73.2 2.02 2.83 1310 138.1 27.8 61.2 9.9 73.5 2.09 2.78 1590 135.6 25.9 59.6 9.6 72.8 2.10 2.91 1270 128.3 24.1 58.5 10.3 69.2 1.92 2.77 1310 129.7 24.7 61.7 10.1 69.4 2.03 2.80 2280 143.6 37.6 70.0 9.7 88.8 2.17 4.18 1580 136.6 32.3 67.2 10.3 87.1 2.66 4.04 2370 147.4 38.8 73.0 10.8 90.7 2.82 4.38 ;proc cancorr;/*调用cancorr过程*/var x1-x4;/*定义一组变组变量*/with y1-y3;/*定义另一组变量*/run;。
第七章回归分析
第七章回归分析本章介绍用于回归分析的常用SAS过程,包括一般回归分析过程REG、建立二次响应曲面回归模型过程RSREG、逐步回归分析过程STEPWISE、非线性回归分析过程NLIN等。
§7.1 一般回归分析过程 REG7.1.1 概述REG过程是一个通用回归过程,用最小二乘法估计线性回归模型。
此过程可以有多个模型(MODEL)语句,输入数据可以是原始样本数据,也可以是相关阵,可打印模型中的参数估计值、预测值、残差及置信区间等,并可作线性假设检验。
7.1.2 过程说明可用下列语句调用REG过程:PROC REG 选项;LABEL:MODEL 因变量表=回归变量表/选项;OUTPUT OUT=数据集关键字=名称表;BY 变量表;(1)PROC REG 选项;常用的选项有:DATA=数据集指定要分析的数据集,缺省时为最新建立的数据集。
ALL 要求各种输出项。
SIMPLE 为每个变量打印简单统计量。
NOPRINT 抑制正常的打印输出。
CORR 打印模型中所有变量的相关阵。
USSCP 为所用变量打印平方和及叉积阵。
(2)LABEL :MODEL 因变量=回归变量/选项;LABEL是模型标号,可省略。
如果使用多个模型,则可给予模型标号名称,便于区别。
常用的选项有:NOPRINT 抑制回归分析结果的打印输出。
NOINT 抑制模型中常数项的出现,缺省时模型中包括常数项。
I 打印X'X的逆矩阵。
XPX 打印X'X阵。
ALL 要求各项输出。
P 打印观测值号、实测值、预测值及残差。
R 要求残差分析。
包括预测值及残差的标准误,学生化残差及COOK'S统计量D。
CLM 打印每个观测值的因变量期望值的95%可信上下限,给出参数估计的变异范围,而不是预测区间。
CLI 要求为每一个观测值打印95%可信度的上下限。
DW 要求计算DURBIN-WASTON统计量,可检验误差是否有一阶自相关。
第七章 回归分析174 PARTIAL 要求打印每个回归变量的偏回归影响图。
用SAS作回归分析RegressionAnalysis
交互项的检验
使用交互项的系数检验,判断交 互项是否显著,从而决定是否保 留交互项。
交互项模型的应用
场景
适用于研究多个因素之间相互作 用对因变量的影响,以及解释复 杂现象时使用。
06
案例分享与实战演练
案例一:使用SAS进行线性回归分析
总结词
线性回归分析是一种常用的回归分析方法,用于探索自变量和因变量之间的线 性关系。
表示为 y = f(x),其中 f 是一个非线性函数。
03
多重回归
当一个因变量受到多个自变量的影响时,可以使用多重回归分析。多重
回归模型可以表示为 y = b0 + b1x1 + b2x2 + ... + bnxn,其中 b0
是截距,b1, b2, ..., bn 是自变量的系数。
回归分析在统计学中的重要性
线性关系检验
通过散点图、残差图和正态性检验等手段,检验因变 量与自变量之间是否存在线性关系。
独立性检验
检查自变量之间是否存在多重共线性,确保自变量之 间相互独立。
误差项的独立性检验
检验误差项是否独立,即误差项与自变量和因变量是 否独立。
模型的评估与优化
模型评估
01
通过R方、调整R方、AIC等指标评估模型的拟合优度。
使用SAS进行线性回归分析
线性回归模型的建立
确定自变量和因变量
首先需要明确回归分析的目的,并确定影响因变量的自变量。
数据准备
确保数据清洗无误,处理缺失值、异常值和离群点。
模型建立
使用SAS的PROC REG或PROC GLMSELECT过程,输入自变量和 因变量,选择线性回归模型。
模型的假设检验
02
用SAS作回归分析
变量选择准则
(逐步回归)
逐步回归方式挑选有关的选项: NONE:全部进入,不加选择 FORWARD: 逐个加入 BACKWARD: 全部加入后逐个剔除 STEPWISE: 边进边出 MAXR:逐个加入和对换,使R2增加最大 MINR: 逐个加入和对换,使R2增加最小
24
回归的假设检验
原假设:简单线性模型拟合数据不比基线 模型好 b1 = 0, r = 0, |b1| 小,SS(Model) 小
备选假设:简单线性模型拟合数据比基线 模型好 b1 ^= 0, r ^= 0, |b1| 不为零,SS(Model) 大
25
R2
R 2S S(M o d el) b 1 2 S S(C -T o tal)
P R E S S (Y i Y (i))2
42
多变量线性模型的检验
在多变量回归分析输出的回归参数的t -检 验里,都是假定其它相依变量进入回 归的前提下检验该变量进入的显著性。
若模型中有两个变量有相关,在这一检验 中两者的显著性都可被隐蔽起来。所以, 这一检验结果必须小心分析。
删除变量时,必须逐个删除。并在删除每 个变量后,注意观测其它变量的p-值的 变化。
(Yi b0 b1 X i ) 2
+ (b1 b1 ) 2 ( X i X ) 2
+ n (Y b0 b1 X ) 2
= SS(error) + SS(Ind.-var) + SS(Const.)
27
预测值与置信限
预 测 值 : Yx0 b0 + b1x0 均值置信限(CLM):
相关系数是描述两个变量间线性联系程度 的统计指标
第7章 SAS统计 相关与回归分析
Байду номын сангаас程实现。
编程
提交运行后,输出结果与“分析家”程序计算结果一致。
11:25
33
线性回归分析
线性回归分析(linear regression analysis)就是指对线性
相关的两个或多个变量,寻找一个最能表达其变化关系的关 系式的过程。
回归分析的步骤:
1)依据变量之间的关系,判断其是否存在线性相关。 2)进行回归分析,对回归模型的解释能力进行拟合优度检
11:25 20
相关分析
因此,将“马力”的因素剔除后重新分析汽车“最高时
速”与汽车的“轮胎尺寸、车身自重”的关系。
1)启动“分析家”,打开
“jiaoxue.carspeed”。 点击“统计\描述性统计 \相关”,弹出相关分析 对话框。 2)将变量“max_speed, weight, circle”加入 “correlate”对话框。
数量上不严格对应的相互依存关系,称之为相 关关系。
11:25
2
相关分析
根据其分析方法和处理对象不同,相关分析可以分为
简单相关分析、偏相关分析和非参数相关分析等,我们只介 绍前面两种。
1
简单相关分析
简单相关分析主要是通过绘制散点图或计算相关系数来 分析两个变量之间的相互依存关系。
11:25
3
相关分析
11:25 8
相关分析
3)将拟分析变量“max_speed, horsepower, weight, circle”
等全部选入“correlate”对话框内。
11:25
9
相关分析
4)点击“options”按钮,弹出相关分析“选项”对话框。
系统默认“相关类型”为“pearson”,输出结果包括 “P值、常规统计量”。其他按默认设置。
应用统计分析经典复习笔记(doc 10页)
应用统计分析经典复习笔记(doc 10页)14、典型的统计软件:SPSS、MINITAB、STATISTICA、Excel 和SAS。
第二章参数估计1、估计量:用于估计总体参数的随机变量。
如样本均值,样本比例、样本方差等。
例如:样本均值就是总体均值的一个估计量。
参数用θ表示,估计量用θˆ表示。
估计值:估计参数时计算出来的统计量的具体值。
如果样本均值x=80,则80就是μ的估计值。
2、估计方法:点估计和区间估计。
其中点估计的方法包括矩估计法、顺序统计量法、最大似然法、最小二乘法。
3、点估计:用样本的估计量的某个取值直接作为总体参数的估计值,例如:用样本均值直接作为总体均值的估计。
一个点估计量的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量。
4、评价估计量的标准:无偏性(估计量抽样分布的数学期望等于被估计的总体参数)、有效性(对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效)和一致性(随着样本容量的增大,估计量的值越来越接近被估计的总体参数)。
5、区间估计:在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到。
根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。
7、置信水平:将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平。
表示为)1(α-,α为是总体参数未在区间内的比例,常用的置信水平值有99%, 95%, 90%,相应的α为0.01,0.05,0.10。
8、置信区间:由样本统计量所构造的总体参数的估计区间称为置信区间。
用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个。
9、影响区间宽度的因素:(1)总体数据的离散程度,用σ 来测度。
用SAS作回归分析
其中 S (Yˆi )
第i个观测的预测值的标准差,
是为了把数据标准化。其中Dffits越大越好,
D是different和fit的缩写说明,
第i个观测的预测值 用排除第i个观测的回归对第i个观测的预测值 p 为模型中参数的个数, n 为样本容量
回归诊断
识别有影响的观测
Proc REG 的 Model语句加选项 r 可获得 Cook D 统计量
利用余差可以考 察余差和预测值 的 散 点 图{
重要工具
也可以检验余差
分布的正态性
1.
回归诊2断.
模型合 适
3.
应改曲 线模型
不等方 差
4.
观测值 不独立
单击此处添加标题
回
归
诊
生成余差
单击此处添加标题
断
在PROC REG的model语句加上选项 p,
就
会
输出预测值和相应的余差
单击此处添加标题
PROC
RUN;
回归诊断 识别有影响 的观测
Cook D统计量度量一个观测从分析中 剔除 时参数估计值的变化
对一个观测值其 Cook D 统计量的值 超 过 4/n 时(n为样本容量),这个观测存 在 反常效应,
其中4/n只是经验,没有统一的标准。
回归诊断 识别有影响 的观测
Yˆi
Yˆ Dffitsi 度量第i 个观测对预
Predict Value 预测值
PROC REG DATA=数据集名 ; MODEL 应变量=自变量/r;
Std Err Predict 预测值标准差RUN;
Residual
余差
Std Err Predict 余差标准差
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
首先:
Sas里面提供了很多回归模型,下面列举几个膜拜一下:
···
2014.8.12相关与回归分析之CORR过程:
基本语法如下:
proccorr data=’数据集’<>;
var ;
with ;
partial ; /*选项为pearson相关系数,spearman、kendall相关系数等*/ weight ;
freq ;
by ;
run;
注:
VAR X Y;
WITH A B C;
表示将生成X与A, X与B, X与C, Y与A, Y与B, Y与C的相关矩阵
REG过程的基本语法:
procreg data=''<>;
model'dependent variable'='independent variable'<>;
var;
outputout='data name'<>;
plot'the variable that need to plot' ;
weight ;
freq ;
by;
restrict function1,function2,```;/*此句是约束方程语句*/
test function1,function2,```;
run;
注:
MODLE Y=X1 X2 X3;
RESTRICT X1+X2=1;
表示自变量X1和X2的系数和为1为条件下的回归最小二乘估计;
TRANSREG过程的基本语法:
proctransreg data=''<>;
model; /*将自变量和因变量分别转换为其他格式再求其关系式,如指数,对数,反正弦转换等*/
output;
weight;
by;
run;
NLIN过程基本语句:
procnlin data=''<>;
parameters;
model;
bounds;
der.canshu(.c anshu)=biaodashi;
id;
output;
by;
run;
注:NLIN语句用于估计非线性最小二乘或者是加权最小二乘。
LOGISTIC过程基本语句:
proclogistic data=''<>;
model;
output;
weight;
by;
run;。