SAS相关与回归分析

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

3.相关分析的种类 实际工作中的相关问题主要包括线性相关(Linear Correlation)和秩相关(Rank Correlation), 前者属于参数统计分析方法的范畴,后者则属于 非参数统计分析方法。线性相关又称为简单相关 (Simple Correlation),适用于双变量符合正态 分布类型的数据。秩相关又称等级相关,适用于 双变量等级资料类型的数据。具体来讲,秩相关 分析方法适用于下列类型的资料: 不服从双变量正态分布而不宜做积差相关分析的数 据。 总体分布类型未知的数据。 以等级表示的数据。
6.4.3
多条回归直线的方差比较
6.5
多元线性回归分析
6.5.1多元线性回归分析的概述 1.回归分析的任务 2.自变量为定性变量的数量化方法 3.变量筛选 4.回归诊断
6.5.2 应用举例
例6.18 采用NLIN过程对方程: y=0.66617x1+1.93325x3+0.34291x40.04042x32 进行参数精确估计。对去掉第17、21两点的数 据进行模型拟合。 SAS程序:regnlin6_18.sas
6.6.2 RSREG过程语句格式 PROC RSREG 选择项1 ; MODEL 响应变量=自变量 / 选择项2 ; RIDGE 选择项3 ; WEIGHT 变量 ; ID 变量 ; BY 变量 ; RUN; PROC RSREG和MODEL语句是必须的,其 它语句用户可根据需要选择使用。
3. RIDGE 选择项3
2.用方差膨胀因子来进行共线性诊断 1)容许度(Tolerance,MODEL语句斜杠后的选项为TOL) 对一个入选变量而言,其容许度等于1-R2,这里R2是把该自 变量当作因变量对模型中所有其余回归变量的决定系数, R2大(趋于1),则1-R2=TOL小(趋于0),容许度差,该变 量不由其他变量说明的部分相对较小。 2)方差膨胀因子(VIF) VIF=1/TOL,该统计量称为“方差膨胀因子”(Variance Inflation Factor)。对于不好的试验设计,VIF的取值可 能趋于无限大。VIF达到什么数值就可认为自变量间存 在共线性,尚无正规的临界值。[陈希孺、王松桂,1987] 根据经验得出:VIF>5或10时,就有严重的多重共线性 存在。
6.3.3 应用举例
data data_prg.reg6_6a; set data_prg.reg6_6; x11=x1*x1;x22=x2*x2;x33=x3*x3; run; proc reg data=data_prg.reg6_6a; model y=x1-x3 x11 x22 x33/selection=stepwise ; model y=x1-x3 x11 x22 x33/selection=b noint; model y=x1-x3 x11 x22 x33/selection=f noint; model y=x2 x22 x33/selection=stepwise noint r cli influence collin ; run; quit;
6.6 RSREG过程(二次响应面回归过程)
6.6.1 RSREG过程说明 RSREG过程用于拟合完全二次响应曲面的回归模型。 并通过分析研究拟合曲面的形状来最佳响应的因 子水平或范围。 假定某个响应变量y在两个因子变量x1和x2的一些组 合值上被测量,关于响应变量y的二次响应曲面 回归模型为: y=0+1x1+2x2+3x12+4x22+5x1x2+ 对这样的数据进行分析一般有以下三项任务: 模型拟合及对参数估计作方差分析; 为了调查预测响应曲面的形状而进行典型相关分析; 为了寻找最佳响应的范围而进行岭嵴分析。
6.2.2 PLOT过程
PROC PLOT 选择项1 ; BY 变量 ; PLOT 垂直变量 * 水平变量 … / 选择项2 ; RUN ;
例6.3
SAS程序corr6_3.sas 此图为原始数据的散点图,纵轴为小麦结实率 y,横轴为孕穗期平均温度x1、平均最低温 度x2、抽穗期平均温度x3、平均最低温度x4, 四个二维图重叠在一起,小麦结实率y与四 个变量都有一定的相关性。
第6章 相关与回归分析
பைடு நூலகம்
6.1 相关与回归分析概述
6.1.1 相关与回归分析的任务和种类 1. 相关与回归分析基本概念 相关分析(Correlation Analysis )是用来考察两 变量间(x与y)的相互变化的关联关系。x与y的 地位是平等的,两变量间没有因果关系。 回归分析(Regression Analysis)是研究一个或多个 随机变量(称因变量)y1,y2,…yn与另一些变 量(称自变量)x1,x2,…xk关系的统计方法。 主要思想是用最小二乘法拟合因变量与自变量间 的回归模型,从而把具有不确定关系的若干变量 转化为有确定关系的方程模型来近似地分析,通 过自变量的变化预测因变量的变化趋势。
6.2.3 REG 回归过程
9.几点说明: 在REG回归分析过程中MODEL语句不能写 成: model y=x1 x1*x1 ; REG过程不能产生新的变量,如想在回归 模型中考虑变量的二次项x12(=x1*x1), 必须使用DATA步创建数据集,或构造所需 要的新变量来表示x1*x1 。 以上MODEL语句在PROC GLM中是有效 的。
程序说明:因变量y与自变量x满足负指数函数 模型:y=b0(1-e-b1x)。有两个参数b0和b1用 MARQUARDT方法求参数的最小二乘估计。 参数的初值:b0取0、0.5、1、1.5、2共5个 值,b1取0.01、0.02、……0.09共9个值,所 以可能的组合为5*9=45种,选best=10要求 输出残差平方和最小的前10种组合。
( x x)
2 ( y y )
ni ADJRSQ 1 (1 r 2 ) n p
6.1.3 直线相关与回归分析的应用举例
6.2 相关、回归过程说明
6.2.1 CORR相关过程 PROC CORR 选择项 ; VAR 变量 ; WITH 变量 ; BY 变量 ; FREQ 变量 ; WEIGHT 变量 ; RUN ;
例6.4 小麦-玉米/花生间套作肥料试验,研究 不同处理的施肥利润。变量说明:n:施氮 肥量(kg/亩)、po:施磷肥量(kg/亩)、k:施 钾肥量(kg/亩)、y:平均施肥利润(元/亩)。 分析平均施肥利润y与施氮肥量n、施磷肥量 po、施钾肥量k之间的关系。 [SAS程序reg6_4.sas]
6.6.3 应用举例
例6.20 鞍面的岭嵴分析 此例考察的指标是化学反应过程的收率,影 响收率的因素有二个:反应时间(time)和 温度(temp)。这是一个双因子模型,该模 型中所估计的曲面没有唯一最佳点。利用岭 嵴分析来决定最佳点的范围。目的是在化学 反应过程中寻找使得收率达到最大的反应时 间和温度的取值。 SAS程序rsreg6_20.sas
6.2.4 用各种回归方法筛选变量
6.3
直线回归分析
6.3.1 概述 1.回归分析中安排重复试验的目的 2.重复试验数据的收集与格式 3.重复试验数据的回归分析方法 1)建立直线回归方程 2)回归方程拟合效果的检验
6.3.2 可直线化的简单曲线拟合
2.曲线拟合的基本步骤 曲线拟合的基本步骤可概述如下: 首先画出(x,y)的散点图,根据散点图的变化趋势, 并结合常见曲线图形的形状和专业知识,初步选 定几种最可能的曲线类型; 根据所选定的曲线方程的特点,作相应的变量变换, 使曲线直线化; 建立直线化后的直线回归方程,并作显著性检验; 将变量还原,写出用原变量表达的曲线方程; 若对同一批资料拟合了几个可能的模型,需作曲线 的拟合优度检验,看它们在描述同一批资料上是 否有显著差别; 对拟合得最好的曲线方程作残差分析,考察所拟合 的曲线回归方程在专业上是否成立,是否值得应 用。
6.4
非线性回归过程NLIN
6.4.1 NLIN过程简介 PROC NLIN 选择项 ; MODEL 因变量=自变量表达式 ; PARAMETERS或PARMS 参数=数值 …… 参数=数值 ; BY 语句 ; BOUNDS 语句 ; (参数约束语句) DER 语句 ; (微商语句) OUTPUT OUT=SAS数据集,KEYWORD=变量 名 …… ; RUN ;
6.4.2 NLIN应用举例
程序说明: 先将原始数据生成SAS数据集:nlin6_11.sas7bdat, 选用牛顿法(NEWTON)进行迭代计算,因而需求 出y关于系数a、b、c、d的一阶偏导数,如果需要 求a、b、c、d的二阶混合偏导数时,只准许给出 1个der.a.b.或der.b.a. ,不能同时给出2个。其它 系数的混合偏导数要求同样。在步长搜索法没指 定时,缺省值为SMETHOD=HVALVE,即各次 迭代的步长k依次取为k=1,0.5,0.25,…;在 SMETHOD=后除选用HVALVE外,还可选用 GOLDEN(黄金分割法)、ARMGOLD和CUBIC。
程序说明:按对数曲线方程和幂函数曲线方程 分别求出各点上y的估计值yhat1和yhat2、 残差resid1和resid2、残差平方和scrs1和 scrs2。使用PLOT过程将原始数据与预测值 绘在一张图上。
6.3.4
一般多项式曲线拟合
程序说明:用DATA步建立新变量:x2、x3分别为x 对数的二次方和三次方,在MODEL语句中将这两 个新变量加入,用逐步回归法重新拟合对数曲线, 将预测值和残差值输出到数据集reg6_10out中,然 后用PLOT过程将预测值与原始数据绘制在一张图 上,从图形上可以较直观地比较预测值的效果好 坏。首先我们使用下面这条MODEL语句进行模型 拟合: model y=x1 x2 x3/selection=stepwise P cli R ; 由输出结果发现截距项在模型中不显著(输出省 略),所以添加上NOINT选项,去掉模型中的截 距项重新拟合。
2. 回归分析要解决的问题 当人们从一组对象上获得2个或多个指标的观测值时,往往需 要回答下述几个问题: 1) 如何实现预测,即如何由1个或多个指标(自变量)的值去 推算另1个或多个指标(因变量)的值。 2) 如何实现控制,即事先给出产品质量应达到的标准(自变 量的取值范围),根据变量之间的数量关系去控制那些影 响产品质量的因素(因变量)的变化区间。 3) 如何实现修匀,由于所研究的指标带有变异性,当用散布 图将变量之间的关系呈现出来时,散点所形成的轨迹并非 像数学中初等函数那样有规律,需要用合适的数学方法 (如用直线或某种光滑曲线)对资料进行修匀,使变量之 间本质联系更清楚地呈现出来。
6.2.3
回归诊断方法
1.用条件数和方差分量来进行共线性诊断 各入选变量的共线性诊断借助SAS的MODEL语句的 选择项COLLIN或COLLINOINT来完成。二者 都给出数据矩阵的特征根和条件数(Condition Number),还以百分数的形式给出各变量的方差 在各主成分上的分解(Decomposition),每个入选 变量上的方差分量之和为1。COLLIN和 COLLINOINT的区别在于后者对模型中截距项 作了校正。当截距项有显著性时,看由COLLIN 输出的结果;反之,应看由COLLINOINT输出 的结果。 1) 条件数 2)方差分量
4.回归分析的种类 如果因变量是(非时间的)连续变量(即一般定 量资料),设自变量的个数为k,当k=1时, 回归分析的种类有: 直线回归分析。 通过直线化实现的简单曲线回归分析(以下简 称为曲线拟合)。 非线性曲线拟合。 一般多项式曲线拟合。 正交多项式曲线拟合。
6.1.2 直线回归与相关分析
1. 直线回归与相关分析方法的异同点 2.散点图在这两种分析中的作用 3.直线相关分析 (x x)( y y) 4.直线回归分析 2
相关文档
最新文档