SAS学习系列24.-逐步回归

合集下载

SAS 逐步回归

SAS 逐步回归

9
九种模型
none(全回归模型). 不对回归变量进行筛选,建立与全部自变量的全回 归模型. forward(前进法). 前进法以模型中没有变量开始,对每个自变量, forward计算反映自变量对模型的贡献的F 统计量.这些 F 统计量与model语句中给出的slentry=水平上的值相比 较,如果F 统计量的显著水平没有一个比slentry=水平上 (如果缺省slentry=这个参数,则显著水平假设为0.50) 的值大,则forward停止.否则,forward在模型中加入具 有最大F 统计量的变量,然后forward再计算这些变量的F 统计量直到剩下的变量都在模型的外面,再重复估计过 程.变量就这样一个接一个地进入模型直到剩下的变量 没有一个可以产生显著的F统计量.一旦一个变量进入 了模型,它就不再出去了.
3
proc reg语句
proc reg语句用于调用reg过程.其中的语句选项较 多,功能复杂; 此处的选项将会对同一reg过程步中所有的model 语句发生作用. proc reg语句的主要选项及其功能和用法见下表.
4
proc reg语句的主要选项
选 项 alpha= corr outest= 功能和用法 为当前过程步中所创建的各种可信区间指定其置信水平( 为当前过程步中所创建的各种可信区间指定其置信水平(除某些语句中另 外设置了置信水平者外).须设置为0~1之间的值,默认值为 ).须设置为 之间的值, 外设置了置信水平者外).须设置为 之间的值 默认值为0.05. . 给出有关model语句和 语句中的所有变量的相关矩阵. 语句和var语句中的所有变量的相关矩阵 给出有关 语句和 语句中的所有变量的相关矩阵. 将参数估计值以及模型拟合过程的相应统计量(可选) 将参数估计值以及模型拟合过程的相应统计量(可选)输出到所指定的数 据集中. 据集中. 须设置为一个非负数所组成的列表(或单个数值),以列表中的每一个数 须设置为一个非负数所组成的列表(或单个数值),以列表中的每一个数 ), 值作为岭常数K进行岭回归分析 进行岭回归分析, 值作为岭常数 进行岭回归分析,并将每一次岭回归分析所得的参数估计 值输出到" 选项所指定的输出数据集中. 值输出到"outest="选项所指定的输出数据集中.输出数据集中岭常数 选项所指定的输出数据集中 输出数据集中岭常数K 存储在变量"_RIDGE_"下,相应估计值所对应的"_TYPE_"变量值为 存储在变量" 下 相应估计值所对应的" 变量值为 语句将被忽略. "RIDGE".设置此选项时,restrict语句将被忽略. .设置此选项时, 语句将被忽略 过程中所用到的变量的合计值, 将reg过程中所用到的变量的合计值,均数,方差,标准差以及未校正的 过程中所用到的变量的合计值 均数,方差, 离均差平方和等在结果中显示. 离均差平方和等在结果中显示. 将参数估计值的标准误,可信区间, 值 针对参数为零的检验假设) 将参数估计值的标准误,可信区间,t值(针对参数为零的检验假设)以 及相应的P值输出到 值输出到" 选项所指定的输出数据集中. 及相应的 值输出到"outest="选项所指定的输出数据集中. 选项所指定的输出数据集中

SAS学习系列24. 逐步回归汇总

SAS学习系列24. 逐步回归汇总

24. 逐步回归一、原理多元线性回归模型中,并不是所有的自变量都与因变量有显著关系,有时有些自变量的作用可以忽略。

这就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影响的部分自变量的问题。

逐步回归的基本思想是,将变量一个一个引入,引入变量的条件是偏回归平方和经检验是显著的,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著变量剔除,这样保证最后所得的变量子集中的所有变量都是显著的。

这样经若干步以后便得“最优”变量子集。

逐步回归每一步只有一个变量单独的回归因子引进或从当前的回归模型中剔除,当没有回归因子能够引进模型时,该过程停止。

二、步骤记引入变量F检验的临界值为Fin,剔除变量F检验的临界值为F out ,一般取Fin≥F out. 其确定原则:对k个自变量中的m个(m≤k),则记F*=F(1,N-m-1),取F in=F out= F*.一般也可以直接取Fin =Fout=2.0或2.5. 要想回归方程多进入一些自变量,甚至也可以取为1.0或1.5.1. 前进法(变量增加法)首先对全部k个自变量,分别对因变量Y建立一元回归方程,并分别计算k 个回归系数的F 检验值,记为{11211,,k F F F },记为 = max{}, 若有≥F in ,则将X i 引入回归方程,记为X 1. 接着考虑X 1分别与其它自变量与因变量Y 二元回归方程,选出最大F 值若大于F in , 则将该变量引入回归方程,记为X 2, 依次类推,直到所有末被引入回归方程的自变量的F 值均小于F in 时为止。

增加法的缺点是,它不能反映后来变化的情况,已引入的变量因为后引入的某个自变量的影响,它可能由显著变为不显著,但并没有及时从回归方程中将它剔除掉。

2. 后退法(变量减少法)首先建立全部自变量X 1,X 2,...,X k 对因变变量Y 的回归方程,然后分别求出k 个回归系数的F 值为{},记=min{},若有≤F out ,则将自变量X i 从回归方程中剔除掉。

SAS学习系列24.-逐步回归

SAS学习系列24.-逐步回归

24. 逐步回归一、原理多元线性回归模型中,并不是所有的自变量都与因变量有显著关系,有时有些自变量的作用可以忽略。

这就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影响的部分自变量的问题。

逐步回归的基本思想是,将变量一个一个引入,引入变量的条件是偏回归平方和经检验是显著的,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著变量剔除,这样保证最后所得的变量子集中的所有变量都是显著的。

这样经若干步以后便得“最优”变量子集。

逐步回归每一步只有一个变量单独的回归因子引进或从当前的回归模型中剔除,当没有回归因子能够引进模型时,该过程停止。

二、步骤记引入变量F 检验的临界值为F in ,剔除变量F 检验的临界值为F out ,一般取F in ≥F out . 其确定原则:对k 个自变量中的m 个(m ≤k ),则记F *=F(1,N-m-1),取F in =F out = F *.一般也可以直接取F in =F out =2.0或2.5. 要想回归方程多进入一些自变量,甚至也可以取为1.0或1.5.1. 前进法(变量增加法)首先对全部k 个自变量,分别对因变量Y 建立一元回归方程,并分别计算k 个回归系数的F 检验值,记为{11211,,k F F F },记为1i F = max{11211,,k F F F }, 若有1i F ≥F in ,则将X i 引入回归方程,记为X 1. 接着考虑X 1分别与其它自变量与因变量Y 二元回归方程,选出最大F 值若大于F in , 则将该变量引入回归方程,记为X 2, 依次类推,直到所有末被引入回归方程的自变量的F 值均小于F in 时为止。

增加法的缺点是,它不能反映后来变化的情况,已引入的变量因为后引入的某个自变量的影响,它可能由显著变为不显著,但并没有及时从回归方程中将它剔除掉。

2. 后退法(变量减少法)首先建立全部自变量X 1,X 2,...,X k 对因变变量Y 的回归方程,然后分别求出k 个回归系数的F 值为{11211,,k F F F },记1i F =min{11211,,k F F F },若有1i F ≤F out ,则将自变量X i 从回归方程中剔除掉。

逐步回归

逐步回归

= -0.135742 除了主对角线上的值为1外,其它的值都可以通过以 上的方法求出,得到以下矩阵:
第二步 选择第一个自变量
可以看出x1的偏回归平方和最大,所以对其进行F检验
=
0.805172 ( 0.805172( 1 1 1 ) 15 ) = 53.73
F>F0.01(1,13)=9.07 ,所以引入自变量x1 第三步 变化矩阵
列出一级和二级数据 列出一级和二级数据 计算简单相关系数矩阵
剔 除 不 显 著 自 变 量
计算算阵A 、B、cij得出 b1、b2……..
计算各自变量的偏回归平方和 并对方程和自变量做假设检验
选 入 显 著 自 变 量
选择自变量的标准偏回归 平方和最大的进行F检验 若显著则选入自变量, 不显著则终止
逐 步 回 归
逐步回归分析
1 目的:建立最优回归方程
2 方式:逐个淘汰不显著自变量和逐 个选入显著自变量
两种途径: 1、 从m元回归分析开始,每一步舍去一个步显著且 偏回归平方和最小的自变量,在每一次舍去一个偏 回归不显著且平方和最小的自变量之后,需要对回 归方程和各自变量重新假设检验,如此反复,知道 回归方程所包含的自变量全部显著为止。(计算麻 烦,工作量大) 2、 从一元回归分析开始,按各自自变量对y作用的 秩次,依次每部仅选入一个对y作用显著的自变量, 且每引入一个自变量后,对在此之前已引入的自变 量进行重新检验,有不显著的则舍弃,直到选入的 自变量都显著,而为被选入的自变量都不显著为止。 此时建立回归方程为最优回归方程。
该方程的意义是:当x2,x3保持一定时,x1 每 增加一穗,y平均增加2.01克;同理,当x1,x3 保持一定时,x2每增加一穗,y平均增加0.67 克;当x1,x2保持一定时,x3每增加1克,y 平 均增加7.83克。

sas多元线性回归

sas多元线性回归

数据清洗
去除异常值、缺失值和重复 值。
数据转换
将分类变量(如商品ID)转 换为虚拟变量(dummy variables),以便在回归中 使用。
数据标准化
将连续变量(如购买数量、 商品价格)进行标准化处理, 使其具有均值为0,标准差 为1。
模型建立与评估
残差分析
检查残差的正态性、异方差性和自相关性。
sas多元线性回归
目录 CONTENT
• 多元线性回归概述 • SAS多元线性回归的步骤 • 多元线性回归的变量选择 • 多元线性回归的进阶应用 • 多元线性回归的注意事项 • SAS多元线性回归实例分析
01
多元线性回归概述
定义与特点
定义
多元线性回归是一种统计学方法,用于研究多个自变量与因 变量之间的线性关系。通过多元线性回归,我们可以预测因 变量的值,并了解自变量对因变量的影响程度。
多元线性回归的基本假设
线性关系
自变量与因变量之间存在线性关系, 即随着自变量的增加或减少,因变量 也按一定比例增加或减少。
无多重共线性
自变量之间不存在多重共线性,即自 变量之间没有高度相关或因果关系。
无异方差性
误差项的方差恒定,即误差项的大小 不随自变量或因变量的变化而变化。
无自相关
误差项之间不存在自相关,即误差项 之间没有相关性。
03
多元线性回归的变量选择
全模型选择法
全模型选择法也称为强制纳入法,是 指将所有可能的自变量都纳入回归模 型中,然后通过逐步回归或其他方法 进行筛选。这种方法简单易行,但可 能会受到多重共线性的影响,导致模 型不稳定。
VS
在SAS中,可以使用`PROC REG`的 `MODEL`语句来实现全模型选择法, 例如

(整理)SAS讲义第三十三课逐步回归分析.

(整理)SAS讲义第三十三课逐步回归分析.

第三十三课 逐步回归分析一、 逐步回归分析在一个多元线性回归模型中,并不是所有的自变量都与因变量有显著关系,有时有些自变量的作用可以忽略。

这就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影响的部分自变量的问题。

在可能自变量的整个集合有40到60个,甚至更多的自变量的那些情况下,使用“最优”子集算法可能并不行得通。

那么,逐步产生回归模型要含有的X 变量子集的自动搜索方法,可能是有效的。

逐步回归方法可能是应用最广泛的自动搜索方法。

这是在求适度“好”的自变量子集时,同所有可能回归的方法比较,为节省计算工作量而产生的。

本质上说,这种方法在每一步增加或剔除一个X 变量时,产生一系列回归模型。

增加或剔除一个X 变量的准则,可以等价地用误差平方和缩减量、偏相关系数或F 统计量来表示。

无疑选择自变量要靠有关专业知识,但是作为起参谋作用的数学工具,往往是不容轻视的。

通常在多元线性模型中,我们首先从有关专业角度选择有关的为数众多的因子,然后用数学方法从中选择适当的子集。

本节介绍的逐步回归法就是人们在实际问题中常用的,并且行之有效的方法。

逐步回归的基本思想是,将变量一个一个引入,引入变量的条件是偏回归平方和经检验是显著的,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著变量剔除,这样保证最后所得的变量子集中的所有变量都是显著的。

这样经若干步以后便得“最优”变量子集。

逐步回归是这样一种方法,使用它时每一步只有一个单独的回归因子引进或从当前的回归模型中剔除。

Efroymoson (1966)编的程序中,有两个F 水平,记作F in 和F out ,在每一步时,只有一个回归因子,比如说X i ,如果剔除它可能引起RSS 的减少不超过残差均方MSE (即ESS/(N-k-1))的F out 倍,则将它剔除;这就是在当前的回归模型中,用来检验 βi =0的F 比=MSE x x x RSS x x x x RSS i i i /)),,(),,,((121121---ΛΛ是小于或等于F out 。

SAS第三十三课逐步回归分析

SAS第三十三课逐步回归分析

第三十三课 逐步回归分析一、 逐步回归分析在一个多元线性回归模型中,并不是所有的自变量都与因变量有显著关系,有时有些自变量的作用可以忽略。

这就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影响的部分自变量的问题。

在可能自变量的整个集合有40到60个,甚至更多的自变量的那些情况下,使用“最优”子集算法可能并不行得通。

那么,逐步产生回归模型要含有的X 变量子集的自动搜索方法,可能是有效的。

逐步回归方法可能是应用最广泛的自动搜索方法。

这是在求适度“好”的自变量子集时,同所有可能回归的方法比较,为节省计算工作量而产生的。

本质上说,这种方法在每一步增加或剔除一个X 变量时,产生一系列回归模型。

增加或剔除一个X 变量的准则,可以等价地用误差平方和缩减量、偏相关系数或F 统计量来表示。

无疑选择自变量要靠有关专业知识,但是作为起参谋作用的数学工具,往往是不容轻视的。

通常在多元线性模型中,我们首先从有关专业角度选择有关的为数众多的因子,然后用数学方法从中选择适当的子集。

本节介绍的逐步回归法就是人们在实际问题中常用的,并且行之有效的方法。

逐步回归的基本思想是,将变量一个一个引入,引入变量的条件是偏回归平方和经检验是显著的,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著变量剔除,这样保证最后所得的变量子集中的所有变量都是显著的。

这样经若干步以后便得“最优”变量子集。

逐步回归是这样一种方法,使用它时每一步只有一个单独的回归因子引进或从当前的回归模型中剔除。

Efroymoson (1966)编的程序中,有两个F 水平,记作F in 和F out ,在每一步时,只有一个回归因子,比如说X i ,如果剔除它可能引起RSS 的减少不超过残差均方MSE (即ESS/(N-k-1))的F out 倍,则将它剔除;这就是在当前的回归模型中,用来检验 βi =0的F 比=MSE x x x RSS x x x x RSS i i i /)),,(),,,((121121--- 是小于或等于F out 。

SAS学习系列24. 逐步回归

SAS学习系列24. 逐步回归

24. 逐步回归一、原理多元线性回归模型中,并不是所有的自变量都与因变量有显著关系,有时有些自变量的作用可以忽略。

这就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影响的部分自变量的问题。

逐步回归的基本思想是,将变量一个一个引入,引入变量的条件是偏回归平方和经检验是显著的,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著变量剔除,这样保证最后所得的变量子集中的所有变量都是显著的。

这样经若干步以后便得“最优”变量子集。

逐步回归每一步只有一个变量单独的回归因子引进或从当前的回归模型中剔除,当没有回归因子能够引进模型时,该过程停止。

二、步骤记引入变量F检验的临界值为Fin,剔除变量F检验的临界值为F out ,一般取Fin≥F out. 其确定原则:对k个自变量中的m个(m≤k),则记F*=F(1,N-m-1),取F in=F out= F*.一般也可以直接取Fin =Fout=2.0或2.5. 要想回归方程多进入一些自变量,甚至也可以取为1.0或1.5.1. 前进法(变量增加法)首先对全部k个自变量,分别对因变量Y建立一元回归方程,并分别计算k 个回归系数的F 检验值,记为{11211,,k F F F },记为 = max{}, 若有≥F in ,则将X i 引入回归方程,记为X 1. 接着考虑X 1分别与其它自变量与因变量Y 二元回归方程,选出最大F 值若大于F in , 则将该变量引入回归方程,记为X 2, 依次类推,直到所有末被引入回归方程的自变量的F 值均小于F in 时为止。

增加法的缺点是,它不能反映后来变化的情况,已引入的变量因为后引入的某个自变量的影响,它可能由显著变为不显著,但并没有及时从回归方程中将它剔除掉。

2. 后退法(变量减少法)首先建立全部自变量X 1,X 2,...,X k 对因变变量Y 的回归方程,然后分别求出k 个回归系数的F 值为{},记=min{},若有≤F out ,则将自变量X i 从回归方程中剔除掉。

用SAS作回归分析

用SAS作回归分析

用SAS 作回归分析前面我们介绍了相关分析,并且知道变量之间线性相关的程度可以通过相关系数来衡量。

但在实际工作中,仅仅知道变量之间存在相关关系往往是不够的,还需要进一步明确它们之间有怎样的关系。

换句话说,实际工作者常常想知道某些变量发生变化后,另一个相关变量的变化程度。

例如,第六章中已经证明消费和收入之间有很强的相关关系,而且也知道,消费随着收入的变化而变化,问题是当收入变化某一幅度后,消费会有多大的变化?再比如,在股票市场上,股票收益会随着股票风险的变化而变化。

一般来说,收益和风险是正相关的,也就是说,风险越大收益就越高,风险越小收益也越小,著名的资本资产定价模型(CAPM )正说明了这种关系。

现在的问题是当某个投资者知道了某只股票的风险后,他能够预测出这只股票的平均收益吗?类似这类通过某些变量的已知值来预测另一个变量的平均值的问题正是回归分析所要解决的。

第一节 线性回归分析方法简介一、回归分析的含义及其所要解决的问题“回归”(Regression)这一名词最初是由19世纪英国生物学家兼统计学家F.Galton(F.高尔顿)在一篇著名的遗传学论文中引入的。

高尔顿发现,虽然有一个趋势:父母高,儿女也高;父母矮,儿女也矮,但给定父母的身高,儿女辈的平均身高却趋向于或者“回归”到全体人口的平均身高的趋势。

这一回归定律后来被统计学家K.Pearson 通过上千个家庭成员身高的实际调查数据进一步得到证实,从而产生了“回归”这一名称。

当然,现代意义上的“回归”比其原始含义要广得多。

一般来说,现代意义上的回归分析是研究一个变量(也称为因变量Dependent Variable 或被解释变量Explained Variable )对另一个或多个变量(也称为自变量Independent Variable 或Explanatory Variable )的依赖关系,其目的在于通过自变量的给定值来预测因变量的平均值或某个特定值。

逐步回归分析

逐步回归分析

②取模型外自变量的最大贡献值,即
V (2) k2
max
一切j k1
V
j
2
计算
F
S
2
E
Vk22
n 21
~F(1,n-2-1),
其中
S
2
E
ST
Vk22 ,
若 建立F 的 F回1归1,方n 程2即1最,优则回筛归选方结程束;,第一步中所
若 F F1 1, n 2 1 ,则选 xk2进入模型,将
A)
lnS
E
A
l
ln n
n
达到最小
(5)修正 R 2 准则
R2 1 n i (1 R2 ) 达到最大
nl
4.6.2 选择最优回归子集的方法 (1)选择最优子集的简便方法:
逐步筛选法(STEPWISE) 向前引入法或 前进法(FORWARD) 向后剔除法或后退法(BACKWARD)
(2)计算量最大的全子集法:
为: ,记
F l1 l 1
,
Fl
l 1 2
,
,
Fml 1
F l1 kl 1
max
F l1 l 1
,
F l1 l2
,,
F l1 m
若 得到Fk的ll11回 归F方(1,程n ,(即l 为1)最 1优),的停回止归筛方选程,;上一步
若 进行Fk下ll11 一 F步 (筛1, n选。(l 1) 1),将 xkl1 选进模型,
优的回归方程。
k2

从模型中剔除,不妨设x 就是x ,进入步骤 一元回归方程;
①按
计算各自变量的贡献
是xm,进入步骤(2)。
k2
m-1
(3); 基本思想:逐个引入自变量,每次引入对y影响

SAS系统和数据分析逐步回归分析

SAS系统和数据分析逐步回归分析
stepwise过程提供的九种模型
(1)"。必(全回归模型)。没有对回归变量进行筛选, 建立y与全部自变量的全回归模型。
(2)forward(向前选择)。向前选择技术以模型中 没有变量开始,对每个自变量,forward计算反 映自变量对模型的贡献的F统计量。这些F统 计量与model语句中给岀的$胁1/口=水平上的 值相比较,如果F统计量的显著水平没有一个 比slentry=水平上(如果缺省slentry=这个参 数,则显著水平假设为0.50)的值大,则"nvaM停止。否则,forward在模型中加入具有最大F统 计量的变量,然后forward再计算这些变量的F统计量直到剩下的变量都在模型的外面,再重复 估计过程。变量就这样一个接一个地进入模型直上海财经大学经济信息管理系IS/SHUFE
的平方和分解公式为:
TSS = RSS(X\
这时,回归平方和从
RSS(X|,X2,…X_,X冲…同时残差也发生相应的变化。 残差平 方和从ESS(X\,X»…,Xi,…X)增 加 到
ESSgX"…,X^Xg…X,对回归平方和的贡献,也等 价于删除/后残差平方和所增加的量,同理可表示
为:
比=/?SS(X「X2,…,X:,…X/)_RSS(X|,X2,…,Xi,X田…XJ
但是,向后剔除法有一个优点,它可以使使用者 明白含有许多变量模型的复杂性。
五、stepwise逐步回归过程
stepwise过程对逐步回归提供了九种方法。当
你有许多自变量且想找出哪些自变量是该选入回 归模型时,stepwise是有用的。
由于stepwise可以使你深入地了解自变量与 因变量或响应变量之间的关系,因此,它对考察 分析是很有帮助的。但是,stepwise并不能保证给 你“最好”的模型,甚至具有最大疋的模型也不 一定是“最好”的,并且靠这些均值演变得来的

用SAS来实现回归

用SAS来实现回归

SAS学习实习报告题目:Project-2姓名: 许小平学号:20100084180指导老师:龚进容2011年 01月引言:某种疾病爆发,其患者总是或多或少都具有一些共同的特征,例如他们生活的自然环境,偏好的饮食习惯,所处的地理位置,社会环境,等等。

研究这些特征,找出爆发这种疾病的影响因素,便于采取有效的措施预防和控制这种疾病的蔓延。

这种研究无论是在医学上还是在人类发展史上都具有十分重要的意义。

一、数据的描述本案例是对同一个城市的两个地区的可能爆发某种疾病的调查,它有196个样本观测值,每个观测值包括以下5个变量:被调查者的年龄(Age )、被调查者的社会地位(Soc-s )(其中1表示处于上流社会,2表示中产阶级,3表示下层社会)、被调查者所在的地区(Sector )(其中1表示地区1,2表示地区2)、被调查者是否患有该种疾病(Disease )(其中0表示没有患这种疾病,1表示患有这种疾病)以及被调查者是否有储蓄存款(Save )(其中,0表示没有储蓄存款,1表示有储蓄存款)。

对此数据的描述性统计结果如下表所示:表1 “疾病爆发”数据的描述性统计分析根据此数据建立适当的模型,看这些变量对疾病的爆发是否有显著影响,影响程度如何。

二、目的1.建立一个合适Logistic 模型,看这些变量中哪些变量对疾病的爆发有显著影响,影响程度如何,从而可以对疾病的预防与控制提出适当的建议,以便采取有效措施。

2.在建模的过程中帮助我们复习Logistic 回归分析,加深对的理论知识的学习。

同时也熟悉对SAS 统计软件的操作能力。

3.加强我们的动手能力与实践能力,对应用统计有更深的认识。

三、建立模型的基本理论对于被解释变量是定性数据的情况,通常是建立Logistic 模型。

以二分变量为例: Y iProb(Y i ) 1P(Y i =1)= πi P(Y i =0)= 1-πi P(Y i =k)= k 1i k i )1(-π-π, k=0,1对于只有一个解释变量的情况,在X i 水平下得到的Y i =1的概率为:ii X X i e e 10101}E{Y 1) P(Y i i ββββπ+++====由此,得到的Logistic 函数为:i i i X 101ln ββππ+=⎪⎪⎭⎫ ⎝⎛-其中,1β表示X i 每增加一个单位,对数机会比率(ln-odds )就会相应增加1β个单位。

SAS学习系列26. 逐步回归

SAS学习系列26. 逐步回归

26.逐步回归一、原理多元线性回归模型中,并不是所有的自变量都与因变量有显著关系,有时有些自变量的作用可以忽略。

这就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影响的部分自变量的问题。

逐步回归的基本思想是,将变量一个一个引入,引入变量的条件是偏回归平方和经检验是显著的,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著变量剔除,这样保证最后所得的变量子集中的所有变量都是显著的。

这样经若干步以后便得“最优”变量子集。

逐步回归每一步只有一个变量单独的回归因子引进或从当前的回归模型中剔除,当没有回归因子能够引进模型时,该过程停止。

二、步骤记引入变量尸检验的临界值为F inf剔除变量产检验的临界值为EW,一般取F加^F out.其确定原则:对。

个自变量中的旭个(mW勒则记F⅛(l,N-m-l),取F in=F out=尸一般也可以直接取F in=F out=2.0或2.5.要想回归方程多进入一些自变量,甚至也可以取为1.0或1.5.1.前进法(变量增加法)首先对全部攵个自变量,分别对因变量Y建立一元回归方程,并分别计算Z个回归系数的尸检验值,记为{斤,&••£},记为却= max{RF*∙E},若有EN七,则将Xi引入回归方程,记为Xi.接着考虑X1分别与其它自变量与因变量Y二元回归方程,选出最大F值若大于K力,则将该变量引入回归方程,记为X2,依次类推,直到所有末被引入回归方程的自变量的产值均小于F加时为止。

增加法的缺点是,它不能反映后来变化的情况,已引入的变量因为后引入的某个自变量的影响,它可能由显著变为不显著,但并没有及时从回归方程中将它剔除掉。

2.后退法(变量减少法)首先建立全部自变量Xι,X2,…,X*对因变变量Y的回归方程,然后分别求出%个回归系数的尸值为{6㈤,…6},记斤二min{k㈤,…婷},若有尸「《七”则将自变量Xi从回归方程中剔除掉。

以此类推,直到在回归方程中的自变量的产值均大于F out为止。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

24. 逐步回归一、原理多元线性回归模型中,并不是所有的自变量都与因变量有显著关系,有时有些自变量的作用可以忽略。

这就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影响的部分自变量的问题。

逐步回归的基本思想是,将变量一个一个引入,引入变量的条件是偏回归平方和经检验是显著的,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著变量剔除,这样保证最后所得的变量子集中的所有变量都是显著的。

这样经若干步以后便得“最优”变量子集。

逐步回归每一步只有一个变量单独的回归因子引进或从当前的回归模型中剔除,当没有回归因子能够引进模型时,该过程停止。

二、步骤记引入变量F检验的临界值为Fin,剔除变量F检验的临界值为F out ,一般取Fin≥F out. 其确定原则:对k个自变量中的m个(m≤k),则记F*=F(1,N-m-1),取F in=F out= F*.一般也可以直接取Fin =Fout=2.0或2.5. 要想回归方程多进入一些自变量,甚至也可以取为1.0或1.5.1. 前进法(变量增加法)首先对全部k个自变量,分别对因变量Y建立一元回归方程,并分别计算k 个回归系数的F 检验值,记为{11211,,k F F F },记为 = max{}, 若有≥F in ,则将X i 引入回归方程,记为X 1. 接着考虑X 1分别与其它自变量与因变量Y 二元回归方程,选出最大F 值若大于F in , 则将该变量引入回归方程,记为X 2, 依次类推,直到所有末被引入回归方程的自变量的F 值均小于F in 时为止。

增加法的缺点是,它不能反映后来变化的情况,已引入的变量因为后引入的某个自变量的影响,它可能由显著变为不显著,但并没有及时从回归方程中将它剔除掉。

2. 后退法(变量减少法)首先建立全部自变量X 1,X 2,...,X k 对因变变量Y 的回归方程,然后分别求出k 个回归系数的F 值为{},记=min{},若有≤F out ,则将自变量X i 从回归方程中剔除掉。

以此类推,直到在回归方程中的自变量的F 值均大于F out 为止。

减少法的缺点是,一开始把全部变量都引入回归方程,这样计算量比较大。

3. 逐步筛选法(变量增减法)在实际的数据中,自变量X 1,X 2,...,X k 之间往往并不是独立的,而是有一定的相关性存在的,这就会使得随着回归方程中变量的增加和减少,某些自变量对回归方程的贡献也会发生变化。

因此将前两种方法综合起来,也就是对每一个自变量,随着其对回归方程贡献的变化,它随时可能被引入回归方程或被剔除出去,最终的回归模型是在回归方程中的自变量均为显著的,不在回归方程中1i F 11211,,k F F F 1i F 11211,,k F F F 1i F 11211,,k F F F 1i F的自变量均不显著。

三、需要注意的问题1. 实际中,往往不使用每次计算出的F in和F out, 而是使用固定的F 值(避免出现F in< F out, 造成死循环);2. 自变量进入模型的顺序并不反映它们的重要程度;3. 逐步回归方法的一个局限是,预先假定有单一的最优X变量子集,也可能还有其它最优选择;4. 逐步回归方法的另一个缺点是,当X变量高度相关时,有时会得到不合理的“最优”子集。

四、PROC REG过程步基本语法:PROC REG data = 数据集;MODEL 因变量= 自变量列表</SELECTION=选项>;SELECTION=选项用于逐步回归中选择合适的建立模型方法:none——全部变量都选forward——前进法backward——后退法stepwise——逐步筛选法maxr ——最大R 2增量法 minr ——最小R 2增量法 rsquare ——R 2选择法 cp ——Mallow's Cp 选择法 adjrsq ——修正的R 2选择法注:在前进法、后退法或逐步回归的变量选择过程中,都有一个判断是否可进入或剔除的显著水平,分别由model 语句的选项slentry=和slstay =设定的:start= s 指定先从s 个自变量的回归模型开始; stop=s 指定找到s 个自变量的回归模型结束;Mallows 的C p 统计量——是由Mallows 提出的作为选择模型的判别式的变量。

C p 是一个误差平方总和的量度:)2(P N MSEESS C p P其中,P 是模型中包括截距项的参数个数,MSE 是满模型时均方误差,ESS p 是具有P 个自变量(包括截距项)回归模型的误差平方和。

作C p 与P 的曲线图,Matlows 建议取C p 首次接近P 的地方的模型。

常用的输出可选项:STB——输出标准化偏回归系数矩阵CORRB——输出参数估计矩阵COLLINOINT——对自变量进行共线性分析P——输出个体观测值、预测值及残差(R/CLM/CLI包含P)R——输出每个个体观测值、残差及标准误差CLM——输出因变量均值95%的置信界限的上下限CLI——对各预测值输出95%的置信界限的上下限MSE——要求输出随机扰动项方差σ2的估计2ˆ与残差分析有关的可选项VIF——输出变量间相关性的方差膨胀系数,VIF越大,说明由于共线性存在,使方差变大;COLLIN——输出条件数,它表示最大的特征值与每个自变量特征值之比的平方根。

一般情况下,条件数越大越可能存在共线性;TOL——表示共线性水平的容许值,TOL越小说明其可用别的自变量解释的部分多,自然可能与别的自变量存在共线性关系;DW——输出Durbin-Watson统计量;influence——对异常点进行诊断,对每一观测点输出统计量(Cook’s D > 50%, defits/debetas > 2说明该点影响较大)。

2. 绘制回归分析的图形在PROC REG过程步加入绘图选项语句即可。

基本语法:PROC REG data = 数据集PLOTS = (图形类型);可选的绘图类型:FITPLOT——带回归线、置信预测带的散点图;RESIDUALS——自变量的残差图;DIAGNOSTICS——诊断图(包括下面各图);COOKSD——Cook's D统计量图;OBSERVEDBYPREDICTED——根据预测值的因变量图;QQPLOT ——检验残差正态性的QQ图;RESIDUALBYPREDICTED——根据预测值的残差图;RESIDUALHISTOGRAM——残差的直方图;RFPLOT——残差拟合图;RSTUDENTBYLEVERAGE——杠杆比率的学生化残差图;RSTUDENTBYPREDICTED——预测值的学生化残差图;注:残差图(RESIDUALS)和诊断图(DIAGNOSTICS)是自动生成的,根据模型也有其它默认的图形输出;若只绘制指定的图形需要加上ONLY:PROC REG data = 数据集 PLOTS(ONLY) = (图形类型);例1用逐步回归模型,来研究耗氧量的是如何依赖其它变量的。

31位成年人心肺功能的调查数据(见下表)代码:data fitness ;input age weight oxygen runtime rstpulse runpulse maxpulse;datalines;44 89.47 44.609 11.37 62 178 18240 75.07 45.313 10.07 62 185 18544 85.84 54.297 8.65 45 156 16842 68.15 59.571 8.17 40 166 17238 89.02 49.874 9.22 55 178 18047 77.45 44.811 11.63 58 176 17640 75.98 45.681 11.95 70 176 18043 81.19 49.091 10.85 64 162 17044 81.42 39.442 13.08 63 174 17638 81.87 60.055 8.63 48 170 18644 73.03 50.541 10.13 45 168 16845 87.66 37.388 14.03 56 186 19245 66.45 44.754 11.12 51 176 17647 79.15 47.273 10.60 47 162 16454 83.12 51.855 10.33 50 166 17049 81.42 49.156 8.95 44 180 18551 69.63 40.836 10.95 57 168 17251 77.91 46.672 10.00 48 162 16848 91.63 46.774 10.25 48 162 16449 73.37 50.388 10.08 76 168 16857 73.37 39.407 12.63 58 174 17654 79.38 46.080 11.17 62 156 16552 76.32 45.441 9.63 48 164 16650 70.87 54.625 8.92 48 146 15551 67.25 45.118 11.08 48 172 17254 91.63 39.203 12.88 44 168 17251 73.71 45.790 10.47 59 186 18857 59.08 50.545 9.93 49 148 15549 76.32 48.673 9.40 56 186 18848 61.24 47.920 11.50 52 170 17652 82.78 47.467 10.50 53 170 172;run;proc reg data= fitness;model oxygen = age weight rstpulse maxpulse runpulse runtime /selection=stepwise ;run;运行结果:逐步选择: 第 1 步变量 runtime 已输入: R 方 = 0.7434 和 C(p) = 13.5198条件数字的边界: 1, 1逐步选择: 第 2 步变量 age 已输入: R 方 = 0.7642 和 C(p) = 12.2249条件数字的边界: 1.0369, 4.1478逐步选择: 第 3 步变量 runpulse 已输入: R 方 = 0.8111 和 C(p) = 6.8278条件数字的边界: 1.3548, 11.597逐步选择: 第 4 步变量 maxpulse 已输入: R 方 = 0.8368 和 C(p) = 4.7661条件数字的边界: 8.4182, 76.851留在模型中的所有变量的显著性水平都为 0.1500。

相关文档
最新文档