变量选择

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
不存在 共线性
(二)计算相关矩阵的特征值
不存在 共线性
二、前向选择法
停止规则一:若最小的t检验值的绝对值小于 则过程终止于 该规则比较严厉。 ,
停止规则二:若最小的t检验值的绝对值小于1,则过程终止 于
三、后向剔除法
第一个停止规则:若最小的t检验值的绝对值 大于 终止于
第二个终止规则:若最小的t检验值的绝对值大于1,则终止 于
t检验 较高的剔 除阀值
缺点:当某些自变量高度相关时, 可能得不出正确结果。
重复第 一次剔 除过程
方法3 逐步回归法——FS法的修正
有进有出
本质上是前向选择法,不过在每前进一步加上附加条件: 考虑现有变量的剔除问题,这样前面剔除的变量有可能 再次被删除。关于引入或剔除的过程与FS和BE的过程 是一样的。
• 究竟应用全模型还是用子模型呢? • 若用子模型,则究竟应包含多少变量最适合。如
果全模型为真,而我们用了子模型,这就表示在
方程中丢掉了部分有用变量,相反,如果子模型
为真,而我们选用了全模型,这就表示在方程中
引入了一些无用变量。 • 下面从参数估计和预测两个角度来看一看由于模 型选择不当带来的后果。
11.5 评价回归方程的准则
• 要判断一个回归方程的实用性,必须有一个判别的准则
• 准则1 残差均方(RMS)达到最小
设回归方程中含有p项(包含常数项),RMS定义为
对于2个回归方程的比较,具有较小的RMS的回归方程 比较好的。特别的,当我们的目标是预测时,这个准则 是最贴切的。
从预测的 角度提出
VIFj刻画了 Xj与其余预测 变量之间的 线性关系
共线性的检验
方差膨胀因子
特征值
若VIFj>10 一般认为 这是模型 出现共线性的 一个征兆
条件数(最大的条件指数)
各特征值的倒数和
共线性的征兆
11.7 评价所有可能的回归模型
对每一个可能的预测变量的子集,建立对应的回归 模型,进行拟合与分析。这个方法,无论是共线性数据 还是不具有共线性的数据都一样适用。设有q个变量, 此时共有 个可能的回归模型(包含没有一个变量进入 回归方程的情况)。 当变量个数很大时,这种全面了解响应变量与预 测变量之间关系的方法,其计算量大的惊人,是不可 行的。 下面介绍的变量选择方法,不要求考察所有的回 归模型,这些方法对非共线性数据是非常有效的。对 于共线性数据,我们不推荐这些方法。
• 准则3 信息准则
该准则的目的是平衡模型选择中两个相互冲突的要求,即 拟合的精度和模型的简约性(尽可能少的变量进入模型)
在模型的变量选择中,较小的AIC值所对应的模型为优。若两个模 型的AIC值的差异不超过2,就认为两个模型的差异无足轻重。一般, 在选择模型时,我们都选择具有最小的AIC值的模型。
• 即使全模型正确,但如果其中有一些自变量对因变量影响 较小或回归系数方差过大,我们丢掉这些变量后,用子模 型去预测,可以提高预测的精度。
11.4 回归方程的用途
• 描述与建模
回归方程用于描述一个给定的过程或者一个复杂的关联系统。建立回 归方程的目的就是弄清这个复杂关联系统的本质。
• 估计和预测
当回归方程的预测或估计作为我们的主要目标时,选择变量成为寻找 具有最小均方误差的预测(或具有最小均方误差的估计)的有力工具。
AIC准则 的修正版
可以将2个非嵌套的模型进行比较
AIC准则 最大优点
对变量p的惩罚程度不同。当n>8时,BIC惩罚程度远大于AIC. BIC的准则趋向于控制过度拟合。
两者 差异
11.6 共线性和变量选择
区 分 两 类 不 同 的 情 况
预测变量不具有共线性, 即数据中没有明显的共线性现象
预测变量是共线性的, 即数据具有共线性现象
第n步:停止选择过程
缺点:后续变量的引入可能使先前 引入的变量变的不重要。
当引入的变量在检验 时不显著或所有变量 都进入回归方程时
只剔不选
方法2 后向剔除法(Backward elimination,BE法)
由多 到少
ຫໍສະໝຸດ Baidu
开始方程中包含全部自变量,然后采用一个一个剔除的 办法达到目的。 剔除标准:考虑检验中最不显著的那个变量的删除问题。 第一个应考虑删除的变量:t检验绝对值最小的变量, 若该变量在t检验中不显著,则删除;若显著,则保留, 筛选过程终止。 然后,在剩下的q-1个变量的回归方程中,再一次进行 变量剔除工作,直到不能剔除或所有变量均被剔除
11.2 问题的陈述
设Y是一个响应变量, 变量的一个线性模型为 是q个预测变量的集合。Y关于这q个
全模型
假定
是模型保留下来的变量集合,
是被删除的变量集合。考察下面两种情况下删除变量的后果。
(1)模型(11.1)中所有的回归系数
(2)模型(11.1)中回归系数
都不是0。
不是0,而 全为0
子模型
我们希望知道以下两种情况的效果
11.3 删除变量的后果
——变量选择对参数估计和预测的影响
(1) 子模型回归系数的OLS是全模型相应参数的
有偏估计
对估计的影响
(2) 子模型的参数估计方差较小 (3)当被删去变量的回归系数的大小(绝对值)比在全
模型下相应系数估计的标准差小时,
(4)基于子模型的 的估计一般会比基于全模型
的估计大
(1)子模型的预测有偏
五、利用评价准则
RMS先是随着p的增加而减小,但在后面又随着p的增 加而增加。这说明,后进入的变量对压缩均方误差没 多大作用。因此,要很好的利用Cp统计量,必须同时 考察RMS的变化,以免引起扭曲。
11.9 变量选择的一般注意事项
1、不能机械 地利用上述变量选择方法去求最优变量子集 2、变量进入或退出回归方程的次序也不应该解释为它们在 回归方程中的重要性。
两个 停止 规则
(1)FS法:若
(2)BE法:若
适用于 非共线性 场合
,过程终止;
,过程终止。
BE法 更优
11.10 对主管人员业绩的研究
若我们采用方程 这个模型的残差图(下图)也不错
四、利用Cp准则
该模型有6个预测变量,可以建立63个回归方程(不算没有预测变量, 即只有常数项的模型),这63个回归方程的(<10)值列于下表
P 2 3 3 4 3 4 4 5 3 4 4 5 4 5 5 6 1 1,2 1,3 1,2,3 1,4 1,2,4 1,3, 4 1,2,3,4 1,5 1,2,5 1,3,5 1,2,3,5 1,4, 5 1,2,4,5 1,3, 4,5 1,2,3,4,5 变量 1.41 3.26 1.11 2.51 3.19 4.99 3.09 4.49 3.41 5.26 3.11 4.51 5.16 6.97 5.09 6.48 Cp P 3 4 4 5 4 5 5 6 4 5 5 6 5 6 6 7 1,6 1,2, 6 1,3,6 1,2,3,6 1, 4, 6 1,2,4, 6 1, 3, 4, 6 1,2,3,4, 6 1, 5, 6 1,2,5,6 1, 3, 5, 6 1,2,3,5, 6 1, 4, 5, 6 1,2, 4, 5, 6 1, 3, 4, 5, 6 1,2,3,4, 5, 6 变量 3.33 5.22 1.6 3.28 4.7 6.63 3.35 5.07 5.32 7.22 3.46 5.14 6.69 8.61 5.29 7 Cp
• 控制
回归方程也可以成为解决控制问题的工具。
变量选择的两点注解
• 在多元回归方程中,没有绝对意义下的最优变量 子集,这是因为最优变量子集可能不是唯一的。 一个回归方程可能有多种用途与目的。在一种用 途下,一个变量子集是最优的,但在另一种用途 下可能就不是最优的了。 • 既然没有绝对的最优变量子集,那么就有可能存 在几个合适的变量子集,形成不同的回归方程供 我们选用。一个好的变量选择方法,不是选出唯 一的最优变量子集,而是指出若干个比较满意的 变量子集。
以前:我们考察回归方程时,并不关心预测变量是 否重要,而是关心:预测变量的函数形式是否正 确,误差项的假定是否合理等等。 然而,在实际应用中预测变量并不是事先确定的, 分析工作的第一步就是选择预测变量的集合。大 部分场合,变量选择成为回归分析的首要任务。
变量选择与函数形式的确定是相互关联的问题。
首先,我们要判断一个变量应不应该进入回归方程 其次,讨论这个变量应该以什么样的形式进入回归方程
精 诚 合 作
工 程 工业工程:谢志君、廖茂宏、 邹斯宇、李佳宁 技 术 学 管理科学与工程:程玉龙、李谚 院 吴俊洋、陈凤
大 有 作 为
第11章 变量选择
例 解 回 归 分 析
11.1 引言 11.9 变量选择的一般注意事项
11.2 问题的陈述
11.3 删除变量的后果 11.4 回归方程的用途
11.10 对主管人员业绩的研究
对预测的影响
ˆ0 p y0 ) 0 E( y
(2)子模型的预测方差较小
(3)预测
的均方误差比

• 变量选择的合理性简述如下:尽管被剔除变量的回归系数 非零,被保留变量的系数估计的方差比全模型所得到的估 计的方差小。该结论对响应变量的预测值也是成立的。 • 剔除变量所付出的代价是所得到的估计变成有偏了。然而, 在一些条件下,有偏估计的MSE会比无偏估计的方差小。 估计的偏倚会被获得更高的精度所补偿。
11.8 变量选择的方法
第一步;初始模型:
自变量 从无到有、 从少到多
只选不剔
方法1 前向选择法(forward selection,FS法)
第二步:引进第一个变量
考察每一个变量与Y的样本相关系数,取样本相关系数 绝对值最大的变量作为待选的变量
第三步:引进第二个变量
考察每一个未进入回归模型的变量,计算其与修正后的 Y的相关系数,取相关系数绝对值最大者作为待选变量。 t检验
(P,Cp)的散点图如下
基于Cp值的最优变量子集列于下表
利用Cp准则得到的子集与前边的有差异,这是由于应用Cp统计量进 行变量选择时,需要估计 ,通常估计 ,需要利用全模型。在 该例中,Cp值被扭曲了。这样,在本例中不能利用Cp统计量作为变 量选择的工具,我们只能依赖RMS进行变量选择工作。
该例中全模型所得到的 的估计偏大
11.11 共线性数据的变量选择 11.12 凶杀数据
11.5 评价回归方程的准则
11.6 共线性和变量选择
11.13 利用岭回归进行变量选择
11.14 空气污染研究中的变量选择
11.7 评价所有可能的回归模型 11.15 拟合回归模型的可能策略 11.8 变量选择的方法 11.16 文献
11.1 引言
• 全模型正确,误用子模型
某些预测变量应该进入回归模型(因为它们的回归系数不 为0),但却被排除在回归模型之外。 实际上是上述情况1,但但建立的模型为(11.2)
• 子模型正确,误用全模型
某些预测变量应该被排除在回归模型之外(因为它们的回 归系数为0)但却进入回归模型之中。 实际上是上述情况2,但但建立的模型为(11.1) 当我们了解到在回归模型中删除重要的预测变量或保留无 足轻重的变量所造成的后果时,对变量选择的意义的理解 就很清晰了。
• 准则2
Cp统计量最小(mallows,1964)
一般情况下,由回归子集构造的预测是有偏的,在此情况下,应当用 预测的均方误差作为评判的标准。下面是各观测点上标准化的预测均 方误差之和
为估计Jp,Mallows采用了统计量
CP SSE P n 2p 2 ˆ
最优方程的Cp期望值是p。应选择Cp最接 近P的回归方程为最优。
为说明变量选择方法,我们对3.3节(P46) 中的主管人员数据进行分析。 建立回归方程的目的:了解主管人员的管理 过程,以及刻画主管人员素质的变量对于他 们业绩的相对重要程度,这意味着需要精确 地估计回归系数。
一、检验共线性
(一)计算方差膨胀因子
VIF的变动范围为(1.2,3.1),这说明对这个数据集合,不会有 共线性问题。 小于10
AIC和BIC准则也可以作为逐步回归的选择准则。拿前向选择规则来说 从模型开始,加入一个变量,计算相应的AIC值(使AIC值缩减最大的 那个变量),一个一个地增加变量,直到AIC值不再减少,过程停止。 后向剔除的规则从全模型开始,一个一个地剔除变量,直到剔除变量 不再减少AIC的值,过程终止。 依据信息准则的逐步回归法与前面方法不同,前面方法是根据一个变 量的t检验的显著性程度决定一个变量的去留。信息准则完全根据信息 准则值的增减来决定变量的去留,而与变量在回归模型中的统计显著 性无关。
相关文档
最新文档