SAS软件应用之多元线性回归与相关
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多重共线性
❖ 回归分析是一种比较成熟的预测模型,也是在 预测过程中使用较多的模型,在自然科学管理 科学和社会经济中有着非常广泛的应用,但 是经典的最小二乘估计,必需满足一些假设 条件,多重共线性就是其中的一种。实际上, 解释变量间完全不相关的情形是非常少见的, 大多数变量都在某种程度上存在着一定的共 线性,而存在着共线性会给模型带来许多不 确定性的结果。
❖ 向前引入法有一个明显的缺点,就是由于各 自变量可能存在着相互关系,因此后续变量 的选Baidu Nhomakorabea可能会使前面已选入的自变量变得不 重要。这样最后得到的“最优”回归方程可 包含一些对Y影响不大的自变量。
回归变量的选择与逐步回归
❖ 向后剔除法与向前引入法正好相反,首先将全部m个自变量 引入回归方程,然后逐个剔除对因变量Y作用不显著的自变 量。具体地说,从回归式m个自变量中选择一个对Y贡献最 小的自变量,比如,将它从回归方程中剔除;然后重新计算 Y与剩下的m-1个自变量回归方程,再剔除一个贡献最小的 自变量,比如,依次下去,直到得到“最优”回归方程为止。 向后剔除法中终止条件与向前引入法类似。
的m-2个自变量中选择一个变量,使得 xi1,xi2,xi3
联合起来回归效果最好,...如此下去,直至得到 “最优”回归方程为止。
回归变量的选择与逐步回归
❖ 向前引入法中的终止条件为,给定显著性水 平,当某一个对将被引入变量的回归系数作 显著性检查时,若p-value≥,则引入变量的 过程结束,所得方程即为“最优”回归方程。
回归变量的选择与逐步回归
❖ 在实际问题中, 人们总是希望从对因变量有影响的诸多变量 中选择一些变量作为自变量, 应用多元回归分析的方法建立 “最优”回归方程以便对因变量进行预报或控制,这就涉及 到自变量选择的问题。所谓“最优”回归方程, 主要是指希 望在回归方程中包含所有对因变量影响显著的自变量而不包 含对影响不显著的自变量的回归方程。
❖ I =1,2,…n,则称其存在近似的多重共线性。
多重共线性
❖ 当存在严重的多重共线性时,会给回归系数的统计 检验造成一定的困难,可能造成F检验获得通过,T 检验却不能够通过。在自变量高度相关的情况下, 估计系数的含义有可能与常识相反。在进行预测时, 因为回归模型的建立是基于样本数据的,多重共线 性也是指抽样的数据。如果把建立的回归模型用于 预测,而多重共线性问题在预测区间仍然存在,则 共线性问题对预测结果不会产生特别严重的影响, 但是如果样本数据中的多重共线性发生了变化则预 测的结果就不能完全的确定了。
回归变量的选择与逐步回归
❖ 它的主要思路是在考虑的全部自变量中按其对的作用大小, 显著程度大小或者说贡献大小,由大到小地逐个引入回归方 程,而对那些对作用不显著的变量可能始终不被引人回归方 程。另外,己被引人回归方程的变量在引入新变量后也可能 失去重要性,而需要从回归方程中剔除出去。引人一个变量 或者从回归方程中剔除一个变量都称为逐步回归的一步,每 一步都要进行检验,以保证在引人新变量前回归方程中只含 有对影响显著的变量,而不显著的变量已被剔除。
第10章 多元线性回归与相关
多元线性回归
❖ 多元线性回归分析也称为复线性回归分析, 它是一元线性回归分析或简单线性回归分析 的推广,它研究的是一组自变量如何直接影 响一个因变量。这里的自变量指的是能独立 自由变化的变量,一般用x表示;因变量y指 的是非独立的、受其它变量影响的变量,一 般用y表示。由于多元线性回归分析(包括一 元线性回归分析)仅涉及到一个因变量,所 以有时也称为单变量线性回归分析。
多重共线性
❖ 设回归模型 y β 0 β 1x1 β 2x2 β p p x ε如果矩阵X的 列向量存在一组不全为零的数,
k 0 .k 1 .k 2 k p 使 k 0 k 1 x i 1 k 2 x i2 k p x ip 0
❖ I =1,2,…n,则称其存在完全共线性,如果,
k 0 k 1 x i1 k 2 x i2 k p x ip 0
❖ 选择“最优”回归方程的变量筛选法包括逐步回归 法,向前引入法和向后剔除法。
❖ 向前引入法是从回归方程仅包括常数项开始,把自 变量逐个引入回归方程。具体地说,先在m个自变 量中选择一个与因变量线性关系最密切的变量,记 为,然后在剩余的m-1个自变量中,再选一个,使 得 xi1,xi2联合起来二元回归效果最好,第三步在剩下
❖ 在回归方程中若漏掉对Y影响显著的自变量,那么建立的回 归式用于预测时将会产生较大的偏差。但回归方程若包含的 变量太多,且其中有些对Y影响不大,显然这样的回归式不 仅使用不方便,而且反而会影响预测的精度。因而选择合适 的变量用于建立一个“最优”的回归方程是十分重要的问题。
回归变量的选择与逐步回归
❖ 向后剔除法的缺点在于,前面剔除的变量有可能因以后变量 的剔除,变为相对重要的变量,这样最后得到的“最优”回 归方程中有可能漏掉相对重要的变量。
回归变量的选择与逐步回归
❖ 逐步回归法是上述两个方法的综合。向前引入中被 选入的变量,将一直保留在方程中。向后剔除法中 被剔除的变量,将一直排除在外。这两种方程在某 些情况下会得到不合理的结果。于是,可以考虑到, 被选入的的变量,当它的作用在新变量引入后变得 微不足道时,可以将它删除;被剔除的变量,当它 的作用在新变量引入情况下变得重要时,也可将它 重新选入回归方程。这样一种以向前引入法为主, 变量可进可出的筛选变量方法,称为逐步回归法。
❖ 首先给出引入变量的显著性水平和剔除变量的显著性水平, 然后筛选变量。
回归变量的选择与逐步回归
回归变量的选择与逐步回归
❖ 逐步回归分析的实施过程是每一步都要对已引入回归方程的 变量计算其偏回归平方和(即贡献),然后选一个偏回归平 方和最小的变量,在预先给定的水平下进行显著性检验,如 果显著则该变量不必从回归方程中剔除,这时方程中其它的 几个变量也都不需要剔除(因为其它的几个变量的偏回归平 方和都大于最小的一个更不需要剔除)。相反,如果不显著, 则该变量要剔除,然后按偏回归平方和由小到大地依次对方 程中其它变量进行检验。将对影响不显著的变量全部剔除, 保留的都是显著的。接着再对未引人回归方程中的变量分别 计算其偏回归平方和,并选其中偏回归平方和最大的一个变 量,同样在给定水平下作显著性检验,如果显著则将该变量 引入回归方程,这一过程一直继续下去,直到在回归方程中 的变量都不能剔除而又无新变量可以引入时为止,这时逐步 回归过程结束。