第10章 多元线性回归与相关

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第10章 多元线性回归与相关 章
学习目标
熟悉多元线性回归模型矩阵形式; 掌握多元线性回归模型、参数估计过程及参 数的解释, 标准化参数估计值; 了解多元线性回归共线性的诊断问题; 理解复相关系数与偏相关系数; 掌握多元线性回归的SAS程序(REG过程以 及选项)。 熟悉计算偏相关系数的SAS程序。
r12,3 = r
x1 x 2, x 3
=
rx x rx x • rx x 1 − (r x x ) 1 − (r x x ) 1 3 2 3
1 2

1
3
2
3
2Biblioteka Baidu
2
偏向关系数
多元线性回归
多元线性回归分析也称为复线性回归分析, 它是一元线性回归分析或简单线性回归分析 的推广,它研究的是一组自变量如何直接影 响一个因变量。这里的自变量指的是能独立 自由变化的变量,一般用x表示;因变量y指 的是非独立的、受其它变量影响的变量,一 般用y表示。由于多元线性回归分析(包括一 元线性回归分析)仅涉及到一个因变量,所 以有时也称为单变量线性回归分析。
回归变量的选择与逐步回归
回归变量的选择与逐步回归
逐步回归分析的实施过程是每一步都要对已引入回归方程的 变量计算其偏回归平方和(即贡献),然后选一个偏回归平 方和最小的变量,在预先给定的水平下进行显著性检验,如 果显著则该变量不必从回归方程中剔除,这时方程中其它的 几个变量也都不需要剔除(因为其它的几个变量的偏回归平 方和都大于最小的一个更不需要剔除)。相反,如果不显著, 则该变量要剔除,然后按偏回归平方和由小到大地依次对方 程中其它变量进行检验。将对影响不显著的变量全部剔除, 保留的都是显著的。接着再对未引人回归方程中的变量分别 计算其偏回归平方和,并选其中偏回归平方和最大的一个变 量,同样在给定水平下作显著性检验,如果显著则将该变量 引入回归方程,这一过程一直继续下去,直到在回归方程中 的变量都不能剔除而又无新变量可以引入时为止,这时逐步 回归过程结束。
多重共线性
设回归模型 y =β0 + β1x1 + β2 x2 +…βp xp + ε如果矩阵X的 列向量存在一组不全为零的数,
k 0 .k1.k 2 … k p 使 k 0 + k1 xi1 + k 2 xi 2 + … k p xi p = 0
I =1,2,…n,则称其存在完全共线性,如果,
k 0 + k 1 x i1 + k 2 x i 2 + … k p x i p ≈ 0
回归变量的选择与逐步回归
在实际问题中, 人们总是希望从对因变量有影响的诸多变量 中选择一些变量作为自变量, 应用多元回归分析的方法建立 “最优”回归方程以便对因变量进行预报或控制,这就涉及 到自变量选择的问题。所谓“最优”回归方程, 主要是指希 望在回归方程中包含所有对因变量影响显著的自变量而不包 含对影响不显著的自变量的回归方程。 在回归方程中若漏掉对Y影响显著的自变量,那么建立的回 归式用于预测时将会产生较大的偏差。但回归方程若包含的 变量太多,且其中有些对Y影响不大,显然这样的回归式不 仅使用不方便,而且反而会影响预测的精度。因而选择合适 的变量用于建立一个“最优”的回归方程是十分重要的问题。
m i
多重共线性的处理方法
增加样本容量,当线性重合是由于测量误差 引起的以及他仅是偶然存在于原始样本,而 不存在于总体时,通过增加样本容量可以减 少或是避免线性重合,但是在现实的生活中, 由于受到各种条件的限制增加样本容量有时 又是不现实的 剔除一些不重要的解释变量,主要有向前法 和后退法,逐步回归法。
多元线性回归与相关的基础理论
在许多实际问题中,还会遇到一个随机变量与多个 变量的相关关系问题,需要用多元回归分析的方法 来解决。前面介绍的一元回归分析是其特殊情形。 但由于多元回归分析比较复杂,在此仅简要介绍多 元线性回归分析。 由于经济现象的复杂性,一个被解释变量往往受多 个解释变量的影响。多元回归模型就是在方程式中 有两个或两个以上自变量的线性回归模型。多元线 性回归预测是用多元线性回归模型,对具有线性趋 势的税收问题,使用多个影响因素所作的预测。
回归变量的选择与逐步回归
选择“最优”回归方程的变量筛选法包括逐步回归 法,向前引入法和向后剔除法。 向前引入法是从回归方程仅包括常数项开始,把自 变量逐个引入回归方程。具体地说,先在m个自变 量中选择一个与因变量线性关系最密切的变量,记 为,然后在剩余的m-1个自变量中,再选一个,使 得 {xi1 , xi 2 }联合起来二元回归效果最好,第三步在剩下 的m-2个自变量中选择一个变量,使得 {xi1 , xi 2 , xi 3 } 联合起来回归效果最好,...如此下去,直至得到 “最优”回归方程为止。
多重共线性的处理方法
逐步回归法,前进法存在着这样的缺点当一个变量 被引入方程时,这个变量就被保留在这个方程中了, 当引入的变量导致其不显著时,它也不会被删除掉, 后退法同样存在着这样的缺点,当一个变量被剔除 时就永远的被排斥在方程以外了,而逐步回归法克 除了两者的缺点。逐步回归的思想是有进有出。将 变量一个一个的引入,每引入一个变量对后面的变 量进行逐个检验,当变量由于后面变量的引入而不 变的不显著时将其剔除,进行每一步都要进行显著 性的检验,以保证每一个变量都是显著的。
回归变量的选择与逐步回归
向后剔除法与向前引入法正好相反,首先将全部m个自变量 引入回归方程,然后逐个剔除对因变量Y作用不显著的自变 量。具体地说,从回归式m个自变量中选择一个对Y贡献最 小的自变量,比如,将它从回归方程中剔除;然后重新计算 Y与剩下的m-1个自变量回归方程,再剔除一个贡献最小的 自变量,比如,依次下去,直到得到“最优”回归方程为止。 向后剔除法中终止条件与向前引入法类似。 向后剔除法的缺点在于,前面剔除的变量有可能因以后变量 的剔除,变为相对重要的变量,这样最后得到的“最优”回 归方程中有可能漏掉相对重要的变量。
多重共线性检验
检查和解决自变量之间的多重共线性,多多 元线性回归分析来说是很必要和重要的一个 步骤,常用的共线性诊断方法包括: 直观的判断方法 方差扩大因子法(VIF) 特征根判定法
直观的判断方法
在自变量 的相关系数矩阵中,有某些自变量 的相关系数值比较大。 回归系数的符号与专业知识或一般经验相反 对重要的自变量的回归系数进行t检验,其结 果不显著,但是F检验确得到了显著 的通过 如果增加一个变量或删除一个变量,回归系 数的估计值发生了很大的变化 重要变量的回归系数置信区间明显过大
多重共线性的处理方法
前进法的主要思想是变量由少到多的,每次增加一个,直至 没有可引入的变量为止。具体做法是首先对一个因变量y和 m个自变量分别建立回归方程,并分别计算这m个回归方程 的F值,选其最大者,记为Fj,,给定显著性水平F,如果 Fj>F,则变量引入该方程,再分别对(Xj,X1),(Xj,X2)…(Xj,Xm) 做回归方程,并对他们进行F检验,选择最大的Fi值,如果 Fi.>F,则该变量引入方程,重复上述步骤,直到没有变量引 入为止。 后退法,是先用m个因变量建立回归方程,然后在这m个变 量中选择一个最不显著的变量将它从方程中剔除,对m个回 归系数进行F检验,记所求得的最小的一个记为Fj,给定一个 显著性的水平,如果Fj<F则将Xj从方程中删除,重复上述步 骤直到所有不显著的变量被剔除为止。
复相关系数与偏相关系数
在学习一元线性回归分析时,讨论了与之紧 密联系的一元相关分析或简单相关分析。将 这个概念扩展到多元,就是多元相关分析或 复相关分析。简单相关分析研究两个变量之 间的关联性,复相关研究多个变量之间的关 联性。
复相关系数
复相关系数是指在具有多元相关关系的变量 中,用来测定因变量y与一组自变量之间相关 程度的指标。 复相关系数的计算公式为:
方差扩大因子法(VIF)
一般认为如果最大的VIF 超过10,常常表示 R2 存在多重共线性。事实上VIF >10这说明 j >0.9。
j
j
特征根判定法
根据矩阵行列式性质,矩阵行列式的值等于 其特征根的连乘积。因此,当行列式| X ' X|≈0 时,至少有一个特征根为零,反过来,可以 证明矩阵至少有一个特征根近似为零时,X的 列向量必存在多重共线性,同样也可证明 X ' X 有多少个特征根近似为零矩阵X就有多少个多 λ K = λ 重共线性。根据条件数 λ i , 其中 m为最 大的特征根.λi 为其他的特征根,通常认为 0<k<10,没有多重共线性,k>10存在着多重 共线性。
r
=
y , 123 ... m
1 −
S S ˆ ∑ ( y i − y i) ∑ ( y i − y i)
= 1 −
E T
2
2
偏向关系数
偏相关系数度量了当其它变量固定不变时,或者说, 消除了其它变量的影响之后,两个变量之间线性关 联的强度。 设有三个变量 x1, x2 , x3,如果在三个变量中,剔除 x3 的影响,可计算 x1,x2对 x3 偏向关系数,记作 r12,3 ,其 计算公式为:
多重共线性
回归分析是一种比较成熟的预测模型,也是在 预测过程中使用较多的模型,在自然科学管理 科学和社会经济中有着非常广泛的应用,但 是经典的最小二乘估计,必需满足一些假设 条件,多重共线性就是其中的一种。实际上, 解释变量间完全不相关的情形是非常少见的, 大多数变量都在某种程度上存在着一定的共 线性,而存在着共线性会给模型带来许多不 确定性的结果。
回归变量的选择与逐步回归
向前引入法中的终止条件为,给定显著性水 平,当某一个对将被引入变量的回归系数作 显著性检查时,若p-value≥,则引入变量的 过程结束,所得方程即为“最优”回归方程。 向前引入法有一个明显的缺点,就是由于各 自变量可能存在着相互关系,因此后续变量 的选入可能会使前面已选入的自变量变得不 重要。这样最后得到的“最优”回归方程可 包含一些对Y影响不大的自变量。
I =1,2,…n,则称其存在近似的多重共线性。
多重共线性
当存在严重的多重共线性时,会给回归系数的统计 检验造成一定的困难,可能造成F检验获得通过,T 检验却不能够通过。在自变量高度相关的情况下, 估计系数的含义有可能与常识相反。在进行预测时, 因为回归模型的建立是基于样本数据的,多重共线 性也是指抽样的数据。如果把建立的回归模型用于 预测,而多重共线性问题在预测区间仍然存在,则 共线性问题对预测结果不会产生特别严重的影响, 但是如果样本数据中的多重共线性发生了变化则预 测的结果就不能完全的确定了。
多重共线性的处理方法
主成分法。当自变量间有较强的线性相关性 时,利用P个变量的主成分,所具有的性质, 如果他们是互不相关的,可由前 m个主成 来建立回归模型。 由原始变量的观测数据计算前m个主成分的 的得分值,将其作为主成分的观测值,建立 Y与主成分的回归模型即得回归方程。这时 P元降为 m元,这样既简化了回归方程的结构, 且消除了变量间相关性带来的影响。
回归变量的选择与逐步回归
它的主要思路是在考虑的全部自变量中按其对的作用大小, 显著程度大小或者说贡献大小,由大到小地逐个引入回归方 程,而对那些对作用不显著的变量可能始终不被引人回归方 程。另外,己被引人回归方程的变量在引入新变量后也可能 失去重要性,而需要从回归方程中剔除出去。引人一个变量 或者从回归方程中剔除一个变量都称为逐步回归的一步,每 一步都要进行检验,以保证在引人新变量前回归方程中只含 有对影响显著的变量,而不显著的变量已被剔除。 首先给出引入变量的显著性水平和剔除变量的显著性水平, 然后筛选变量。
回归变量的选择与逐步回归
逐步回归法是上述两个方法的综合。向前引入中被 选入的变量,将一直保留在方程中。向后剔除法中 被剔除的变量,将一直排除在外。这两种方程在某 些情况下会得到不合理的结果。于是,可以考虑到, 被选入的的变量,当它的作用在新变量引入后变得 微不足道时,可以将它删除;被剔除的变量,当它 的作用在新变量引入情况下变得重要时,也可将它 重新选入回归方程。这样一种以向前引入法为主, 变量可进可出的筛选变量方法,称为逐步回归法。
相关文档
最新文档