多元分析中的多重共线性及其处理方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关。
学 处弹方 法 。 均 有 各 自的优 缺 点 和 适用 范 围 , 至今 仍 没有一 种通 用 的解决 方法 。本文 阐述 目前常 用 的几
种 方法 : 回归 、 岭 主成分 回归 、 逐步 回归 、 最小 二乘法 偏
Yo a a 出虽 然 回归模 型 拟合 较 好 , 由于 h nn… 指 但 共线性 的存 在 , 出现 下 列现象 : 会 某些 回归系数 通不 过 假设 检验 ; 或者 某个 白变 量与 因变量 有很 强 的相关性 , 而在 回归模 型 中该变 量 的 回归 系数却 没有 通过 假设 检 验, 导致错 误剔 除有 用 的 自变量 ; 或者 回归 系数 的符 再 号 与相关 专业相 反 导致 无 法 得 到 合理 的专 业 解 释 等 。 因此 , 重共线 性 的存在 , 多 会使 模型 与实 际相 差甚远 。
一
大 于 1 。
况是 在 医学研究 中普 遍存 在 的。
产 生多重 共线 性的原 因及 其影 响
一
般情 况 下认 为当 VF>5或 VF>1 II I I 0时 , 自变 量 问存
在严重 共线 性 , 且 值越 大 , 明变 量 间的共 线性 程 说 度越 强 。 随 后 K n e ¨ e nt 对 容 忍 值 法 即 ⅥF 的倒 数 h (O T L=1一R ) 了进 一 步 探 讨 。此 外 Se r 提 做 t t wa 出条 件数 法 ( N) F r ri 提 出基 于 d t C , ar 1 a s e 去做 某 种 检 验进 而判 断 自变 量 x 中 的列 偏 离正 交 或 共 线 性 程 度 的方 法 以及 K n a l] Sl y 提 出 的特 征值 分 析 e dl 1 和 i v l6 e 法 。综上 所述 , 虽然 诊断 多重 共线性 的算 法较 容易 , 但 是, 若想 估计 多重共 线性 对 多元 回归影 响 的严 重 程度 , 往 往需综 合运 用几 种方 法进行 判 断 。
・
62 ・ 0
中 困 卫生 统 计 2 1 0 2年 8月 第 2 9卷第 4期
・
综述 ・
多 元 分 析 中 的 多重 共 线 性 及 其 处 理 方 法
杨 梅 肖 静 蔡 辉
在 医学领 域研 究 中 , 变量 问存 在 多重 共 线 性 的现
象 十分普 遍 , 其结果 可 能 导致 治 疗 效果 或 暴 露 因素作
( 一R ) 为 自变 量 与 其 他 k1个 自变 量 问 的 1 。R -
复相关 系数 。如 果 x 与其 他 k1个 自变 量 间无 线 性 - 相关 ( R 即 =0 , wF=1 反之 如果 x 与 其他 足1 )则 ; 一 自变量 间存 在 线 性 相 关 ( R ≠0) 则 即 ,
多重共 线性 的诊 断
和倾 向评 分 等 , 阐述 了各 方法 的优 缺 点 以及 这 些 方 并 法 的有 效性 和适用 范 围 , 以供研 究 者 根 据需 要 和 数 据
特 征选 择合适 的处 理方 法 。
多重 共线 性的定 义
“ 多重共 线性 ” 一问最 早 由 R Fi h于 13 .rc s 9 4年 提
在 多元 回归模 型 的实 际 应 用 时 , 究 者首 先必 须 研 判 断模 型 中是 否存 在多 重共 线性 。诊 断多重 共线 性 的
方 法很 多 , 为 常用 的 方 法 是 C atjபைடு நூலகம்等 人 1 7 较 htr ee 97
年 提 出了方差 膨 胀 因子 法 ( F 法 。在 多 元 分 析 中 , VI ) 设 有 k个 自变量 x, , , , …, 方差 膨胀 凶子 V F=1 I /
仅 会损 失掉信 息 , 且某 些混 杂 因素难 以达 到 治疗 组 而 问 或暴露 冈素各水平 间的平衡 , 降低 检验效 能 , 至使 甚
分 析结果 失 真 。不 同的解决变 量 问多重共 线性 的统计
计 。另外 如果模 型 自变 量 是 高 阶单 整 时 序 变量 , 么 那 也会 导致 多重共 线性 , 为这 种 时 序 变量 之 问高 度 相 因
用 的估计 产生 偏性 。研究 者常 常通过 调整 某些 协变量 或 混杂 因素来 调整 变 量 问 的多 重 共线 性 , 以评 价 某些 治疗 方法 或暴 露 因素与疾 病 问的关 系¨ J 。但 这 样不
本 含量 较小 , 于模 型 中的 白变量 个数 , 可能会 产 生 小 也 多重共 线性 。如 当样本 含量 为 2 =2 , 点 连成 一 ( )两 条直 线 , 易造 成 共 线性 。随着 研 究 的深 入 ,0世 纪 8 2 0 年代后 期研 究者 开始关 注 异常观 测值 对多 重共线 性 的 影 响。H d 、 le 1 等 人 研 究 表 明 , 常 观 测 值 a i Wa r o k ] 异 会导致 或掩 盖多 重共线 性 现象从 而影 响正 确 的参 数估
。
共 线性 足 指 线 性 模 型 中两 个 自变 量 之 间存 在
相 关关 系 , 多重 共线 性 是 指线 性 回归模 型 中 的两 个 而 自变 量或者 多个 自变 量之 间 由于存 在相 关关 系而 使模 型估计 失 真 或 难 以估 计 准 确 J 。最 初 指 模 型 中某 些 自变最 线性 相 关。 当 自变量 x。 ・ 满 足 kX +… 、 ・ , +足 +… + X 0 常 数 k( =1 2 n 不全 为 0 X = , i 、 …, ) 时称 为完 全多重 共线 , 多重共 线性 的极端 情况 , 是 在实 际工 作 中较 为 少 见 ; 自变量 满 足 kX +足 +… + 当 , : kX +V = , i , 0 V 为随机 误 差项 , 为 不完 全 多重 共 线 , 称 变量 间有某 种关 系但 又 不 是 完全 的线 性关 系 , 这种 情
学 处弹方 法 。 均 有 各 自的优 缺 点 和 适用 范 围 , 至今 仍 没有一 种通 用 的解决 方法 。本文 阐述 目前常 用 的几
种 方法 : 回归 、 岭 主成分 回归 、 逐步 回归 、 最小 二乘法 偏
Yo a a 出虽 然 回归模 型 拟合 较 好 , 由于 h nn… 指 但 共线性 的存 在 , 出现 下 列现象 : 会 某些 回归系数 通不 过 假设 检验 ; 或者 某个 白变 量与 因变量 有很 强 的相关性 , 而在 回归模 型 中该变 量 的 回归 系数却 没有 通过 假设 检 验, 导致错 误剔 除有 用 的 自变量 ; 或者 回归 系数 的符 再 号 与相关 专业相 反 导致 无 法 得 到 合理 的专 业 解 释 等 。 因此 , 重共线 性 的存在 , 多 会使 模型 与实 际相 差甚远 。
一
大 于 1 。
况是 在 医学研究 中普 遍存 在 的。
产 生多重 共线 性的原 因及 其影 响
一
般情 况 下认 为当 VF>5或 VF>1 II I I 0时 , 自变 量 问存
在严重 共线 性 , 且 值越 大 , 明变 量 间的共 线性 程 说 度越 强 。 随 后 K n e ¨ e nt 对 容 忍 值 法 即 ⅥF 的倒 数 h (O T L=1一R ) 了进 一 步 探 讨 。此 外 Se r 提 做 t t wa 出条 件数 法 ( N) F r ri 提 出基 于 d t C , ar 1 a s e 去做 某 种 检 验进 而判 断 自变 量 x 中 的列 偏 离正 交 或 共 线 性 程 度 的方 法 以及 K n a l] Sl y 提 出 的特 征值 分 析 e dl 1 和 i v l6 e 法 。综上 所述 , 虽然 诊断 多重 共线性 的算 法较 容易 , 但 是, 若想 估计 多重共 线性 对 多元 回归影 响 的严 重 程度 , 往 往需综 合运 用几 种方 法进行 判 断 。
・
62 ・ 0
中 困 卫生 统 计 2 1 0 2年 8月 第 2 9卷第 4期
・
综述 ・
多 元 分 析 中 的 多重 共 线 性 及 其 处 理 方 法
杨 梅 肖 静 蔡 辉
在 医学领 域研 究 中 , 变量 问存 在 多重 共 线 性 的现
象 十分普 遍 , 其结果 可 能 导致 治 疗 效果 或 暴 露 因素作
( 一R ) 为 自变 量 与 其 他 k1个 自变 量 问 的 1 。R -
复相关 系数 。如 果 x 与其 他 k1个 自变 量 间无 线 性 - 相关 ( R 即 =0 , wF=1 反之 如果 x 与 其他 足1 )则 ; 一 自变量 间存 在 线 性 相 关 ( R ≠0) 则 即 ,
多重共 线性 的诊 断
和倾 向评 分 等 , 阐述 了各 方法 的优 缺 点 以及 这 些 方 并 法 的有 效性 和适用 范 围 , 以供研 究 者 根 据需 要 和 数 据
特 征选 择合适 的处 理方 法 。
多重 共线 性的定 义
“ 多重共 线性 ” 一问最 早 由 R Fi h于 13 .rc s 9 4年 提
在 多元 回归模 型 的实 际 应 用 时 , 究 者首 先必 须 研 判 断模 型 中是 否存 在多 重共 线性 。诊 断多重 共线 性 的
方 法很 多 , 为 常用 的 方 法 是 C atjபைடு நூலகம்等 人 1 7 较 htr ee 97
年 提 出了方差 膨 胀 因子 法 ( F 法 。在 多 元 分 析 中 , VI ) 设 有 k个 自变量 x, , , , …, 方差 膨胀 凶子 V F=1 I /
仅 会损 失掉信 息 , 且某 些混 杂 因素难 以达 到 治疗 组 而 问 或暴露 冈素各水平 间的平衡 , 降低 检验效 能 , 至使 甚
分 析结果 失 真 。不 同的解决变 量 问多重共 线性 的统计
计 。另外 如果模 型 自变 量 是 高 阶单 整 时 序 变量 , 么 那 也会 导致 多重共 线性 , 为这 种 时 序 变量 之 问高 度 相 因
用 的估计 产生 偏性 。研究 者常 常通过 调整 某些 协变量 或 混杂 因素来 调整 变 量 问 的多 重 共线 性 , 以评 价 某些 治疗 方法 或暴 露 因素与疾 病 问的关 系¨ J 。但 这 样不
本 含量 较小 , 于模 型 中的 白变量 个数 , 可能会 产 生 小 也 多重共 线性 。如 当样本 含量 为 2 =2 , 点 连成 一 ( )两 条直 线 , 易造 成 共 线性 。随着 研 究 的深 入 ,0世 纪 8 2 0 年代后 期研 究者 开始关 注 异常观 测值 对多 重共线 性 的 影 响。H d 、 le 1 等 人 研 究 表 明 , 常 观 测 值 a i Wa r o k ] 异 会导致 或掩 盖多 重共线 性 现象从 而影 响正 确 的参 数估
。
共 线性 足 指 线 性 模 型 中两 个 自变 量 之 间存 在
相 关关 系 , 多重 共线 性 是 指线 性 回归模 型 中 的两 个 而 自变 量或者 多个 自变 量之 间 由于存 在相 关关 系而 使模 型估计 失 真 或 难 以估 计 准 确 J 。最 初 指 模 型 中某 些 自变最 线性 相 关。 当 自变量 x。 ・ 满 足 kX +… 、 ・ , +足 +… + X 0 常 数 k( =1 2 n 不全 为 0 X = , i 、 …, ) 时称 为完 全多重 共线 , 多重共 线性 的极端 情况 , 是 在实 际工 作 中较 为 少 见 ; 自变量 满 足 kX +足 +… + 当 , : kX +V = , i , 0 V 为随机 误 差项 , 为 不完 全 多重 共 线 , 称 变量 间有某 种关 系但 又 不 是 完全 的线 性关 系 , 这种 情