处理多元线性回归中自变量共线性的几种方法
多元回归分析中的多重共线性及其解决方法
多元回归分析中的多重共线性及其解决方法在多元回归分析中,多重共线性是一个常见的问题,特别是在自变量之间存在高度相关性的情况下。
多重共线性指的是自变量之间存在线性相关性,这会造成回归模型的稳定性和可靠性下降,使得解释变量的效果难以准确估计。
本文将介绍多重共线性的原因及其解决方法。
一、多重共线性的原因多重共线性常常发生在自变量之间存在高度相关性的情况下,其主要原因有以下几点:1. 样本数据的问题:样本数据中可能存在过多的冗余信息,或者样本数据的分布不均匀,导致变量之间的相关性增加。
2. 选择自变量的问题:在构建回归模型时,选择了过多具有相似解释作用的自变量,这会增加自变量之间的相关性。
3. 数据采集的问题:数据采集过程中可能存在误差或者不完整数据,导致变量之间的相关性增加。
二、多重共线性的影响多重共线性会对多元回归模型的解释变量产生不良影响,主要表现在以下几个方面:1. 回归系数的不稳定性:多重共线性使得回归系数的估计不稳定,难以准确反映各个自变量对因变量的影响。
2. 系数估计值的无效性:多重共线性会导致回归系数估计偏离其真实值,使得对因变量的解释变得不可靠。
3. 预测的不准确性:多重共线性使得模型的解释能力下降,导致对未知数据的预测不准确。
三、多重共线性的解决方法针对多重共线性问题,我们可以采取以下几种方法来解决:1. 剔除相关变量:通过计算自变量之间的相关系数,发现高度相关的变量,选择其中一个作为代表,将其他相关变量剔除。
2. 主成分分析:主成分分析是一种降维技术,可以通过线性变换将原始自变量转化为一组互不相关的主成分,从而降低多重共线性造成的影响。
3. 岭回归:岭回归是一种改良的最小二乘法估计方法,通过在回归模型中加入一个惩罚项,使得回归系数的估计更加稳定。
4. 方差膨胀因子(VIF):VIF可以用来检测自变量之间的相关性程度,若某个自变量的VIF值大于10,则表明该自变量存在较高的共线性,需要进行处理。
数据分析技术中常用的多元回归分析方法简介
数据分析技术中常用的多元回归分析方法简介多元回归分析是一种常用的数据分析技术,用于建立解释一个或多个自变量与一个或多个因变量之间关系的数学模型。
在实际应用中,多元回归分析可以帮助我们理解和预测因变量的变化情况,同时揭示自变量对因变量的影响程度和方向。
在多元回归分析中,我们通常会考虑多个自变量对一个因变量的影响。
这些自变量可以是连续变量,也可以是分类变量。
为了进行多元回归分析,我们需要收集包含自变量和因变量数据的样本,并建立一个数学模型来描述它们之间的关系。
常用的多元回归分析方法有以下几种:1. 线性回归分析:线性回归是最基本的多元回归分析方法之一。
它假设自变量和因变量之间的关系是线性的,即可以通过一条直线来描述。
线性回归可以用于预测新的因变量值或者探究自变量对因变量的影响程度和方向。
2. 多项式回归分析:多项式回归是线性回归的扩展形式,它允许通过非线性方程来描述自变量和因变量之间的关系。
多项式回归可以用于处理具有非线性关系的数据,通过增加自变量的幂次项,可以更好地拟合数据。
3. 逐步回归分析:逐步回归是一种渐进式的回归分析方法,它通过不断添加或删除自变量来选择最优的模型。
逐步回归可以帮助我们识别对因变量影响最显著的自变量,并且去除对模型没有贡献的自变量,以减少复杂度和提高预测准确性。
4. 岭回归分析:岭回归是一种用于处理共线性问题的回归方法。
共线性指的是自变量之间存在高度相关性,这会导致模型参数估计不稳定。
岭回归通过添加一个正则化项来缩小模型参数的值,从而减少共线性的影响。
5. 主成分回归分析:主成分回归结合了主成分分析和回归分析的方法,用于处理多重共线性问题。
主成分分析通过将自变量转换为一组无关的主成分来降维,然后进行回归分析。
这样可以减少自变量之间的相关性,并提高模型的解释力。
6. 逻辑回归分析:逻辑回归是一种广义线性回归,常用于处理二分类问题。
它通过对因变量进行逻辑变换,将线性回归的结果映射到一个[0, 1]的区间,表示某事件发生的概率。
多重共线性问题的几种解决方法
多重共线性问题的几种解决方法在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X1,X2,……,X k中的任何一个都不能是其他解释变量的线性组合。
如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。
多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。
这里,我们总结了8个处理多重共线性问题的可用方法,大家在遇到多重共线性问题时可作参考:1、保留重要解释变量,去掉次要或可替代解释变量2、用相对数变量替代绝对数变量3、差分法4、逐步回归分析5、主成份分析6、偏最小二乘回归7、岭回归8、增加样本容量这次我们主要研究逐步回归分析方法是如何处理多重共线性问题的。
逐步回归分析方法的基本思想是通过相关系数r、拟合优度R2和标准误差三个方面综合判断一系列回归方程的优劣,从而得到最优回归方程。
具体方法分为两步:第一步,先将被解释变量y对每个解释变量作简单回归:对每一个回归方程进行统计检验分析(相关系数r、拟合优度R2和标准误差),并结合经济理论分析选出最优回归方程,也称为基本回归方程。
第二步,将其他解释变量逐一引入到基本回归方程中,建立一系列回归方程,根据每个新加的解释变量的标准差和复相关系数来考察其对每个回归系数的影响,一般根据如下标准进行分类判别:1.如果新引进的解释变量使R2得到提高,而其他参数回归系数在统计上和经济理论上仍然合理,则认为这个新引入的变量对回归模型是有利的,可以作为解释变量予以保留。
2.如果新引进的解释变量对R2改进不明显,对其他回归系数也没有多大影响,则不必保留在回归模型中。
3.如果新引进的解释变量不仅改变了R2,而且对其他回归系数的数值或符号具有明显影响,则认为该解释变量为不利变量,引进后会使回归模型出现多重共线性问题。
不利变量未必是多余的,如果它可能对被解释变量是不可缺少的,则不能简单舍弃,而是应研究改善模型的形式,寻找更符合实际的模型,重新进行估计。
回归分析中的多重共线性问题及解决方法(六)
回归分析中的多重共线性问题及解决方法回归分析是统计学中常用的一种分析方法,用于研究自变量与因变量之间的关系。
然而,在进行回归分析时,常常会遇到多重共线性的问题。
多重共线性指的是自变量之间存在高度相关性,这会导致回归系数估计不准确,模型预测能力下降,甚至使得结果产生误导。
本文将探讨回归分析中的多重共线性问题及解决方法。
多重共线性问题的产生多重共线性问题通常是由于自变量之间存在高度相关性所导致的。
当自变量之间存在线性相关关系时,回归模型的系数估计变得不稳定,可能会产生较大的标准误差,从而影响对因变量的预测能力。
多重共线性问题的影响多重共线性问题会使得回归系数的估计产生偏离,导致模型的稳定性下降。
此外,多重共线性还会对回归模型的解释能力产生影响,使得模型的可信度下降。
解决多重共线性的方法为了解决多重共线性问题,可以采取以下几种方法:1. 增加样本量增加样本量可以减少参数估计的方差,从而提高估计的精确度。
通过增加样本量,可以减轻多重共线性对参数估计的影响。
2. 删除相关自变量当自变量之间存在高度相关性时,可以考虑删除其中一个或多个相关自变量,以减轻多重共线性的影响。
通过删除相关自变量,可以减少模型的复杂性,提高模型的解释能力。
3. 合并相关自变量另一种解决多重共线性问题的方法是合并相关自变量。
通过将相关自变量进行合并或者构建新的自变量,可以降低自变量之间的相关性,从而减轻多重共线性的影响。
4. 使用主成分分析主成分分析是一种常用的多重共线性处理方法。
通过主成分分析,可以将相关自变量进行线性组合,从而得到一组新的无关自变量,使得回归模型的稳定性得到提高。
5. 使用正则化方法正则化方法是另一种处理多重共线性问题的有效手段。
通过对回归系数进行惩罚,可以有效地控制多重共线性对参数估计的影响,从而提高模型的稳定性。
结语多重共线性是回归分析中常见的问题,对回归模型的稳定性和预测能力都会产生负面影响。
因此,处理多重共线性问题是非常重要的。
多元回归公式多重共线性变量选择的计算方法
多元回归公式多重共线性变量选择的计算方法多元回归分析是一种常用的统计分析方法,用于研究多个自变量对因变量的影响关系。
然而,在多元回归分析中,可能会存在多个自变量之间的共线性问题,即自变量之间存在较高的线性相关性。
共线性会导致回归系数估计不准确,难以解释自变量的独立作用。
因此,选择合适的变量和解决多重共线性问题是进行多元回归分析的重要步骤。
为了解决多重共线性问题,研究者可以借助各种方法进行变量选择。
下面将介绍几种常用的计算方法。
1. 方差膨胀因子(VIF)法方差膨胀因子是用于判断多重共线性的常用指标。
它反映了每个自变量与其他自变量的线性关系程度。
计算VIF的方法是,对于第i个自变量,回归模型中除了自己以外的其他自变量作为解释变量进行回归分析,计算对应的R^2值。
然后,使用VIF=1/(1-R^2)计算方差膨胀因子。
通常,如果某个自变量的VIF值大于10,就表明存在高度共线性。
2. 特征值法特征值法是基于自变量矩阵的特征值和特征向量进行计算的方法。
首先,计算自变量矩阵的相关系数矩阵,然后对该矩阵进行特征值分解。
根据特征值的大小,可以判断出存在共线性的自变量。
如果某个特征值远大于其他特征值,就表明对应的自变量存在共线性。
3. 逐步回归法逐步回归法是一种逐步选择自变量的方法。
该方法分为前向选择和后向删除两个阶段。
在前向选择阶段,逐步添加自变量,每次选择与残差最相关的自变量加入模型。
在后向删除阶段,逐步删除对残差影响最小的自变量,直到模型中的自变量都显著。
4. 岭回归法岭回归法是一种通过加入正则化项来解决多重共线性问题的方法。
它通过控制正则化参数的大小,提高对共线性的抵抗能力。
岭回归法的核心是对回归系数进行缩减,使其趋近于零。
使用岭回归可以有效剔除共线性变量,得到更稳定的回归结果。
综上所述,多元回归公式多重共线性变量选择的计算方法有方差膨胀因子法、特征值法、逐步回归法和岭回归法等。
每种方法都有其特点和适用范围,研究者可以根据具体问题选择合适的方法进行变量选择,以获得可靠的回归结果。
多重共线性解决方法
多重共线性解决方法
多重共线性是指在回归模型中,自变量之间存在高度相关性的情况,这会导致模型的解释能力下降,系数估计不准确,模型的稳定性受到影响。
以下是一些解决多重共线性问题的方法:
1.增加样本量:通过增加样本量可以减少模型中的抽样误差,从而减轻多重共线性的影响。
2.删除冗余变量:通过剔除高度相关的自变量,可以降低共线性的程度。
可以使用相关性矩阵或者变量膨胀因子(VIF)来判断哪些自变量之间存在高相关性,并选择保留一个或几个相关性较为弱的变量。
3.主成分分析(PCA):主成分分析可以将高度相关的自变量转换成一组无关的主成分,从而降低共线性的影响。
可以选择保留其中的几个主成分作为新的自变量,代替原始的自变量。
4.岭回归(Ridge Regression):岭回归是在普通最小二乘法的基础上加入一个正则化项,通过缩小系数估计的幅度,减少共线性对系数估计的影响。
岭回归可以通过交叉验证选择合适的正则化参数。
5.套索回归(Lasso Regression):套索回归也是在普通最小二乘法的基础上加入一个正则化项,不同的是套索回归使用L1范数作为正则化项,可以将一些系
数估计缩减为零,从而实现变量选择的效果。
6.弹性网回归(Elastic Net Regression):弹性网回归是岭回归和套索回归的结合,同时使用L1和L2范数作为正则化项,可以在预测准确性和变量选择之间进行权衡。
以上方法可以根据具体问题的特点和需求选择合适的方法来解决多重共线性问题。
多重共线性检验方法
多重共线性检验方法多重共线性是指自变量之间存在高度相关性的情况,它会导致回归分析结果不稳定,使得模型的解释能力和预测能力大大降低。
因此,对于回归分析中的自变量,需要进行多重共线性检验,以保证回归模型的准确性和可靠性。
本文将介绍几种常用的多重共线性检验方法。
1. 方差膨胀因子(VIF)。
方差膨胀因子是一种常用的多重共线性检验方法,它衡量了自变量之间的相关性程度。
计算每个自变量的VIF值,若VIF值大于10,则说明存在较强的多重共线性。
需要注意的是,VIF值越大,表示自变量之间的相关性越强,需要对相关性较强的自变量进行筛选或者合并。
2. 特征值和条件指数。
特征值和条件指数是通过计算自变量的特征值和条件指数来判断多重共线性的严重程度。
特征值越大,表示共线性越严重;条件指数越大,表示自变量之间的相关性越强。
通过对特征值和条件指数的分析,可以判断自变量之间是否存在多重共线性,并采取相应的处理措施。
3. Tolerance(容忍度)。
容忍度是一种衡量自变量之间相关性的指标,它的计算公式为1-R^2,其中R^2表示自变量之间的相关性。
容忍度越小,表示自变量之间的相关性越强,存在较严重的多重共线性。
一般来说,容忍度小于0.1时,就需要考虑自变量之间的相关性问题。
4. 条件数。
条件数是通过计算自变量矩阵的条件数来判断多重共线性的程度。
条件数越大,表示自变量之间的相关性越强,存在较严重的多重共线性。
一般来说,条件数大于30就需要对自变量进行处理,以减弱多重共线性的影响。
5. 变量膨胀因子(VIF)。
变量膨胀因子是一种通过对自变量进行逐步回归分析来判断多重共线性的方法。
在逐步回归分析中,会计算每个自变量的VIF值,若VIF值大于10,则需要对自变量进行筛选或者合并,以减弱多重共线性的影响。
综上所述,多重共线性检验是回归分析中非常重要的一环,它可以帮助我们发现自变量之间的相关性问题,并采取相应的处理措施,以提高回归模型的准确性和可靠性。
自变量存在多重共线性,如何通过变量筛选来解决?
⾃变量存在多重共线性,如何通过变量筛选来解决?多重线性回归要求各个⾃变量之间相互独⽴,不存在多重共线性。
所谓多重共线性,是指⾃变量之间存在某种相关或者⾼度相关的关系,其中某个⾃变量可以被其他⾃变量组成的线性组合来解释。
医学研究中常见的⽣理资料,如收缩压和舒张压、总胆固醇和低密度脂蛋⽩胆固醇等,这些变量之间本⾝在⼈体中就存在⼀定的关联性。
如果在构建多重线性回归模型时,把具有多重共线性的变量⼀同放在模型中进⾏拟合,就会出现⽅程估计的偏回归系数明显与常识不相符,甚⾄出现符号⽅向相反的情况,对模型的拟合带来严重的影响。
今天我们就来讨论⼀下,如果⾃变量之间存在多重共线性,如何通过有效的变量筛选来加以解决?⼀、多重共线性判断回顾⼀下前期讲解多重线性回归时,介绍的判断⾃变量多重共线性的⽅法。
1. 计算⾃变量两两之间的相关系数及其对应的P值,⼀般认为相关系数>0.7,且P<0.05时可考虑⾃变量之间存在共线性,可以作为初步判断多重共线性的⼀种⽅法。
2. 共线性诊断统计量,即Tolerance(容忍度)和VIF(⽅差膨胀因⼦)。
⼀般认为如果Tolerance<0.2或VIF>5(Tolerance和VIF呈倒数关系), 则提⽰要考虑⾃变量之间存在多重共线性的问题。
⼆、多重共线性解决⽅法:变量剔除顾名思义,当⾃变量之间存在多重共线性时,最简单的⽅法就是对共线的⾃变量进⾏⼀定的筛选,保留更为重要的变量,删除次要或可替代的变量,从⽽减少变量之间的重复信息,避免在模型拟合时出现多重共线性的问题。
对于如何去把握应该删除哪⼀个变量,保留哪⼀个变量,近期也有⼩伙伴在微信平台中问到这个问题,下⾯举个例⼦进⾏⼀个简单的说明。
表1. ⾃变量相关性如表1所⽰, X3和X4、X5之间相关系数>0.7,变量X4与X1、X3、X5之间相关系数>0.7,X5与X3、X4之间相关系数>0.7,说明X3、X4、X5之间存在⼀定的共线性,由于X4与X1的相关性也较⾼,故此时建议可以先将X4删除再进⾏模型拟合,当然也需要结合容忍度和VIF值及专业知识来进⾏判断。
多元线性回归模型常见问题及解决方法
特点
03
04
05
适用于多个自变量对因 变量的影响研究;
适用于线性关系假设下 的数据;
可通过参数估计和模型 检验来评估模型的可靠 性和预测能力。
多元线性回归模型的应用场景
经济预测
用于预测股票价格、GDP等经济指标;
市场营销
用于分析消费者行为、预测销售额等;
医学研究
用于分析疾病风险因素、预测疾病发 病率等;
自相关问题
残差序列之间存在相关性,违 反了线性回归模型的独立性假 设。
异常值和离群点问题
异常值和离群点对回归模型的 拟合和预测精度产生影响。
解决方法的总结与评价
01
02
03
04
05
多重共线性的解 决方法
异方差性的解决 方法
自相关问题的解 决方法
解释变量的选择 异常值和离群点
方法
处理方法
如逐步回归、主成分回归 、岭回归和套索回归等。 这些方法在处理多重共线 性问题时各有优缺点,需 要根据具体问题和数据特 点选择合适的方法。
2. 稳健标准误
使用稳健标准误来纠正异方差性 对模型估计的影响。
总结词
异方差性是指模型残差在不同观 测点上的方差不相等,导致模型 估计失真。
3. 模型诊断检验
使用如White检验、BP检验等异 方差性检验方法来诊断异方差性 问题。
自相关问题
01
02
03
04
05
总结词
详细描述
1. 差分法
2. 广义最小二乘 3. 自相关图和偏
详细描述
例如,在时间序列数据中,如果一个观测值的残差 与前一个观测值的残差正相关,则会导致模型的预 测精度降低。
解决方法
回归分析中的多重共线性问题及解决方法(Ⅰ)
回归分析中的多重共线性问题及解决方法回归分析是统计学中常用的一种方法,用于研究自变量和因变量之间的关系。
然而,在实际应用中,我们经常会遇到多重共线性的问题,这会对回归系数的估计和模型的解释产生不良影响。
本文将就多重共线性问题及其解决方法展开探讨。
多重共线性指的是在回归模型中,自变量之间存在高度相关性的情况。
当自变量之间存在共线性时,回归系数的估计会变得不稳定,标准误差会增大,系数的显著性检验结果可能出现错误,同时模型的解释性也会受到影响。
因此,多重共线性是需要引起我们高度关注的问题。
多重共线性的存在主要有两个方面的原因。
一方面是样本误差的影响,当样本容量较小或者存在异常值时,容易导致自变量之间的相关性增强。
另一方面是自变量之间本身存在的相关性,这可能是由于自变量的选择不当或者研究对象的特性所致。
无论是哪一种原因,我们都需要采取相应的方法来解决多重共线性问题。
解决多重共线性问题的方法有多种途径,下面将分别从数据清洗、变量选择、正则化方法和主成分回归等方面进行探讨。
首先,对于数据清洗来说,我们需要对样本中的异常值进行识别和处理。
异常值的存在会扰乱自变量之间的关系,导致多重共线性的加剧。
因此,在进行回归分析之前,我们需要对数据进行严格的清洗,排除掉异常值对模型的影响。
其次,变量选择也是解决多重共线性问题的有效手段。
在回归分析中,不是所有的自变量都对因变量有显著的解释作用,因此我们可以通过逐步回归、岭回归等方法来筛选出对模型影响较大的自变量,从而减少多重共线性的影响。
另外,正则化方法也是解决多重共线性问题的重要途径。
岭回归、Lasso回归等方法可以通过对回归系数进行惩罚,来减少自变量之间的相关性对模型的影响。
这些方法在实际应用中得到了广泛的应用。
最后,主成分回归是另一种解决多重共线性的有效方法。
主成分回归通过将自变量进行主成分分解,从而减少自变量之间的相关性,提高回归模型的稳定性。
综上所述,回归分析中的多重共线性问题是一个不容忽视的难题,但是我们可以通过数据清洗、变量选择、正则化方法和主成分回归等多种手段来解决这一问题。
浅析多元线性回归中多重共线性问题的三种解决方法
浅析多元线性回归中多重共线性问题的三种解决方法
谢小韦
【期刊名称】《科技信息》
【年(卷),期】2009(000)028
【摘要】为了解决变量之间的多重共线性问题,本文提出了三种方法:岭回归、主成分回归和偏最小二乘回归.首先介绍了其基本思想和主要处理步骤,并通过具体实例验证出利用三种回归方法,可以消除多重共线性所带来的影响.最后,通过对结果的分析总结出三种方法的优劣.
【总页数】2页(P117-118)
【作者】谢小韦
【作者单位】南京铁道职业技术学院
【正文语种】中文
【中图分类】O1
【相关文献】
1.观测数据拟合分析中的多重共线性问题 [J], 杨杰;吴中如
2.改进SVM分类算法中多重共线性问题研究 [J], 冼广铭;齐德昱;方群;柯庆;曾碧卿;肖应旺
3.GDP预测模型中的多重共线性问题 [J], 杨振刚;郑更新
4.多元线性回归模型中处理多重共线性方法对比
——以人口迁移冲击教育资源模型为例 [J], 范圣岗;奚书静
5.局部线性估计中的多重共线性问题 [J], 吴相波;叶阿忠
因版权原因,仅展示原文概要,查看原文内容请购买。
如何处理回归模型中的共线性?
如何处理回归模型中的共线性?回归模型是统计学中常用的一种方法,用于分析两个或多个变量之间的关系。
然而,在回归模型中,常常会遇到共线性的问题,即自变量之间存在高度相关性,这会影响模型的稳定性和预测能力。
针对这一问题,本文将介绍如何处理回归模型中的共线性,从而提高模型的准确性和可解释性。
一、加入交互项通过加入自变量的交互项,可以减少自变量之间的共线性。
交互项表示了自变量之间的相互作用,可在一定程度上解决共线性问题。
当自变量之间存在高度相关性时,加入交互项可以帮助模型更好地解释因果关系,提高模型的预测能力。
例如,假设我们正在分析一个房价预测模型,自变量包括房屋面积和房龄。
由于房屋面积和房龄存在相关性,我们可以加入交互项“面积*房龄”,用于描述房屋面积和房龄的联合影响。
这样可以消除面积和房龄之间的共线性,并更好地捕捉到它们对房价的影响。
二、使用主成分分析主成分分析是一种常用的降维技术,可以通过线性变换将多个相关变量转化为一组无关的主成分。
在回归模型中,可以利用主成分分析来处理共线性问题。
首先,将自变量进行标准化处理,然后计算它们的协方差矩阵。
接下来,通过特征值分解,得到协方差矩阵的特征值和对应的特征向量。
选取特征值较大的几个特征向量,将它们作为新的自变量,即主成分。
最后,使用主成分代替原始的自变量,并进行回归分析。
使用主成分分析可以解决多重共线性的问题,并提高模型的可解释性。
通过主成分分析,我们可以更清晰地理解自变量对因变量的贡献,从而更好地进行预测和解释。
三、岭回归岭回归是一种常用的正则化方法,通过加入一个惩罚项,可以减少共线性的影响。
岭回归可以将原始的回归问题转化为一个带有约束条件的优化问题,从而找到最优的模型参数。
岭回归的关键在于调整惩罚项的参数λ。
当λ较大时,惩罚项的影响较大,可以有效地减少自变量之间的共线性。
当λ较小时,惩罚项的影响较小,模型的参数估计会更接近经典的最小二乘估计。
岭回归可以有效地处理共线性问题,并提高模型的预测准确性。
多元线性回归分析
多元线性回归分析多元线性回归分析是一种常用的统计方法,用于研究多个自变量与因变量之间的关系。
它可以帮助我们理解多个因素对于一个目标变量的影响程度,同时也可以用于预测和解释因变量的变化。
本文将介绍多元线性回归的原理、应用和解读结果的方法。
在多元线性回归分析中,我们假设因变量与自变量之间存在线性关系。
具体而言,我们假设因变量是自变量的线性组合,加上一个误差项。
通过最小二乘法可以求得最佳拟合直线,从而获得自变量对因变量的影响。
多元线性回归分析的第一步是建立模型。
我们需要选择一个合适的因变量和若干个自变量,从而构建一个多元线性回归模型。
在选择自变量时,我们可以通过领域知识、经验和统计方法来确定。
同时,我们还需要确保自变量之间没有高度相关性,以避免多重共线性问题。
建立好模型之后,我们需要对数据进行拟合,从而确定回归系数。
回归系数代表了自变量对因变量的影响大小和方向。
通过最小二乘法可以求得使残差平方和最小的回归系数。
拟合好模型之后,我们还需要进行模型检验,以评估模型拟合的好坏。
模型检验包括对回归方程的显著性检验和对模型的拟合程度进行评估。
回归方程的显著性检验可以通过F检验来完成,判断回归方程是否显著。
而对模型的拟合程度进行评估可以通过判断决定系数R-squared的大小来完成。
解读多元线性回归结果时,首先需要看回归方程的显著性检验结果。
如果回归方程显著,说明至少一个自变量对因变量的影响是显著的。
接下来,可以观察回归系数的符号和大小,从中判断自变量对因变量的影响方向和相对大小。
此外,还可以通过计算标准化回归系数来比较不同自变量对因变量的相对重要性。
标准化回归系数表示自变量单位变化对因变量的单位变化的影响程度,可用于比较不同变量的重要性。
另外,决定系数R-squared可以用来评估模型对观测数据的拟合程度。
R-squared的取值范围在0到1之间,越接近1说明模型对数据的拟合越好。
但需要注意的是,R-squared并不能反映因果关系和预测能力。
多重共线性诊断及处理
多重共线性诊断及处理⼀、定义多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在较精确相关关系或⾼度相关关系⽽使模型估计失真或难以估计准确。
完全共线性的情况并不多见,⼀般出现的是在⼀定程度上的共线性,即近似共线性。
⼆. ⽬前常⽤的多重共线性诊断⽅法 1.⾃变量的相关系数矩阵R诊断法:研究变量的两两相关分析,如果⾃变量间的⼆元相关系数值很⼤,则认为存在多重共线性。
但⽆确定的标准判断相关系数的⼤⼩与共线性的关系。
有时,相关系数值不⼤,也不能排除多重共线性的可能。
R实现:画协⽅差矩阵图 2.⽅差膨胀因⼦(the variance inflation factor,VIF)诊断法:⽅差膨胀因⼦表达式为:VIFi=1/(1-R2i)。
其中Ri为⾃变量xi对其余⾃变量作回归分析的复相关系数。
当VIFi很⼤时,表明⾃变量间存在多重共线性。
该诊断⽅法也存在临界值不易确定的问题,在应⽤时须慎重。
判断:VIF j>10时,说明⾃变量x与其余⾃变量之间存在严重的多重共线关系,这种多重共线性可能会过度地影响最⼩⼆乘估计值 3.容忍值(Tolerance,简记为Tol)法:容忍值实际上是VIF的倒数,即Tol=1/VIF。
其取值在0~1之间,Tol越接近1,说明⾃变量间的共线性越弱。
在应⽤时⼀般先预先指定⼀个Tol值,容忍值⼩于指定值的变量不能进⼊⽅程,从⽽保证进⼊⽅程的变量的相关系数矩阵为⾮奇异阵,计算结果具有稳定性。
但是,有的⾃变量即使通过了容忍性检验进⼊⽅程,仍可导致结果的不稳定。
4.多元决定系数值诊断法:假定多元回归模型p个⾃变量,其多元决定系数为R2y(X1,X2,…,Xp)。
分别构成不含其中某个⾃变量(Xi,i=1,2,…,p)的p个回归模型,并应⽤最⼩⼆乘法准则拟合回归⽅程,求出它们各⾃的决定系数R2i(i=1,2,…,p)。
如果其中较⼤的⼀个R2k与R2y很接近,就表明该⾃变量在模型中对多元决定系数的影响不⼤,说明该变量对Y总变异的解释能⼒可由其他⾃变量代替。
如何解决多重共线性问题
如何解决多重共线性问题多重共线性是统计学中常见的问题,特别是在回归分析中。
它指的是自变量之间存在高度相关性,导致回归模型的稳定性和解释能力下降。
在实际应用中,解决多重共线性问题是非常重要的,下面将探讨一些常用的方法。
1. 数据收集和预处理在解决多重共线性问题之前,首先需要对数据进行收集和预处理。
数据的收集应该尽可能地多样化和全面,以避免自变量之间的相关性。
此外,还需要对数据进行清洗和转换,以确保数据的准确性和一致性。
2. 相关性分析在回归分析中,可以通过计算自变量之间的相关系数来评估它们之间的相关性。
常用的相关系数包括皮尔逊相关系数和斯皮尔曼相关系数。
如果发现自变量之间存在高度相关性,就需要考虑解决多重共线性问题。
3. 方差膨胀因子(VIF)方差膨胀因子是用来评估自变量之间共线性程度的指标。
它的计算方法是将每个自变量作为因变量,其他自变量作为自变量进行回归分析,然后计算回归系数的标准误差。
VIF越大,表示自变量之间的共线性越强。
一般来说,VIF大于10就表明存在严重的多重共线性问题。
4. 特征选择特征选择是解决多重共线性问题的一种常用方法。
通过选择与因变量相关性较高,但与其他自变量相关性较低的自变量,可以减少共线性的影响。
常用的特征选择方法包括逐步回归、岭回归和Lasso回归等。
5. 主成分分析(PCA)主成分分析是一种降维技术,可以将多个相关自变量转化为一组无关的主成分。
通过保留主成分的前几个,可以减少自变量之间的相关性,从而解决多重共线性问题。
但需要注意的是,主成分分析会损失部分信息,可能会影响模型的解释能力。
6. 岭回归和Lasso回归岭回归和Lasso回归是一种通过引入惩罚项来解决多重共线性问题的方法。
岭回归通过在最小二乘估计中添加一个L2正则化项,可以减小回归系数的估计值,从而减少共线性的影响。
Lasso回归则通过在最小二乘估计中添加一个L1正则化项,可以使得一些回归系数变为零,从而实现变量选择的效果。
如何处理逻辑回归模型中的多重共线性(五)
逻辑回归模型是一种非常常用的统计分析方法,用于预测二元变量的结果。
然而,在逻辑回归模型中,多重共线性是一个常见的问题,它会导致模型参数的不稳定性和预测结果的不准确性。
因此,如何处理逻辑回归模型中的多重共线性是一个非常重要的问题。
首先,我们需要了解多重共线性是什么以及它是如何影响逻辑回归模型的。
多重共线性是指自变量之间存在高度相关性的情况,这会导致模型参数估计的不准确性。
在逻辑回归模型中,多重共线性会导致模型参数的标准误差增大,使得参数的显著性检验结果失效。
此外,多重共线性还会导致模型的解释性下降,使得我们无法准确地解释自变量对因变量的影响。
针对逻辑回归模型中的多重共线性问题,我们可以采取一些方法来处理。
首先,我们可以通过降维的方法来减少自变量之间的相关性。
例如,可以使用主成分分析或者因子分析来对自变量进行降维处理,从而减少多重共线性的影响。
另外,我们还可以通过删除高度相关的自变量来解决多重共线性问题,从而减少模型参数的不稳定性。
除了降维和删除自变量之外,我们还可以使用岭回归或者套索回归等正则化方法来处理多重共线性。
这些方法可以通过对模型参数添加惩罚项来减少参数的估计误差,从而提高模型的稳定性和准确性。
此外,我们还可以使用方差膨胀因子(VIF)来检测自变量之间的多重共线性,并剔除VIF较高的自变量,从而减少模型参数的不稳定性。
此外,我们还可以使用交互项来处理多重共线性。
通过引入自变量之间的交互项,可以减少自变量之间的相关性,从而降低多重共线性的影响。
然而,需要注意的是,引入交互项会增加模型的复杂性,需要谨慎使用。
总的来说,处理逻辑回归模型中的多重共线性是一个非常重要的问题。
我们可以通过降维、删除自变量、正则化或者引入交互项等方法来处理多重共线性,从而提高模型的稳定性和准确性。
不同的方法适用于不同的情况,需要根据具体的数据和模型来选择合适的方法。
希望本文对处理逻辑回归模型中的多重共线性问题有所帮助。
多重共线性问题的几种解决方式
多重共线性问题的几种解决方式在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X1,X2,……,X k中的任何一个都不能是其他解释变量的线性组合。
若是违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。
多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。
这里,咱们总结了8个处置多重共线性问题的可用方式,大家在碰到多重共线性问题时可作参考:1、保留重要解释变量,去掉次要或可替代解释变量2、用相对数变量替代绝对数变量3、差分法4、慢慢回归分析5、主成份分析6、偏最小二乘回归7、岭回归8、增加样本容量这次咱们主要研究慢慢回归分析方式是如何处置多重共线性问题的。
慢慢回归分析方式的大体思想是通过相关系数r、拟合优度R2和标准误差三个方面综合判断一系列回归方程的好坏,从而取得最优回归方程。
具体方式分为两步:第一步,先将被解释变量y对每一个解释变量作简单回归:对每一个回归方程进行统计查验分析(相关系数r、拟合优度R2和标准误差),并结合经济理论分析选出最优回归方程,也称为大体回归方程。
第二步,将其他解释变量一一引入到大体回归方程中,成立一系列回归方程,按照每一个新加的解释变量的标准差和复相关系数来考察其对每一个回归系数的影响,一般按照如下标准进行分类判别:1.若是新引进的解释变量使R2取得提高,而其他参数回归系数在统计上和经济理论上仍然合理,则以为这个新引入的变量对回归模型是有利的,可以作为解释变量予以保留。
2.若是新引进的解释变量对R2改良不明显,对其他回归系数也没有多大影响,则没必要保留在回归模型中。
3.若是新引进的解释变量不仅改变了R2,而且对其他回归系数的数值或符号具有明显影响,则以为该解释变量为不利变量,引进后会使回归模型出现多重共线性问题。
不利变量未必是多余的,若是它可能对被解释变量是不可缺少的,则不能简单舍弃,而是应研究改善模型的形式,寻觅更符合实际的模型,从头进行估量。
解决多重共线性的方法
解决多重共线性的方法多重共线性是回归分析中常见的问题之一,指的是自变量之间存在高度相关关系,导致回归分析结果不准确、稳定性差。
解决多重共线性问题的主要方法有以下几种:1. 删除相关性较高的自变量:检查自变量之间的相关性,当相关系数大于0.7或0.8时,考虑删除其中一个自变量。
通常选择与因变量相关性更强的自变量作为模型的预测变量。
2. 增加样本量:多重共线性问题的一个原因是样本量较小,数据集中存在较少的观测点。
增加样本量可以减少误差,增强回归模型的稳定性。
3. 主成分分析(Principal Component Analysis, PCA):PCA是一种常用的降维方法,可以将高维的自变量空间转化为低维空间,去除自变量之间的相关性。
首先利用相关系数矩阵进行特征值分解,然后根据特征值大小选取主成分,最后通过线性变换将原始自变量转化为主成分。
4. 岭回归(Ridge Regression):岭回归是一种正则化方法,通过增加一个正则项(L2范数)来限制模型中系数的大小,从而减小共线性的影响。
岭回归可以在一定程度上缓解多重共线性问题,但会引入一定的偏差。
5. 奇异值分解(Singular Value Decomposition, SVD):奇异值分解是一种常用的矩阵分解方法,可以将自变量矩阵分解为三个矩阵的乘积,其中一个矩阵表示主成分。
通过去除奇异值较小的主成分,可以减少共线性问题。
6. 距离相关系数(Variance Inflation Factor, VIF):VIF用于度量自变量之间的相关性程度,计算每个自变量的VIF值,若VIF值大于10,则认为存在严重的多重共线性问题。
通过删除VIF值较高的自变量,可以解决多重共线性。
除了以上方法,还需注意以下问题:1. 尽量选择“经济学意义上的变量”作为自变量,避免冗余变量的引入。
2. 如果共线性问题严重,即使通过降维方法或者删除变量,仍然无法解决,可以考虑选择其他回归模型,如岭回归、Lasso回归等,这些模型在设计时已经考虑到了多重共线性问题。
学术论文中如何处理回归模型中的共线性问题
学术论文中如何处理回归模型中的共线性问题在学术研究中,回归模型是一种常用的分析工具,用于探索自变量与因变量之间的关系。
然而,回归模型中常常会出现共线性问题,即自变量之间存在高度相关性,给模型的解释和预测能力带来困扰。
本文将探讨在学术论文中如何处理回归模型中的共线性问题。
首先,我们需要了解共线性的原因和影响。
共线性通常是由于自变量之间存在线性关系或者测量误差导致的。
共线性会导致模型估计的不稳定性,使得系数的解释变得困难。
此外,共线性还可能导致系数的符号与预期相反,甚至使得模型的预测效果变差。
针对回归模型中的共线性问题,我们可以采取以下几种方法进行处理。
首先,我们可以通过增加样本量来减少共线性的影响。
较大的样本量可以提供更多的信息,从而降低共线性带来的问题。
然而,增加样本量并不总是可行的,特别是在数据收集受限的情况下。
其次,我们可以通过变量选择的方法来处理共线性。
变量选择的目的是从自变量中选择出最相关的变量,剔除掉冗余的变量。
常用的变量选择方法包括前向选择、后向消元和逐步回归等。
这些方法可以帮助我们找到最优的自变量组合,从而减少共线性的影响。
另外,我们还可以通过正交化的方法来处理共线性。
正交化是一种将相关的自变量转化为无关的新变量的方法。
通过正交化,我们可以消除自变量之间的线性关系,从而减少共线性的问题。
常用的正交化方法包括主成分分析和因子分析等。
除了上述方法,我们还可以通过引入惩罚项来处理共线性。
惩罚项可以通过在模型中加入正则化项来降低共线性的影响。
常用的惩罚项包括L1正则化和L2正则化。
这些惩罚项可以限制模型的复杂度,从而减少共线性的问题。
此外,我们还可以通过检验共线性的方法来判断模型中是否存在共线性问题。
常用的检验方法包括方差膨胀因子(VIF)和条件数等。
方差膨胀因子可以用来衡量自变量之间的相关性,条件数可以用来判断模型的稳定性。
通过检验共线性,我们可以及时发现问题并采取相应的处理方法。
综上所述,回归模型中的共线性问题是学术研究中常见的挑战之一。
回归分析中的多重共线性问题及解决方法(八)
回归分析是统计学中的重要方法之一,它用来研究自变量与因变量之间的关系。
然而,在进行回归分析时,研究人员往往会遇到多重共线性的问题。
多重共线性是指自变量之间存在高度相关性的情况,这会导致回归系数估计不准确,甚至失去解释力。
本文将探讨回归分析中的多重共线性问题及解决方法。
1. 多重共线性问题的影响多重共线性问题会造成回归系数的估计不准确,导致参数估计的标准误较大,t统计量较小,从而影响回归模型的显著性检验。
此外,多重共线性还会导致回归系数的符号与理论预期相悖,使得模型的解释能力大大减弱。
2. 多重共线性问题的诊断为了解决回归分析中的多重共线性问题,首先需要进行诊断。
常用的诊断方法包括:方差膨胀因子(VIF)、特征根分析、条件数等。
其中,VIF是应用最为广泛的一种方法,它通过计算自变量之间的相关系数来判断是否存在多重共线性问题。
一般来说,如果自变量之间的相关系数较高(大于),则可以认为存在多重共线性问题。
3. 解决多重共线性的方法一旦发现回归分析中存在多重共线性问题,就需要采取相应的解决方法。
常用的解决方法包括:删除相关性较高的自变量、合并相关自变量、使用主成分回归等。
其中,删除相关自变量是最为直接的方法,但需要谨慎选择,以免丢失重要信息。
合并相关自变量则是将相关自变量进行线性组合,从而减少共线性的影响。
主成分回归则是通过将相关自变量进行主成分提取,来解决多重共线性问题。
这些方法各有优劣,需要根据具体情况来选择合适的方法。
4. 实例分析为了更好地理解多重共线性问题及解决方法,我们可以通过一个实例来进行分析。
假设我们要研究一个人的身高与体重之间的关系,我们选择了身高、体重和BMI指数作为自变量,而体脂率作为因变量。
通过回归分析,我们发现身高、体重和BMI指数之间存在较高的相关性,从而导致回归系数的估计不准确。
为了解决这一问题,我们可以采取合并相关自变量或主成分回归的方法,从而得到更为准确的回归系数估计。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文章编号:1002-1566(2000)05—0049—07处理多元线性回归中自变量共线性的几种方法——SA S STA T软件(6.12)中R EG等过程增强功能的使用高惠璇(北京大学概率统计系,北京海淀区 100871)摘 要:本文通过例子介绍多元线性回归中自变量共线性的诊断以及使用SA S SA TA(6.12)软件中的R EG等过程的增强功能处理回归变量共线性的一些方法。
包括筛选变量法,岭回归分析法,主成分回归法和偏最小二乘回归法。
关键词:回归、SA S STA T、共线性、筛选变量、岭回归、主成分回归、偏最小二乘回归。
中图分类号:0212;C8文献标识码:A 回归分析方法是处理多变量间相依关系的统计方法。
它是数理统计中应用最为广泛的方法之一。
在长期的大量的实际应用中人们也发现:建立回归方程后,因为自变量存在相关性,将会增加参数估计的方差,使得回归方程变得不稳定;有些自变量对因变量(指标)影响的显著性被隐蔽起来;某些回归系数的符号与实际意义不符合等等不正常的现象。
这些问题的出现原因就在于自变量的共线性。
本文通过例子来介绍自变量共线性的诊断方法以及使用SA S STA T 软件6.12版本中R EG等过程的增强功能处理回归变量共线性的一些方法。
一、共线性诊断共线性问题是指拟合多元线性回归时,自变量之间存在线性关系或近似线性关系。
共线性诊断的方法是基于对自变量的观测数据构成的矩阵X′X进行分析,使用各种反映自变量间相关性的指标。
共线性诊断常用统计量有方差膨胀因子V IF(或容限TOL)、条件指数和方差比例等。
方差膨胀因子V IF是指回归系数的估计量由于自变量共线性使得其方差增加的一个相对度量。
对第i个回归系数,它的方差膨胀因子定义为V I F i=第i个回归系数的方差自变量不相关时第i个回归系数的方差=11-R2i=1TOL i其中R2i是自变量x i对模型中其余自变量线性回归模型的R平方。
V IF i的倒数TOL i也称为容限(To lerance)。
一般建议,若V IF>10,表明模型中有很强的共线性问题。
若矩阵X′X的特征值为d21≥d22≥…≥d2k,则X的条件数d1d k就是刻划它的奇性的一个指标。
故称d1d j(j=1,…,k)为条件指数。
一般认为,若条件指数值在10与30间为弱相关;在30与100间为中等相关;大于100表明有强相关。
对于大的条件指数,还需要找出哪些变量间存在强的线性关系。
因为每个条件指数对应一个特征向量,而大的条件指数相应的特征值较小,故构成这一特征向量的变量间有近似的线性关系。
在统计中用方差比例来说明各个自变量在构成这个特征向量中的贡献。
一般建议,在大的条件指数中由方差比例超过0.5的自变量构成的变量子集就认为是相关变量集。
二、筛选变量的方法变量筛选的一些方法除了把对因变量Y 影响不显著的自变量删除之外,还可以从有共线关系的变量组中筛选出对因变量Y 影响显著的少数几个变量。
例1(水泥数据) 某种水泥在凝固时放出的热量Y (卡 克)与水泥中下列四种化学成份有关:x 1(3C a O .A l 2O 3的成份)、x 2(3C a O .S i O 2的成份)、x 3(4C a O .A l 2O 3.F e 2O 3的成份)和x 4(2C a O .S i O 2的成份)。
共观测了13组数据(见表1),试用R EG 过程分析水泥数据,求出Y 与x 1,x 2,x 3,x 4的最优回归式。
表1 水泥数据序号x 1x 2x 3x 4Y 12345678910111213711111711312211111026295631525571315447406668615886917221842398605220473322644222634121278.574.3104.387.695.9109.2102.772.593.1115.983.8113.3109.4 解 (1)首先用R EG 过程对自变量的共线性进行诊断,只需在M OD EL 语句的斜杠( )后使用选项V IF 和COLL I NO I N T (或COLL I N ),以下SA S 程序输出的部分结果见输出1.1(假设表1中的数据已生成SA S 数据集D 1)。
p roc reg data =d 1;m odel y =x 1-x 4 vif co llino in t ;run ; 由输出1.1的参数估计部分,可以得出:①4个自变量的方差膨胀因子(V IF )均大于10,最大为282.51,表示变量之间有严重的多重共线关系。
②回归方程的截距项=0的假设是相容的(p 值=0.3991);③所有自变量在Α=0.05的显著水平下对因变量的影响均不显著(有三个变量的p 值大于0.5),而回归方程是高度显著的(p 值=0.0001,输出1.1没有显示),这说明自变量对因变量的显著影响均被变量间的多重相关性隐藏了。
由输出1.1的共线性诊断部分,可以得出:①最大条件指数37.1>30,说明4个自变量间有中等相关关系;②与最大条件指数在一行的4个变量的方差比例均大于0.5,这说明这4个变量就是一个具有中等相关的变量集。
输出1.1 水泥数据共线性诊断的部分结果 (2)用逐步回归方法从相关变量集中选出“最优”回归子集,当引入和删除的显著性水平Α取为0.05时,入选的自变量为x 1和x 4;当显著性水平Α取为0.10或0.15时,则入选的自变量为x 1和x 2。
可见用逐步筛选的方法得到的回归子集与显著水平的选取有关,选出的子集是某个较优的回归方程。
容易验证这里得到的两个子集中变量对Y的影响都是高度显著的,且自变量的方差膨胀因子V IF值都小于1.1,表明已没有共线问题。
(3)用全子集法计算所有可能回归,从中选出最优的回归方程。
以下SA S程序中, M OD EL语句斜杠( )后的选项指出用R2选择法,要求对每种变量个数输出二个最佳的回归子集,并输出均方根误差、CP、A I C和修正R2统计量,产生的结果见输出1.2。
p roc reg data=d431;m odel y=x12x4 selecti on=rsquare best=2cp aic rm se adjrsq;run; 输出1.2 对水泥数据计算所有可能回归的部分结果 在模型中变量个数固定为2的回归子集中选出的最优回归子集是x1和x2,其次是x1和x4。
如果按均方根误差最小的准则、修正R2最大准则及A I C最小准则,选出的最优子集都是x1、x2和x4。
但在回归系数的显著性检验中,x4对Y的作用不显著(p=0.2054);且x2和x4的方差膨胀因子V IF值>10,共线诊断的结论也说明x2和x4是相关的变量集。
而按CP统计量最小淮则选出的最优回归子集为x1和x2。
综合以上分析可得出Y与x1、x2的回归方程是可用的最优方程。
用筛选变量的方法从有共线性的变量组中筛选出对因变量Y影响显著的若干个变量来建立最优回归式,不仅克服了共线性问题,且使得回归式简化;但有些实际问题希望建立Y与给定自变量的回归式,既使自变量有共线性问题,如经济分析中的问题。
下面三种方法都是针对这类问题而给出的方法。
三、岭回归方法在经典多元线性回归分析中,参数Β=(Β0,Β1,...,Βm)′的最小二乘估计b=(b0,b1,..., b m)′的均方误差为E{(b-Β)′(b-Β)},当自变量存在多重共线关系时,均方误差将变得很大,故从均方误差的角度看,b不是Β的好估计。
减少均方误差的方法就是用岭回归估计替代最小二乘估计。
设k≥0,则称b(k)=(X′X+k I)-1X′Y为Β的岭回归估计。
用岭回归估计建立的回归方程称为岭回归方程。
当k=0时b(0)=b就是Β的最小二乘估计。
从理论上可以证明,存在k>0,使得b(k)的均方误差比b的均方误差小;但使得均方误差达到最小的k值依赖于未知参数Β和Ρ2。
因此k值的确定是岭回归分析中关键。
在实际应用中,通常确定k值的方法有以下几种:①岭迹图法,即对每个自变量x i,绘制随k值的变化岭回归估计b i(k)的变化曲线图。
一般选择k使得各个自变量的岭迹趋于稳定。
②方差膨胀因子法,选择k使得岭回归估计的V IF<10。
③控制残差平方和法,即通过限制b(k )估计的残差平方和不能超过c Q (其中c >1为指定的常数,Q 为最小二乘估计的残差平方和)来找出最大的k 值。
下面通过例子来介绍岭回归分析。
例2:经济分析数据的岭回归分析 考察进口总额Y 与三个自变量:国内总产值x 1,存储量x 2,总消费量x 3(单位均为十亿法郎)有关。
现收集了1949年至1959年共11年的数据(见表2)。
对表2的数据试用R EG 过程求进口总额与总产值、存储量和总消费量的定量关系式。
表2 经济分析数据序号x 1x 2x 3Y 1234567891011149.3161.2171.5175.5180.8190.7202.1212.4226.1231.9239.04.24.13.13.11.12.22.15.65.05.10.7108.1114.8123.2126.9132.1137.7146.0154.1162.3164.3167.615.916.419.019.118.820.422.726.528.127.626.3 解 (1)使用R EG 过程来建立Y 与x 1、x 2、x 3的回归关系式。
以下SA S 程序产生的完整输出结果这里省略了(假设表2中的数据已生成SA S 数据集D 2)。
p roc reg data =d 2co rr ; m odel y =x 1-x 3 vif co llin ;run ; 由R EG 过程得到的回归方程为:Y =-10.128-0.051x 1+0.587x 2+0.287x 3变量x 1的系数为负值,这与实际情况不符。
出现此现象的原因是变量x 1与x 3线性相关:Θ(x 1,x 3)=0.997。
在M OD EL 语句后加上选项V IF 和COL L IN 产生的输出(省略了)可以更清楚地看出x 1和x 3是多重相关的变量集。
为了消除变量之间的多重共线关系,岭回归就是一个有效的方法。
(2)在M OD EL 语句的斜杠()后由选项R ID GE =指定一组k 值来完成岭回归分析。
在PL O T 语句中由选项R ID GE PL O T 要求绘制岭迹图。
PRO C R EG 语句的选项OU T ES T =OU T 2要求把这一组k 值的岭回归估计送到输出数据集OU T 2中,选项OU TV IF 还要求把岭回归估计的方差膨胀因子(V IF )送到输出集中。