多重共线性问题

合集下载

经济统计学中的多重共线性问题

经济统计学中的多重共线性问题在经济统计学中，多重共线性是一个常见且重要的问题。

它指的是在经济模型中，解释变量之间存在高度相关性，导致模型的稳定性和可靠性受到影响。

本文将探讨多重共线性问题的原因、影响以及解决方法。

一、多重共线性问题的原因多重共线性问题的产生通常有两个主要原因。

首先，解释变量之间存在线性关系。

例如，在研究经济增长时，我们可能会使用国内生产总值（GDP）、人均收入和就业率等变量作为解释变量。

然而，这些变量之间可能存在高度相关性，比如GDP和人均收入之间往往呈正相关关系。

这种线性关系会导致多重共线性问题。

其次，数据的选择和收集方式也可能导致多重共线性问题。

在进行经济统计研究时，我们需要收集大量的数据，以支持我们的模型分析。

然而，由于数据的可获得性和可靠性等因素，我们可能只能选择一部分相关的变量进行研究。

这样一来，我们就有可能忽略了一些重要的解释变量，从而导致多重共线性问题的出现。

二、多重共线性问题的影响多重共线性问题对经济统计分析的结果产生了一系列的影响。

首先，它会导致模型的稳定性下降。

由于解释变量之间存在高度相关性，模型的回归系数估计值会变得不稳定。

这意味着即使微小的数据变动，也可能导致回归系数的巨大变化，从而影响对模型的解释和预测能力。

其次，多重共线性问题还会导致模型的可靠性下降。

由于解释变量之间存在高度相关性，模型的回归系数估计值可能变得不准确。

这意味着我们无法准确地判断解释变量对因变量的影响程度。

如果我们在政策制定或决策分析中依赖于这些模型结果，就可能导致错误的判断和决策。

三、解决多重共线性问题的方法针对多重共线性问题，经济统计学提出了一些解决方法。

首先，我们可以通过增加样本量来减轻多重共线性问题。

更大的样本量会提供更多的数据点，从而减少解释变量之间的相关性。

这样一来，模型的稳定性和可靠性都会有所提高。

其次，我们可以通过引入新的解释变量来解决多重共线性问题。

这些新的解释变量应该与原有的解释变量有一定的相关性，但又不会导致高度相关。

多重共线性习题及答案

多重共线性一、单项选择题1、当模型存在严重的多重共线性时，OLS估计量将不具备（）A、线性B、无偏性C、有效性D、一致性2、经验认为某个解释与其他解释变量间多重共线性严重的情况是这个解释变量的VIF（）A、大于B、小于C、大于5D、小于53、模型中引入实际上与解释变量有关的变量，会导致参数的OLS估计量方差（）A、增大B、减小C、有偏D、非有效4、对于模型y t=b0+b1x1t+b2x2t+u t，与r12=0相比，r12＝0.5时，估计量的方差将是原来的（）A、1倍B、1.33倍C、1.8倍D、2倍5、如果方差膨胀因子VIF＝10，则什么问题是严重的（）A、异方差问题B、序列相关问题C、多重共线性问题D、解释变量与随机项的相关性6、在多元线性回归模型中，若某个解释变量对其余解释变量的判定系数接近于1，则表明模型中存在( )A 异方差B 序列相关C 多重共线性D 高拟合优度7、存在严重的多重共线性时，参数估计的标准差（）A、变大B、变小C、无法估计D、无穷大8、完全多重共线性时，下列判断不正确的是（）A、参数无法估计B、只能估计参数的线性组合C、模型的拟合程度不能判断D、可以计算模型的拟合程度二、多项选择题1、下列哪些回归分析中很可能出现多重共线性问题（）A、资本投入与劳动投入两个变量同时作为生产函数的解释变量B、消费作被解释变量，收入作解释变量的消费函数C、本期收入和前期收入同时作为消费的解释变量的消费函数D、商品价格、地区、消费风俗同时作为解释变量的需求函数E、每亩施肥量、每亩施肥量的平方同时作为小麦亩产的解释变量的模型2、当模型中解释变量间存在高度的多重共线性时（）A、各个解释变量对被解释变量的影响将难以精确鉴别B、部分解释变量与随机误差项之间将高度相关C、估计量的精度将大幅度下降D、估计对于样本容量的变动将十分敏感E、模型的随机误差项也将序列相关3、下述统计量可以用来检验多重共线性的严重性（）A、相关系数B、DW值C、方差膨胀因子D、特征值E、自相关系数4、多重共线性产生的原因主要有（）A、经济变量之间往往存在同方向的变化趋势B、经济变量之间往往存在着密切的关联C、在模型中采用滞后变量也容易产生多重共线性D、在建模过程中由于解释变量选择不当，引起了变量之间的多重共线性E、以上都正确5、多重共线性的解决方法主要有（）A、保留重要的解释变量，去掉次要的或替代的解释变量B、利用先验信息改变参数的约束形式C、变换模型的形式D、综合使用时序数据与截面数据E、逐步回归法以及增加样本容量6、关于多重共线性，判断错误的有（）A、解释变量两两不相关，则不存在多重共线性B、所有的t检验都不显著，则说明模型总体是不显著的C、有多重共线性的计量经济模型没有应用的意义D、存在严重的多重共线性的模型不能用于结构分析7、模型存在完全多重共线性时，下列判断正确的是（）A、参数无法估计B、只能估计参数的线性组合C、模型的判定系数为0D、模型的判定系数为1三、简述1、什么是多重共线性？产生多重共线性的原因是什么？2、什么是完全多重共线性？什么是不完全多重共线性？3、完全多重共线性对OLS估计量的影响有哪些？4、不完全多重共线性对OLS估计量的影响有哪些？5、从哪些症状中可以判断可能存在多重共线性？6、什么是方差膨胀因子检验法？四、判断（1）如果简单相关系数检测法证明多元回归模型的解释变量两两不相关，则可以判断解释变量间不存在多重共线性。

多重共线性问题

轿车拥有量y与人均可支配收入x1散点图
轿车拥有量y与全国城镇人口x2散点图
轿车拥有量y与全国汽车产量x3散点图
轿车拥有量y与全国公路长度x4散点图
多重共线性实例3-相关性分析
从上述图像可以看到，y与x1，x2呈非线性关系，与x3，x4 近似呈线性关系。 x1，x2，x3和x4的相关系数矩阵如下 0.983 0.9585 0.9296 1 0.983 1 0.963 0 .959 R 0.9585 0.963 1 0.955 0 . 9296 0 .959 0 .955 1 x1，x2，x3 , x4两两之间的相关系数都超过0.9，说明 xi 与x j , i, j 1,2,3,4基本线性相关，x1，x2，x3 , x4之间存在着多重共线性关系。
多重共线性实例2-相关矩阵
多重共线性实例2-x1与x3的回归系数
多重共线性实例2
x1 , x2与x3的相关系数矩阵为 0.033 0.987 1 R 0 . 033 1 0 . 036 1 0.987 0.036 x1与x3基本线性相关，x3关于x1的一元线性回归方程为 x3 4.963 0.73x1 x1与x3之间存在着多重共线性。
产生多重共线性的原因

许多经济变量之间存在着相关性有着共同的变化趋势；在回归模型中使用滞后因变量，也可能产生多重共线性问题。样本数据也会引起多重共线性问题。根据回归模型的假设，自变量是非随机变量，由于收集的数据过窄而造成某些自变量似乎有相同或相反的变化趋势。也即自变量即使在总体上不存在线性关系，其样本也可能是线性相关的。

职工平均工资农民平均收入银行利率消费者物价指数(Consumer Price Index) 国债利率货币发行量（商品流通中所需的实际货币量 = 商品价格总额 / 商品流通次数）储蓄额前期消费额等

多重共线性问题的几种解决方法

多重共线性问题的几种解决方法在多元线性回归模型经典假设中，其重要假定之一是回归模型的解释变量之间不存在线性关系，也就是说，解释变量X1，X2，……，X k中的任何一个都不能是其他解释变量的线性组合。

如果违背这一假定，即线性回归模型中某一个解释变量与其他解释变量间存在线性关系，就称线性回归模型中存在多重共线性。

多重共线性违背了解释变量间不相关的古典假设，将给普通最小二乘法带来严重后果。

这里，我们总结了8个处理多重共线性问题的可用方法，大家在遇到多重共线性问题时可作参考：1、保留重要解释变量，去掉次要或可替代解释变量2、用相对数变量替代绝对数变量3、差分法4、逐步回归分析5、主成份分析6、偏最小二乘回归7、岭回归8、增加样本容量这次我们主要研究逐步回归分析方法是如何处理多重共线性问题的。

逐步回归分析方法的基本思想是通过相关系数r、拟合优度R2和标准误差三个方面综合判断一系列回归方程的优劣，从而得到最优回归方程。

具体方法分为两步：第一步，先将被解释变量y对每个解释变量作简单回归:对每一个回归方程进行统计检验分析（相关系数r、拟合优度R2和标准误差），并结合经济理论分析选出最优回归方程，也称为基本回归方程。

第二步，将其他解释变量逐一引入到基本回归方程中，建立一系列回归方程，根据每个新加的解释变量的标准差和复相关系数来考察其对每个回归系数的影响，一般根据如下标准进行分类判别：１.如果新引进的解释变量使R2得到提高,而其他参数回归系数在统计上和经济理论上仍然合理，则认为这个新引入的变量对回归模型是有利的，可以作为解释变量予以保留。

２.如果新引进的解释变量对R2改进不明显，对其他回归系数也没有多大影响，则不必保留在回归模型中。

３.如果新引进的解释变量不仅改变了R2，而且对其他回归系数的数值或符号具有明显影响，则认为该解释变量为不利变量，引进后会使回归模型出现多重共线性问题。

不利变量未必是多余的，如果它可能对被解释变量是不可缺少的，则不能简单舍弃，而是应研究改善模型的形式，寻找更符合实际的模型，重新进行估计。

多重共线性问题的偏最小二乘估计

多重共线性问题的偏最小二乘估计1. 引言1.1 背景介绍多重共线性问题是回归分析中常见的一个问题，指的是自变量之间存在高度相关性或线性关系，导致回归系数估计不准确甚至不可靠的情况。

在实际应用中，多重共线性问题可能会导致回归系数估计出现偏差，增加了模型的不确定性，降低了模型的预测能力。

传统的最小二乘估计方法在存在多重共线性问题时表现不佳，容易导致过拟合或欠拟合的情况。

为了解决多重共线性问题，偏最小二乘估计方法被提出并得到广泛应用。

偏最小二乘估计方法通过降低自变量之间的相关性，提高回归系数的稳定性和准确性，从而改善模型的性能。

偏最小二乘估计方法在多元回归分析、主成分回归、岭回归等领域都有重要的应用价值。

本文旨在探讨多重共线性问题对回归分析的影响，分析传统最小二乘估计方法存在的问题，介绍偏最小二乘估计方法的原理和应用，并探讨偏最小二乘估计方法相对于传统方法的优势和未来研究展望。

通过本文的阐述，读者将更加深入地了解多重共线性问题以及对应的解决方法，为实际应用中的数据分析提供参考依据。

1.2 研究意义多重共线性问题的偏最小二乘估计方法在回归分析领域具有重要的研究意义。

多重共线性是指自变量之间存在高度相关性或线性关系，导致回归模型失真或不准确的问题。

在实际数据分析中，多重共线性现象时常存在，特别是在变量较多或样本量较小的情况下。

解决多重共线性问题可以提高回归模型的精确度和解释力，对实际问题的预测和分析具有重要意义。

偏最小二乘估计方法正是针对多重共线性问题而提出的一种有效技术。

与传统的最小二乘法相比，偏最小二乘法能够有效地降低自变量之间的相关性，减少共线性带来的影响，提高模型的稳定性和准确性。

研究偏最小二乘估计方法不仅可以帮助我们更好地理解多重共线性问题的本质，还可以为实际数据分析提供更有效的工具和方法。

研究偏最小二乘估计方法对于解决多重共线性问题具有重要意义，可以提高回归模型的质量和可靠性，为相关领域的研究和应用带来更多的启发和帮助。

多重共线性问题的偏最小二乘估计

多重共线性问题的偏最小二乘估计多重共线性问题是回归分析中一个常见的挑战，它会影响模型的稳定性和可靠性。

在面对多重共线性问题时，偏最小二乘估计（PLS）是一种常用的解决方法。

本文将介绍多重共线性问题的原因和影响，以及偏最小二乘估计的原理和应用。

一、多重共线性问题的原因和影响多重共线性是指自变量之间存在高度相关性的情况，这种相关性会导致回归系数的估计不准确，增加误差项的方差，降低模型的预测能力。

多重共线性问题通常有以下几个原因：1. 数据样本量不足：当样本量不足时，容易导致自变量之间的相关性较高，造成多重共线性问题。

2. 自变量之间存在共同因素：如果自变量之间存在共同的影响因素，就会导致它们之间出现高度相关性，从而产生多重共线性。

3. 测量误差：测量误差会使得变量之间的相关性被放大，导致多重共线性问题的出现。

多重共线性问题会对回归分析结果产生影响，主要表现在以下几个方面：1. 回归系数不稳定：由于自变量之间的相关性，回归系数估计的不稳定性会增加。

2. 系数估计偏差：多重共线性使得回归系数的估计偏离真实值，降低了模型的准确性。

3. 预测能力下降：多重共线性问题会降低模型的预测能力，使得模型的预测误差增加。

解决多重共线性问题对于提高回归模型的准确性和可靠性至关重要。

二、偏最小二乘估计的原理偏最小二乘估计是一种在面对多重共线性问题时常用的方法，它通过保留自变量与因变量之间的信息，剔除自变量之间的共线性，从而得到对系数估计更加稳健的模型。

偏最小二乘估计的原理是通过主成分分析的思想，将自变量通过线性组合的方式转化为一组新的综合变量，使得新变量之间的相关性尽可能小，同时保留与因变量相关性较高的信息。

具体步骤如下：1. 将自变量和因变量进行标准化处理，使得均值为0，方差为1。

2. 通过主成分分析的方法，得到一组新的综合变量（主成分），这些主成分是原有自变量的线性组合。

3. 选择与因变量相关性最高的主成分作为潜在自变量，构建偏最小二乘估计模型。

多重共线性问题分析

●经验表明，方差膨胀因子≥10时，说明解释变量
与其余解释变量之间有严重的多重共线性，且这
种多重共线性可能会过度地影响最小二乘估计。
（4）直观判断法
①当增加或剔除一个解释变量，或者改变一
个观测值时，回归参数的估计值发生较大变化，回归方程可能存在严重的多重共线性。 ②从定性分析认为，一些重要的解释变量的回归系数的标准误差较大，在回归方程中没有通过显著性检验时，可初步判断可能存在严重的多重共线性。
例如：
年份 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
C 1759.1 2005.4 2317.1 2604.1 2867.9 3182.5 3674.5 4589.0 5175.0 5961.2 7633.1 8523.5 9113.2 10315.9 12459.8 15682.4 20809.8 26944.5 32152.3 34854.6 36921.1 39334.4 42911.9
三、多重共线性的检验
多重共线性表现为解释变量之间具有相关关系，
所以用于多重共线性的检验方法主要是统计方法：
如判定系数检验法、逐步回归检验法等。多重共线性检验的任务是：（1）检验多重共线性是否存在；
（2）估计多重共线性的范围，即判断哪些变量之
间存在共线性。
1、检验多重共线性是否存在
(1)对两个解释变量的模型，采用简单相关系数法
可以有效地消除原模型中的多重共线性。
一般而言，差分后变量之间的相关性要比
差分前弱得多，所以差分后的模型可能降

如何解决多重共线性问题

如何解决多重共线性问题多重共线性是统计学中常见的问题，特别是在回归分析中。

它指的是自变量之间存在高度相关性，导致回归模型的稳定性和解释能力下降。

在实际应用中，解决多重共线性问题是非常重要的，下面将探讨一些常用的方法。

1. 数据收集和预处理在解决多重共线性问题之前，首先需要对数据进行收集和预处理。

数据的收集应该尽可能地多样化和全面，以避免自变量之间的相关性。

此外，还需要对数据进行清洗和转换，以确保数据的准确性和一致性。

2. 相关性分析在回归分析中，可以通过计算自变量之间的相关系数来评估它们之间的相关性。

常用的相关系数包括皮尔逊相关系数和斯皮尔曼相关系数。

如果发现自变量之间存在高度相关性，就需要考虑解决多重共线性问题。

3. 方差膨胀因子（VIF）方差膨胀因子是用来评估自变量之间共线性程度的指标。

它的计算方法是将每个自变量作为因变量，其他自变量作为自变量进行回归分析，然后计算回归系数的标准误差。

VIF越大，表示自变量之间的共线性越强。

一般来说，VIF大于10就表明存在严重的多重共线性问题。

4. 特征选择特征选择是解决多重共线性问题的一种常用方法。

通过选择与因变量相关性较高，但与其他自变量相关性较低的自变量，可以减少共线性的影响。

常用的特征选择方法包括逐步回归、岭回归和Lasso回归等。

5. 主成分分析（PCA）主成分分析是一种降维技术，可以将多个相关自变量转化为一组无关的主成分。

通过保留主成分的前几个，可以减少自变量之间的相关性，从而解决多重共线性问题。

但需要注意的是，主成分分析会损失部分信息，可能会影响模型的解释能力。

6. 岭回归和Lasso回归岭回归和Lasso回归是一种通过引入惩罚项来解决多重共线性问题的方法。

岭回归通过在最小二乘估计中添加一个L2正则化项，可以减小回归系数的估计值，从而减少共线性的影响。

Lasso回归则通过在最小二乘估计中添加一个L1正则化项，可以使得一些回归系数变为零，从而实现变量选择的效果。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

X 0 其中称为“岭回归参数”，一般 1 D 是用Байду номын сангаас ， 2 2 矩阵对角线上元素 n 和k2 X ki k 1,2,, K 构 d0 d

i
成的对角线矩阵。
23
2 d 0 D
d12
2 dk
估计量的数学期望为：
其中ci 不全为0，vi 为随机误差项，则称为近似共线性
multicollinearity）或交互相关
3
8.1 问题的种类和原因
3、实际经济问题中的多重共线性
一般地，产生多重共线性的主要原因有以下三个方面：（1）经济变量相关的共同趋势时间序列样本：经济繁荣时期，各基本经济变量（收入、
消费、投资、价格）都趋于增长；衰退时期，又同时趋
于下降。横截面数据：生产函数中，资本投入与劳动力投入往往出现高度相关情况，大企业二者都大，小企业都小。
4
8.1 问题的种类和原因
（2）滞后变量的引入
在经济计量模型中，往往需要引入滞后经济变量来反映真实的经济关系。例如，消费=f(当期收入, 前期收入）显然，两期收入间有较强的线性相关性。
7
当完全不共线时, r2 =0
当近似共线时, 0< r2 <1
多重共线性使参数估计值的方差增大，1/(1-r2)为方差扩大因子(Variance Inflation Factor, VIF)
方差膨胀因子表
相关系数平方方差膨胀因子 0 1 0.5 2 0.8 5 0.9 10 0.95 20 0.96 25 0.97 33 0.98 50 0.99 100 0.999 1000
1 2 ˆ var(1 ) 2 2 x1i 1 r x12i
ˆ var(1 ) 2 / x12i
2
ˆ 当完全共线时， r2=1， var(1 )
8
8.2 （近似）多重共线性的危害
6、回归系数符号有误； 7、难以衡量各个解释变量对回归平方和（ESS）或者R2 的贡献。
（3）样本资料的限制
由于完全符合理论模型所要求的样本数据较难收集，特定样本可能存在某种程度的多重共线性。一般经验：
时间序列数据样本：简单线性模型，往往存在多重共线性。
截面数据样本：问题不那么严重，但多重共线性仍然是存在的。
5
8.2（近似）多重共线性的危害
1、普通最小二乘法估计量的方差和标准差变大，即精确度下降； 2、臵信区间变宽；
1 ˆ E β XX D XEY 1 XX D XXβ 1 XX D XX D Dβ 1 β - XX D Dβ

24
8.5 案例——中国粮食生产函数
根据理论和经验分析，影响粮食生产（Y）的主要因素有：农业化肥施用量（X1, 万吨）；粮食播种面积(X2，万公斤) 成灾面积(X3 ，千公顷); 农业劳动力(X5 ，万人) 已知中国粮食生产的相关数据，建立中国粮食生产函数： Y=0+1 X1 +2 X2 +3 X3 +4 X4 +4 X5 + 农业机械总动力(X4 ，公顷);
变量为自变量，建立回归模型。变量CAR与POP、
RGNP之间相关系数较大，存在多重共线性。
15
实例二：
1960至1982年期间美国的鸡肉需求：
有关变量：平均每人鸡肉消费量（Y），每人实际可支配收入（X2），鸡肉的实际零售价格（ X3），猪肉的实际零售价格（ X4），牛肉的实际零售价格（ X5）初步回归相关矩阵辅助回归
如果预先知道所研究的经济有规模报酬不变的性质， 1 即函数中的参数满足就可以克服多重共线性。 logY log A log L 1 log K
logY log K log A log L log K Y L log log A log K K
总之，随着多重共线性程度的提高，参数方差会
急剧上升到很大的水平，理论上使最小二乘法估计的有效性、可靠性和价值都受到影响，实践中参数估计的稳定性和可靠程度下降。
9
8.3 多重共线性的测定
1、R2较高、F检验通过但有些系数不能通过t检验； 2、解释变量两两高度相关：检验解释变量相互之间的样本相关系数； 3、方差扩大（膨胀）因子检验； 4、状态数检验。注意：没有一种检验方法能够使我们彻底解决多重共线
3、t值不显著；
4、R平方值较高，但t值并不都显著； 5、OLS估计量及其标准差对数据的微小变化非常敏感，即它们趋于不稳定；
6
以二元线性模型 y=1x1+2x2+ 为例:
1 ˆ var( 1 ) 2 ( X X )11
x x
2 1i
2 2 x 2i 2 2i
( x1i x 2i )
2 k
σ2 Varbk SST k
σ2 1 σ2 Varbk 2 SSTk 1 Rk SSTk
自变量xj的方差扩大因子（Variance Inflation Factor) 定义为矩阵(X’X)-1中第k个对角元素，即
1 VIF bk 1 Rk2
12
上式中 Rk2 表示把xk作为因变量，其余自变量作为自变量进行回归得到的决定系数。这个值越大，表示该变量与其余自变量的线性依存程度越强，则自变量的共线性越
14
实例一：美国机动车汽油消费的影响因素分析
给出1950-1987年间美国机动车汽油消费量和影响消费量的变量数值。其中格变量表示：QMG为机动车汽油消费量（单位：千加仑）；CAR为汽车保有量；PMG为
机动车汽油零售价格；POP为人数；RGNP为按1982年
美元计算的GNP（单位：十亿美元）；PGNP为GNP指数（以1982年为100）。以汽油消费量为因变量，其他
第八章多重共线性问题
一、问题的种类和原因
二、多重共线性的危害三、多重共线性的测定四、多重共线性的克服和处理
1
8.1 问题的种类和原因
1、完全多重共线性
一个自变量刚好是其他自变量的线性组合如果存在 c1X1i+c2X2i+…+ckXki=0 i=1,2,…,n
其中: ci不全为0，则称为解释变量间存在完全共线性
严重。常以方差扩大因子是否大于10来判断第 k个解释
变量是否存在较强的、必须加以处理的多重共线性。还可以用所有自变量所对应的方差扩大因子的平均数，当
其大于10时，表示变量间存在严重的共线性。
13
VIF的EViews计算
首先建立以某个自变量为因变量、其余自变量为自变量
的多元回归方程.
然后计算VIF，命令如下： scalar vif=1/(1-equation_name.@R2) 其中R2是R2，调用系数格式为 equation_name.@coefs(n)
性问题。多重共线性是一个程度问题。
10
方差扩大因子检验
分析已知
σ2 σ2 Varbk x M k x k x x k x X k X X k 1 X x k k k k k k σ2
1 x X k X X k X x k k k x x k 1 k k x x k k
25
1、用OLS法估计上述模型：
ˆ Y 1281644 6.213X1 0.421X 2 0.166X 3 0.098X 4 0.028X 5 .
(-0.91)
(8.39)
(3.32)
(-2.81)
(-1.45)
(-0.14)
R2接近于1；给定=5%，得F临界值 F0.05(5,12)=3.11 F=638.4 > 15.19，故认上述粮食生产的总体线性关系显著成立。但X4 、X5 的参数未通过t检验，且符号不正确，故解释变量间可能存在多重共线性。
线性回归模型为作如下变换：
Yi 0 1 X1i 2 X 2i i
Yi Yi Yi 1 X1i X1i X1i 1
X 2i X 2i X 2i 1
Yi 1X1i 2X 2i 1 i
且已知X1和X2之间存在多重共线性问题。
2

1 ( x1i x 2i ) 2
2 / x12i
x x
2 1i
2 2i
2 x12i x 2i
( x1i x 2i ) 2
1 2 x1i 1 r 2
恰为X1与X2的线性相关系数的平方r2，即X1 对X2回归的拟合优度。
2
由于 r2 1，故 1/(1- r2 )1
16
状态数检验
状态指数
将X矩阵的每一列xk用其模 X Xk Xk 相除以实现标准化，然后再求X’X矩阵的特征值，取其中最大的除以最小的后再求平方根，得到该矩阵的“状态数”，记为： max

min
通常当大于20或30时，认为存在较明显的多重共线性。
17
确定哪些解释变量的系数受到多重共线性的影响：先计算各个特征值的“状态指数”
26
2、检验简单相关系数
列出X1，X2，X3，X4，X5的相关系数矩阵：
X1 X2 X3 X4 X5
X1 1.00 0.01 0.64 0.96 0.55
X2 0.01 1.00 -0.45 -0.04 0.18
X3 0.64 -0.45 1.00 0.69 0.36
X4 0.96 -0.04 0.69 1.00 0.45
i min
这些状态指数的水平在1到
max 之间，很可能有好几 min 个超过20-30的“危险”水平。
18
8.4 多重共线性的克服和处理