多重共线性和虚拟变量的使用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多重共线性产生的原因
• 多重共线性问题在金融数据中是普遍存在的,不仅存在于 时间序列数据中,也存在于横截面数据中。具体而言,多 重共线性产生的原因主要有以下几点: (1)数据收集及计算方法。 (2)模型或从中取样的总体受到限制。 (3)模型设定偏误。 • 此外,在观测值个数较少,以至于小于解释变量个数时, 也会产生多重共线性;时间序列数据中,若同时使用解释 变量的当期值和滞后值,由于当期值和滞后值之间往往高 度相关,也容易产生多重共线性。
v 2 x2i 2
ˆ 的方差也是无限大的。因此,当存在完 • 同理, 2 全多重共线性时,我们将不能求得参数估计值, 参数估计值的方差无限大。 • 当存在近似多重共线性时,尽管可以求得参数估 计值,但它们是不稳定的,同时参数估计值的方 差将变大,变大的程度取决于多重共线性的严重 程度。
•
本章要点
• • • • • • • • 多重共线性的含义 多重共线性产生的原因 多重共线性的后果 判断多重共线性的方法及其修正方法 虚拟变量的设置原则 虚拟变量模型的应用 邹氏检验的做法及缺陷 虚拟变量法检验结构稳定性的优点
多重共线性的概念
• 多重共线性(multicollinearity)一词最早由 挪威经济学家弗瑞希(R.Frisch)于1934年提出。 • 其原义是指回归模型中的一些或全部解释变量中 存在的一种完全(perfect)或准确(exact)的线性 关系。而现在所说的多重共线性,除指上述提到 的完全多重共线性(perfect multicollinearity ), 也包括近似多重共线性(near multicollinearity)。
在实际金融数据中,完全多重共线性只是一种极端情况, 各种解释变量之间存在的往往是近似多重共线性,因此 通常所说多重共线性造成的后果是指近似多重共线性造 成的后果,具体而言,它将造成如下的后果: (1)回归方程参数估计值将变得不精确,因为 较大的方差 将会导致置信区间变宽。 (2)由于参数估计值的标准差变大,t值将缩小,使得t检验 有可能得出错误的结论 。 (3)将无法区分单个变量对被解释变量的影响作用。
多重共线性的后果
• 多重共线性不会改变最小二乘估计的无偏性,但在解释变 量之间存在严重的多重共线性而被忽略时,会对模型的估 计、检验与预测产生严重的不良后果。以某一离差形式 (即 xt Xt X )表示的二元线性回归模型 为例 yi 1 x1i 2 x2i vi
• 若存在完全多重共线性,假设存在关系 x1i x2i 常数 0 。则 1的估计值
判断多重共线性的存在范围
• 要确定多重共线性是由哪些主要变量引起的,可 以采用辅助回归法(auxiliary regression method)。所谓辅助回归是指某一解释变量对其 余解释变量的回归,区别于因变量对所有解释变 量回归的主回归(main regression)。 • 辅助回归法构造的检验统计量定义如下:
检验多重共Fra Baidu bibliotek性问题是否严重
• 若回归模型的 R 2 值高(如 R 2 >0.8),或F检验值 显著,但单个解释变量系数估计值却不显著;或 从金融理论知某个解释变量对因变量有重要影响, 但其估计值却不显著,则可以认为存在严重的多 重共线性问题。 • 若两个解释变量之间的相关系数高,比如说大于 0.8,则可以认为存在严重的多重共线性。
2 2 2 y x x x x y x y x x y x x 0 i 1i 2i 1i 2i i 2i i 2i 2i i 2i 2i ˆ 1 x1i 2 x2i 2 ( x1i x2i )2 2 ( x 2 2 i ) 2 2 ( x 2 2 i ) 2 0
多重共线性的检验
• 如前所述,多重共线性普遍存在于金融、经济数据中,因 此对多重共线性的检验并不是要确定其是否存在,而是要 确定多重共线性的程度。 • 由于多重共线性是对被假定为非随机变量的解释变量的情 况而言的,所以它是一种样本而非总体特征,这决定了我 们只能以某些经验法则(rules of thumb)来检验模型的 多重共线性。 • 对多重共线性的检验主要包括以下内容: (1)检验多重共线性问题是否严重 (2)多重共线性的存在范围,即确定多重共线性 是由哪些主要变量引起的。 (3)多重共线性的表现形式,即找出与主要变量 有共线性的解释变量。
ˆ 也是无法确定的,即不能求得参数估计值。 • 同理 2
• 而对于参数估计值的方差,有
2 2 x v 2i ˆ) var( 1 2 2 2 2 2 2 2 2 2 x1i x2i ( x1i x2i ) ( x 2 i ) ( x 2 i )
• 为对上述两概念加以区别,我们以一组解释变量 X1、X2、...Xn 为例 • 如果存在一组不完全为零的常数 1、 2、 ... n 满足1X1+ 2X2+...+ nXn=0 ,即任一变量都可以由其它变 量的线性组合推出,则这组变量满足完全多重共线性。 若变量组 X1、X2、...Xn , 满足如下关系式 1X1+ 2X2+...+ nXn+u=0 ,其中u表示随机误差项,即 某一变量不仅取决于其它变量的线性组合,也取决于随机 误差项,此时变量组之间存在非严格但近似的线性关系, 解释变量之间高度相关,也即变量组存在近似多重共线性 关系。
Ri 2 /(k 1) Fi= (1 Ri 2 ) /(n k)
2
服从自由度为k-1与n-k的F分布
• 其中 Ri (i=1,2,…k)为第i个解释变量 Xi 关于其 余解释变量的辅助回归的拟和优度,k为解释变 量的个数,n代表样本容量。
检验多重共线性的表现形式
• 当确定多重共线性是由哪些主要变量引起后,若要找出与 主要变量有共线性的解释变量,即确定多重共线性的表现 Xj 偏相关系数 形式,可采用偏相关系数法。解释变量 X与 i 即是在其它的解释变量固定的情况下它们之间的相关系数。 • 偏相关系数法构造的检验统计量定义如下: ij ,服从自由度为n-k-1的t分布