岭回归
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、INCLUDE'C:\Program Files\SPSS\Ridge regression.sps'.
RIDGEREG DEP=y/ENTER X1 X2 X3 X4 X5. INCLUDE'C:\Program Files\SPSS\Ridge regression.sps'. RIDGEREG DEP=y/ENTER X1 X2 X3 X4 X5 /start=0.0/stop=0.2/inc=0.02. INCLUDE'C:\Program Files\SPSS\Ridge regression.sps'. RIDGEREG DEP=y/ENTER X2 X3 X4 X5 /k=0.08.
建立回归模型,共线性诊断 1、VIF,容忍度,条件数, 2、变量X2的系数为负值,经济理论认 为应为正相关。说明共线性造成后果。 解决方案 剔除变量法、主成分回归、岭回归
第七章 岭回归
主要内容
一、岭回归的引入 岭回归参数K的选取 参数粗估计, 的选取,参数粗估计 二、岭回归参数 的选取 参数粗估计 参数精估计,确定参数模型 参数精估计 确定参数模型 岭回归的SPSS程序 三、岭回归的 程序 四、岭回归模型的应用
例3.3民航客运量回归模型
YEAR 1987 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 Y 231.00 298.00 343.00 401.00 445.00 391.00 554.00 744.00 997.00 1310.00 1442.00 1283.00 1660.00 2178.00 2886.00 3383.00 X1 3010.00 3350.00 3688.00 3941.00 4258.00 4736.00 5652.00 7020.00 7859.00 9313.00 11738.00 13176.00 14384.00 16557.00 20223.00 24882.00 X2 1888.00 2195.00 2531.00 2799.00 3054.00 3358.00 3905.00 4879.00 5552.00 6386.00 8038.00 9005.00 9663.00 10969.00 12985.00 15949.00 X3 81491.00 86389.00 92204.00 95300.00 99922.00 106044.0 110353.0 112110.0 108579.0 112429.0 122645.0 113807.0 95712.00 95081.00 99693.00 105458.0 X4 14.89 16.00 19.53 21.82 23.27 22.91 26.02 27.72 32.43 38.91 37.38 47.19 50.68 55.91 83.66 96.08 X5 180.92 420.39 570.25 776.71 792.43 947.70 1285.22 1783.30 2281.49 2690.23 3169.48 2450.14 2746.20 3335.65 3311.50 4152.70
j=1
性质 4 使
ˆ ∑ E[ β j ( k ) − β j ]
p
2
ˆ < ∑ D(β j )
j=1
p
岭回归分析
一、岭迹分析 岭迹 模型系数随参数K变化的曲线 岭迹分析的目的 k的确定与自变量的选择
岭迹图
根据岭迹曲线的变化形状来确定适当的 k值和进行自变量的选择。
P193 图A,系数趋于0,变量不重要 图B.系数由正变负,变化大,对Y有显著影响 图C. 古典模型时系数为正,岭回归时系数为负. 图D. 两个系数不稳定,一个增大时另一个减少, 但其和稳定,可以考虑保留一个变量. 图E. 变量对Y不显著 图F. 变量对Y的影响趋于稳定
三、残差平方和法
给定大于1的数c,要求 SSE(k)<cSSE 找使上式成立的最大k值。
岭回归选择变量
选择变量的标准 1.在岭回归计算中,剔除掉标准化岭回归系 数比较稳定且绝对值很小的自变量。 2. 当k值较小时,标准化岭回归系数并不小, 但不稳定,随k值的增加迅速趋于零.像这样 岭回归系数不稳定、振动趋于零的自变量予 以剔除。 3. 去掉岭回归系数很不稳定的变量。
回归系数的有偏估计—岭回归 回归系数的有偏估计 岭回归
当 X ′X ≈ 0时,X ′X + kI , k > 0接近奇异的程度就小, 首先对数据作标准化,仍记标准化后的设计矩阵 为X .定义参数的估计 ˆ β (k ) = ( X ′X + KI ) −1 X ′y 称为参数的岭回归估计。
回归系数的有偏估计—岭回归 回归系数的有偏估计 岭回归
岭参数k的选择
一、岭迹法 1、各回归系数基本稳定 2、用最小二乘法时不合理的系数用岭 回归变得合理 3、残差平方和增长不大
二、方差扩大因子法
选择 k 使得矩阵 c ( k ) = ( X ' X + kI ) − 1 ( X ' X + kI ) 主对角线元素 c jj ( k ) ≤ 10 ˆ 由于岭估计 β ( k )的协方差阵为 ˆ ˆ D ( β ( k ) = cov( β ( k )β ( k ) ) , ˆ ) = cov(( X ' X + kI ) −1 x ' y , ( X ' X + kI ) −1 X ' y ) = ( X ' X + kI ) −1 cov( y , y )( X ' X + kI ) −1 = σ 2 ( X ' X + kI ) −1 X ' X ( X ' X + kI ) −1 = σ 2 c(k )
一、岭回归的引入
由于解释变量之间的多重共线性,当用普通最小二 乘法时,模型中参数估计的方差较大,使得普通最小二 乘估计的效果不理想.为解决这一问题,统计学家从模 型和数据的角度考虑,采用回归诊断和自变量选择来 克服多重共线性的影响,同时对普通最小二乘法进行 改进,提出了岭回归. 1962年,A.E.Hoerl 首先提出一种改进普通最小二 乘估计的方法,岭回归(Ridge Estimate).
K称为岭参数 K=0时为最小二乘估计,0<K<1,选择 一个最合适的K值。 岭回归用于解决模型的自变量共线性问 题。
7.2 岭回归估计的性质 ˆ 性质1 β ( k )是回归参数 β 的有偏估计。
性质 2 性质3
ˆ 在认为岭参数 k与y无关的常数时, β ( k ) ˆ 是最小二wk.baidu.com估计 β 的一个线性变换。 对任意的 k > 0, β ≠ 0, 总有 ˆ ˆ β (k ) ≤ β 以MSE表示估计向量的均方误 差,则存在 k > 0,