线性回归中的模型选择

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

类似AIC,可用于极大对数似然实现的拟合中
B IC (M ) 2 lM lo g n p
所以
B IC (M ) ˆn2 R ˆtr M ˆ lognn p ˆ2
最小化BIC,等价于最大化
l M logn p
2
最小描述长度(MDL)的结论同BIC
Schwarz, G. 1978. Estimating the dimension of a model. Annals of Statistics, 6, 461-464.
2 lM R S S M ˆ2 1 8 9 .7 2 2 7
A I C ( M ) 2 lM 2 k 1 8 9 .7 2 2 7
增加一个变量, k = 1,增加变量后的AIC分别为
lcavol lweight
age
lbph
svi
lcp
gleason pgg45
89.7667 147.0938 181.9385 132.9199 178.6525 146.3563 169.5205 153.6764
正 则 项
由原来RSS加上一项惩罚权向量大小的项, 是一个复杂度参数,
控制收缩量/正则量
等价于:ˆridgeargm in i n1 yij p0X ij j 2 ,满 足 jp 1 j2s
其中s取代了 的功能
解为:ˆridgeX TXI1X Ty
仍然是y的线性组合
K-折交叉验证
用于估计模型的调整参数 (如子集的容量k) 思想与jackknife类似 将数据分成容量大致相等的K份(通常K=5/10)
20
K-折交叉验证
对每个k1,2,...,K,取调整参数为 ,每次留出
第k份数据,其余K-1份数据用于训练,得到参数
的估计 ˆ k ,并计算第k份数据的预测误差:
如果输入时正交的: ˆr id g eˆL S ,0 1 ,为 的 函 数25
岭回归:为什么?
当矩阵 AXTX 奇异时,最小二乘的结果变得很坏
当自变量系统中存在多重相关性时,它们的系数确定性变差,这种 不确定性增加了方差(如一个大的权重可以被一个相关的特征上的 负权重平衡)
ˆ~N,2 XTX1
E k
1 nk
yxˆ i kthpart i
k i
2
交叉验证的误差为
CV 1 K
K
Ek
k1
对多个不同的 ,计算其对应的误差CV ,最佳 模型为 CV 最小的模型。
21
K-折交叉验证
在子集选择的例子中, 为子集的容量
ˆ k 为子集容量为 的最佳子集的系数(训
lcavol lweight age
lbph
svi
lcp pgg45
99.3648 77.9150 72.1945 74.2305 76.2627 73.4871 74.7037
此时最小的AIC( 72.1945 )也比72.0215大,
不过也没比72.0215大多少
所以根据AIC准则,用后向逐步回归最后选择的模型为k=7
18
测试误差的模拟计算
模型评估与选择:
1、选择模型调整参数的值 2、估计给定模型的预测性能
最好有一个独立的测试集
对1,校验集 对2,测试集
但通常没有足够多的数据来构造校验集/测试集,在 这种情况下,我们通过重采样技术来模拟校验集。
交叉验证和bootstrap是重采样技术的两个代表 19
线性回归中的模型选择
多元回归分析中,输入特征可能有许多,这些特 征对模型都是必须的?

因为:
预测准确性:当回归模型中变量增多时,预测的偏差 的低但方差高(过拟合)
可解释性:当回归模型中的预测子数目很多时,模型 很难解释
希望找到效果更明显的少数预测子
1
模型选择
模型选择
模型评估:用一些指标来衡量每个模型
3
回顾:线性回归模型
最小二乘参数估计的结果:
点估计:ˆ XTX1XTy
偏差:E ˆ
方差:Vˆ 2 XTX1
2
的无偏估计为:ˆ2
1
n p1
n
ˆi2
i1
4
回顾:线性回归模型
预测结果:
点估计:Yˆ|Xxrˆxxˆ
偏差:EY ˆ|XxEx ˆx
方差
V Y ˆ|XxV xˆ ˆn 2 E Y Y ˆ|X x22 M S E Y ˆ
age
lbph
lcp gleason pgg45
76.4183 72.6790 75.5541 76.2105 75.1608
增加最小AIC对应的特征,即lbph
再继续增加一个变量:k =5
age
lcp gleason pgg45
73.6333 73.7090 74.3279 73.2095
此时AIC不再变小,最终选择的模型为k=4
但可能存在有偏估计,其MSE比最小二乘估计的
MSE小
24
岭回归
(Ridge Regression)
现在考虑我们要最小化一个修正的函数:
R S S rid g e n y i pX ijj 2 pj2 y X Ty X T
1 i 1 4 4 42 j 0 444 3 { j 1
R S S
13
例:前列腺癌
—后向逐步回归(续)
如果不停止,而是继续后向逐步回归,直到删除所有特征, 则接下来删除的特征及其对应的AIC分别为
k=7, 删除gleason, AIC= 72.0215 k=6, 删除age, AIC= 72.1945 k=5, 删除lcp, AIC= 73.2095 k=4, 删除pgg45, AIC= 72.6790 k=3, 删除lbph, AIC= 74.8309 k=2, 删除svi, AIC= 77.1088 k=1, 删除lweight, AIC= 89.7667 k=0, 删除lcavol, AIC= 189.7727
14
例:前列腺癌
—后向逐步回归(续)
2 lM R S SM 2:模型与训练集的拟合程度
模型越复杂,与训练数据拟合得越好,但可能过拟合
AIC:测试误差的估计,与训练集的拟合程度和模型复杂 度都有关
15
例:前列腺癌
—前向逐步回归
不用任何变量:k = 0
R S S (M ) 9 6 .2 8 1 4 , ˆ2 0 .5 0 7 4
9
前向逐步回归
从截距开始,每次增加一个特征
计算增加特征后每个模型的AIC,假设当前模型 有k个输入特征,则其AIC为:
A IC M 2lM 2k
选择AIC最小的模型
直到AIC不再变小
10
后向逐步回归
从包含所有特征的模型开始,每次去掉一个特征 计算去掉特征后每个模型的AIC 选择AIC最小的模型 直到AIC不再变小
当假设高斯噪声时,
2 lM 1 2n y ifˆx i21 2R S S M i 1
这样导出AIC另一种表示:
AICM2lM2pˆ12RSSM2p =RSSM2pˆ2
其中 ˆ 2 为从一个低偏差估计的MSE估计
低偏差估计:复杂模型,即包括所有特征的模型
8
BIC :Bayesian Information Criterion
解析计算:AIC/BIC/MDL 模拟计算:交叉验证/bootstap
模型搜索:在模型空间中搜索,找到在某个衡量指标下 最优的模型
模型空间不大:穷举搜索 否则:贪心搜索
前向/后向/双向逐步
上述模型选择是离散的,亦称子集选择。另一类方法为 连续的收缩方法
岭回归 Lasso
2
回顾:线性回归模型
增加最小AIC对应的特征,即lweight
再继续增加一个变量:k =3
ageHale Waihona Puke Baidu
lbph
svi
lcp gleason pgg45
78.5675 76.9866 74.8039 79.1047 78.2546 75.8412
增加最小AIC对应的特征,即svi
17
例:前列腺癌
—前向逐步回归(续)
最小AIC为74.8039,再继续增加一个变量:k =4
E
ˆ2
p
2
1
j1 j
,其中
j 为矩阵 AXTX的特征值
V ˆ2
p
4
1
2
j1 j
当表矩示阵与A奇β ˆ 异之时间,的一偏些差特很征大值。同j 时 0
,从而使得 E ˆ 2 很大, V ˆ也很2 大,表示结果不
稳定
岭回归在矩阵AXTX求逆之前,将一个正的常数加到A的
对角线上,使得问题非奇异
增加最小AIC对应的特征,即lcavol
16
例:前列腺癌
—前向逐步回归(续)
最小AIC为89.2667,再继续增加一个变量:k =2
lweight age
lbph
svi
lcp gleason
pgg45
77.1088 91.7018 82.8256 87.3990 91.6465 91.5608 89.5878
其中 2 是固有的,与参数的估计 ˆ 无关。对不同
的估计 ˆ ,得到的预测的方差不同(MSE Yˆ 不同)
5
子集选择
只保留变量的一个子集,将其余变量从模型中删除 (将其系数置为0)
当p较小时,可穷尽搜索最佳子集
对每个 k1,2,...,p,其中p为变量的总数目,找出容
量为k的子集,计算每个模型的得分(AIC/BIC) 具体算法参考 Furnival&Wilson 1974 容量较大的最佳子集不必包含容量较小的最佳子集
练数据为除了第k份数据的其他K-1份数据)
E k 为该最佳子集的测试误差的一个估计
K-折交叉验证的测试误差的估计为
CVK1 kK1Ek
22
例:前列腺癌 —交叉验证
10折交叉验证,K=10
训练集:67个数据点 校验集:每次从67个训练数据中留出7个数据点(10-折)
最佳模型:测试误差在最小测试 误差的一倍以内的最简单 模型
svi
lcp gleason pgg45
100.7971 79.5668 73.9486 76.2265 78.0972 75.4854 72.0215 75.0201
去掉最小AIC对应的特征,即去掉gleason
12
例:前列腺癌
—后向逐步回归(续)
最小AIC为72.0215,再继续去掉一个变量:k = 6
11
例:前列腺癌
—后向逐步回归
所有变量都用:k = 8
R S S (M ) 2 9 .4 2 6 4 , ˆ2 0 .5 0 7 4
2 lM R S S M ˆ2 5 8
A IC (M ) 2 lM 2 k 7 4
去掉一个变量, k = 7,去掉变量后的AIC分别为
lcavol lweight age lbph
模型复杂度
Akaike, Hirotugu (December 1974). "A new look at the statistical model identification". IEEE
Transactions on Automatic Control 19 (6):
7
AIC:Akaike Information Criterion
最佳模型
最小测试误差
最佳测试误 差+1倍方差
23
回顾:线性回归模型
预测结果:
点估计:Yˆ|Xxrˆxxˆ
偏差:EY ˆ|XxEx ˆx
方差:VY ˆ|XxVxˆ
ˆn 2 E Y Y ˆ|X x22 M S E Y ˆ
2bias2Y ˆVY ˆ
在所有的无偏估计中,最小二乘估计的方差最小
ˆridgeX TXI1X Ty 26
岭回归:为什么?
从贝叶斯的观点:正则项可视为参数的先验
如果假设 yi ~NxiT,2 ,并且每个 j 都符 合先验分布 N0,2 ,岭回归也可以被看作
是从后验分布得到的。那么 的负log后验
密度就是RSSredge ,其中 2 2
假定V|Xx2不依赖于x:
p
Yi Xii Xij j i j0
其中 E i|X i 0 ,V i|X i2
yX
模型类型:参数模型
损失:平方误差损失
参数选择:训练数据上的最小平方误差(最小二乘,在高 斯噪声假设下,= 极大似然 )
计算:矩阵求逆/QR分解 模型选择:AIC/BIC
6
AIC:Akaike Information Criterion
AIC为模型M测试误差的一个估计:
A IC M 2 lM 2p
其中 l M 为在模型M对应的训练集数据的对数似然函数,
p为模型M中特征的数目
我们选择测试误差 AICM最小的模型,等价于选择下述表
达式最大的模型
lM p
训练集上的拟合度
相关文档
最新文档