第七章：模型选择和模型评估

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

训练误差是在训练样本上的平均损失：
MLE 3-22
训练误差与测试误差
我们的目标：选择使测试误差最小称为模型选择。
的模型M，
MLE 3-23
训练误差与测试误差
选择次优模型：过拟合/欠拟合
MLE 3-24
训练误差与测试误差
训练误差为预测风险的过小估计：
MLE 3-25
模型选择和模型评估
为了进行模型选择，我们只需知道不同模型的测试误差的相对值。渐近近似有时对比较不同模型的测试误差很有用。

称为贝叶斯因子
(Bayes factor)，是数据对后验的贡献
MLE 3-34
BIC (Bayesian Information Criterion)
假设模型的先验是常量且参数的先验平滑，我们用Laplace近似来近似计算的积分，再加上某些简化，得到
其中
，为的MLE。
这导出了另外一个模型选择计分的准则：贝叶斯
若
，则贝叶斯规则为后验均值
若
，则贝叶斯规则为后验中值
若
为0-1损失，则贝叶斯规则为后验众数
MLE 3-10
最小最大规则
找最小最大规则，或者证明一个估计是最小最大估计是一件很困难的事情。但还是有一个简单的方法：有些贝叶斯估计（如风险为常数）是最小最大估计
令对应先验 f 的贝叶斯估计：假设
这同Mallows Cp统计量相同，只是适用假设范围更宽（推广）
但是注意：这并不是普遍满足，如0-1损失。
MLE 3-33
贝叶斯模型选择
假设我们有一个候选模型M，其参数空间为，后验为
为了比较两个模型M1和M2，可以计算两个模型的相对后验概率，称为后验几率（posterior odds）：
后验的仿真模拟
贝叶斯推理与MLE
例
令为的极大似然估计，在合适的正则条件下，后验均值为
贝叶斯推理的优点
可以方便的结合先验信息数据和先验同等对待由后验可以同时推出点估计和区间估计
MLE 3-2
第七章：模型选择和模型评估
内容：估计选择（Ch13）模型选择（Ch14，Ch9，统计学习基础第7章）
令示数据，
，
表
表示未知参数，
c>0，这里参数的数目与观测数据一样多
MLE 3-16
Many Normal Means
MLE为 MLE的风险为
，损失函数为
最小最大估计的风险近似为
，且存在这样一
个估计能达到该风险。也就是说，存在风险比MLE更
小的估计，因此MLE是不可接受的。在实际应用中，风
MLE 3-3
估计选择
有几个不同的估计，哪个估计更好一些？
统计决策理论
MLE 3-4
损失函数
损失函数：度量真值与估计之间的差异
损失函数举例
平方误差损失绝对误差损失
损失 0-1损失 Kullback Leibler损失
MLE 3-5
风险函数
风险函数：损失的均值一个估计的风险是
MLE 3-27
训练误差的乐观性
通常我们有
欠拟合程度 + 复杂性惩罚
因此，为了选择模型，我们可以
对
进行估计，或
以某种方式估计R(M)
MLE 3-28
估计乐观性
通过各种技巧（通常是渐近性）估计乐观性
MLE 3-29
Mallows Cp统计量
当取平方误差损失，误差模型为
，
其中误差的均值为0，方差为
MLE 3-13
可接受性 (Admissibility)
一个估计如果在θ所有值上都比其它估计的风险大，则该估计不是我们所希望的。如果存在一个其它的规则，使得
至少存在一个θ
则该估计是不可接受的。否则，是可接受的。
MLE 3-14
可接受性
可接受性是与其他表示估计好坏的方法有何关系？在一些正则条件下，如果为贝叶斯规则且有有限
信息准则(Bayesian Information Criterion，BIC)
MLE 3-35
BIC (Bayesian Information Criterion)
当取平方误差损失，误差模型为中误差的均值为0，方差为，有
，其
得到
BIC(M)
，其中因子2被logN代替
AIC倾向于过拟合，而BIC倾向于欠拟合
险的差值可能很重要。
因此对高维问题或非参数问题，MLE并不是最优估计。另外在非参数场合，MLE的鲁棒性也不是很好。
MLE 3-17
底线
根据这些工具，怎样选择估计呢？如果一个估计是不可接受的，则该估计一定是不
好的。
如果你信仰贝叶斯观点，则你可以用贝叶斯规则
如果最小最大性满足应用要求，可以使用最小最大估计。
决策规则 (Decision Rules)
决策规则是估计的别名最小化贝叶斯风险的决策规则成为贝叶斯规则或
贝叶斯估计，即为对应先验 f 的贝叶斯估计
其中下界是对所有的估计计算
最小化最大风险的估计称为最小最大规则
其中下界是对所有的估计计算
MLE 3-9
贝叶斯估计
给定一个模型（先验和后验）和损失函数，就可以找到贝叶斯规则
在实际应用中，我们通常同时考虑上述两种情况，也就是说：
MLE 3-20
训练与测试
目标/类别
训练数据
模型学习
测试数据
应用模型
MLE 3-21
Hale Waihona Puke 训练误差与测试误差测试误差，亦称泛化误差(generalization error )，是在与训练数据同分布的独立的测试样本上的期望预测误差：
则为最小最大估计，且f 称为最小受欢迎先验( least favorable prior)。
上述结论一个简单的结果有：如果一个贝叶斯规则的
风险为常数
，则它是最小最大估计。
MLE 3-11
MLE为近似最小最大估计
对满足弱正则条件的参数模型，极大似然估计近似为最小最大估计。对均方误差损失，通常
MLE 3-36
BIC
AIC不是一致的，而BIC是一致的，也就是说，选择最小BIC的模型等价于选择最大后验概率的模型（在渐近意义下）。事实上模型的后验概率为
不仅可以估计最好的模型，而且可以评估所考虑模型的相关指标。
MLE 3-37
最小描述长度MDL
最小描述长度MDL(minimum description length) 采用与BIC完全相同的选择准则，但它源自数据压缩/最优编码
对平方误差损失，风险为MSE
风险是的函数
比较不同的估计，转化为比较不同估计的风险
但并不能清楚地回答哪个估计更好
MLE 3-6
风险比较
没有一个估计的风险在所有的θ值都超过另外一个
MLE 3-7
风险比较
风险函数的两个单值概述最大风险
贝叶斯风险
其中
为θ的先验。
MLE 3-8
通常对误差的真值没有很好的估计。当样本有限时，渐近近似通常还不能得到足够好的估计。这种情况下我们可以采用重采样(resampling )方法。
当然如过我们对测试误差有一种很好的方法来直接估计，我们可以用它来进行模型选择。
MLE 3-26
训练误差的乐观性
训练误差的乐观性定义为
也就是说，欠估计R(M)的量取决于 yi 影响其预测的强度。我们越难拟合数据，乐观性越大。
根据Cramer-Rao 不等式，这是所有无偏估计的方差的下界。
MLE 3-12
MLE为近似最小最大估计
因此对所有估计，有
对大数N， MLE为近似最小最大估计。
因此，对大多数参数模型，当有大量样本时， MLE近似为最小最大估计和贝叶斯估计。
Many Normal Means 情况不成立（不是大样本）
风险，则它是可接受的。如果的风险为常数且是可接受的，则它是最小最
大估计。
MLE 3-15
许多正态均值 (Many Normal Means)
Many Normal Means是一个原型问题，与一般的非参数回归或密度估计等价。对这个问题，以前许多关于极大似然估计的正面的结论都不再满足。
实际上我们采用的是−2l(M)
如果模型为
，则当
时，
其中为的MLE，
为训练数据上的似然值
MLE 3-32
AIC（Akaike Information Criterion）
这导出R(M)的一个估计： AIC（Akaike Information Criterion）
其中为从一个低偏差（的复杂）估计的MSE 获得。
上节课内容总结
贝叶斯的概率观点
概率描述的是主观信念的程度可以对参数进行概率描述，为参数生成一个概率分布
贝叶斯推理的基本步骤
先验分布似然模型计算后验分布从后验分布中得到点估计和区间估计
• 点估计：后验均值、后验众数（MAP） • 后验区间
MLE 3-1
上节课内容总结
MLE 3-18
模型选择
给定一个估计和风险函数，应该选择哪个模型/ 参数？
MLE 3-19
“模型”
我们说的“模型”有时指的是模型类别，例如所有2个高斯的混合模型和所有3个高斯的混合模型。
有时也指在一个类别的模型中的一员，如参数的值为特定值。也就是说，模型的类别是固定的，而考虑的是不同的参数值。
BIC与MDL都只适用于似然损失。
MLE 3-38
下节课内容
VC维与结构风险最小(Chp23) 重采样技术(Chp9)
Boostrap
模型组合(Chp23)
Bagging Boosting
MLE 3-39
其中为模型中参数的数目。
MLE 3-30
Mallows Cp统计量
这样，可以用Mallows Cp统计来估计R(M) 其中为从一个低偏差（的复杂）估计的MSE
获得。
MLE 3-31
AIC（Akaike Information Criterion）
假设采用log似然作为损失函数