第七章模型选择和模型评估
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
,后
验为
为了比较两个模型M1和M2,可以计算两个模型的相
对后验概率,称为后验几率(posterior odds):
称为贝叶斯因子 (Bayes factor),是数据对后验的贡献
MLE 3-33
BIC (Bayesian Information Criterion)
假设模型的先验是常量且参数的先验平滑,我们
MLE
3-38
对平方误差损失,风险为MSE
风险是 的函数
比较不同的估计,转化为比较不同估计的风险 但并不能清楚地回答哪个估计更好
MLE 3-5
风险比较
没有一个估计的风险在所有的θ 值都超过另外一个
MLE 3-6
风险比较
风险函数的两个单值概述 最大风险
贝叶斯风险
其中
为θ的先验。
MLE 3-7
决策规则 (Decision Rules)
决策规则是估计的别名 最小化贝叶斯风险的决策规则成为贝叶斯规则或
贝叶斯估计,即
为对应先验 f 的贝叶斯估计
其中下界是对所有的估计 计算
最小化最大风险的估计称为最小最大规则
其中下界是对所有的估计 计算
MLE 3-8
贝叶斯估计
给定一个模型(先验和后验)和损失函数,就
型的相关指标。
MLE
3-36
最小描述长度MDL
最小描述长度MDL(minimum description length)
采用与BIC完全相同的选择准则,但它源自数 据压缩/最优编码
BIC与MDL都只适用于似然损失。
MLE
3-37
下节课内容
VC维与结构风险最小(Chp23) 重采样技术(Chp9) Boostrap 模型组合(Chp23) Bagging Boosting
MLE
3-17
模型选择
给定一个估计和风险函数,应该选择哪个模型/
参数?
MLE
3-18
“模型”
我们说的“模型”有时指的是模型类别
,例 如所有2个高斯的混合模型和所有3个高斯的混 合模型。
有时也指在一个类别的模型中的一员,如参数
的值为特定值。也就是说,模型的类别是固定 的,而考虑的是不同的参数值。
根据Cramer-Rao 不等式,这是所有无偏估计的
方差的下界。
MLE 3-11
MLE为近似最小最大估计
因此对所有估计 ,有
对大数N, MLE为近似最小最大估计。
因此,对大多数参数模型,当有大量样本时,
MLE近似为最小最大估计和贝叶斯估计。
Many Normal Means 情况不成立(不是大样本)
获得。
MLE
3-30
AIC(Akaike Information Criterion)
假设采用log似然作为损失函数
实际上我们采用的是−2l(M)
如果模型为
,则当
时,
其中
为
的MLE,
为训练数据上的似然值
MLE 3-31
AIC(Akaike Information Criterion)
训练误差是在训练样本上的平均损失:
MLE
3-21
训练误差与测试误差
我们的目标:选择使测试误差最小 称为模型选择。
的模型M,
MLE 3-22
训练误差与测试误差
选择次优模型:过拟合/欠拟合
MLE 3-23
训练误差与测试误差
训练误差为预测风险的过小估计:
MLE 3-24
模型选择和模型评估
为了进行模型选择,我们只需知道不同模型的测试误
在实际应用中,我们通常同时考虑上述两种情
况,也就是说:
MLE
3-19
训练与测试
目标/类别
训练 数据
模型 学习
测试 数据
应用 模型
MLE 3-20
训练误差与测试误差
测试误差,亦称泛化误差(generalization error ),
是在与训练数据同分布的独立的测试样本上的期 望预测误差:
用Laplace近似来近似计算 些简化,得到
的积分,再加上某
其中
,
为
的MLE。
这导出了另外一个模型选择计分的准则:贝叶斯
信息准则(Bayesian Information Criterion,BIC)
MLE 3-34
BIC (Bayesian Information Criterion)
当取平方误差损失,误差模型为
上节课内容总结
后验的仿真模拟 贝叶斯推理与MLE 例
令 为 的极大似然估计,在合适的正则条件下, 后验均值为
贝叶斯推理的优点
可以方便的结合先验信息 数据和先验同等对待 由后验可以同时推出点估计和区间估计
MLE 3-1
第七章:模型选择和模型评估
内容: 估计选择 (Ch13) 模型选择 (Ch14,Ch9,统计学习基础第7章)
对应先验 f 的贝叶斯估计:
为最小最大估计,且f 称为最小受欢迎先验( least favorable prior)。
上wenku.baidu.com结论一个简单的结果有:如果一个贝叶斯规则的
风险为常数
,则它是最小最大估计。
MLE
3-10
MLE为近似最小最大估计
对满足弱正则条件的参数模型,极大似然估计
近似为最小最大估计。对均方误差损失,通常
训练误差的乐观性
训练误差的乐观性定义为
也就是说,
欠估计R(M)的量取决于 yi 影响其 预测的强度。我们越难拟合数据,乐观性越大。
MLE 3-26
训练误差的乐观性
通常我们有
欠拟合程度 + 复杂性惩罚
因此,为了选择模型,我们可以 对 进行估计,或 以某种方式估计R(M)
MLE
为贝叶斯规则且有有限
风险,则它是可接受的。
如果
的风险为常数且是可接受的,则它是最小最 大估计。
MLE
3-14
许多正态均值 (Many Normal Means)
Many Normal Means是一个原型问题,与一般的非
参数回归或密度估计等价。对这个问题,以前许 多关于极大似然估计的正面的结论都不再满足。
MLE 3-12
可接受性 (Admissibility)
一个估计如果在θ所有值上都比其它估计的风
险大,则该估计不是我们所希望的。如果存在 一个其它的规则 ,使得
至少存在一个θ
则该估计 是不可接受的。
否则, 是可接受的。
MLE 3-13
可接受性
可接受性是与其他表示估计好坏的方法有何关系? 在一些正则条件下,如果
因此对高维问题或非参数问题,MLE并不是最优估计。
另外在非参数场合,MLE的鲁棒性也不是很好。
MLE 3-16
底线
根据这些工具,怎样选择估计呢? 如果一个估计是不可接受的,则该估计一定是不 好的。
如果你信仰贝叶斯观点,则你可以用贝叶斯规则
如果最小最大性满足应用要求,可以使用最小最
大估计。
可以找到贝叶斯规则 若 ,则贝叶斯规则为后验均值
若
若
,则贝叶斯规则为后验中值 为0-1损失,则贝叶斯规则为后验众数
MLE
3-9
最小最大规则
找最小最大规则,或者证明一个估计是最小最大估计
是一件很困难的事情。但还是有一个简单的方法:有 些贝叶斯估计(如风险为常数)是最小最大估计
令 假设 则
令
示数据,
, 表示未知参数,
表
c>0,这里参数的数目与观测数据一样多
MLE 3-15
Many Normal Means
MLE为
,损失函数为
MLE的风险为
最小最大估计的风险近似为
,且存在这样一 个估计 能达到该风险。也就是说,存在风险比MLE更 小的估计,因此MLE是不可接受的。在实际应用中,风 险的差值可能很重要。
差的相对值。渐近近似有时对比较不同模型的测试误 差很有用。
通常对误差的真值没有很好的估计。当样本有限时,
渐近近似通常还不能得到足够好的估计。这种情况下 我们可以采用重采样(resampling )方法 。
当然如过我们对测试误差有一种很好的方法来直接估
计,我们可以用它来进行模型选择。
MLE
3-25
,其
中误差 的均值为0,方差为
,有
得到
BIC(M) ,其中因子2被logN代替 AIC倾向于过拟合,而BIC倾向于欠拟合
MLE
3-35
BIC
AIC不是一致的,而BIC是一致的,也就是说,选
择最小BIC的模型等价于选择最大后验概率的模型 (在渐近意义下)。事实上模型的后验概率为
不仅可以估计最好的模型,而且可以评估所考虑模
3-27
估计乐观性
通过各种技巧(通常是渐近性)估计乐观性
MLE
3-28
Mallows Cp统计量
当取平方误差损失,误差模型为
,
其中误差 的均值为0,方差为
其中
为模型中参数的数目。
MLE
3-29
Mallows Cp统计量
这样,可以用Mallows Cp统计来估计R(M)
其中
为从一个低偏差(的复杂)估计的MSE
MLE
3-2
估计选择
有几个不同的估计,哪个估计更好一些? 统计决策理论
MLE
3-3
损失函数
损失函数:度量真值 与估计 损失函数举例
之间的差异
平方误差损失 绝对误差损失 损失 0-1损失 Kullback Leibler损失
MLE
3-4
风险函数
风险函数:损失的均值 一个估计 的风险是
这导出R(M)的一个估计: AIC(Akaike
Information Criterion)
其中
为从一个低偏差(的复杂)估计的MSE
获得。 这同Mallows Cp统计量相同,只是适用假设范 围更宽(推广) 但是注意:这并不是普遍满足,如0-1损失。
MLE 3-32
贝叶斯模型选择
假设我们有一个候选模型M,其参数空间为