第七章:模型选择和模型评估
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
若
,则贝叶斯规则为后验均值
若
,则贝叶斯规则为后验中值
若
为0-1损失,则贝叶斯规则为后验众数
MLE 3-10
最小最大规则
找最小最大规则,或者证明一个估计是最小最大估计 是一件很困难的事情。但还是有一个简单的方法:有 些贝叶斯估计(如风险为常数)是最小最大估计
令 对应先验 f 的贝叶斯估计: 假设
令 示数据,
,
表
表示未知参数,
c>0,这里参数的数目与观测数据一样多
MLE 3-16
Many Normal Means
MLE为 MLE的风险为
,损失函数为
最小最大估计的风险近似为
,且存在这样一
个估计 能达到该风险。也就是说,存在风险比MLE更
小的估计,因此MLE是不可接受的。在实际应用中,风
称为贝叶斯因子
(Bayes factor),是数据对后验的贡献
MLE 3-34
BIC (Bayesian Information Criterion)
假设模型的先验是常量且参数的先验平滑,我们 用Laplace近似来近似计算 的积分,再加上某 些简化,得到
其中
, 为 的MLE。
这导出了另外一个模型选择计分的准则:贝叶斯
决策规则 (Decision Rules)
决策规则是估计的别名 最小化贝叶斯风险的决策规则成为贝叶斯规则或
贝叶斯估计,即 为对应先验 f 的贝叶斯估计
其中下界是对所有的估计 计算
最小化最大风险的估计称为最小最大规则
其中下界是对所有的估计 计算
MLE 3-9
贝叶斯估计
给定一个模型(先验和后验)和损失函数,就 可以找到贝叶斯规则
这同Mallows Cp统计量相同,只是适用假设范 围更宽(推广)
但是注意:这并不是普遍满足,如0-1损失。
MLE 3-33
贝叶斯模型选择
假设我们有一个候选模型M,其参数空间为 ,后 验为
为了比较两个模型M1和M2,可以计算两个模型的相 对后验概率,称为后验几率(posterior odds):
MLE 3-27
训练误差的乐观性
通常我们有
欠拟合程度 + 复杂性惩罚
因此,为了选择模型,我们可以
对
进行估计,或
以某种方式估计R(M)
MLE 3-28
估计乐观性
通过各种技巧(通常是渐近性)估计乐观性
MLE 3-29
Mallows Cp统计量
当取平方误差损失,误差模型为
,
其中误差 的均值为0,方差为
在实际应用中,我们通常同时考虑上述两种情 况,也就是说:
MLE 3-20
训练与测试
目标/类别
训练 数据
模型 学习
测试 数据
应用 模型
MLE 3-21
训练误差与测试误差
测试误差,亦称泛化误差(generalization error ), 是在与训练数据同分布的独立的测试样本上的期 望预测误差:
则 为最小最大估计,且f 称为最小受欢迎先验( least favorable prior)。
上述结论一个简单的结果有:如果一个贝叶斯规则的
风险为常数
,则它是最小最大估计。
MLE 3-11
MLE为近似最小最大估计
对满足弱正则条件的参数模型,极大似然估计 近似为最小最大估计。对均方误差损失,通常
MLE 3-36
BIC
AIC不是一致的,而BIC是一致的,也就是说,选 择最小BIC的模型等价于选择最大后验概率的模型 (在渐近意义下)。事实上模型的后验概率为
不仅可以估计最好的模型,而且可以评估所考虑模 型的相关指标。
MLE 3-37
最小描述长度MDL
最小描述长度MDL(minimum description length) 采用与BIC完全相同的选择准则,但它源自数 据压缩/最优编码
对平方误差损失,风险为MSE
风险是 的函数
比较不同的估计,转化为比较不同估计的风险
但并不能清楚地回答哪个估计更好
MLE 3-6
风险比较
没有一个估计的风险在所有的θ值都超过另外一个
MLE 3-7
风险比较
风险函数的两个单值概述 最大风险
贝叶斯风险
其中
为θ的先验。
MLE 3-8
其中 为模型中参数的数目。
MLE 3-30
Mallows Cp统计量
这样,可以用Mallows Cp统计来估计R(M) 其中 为从一个低偏差(的复杂)估计的MSE
获得。
MLE 3-31
AIC(Akaike Information Criterion)
假设采用log似然作为损失函数
根据Cramer-Rao 不等式,这是所有无偏估计的 方差的下界。
MLE 3-12
MLE为近似最小最大估计
因此对所有估计 ,有
对大数N, MLE为近似最小最大估计。
因此,对大多数参数模型,当有大量样本时, MLE近似为最小最大估计和贝叶斯估计。
Many Normal Means 情况不成立(不是大样本)
险的差值可能很重要。
因此对高维问题或非参数问题,MLE并不是最优估计。 另外在非参数场合,MLE的鲁棒性也不是很好。
MLE 3-17
底线
根据这些工具,怎样选择估计呢? 如果一个估计是不可接受的,则该估计一定是不
好的。
如果你信仰贝叶斯观点,则你可以用贝叶斯规则
如果最小最大性满足应用要求,可以使用最小最 大估计。
MLE 3-3
估计选择
有几个不同的估计,哪个估计更好一些?
统计决策理论
MLE 3-4
损失函数
损失函数:度量真值 与估计 之间的差异
损失函数举例
平方误差损失 绝对误差损失
损失 0-1损失 Kullback Leibler损失
MLE 3-5
ห้องสมุดไป่ตู้
风险函数
风险函数:损失的均值 一个估计 的风险是
信息准则(Bayesian Information Criterion,BIC)
MLE 3-35
BIC (Bayesian Information Criterion)
当取平方误差损失,误差模型为 中误差 的均值为0,方差为 ,有
,其
得到
BIC(M)
,其中因子2被logN代替
AIC倾向于过拟合,而BIC倾向于欠拟合
通常对误差的真值没有很好的估计。当样本有限时, 渐近近似通常还不能得到足够好的估计。这种情况下 我们可以采用重采样(resampling )方法 。
当然如过我们对测试误差有一种很好的方法来直接估 计,我们可以用它来进行模型选择。
MLE 3-26
训练误差的乐观性
训练误差的乐观性定义为
也就是说, 欠估计R(M)的量取决于 yi 影响其 预测的强度。我们越难拟合数据,乐观性越大。
MLE 3-13
可接受性 (Admissibility)
一个估计如果在θ所有值上都比其它估计的风 险大,则该估计不是我们所希望的。如果存在 一个其它的规则 ,使得
至少存在一个θ
则该估计 是不可接受的。 否则, 是可接受的。
MLE 3-14
可接受性
可接受性是与其他表示估计好坏的方法有何关系? 在一些正则条件下,如果 为贝叶斯规则且有有限
BIC与MDL都只适用于似然损失。
MLE 3-38
下节课内容
VC维与结构风险最小(Chp23) 重采样技术(Chp9)
Boostrap
模型组合(Chp23)
Bagging Boosting
MLE 3-39
实际上我们采用的是−2l(M)
如果模型为
,则当
时,
其中 为 的MLE,
为训练数据上的似然值
MLE 3-32
AIC(Akaike Information Criterion)
这导出R(M)的一个估计: AIC(Akaike Information Criterion)
其中 为从一个低偏差(的复杂)估计的MSE 获得。
上节课内容总结
贝叶斯的概率观点
概率描述的是主观信念的程度 可以对参数进行概率描述,为参数生成一个概率分布
贝叶斯推理的基本步骤
先验分布 似然模型 计算后验分布 从后验分布中得到点估计和区间估计
• 点估计:后验均值、后验众数(MAP) • 后验区间
MLE 3-1
上节课内容总结
训练误差是在训练样本上的平均损失:
MLE 3-22
训练误差与测试误差
我们的目标:选择使测试误差最小 称为模型选择。
的模型M,
MLE 3-23
训练误差与测试误差
选择次优模型:过拟合/欠拟合
MLE 3-24
训练误差与测试误差
训练误差为预测风险的过小估计:
MLE 3-25
模型选择和模型评估
为了进行模型选择,我们只需知道不同模型的测试误 差的相对值。渐近近似有时对比较不同模型的测试误 差很有用。
MLE 3-18
模型选择
给定一个估计和风险函数,应该选择哪个模型/ 参数?
MLE 3-19
“模型”
我们说的“模型”有时指的是模型类别 ,例 如所有2个高斯的混合模型和所有3个高斯的混 合模型。
有时也指在一个类别的模型中的一员,如参数 的值为特定值。也就是说,模型的类别是固定 的,而考虑的是不同的参数值。
风险,则它是可接受的。 如果 的风险为常数且是可接受的,则它是最小最
大估计。
MLE 3-15
许多正态均值 (Many Normal Means)
Many Normal Means是一个原型问题,与一般的非 参数回归或密度估计等价。对这个问题,以前许 多关于极大似然估计的正面的结论都不再满足。
后验的仿真模拟
贝叶斯推理与MLE
例
令 为 的极大似然估计,在合适的正则条件下, 后验均值为
贝叶斯推理的优点
可以方便的结合先验信息 数据和先验同等对待 由后验可以同时推出点估计和区间估计
MLE 3-2
第七章:模型选择和模型评估
内容: 估计选择 (Ch13) 模型选择 (Ch14,Ch9,统计学习基础第7章)