如何用不确定性解决模型问题

合集下载

如何用不确定性解决模型问题

随着深度神经网络功能越来越强大，它们的结构也越来越复杂。这些复杂结构也带来了新的问题，即模型的可解释性。

想创建稳定、不易受对抗样本攻击的模型，可解释性是很重要的。另外，为新的研究领域设计模型也是一项富有挑战的工作，如果能了解模型在做什么，可以对这一过程有所帮助。过去几年，为了对模型的可解释性加以研究，研究者们提出了多种方法，包括：

LIME：通过局部线性近似值计算解释模型的预测

Activation Maximization：一种能了解那种输入模式可以生成最大的模型回应的方法

特征可视化

在低维解释空间中嵌入一个DNN图层

从认知心理学中借鉴方法

不确定性估计法——本文关注的重点

在我们开始研究如何用不确定性解决模型问题、解释模型之前，首先让我们了解一下为什么不确定性如此重要。

你为什么应该关注不确定性？

一个重要的例子就是高风险的应用，假设你正在创建一个模型，可以帮助医生判断病人的严重程度。在这种情况下，我们不应该仅仅关心模型的精确度，更要关注模型对其预测结果有多大程度的肯定。如果不确定性太高，医生需要谨慎决策。

自动驾驶汽车是另外一个有趣的例子。如果模型不确定是否有行人在马路上，我们可以利用这一信息让车子减速，或者发出警报让驾驶员手动操作。

不确定性还可以在缺乏数据样本的情况下帮助我们。如果模型不是在与样本相似的数据上训练的，它可能无法输出想要的结果。谷歌照片曾经将黑种人错误地认成了大猩猩，就是由于这个原因，种类单一的训练集可能导致令人尴尬的结果。

不确定性的最大用途，也是本文的主要目的，就是为模型排除错误。首先，让我们了解一下不确定性都有哪几种不同类型。