Dropout学习总结

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Dropout学习总结
1.Dropout简介
在许多机器学习的模型中，如果模型的参数太多，⽽且训练的样本⼜太少，训练出来a数据上损失函数⽐较⼤，预测的准确率较低。

过拟合是许多机器学习的通病。

如果模型过拟合，那么得到的模型⼏乎不可⽤。

为了解决过拟合问题，⼀般会采⽤模型集成的⽅法，即训练多个模型进⾏组合。

此时，训练模型费时就成为⼀个很⼤的问题，不仅训练多个模型费时，测试多个模型同时也很费时。

综上所述，训练深度神经⽹络的时候，总是会遇到两个⼤缺点：（1）容易过拟合；（2）费时
在2012年，Hinton在其论⽂《Improving neural networks by preventing coadaptation of feature detectors》中提出Dropout。

当⼀个复杂的前馈神经⽹络被训练在较⼩的数据集时，容易造成过拟合。

为了防⽌过拟合，可以通过阻⽌特征检测器的共同作⽤来提⾼神经⽹络的性能。

在2012年，Alex、Hinton在其论⽂《ImageNet Classification with Deep Convolutional Neural Networks》中⽤到了Dropout算法，⽤于防⽌过拟合。

并且这篇论⽂提到的AlexNet⽹络模型引爆了神经⽹络应⽤热潮，并赢得了2012年图像识别⼤赛的冠军，使得CNN成为图像分类上的核⼼算法模型。

在随后，⼜有⼀些关于Dropout的⽂章《Dropout：A Simple Way to Prevent Neural Networks from Over fitting》、《Improving Neural Networks with Dropout》、《Dropout as data augmentation》从上⾯的论⽂中，我们可以感受到Dropout在深度学习中的重要性。

那么什么是Dropout呢？
Dropout可以作为训练深度神经⽹络的⼀种trick供选择。

在每个训练批次中，通过忽略⼀半的特征检测器（让⼀半的隐层节点值为0），可以明显地减少过拟合现象。

这种⽅式可以减少特征检测器（隐层节点）间的相互作⽤，检测器相互作⽤是指某些检测器以来其他检测器才能发挥作⽤。

Dropout说简单⼀点就是：在前向传播的时候，让某个神经元的激活值以⼀定的概率p停⽌⼯作，这样可以使模型的泛化性更强，因为他不会太依赖某些局部的特征，如图⼀所⽰：
图1 使⽤Dropout的神经⽹络模型
2.Dropout⼯作流程及使⽤
假设有这样⼀个神经⽹络，如图2所⽰。

图2 标准的神经⽹络
输⼊是x，输出是y，正常的流程是：⾸先把通过⽹络前向传播；然后把误差反向传播以决定如何更新参数让⽹络进⾏学习。

使⽤Dropout之
后，过程变为如下：
（1）⾸先随机删掉⽹络中⼀半的神经元，输⼊和输出神经元保持不变（图3中虚线为部分临时被删除的神经元）
图3 部分被临时删除的神经元
（2）然后把输⼊x通过修改后的⽹络前向传播，然后把得到的损失结果通过修改的⽹络反向传播。

⼀⼩批训练样本执⾏完这个结果后，在没有被删除的神经元上按照随机梯度下降法更新对应的参数（w，b）
（3）然后继续重复这⼀过程：
回复被删除的神经元（此时被删除的神经元保持原样，⽽没有被删除的神经元已经有所更新）
从隐藏神经元中随机选择⼀个⼀半⼤⼩的⼦集临时删除掉（备份被删除神经元的参数）
对⼀⼩批训练样本，先前向传播后反向传播损失并根据随机梯度下降法更新参数（w，b）（没有被删除的那⼀部分参数得到更新，删除的神经元参数保持被删除前的结果）。

不断地重复这⼀过程。

那么怎样具体的让Dropout某些神经元以⼀定的概率停⽌⼯作呢?代码层⾯如何实现的呢？下⾯我们具体的讲解⼀下Dropout代码层⾯的⼀些公式推导及代码实现的思路。

（1）在训练模型阶段
⽆可避免的，在训练⽹络的每个单元都要添加⼀道概率流程。

图4 标准⽹络和带有Dropout⽹络的⽐较
*没有Dropout的⽹络计算公式：
*采⽤Dropout的⽹络计算公式：
上⾯的公式中Bernoulli函数是为了⽣成概率r向量，也就剩随产⽣⼀个0、1的向量。

代码层⾯的实现让某个神经元以概率p停⽌⼯作，其实就是让它的激活函数值以概率p变为0，⽐如我们某⼀层⽹络神经元的个数为1000个，其激活函数的输出值为y1,y2,......,y1000，我们Dropout⽐率选择0.4，那么这⼀层神经元经过Dropout后，1000个神经元中⼤约有400个的值被置为0。

《注意》：经过上⾯屏蔽掉的某些神经元，使其激活值为0以后，我们还需要对向量y1,......,y1000进⾏缩放，就是乘以1/(1-p)。

如果你在训练的时候，经过置0后，没有对y1,......,y1000进⾏rescale，那么在测试的时候，就需要对权重进⾏缩放，操作如下：
（2）模型测试阶段
预测模型时，每⼀个神经元的权重参数要乘以概率p。

图5 预测模型时Dropout的操作
测试阶段的Dropout公式：
3.为什么Dropout可以解决过拟合问题？
（1）取平均的作⽤：先回到标准的模型即没有Dropout
（2）减少神经元之间复杂的共适应关系：
（3）Dropout类似于性别在⽣物进化中的⾓⾊：。