Dropout学习总结

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Dropout学习总结
1.Dropout简介
在许多机器学习的模型中,如果模型的参数太多,⽽且训练的样本⼜太少,训练出来a数据上损失函数⽐较⼤,预测的准确率较低。

过拟合是许多机器学习的通病。

如果模型过拟合,那么得到的模型⼏乎不可⽤。

为了解决过拟合问题,⼀般会采⽤模型集成的⽅法,即训练多个模型进⾏组合。

此时,训练模型费时就成为⼀个很⼤的问题,不仅训练多个模型费时,测试多个模型同时也很费时。

综上所述,训练深度神经⽹络的时候,总是会遇到两个⼤缺点:(1)容易过拟合;(2)费时
在2012年,Hinton在其论⽂《Improving neural networks by preventing coadaptation of feature detectors》中提出Dropout。

当⼀个复杂的前馈神经⽹络被训练在较⼩的数据集时,容易造成过拟合。

为了防⽌过拟合,可以通过阻⽌特征检测器的共同作⽤来提⾼神经⽹络的性能。

在2012年,Alex、Hinton在其论⽂《ImageNet Classification with Deep Convolutional Neural Networks》中⽤到了Dropout算法,⽤于防⽌过拟合。

并且这篇论⽂提到的AlexNet⽹络模型引爆了神经⽹络应⽤热潮,并赢得了2012年图像识别⼤赛的冠军,使得CNN成为图像分类上的核⼼算法模型。

在随后,⼜有⼀些关于Dropout的⽂章《Dropout:A Simple Way to Prevent Neural Networks from Over fitting》、《Improving Neural Networks with Dropout》、《Dropout as data augmentation》从上⾯的论⽂中,我们可以感受到Dropout在深度学习中的重要性。

那么什么是Dropout呢?
Dropout可以作为训练深度神经⽹络的⼀种trick供选择。

在每个训练批次中,通过忽略⼀半的特征检测器(让⼀半的隐层节点值为0),可以明显地减少过拟合现象。

这种⽅式可以减少特征检测器(隐层节点)间的相互作⽤,检测器相互作⽤是指某些检测器以来其他检测器才能发挥作⽤。

Dropout说简单⼀点就是:在前向传播的时候,让某个神经元的激活值以⼀定的概率p停⽌⼯作,这样可以使模型的泛化性更强,因为他不会太依赖某些局部的特征,如图⼀所⽰:
图1 使⽤Dropout的神经⽹络模型
2.Dropout⼯作流程及使⽤
假设有这样⼀个神经⽹络,如图2所⽰。

图2 标准的神经⽹络
输⼊是x,输出是y,正常的流程是:⾸先把通过⽹络前向传播;然后把误差反向传播以决定如何更新参数让⽹络进⾏学习。

使⽤Dropout之
后,过程变为如下:
(1)⾸先随机删掉⽹络中⼀半的神经元,输⼊和输出神经元保持不变(图3中虚线为部分临时被删除的神经元)
图3 部分被临时删除的神经元
(2)然后把输⼊x通过修改后的⽹络前向传播,然后把得到的损失结果通过修改的⽹络反向传播。

⼀⼩批训练样本执⾏完这个结果后,在没有被删除的神经元上按照随机梯度下降法更新对应的参数(w,b)
(3)然后继续重复这⼀过程:
回复被删除的神经元(此时被删除的神经元保持原样,⽽没有被删除的神经元已经有所更新)
从隐藏神经元中随机选择⼀个⼀半⼤⼩的⼦集临时删除掉(备份被删除神经元的参数)
对⼀⼩批训练样本,先前向传播后反向传播损失并根据随机梯度下降法更新参数(w,b)(没有被删除的那⼀部分参数得到更新,删除的神经元参数保持被删除前的结果)。

不断地重复这⼀过程。

那么怎样具体的让Dropout某些神经元以⼀定的概率停⽌⼯作呢?代码层⾯如何实现的呢?下⾯我们具体的讲解⼀下Dropout代码层⾯的⼀些公式推导及代码实现的思路。

(1)在训练模型阶段
⽆可避免的,在训练⽹络的每个单元都要添加⼀道概率流程。

图4 标准⽹络和带有Dropout⽹络的⽐较
*没有Dropout的⽹络计算公式:
*采⽤Dropout的⽹络计算公式:
上⾯的公式中Bernoulli函数是为了⽣成概率r向量,也就剩随产⽣⼀个0、1的向量。

代码层⾯的实现让某个神经元以概率p停⽌⼯作,其实就是让它的激活函数值以概率p变为0,⽐如我们某⼀层⽹络神经元的个数为1000个,其激活函数的输出值为y1,y2,......,y1000,我们Dropout⽐率选择0.4,那么这⼀层神经元经过Dropout后,1000个神经元中⼤约有400个的值被置为0。

《注意》:经过上⾯屏蔽掉的某些神经元,使其激活值为0以后,我们还需要对向量y1,......,y1000进⾏缩放,就是乘以1/(1-p)。

如果你在训练的时候,经过置0后,没有对y1,......,y1000进⾏rescale,那么在测试的时候,就需要对权重进⾏缩放,操作如下:
(2)模型测试阶段
预测模型时,每⼀个神经元的权重参数要乘以概率p。

图5 预测模型时Dropout的操作
测试阶段的Dropout公式:
3.为什么Dropout可以解决过拟合问题?
(1)取平均的作⽤:先回到标准的模型即没有Dropout
(2)减少神经元之间复杂的共适应关系:
(3)Dropout类似于性别在⽣物进化中的⾓⾊:。

相关文档
最新文档