基于深度学习的淋巴瘤病理图像智能识别方法[发明专利]
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202010622536.2
(22)申请日 2020.06.30
(71)申请人 天津深析智能科技有限公司
地址 300000 天津市南开区华苑产业区兰
苑路5号A座1002
(72)发明人 王志岗 贺环宇 方超
(74)专利代理机构 天津市北洋有限责任专利代
理事务所 12201
代理人 杜文茹
(51)Int.Cl.
G06T 7/11(2017.01)
G06K 9/62(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06T 5/00(2006.01)
G16H 50/20(2018.01)
(54)发明名称基于深度学习的淋巴瘤病理图像智能识别方法(57)摘要一种基于深度学习的淋巴瘤病理图像智能识别方法:对淋巴瘤病理切片图像数据进行预处理;构建分割淋巴组织区域的全卷积神经网络,包括编码器子网络和解码器子网络;构建高倍分辨率下淋巴瘤三分类卷积神经网络,包括由依次连接的6个卷积层和3个全连接层构成;对全卷积神经网络和淋巴瘤三分类卷积神经网络进行训练,最终得到淋巴瘤病理切片图像分类模型,并且测试时依次经过全卷积神经网络和淋巴瘤三分类卷积神经网络,最终得到淋巴瘤的分类结果。
本发明为病理医生判断淋巴瘤亚型类别提供可靠的中间数据,通过分析数字扫描的淋巴瘤病理图像,为病理医生对淋巴瘤的亚型分类提供辅助诊断参考,从而帮助病理医生实现对病人的患
淋巴瘤情况的快速判别。
权利要求书5页 说明书8页 附图1页CN 111798464 A 2020.10.20
C N 111798464
A
1.一种基于深度学习的淋巴瘤病理图像智能识别方法,其特征在于,包括如下步骤:
1)对淋巴瘤病理切片图像数据进行预处理,包括:
(1)获得原始的数字扫描淋巴瘤病理切片图像数据集,由专业医生对数据集中的每一张病理切片图像X i进行手工标注,所述的手工标注包含病灶、血管和脂肪区域的标注,根据手工标注的结果生成与每一张病理切片图像X i对应的掩膜图像Yi;
(2)对病理切片图像数据集进行染色均一化处理,以适应不同染色条件下导致的切片中颜色深浅不一问题;
(3)对数据集中的每一张病理切片图像X i进行裁剪切块,每个图像块分辨率为512×512;
2)构建分割淋巴组织区域的全卷积神经网络,包括编码器子网络和解码器子网络,其中,所述编码器子网络是由依次连接的第一卷积层、第二卷积层、第三卷积层、第一下采样层、第四卷积层、第五卷积层、第六卷积层和第二下采样层构成;所述的解码器子网络是由依次连接的第七卷积层、第八卷积层、第九卷积层、第一上采样层、第十卷积层、第十一卷积层、第十二卷积层和第二上采样层构成;所述第二下采样层的输出是第七卷积层的输入,第二上采样层的输出构成全卷积神经网络的输出,所述全卷积神经网络的输出为与全卷积神经网络输入的图像块分辨率大小相同的概率图,概率图中每个像素点对应病理切片图像X i 中每个像素点属于淋巴组织区域的概率大小;
3)构建高倍分辨率下淋巴瘤三分类卷积神经网络,包括由依次连接的6个卷积层和3个全连接层构成;
4)对步骤2)中的全卷积神经网络和步骤3)中的淋巴瘤三分类卷积神经网络进行训练,最终得到淋巴瘤病理切片图像分类模型,并且测试时依次经过全卷积神经网络和淋巴瘤三分类卷积神经网络,最终得到淋巴瘤的分类结果。
2.根据权利要求1所述的基于深度学习的淋巴瘤病理图像智能识别方法,其特征在于,步骤1)中的第(3)所述的对数据集中的每一张病理切片图像X i进行裁剪切块,是对数据集中的每一张病理切片图像在4×图层下裁减切块,且每个图像块的分辨率为512×512,将所有图像块随机分配到4×图层下的训练集和验证集,比例为8:2,得到4×图层下训练集LT1,对应掩膜标签集合LT y1,4×图层下验证集LV1,对应掩膜标签集合LV y1;同时对数据集中的每一张病理切片图像在40×图层下进行不重叠裁剪切块,每个图像块分辨率为512×512,将所有图像块随机分配到40×图层下的训练集和验证集,比例为8:2,得到40×图层下的训练集HT1与分类标签HT y1,验证集HV1与分类标签HV y1;
在4×图层与40×图层下的训练集和验证集中,每个图像块的分辨率为512×512,其中i表示数据集中第i张病理切片图像z表示4×图层或者40×图层,以整张病理切片图像X i左下角点为坐标零点,x和y分别表示该图像块的左上角点在横坐标轴与纵坐标轴上的坐标点,同时与对应的掩膜图像Y i在相同坐标下进行裁剪切块。
3.根据权利要求1所述的基于深度学习的淋巴瘤病理图像智能识别方法,其特征在于,步骤2)中所述的编码器子网络中,每个卷积层的卷积核大小为3×3,步长为1,且每个卷积层后面都有一个批归一化层与ReLU非线性激活,下采样层选取MaxPooling,窗口大小2×2,步长大小为2;所述的解码器子网络中,每个卷积层的卷积核大小为3×3,步长为1,且每个卷积层后面都有一个批归一化层与ReLU非线性激活,上采样层选取双线性插值,窗口大小2
×2,步长大小为2;
每个卷积层都依据以下公式来提取特征图:
其中,为向下取整,x in表示输入特征图大小,x out表示输出特征图大小,padding表示填充特征图像素点的大小,s表示步长,f表示卷积的核大小。
4.根据权利要求1所述的基于深度学习的淋巴瘤病理图像智能识别方法,其特征在于,步骤3)所述的淋巴瘤三分类卷积神经网络中,6个卷积层中的前3个卷积层均包含有64个3×3过滤器,第4个和第5个卷积层均包含有128个3×3过滤器,最后一个卷积层均包含有256个3×3过滤器,第1、2、4、6个卷积层依次执行2×2的最大池化操作,步长为2,除最后一个卷积层外,其余的卷积层后面都有一个批归一化层与ReLU非线性激活,三个全连接层按前后顺序对应包含有512、512和3个神经元,并以0.5的概率进行dropout操作;其中
(1)用于最大池化操作的池化层
最大池化操作用于卷积操作之后,作用在于特征融合和降维,提取特征图的公式如下:
其中,为向下取整,x in表示输入特征图大小,x out表示输出特征图大小,padding表示填充特征图像素点的大小,s表示步长,n表示池化窗口的大小;
在池化操作中,采用如下公式实现网络中池化操作梯度的计算:
其中,loss表示为损失函数值,Pooling_in表示为池化操作输入,Pooling_out表示为池化操作输出,Pooling.backward表示为池化层的反向传播;
(2)dropout操作
dropout操作在每个训练批次的前向传播中,以概率q保留部分神经元,前一层全连接层经过dropout操作之后的变化如下:
Z l+1=W·A l+b
A l+1=R(Z l+1)
r l~Bernoulli(q)
A l+1=R(Z l+1)
其中,l表示网络的第l层,A l表示全连接层的输入,Bernoulli表示伯努利函数,表示以概率q保留的部分神经元,Z l+1表示全连接层的输出,W表示第l层的权重,b表示第l层的偏置,R表示为非线性激活函数。
5.根据权利要求1所述的基于深度学习的淋巴瘤病理图像智能识别方法,其特征在于,
步骤2)中的全卷积神经网络和步骤3)中的淋巴瘤三分类卷积神经网络,均是使用Adam优化器进行参数优化,所述参数优化更新规则如下:
(1)计算t时间梯度的指数移动平均数
首先计算梯度
其中,g t表示在t时间步上对参数θt所求的梯度,表示梯度算子,J(θt-1)表示一个可微分的随机标量函数;
根据梯度计算t时间梯度的指数移动平均数m t,公式如下:
m t=β1m t-1+(1-β1)g t
将一阶矩向量m初始化为0,系数β1为指数衰减率,默认为0.9,用于控制权重分配;
(2)计算梯度平方的指数移动平均数v t,公式如下:
将二阶矩向量v初始化为0,系数β2为指数衰减率,默认为0.999,用于控制之前的梯度平方的影响情况;
(3)由于一阶矩向量m初始化为0,会导致t时间梯度的指数移动平均数m t偏向于0,要对t 时间梯度的指数移动平均数m t进行偏差纠正,降低偏差对训练初期的影响:
其中,为进行偏差纠正后的梯度均值;
(4)因为二阶矩向量v初始化为0导致训练初始阶段梯度平方的指数移动平均数v t偏向0,对梯度平方的指数移动平均数进行纠正,公式如下:
其中,为进行偏差纠正后的二阶原始矩估计;
(5)更新网络的参数θt,公式如下:
其中,α为学习率,默认学习率α的初始值为0.001,θt-1为更新前的网络的参数,常数ε=10-8,避免除数变为0;
在对网络进行训练时,随着训练次数的增加,学习率α逐渐衰减,衰减公式为:
其中,decayrate表示为衰减率,epoch_num表示为训练的次数,α0表示为初始学习率。
6.根据权利要求1所述的基于深度学习的淋巴瘤病理图像智能识别方法,其特征在于,步骤2)中的全卷积神经网络和步骤3)中的淋巴瘤三分类卷积神经网络,使用的损失函数为交叉熵损失,用于度量两个概率分布间的差异性,分为二分类和多分类的情况:其中,
(1)二分类的情况
在二分的情况下,网络最后需要预测的结果只有两种情况,对于每个类别预测得到的预测概率为p和1-p,此时表达式为:
其中,Loss为交差商损失值,y i表示数据集中第i张病理切片图像的标签,正类为1,负类为0;p i表示数据集中第i张病理切片图像预测为正的概率;N表示数据集中病理切片图像的数量;
(2)多分类的情况
多分类的情况是对二分类的扩展:
其中M表示类别的数量,y ic表示第i张病理切片图像类别c的one-hot独热编码,p ic表示预测第i张病理切片图像属于类别c的概率;
同时由于交叉熵涉及到计算每个类别的概率,所以网络的最后一层使用的是softmax 函数,每个分类被取到的概率S的函数形式为:
其中,e为自然常数,j与k都表示类别索引,总的类别个数为C,V是softmax层的输入;
由于softmax函数将数值映射到了0-1之间,并且和为1,则有:
对交叉熵损失值Loss进行求导,得到:
只需要求出h j,将结果减1就是反向更新的梯度。
7.根据权利要求1所述的基于深度学习的淋巴瘤病理图像智能识别方法,其特征在于,步骤4)所述的训练中,全卷积神经网络的输出经过阈值二值化处理后,作为所述的淋巴瘤三分类卷积神经网络的输入。
8.根据权利要求7所述的基于深度学习的淋巴瘤病理图像智能识别方法,其特征在于,所述的二值化处理中设置的二值化阈值为0.5。
基于深度学习的淋巴瘤病理图像智能识别方法
技术领域
[0001]本发明涉及一种淋巴瘤辅助诊断系统。
特别是涉及一种基于深度学习的淋巴瘤病理图像智能识别方法。
背景技术
[0002]淋巴瘤是我国常见的恶性肿瘤之一,由于其病理类型复杂、多样,无特异性病理组织学表现,临床病理诊断极易与其他肿瘤混淆,易造成误诊,是目前临床病理诊断较为困难的一类肿瘤。
淋巴瘤病理误诊率10%~33.33%,误诊患者得不到及时的救治,往往错过最佳治疗时机,严重影响患者的治疗及预后。
其中弥漫大B细胞淋巴瘤(DLBCL)是最常见的非霍奇金淋巴瘤(NHL),约占所有NHL的30%~40%,是一组异质性明显的侵袭性淋巴瘤,临床病情进展迅速,预后较差,DLBCL患者5年总体生存率仅为46%。
而T细胞淋巴瘤占非霍奇金淋巴瘤的10%~15%,亚型患者5年总生存率仅为10%~30%。
[0003]深度学习在图像上近年来取得了巨大成功,同时医疗图像数据在医疗数据中的比例不断增加,使得对于病理识别与诊断的性能提升提供了基础。
深度学习中神经网络的多层构架使其可以逐层的提取原始数据中隐藏的高级抽象特征,这使得神经网络可以直接面对原始数据进行训练。
当数据量不断増大的时候,神经网络的性能可以不断提高,而当下医疗行业不断增加的数据量为提升神经网络模型的性能提供了有利条件。
[0004]淋巴瘤正确的病理诊断离不开影像学特征因素。
因此,利用数字化医学病理图像进行计算机辅助分析,可以提高病理医生分析病理影像的效率,减少淋巴瘤病理的误诊率,为患者的治疗与预后带来极大便利。
但是由于淋巴瘤的病理组织学表现的复杂性与其病理图像的高分辨率特性,导致计算机辅助诊断难度较大。
发明内容
[0005]本发明所要解决的技术问题是,提供一种结合病理医生评片方法,实现由粗到细的不同尺度特征提取,为病理医生对淋巴瘤的亚型分类提供辅助诊断参考的基于深度学习的淋巴瘤病理图像智能识别方法。
[0006]本发明所采用的技术方案是:一种基于深度学习的淋巴瘤病理图像智能识别方法,包括如下步骤:
[0007]1)对淋巴瘤病理切片图像数据进行预处理,包括:
[0008](1)获得原始的数字扫描淋巴瘤病理切片图像数据集,由专业医生对数据集中的每一张病理切片图像X i进行手工标注,所述的手工标注包含病灶、血管和脂肪区域的标注,根据手工标注的结果生成与每一张病理切片图像X i对应的掩膜图像Yi;
[0009](2)对病理切片图像数据集进行染色均一化处理,以适应不同染色条件下导致的切片中颜色深浅不一问题;
[0010](3)对数据集中的每一张病理切片图像X i进行裁剪切块,每个图像块分辨率为512×512;
[0011]2)构建分割淋巴组织区域的全卷积神经网络,包括编码器子网络和解码器子网络,其中,所述编码器子网络是由依次连接的第一卷积层、第二卷积层、第三卷积层、第一下采样层、第四卷积层、第五卷积层、第六卷积层和第二下采样层构成;所述的解码器子网络是由依次连接的第七卷积层、第八卷积层、第九卷积层、第一上采样层、第十卷积层、第十一卷积层、第十二卷积层和第二上采样层构成;所述第二下采样层的输出是第七卷积层的输入,第二上采样层的输出构成全卷积神经网络的输出,所述全卷积神经网络的输出为与全卷积神经网络输入的图像块分辨率大小相同的概率图,概率图中每个像素点对应病理切片图像X i中每个像素点属于淋巴组织区域的概率大小;
[0012]3)构建高倍分辨率下淋巴瘤三分类卷积神经网络,包括由依次连接的6个卷积层和3个全连接层构成;
[0013]4)对步骤2)中的全卷积神经网络和步骤3)中的淋巴瘤三分类卷积神经网络进行训练,最终得到淋巴瘤病理切片图像分类模型,并且测试时依次经过全卷积神经网络和淋巴瘤三分类卷积神经网络,最终得到淋巴瘤的分类结果。
[0014]本发明的基于深度学习的淋巴瘤病理图像智能识别方法,结合病理影像学与专业病理医生的判片习惯,构建全卷积神经网络模型,分割出淋巴组织区域,降低噪声影响构建分类卷积神经网络,实现对不同三种淋巴瘤亚型病理图像的高准确率的分类。
本发明的方法可为病理医生判断淋巴瘤亚型类别提供可靠的中间数据,通过分析数字扫描的淋巴瘤病理图像,为病理医生对淋巴瘤的亚型分类提供辅助诊断参考,从而帮助病理医生实现对病人的患淋巴瘤情况的快速判别,降低病理医生的误诊率。
附图说明
[0015]图1是本发明方法中的训练流程图;
[0016]图2是本发明方法中的测试流程图。
具体实施方式
[0017]下面结合实施例和附图对本发明的基于深度学习的淋巴瘤病理图像智能识别方法做出详细说明。
[0018]本发明的基于深度学习的淋巴瘤病理图像智能识别方法,涉及深度学习与病理图像领域,解决高分辨率病理图像下淋巴瘤亚型的识别准确率,减少误诊率问题,其技术方案是通过提出一种深度学习模型,结合病理医生评片方法,实现由粗到细的不同尺度特征提取,为病理医生对淋巴瘤的亚型分类提供辅助参考。
[0019]本发明的基于深度学习的淋巴瘤病理图像智能识别方法,包括如下步骤:[0020]1)对淋巴瘤病理切片图像数据进行预处理,包括:
[0021](1)获得原始的数字扫描淋巴瘤病理切片图像数据集,由专业医生对数据集中的每一张病理切片图像X i进行手工标注,所述的手工标注包含病灶、血管和脂肪区域的标注,根据手工标注的结果生成与每一张病理切片图像X i对应的掩膜(mask)图像Yi;
[0022](2)对病理切片图像数据集进行染色均一化处理,以适应不同染色条件下导致的切片中颜色深浅不一问题。
[0023]如:经过专业医生从数据集中选定目标图像H source,将数据集中除H source以外的其
他病理切片图像选定为H target,以H source的颜色基为标准替换H target颜色基,同时保留H target 的相对染色密度,染色均一化矩阵V source表示为:
[0024]
[0025]其中P99表示99分位数,W target表示相对光密度分离出的颜色基矩阵。
[0026]然后,使用反向比尔-朗伯变换将每个通道和每个像素的源光密度与目标图像进行染色均一化,再将其转换回像素强度空间,公式表示为:
[0027]
[0028]c表示图像的三通道,x表示像素位置,target表示选定目标图像,i c,x,source表示转换后的每个像素点值,i0表示最大强度值,e为自然常数。
[0029](3)对数据集中的每一张病理切片图像X i进行裁剪切块,每个图像块分辨率为512×512;
[0030]对数据集中的每一张病理切片图像在4×图层下裁减切块,且每个图像块的分辨率为512×512,得到4×图层下训练集LT1,对应掩膜标签集合LT y1。
同时对数据集中的每一张病理切片图像在40×图层下进行不重叠裁剪切块,每个图像块分辨率为512×512,得到40×图层下的训练集HT1与对应分类标签HT y1。
[0031]在4×图层与40×图层下的训练集和验证集中,每个图像块的分辨率为512×512,其中i表示数据集中第i张病理切片图像,z表示4×图层或者40×图层,以整张病理切片图像X i左下角点为坐标零点,x和y分别表示该图像块的左上角点在横坐标轴与纵坐标轴上的坐标点,同时与对应的掩膜图像Y i在相同坐标下进行裁剪切块。
[0032]2)构建分割淋巴组织区域的全卷积神经网络,包括编码器子网络和解码器子网络,其中,所述编码器子网络是由依次连接的第一卷积层、第二卷积层、第三卷积层、第一下采样层、第四卷积层、第五卷积层、第六卷积层和第二下采样层构成;所述的解码器子网络是由依次连接的第七卷积层、第八卷积层、第九卷积层、第一上采样层、第十卷积层、第十一卷积层、第十二卷积层和第二上采样层构成;所述第二下采样层的输出是第七卷积层的输入,第二上采样层的输出构成全卷积神经网络的输出,所述全卷积神经网络的输出为与全卷积神经网络输入的图像块分辨率大小相同的概率图,概率图中每个像素点对应病理切片图像X i中每个像素点属于淋巴组织区域的概率大小;其中,
[0033]所述的编码器子网络中,每个卷积层的卷积核大小为3×3,步长为1,且每个卷积层后面都有一个批归一化层与ReLU非线性激活,下采样层选取MaxPooling,窗口大小2×2,步长大小为2;
[0034]所述的解码器子网络中,每个卷积层的卷积核大小为3×3,步长为1,且每个卷积层后面都有一个批归一化层与ReLU非线性激活,上采样层选取双线性插值,窗口大小2×2,步长大小为2;
[0035]每个卷积层都依据以下公式来提取特征图:
[0036]
[0037]其中,为向下取整,x in表示输入特征图大小,x out表示输出特征图大小,padding
表示填充特征图像素点的大小,s表示步长,f表示卷积的核大小;
[0038]在本发明中,例如第一个卷积层的输入为512×512,卷积核大小为3×3,填充padding大小为1,步长为1,因此第一个卷积层的输出特征图大小为:
[0039]
[0040]ReLU激活函数给神经元引入了非线性因素,ReLU激活函数公式如下:
[0041]f(x)=max(0,x)
[0042]批归一化就是通过一定的规范化手段,把全卷积神经网络中每层中的任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布,规范化函数如下形式:
[0043]
[0044]其中a i为某个神经元原始激活值,为经过规范化操作后的规范后值。
整个规范化过程可以分解为两步,第一步是对激活值规整到均值为0,方差为1的正态分布范围内。
其中,μ是通过神经元集合S中包含的m个神经元各自的激活值求出的均值,即:
[0045]
[0046]为根据均值和集合S中神经元各自激活值求出的激活值标准差:
[0047]
[0048]其中,ε是为了增加训练稳定性而加入的小的常量数据。
[0049]第二步主要目标是让每个神经元在训练过程中学习到对应的两个调节因子,对规范到0均值,1方差的值进行微调。
因为经过第一步操作后,归一化有可能降低神经网络的非线性表达能力,所以会以此方式来补偿归一化操作后神经网络的表达能力。
[0050]3)构建高倍分辨率下淋巴瘤三分类卷积神经网络,包括由依次连接的6个卷积层和3个全连接层构成;
[0051]所述的淋巴瘤三分类卷积神经网络中,6个卷积层中的前3个卷积层均包含有64个3×3过滤器,第4个和第5个卷积层均包含有128个3×3过滤器,最后一个卷积层均包含有256个3×3过滤器,第1、2、4、6个卷积层依次执行2×2的最大池化操作,步长为2,除最后一个卷积层外,其余的卷积层后面都有一个批归一化层与ReLU非线性激活,三个全连接层按前后顺序对应包含有512、512和3个神经元,并以0.5的概率进行dropout操作;其中[0052](1)用于最大池化操作的池化层
[0053]最大池化操作用于卷积操作之后,作用在于特征融合和降维,提取特征图的公式如下:
[0054]
[0055]其中,为向下取整,x in表示输入特征图大小,x out表示输出特征图大小,padding 表示填充特征图像素点的大小,s表示步长,n表示池化窗口的大小;
[0056]在池化操作中,我们可以看到,它是没有参与前向计算的参数的,所以只需要采用
如下公式实现网络中池化操作梯度的计算:
[0057]
[0058]其中,loss表示为损失函数值,Pooling_in表示为池化操作输入,Pooling_out表示为池化操作输出,Pooling.backward表示为池化层的反向传播;
[0059]相对于全卷积神经网络,淋巴瘤三分类卷积神经网络在最后增加了全连接层,就是将最后一层卷积得到的特征图(矩阵)展开成一维向量,并为分类器提供输入。
[0060](2)dropout操作
[0061]dropout操作在每个训练批次的前向传播中,以概率p保留部分神经元,可以简化神经网络的复杂度,降低过拟合风险,前一层全连接层经过dropout操作之后的变化如下:[0062]Z l+1=W·A l+b
[0063]A l+1=R(Z l+1)
[0064]
[0065]r l~Bernoulli(q)
[0066]
[0067]
[0068]A l+1=R(Z l+1)
[0069]其中,l表示网络的第l层,A l表示全连接层的输入,Bernoulli表示伯努利函数,表示以概率q保留的部分神经元,Z l+1表示全连接层的输出,W表示第l层的权重,b表示第l层的偏置,R表示为非线性激活函数。
[0070]步骤2)中的全卷积神经网络和步骤3)中的淋巴瘤三分类卷积神经网络,均是使用Adam优化器进行参数优化,所述参数优化更新规则如下:
[0071](1)计算t时间梯度的指数移动平均数
[0072]首先计算梯度
[0073]
[0074]其中,g t表示在t时间步上对参数θt所求的梯度,表示梯度算子,J(θt-1)表示一个可微分的随机标量函数;
[0075]根据梯度计算t时间梯度的指数移动平均数m t,公式如下:
[0076]m t=β1m t-1+(1-β1)g t
[0077]将一阶矩向量m初始化为0,系数β1为指数衰减率,通常取接近于1的值,默认为0.9,用于控制权重分配(动量与当前梯度);
[0078](2)计算梯度平方的指数移动平均数v t,公式如下:
[0079]
[0080]将二阶矩向量v初始化为0,系数β2为指数衰减率,默认为0.999,用于控制之前的梯度平方的影响情况;
[0081](3)由于一阶矩向量m初始化为0,会导致t时间梯度的指数移动平均数m t偏向于0,尤其在训练初期阶段。
要对t时间梯度的指数移动平均数m t进行偏差纠正,降低偏差对训练。