用于图像分类的卷积神经网络中激活函数的设计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Baidu Nhomakorabea
“坏死”现象;加快了模型的收敛速度,在复杂数据集上该组合函数的收敛性能更好.
关键词: 图像分类;卷积神经网络;激活函数;relu;神经元坏死;组合激活函数
中图分类号: TP 391
文献标志码: A
文章编号: 1008−973X(2019)07−1363−11
Design of activation function in CNN for image classification
用于图像分类的卷积神经网络中激活函数的设计
王红霞,周家奇,辜承昊,林泓
(武汉理工大学 计算机科学与技术学院,湖北 武汉 430063)
摘 要:为了提高图像分类效果,针对卷积神经网络中常用激活函数 relu 在 x 负半轴的导数恒为零,导致训练过程
中 容 易 造 成 神 经 元 “ 坏 死 ” 以 及 现 有 组 合 激 活 函 数 relu-softplus 在 模 型 收 敛 情 况 下 学 习 率 过 小 导 致 收 敛 速 度 慢 的
问 题 , 提 出 新 的 组 合 激 活 函 数 relu-softsign. 分 析 激 活 函 数 在 训 练 过 程 中 的 作 用 , 给 出 激 活 函 数 在 设 计 时 需 要 考 虑
的要点;根据这些要点,将 relu 和 softsign 函数于 x 轴正、负半轴进行分段组合,使其 x 负半轴导数不再恒为零;分
WANG Hong-xia, ZHOU Jia-qi, GU Cheng-hao, LIN Hong
(School of Computer Science and Technology, Wuhan University of Technology, Wuhan 430063, China)
Abstract: A new combinatorial activation function called relu-softsign was proposed aiming at the problem that the derivative of the commonly used activation function relu in the convolutional neural network is constant to zero at the x negative axis, which makes it easy to cause neuron necrosis during training, and the existing combinatorial activation function relu-softplus can only use the small learning rate in the case of model convergence, which leads to slow convergence. The image classification effect was improved. The role of the activation function during training was analyzed, and the key points that need to be considered in the design of the activation function were given. The relu and softsign functions were combined piecewise in the positive and negative semi axis of the x axis according to these points, so that the derivative of x negative semi axis was no longer constant to zero. Then comparision with the single activation function and relu-softplus combination activation function was conducted on the MNIST, PI100, CIFAR-100 and Caltech256 datasets. The experimental results show that the combinatorial activation function relu-softsign improves the model classification accuracy, simply and effectively mitigates the irreversible “necrosis” phenomenon of neurons. The convergence speed of the model is accelerated, especially on complex data sets. Key words: image classification; convolutional neural network; activation function; relu; neurons necrosis; combinatorial activation function
别 在 MNIST、 PI100、 CIFAR-100 和 Caltech256 数 据 集 上 , 与 单 一 的 激 活 函 数 和 relu-softplus 组 合 激 活 函 数 进 行 对 比
实 验 . 实 验 结 果 表 明 , 使 用 relu-softsign 组 合 激 活 函 数 提 高 了 模 型 分 类 准 确 率 , 简 单 有 效 地 缓 解 了 神 经 元 不 可 逆
第 53 卷第 7 期 2019 年 7 月
浙 江 大 学 学 报 (工学版)
Journal of Zhejiang University (Engineering Science)
DOI: 10.3785/j.issn.1008-973X.2019.07.016
Vol.53 No.7 Jul. 2019
“坏死”现象;加快了模型的收敛速度,在复杂数据集上该组合函数的收敛性能更好.
关键词: 图像分类;卷积神经网络;激活函数;relu;神经元坏死;组合激活函数
中图分类号: TP 391
文献标志码: A
文章编号: 1008−973X(2019)07−1363−11
Design of activation function in CNN for image classification
用于图像分类的卷积神经网络中激活函数的设计
王红霞,周家奇,辜承昊,林泓
(武汉理工大学 计算机科学与技术学院,湖北 武汉 430063)
摘 要:为了提高图像分类效果,针对卷积神经网络中常用激活函数 relu 在 x 负半轴的导数恒为零,导致训练过程
中 容 易 造 成 神 经 元 “ 坏 死 ” 以 及 现 有 组 合 激 活 函 数 relu-softplus 在 模 型 收 敛 情 况 下 学 习 率 过 小 导 致 收 敛 速 度 慢 的
问 题 , 提 出 新 的 组 合 激 活 函 数 relu-softsign. 分 析 激 活 函 数 在 训 练 过 程 中 的 作 用 , 给 出 激 活 函 数 在 设 计 时 需 要 考 虑
的要点;根据这些要点,将 relu 和 softsign 函数于 x 轴正、负半轴进行分段组合,使其 x 负半轴导数不再恒为零;分
WANG Hong-xia, ZHOU Jia-qi, GU Cheng-hao, LIN Hong
(School of Computer Science and Technology, Wuhan University of Technology, Wuhan 430063, China)
Abstract: A new combinatorial activation function called relu-softsign was proposed aiming at the problem that the derivative of the commonly used activation function relu in the convolutional neural network is constant to zero at the x negative axis, which makes it easy to cause neuron necrosis during training, and the existing combinatorial activation function relu-softplus can only use the small learning rate in the case of model convergence, which leads to slow convergence. The image classification effect was improved. The role of the activation function during training was analyzed, and the key points that need to be considered in the design of the activation function were given. The relu and softsign functions were combined piecewise in the positive and negative semi axis of the x axis according to these points, so that the derivative of x negative semi axis was no longer constant to zero. Then comparision with the single activation function and relu-softplus combination activation function was conducted on the MNIST, PI100, CIFAR-100 and Caltech256 datasets. The experimental results show that the combinatorial activation function relu-softsign improves the model classification accuracy, simply and effectively mitigates the irreversible “necrosis” phenomenon of neurons. The convergence speed of the model is accelerated, especially on complex data sets. Key words: image classification; convolutional neural network; activation function; relu; neurons necrosis; combinatorial activation function
别 在 MNIST、 PI100、 CIFAR-100 和 Caltech256 数 据 集 上 , 与 单 一 的 激 活 函 数 和 relu-softplus 组 合 激 活 函 数 进 行 对 比
实 验 . 实 验 结 果 表 明 , 使 用 relu-softsign 组 合 激 活 函 数 提 高 了 模 型 分 类 准 确 率 , 简 单 有 效 地 缓 解 了 神 经 元 不 可 逆
第 53 卷第 7 期 2019 年 7 月
浙 江 大 学 学 报 (工学版)
Journal of Zhejiang University (Engineering Science)
DOI: 10.3785/j.issn.1008-973X.2019.07.016
Vol.53 No.7 Jul. 2019