面向机器学习的网络流量控制解决方案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
面向机器学习应用的网络流量控制解决方案
目录
⚫研究背景:机器学习训练中的通信瓶颈⚫问题剖析:网络流量控制面临的新挑战⚫解法探索:新的网络流量控制理论和技术
机器学习和大数据
数据规模
:
TBs to PBs
图像分类
视频分析广告推荐
模型规模: 10^9 to 10^12
•AI 从数据中学习有用信息
分布式机器学习
大数据模型并行
数据并行
大模型
单机训练时间很长
分布式
并行训练加速
参数服务器
以PS 中的BSP 训练为例:
每轮参数更新量∝节点数x 模型规模
通信效率成为性能瓶颈
扩展性受限:增加节点无法线性提升训练速度
参数传输效率成为
性能瓶颈!!!
迭代式训练,上万轮通信
每轮通信数据量大,且正比于规模
硬件加速100倍提升训练计算
100200300400500600Single GPU
128GPU
256GPU
训练时间
47x 60x 图片源[1]
新场景下通信瓶颈更为凸现
⚫
机器学习应用扩展到跨数据中心、边缘计算、企业级等场景跨数据中心训练
图片来源[1]
边缘联合学习
图片来源[2]
企业级多租户集群
图片来源[3]
[1] Hsieh K, Harlap A, Vijaykumar N, et al. Gaia: Geo-Distributed Machine Learning Approaching {LAN} Speeds[C]
[2] https:///2017/04/federated-learning-collaborative.html
[3] https:///document/product/237/8712
目录
⚫研究背景:机器学习训练中的通信瓶颈⚫问题剖析:网络流量控制面临的新挑战⚫解法探索:新的网络流量控制理论和技术
机器学习应用的特性◆多次迭代,周期性明显
◆丰富灵活的通信模式
◆较好的容错性
◆关注训练精度和能效的平衡
机器学习应用的特性
◆多次迭代,周期性明显
时间Update
Update
PS
Pull
Pull
Push
Compute
Compute
Push
{woker 1
{
woker 2
Push
Push
Compute
Compute
Pull
Pull
机器学习应用的特性
◆丰富灵活的通信模式
多种通信步调[1]多种通信逻辑拓扑
同步
异步
近似同步
Ring
PS/Star
Tree
多样的传输模式
多对一
一对多
多对多
流之间的关系更为复杂:时间相关性、空间相关性、迭代轮数相关性
参数服务器
机器学习应用的特性
◆
较好的容错性
机器学习应用的特性◆关注训练精度和能效的平衡
不同通信策略下,精度随迭代次数而变化的情况
网络流量控制面临的新挑战◆传输开销过大,不适合多批次的快速传输
◆流之间的关系更为复杂: 时间相关、空间相关、迭代轮数相关
◆确定性数据传输与近似计算的不匹配
◆网络优化目标与AI应用目标不一致
重新审视网络流量控制技术,更好支持机器学习应用
目录
⚫研究背景:机器学习训练中的通信瓶颈⚫问题剖析:网络流量控制面临的新挑战⚫解法探索:新的网络流量控制理论和技术
新的网络流量控制理论和技术
工作1:训练进度感知的流调度机制工作2:以精度为中心的近似流控
工作1:训练进度感知的流调度机制⚫分布式训练过程的特点:试错的探索过程
迭代次数
精
度
图1 单轮超参搜索过程示意图⚫机器学习集群流调度目标:最小化训练前期的完成时间
图2 流调度的预期目标示意图
⚫训练多次,同时运行多个模型,搜索最优的超参数组合,比如:神经网络的层数,学习率等
⚫每轮搜索,使用训练前期的信息,区分超参组合的优劣,并为下一轮搜索的配置超参组合,以缩短搜索过程的时间,如图1所示
工作1:训练进度感知的流调度机制⚫调度策略
⚫Maximum-Accuracy-Improvement-First (MAIF): 最大精度提升量最先
⚫调度系统架构
⚫Coordinator:根据每个任务的精度提升量安排优先级
⚫Agent:位于每台主机,负责执行Coordinator下发的
优先级调度策略
⚫初步结果
相对于不加任务调度,
我们的方案能缩短
38%的时间到达收敛
精度的90%、95%。
工作2:以精度为中心的近似流控
算法特点迭代性
容错性
过时梯度
低精度、部分
丢弃
容忍
容忍
增加通信间隔[1]
改进的通信优化算法
改进的通信优化算法梯度量化或压缩
[2][3]
缺点:网络无感
•僵化的梯度抑制带来过时梯度,使得收敛速度降低、影响训练精度
•僵化、过度的梯度丢弃或低精度传输,使得收敛速度降低、精度受损•网络利用效率低
[1] Sun, Shizhao, et al. "Ensemble-compression: A new method for parallel training of deep neural networks.“
[2] Strom, Nikko. "Scalable distributed DNN training using commodity GPU cloud computing."
[3] Lin, Yujun, et al. "Deep gradient compression: Reducing the communication bandwidth for distributed training."