面向机器学习的网络流量控制解决方案

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

面向机器学习应用的网络流量控制解决方案

⚫研究背景：机器学习训练中的通信瓶颈⚫问题剖析：网络流量控制面临的新挑战⚫解法探索：新的网络流量控制理论和技术

机器学习和大数据

数据规模

TBs to PBs

图像分类

视频分析广告推荐

模型规模: 10^9 to 10^12

•AI 从数据中学习有用信息

分布式机器学习

大数据模型并行

数据并行

大模型

单机训练时间很长

分布式

并行训练加速

参数服务器

以PS 中的BSP 训练为例:

每轮参数更新量∝节点数x 模型规模

通信效率成为性能瓶颈

扩展性受限：增加节点无法线性提升训练速度

参数传输效率成为

性能瓶颈!!!

迭代式训练，上万轮通信

每轮通信数据量大，且正比于规模

硬件加速100倍提升训练计算

100200300400500600Single GPU

128GPU

256GPU

训练时间

47x 60x 图片源[1]

新场景下通信瓶颈更为凸现

⚫

机器学习应用扩展到跨数据中心、边缘计算、企业级等场景跨数据中心训练

图片来源[1]

边缘联合学习

图片来源[2]

企业级多租户集群

图片来源[3]

[1] Hsieh K, Harlap A, Vijaykumar N, et al. Gaia: Geo-Distributed Machine Learning Approaching {LAN} Speeds[C]

[2] https:///2017/04/federated-learning-collaborative.html

[3] https:///document/product/237/8712

⚫研究背景：机器学习训练中的通信瓶颈⚫问题剖析：网络流量控制面临的新挑战⚫解法探索：新的网络流量控制理论和技术

机器学习应用的特性◆多次迭代，周期性明显

◆丰富灵活的通信模式

◆较好的容错性

◆关注训练精度和能效的平衡

机器学习应用的特性

◆多次迭代，周期性明显

时间Update

Update

Pull

Push

Compute

Push

{woker 1

{

woker 2

Push

Compute

Pull

机器学习应用的特性

◆丰富灵活的通信模式

多种通信步调[1]多种通信逻辑拓扑

同步

异步

近似同步

Ring

PS/Star

Tree

多样的传输模式

多对一

一对多

多对多

流之间的关系更为复杂：时间相关性、空间相关性、迭代轮数相关性

参数服务器

机器学习应用的特性

◆

较好的容错性

机器学习应用的特性◆关注训练精度和能效的平衡

不同通信策略下，精度随迭代次数而变化的情况

网络流量控制面临的新挑战◆传输开销过大，不适合多批次的快速传输

◆流之间的关系更为复杂: 时间相关、空间相关、迭代轮数相关

◆确定性数据传输与近似计算的不匹配

◆网络优化目标与AI应用目标不一致

重新审视网络流量控制技术，更好支持机器学习应用

⚫研究背景：机器学习训练中的通信瓶颈⚫问题剖析：网络流量控制面临的新挑战⚫解法探索：新的网络流量控制理论和技术

新的网络流量控制理论和技术

工作1：训练进度感知的流调度机制工作2：以精度为中心的近似流控

工作1：训练进度感知的流调度机制⚫分布式训练过程的特点：试错的探索过程

迭代次数

精

度

图1 单轮超参搜索过程示意图⚫机器学习集群流调度目标：最小化训练前期的完成时间

图2 流调度的预期目标示意图

⚫训练多次，同时运行多个模型，搜索最优的超参数组合，比如：神经网络的层数，学习率等

⚫每轮搜索，使用训练前期的信息，区分超参组合的优劣，并为下一轮搜索的配置超参组合，以缩短搜索过程的时间，如图1所示

工作1：训练进度感知的流调度机制⚫调度策略

⚫Maximum-Accuracy-Improvement-First (MAIF): 最大精度提升量最先

⚫调度系统架构

⚫Coordinator：根据每个任务的精度提升量安排优先级

⚫Agent：位于每台主机，负责执行Coordinator下发的

优先级调度策略

⚫初步结果

相对于不加任务调度，

我们的方案能缩短

38%的时间到达收敛

精度的90%、95%。

工作2：以精度为中心的近似流控

算法特点迭代性

容错性

过时梯度

低精度、部分

丢弃

容忍

增加通信间隔[1]

改进的通信优化算法

改进的通信优化算法梯度量化或压缩

[2][3]

缺点：网络无感

•僵化的梯度抑制带来过时梯度，使得收敛速度降低、影响训练精度

•僵化、过度的梯度丢弃或低精度传输，使得收敛速度降低、精度受损•网络利用效率低

[1] Sun, Shizhao, et al. "Ensemble-compression: A new method for parallel training of deep neural networks.“

[2] Strom, Nikko. "Scalable distributed DNN training using commodity GPU cloud computing."

[3] Lin, Yujun, et al. "Deep gradient compression: Reducing the communication bandwidth for distributed training."