|
西安电子科技大学
西安电子科技大学 教育部
  • 16 高校采购信息
  • 176 科技成果项目
  • 1 创新创业项目
  • 0 高校项目需求

面向异构数据中心的分布式机器学习高效运行方法研究

2025-04-27 17:04:53
云上高博会 https://heec.cahe.edu.cn
所属领域:
人工智能
项目成果/简介:

机器学习在人工智能的各个领域都取得了长足的进步和成功的应用,如图像识别、语音处理、机器翻译、云游戏、智慧医疗等。训练数据和模型规模的增加,显著提高了学习精度,同时也给单节点的存储和计算带来了挑战,因而不得不借助集群进行分布式机器学习训练。大多数领先的 IT 公司都在运营分布式机器学习集群,他们使用成百上千的 GPU 服务器,在大数据集上训练各种机器学习模型,驱动其人工智能服务。

即使有并行训练,机器学习训练仍然是耗时的,主要是因为并行方案的复杂性导致计算和通信的成本高,使得模型训练效率低、收敛效果差。在分布式机器学习中,通常对模型或者数据进行划分,每个节点计算一部分模型或者利用一部分数据训练模型,彼此之间互相通信,对模型参数不断的进行聚合和广播,协作完成训练任务,分布式机器学习训练是资源密集型和通信密集型任务。由于机器学习训练任务普遍使用随机梯度下降算法,每处理一个批量数据就需要更新模型参数,计算粒度很细,对网络传输的延迟容忍度非常低。研究分布式机器学习的高效通信方案和异构集群上的任务管理对于提高模型训练效率、提升收敛精度非常重要,同时也是助力各种人工智能技术落地的技术支撑。

本项目围绕分布式机器学习的通信效率和任务调度开展研究,旨在提供高效率、高精度、低成本的分布式训练解决方案。具体研究内容包括:1)针对分布式机器学习训练中参数通信频繁、带宽竞争大的问题,研究分层通信拓扑架构和基于阈值的参数同步算法,缓解参数汇聚节点的通信瓶颈,减少通信频率,从整体上提升训练效率。2)针对异构数据中心并行节点计算不同步的问题,研究异构资源可感知的分布式任务调度策略,弥补异构节点的差异,均衡计算,提高收敛精度。本项目有效解决分布式机器学习中通信瓶颈和资源浪费等问题,致力于推动人工智能应用更广泛的落地,降低数据中心成本投入。

图4  分布式机器学习系统框架

1. 基于二维分层环形结构的并行通信算法

由于分布式集群的规模不断扩大,基于传统环形通信拓扑架构的方法面临数千个 GPU 节点的延迟。解决此问题,本项目提出基于二维分层环形结构的大规模分布式机器并行通信算法,充分利用组内高带宽、组间低带宽的通信特点,结合环形和分层通信算法的优势,减少并行通信的步数,从而降低通信开销。

2. 异构资源可感知的任务调度方案

由于异构数据中心节点资源的差异性,在中心化以及去中心化的并行通信架构中均存在部分慢速节点影响整体训练效率的情况。解决此问题,本项目提出基于异构资源可感知的任务调度策略,利用轻量级的机器学习技术预测节点间的资源变化,根据资源分配适配任务,从而达到节点间并行训练步调一致,避免迭代倾斜,提高训练精度。

项目阶段:

原理样机

会员登录可查看 合作方式、专利情况及联系方式

扫码关注,查看更多科技成果

取消