一、万卡集群的网络挑战
随着AI大模型参数规模从千亿向万亿发展,单独的计算芯片和存储芯片已无法满足AI大模型对参数量和计算量的需求,成为了制约 AI 技术发展的“算力墙”和“存储墙”两大瓶颈,那么如何构建适配大模型算力的高性能网络,突破现有Scale-Out架构的瓶颈,已成为智算时代亟待解决的关键技术难题。
二、AI infra基础设施核心组件
为应对上述挑战,某主流互联网大厂提出的多轨道和端网协同优化方案。
2.1 多轨道(Multi-Rail)网络架构
训练网络架构的两大核心亮点——高带宽、多轨道:
图1:多轨道集群设计
① 服务器接入层面:每个服务器均配有 8 个端口速率为 400 Gbit/s 且支持基于融合以太网远端内存直接访问技术 (RoCE) 的网卡 (NIC)。每个双端口网卡通过同轨道的Leaf层交换机与其他服务器的同序号网卡实现互联。如图1所示,第一台服务器的NIC1到第二台服务器的NIC1的流量通过Rail 1交换机传输。
② 经典的Clos架构:通过二层 (Spine) 交换机实现一层(Leaf) 交换机的全互联,最终形成一个两层的多轨道网络拓扑。
③ 无损网络机制:网卡支持 RoCEv2 协议,网卡支持RoCEv2 协议,并且使能优先级流量控制 (PFC)和动态水线的数据中心拥塞控制机制(DCQCN)实现无损网络。
2.2 TCCL和GOR端网协同
端网协同两大核心组件:运行在 GPU 服务器上的拓扑感知集合通信库 (TCCL)和管理 RoCE 网络中流量路由的全局优化路由器 (GOR)。
图2:TCCL和GOR的端网协同
TCCL:部署于GPU服务器端,实时感知LLM训练的并行策略与网络的物理拓扑,在通信发生前,进行精细化的静态路径规划即路径预规划。
GOR :作为全局网络拓扑的集中式控制器,实时监控全网状态,负责动态调整流量路径,主动规避拥塞和处理故障。
2.2.1 TCCL:端侧的静态优化与智能执行
当前主流集合通信库(如NCCL)依赖默认的输入服务器顺序决定集合通信路径规划的局限性,TCCL做了三大核心优化:
1. 基于拓扑的路径规划:TCCL从GOR获取全局网络拓扑信息,在规划AllReduce等集合通信操作时,严格遵循以下原则:
① 轨道亲和性(Rail Affinity)与Block亲和性原则;
② 在同一轨道和同一Block内通信优先;
③ 最大化本地流量,最小化跨Spine核心层的流量。
2. 异构网络并行通信:鉴于NVLink和RoCE网络的传输延迟分别为200 ns和4μs,整个集合通信网络的通信受限于RoCE网络。因此,TCCL专门设计了动态滑动窗口机制TCCL,实时识别服务器内部的NVLink通道和外部的RoCE网络通道的带宽和延迟,在在集合通信粒度上动态切片TP AllReduce,将每个GPU上要传输的消息分为两个部分,分别用于NVLink通道和RoCE网络通道,实现两个通道之间的动态协同,从而最大化的释放和压榨可用带宽资源。
3. 哈希正交与冲突避免:为了从源头彻底消除ECMP哈希冲突,在建立RoCE QP(Queue Pair)连接前,TCCL利用从GOR上获取交换机的精确哈希算法模型,TCCL会主动为并行的多个大象流计算并分配一组能实现哈希正交(Hash Orthogonal)的源端口号,从而确保经过ECMP哈希计算后的流量,能被均匀地映射到不同的物理链路上。
2.2.2 GOR:全局的动态感知与智能调度
GOR是如何将一次完整的“感知-决策-执行”调度周期压缩到一个LLM训练迭代(约10-30秒)内:
1. 实时监控与毫秒级告警:依赖ECN(显式拥塞通知)进行拥塞检测,通过三级告警阈值实现毫秒级识别。
2. 拥塞流识别与定位:一旦触发告警,GOR联动sFlow等工具,对拥塞端口的流量进行采样,通过分析数据包的五元组信息,快速、精准地识别Top-N大象流。
3. 智能重路由决策:
○路径探测:查询全局有效可达网络拓扑图,结合Telemetry实时采集的链路负载,挑选所有备选ECMP路径。
○沙盘推演:利用内置的ECMP哈希算法模拟器进行仿真叠加流量后的效果。
○递归验证:确保新路径上所有链路叠加新增流量后链路负载控制在安全阈值(如75%)以下,避免人为产生二次拥塞。
4. 路径更新无感知:GOR通过控制通道向源服务器的TCCL下达指令更新特定流的源端口,确保TCCL在下一次传输时使用新端口,流量被无感知地切换至新路径上,整个过程在一次训练迭代内闭环。
2.2.3 GOR与TCCL协同工作机制推演
1. 拥塞感知与告警:GOR控制器基于ECN标记数实时监控,触发毫秒级告警。
2. 拥塞识别与定位:联动 sFlow 采样协同机制,基于五元组精准定位识别大象流
3. 最优路径计算与沙盘推演:探测备选路径,模拟器仿真,递归验证。
4. 路径更新与流量调度:GOR通过控制通道向源端服务器的TCCL下发指令,TCCL 修改源端口引导流量至新路径上。
三、架构横向对比与行业实践
2.1 业界主流互联网大厂大模型训练网络架构对比
方案 |
核心思路 |
阿里 HPN |
“非堆叠双TOR”和“双平面”+“单层千卡&两层万卡”+ μFab 智能网卡限速 + HPCC 端侧拥塞控制 |
百度百舸 |
多轨道 CLOS + 自适应路由(AR) + DDC 分布式控制器 |
腾讯星脉 |
多轨道 + TCCL/GOR 端网协同 + 哈希正交 |
Meta |
AI模型(推荐模型DLRM)+自研AI芯片(MTIA)+ 网络协同设计 + 自动化调优框架 + 高精度通信调度 |
2.2 面向未来的挑战
随着AI集群规模向十万卡乃至百万卡级别演进,以及以MoE(Mixture of Experts)和DeepSeek为代表的新型模型架构的出现,引入了密集All-to-All通信范式,极大地增加了网络流量的复杂性和不可预测性。在此背景下,传统基于静态拓扑与事后拥塞控制的网络架构已难以为继。未来的超大规模 AI 基础设施亟需构建一种实时感知、全局协同、闭环自适应的新一代通信体系,这一趋势也正推动 RDMA、RoCE 与可编程数据平面(如 P4 交换芯片、DPU/IPU)的深度协同,为构建弹性、智能、高效的 AI 网络底座提供可能。