哈希极化、拓扑盲点与拥塞抖动:主流端网协同方案如何缓解万卡集群通信瓶颈?

本文涉及的产品
传统型负载均衡 CLB,每月750个小时 15LCU
应用型负载均衡 ALB,每月750个小时 15LCU
公网NAT网关,每月750个小时 15CU
简介: 随着大模型参数规模迈向万亿级,万卡乃至十万卡 GPU 集群正成为 AI 训练基础设施的标配,而万卡集群三大通信瓶颈——哈希极化、拓扑盲点与拥塞抖动,对网络架构提出了前所未有的挑战。本文基于主流互联网大厂的公开实践,深入剖析超大规模集群中端网协同架构的设计思路,并探讨面向 MoE 与 DeepSeek 等新型模型的下一代 AI 网络演进方向。

一、万卡集群的网络挑战

随着AI大模型参数规模从千亿向万亿发展,单独的计算芯片和存储芯片已无法满足AI大模型对参数量和计算量的需求,成为了制约 AI 技术发展的“算力墙”和“存储墙”两大瓶颈,那么如何构建适配大模型算力的高性能网络,突破现有Scale-Out架构的瓶颈,已成为智算时代亟待解决的关键技术难题。

二、AI infra基础设施核心组件

为应对上述挑战,某主流互联网大厂提出的多轨道和端网协同优化方案

2.1 多轨道(Multi-Rail)网络架构

训练网络架构的两大核心亮点——高带宽、多轨道

image.png

图1:多轨道集群设计

① 服务器接入层面:每个服务器均配有 8 个端口速率为 400 Gbit/s 且支持基于融合以太网远端内存直接访问技术 (RoCE) 的网卡 (NIC)。每个双端口网卡通过同轨道的Leaf层交换机与其他服务器的同序号网卡实现互联。如图1所示,第一台服务器的NIC1到第二台服务器的NIC1的流量通过Rail 1交换机传输。

② 经典的Clos架构:通过二层 (Spine) 交换机实现一层(Leaf) 交换机的全互联,最终形成一个两层的多轨道网络拓扑。

③ 无损网络机制网卡支持 RoCEv2 协议,网卡支持RoCEv2 协议,并且使能优先级流量控制 (PFC)和动态水线的数据中心拥塞控制机制(DCQCN)实现无损网络。

2.2 TCCL和GOR端网协同

端网协同两大核心组件:运行在 GPU 服务器上的拓扑感知集合通信库 (TCCL)和管理 RoCE 网络中流量路由的全局优化路由器 (GOR)。

image.png

图2:TCCL和GOR的端网协同

 TCCL:部署于GPU服务器端,实时感知LLM训练的并行策略与网络的物理拓扑,在通信发生前,进行精细化的静态路径规划即路径预规划。

 GOR :作为全局网络拓扑的集中式控制器,实时监控全网状态,负责动态调整流量路径,主动规避拥塞和处理故障。

2.2.1 TCCL:端侧的静态优化与智能执行

当前主流集合通信库(如NCCL)依赖默认的输入服务器顺序决定集合通信路径规划的局限性,TCCL做了三大核心优化:

1. 基于拓扑的路径规划:TCCL从GOR获取全局网络拓扑信息,在规划AllReduce等集合通信操作时,严格遵循以下原则:

轨道亲和性(Rail Affinity)与Block亲和性原则;

在同一轨道和同一Block内通信优先;

最大化本地流量,最小化跨Spine核心层的流量。

2. 异构网络并行通信鉴于NVLink和RoCE网络的传输延迟分别为200 ns和4μs,整个集合通信网络的通信受限于RoCE网络。因此,TCCL专门设计了动态滑动窗口机制TCCL实时识别服务器内部的NVLink通道和外部的RoCE网络通道的带宽和延迟,在在集合通信粒度上动态切片TP  AllReduce,将每个GPU上要传输的消息分为两个部分,分别用于NVLink通道和RoCE网络通道,实现两个通道之间的动态协同,从而最大化的释放和压榨可用带宽资源。

3. 哈希正交与冲突避免:为了从源头彻底消除ECMP哈希冲突,在建立RoCE QP(Queue Pair)连接前TCCL利用从GOR上获取交换机的精确哈希算法模型,TCCL会主动为并行的多个大象流计算并分配一组能实现哈希正交(Hash Orthogonal)的源端口号从而确保经过ECMP哈希计算后的流量,能被均匀地映射到不同的物理链路上

2.2.2 GOR:全局的动态感知与智能调度

GOR是如何将一次完整的“感知-决策-执行”调度周期压缩到一个LLM训练迭代(约10-30秒)内:

1. 实时监控与毫秒级告警:依赖ECN(显式拥塞通知)进行拥塞检测,通过三级告警阈值实现毫秒级识别。

2. 拥塞流识别与定位:一旦触发告警,GOR联动sFlow等工具,对拥塞端口的流量进行采样,通过分析数据包的五元组信息,快速、精准地识别Top-N大象流。

3. 智能重路由决策

路径探测:查询全局有效可达网络拓扑图,结合Telemetry实时采集的链路负载,挑选所有备选ECMP路径

沙盘推演:利用内置的ECMP哈希算法模拟器进行仿真叠加流量后的效果

递归验证:确保新路径上所有链路叠加新增流量后链路负载控制在安全阈值(如75%)以下,避免人为产生二次拥塞。

4. 路径更新无感知:GOR通过控制通道向源服务器的TCCL下达指令更新特定流的源端口确保TCCL在下一次传输时使用新端口,流量被无感知地切换至新路径上,整个过程在一次训练迭代内闭环。

2.2.3 GOR与TCCL协同工作机制推演

1. 拥塞感知与告警:GOR控制器基于ECN标记数实时监控,触发毫秒级告警

2. 拥塞识别与定位联动 sFlow 采样协同机制,基于五元组精准定位识别大象流

3. 最优路径计算与沙盘推演探测备选路径,模拟器仿真,递归验证

4. 路径更新与流量调度:GOR通过控制通道向源端服务器的TCCL下发指令TCCL 修改源端口引导流量至新路径上。

三、架构横向对比与行业实践

2.1 业界主流互联网大厂大模型训练网络架构对比

方案

核心思路

阿里 HPN

“非堆叠双TOR”和“双平面”+“单层千卡&两层万卡”+ μFab 智能网卡限速 + HPCC 端侧拥塞控制

百度百舸

多轨道 CLOS + 自适应路由(AR) + DDC 分布式控制器

腾讯星脉

多轨道 + TCCL/GOR 端网协同 + 哈希正交

Meta

AI模型(推荐模型DLRM)+自研AI芯片(MTIA)+ 网络协同设计 + 自动化调优框架 + 高精度通信调度

 

2.2 面向未来的挑战

随着AI集群规模向十万卡乃至百万卡级别演进,以及以MoE(Mixture of Experts)和DeepSeek为代表的新型模型架构的出现引入密集All-to-All通信范式,极大地增加了网络流量的复杂性和不可预测性。在此背景下,传统基于静态拓扑与事后拥塞控制的网络架构已难以为继。未来的超大规模 AI 基础设施亟需构建一种实时感知、全局协同、闭环自适应的新一代通信体系,这一趋势也正推动 RDMA、RoCE 与可编程数据平面(如 P4 交换芯片、DPU/IPU)的深度协同,为构建弹性、智能、高效的 AI 网络底座提供可能。

相关文章
|
9天前
|
人工智能 数据可视化 Java
Spring AI Alibaba、Dify、LangGraph 与 LangChain 综合对比分析报告
本报告对比Spring AI Alibaba、Dify、LangGraph与LangChain四大AI开发框架,涵盖架构、性能、生态及适用场景。数据截至2025年10月,基于公开资料分析,实际发展可能随技术演进调整。
761 150
|
2天前
|
数据可视化 Java Nacos
OpenFeign + Sentinel 实现微服务熔断限流实战
本文介绍如何在Spring Cloud微服务架构中,结合OpenFeign与阿里巴巴开源组件Sentinel,实现服务调用的熔断、降级与限流。通过实战步骤搭建user-service与order-service,集成Nacos注册中心与Sentinel Dashboard,演示服务异常熔断、QPS限流控制,并支持自定义限流响应。借助Fallback降级机制与可视化规则配置,提升系统稳定性与高可用性,助力构建健壮的分布式应用。
213 155
|
2天前
|
负载均衡 Java Maven
OpenFeign:让微服务调用像本地方法一样简单
OpenFeign是Spring Cloud的声明式HTTP客户端,通过接口+注解方式简化微服务间调用。无需手动编写请求代码,像调用本地方法一样发起远程调用,支持负载均衡、熔断降级、请求拦截等特性,极大提升开发效率与系统可靠性。
246 156
|
18天前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
1603 40
|
15天前
|
文字识别 测试技术 开发者
Qwen3-VL新成员 2B、32B来啦!更适合开发者体质
Qwen3-VL家族重磅推出2B与32B双版本,轻量高效与超强推理兼备,一模型通吃多模态与纯文本任务!
1028 11