阿里云引领智算集群网络架构的新一轮变革

简介: 11月8日~10日在江苏张家港召开的CCF ChinaNet(即中国网络大会)上,众多院士、教授和业界技术领袖齐聚一堂,畅谈网络未来的发展方向,聚焦智算集群网络的创新变革。

【阅读原文】戳:阿里云引领智算集群网络架构的新一轮变革


11月8日~10日在江苏张家港召开的CCF ChinaNet(即中国网络大会)上,众多院士、教授和业界技术领袖齐聚一堂,畅谈网络未来的发展方向,聚焦智算集群网络的创新变革。其中,阿里云研发副总裁,基础设施网络负责人蔡德忠生发表题为《规模x10驱动AI智算集群网络架构新一轮变革》的主题演讲,展望智算技术发展趋势,尤其是Scale up网络的发展方向,提出智算网络未来的技术架构变革的新思路,发布了高通量以太网协议和智算超节点系统ENode+的路标规划,引起广泛关注。

 

 

 

 

过去一年,阿里云HPN7.0引领智算以太网生态蓬勃发展

 

 

 

模型的持续scaling,以及数据集的扩充,对于模型训练的总计算量要求一直在增长,业界总结发现,算力需求量每年增长4-6倍,而单颗芯片的算力增长、显存增长、网络带宽增长仍然遵循摩尔定律,每2年才一倍,无法满足算力增长的需求,所以算力来自于将更多的GPU进行集群化互联,网络在算力scaling中扮演关键的角色。

 

在2023年初的时候,智算集群的网络方案选择还是百花齐放的状态,Google有基于私有协议的TPU集群,微软使用了NV提供的一整套IB方案,而阿里云、AWS等公司坚持使用开放的以太网来构建集群。一时间,以太网还是IB,成为智算集群架构选择的关键话题。阿里云坚定以太网的路线,并且针对智算集群的特点创新设计了HPN7.0架构,采用业界首发的全自研51.2T交换机,利用多轨、双上联、双平面,结合自研通信库、协议、流控组成高性能系统。阿里云在大规模部署HPN7.0智算集群的同时,其论文被顶会SIGCOMM录取,成为网络顶会历史上首篇AI智算网络架构论文。

 

一年多时间过去了,阿里云HPN7.0已经成为业界标杆,引领了以太网智算集群的技术方向,目前国内外各大公司都在朝着这个方向演进,北美几大公司都已经或者即将基于以太网来部署十万卡级别的算力集群,关于智算集群以太网和IB的争议已经落幕,以太网正在成为超大规模智算集群的行业主流

 

 

 

 

未来几年,X10规模将给网络带来新的重要问题

 

 

 

虽然以太网和IB的选择已经画上句号,但是新的挑战还在继续。在智算集群的规模化方向上,各大公司你追我赶,国内公司的智算集群也将很快向X10规模迈进,尤其是在算力受到限制的情况下,通过网络互联扩展规模更有必要。GPU规模的扩展并不是想象中这么简单:不可避免的硬件故障将导致任务中断会更加频繁;受限于电力、空间,GPU资源可能会分布在不同园区,距离带来的时延和带宽限制会对整个训练集群的性能产生影响;尤其是GPU Scale up范围也将更大,智算集群的网络架构也会因此产生深远的变革。

 

通过更大带宽的网络互联是算力扩展的必经之路,这是从整体系统架构层面突破摩尔定律限制的主要路径。在这个方向上,无论Scale up、Scale out都需要更加激进的规划。

 

 

 

 

GPU Scale up协议路线之争,Ethernet优势明显

 

 

 

到底什么是Scale up?简单来讲,Scale up就是在一定范围内、在成本和互联技术约束下实现的超高带宽互联。这个超高带宽互联的范围固定并且带宽是Scale out的数倍以上,可以在协议层面优化来支持内存语义。

 

不少人以为Scale up是机内互联,这是一种误解。在8卡系统的时代,因为8卡在一个OS内部所以确实是机内互联,然而,当NVL36、72这种AI rack的形态出现后,GPU Scale up就不是“机内互联”,而是一种新型的节点间网络互联。以NVL72为例,实际上是18台服务器通过9台Scale up交换机连在一起的网络域,只不过是在这个域内的带宽10倍于Scale out的大的带宽(7.2Tbps vs 800Gbps),此外还支持了内存操作语义,为了区分,我们继续称其为GPU Scale up。

 

 

GPU Scale up是AI系统发展的一个热门话题,备受关注。Scale up网络大体上可以分成2个技术方向。

 

1.以NV、Google为代表的私有协议、封闭系统方案(NVLink和TPU互联)。

 

2.以各大互联网和云计算公司自研GPU(微软、Meta、Tesla等),以及AMD、Intel为代表的基于Ethernet的网络传输方案。

 

Ethernet有超大带宽技术和强大的生态支撑,尤其是UEC、高通量以太网等开放组织针对Scale up进行协议的升级后,Ethernet支持超大带宽的同时实现了超低时延、在网计算等核心功能,所以我们可以看到新晋Scale up系统都选择了Ethernet,可以说Ethernet这些特质已经成为GPU Scale up网络快速落地的首选技术方案

 

 

 

 

计算和网络的新变革,Scale up融合架构优势明显

 

 

 

Scale up与Scale out如何协同工作是决定集群网络性能的关键。在今天的单机8卡系统中,通过多轨互联、并行排布、通信库协同,阿里云的HPN7.0架构已经将万卡级别的通信性能发挥到极致。那将来Scale up扩展到多机系统,尤其是成百上千卡之后,Scale up与Scale out应该如何协同做到全局效率最高呢?机尾backend会继续沿着Scale up+Scale out两张网络各自发展,还是会融合兼顾?

 

当Ethernet成为Scale up的主流方案之后,这个选择方向呼之欲出,融合架构将是效率更高、成本更低的架构。融合架构将使带宽得到充分共享,Scale up范围内进行大带宽的TP、EP、CP等通信,多个Scale up域通过Scale out互联,进行DP、PP等通信,跨Scale up实现合理的带宽收敛即可。同时,独立Scale out网卡+网络的成本也不容小觑,如果将 Scale up和Scale out的以太网融合为一张网,通过将不同的Scale up域进行Scale out互联组网,不但少了一张网络和网卡的投入,在运维、扩展上也将更加统一高效。

 

11.12-02-修改.png

 

 

 

 

未来可期,高通量以太网发布关键路标和超节点ENode+计划

 

 

 

在大会上,阿里云代表联盟发布了高通量以太网的协议路线图,规划了年度大版本,半年小版本的演进方式,为国内智算生态的快速发展迭代打好网络基础。同时发布了基于高通量以太网的ENode+超节点路线,为高通量以太网的系统化落地构筑蓝图


 





我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
25天前
|
弹性计算 前端开发 应用服务中间件
解决方案体验 | 基于阿里云高效实现前后端分离架构升级
阿里云ECS助力企业快速实现前后端分离架构升级,通过Nginx+ALB实现高效请求分发与负载均衡,支持前后端独立部署、弹性扩展。结合ROS一键部署、多可用区高可用设计,显著降低改造门槛,提升系统稳定性与开发效率,助力数字化转型。
|
2月前
|
人工智能 Cloud Native 安全
解读阿里云刚发布的《AI 原生应用架构白皮书》
阿里云在云栖大会重磅发布了《AI 原生应用架构白皮书》,该白皮书覆盖 AI 原生应用的 11 大关键要素,获得业界 15 位专家联名推荐,来自 40 多位一线工程师实践心得,全书合计超 20w 字,分为 11 章,全面、系统地解构 AI 原生应用架构,包含了 AI 原生应用的 11 大关键要素,模型、框架、提示词、RAG、记忆、工具、网关、运行时、可观测、评估和安全。本文整理自阿里云智能技术专家李艳林在云栖大会现场的解读。
1203 38
|
18天前
|
弹性计算 安全 应用服务中间件
阿里云渠道商:怎么配置阿里云网络ACL?
阿里云网络ACL是子网级无状态防火墙,支持精准流量控制、规则热生效且免费使用。本文详解5步配置流程,助您实现Web与数据库层的安全隔离,提升云上网络安全。
|
2月前
|
人工智能 缓存 安全
阿里云发布《AI 原生应用架构白皮书》
阿里云联合阿里巴巴爱橙科技,共同发布《AI 原生应用架构白皮书》,围绕 AI 原生应用的 DevOps 全生命周期,从架构设计、技术选型、工程实践到运维优化,对概念和重难点进行系统的拆解,并尝试提供一些解题思路。白皮书覆盖 AI 原生应用的 11 大关键要素,获得 15 位业界专家联名推荐,来自 40 多位一线工程师实践心的,全书合计超 20w 字,分为 11 章。
1695 17
|
24天前
|
人工智能 安全 架构师
2025云栖大会 | 阿里云网络技术Session主题资料和视频回放归档
2025年9月24日-26日,杭州,一年一度的云栖大会如期而至;阿里云飞天洛神云网络作为阿里云计算的连接底座,是飞天云操作系统的核心组件,致力于为上云企业提供高可靠、高性能、高弹性、智能的连接服务。本次云栖,云网络产品线也带来全系列产品升级,以及创新技术重磅解读,围绕增强确定性、提效自动化、深耕智能化和敏捷全球化带来技术、产品和服务升级,以及全新的云网络产品生态合作计划发布。
276 0
|
26天前
|
人工智能 缓存 安全
阿里云发布《AI 原生应用架构白皮书》!
阿里云联合爱橙科技发布《AI原生应用架构白皮书》,系统解析AI应用在架构设计、开发运维中的关键挑战与解决方案,涵盖大模型、Agent、RAG、安全等11大核心要素,助力企业构建稳定、高效、可控的AI应用体系。
阿里云发布《AI 原生应用架构白皮书》!
|
2月前
|
存储 监控 NoSQL
Redis高可用架构全解析:从主从复制到集群方案
Redis高可用确保服务持续稳定,避免单点故障导致数据丢失或业务中断。通过主从复制实现数据冗余,哨兵模式支持自动故障转移,Cluster集群则提供分布式数据分片与水平扩展,三者层层递进,保障读写分离、容灾切换与大规模数据存储,构建高性能、高可靠的Redis架构体系。
|
25天前
|
弹性计算 网络安全 数据中心
阿里云创建专有网络VPC的【IPv4网段】如何选择?有什么区别?
阿里云VPC创建时需选IPv4网段,默认提供10.0.0.0/16、172.16.0.0/16、192.168.0.0/16,三者无功能差异。若仅单VPC且不连本地数据中心,可任选其一,确保不冲突即可。多VPC或混合云场景需规划避免IP重叠。不支持100.64.0.0/10等特殊网段。建议结合IPAM进行地址管理。
|
2月前
|
存储 人工智能 关系型数据库
阿里云AnalyticDB for PostgreSQL 入选VLDB 2025:统一架构破局HTAP,Beam+Laser引擎赋能Data+AI融合新范式
在数据驱动与人工智能深度融合的时代,企业对数据仓库的需求早已超越“查得快”这一基础能力。面对传统数仓挑战,阿里云瑶池数据库AnalyticDB for PostgreSQL(简称ADB-PG)创新性地构建了统一架构下的Shared-Nothing与Shared-Storage双模融合体系,并自主研发Beam混合存储引擎与Laser向量化执行引擎,全面解决HTAP场景下性能、弹性、成本与实时性的矛盾。 近日,相关研究成果发表于在英国伦敦召开的数据库领域顶级会议 VLDB 2025,标志着中国自研云数仓技术再次登上国际舞台。
259 0