对话阿里云吴结生:AI时代,云上高性能计算的创新发展

本文涉及的产品
轻量应用服务器 2vCPU 4GiB,适用于搭建Web应用/小程序
轻量应用服务器 2vCPU 4GiB,适用于网站搭建
轻量应用服务器 2vCPU 4GiB,适用于搭建容器环境
简介: 在阿里云智能集团副总裁,弹性计算产品线负责人、存储产品线负责人 吴结生看来,如今已经有很多行业应用了高性能计算,且高性能计算的负载正呈现出多样化发展的趋势,“当下,很多基础模型的预训练、自动驾驶、生命科学,以及工业制造、半导体芯片等行业和领域都应用了高性能计算。”吴结生指出。

Hyperion Research预计,云端HPC市场的增长速度将是本地服务器市场的两倍多,到2027年,云端HPC市场规模预计将超过140亿美元。


原先HPC(High performance computing,高性能计算)“高高在上”,几乎只应用在高精尖科研领域,但随着以AI代表的新一代数字技术的应用,HPC也在更多行业有了“大展拳脚”的机会,在企业侧的应用场景也越来越多。


从HPC到Cloud HPC


在阿里云智能集团副总裁,弹性计算产品线负责人、存储产品线负责人 吴结生看来,如今已经有很多行业应用了高性能计算,且高性能计算的负载正呈现出多样化发展的趋势,“当下,很多基础模型的预训练、自动驾驶、生命科学,以及工业制造、半导体芯片等行业和领域都应用了高性能计算。”吴结生指出。


阿里云智能集团副总裁,弹性计算产品线负责人、存储产品线负责人 吴结生


传统模式下,HPC因其独有的定位、复杂的架构,以及极高的运维难度,造成了成本高昂,且适配业务发展特性较差,这也让很多企业“望而却步”。


而当企业对于高性能计算的需求不断增加时,如何让更多企业“用得起”和“用得好”高性能计算成为行业面临的难题。


这时候,云计算就承担起了让HPC被更多企业,更便捷应用的重任。谈及Cloud HPC的优势时,吴结生告诉钛媒体APP,以云计算的模式应用高性能计算,具备了四个显著的优势:首先,是弹性的能力,通过云的方式,具有高度的弹性,可以弹性地分配、调用大规模资源,让企业获得的算力更高;其次,Cloud HPC具备异构计算的兼容性能力,以云的方式,可以对异构芯片之间的算力进行整合,兼容性更强;第三,Cloud HPC让用户具备了快速部署的能力;第四,与本地化的HPC相比,Cloud HPC具备了平台化的数据处理生态。


就数据处理能力,吴结生向钛媒体APP举例详细介绍到,以汽车研发为例,汽车研发的过程中需要用到仿真计算,仿真计算在预处理的过程中会产生数据,计算的过程中也会产生大量数据,如何将处于不同位置的数据“挪动”,整合到一起,就成为了传统HPC时代的难题。

Cloud HPC的出现很好的解决了这个问题,吴结生告诉钛媒体APP,通过弹性高性能计算集群,加上并行文件存储系统,可以免除数据的挪动,提升整个系统的能力,从而提升效率,缩短产品研发进程。因此可以看出,云上的高性能计算,具备借助整个云平台,将包括计算、存储、网络和一些安全方面的能力叠加起来的优势。


“按需制宜”


从目前应用趋势上来看,用户对于算力的需求的多样化的。这种情况下,显然单一的计算架构已经不能满足所有用户的需求。


“算力目前遇见的核心问题就是:计算架构的单一性与算力需求多样性之间的矛盾。”中国工程院院士邬江兴曾在2024年全国高性能计算学术年会上公开表示,“算力需求是多样性的,面对不同的场景、不同的计算环境、不同的任务类型、不同的性能需求,需要不同的算力架构。可是计算架构是单一的,目前的情况走下去,会有两种发展结果:一个是‘削足适履’,一个是各自为政,都不是好的发展结果。”


这样的算力困境同样发生在高性能计算领域,吴结生告诉钛媒体APP,多元化的负载需求,也对高性能计算提出了新的挑战。面对这些挑战,吴结生认为,企业需要通过多样化的产品、系统架构和技术方案,来满足不同负载对计算能力、存储性能、网络带宽等方面的差异化需求。


从需求侧出发,根据不同的业务场景,以及场景下算力的耦合度和数据的密集度可以大致划分为松耦合、紧耦合,吴结生告诉钛媒体APP,算力越耦合,就越需要高性能的网络连接能力,针对不同的业务场景,用户应该选择相对应的产品架构,这样才能在确保计算效率的同时,降低使用算力的成本。



在松耦合场景下,用户对于延迟的要求不是很高,对算力的类型也没有要求(比如对CPU代系没有强要求)。但是,该场景下,用户对性价比的要求更高,他们需要以更低的成本,更高的弹性,实现算力的全局调度,“阿里云借助自身积累的云资源规模,加之创新性的CIPU(云基础设施处理器)架构,提供E-HPC Instant来服务‘松耦合’的高性能计算负载,”吴结生指出,“通过E-HPC Instant对云上所有可用区的资源进行不同代系的算力抽象,并实现全局的资源分配和任务调度,满足用户对于弹性的需求。”


吴结生以制药行业为例分享了具体松耦合场景中的架构经验,他表示,在该场景下,客户有高吞吐量的弹性计算需求—随时需要大规模的CPU、GPU计算资源,计算峰值大、任务并发度高。阿里云的产品为客户提供了弹性按需的海量资源:智能调度底层大规模基础设施,任意时刻提供10万核以上的资源保障,优化大并发下计算和存储性能,显著提高药物研发效率,只需原来1/3的成本。


在紧耦合场景下,大多业务场景都存在计算任务多、规模大、计算时间紧张等特点,这种场景更为适合Cloud HPC,利用云资源的规模大、并行计算能力强等特点,满足企业对于高性能计算的需求。


针对此,阿里云推出了高性能计算平台—E-HPC平台,可以同时提交AI作业和传统HPC的作业,在资源管理层,同时管理了HPC的Slurm集群和AI的ACK(K8s)集群,作业管理层根据作业类型将AI作业和HPC作业分别投递到相应的集群上运行。


以汽车行业为例,目前的研发周期需要效率非常高,本地 HPC 集群硬件资源老化,严重影响业务进度,并且业务流程割裂:线下前后处理与线上求解计算的流程割裂,数据挪动频繁。“如果建一个1000 台机器这样的一个超算集群,传统方式肯定是几个月。那么今天在云上10 万核的需求我们可以在不超过一天之内建好。并且客户可以利用云的资源规模去做弹性的资源分配。在云上可以获取丰富的以及最新代际的算力形态,满足各种不同工作任务的这种负载的需求。”


在吴结生看来,E-HPC高性能计算服务落地过程中最大的挑战是——任务的计算实例之间需要紧耦合的通信。面对这个痛点,阿里云首先以CIPU作为所有底层物理资源的连接器,将底层物理资源统一纳管,提高计算效率,进而加速IO效率,通过eRMDA网络大幅提升紧耦合的HPC工作负载性能,最终实现以更低成本,更快速度的交付能力。


除此之外,吴结生告诉钛媒体APP,E-HPC还通过多层次的网络拓补感知与弹性扩容的能力,快速弹出网络拓扑上靠近的ECS计算集群,适应紧耦合HPC作业极致性能要求。


AI时代,云上HPC如何更好用?


ChatGPT的横空出世让AI又一次成为了科技圈关注的焦点。这一轮的AI的火爆在吴结生看来,也将彻底改变所有行业,“当下几乎所有的行业龙头公司都已经是数据公司了,未来都将会是数据+AI的公司。”吴结生告诉钛媒体APP。


“大模型的训练场景是比较传统的高性能计算在云上的一种重新复兴,我们称之为极致紧耦合的场景。”吴结生将大模型厂商的算力需求总结为:这些企业需要稳定大规模高性能的训练算力,并需要弹性拓展的推理算力,还需要数据处理的速度和弹性能力,以提高资源利用率并降低成本。


当前大模型的预训练需要集群化,构建万卡甚至更大的集群,且整个集群需要是一个庞大的“整体”,若其中一台机器出问题,都会造成训练中断。“大模型的训练就像是一排人两个、两个的将腿绑在一起,共同前进,这种并行的方式,一旦有一个人反应慢了或者倒了以后,可能整个队伍的前进速度就被拖累了。”吴结生以一个生动的比喻比拟了大模型的训练过程。“让每张GPU卡,每台机器都以相同的‘步伐’前进,才能提升整体的模型训练效率。”吴结生如是说。


为了实现上述所描述的“相同步伐”,阿里云灵骏集群采用 HPN 7.0 的网络架构,通过一系列的创新来支持更大的规模、更优的效率和更高的稳定性:一方面,阿里云为每台机器 3.2T 的 RDMA 的计算连接,让每台服务器之间的通讯更顺畅;另一方面,后端 GPU 互联网络和前端网络分离,减少存储的访问对算力通信的干扰,进而提升了整体GPU集群的计算效率。


这样的“相同步伐”也对存储能力提出更高的要求。在大规模的模型训练过程中,经常会遇到各种原因而被迫中断。“我们的头部大模型客户提出了连续的、分钟级的Checkpoint的读写要求,这对存储的吞吐要求是非常高的,这是为什么在阿里云灵骏智算服务里面,提供了高性能的并行文件系统CPFS,满足训练和推理的超高性能和成本优化要求。通过CPFS,网络的双上联、系统监控、自定位和自愈等优化,降低中断次数和时间,使得我们训练时长的有效率高达99%,” 吴结生指出。


无论是松耦合、紧耦合,还是极致紧耦合,面对多元化算力需求,CIPU 是阿里云基础设施的基石,是差异化竞争力的主要来源之一。通过CIPU架构,可以实现0虚拟化开销,让企业能更充分的利用CPU、GPU资源,从而减少开销。除此之外,CIPU架构还通过硬件加速的方式,进一步提升IO和存储性能,“目前,阿里云已经推出了2.0版本的CIPU架构,整机稳定性提升20%,带宽性能可达400Gbps,VPC可达6000万pps,弹性RDMA可达5000万message/s,存储性能可达360万IOPS,50GB/s,这些性能都达到了业内领先水平。”吴结生指出。


当下,每一家公司都是一个数据公司,很快每一家公司都会是一家数据+AI的公司,云计算一直在践行 Scaling Law,高性能计算也将焕发新的动能,云计算提供的规模化、高性能、可扩展的算力与存力,会帮助企业在进行业务规模的扩展的同时,应对好数据规模的扩展,充分使用好AI模型以及基于模型的各类应用。我们也期待看到,云计算厂商可以不断创新,提供多元化的产品组合,帮助企业在不同负载场景中落地应用,实现智能化创新。


本文首发于钛媒体APP,作者|张申宇


相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
21天前
|
人工智能 文字识别 监控
|
18天前
|
云安全 人工智能 安全
Dify平台集成阿里云AI安全护栏,构建AI Runtime安全防线
阿里云 AI 安全护栏加入Dify平台,打造可信赖的 AI
|
20天前
|
人工智能 vr&ar UED
获奖公布|第十九届"挑战杯"竞赛2025年度中国青年科技创新"揭榜挂帅"擂台赛阿里云“AI技术助力乡村振兴”专题赛拟授奖名单公示
获奖公布|第十九届"挑战杯"竞赛2025年度中国青年科技创新"揭榜挂帅"擂台赛阿里云“AI技术助力乡村振兴”专题赛拟授奖名单公示
|
17天前
|
机器学习/深度学习 人工智能 Serverless
吉利汽车携手阿里云函数计算,打造新一代 AI 座舱推理引擎
当前吉利汽车研究院人工智能团队承担了吉利汽车座舱 AI 智能化的方案建设,在和阿里云的合作中,基于星睿智算中心 2.0 的 23.5EFLOPS 强大算力,构建 AI 混合云架构,面向百万级用户的实时推理计算引入阿里云函数计算的 Serverless GPU 算力集群,共同为智能座舱的交互和娱乐功能提供大模型推理业务服务,涵盖的场景如针对模糊指令的复杂意图解析、文生图、情感 TTS 等。
|
20天前
|
存储 人工智能 OLAP
AI Agent越用越笨?阿里云AnalyticDB「AI上下文工程」一招破解!
AI 上下文工程是管理大模型输入信息的系统化框架,解决提示工程中的幻觉、上下文溢出与信息冲突等问题。通过上下文的采集、存储、加工与调度,提升AI推理准确性与交互体验。AnalyticDB PostgreSQL 版提供增强 RAG、长记忆、Supabase 等能力,助力企业构建高效、稳定的 AI 应用。
|
18天前
|
机器学习/深度学习 人工智能 算法
阿里云视频云以 360° 实时回放技术支撑 NBA 2025 中国赛 —— AI 开启“智能观赛”新体验
NBA中国与阿里云达成合作,首发360°实时回放技术,融合AI视觉引擎,实现多视角、低延时、沉浸式观赛新体验,重新定义体育赛事观看方式。
167 0
阿里云视频云以 360° 实时回放技术支撑 NBA 2025 中国赛 —— AI 开启“智能观赛”新体验
|
18天前
|
存储 人工智能 OLAP
AI Agent越用越笨?阿里云AnalyticDB「AI上下文工程」一招破解!
AI上下文工程是优化大模型交互的系统化框架,通过管理指令、记忆、知识库等上下文要素,解决信息缺失、长度溢出与上下文失效等问题。依托AnalyticDB等技术,实现上下文的采集、存储、组装与调度,提升AI Agent的准确性与协同效率,助力企业构建高效、稳定的智能应用。
|
18天前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
274 29
|
2月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
656 35
|
1月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
328 21

热门文章

最新文章