AI推理新纪元,PAI全球化模型推理服务的创新与实践

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 本次分享主题为“AI推理新纪元,PAI全球化模型推理服务的创新与实践”,由阿里云高级产品经理李林杨主讲。内容涵盖生成式AI时代推理服务的变化与挑战、play IM核心引擎的优势及ES专属网关的应用。通过LM智能路由、多模态异步生成等技术,PAI平台实现了30%以上的成本降低和显著性能提升,确保全球客户的业务稳定运行并支持异地容灾,目前已覆盖16个地域,拥有10万张显卡的推理集群。

在过去的一年里,大家见证了AI浪潮的风起云涌。我这几天也跟大家一样,穿梭在各个展区中,看到非常多有趣的AI应用和创新应用的迸发。同时,我还参加了许多session,聆听了众多专家分享他们如何利用AI技术重塑各行各业。


那么我们看到了什么呢?我们看到了AI正扮演着客服的角色,成为了我们的导购,甚至担当起了面试官的重任。就连在游戏中,我们也不再仅仅与玩家组队,而是开始与AI并肩作战。在这些层出不穷的创新与应用背后,是谁在源源不断地提供动力呢?答案就是模型在线服务。今天很荣幸能与大家分享在过去的一年里,人工智能平台PAI在模型推理服务领域所做出的一些创新与实践。


今天的分享主要包括四个部分。首先,我们会聚焦于生成式AI(Generative AI)时代下的推理服务,探讨这一领域究竟发生了哪些变化,以及这些变化带来了哪些挑战。简而言之,在今天的讨论中,关于推理服务,最关键的一点是什么?是它的生命线,即成本。接下来,我们将从三个角度详细阐述:计算资源、推理服务的性能,以及客户的业务场景,通过这三个维度来向大家展示如何大幅度降低在推理服务上的成本。

 

一、在生成式AI的时代,推理服务产生了怎样的变化和挑战

今天面临着三大显著变化。第一个变化是业务负载。在上一个AI时代,主流业务大多是什么?主要是搜索和推广业务,并且这些业务有一个共同特点是它们的响应时间很短,大约在几百毫秒至一秒之间,且每个请求的负载都非常均衡,延迟反馈时间基本一致。


然而,在生成式AI时代,业务负载发生了巨大的变化。以大模型和多模态场景为例,现在的请求长度短则十几个token,长则可达数十万个token。这种业务负载的变化对资源利用产生了极大的影响。

个变化是模型结构。相信大家前几天也关注了静仁老师的发布。在这次发布中,千万2.5系列推出了多个不同版本的模型,包括0.5B、1.5B的版本,还有新发布的3B版本,以及7B、14B、12B等。此外,大家也注意到了像LaMA 3.1这样的模型,甚至今天发布的405B的超大模型。这些不同参数规模的模型会给我们的业务带来极大的变化。


个变化是资源类型。在以往的时代,即CPU主导的时代,大家的资源其实相差不大。然而,如今大家可以看到,英伟达推出的A10、H100、A800、H800等GPU卡,以及L20等型号,它们之间的性能差异显著。包括国产的显卡,其他厂商的显卡。每一个显卡的性能和业务都是不同的。


在这些变化之下,我们碰到了很多挑战

第一个挑战是资源,我们的业务负载涵盖了从十几个token到几十万个token不等的范围,这些token负载的变化会极大地影响计算效率,并导致计算效率与之前相比大幅降低。


第二个挑战在于如何提升服务的性能。面对众多不同种类和参数量的模型,我们如何统一地提升这些服务的性能成为了一个关键问题。


第三个挑战是业务的多样性。如今,大家都使用GPU,而这些GPU拥有不同类型的资源,并且这些资源遍布全球。在这样的背景下,如何才能确保我的业务能够稳定且高可用地使用这些资源。围绕着刚才提到的那些变化,先从第一点开始讲起,其目标是让每一个推理资源节点都能高效运转。在当下的生成式AI(Generated AI)的时代,我们隆重发布了三个核心能力。第一个是LM智能路由,第二个是多模态内容的异步生成,第三个是AI应用的service部署。


这三个词听起来可能让大家觉得像是天书,并且对它们也没有具体的概念。但我想告诉大家的是,许多客户借助我们提出的这些能力,已经成功降低了30%以上的成本。或许大家又会想,这30%的成本降低跟我有什么关系呢?这依然是没有概念的。想象一下,如果把这30%的成本节省下来,用来给大家发工资,我相信在场的每一个人,包括可能正在看直播的朋友们,都会因为薪水提升了30%而感到兴奋。那么,如何才能实现这样的成本节省,从而让大家的薪水得到提升呢?大家可能会好奇,这些能力具体是如何实现的。接下来会逐一为大家详细解释每个能力的作用。


首先是LM智能路由,即大语言模型场景。而我们今天做了一项非常重要的工作。之前我提到过,在不同的负载情况下,token的数量从十几个到几十万个不等,这会导致计算资源的利用率大幅降低。而我们可以通过LM智能路由,首先对请求端进行判断。根据不同的请求大小,无论是十几个token还是几十万个token,以及每次的prompt是相似还是相同,我们都会进行细致的分析。同时,我们监控后端每一个计算实例,了解它们处理过哪些prompt,擅长处理什么样的场景,确定到底是哪一个prompt,或是哪一个计算节点,它的资源是相对空闲的。通过智能的匹配,使整个集群的资源利用率飞速提升。


而且,今天我并不想给大家讲解过多的技术细节,我更想强调的是什么呢?今天包括讲到的大语言模型的LM智能路由在内的所有功能,都已经在PAIES平台上实现了一键部署,开箱即用。大家无需深入了解底层的实现细节或技术细节,大家只需要知道在EAS上面一键就可以开启这样的能力。而且,开启这些功能后,资源成本将能够节省30%以上。


第二个是多模态场景,如今,我们看到了许多纹身图案和纹身视频的应用场景。这些场景有一个显著的特点是对时延性的要求并不像过去搜索推广时代那么严格了。在这些场景中,允许几分钟甚至几个小时的响应时间都是可以的。


在今天,我们推出了异步推理和离线任务两大场景,这两个场景能够极大地提升大家的计算性能和效率。而且,无论是异步推理还是离线任务场景,在之前提到的PAIES平台上,都实现了开箱即用。大家无需理解背后复杂的架构图,这些对大家来说完全是overhead。今天,大家只需知道,在ES平台上,你可以一键使用这些功能,并能迅速将其应用到自己的业务场景中。


第三个是AI应用的service less部署。坦白说,“service”这个词现在可能已经被大家频繁使用,甚至有些泛滥了,在各种分享中,今天讲这个service,明天又讲那个service。但我想在这里澄清一下,我所说的“service”具体指的是什么。大家在使用各种模型服务时,可能会遇到一个痛点:如果请求是离散的,比如每个小时只需要调用几次,那么在传统方式下,你仍然需要为一直运行的服务付费。这会给大家带来很大的账单压力。今天,ES创造性地提出了serverless部署的概念。在全球范围内,提供这种serverless部署的云服务厂商也仅EES一家。


那么我们今天提供的是什么样的能力呢?简单来说,您部署服务的过程是完全免费的。只有当您正式发起请求,我们开始处理这个请求时,才会开始计费,这样能让您的成本达到最优化。这是第一部分的主要内容,主要讲述了如何大幅提升计算资源的效率。接下来第二部分会重点讲述如何让每个模型的推理服务性能得到大幅提升。在这里,无法绕过的一个重要发布能力是play的IM核心引擎能力。左侧的架构图可能看起来有些复杂,但大家其实不用过于关注它。


很核心的一点是我们的底层完全是基于ESPAI的平台构建的,并在上层灵活适配了客户的各种业务场景。在中间层,我们通过模型计算、量化压缩和模型并行处理策略,运用了如P、DP、PP和TP等多种手段,来帮助大家提升服务性能。同时,通过生成式引擎、prompt cash以及多种高效解码方式,并结合强大的调度能力,使得服务性能得到了显著提升。在最上层的服务框架中,我们采用了大家可能已有所耳闻的PD分离理念,并推出了自研的elastic attention方法,帮助用户快速实现性能提升。尽管这些专业名词可能让大家感到有些困惑,但重要的是,大家可以直接关注这些技术所带来的性能提升效果。


而在与一些开源框架的对比中,首先,在延时层面,TTFT是我们的首包延时。并且整个大模型的推理过程可以分为计算密集型阶段,即preview阶段、显存密集性阶段和访存密集性阶段,即decoding的阶段。这使我们在TTFT,即首包延时,以及TPOT,即每个token之间的延时方面,都实现了大幅下降,分别降低了60%和70%。并且,在吞吐量方面,我们每秒产生的token数也实现了大幅提升,具体达到了80%的增长。而这些性能的提升,为大家带来了极大的成本节约。

 

二、play IM核心引擎带来的好处

1.play IM核心引擎解决的三大问题

第一个问题是如何高效地利用内存。正如大家前两天从静仁老师的分享中了解到的,我们现天已经能够支持长达128K的文本token长度。这对于GPU显存来说是一个巨大的挑战,因为它需要消耗大量的资源。然而,在我们的play IM核心引擎中,通过量化压缩技术的手段实现了能够非常快速地支持多种量化方式,并且能够迅速完成资源的部署和服务的部署。


第二个是请求长度。从开篇到现在,我一直在强调一个逻辑是当前的负载发生了巨大的变化。为了应对这种变化,我们提出了一种新的能力,即自研的attention技术。这项技术旨在帮助大家高效地解决长文本和短文本之间因负载不同而带来的请求调度问题。


第三个是大模型在运行过程中分为两个截然不同的阶段:preview阶段和decode阶段,这两个阶段对资源的需求截然不同。为了优化这两个阶段,我们在preview阶段采用了prompt cache方法,而在decode阶段采用了lookahead decoding的方式,来帮助大家更容易、更高效地部署自己的服务,并且高效的提升服务性能。


2.优化和提升

总结来说,play IM带来了四大提升和四大优化,包括模型优化、系统优化、集群优化以及应用优化。您无需深入了解这些优化背后的具体细节,只需明白在PAI平台上,这些能力已经为您准备好,开箱即用,让您能够轻松实现80%的吞吐提升。同样,在PAD平台上,您也可以一键使用这些优化功能。

 

三、ES专属网关

讲完了前两个话题,我们现在聚焦于在座的各位客户,以及各自所处的应用和业务层面。我们今天的目标非常明确,即确保全球每一个角落的客户的业务都能持续不断地运行。为此,我们隆重发布了今年精心研发的新能力ES专属网关。通过ES专属网关,我们实现了什么呢?它能让您以极高的安全性访问自己拥有的任何访问权限。无论是公网的访问权限,还是VPC-的访问权限,还是公网的网段或是VPC的网段,都可以在ES平台上自定义地部署。并且通过ES专属网关,我们成功地将全球的推理服务连接了起来。当客户通过CEN网络构建好自己的一套网络架构后,借助ES专属网关,他们可以轻松地实现网络控制,以及全球网络的调度和规划。


今天,基于ES专属网关,我们非常开心,因为做到了全球的调度和异地的容灾能力。在当前这个充满各种不可抗力的时代,单个地域或单个可用区AZ可能会出现短暂的服务中断。但即便面对这样的情况,ESPAI平台依然能够确保您的服务不会中断。而我们会通过全球的调度,允许您将计算资源灵活地部署在北京、上海、乌兰察布、北美、欧洲等多个地域。通过ES专属网关和统一的SOB负载均衡路由分发机制,来实现全球的调度。这意味着,无论哪个资源节点或哪个AZ出现故障,您的服务都能持续运行,永不停歇。


ES目前在全球范围内已支持16个不同的地域。无论您的业务位于东亚、东南亚、欧洲、北美,还是我们此刻所在的中国,您都可以在任何地方使用PAI的推理服务。我们在全球范围内已构建了拥有10万张显卡的推理集群,确保您能够迅速获取所需资源。通过全球调度系统,我们能够确保您的每一项业务在任何角落都能得到很好的部署。同时,我们还通过网关技术,实现了整个网络架构的互联互通。


我们深知,200年前,电让人类与现代文明紧密相连。20年前,互联网则将人类生存的每一个角落相互贯通。而今天,模型服务正致力于在世界的每一个角落插上旗帜。在这个AI时代,世界将通过模型服务与大家紧密相连,实现前所未有的联通。

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
17天前
|
人工智能 IDE Java
AI Coding实践:CodeFuse + prompt 从系分到代码
在蚂蚁国际信贷业务系统建设过程中,技术团队始终面临双重考验:一方面需应对日益加速的需求迭代周期,满足严苛的代码质量规范与金融安全合规要求;另一方面,跨地域研发团队的协同效率与代码标准统一性,在传统开发模式下逐渐显现瓶颈。为突破效率制约、提升交付质量,我们积极探索人工智能辅助代码生成技术(AI Coding)的应用实践。本文基于蚂蚁国际信贷技术团队近期的实际项目经验,梳理AI辅助开发在金融级系统快速迭代场景中的实施要点并分享阶段性实践心得。
215 24
AI Coding实践:CodeFuse + prompt 从系分到代码
|
19天前
|
人工智能 自然语言处理 安全
用AI重构人机关系,OPPO智慧服务带来了更“懂你”的体验
OPPO在2025开发者大会上展现智慧服务新范式:通过大模型与意图识别技术,构建全场景入口矩阵,实现“服务找人”。打通负一屏、小布助手等系统级入口,让服务主动触达用户;为开发者提供统一意图标准、一站式平台与安全准则,降低适配成本,共建开放生态。
145 31
|
23天前
|
人工智能 自然语言处理 测试技术
从人工到AI驱动:天猫测试全流程自动化变革实践
天猫技术质量团队探索AI在测试全流程的落地应用,覆盖需求解析、用例生成、数据构造、执行验证等核心环节。通过AI+自然语言驱动,实现测试自动化、可溯化与可管理化,在用例生成、数据构造和执行校验中显著提效,推动测试体系从人工迈向AI全流程自动化,提升效率40%以上,用例覆盖超70%,并构建行业级知识资产沉淀平台。
从人工到AI驱动:天猫测试全流程自动化变革实践
|
17天前
|
数据采集 存储 人工智能
从0到1:天猫AI测试用例生成的实践与突破
本文系统阐述了天猫技术团队在AI赋能测试领域的深度实践与探索,讲述了智能测试用例生成的落地路径。
从0到1:天猫AI测试用例生成的实践与突破
|
19天前
|
人工智能 新制造
TsingtaoAI受邀参加宁波AI海曙科创训练营并分享技术落地实践
10月12日至15日,由宁波市海曙区组织部主办的AI海曙科创训练营在宁波成功举办。作为受邀企业代表,TsingtaoAI团队深入参与了多项活动,与政府领导、行业专家及科创企业代表围绕AI技术在制造业、成果转化等领域的实际应用展开交流,用真实案例诠释了“技术扎根产业”的价值逻辑。
50 2
|
19天前
|
人工智能 运维 关系型数据库
云栖大会|AI时代的数据库变革升级与实践:Data+AI驱动企业智能新范式
2025云栖大会“AI时代的数据库变革”专场,阿里云瑶池联合B站、小鹏、NVIDIA等分享Data+AI融合实践,发布PolarDB湖库一体化、ApsaraDB Agent等创新成果,全面展现数据库在多模态、智能体、具身智能等场景的技术演进与落地。
|
17天前
|
人工智能 安全 开发工具
C3仓库AI代码门禁通用实践:基于Qwen3-Coder+RAG的代码评审
本文介绍基于Qwen3-Coder、RAG与Iflow在C3级代码仓库落地LLM代码评审的实践,实现AI辅助人工评审。通过CI流水线自动触发,结合私域知识库与生产代码同仓管理,已成功拦截数十次高危缺陷,显著提升评审效率与质量,具备向各类代码门禁平台复用推广的价值。(239字)
218 18
|
17天前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
244 29
|
2月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
644 36
|
30天前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
318 20

相关产品

  • 人工智能平台 PAI