阿里云函数计算 AgentRun 全新发布，构筑智能体时代的基础设施

2025-09-28 448

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

Serverless 应用引擎免费试用套餐包，4320000 CU，有效期3个月

函数计算FC，每月15万CU 3个月

简介： 云原生应用平台 Serverless 计算负责人杨皓然在云栖大会发表主题演讲“Serverless Agent 基础设施：助力大规模 Agent 部署与运维”。本议题深入介绍了阿里云以函数计算为核心打造的 Agent 基础设施——AgentRun，阐述其如何通过创新的运行时、模型服务、网关及可观测体系，为企业构筑坚实、高效、安全的 Agent 时代基石。

随着大模型技术的飞速发展，我们正从云原生时代迈向一个全新的 AI 原生应用时代。智能体（Agent）作为能够自主理解、决策并执行任务的全新应用范式，正在重塑软件的定义。然而，在生产环境中规模化落地 Agent 面临着开发效率、安全弹性、运维观测等多重挑战。

今天，云原生应用平台 Serverless 计算负责人杨皓然在云栖大会发表主题演讲“Serverless Agent 基础设施：助力大规模 Agent 部署与运维”。本议题深入介绍了阿里云以函数计算为核心打造的 Agent 基础设施——AgentRun，阐述其如何通过创新的运行时、模型服务、网关及可观测体系，为企业构筑坚实、高效、安全的 Agent 时代基石。

从云原生应用到 AI 原生应用

应用架构的演进史，是一部不断追求极致效率的创新史。从单体应用到以微服务、容器化和 Serverless 为代表的云原生技术，我们将研发重心从繁重的底层运维中解放出来，聚焦于业务创新。

如今，以大模型和自然语言交互为核心的 AI 原生应用浪潮正汹涌而至。未来的应用将不再是被动等待指令的工具，而是一个个能够自主理解、决策并调用工具完成复杂任务的智能体。

然而，在这条通往智能未来的道路上，生产环境落地 Agent 会在应用生命周期各个阶段面对诸多挑战：

开发阶段的效率问题：企业级 Agent 的构建远不止于 API 调用，它涉及复杂的逻辑编排与工具集成。如何选择合适的开发框架，并与现有业务及研发流程高效匹配，成为首要难题。
部署阶段的安全与弹性问题：Agent 执行代码具有不确定性与流量的动态不可预测性，对运行时的安全隔离与弹性伸缩能力提出了前所未有的高要求。
运维阶段的“黑盒”与“成本失控”问题：Agent 的运行状态、Token 消耗、工具调用路径往往如同一个“黑盒”，导致成本失控与质量评估困难。一套完善的 AI 应用治理与可观测体系不可或缺。

为了解决这些问题，我们以阿里云函数计算 FC 为核心，深度集成日志、网关等云产品，推出了 AgentRun——一个专为 Agent 而生的集成基础设施平台。

AgentRun：专为 Agent 而生的一站式基础设施

AgentRun 旨在为 Agent 应用生命周期的各个阶段提供全面支持，其核心能力围绕三大层面构建：

开发层面：框架兼容与深度集成。AgentRun 与开发框架无关，任何框架构建的 Agent 都可以平滑运行。并且我们针对流行框架进行了深度集成。用户可能够根据自身需求，选择最适合的工具和框架，无论是基于模板快速搭建，还是深度定制，都能事半功倍。
部署层面：提供安全、弹性、低成本的运行底座，针对 Agent 应用负载特点，AgentRun 提供了深度优化的运行时，确保 Agent 在安全隔离的环境中高效、弹性地运行。
运维层面：全面的 AI 应用治理与可观测体系。从统一的模型代理网关，到 AI 全栈监控与端到端链路追踪，AgentRun 帮助客户清晰洞察 Agent 的每一个行为与每一笔消耗，实现精细化的成本控制与质量优化。

深度解析 AgentRun 核心引擎

AgentRun 的强大能力，源于其四大核心引擎的协同工作。

智能体运行时与云沙箱：Agent 的心脏

基于函数计算构建的智能体运行时，是 AgentRun 的核心。它提供了一个轻量灵活、安全隔离、极致弹性且成本精益的执行环境。

安全隔离：运行时的第一原则。我们采用自研的“袋鼠安全容器”，它具备虚拟机的隔离强度，却拥有容器级的百毫秒启动速度。结合存储、网络的多维度多租户隔离设计，确保 Agent 可在安全的环境中执行任意代码。
极致弹性：应对不确定负载的关键。AgentRun 创新地将实例管理做成了数据平面，使其弹性能力无单点瓶颈，可随集群规模无限水平扩展。结合专为弹性优化的网络架构，实例可在百毫秒内启动并访问 VPC 内的任何资源，当前已具备单集群支持百万规模的智能体运行时和沙箱实例，单个智能体服务支持百万 QPS 的服务能力。
精益成本：技术普惠的基石。我们首创了按实例“忙/闲”状态独立计费的模式。当 Agent 等待模型或工具响应时，实例处于闲置状态，算力免费，仅收取极低的内存费用。该模式完美契合 Agent 的工作流，平均可为企业降低 60% TCO。

此外，运行时内置了开箱即用的代码解释器和浏览器沙箱等工具，无论是简单的 Agent 还是复杂的链式 Agent，AgentRun 都能获得统一、高效的执行环境。

模型运行时：领域模型托管更弹性、低成本

Agent 任务常需调用意图识别、文生图、文生语音等领域模型。AgentRun 基于函数计算提供的模型运行时，为这类小参数模型提供了更具弹性和成本效益的托管方案。

其核心是一套请求感知调度引擎，处理流程如下：

1. 当一个推理请求到达函数网关后，我们的调度引擎。它会实时追踪请求处理和集群 GPU 实例的负载情况。

2. 引擎会根据上述信息做出决策：

路径 ①：优先使用那些已经处于活跃状态的实例。这是最高效的方式，保证最低延迟，因为实例是‘热’的。
路径 ②：快速唤醒那些暂时闲置但已预热的实例。大家知道，冷启动是 Serverless 的一大痛点。但通过我们的快照恢复等技术，我们将这个唤醒时间压缩到了毫秒级！这意味着我们用较低的成本，实现了百倍的启动加速，能够满足延时敏感的在线业务要求。
路径 ③：弹性补充那些需要从零开始的冷启动实例，以应对后续的流量增长。

这套机制在实际业务场景中效果很好：

在请求感知调度下，我们成功地将 AI 应用的 RT 抖动减少了 80%，大幅提升了用户体验和系统稳定性。
通过毫秒级闲置实例唤醒，我们实现了百倍的启动加速，既保证了 AI 算力的刚性交付，又让客户弹性使用算力资源，大幅降低成本。
通过算力解耦技术，我们能为客户提供更细粒度的 CPU 和 GPU 组合，让小参数的领域模型资源使用更经济高效。这使得企业能够平均降低 40% 的 GPU 成本。

AgentRun 模型运行时，正是通过这些技术创新，让领域模型推理既高效，又经济，真正实现弹性和成本的最佳平衡。

AI 网关：企业 AI 能力的治理中心

AI 网关不仅是流量入口，更是解决模型多样性、安全合规、开发效率与成本优化三大治理难题的核心。

多模型适配：企业内部可能同时使用通义、GPT、开源 Qwen 等多种模型。AgentRun 网关通过多模型适配能力，提供了统一的协议转换、重试和 Fallback 机制，让上层应用无需关心底层模型的差异，实现了“即插即用”。
安全与合规：网关内置了丰富的 AI 安全防护插件，从内容安全护栏，到精细化的 Token 限流与配额，确保 Agent 的每一次交互都安全、合规、可控。
开发效率与成本优化：我们提供了丰富的 AI 开发插件集，例如“语义缓存”能大幅降低重复请求的 Token 消耗，提升响应速度；“提示词模板”则能帮助团队标准化 Prompt 工程，提升 Agent 的稳定性。除此之外，AI 网关还提供全面的 LLM 访问日志和消费者/模型级别的 Token 消费观测，便于成本核算和优化。

AI 网关为企业提供高可用、零信任、高性能的全面保障，大模型调用成功率能提升到 99.9% 以上。

AgentRun 可观测：攻克 Agent “黑盒”难题

为解决 Agent“用起来、用得省、用得好”的朴素诉求，AgentRun 构建了强大的可观测能力。

端到端链路追踪：通过标准可观测协议，将用户请求经过的所有组件（网关、模型应用、向量数据库等）串联起来，实现快速的问题定位。
全栈数据关联分析：构建全栈可观测数据平台，将链路、指标（如应用层 RT 与底层 GPU 利用率）等数据进行关联分析，精准判断故障根源。
统一日志存储与分析：提供统一的日志能力，记录每次调用的输入输出，为 AI 应用质量的量化评估与持续优化提供数据基础。

实践的证明：AgentRun 的落地实践

AgentRun 的能力已在多个大规模真实业务场景中得到验证：

模型服务化领域：我们与国内最大的 AI 模型社区 ModelScope 魔搭深度合作。过去，开发者要用上社区里超过 2 万个热门模型，需要经历繁琐的环境搭建和部署。现在，通过 AgentRun，开发者可以一键托管，最快 30 秒就能将一个开源模型，转化为生产级的、兼容 OpenAI 规范的 API。大幅加速了从模型到应用的“最后一公里”。而吉利/极氪等头部厂商，也大量使用模型运行时托管文生图，文生语音等领域模型，支撑智能座舱等关键业务。
企业智能体落地：支撑行业头部基础模型厂商构建面向千万用户的 C 端智能体应用。AgentRun 的虚拟机级安全隔离、大规模实时弹性以及忙闲智能计费，完美解决了稀疏调用与“爆款”流量并存的复杂场景，实现了安全、体验与成本的极致平衡。
AI 工具生态：我们助力阿里云百炼发布了 MCP Server 市场。工具开发者可以将其服务以 Serverless 的方式部署。AgentRun 的实例缩 0 和闲置计费等能力，让这些工具服务在没有流量时，成本降低 85%，甚至为 0。除此之外，Qwen 模型训练中的强化学习任务，负载是脉冲式的，也大量使用 AgentRun Sandbox，规模达到数十万核。

新的技术浪潮已经到来。未来的核心竞争力，将不再仅仅是模型本身，而是高效、安全、大规模地部署和管理 Agent 这一全新数字劳动力的能力。AgentRun 的使命，正是成为 AI 原生时代不可或缺的“水电煤”基础设施，为企业的智能化转型铺平道路，让每一个创新的想法都能在这条高速公路上尽情驰骋。

阿里云函数计算 AgentRun 全新发布，构筑智能体时代的基础设施

从云原生应用到 AI 原生应用

AgentRun：专为 Agent 而生的一站式基础设施

深度解析 AgentRun 核心引擎

智能体运行时与云沙箱：Agent 的心脏

模型运行时：领域模型托管更弹性、低成本

AI 网关：企业 AI 能力的治理中心

AgentRun 可观测：攻克 Agent “黑盒”难题

实践的证明：AgentRun 的落地实践

Serverless

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景