[ICLR 2024] 基于Pathways架构的自适应多尺度时间序列预测模型Pathformer

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,1000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 阿里云计算平台大数据基础工程技术团队主导,与华东师范大学数据科学与工程学院合作的论文《Pathformer: Multi-Scale Transformers With Adaptive Pathways For Time Series Forecasting》被ICLR 2024接收,该论文提出了基于Pathways架构的自适应多尺度时间序列预测模型Pathformer,它从时间分辨率和时间距离角度进行多尺度时序建模,同时进一步提出自适应Pathways来动态调整多尺度建模过程,基于两者,Pathformer在阿里云数据集和公开数据集上取得SOTA预测效果,并展现出不错的泛化性和迁移性。

开篇

近日,由阿里云计算平台大数据基础工程技术团队主导,与华东师范大学数据科学与工程学院合作的论文《Pathformer: Multi-Scale Transformers With Adaptive Pathways For Time Series Forecasting》被ICLR 2024接收,该论文提出了基于Pathways架构的自适应多尺度时间序列预测模型Pathformer,它从时间分辨率和时间距离角度进行多尺度时序建模,同时进一步提出自适应Pathways来动态调整多尺度建模过程,基于两者,Pathformer在阿里云数据集和公开数据集上取得SOTA预测效果,并展现出不错的泛化性和迁移性。


背景

现实场景中的时间序列在不同的时间尺度展现出不同的变化,如云计算场景中的CPU,GPU,内存等资源需求呈现出日、月、季节等独特尺度的时间模式. 多尺度建模主要从不同的尺度中提取时序特征和依赖关系,建模多尺度需要考虑两个方面:时间分辨率和时间距离。时间分辨率指用于建模的每个时间片段的大小。如图1中,相同的时序别划分为小的片段(蓝色)或大的片段(橙色),提出细粒度和粗粒度的时序特征。时间距离对应于显示建模时间依赖性,决定用于时序建模时时间步之间的距离。如图1中,黑色箭头模拟了相邻时间步之间的关系,提取时序的局部细节,而彩色箭头模拟了跨长距离的时间步之间的关系,提取时序的全局关联。

image.png

图 1:左边:时间序列被划分成不同大小的Patches作为时间分辨率。右边:局部细节(黑色箭头)和全局关联性(彩色箭头)通过不同的时间距离被建模。

挑战

基于Transformer模型的多尺度建模,主要有两个挑战。

一:不完备的多尺度建模。只是针对时间分辨率不能有效地捕捉不同范围的时间依赖关系,相反,考虑时间距离虽然能提取不同范围的时间依赖,但全局和局部间隔受到数据划分的影响,单一的时间分辨率并不完备。

二:固定的多尺度建模过程。对比图1中的两个时序,上面的时序展现快速的波动,可能需要更关注细粒度和短期特征。相反,下面的时序需要关注粗粒度和长期特征。因此对所有时序采用固定的多尺度建模阻碍了每个时序的重要特征捕捉,然而为每个数据集或每个时序手动调整最佳尺度非常耗时且难以处理。


破局

我们提出了一个基于Pathways架构的自适应多尺度Transformer模型(Pathformer),如图2所示,它整合了时间分辨率和时间距离提出了一个多尺度Transfomer模块,使模型具备完备的多尺度建模能力。我们进一步提出自适应pathways,激活Transformer的多尺度间建模能力。它基于输入时序的时间动态自适应提取和聚合多尺度特征,实现了自适应多尺度建模。接下里,我们详细介绍多尺度Transformer块和自适应Pathways。

image.png

图 2:Pathformer的架构

(1)多尺度Transformer模块:在多尺度Transformer块中,我们对输入的时序特征进行不同patch大小的时序划分,不同的patch大小代表不同时序的时间分辨率。基于每个尺度的Patch划分,使用双重注意力机制来建模不同范围的时间依赖性,如图3(a)所示,通过patch内注意力(intra-patch attention)建模每个patch内部不同时间点之间的关联来捕捉时序的局部细节,通过patch间注意力(inter-patch attention) 建模不同patch之间的关系来捕获全局信息。

image.png

图 3:左边为多尺度Transformer模块的结构,主要包含Patch划分,patch内注意力,patch间注意力等。右边为多尺度路由器的结构

(2)自适应Pathways:由于不同的时序偏好不同的尺度,这取决于它们不同的时间特征和动态性。为了实现自适应多尺度建模,我们基于多尺度Transformer提出了自适应Pathways。如图2所示,它包含了两个关键部分:多尺度路由器和聚合器。多尺度路由器根据输入数据选择特定大小的patch进行划分,这激活了Transformer中特定部分,并控制多尺度特征的提取。路由器和聚合器一起协同工作,通过加权聚合将这些特征组合起来得到Transformer块的输出。

论文在阿里云云原生大数据计算服务 MaxCompute 3 个集群的真实数据集和公开数据集上进行了实验,Pathformer要显著优于其它的时序预测模型,并且Pathformer在不同集群数据上展现了一定的泛化和迁移能力。


应用

论文算法已经集成到了飞天大数据AI管控平台ABM的算法服务模块,供大数据智能运维场景(如资源推荐等)调用。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
3月前
|
机器学习/深度学习 人工智能 监控
大型动作模型LAM:让企业重复任务实现80%效率提升的AI技术架构与实现方案
大型动作模型(LAMs)作为人工智能新架构,融合神经网络与符号逻辑,实现企业重复任务的自动化处理。通过神经符号集成、动作执行管道、模式学习、任务分解等核心技术,系统可高效解析用户意图并执行复杂操作,显著提升企业运营效率并降低人工成本。其自适应学习能力与上下文感知机制,使自动化流程更智能、灵活,为企业数字化转型提供坚实支撑。
267 0
大型动作模型LAM:让企业重复任务实现80%效率提升的AI技术架构与实现方案
|
4月前
|
存储 BI Shell
Doris基础-架构、数据模型、数据划分
Apache Doris 是一款高性能、实时分析型数据库,基于MPP架构,支持高并发查询与复杂分析。其前身是百度的Palo项目,现为Apache顶级项目。Doris适用于报表分析、数据仓库构建、日志检索等场景,具备存算一体与存算分离两种架构,灵活适应不同业务需求。它提供主键、明细和聚合三种数据模型,便于高效处理更新、存储与统计汇总操作,广泛应用于大数据分析领域。
460 2
|
2月前
|
数据采集 机器学习/深度学习 搜索推荐
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
MIT与丰田研究院研究发现,扩散模型的“局部性”并非源于网络架构的精巧设计,而是自然图像统计规律的产物。通过线性模型仅学习像素相关性,即可复现U-Net般的局部敏感模式,揭示数据本身蕴含生成“魔法”。
131 3
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
|
1月前
|
机器学习/深度学习 存储 缓存
115_LLM基础模型架构设计:从Transformer到稀疏注意力
大型语言模型(LLM)的架构设计是其性能的核心决定因素。从2017年Transformer架构的提出,到如今的稀疏注意力和混合专家模型,LLM架构经历了快速的演进。本文将全面探讨LLM基础架构的设计原理,深入分析Transformer的核心机制,详细介绍稀疏注意力、MoE等创新架构,并展望未来架构发展方向。通过数学推导和实践案例,为构建高效、强大的LLM提供全面指导。
|
1月前
|
机器学习/深度学习 自然语言处理 算法
48_动态架构模型:NAS在LLM中的应用
大型语言模型(LLM)在自然语言处理领域的突破性进展,很大程度上归功于其庞大的参数量和复杂的网络架构。然而,随着模型规模的不断增长,计算资源消耗、推理延迟和部署成本等问题日益凸显。如何在保持模型性能的同时,优化模型架构以提高效率,成为2025年大模型研究的核心方向之一。神经架构搜索(Neural Architecture Search, NAS)作为一种自动化的网络设计方法,正在为这一挑战提供创新性解决方案。本文将深入探讨NAS技术如何应用于LLM的架构优化,特别是在层数与维度调整方面的最新进展,并通过代码实现展示简单的NAS实验。
|
3月前
|
编解码 文字识别 自然语言处理
Dots.ocr:告别复杂多模块架构,1.7B参数单一模型统一处理所有OCR任务22
Dots.ocr 是一款仅1.7B参数的视觉语言模型,正在重塑文档处理技术。它将布局检测、文本识别、阅读顺序理解和数学公式解析等任务统一于单一架构,突破传统OCR多模块流水线的限制。在多项基准测试中,其表现超越大参数模型,展现出“小而精”的实用价值,标志着OCR技术向高效、统一、灵活方向演进。
420 0
Dots.ocr:告别复杂多模块架构,1.7B参数单一模型统一处理所有OCR任务22
|
4月前
|
存储 人工智能 调度
上海创智学院联合无问芯穹发布Megrez2.0,本征架构突破端模型不可能三角,以终端算力撬动云端智能
终端是实现数字智能和生命智能自由交互的重要接口,持续帮助人类拓展生产能力的边界。当下,终端智能面临着“能效-空间-智能”的不可能三角:以DeepSeek-R1为例,其参数规模高达6710亿,超出了大部分笔记本电脑的内存容量;即使勉强在一台笔记本电脑上成功运行满血版模型,理论上坚持不到9分钟就会耗尽电池;如果通过蒸馏,将满血版模型压缩到更小尺寸,此时的精度损失又可能满足不了智能水平的要求。
107 0
上海创智学院联合无问芯穹发布Megrez2.0,本征架构突破端模型不可能三角,以终端算力撬动云端智能
|
6月前
|
机器学习/深度学习 人工智能 算法
大型多模态推理模型技术演进综述:从模块化架构到原生推理能力的综合分析
该研究系统梳理了大型多模态推理模型(LMRMs)的技术发展,从早期模块化架构到统一的语言中心框架,提出原生LMRMs(N-LMRMs)的前沿概念。论文划分三个技术演进阶段及一个前瞻性范式,深入探讨关键挑战与评估基准,为构建复杂动态环境中的稳健AI系统提供理论框架。未来方向聚焦全模态泛化、深度推理与智能体行为,推动跨模态融合与自主交互能力的发展。
418 13
大型多模态推理模型技术演进综述:从模块化架构到原生推理能力的综合分析
|
4月前
|
人工智能 监控 API
MCP中台,究竟如何实现多模型、多渠道、多环境的统一管控?如何以MCP为核心设计AI应用架构?
本文产品专家三桥君探讨了以 MCP 为核心的 AI 应用架构设计,从统一接入、数据管理、服务编排到部署策略等维度,系统化分析了 AI 落地的关键环节。重点介绍了 API 网关的多终端适配、数据异步处理流程、LLM 服务的灰度发布与 Fallback 机制,以及 MCP Server 作为核心枢纽的调度功能。同时对比了公有云 API、私有化 GPU 和无服务器部署的适用场景,强调通过全链路监控与智能告警保障系统稳定性。该架构为企业高效整合 AI 能力提供了实践路径,平衡性能、成本与灵活性需求。
249 0
|
5月前
|
存储 人工智能 前端开发
Google揭秘Agent架构三大核心:工具、模型与编排层实战指南
本文为Google发布的Agent白皮书全文翻译。本文揭示了智能体如何突破传统AI边界,通过模型、工具与编排层的三位一体架构,实现自主推理与现实交互。它不仅详解了ReAct、思维树等认知框架的运作逻辑,更通过航班预订、旅行规划等案例,展示了智能体如何调用Extensions、Functions和Data Stores,将抽象指令转化为真实世界操作。文中提出的“智能体链式组合”概念,预示了未来多智能体协作解决复杂问题的革命性潜力——这不仅是技术升级,更是AI赋能产业的范式颠覆。
1499 1