RT-DETR改进策略【RT-DETR和Mamba】| 替换骨干 Mamba-RT-DETR-L !!! 最新的发文热点

2025-02-09 182

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： RT-DETR改进策略【RT-DETR和Mamba】| 替换骨干 Mamba-RT-DETR-L !!! 最新的发文热点

一、本文介绍

本文记录的是利用Mamba-YOLO优化RT-DETR的目标检测网络模型。Mamba-YOLO模型是一种基于状态空间模型（SSM）的目标检测模型，旨在解决传统目标检测模型在处理复杂场景和长距离依赖关系时的局限性，是目前最新的发文热点。本文分成三个章节分别介绍Mamba-YOLO模型结构中各个模块的设计结构和优势，本章讲解Vision Clue Merge模块，并在文末配置Mamba-RT-DETR-L网络结构。

专栏目录：RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址：RT-DETR改进专栏——以发表论文的角度，快速准确的找到有效涨点的创新点！

Mamba YOLO:SSMs-Based YOLO For Object Detection

在这里插入图片描述

二、Vision Clue Merge 模块介绍

Vision Clue Merge模块在Mamba - YOLO模型中同样重要，主要负责在模型的下采样过程中处理特征图，为后续的特征融合和目标检测任务提供更有效的信息。

2.1 设计结构

传统下采样问题分析：在传统的卷积神经网络（CNN）和Vision Transformer（ViT）结构中，通常使用卷积进行下采样操作。然而，研究发现这种方式会干扰SS2D在不同信息流阶段的选择性操作，影响模型对特征的有效利用。
优化下采样过程：VMamba通过使用1x1卷积拆分2D特征图并降低维度来解决上述问题，但Mamba - YOLO进一步优化了这一过程。它首先去除了归一化操作，然后直接拆分维度图，将多余的特征图附加到通道维度。最后，使用4x压缩的点卷积进行下采样操作。

在这里插入图片描述

2.2 优势

保留视觉线索：这种设计的核心优势在于能够为SSM（State Space Model）保留更多的视觉线索。在模型训练过程中，丰富的视觉线索有助于SSM更好地理解图像特征，从而提高模型的整体性能。
与SS2D协同工作：通过与SS2D操作的有效配合，Vision Clue Merge模块能够更好地处理不同阶段的信息流。它避免了传统卷积下采样对SS2D选择性操作的干扰，使得模型在特征提取和融合过程中能够更精准地捕捉到图像中的关键信息，提高了特征表示的质量。
增强特征图质量：相比传统的使用3x3卷积且步长为2的下采样方法，Mamba - YOLO的Vision Clue Merge模块能够更好地保留前一层SS2D选择的特征图。这意味着在模型的下采样过程中，重要的特征信息得到了更好的保留，有助于提升模型对图像特征的理解和利用能力，进而提高目标检测的准确性。