边缘云系统的灵活可变速率图像特征压缩——论文阅读

简介: 本文提出一种面向边缘云系统的灵活可变速率图像特征压缩方法,通过联合优化率-精度-复杂度三重权衡,实现单模型多比特率自适应。该方法引入速率参数嵌入与条件归一化机制,在ResNet、ConvNeXt等架构上验证了高效性,显著优于固定速率方案,兼顾低延迟与高精度,适用于资源受限的视觉任务。

边缘云系统的灵活可变速率图像特征压缩

Hossain M A F, Duan Z, Huang Y, et al. Flexible variable-rate image feature compression for edge-cloud systems[C]//2023 IEEE International Conference on Multimedia and Expo Workshops (ICMEW). IEEE, 2023: 182-187.

1. 引言与研究动机

随着人工智能在物联网(IoT)、视觉监控和自动驾驶无人机等应用中的广泛部署,实时处理视觉数据的需求日益增长。虽然轻量级机器学习模型和移动GPU的发展使得边缘设备能够执行某些AI任务,但复杂任务仍需要强大的深度神经网络,这些网络超出了移动设备的计算和能源限制。

传统的解决方案是将数据从边缘设备传输到云端执行AI模型,形成边缘云系统。然而,现有的图像/视频编解码器主要针对人类视觉质量优化,并未针对机器视觉任务进行优化。本文聚焦于特征压缩,这种方法能够针对特定视觉任务改善压缩性能。

边缘云系统的资源受限特性带来了三方面的挑战:

  • 边缘与云之间的带宽限制要求低传输比特率
  • 低比特率会导致视觉任务性能下降
  • 边缘设备的计算资源差异需要可变复杂度的编码器

这产生了速率-精度-复杂度(Rate-Accuracy-Complexity, RAC)三方权衡问题。

2. 理论基础与预备知识

2.1 学习特征压缩框架

图1:系统架构概览

fig11.png

图1展示了本文方法的完整系统架构,分为训练阶段(a)和部署阶段(b)两部分:

  • 训练阶段(图1a):预训练的分类器被分割为前端和后端。在分割点插入可变速率压缩自动编码器,包含编码器和解码器。熵模型学习潜在特征的概率分布。系统端到端训练,其中自动编码器参数可训练(虚线框),而分类器参数固定(实线框)。

  • 部署阶段(图1b):边缘设备运行分类器前端和编码器,生成压缩的潜在特征。通过熵模型和rANS(range-based Asymmetric Numeral System)算法将特征编码为比特流。云端接收比特流,通过共享的熵模型解码,然后通过解码器恢复特征,最后通过分类器后端生成预测结果。

2.2 率失真优化目标

总体训练损失函数定义为:

$$\mathcal{L} = l_{CE}(\hat{y}, y) + \lambda l_R(\hat{z}) \tag{1}$$

其中:

  • $\hat{y}$是模型预测输出,$y$是真实标签
  • $l_{CE}(\hat{y}, y)$是交叉熵分类损失
  • $z$是编码器输出的潜在特征,$\hat{z}$是其量化版本
  • $l_R(\hat{z})$是熵损失(数据率损失)
  • $\lambda$是拉格朗日乘数,控制率与精度的权衡

熵损失通过因子化熵模型估计:

$$l_R(\hat{z}) = \mathbb{E}[- \log_2 p(\hat{z}; \phi)] \tag{2}$$

其中$\phi$是熵模型参数,期望关于$\hat{z}$的边际分布计算。

优化目标是找到最优参数:

$$\theta^*, \phi^* = \arg\min_{\theta,\phi} \sum_{x,y \in \mathcal{D}} l_{CE}(\hat{y}, y) + \lambda l_R(\hat{z}) \tag{3}$$

编码和解码过程表示为:

$$z = g_z(x; \theta_{enc}) \tag{4}$$
$$\hat{x} = f_{\hat{x}}(\hat{z}; \theta_{dec}) \tag{5}$$

3. 方法设计

3.1 网络分割策略

图2:分类器模型的Conv块划分框架

fig22.png

图2详细展示了如何将分类器网络系统地划分为Conv块:

  • 图2a - ResNet-50划分

    • 初始层:Conv(64, 7×7, s=2, p=3) + MaxPool(3×3, s=2)
    • Conv1-Conv7块:将ResNet-50的四个阶段(每个阶段包含不同数量的残差块)细分为7个Conv块
    • 不同颜色表示不同的Conv块分组,展示了灵活的前端-后端划分边界
  • 图2b - ConvNeXt-T划分

    • 初始层:Conv(96, 4×4, s=4, p=0)
    • Conv1-Conv6块:类似地将ConvNeXt-T架构划分为6个Conv块
    • 体现了该方法对不同架构的通用性

分割策略的核心原则:

  1. 将分类网络按相似残差层分组(瓶颈块)
  2. 每个瓶颈块进一步分为2-3个Conv块
  3. 通过调整前端Conv块数量实现RAC权衡

图3:通用模型配置Config.k

fig33.png

图3展示了配置框架,其中$k$表示编码器中的Conv块数量:

  • 实线框:固定层(不可移动)
  • 虚线框:可在编码器/解码器间移动的层
  • 总共$N$个Conv块(ResNet-50中$N=7$)

3.2 自动编码器架构设计

图4:可变速率压缩的网络架构

fig44.png

图4展示了实现可变速率压缩的两个关键组件:

图4a - 速率参数嵌入网络

λ (标量) → Linear(1, hidden) → GeLU → Linear(hidden, embed_dim) → λ̄ (向量)

该前馈网络将标量速率参数$\lambda$转换为高维嵌入向量$\bar{\lambda} \in \mathbb{R}^{embed_dim}$,使网络能够学习$\lambda$与特征变换之间的复杂关系。

图4b - 自动编码器架构

编码器结构:

  • Conv(c/2, 5, 2):下采样卷积层
  • 3个ConvNextAdaLN(c/2, 3, 1)块:条件化特征变换
  • Conv(β, 3, 1):通道调整层

解码器结构(对称):

  • ConvT(c/2, 5, 2):上采样转置卷积
  • 3个ConvNextAdaLN(c/2, 3, 1)块
  • ConvT(c, 3, 1):通道恢复层

关键设计原则:保持$\beta \times w/2 \times h/2$为常数,确保所有配置的瓶颈特征元素总数相同。

3.3 ConvNext自适应层归一化

图5:ConvNextAdaLN块架构

fig55.png

图5详细展示了条件卷积层的内部结构:

$$\text{ConvNextAdaLN}(x, \bar{\lambda}) = \gamma \odot \text{Conv}(x) + \beta$$

其中$\gamma$和$\beta$是从$\bar{\lambda}$通过MLP生成的调制参数:

  • 层归一化:标准化输入特征
  • 线性层:将嵌入映射到通道维度
  • Softplus/GeLU:非线性激活
  • 逐元素操作:条件化特征变换

这种设计允许网络根据速率参数动态调整特征变换。

4. 可变速率训练策略

4.1 动态速率采样

为实现可变速率,$\lambda$作为网络输入而非固定超参数。训练损失修改为:

$$\mathcal{L} = \sum_{\lambda \in \Lambda} l_{CE}(\hat{y}, y; \lambda) + \lambda l_R(\hat{z}; \lambda) \tag{6}$$

优化目标变为:

$$\theta^*, \phi^* = \arg\min_{\theta,\phi} \sum_{x,y \in \mathcal{D}} \sum_{\lambda \in \Lambda} l_{CE}(\hat{y}, y; \lambda) + \lambda l_R(\hat{z}; \lambda) \tag{7}$$

关键创新:使用对数均匀分布采样$\lambda$,而非线性均匀分布。这确保模型在高比特率和低比特率区域都得到均衡训练。

5. 实验评估

5.1 实验设置

  • 数据集:ImageNet (ILSVRC 2012),1.28M训练图像,50K验证图像
  • 图像尺寸:224×224
  • 训练:60个epoch,SGD优化器,初始学习率0.01,余弦退火
  • 基准模型:ResNet-50
  • 评价指标:Top-1准确率、比特率(bpp)、GPU编码延迟

5.2 模型配置间的RAC比较

图6:率-精度曲线对比

fig66.png

图6展示了三种配置在不同比特率下的Top-1准确率:

  • Config.1(浅层):最低延迟,但需要更高比特率
  • Config.2(中层):平衡的性能
  • Config.3(深层):最佳率-精度性能,但延迟最高

在[0.05, 0.4] bpp范围内,性能差异最为明显,体现了前端深度对压缩效率的影响。

表1:三种配置的性能对比

指标 Config.1 Config.2 Config.3
Delta-Acc. (%) 0.0 0.46 1.50
分类器延迟 (ms) 0.92 1.56 2.15
压缩时间 (ms) 2.17 2.25 2.25
总编码延迟 (ms) 4.42 5.20 5.79

压缩时间基本恒定,验证了设计原则的有效性。编码延迟增量(+0.78ms, +0.59ms)主要来自分类器延迟增量(+0.64ms, +0.59ms)。

5.3 与基线方法比较

图7:Delta-Accuracy vs 编码延迟

fig77.png

图7展示了本文方法与两个基线的综合比较:

  • Entropic Student:固定复杂度,单一工作点
  • Duan and Zhu 2022 (n0, n4, n8):通过改变残差块数量调整复杂度

关键结果:

  • Config.1优于n0 (+0.70%)和Entropic Student (+0.53%),且延迟最低
  • Config.2的Delta-accuracy达2.49%(相对于Entropic Student)
  • Config.3达到4.67%的Delta-accuracy,展示了深层特征的压缩优势

6. 结论

本文提出了首个用于边缘云系统的可变速率特征压缩方法,主要贡献包括:

  1. 灵活性:单一模型支持多种比特率,避免为每个工作点训练独立模型
  2. 通用性:设计框架适用于不同的CNN架构
  3. 性能优越:在RAC三方权衡中全面超越现有方法

局限性在于需要为每个编码器复杂度配置训练独立模型。未来工作将探索动态调整编码器深度的单一模型架构。


附录:数学推导

A. 变分自动编码器框架

从贝叶斯视角,压缩问题可表述为学习后验分布$p(z|x)$。使用变分推断,引入近似分布$q(z|x; \theta)$:

$$\log p(x) = \log \int p(x|z)p(z)dz$$

应用Jensen不等式:

$$\log p(x) \geq \mathbb{E}_{q(z|x)}[\log p(x|z)] - D_{KL}[q(z|x)||p(z)]$$

这给出证据下界(ELBO):

$$\mathcal{L}_{ELBO} = \mathbb{E}_{q(z|x)}[\log p(x|z)] - D_{KL}[q(z|x)||p(z)]$$

第一项是重建损失,第二项是率损失。

B. 量化与熵编码

量化操作定义为:

$$\hat{z}_i = \text{round}(z_i) = \lfloor z_i + 0.5 \rfloor$$

由于量化不可微,训练时使用加性均匀噪声近似:

$$\tilde{z}_i = z_i + \eta_i, \quad \eta_i \sim U(-0.5, 0.5)$$

熵编码的理论比特率:

$$R = \mathbb{E}_{x \sim p_x}\left[\sum_i -\log_2 p(\hat{z}_i)\right]$$

使用学习的累积分布函数(CDF)$F_i$:

$$p(\hat{z}_i = k) = F_i(k + 0.5) - F_i(k - 0.5)$$

C. 条件归一化的信息论解释

ConvNextAdaLN实现了条件信息瓶颈:

$$I(X; Z|\Lambda) = \int_{\lambda} p(\lambda) I(X; Z|\lambda) d\lambda$$

通过调制参数$\gamma(\lambda)$和$\beta(\lambda)$,网络学习速率相关的最优信息保留策略:

$$z = \gamma(\lambda) \odot f(x) + \beta(\lambda)$$

这允许在不同速率下动态调整信息瓶颈的紧度。

D. 对数采样的理论依据

比特率作为$\lambda$的函数近似呈指数关系:

$$R(\lambda) \approx a \cdot e^{-b\lambda}$$

在对数空间均匀采样确保各比特率区间获得均等的训练样本:

$$\lambda \sim \exp(U(\log \lambda_{min}, \log \lambda_{max}))$$

这保证了模型在整个率失真曲线上的均衡性能。

目录
相关文章
|
12月前
|
边缘计算
第十一届传感云和边缘计算系统国际会议 2025 11th International Conference on Sensor-Cloud and Edge Computing System (SCECS2025)
第十一届传感云和边缘计算系统国际会议 2025 11th International Conference on Sensor-Cloud and Edge Computing System (SCECS2025)
275 1
|
人工智能 边缘计算 安全
边缘计算与AI的融合:未来智能系统的关键
【5月更文挑战第24天】随着人工智能(AI)和物联网(IoT)技术的迅猛发展,数据的产生和处理需求呈指数级增长。边缘计算作为一种新兴的分布式计算范式,旨在通过在数据生成的源头即边缘设备上进行数据处理,来降低延迟、提高效率并保护隐私。本文探讨了边缘计算与AI技术结合的必要性,分析了其在实现智能化系统方面的优势,并讨论了在融合过程中面临的挑战及潜在的解决方案。
|
存储 边缘计算 人工智能
边缘计算系统逻辑架构:云、边、端协同,定义及关系
边缘计算系统逻辑架构:云、边、端协同,定义及关系
15393 1
边缘计算系统逻辑架构:云、边、端协同,定义及关系
|
存储 调度
《边缘云技术演进与发展白皮书》——五、边缘云分布式云管系统技术演进——01 分布式云管架构演进——2.云管第二阶段:融合管控
《边缘云技术演进与发展白皮书》——五、边缘云分布式云管系统技术演进——01 分布式云管架构演进——2.云管第二阶段:融合管控
437 0
《边缘云技术演进与发展白皮书》——五、边缘云分布式云管系统技术演进——01 分布式云管架构演进——2.云管第二阶段:融合管控
|
网络架构 块存储
《边缘云技术演进与发展白皮书》——五、边缘云分布式云管系统技术演进——01 分 布式云管架构演进——1.云管第一阶段:基本功能
《边缘云技术演进与发展白皮书》——五、边缘云分布式云管系统技术演进——01 分 布式云管架构演进——1.云管第一阶段:基本功能
564 0
|
存储 Kubernetes Cloud Native
《边缘云技术演进与发展白皮书》——五、边缘云分布式云管系统技术演进——01 分布式云管架构演进—— 3.云管第三阶段:多态混跑
《边缘云技术演进与发展白皮书》——五、边缘云分布式云管系统技术演进——01 分布式云管架构演进—— 3.云管第三阶段:多态混跑
286 0
|
运维 Cloud Native 中间件
《边缘云技术演进与发展白皮书》——五、边缘云分布式云管系统技术演进——01 分布式云管架构演进—— 4.云管第四阶段:生态支撑
《边缘云技术演进与发展白皮书》——五、边缘云分布式云管系统技术演进——01 分布式云管架构演进—— 4.云管第四阶段:生态支撑
324 0
|
存储 边缘计算 运维
《边缘云技术演进与发展白皮书》——五、边缘云分布式云管系统技术演进——02 多维协同—— 1.边边协同
《边缘云技术演进与发展白皮书》——五、边缘云分布式云管系统技术演进——02 多维协同—— 1.边边协同
848 0
|
消息中间件 边缘计算 运维
《边缘云技术演进与发展白皮书》——五、边缘云分布式云管系统技术演进——02 多维协同—— 2.云边协同
《边缘云技术演进与发展白皮书》——五、边缘云分布式云管系统技术演进——02 多维协同—— 2.云边协同
471 0
|
存储 边缘计算
《边缘云技术演进与发展白皮书》——五、边缘云分布式云管系统技术演进——03 边缘节点装配
《边缘云技术演进与发展白皮书》——五、边缘云分布式云管系统技术演进——03 边缘节点装配
389 0

相关产品

  • 物联网边缘计算