音频AI-NS的业界进展

发布时间:2026/6/28 16:19:59
音频AI-NS的业界进展 对于针对瞬态/非稳态噪声的 AI 去噪业界近年2024-2026取得了显著进展核心趋势是从频域掩码预测向时域端到端处理和状态空间模型演进同时兼顾端侧实时部署需求。以下是主要进展一、架构演进从 CNN/RNN 到状态空间模型SSM1. Mamba / SSM 架构的引入传统 Transformer 在长序列建模上计算复杂度高而 RNN 难以并行训练。Mamba 状态空间模型成为新兴选择CleanUMamba采用 U-Net 编码器-解码器架构将自注意力替换为 Mamba 状态空间块实现4ms 算法延迟的实时时域语音增强aTENNuate基于 BrainChip 专有的 TENNsTemporal Neural Networks一种状态空间模型变体用线性循环单元捕获音频长程模式。训练时用卷积模式并行处理推理时切换为循环模式消除冗余计算实现1ms 推理延迟参数量 100 万计算量仅 0.33 GMAC/s这些模型的核心优势是训练时并行、推理时循环既保留了 Transformer 的长程依赖能力又满足了实时音频的流式处理需求。2. 深度状态空间自动编码器aTENNuate 进一步提出深度状态空间自动编码器直接处理原始音频波形无需 STFT 预/后处理避免了频域变换引入的相位失真和延迟。其特点包括端到端原始波形处理保留细粒度音频细节支持去噪、超分辨率、去量化等多任务在 VoiceBankDEMAND 测试集上 PESQ 达 3.27DNS1 测试集达 2.98优于 DeepFilterNet3 和 RNNoise二、时域滤波与可解释 AI 的融合TVF时变滤波2026传统深度学习是黑盒而 DSP 可解释但难以处理非稳态噪声。TVF 将两者结合用轻量神经网络实时预测35 级联二阶 IIR 滤波器biquad的时变系数完全可解释的线性处理链频谱修改显式可调仅100 万参数低延迟实时运行相比静态 DDSP 均衡器和纯深度学习的 DFNet3在 Valentini-Botinhao 数据集上展现出对变化噪声条件的有效适应能力这代表了可微分 DSP 深度学习的新范式既避免了纯神经网络的 artifacts又克服了传统 DSP 对非稳态噪声的无力。三、全频带48kHz低延迟去噪移动设备优化方案多数 DNN 去噪方法聚焦窄带8kHz或宽带16kHz全频带48kHz实时处理是近年重点Nokia 轻量 DNN基于修改版 UNet采用回望帧look-back frames捕获长时依赖卷积核时域跨度temporal spanning捕获短时模式因果实例归一化causal instance normalization反向瓶颈inverted bottlenecks受 MobileNet 启发在现代手机上实时因子 0.02处理 20ms 帧耗时 0.4ms该方案证明通过精巧的架构设计全频带实时 AI 去噪完全可以在移动设备上运行。四、端侧 AI 加速器与硬件协同设计NeuralAids无线耳机端侧方案传统认知认为无线耳机等超小型设备无法运行流式深度学习。NeuralAids 通过软硬件协同设计突破这一限制专用语音 AI 加速器集成可编程低功耗 AI 硬件优化双路径神经网络分别处理时间和频率成分混合精度量化 量化感知训练在严格功耗约束下实现实时推理性能处理 6ms 音频块推理时间 5.54ms功耗仅 71.6mW28 人用户研究在语音质量和噪声抑制上均优于现有端侧模型这标志着端侧 AI 去噪从可行走向实用不再依赖云端或高端手机 SoC。五、混合策略掩码 深度滤波DeepFilterNet 系列DeepFilterNet 采用智能分工策略掩码预测处理相对简单的降噪部分稳态噪声抑制深度滤波Deep Filtering用神经网络预测频域线性复数滤波器专门处理瞬态噪声如婴儿哭声等含周期性成分的难处理噪声滤波器可利用跨频带信息crossband filtering提升效果以极低的计算复杂度达到与大型生成模型竞争的性能DeepFilterNet 32025-2026 更新进一步增加层数、扩展训练数据可处理合成 AI 语音、拥挤场所等更复杂噪声延迟维持 10-20msPESQ 达 3.5-4.0STOI 0.95六、超低延迟探索1ms 算法延迟亚毫秒级实时增强对于助听器等场景延迟要求极为严苛Deep FIR 方案通过估计 FIR 滤波器实现因果处理算法延迟降至1ms采用短合成窗口 扩展分析窗口LSTW 技术突破传统 STFT 的 16-32ms 延迟限制此前仅非因果逐样本去噪达到过类似延迟因果亚毫秒级是首次实现七、技术对比与选型建议方案延迟采样率参数量核心优势适用场景RNNoise~10ms48kHz极小开创性实时 AI 去噪CPU 即可运行VoIP、低端设备DeepFilterNet 310-20ms48kHz轻量掩码深度滤波混合瞬态噪声处理强视频会议、直播aTENNuate/TENNs1ms48kHz1M状态空间模型训练并行/推理循环边缘 AI、IoTCleanUMamba4ms48kHz紧凑Mamba 架构U-Net 编码器-解码器实时通信Nokia 轻量 DNN0.4ms (RTF0.02)48kHz轻量MobileNet 风格反向瓶颈移动优化智能手机NeuralAids5.54ms-量化后极小专用加速器 混合精度量化无线耳机TVF低延迟-1M可解释 IIR 滤波器链无黑盒 artifacts专业音频、边缘 AI八、一句话总结非稳态噪声 AI 去噪的近年进展可概括为三降一升降低延迟从 10ms 到 1ms、降低算力从云端 GPU 到端侧 mW 级、降低参数量从百万级到十万级同时提升音质PESQ 从 3.0 到 4.0。核心驱动力是状态空间模型Mamba/TENNs替代 Transformer/RNN、时域端到端处理替代频域掩码、以及软硬件协同设计实现端侧部署。