학술논문

基于多尺度阶梯时频Conformer GAN的语音增强算法 / Speech enhancement algorithm based on multi-scale ladder-type time-frequency Conformer GAN
Document Type
Academic Journal
Source
计算机应用 / Journal of Computer Applications. 43(11):3607-3615
Subject
语音增强
多尺度
Conformer
生成对抗网络
指标判别器
深度学习
speech enhancement
multi-scale
Generative Adversarial Network(GAN)
metric discriminator
deep learning
Language
Chinese
ISSN
1001-9081
Abstract
针对频率域语音增强算法中因相位混乱产生人工伪影,导致去噪性能受限、语音质量不高的问题,提出一种基于多尺度阶梯型时频Conformer生成对抗网络(MSLTF-CMGAN)的语音增强算法.将语音语谱图的实部、虚部和振幅谱作为输入,生成器首先在多个尺度上利用时间-频率Conformer学习时域和频域的全局及局部特征依赖;其次,利用Mask Decoder分支学习振幅掩码,而Complex Decoder分支则直接学习干净的语谱图,融合这两个Decoder分支的输出可得到重建后的语音;最后,利用指标判别器判别语音的评价指标得分,通过极大极小训练使生成器生成高质量的语音.采用主观评价平均意见得分(MOS)和客观评价指标在公开数据集VoiceBank+Demand上与各类语音增强模型进行对比,结果显示,所提算法的MOS信号失真(CSIG)和MOS噪声失真(CBAK)比目前最先进的方法CMGAN(基于Conformer的指标生成对抗网络语音增强模型)分别提高了0.04和0.07,尽管它的MOS整体语音质量(COVL)和语音质量的感知评估(PESQ)略低于CMGAN,但与其他对比模型相比在多项主客观语音质量评估方面的评分均处于领先水平.