학술논문

基于生成对抗网络与特征融合的多尺度音频序列生成方法 / Multi-scale audio sequence generation method based on generative adversarial networks and feature fusion
Document Type
Academic Journal
Source
计算机应用研究 / Application Research of Computers. 40(9):2770-2774
Subject
音频序列生成
生成对抗网络
半监督学习
特征融合
audio sequence generation
generative adversarial network
semi-supervised learning
feature fusion
Language
Chinese
ISSN
1001-3695
Abstract
音频数据规模不足是语音识别过程中的一个常见问题,通过较少的训练数据训练得到的语音识别模型效果难以得到保证.因此,提出一种基于生成对抗网络与特征融合的多尺度音频序列生成方法(multi-scale audio sequence GAN,MAS-GAN),包含多尺度音频序列生成器和真伪—类别判别器.生成器通过3个上采样子网络学习音频序列不同时域和频域的特征,再将不同尺度的特征融合成伪音频序列;判别器通过辅助分类器将生成的伪数据和真实数据区分开,同时指导生成器生成各类别的数据.实验表明,与目前主流的音频序列生成方法相比,所提方法的IS和FID分数分别提高了 6.78%和3.75%,可以生成更高质量的音频序列;同时通过在SC09数据集上进行分类实验来评估生成音频序列的质量,所提方法的分类准确率比其他方法高2.3%.