학술논문

基于生成对抗网络与特征融合的多尺度音频序列生成方法 / Multi-scale audio sequence generation method based on generative adversarial networks and feature fusion

Document Type

Academic Journal

Author

许华杰; 张勃; Xu Huajie; Zhang Bo

Source

计算机应用研究 / Application Research of Computers. 40(9):2770-2774

Subject

音频序列生成
生成对抗网络
半监督学习
特征融合
audio sequence generation
generative adversarial network
semi-supervised learning
feature fusion

Language

Chinese

ISSN

1001-3695

Abstract

音频数据规模不足是语音识别过程中的一个常见问题,通过较少的训练数据训练得到的语音识别模型效果难以得到保证.因此,提出一种基于生成对抗网络与特征融合的多尺度音频序列生成方法(multi-scale audio sequence GAN,MAS-GAN),包含多尺度音频序列生成器和真伪—类别判别器.生成器通过3个上采样子网络学习音频序列不同时域和频域的特征,再将不同尺度的特征融合成伪音频序列;判别器通过辅助分类器将生成的伪数据和真实数据区分开,同时指导生成器生成各类别的数据.实验表明,与目前主流的音频序列生成方法相比,所提方法的IS和FID分数分别提高了 6.78％和3.75％,可以生成更高质量的音频序列;同时通过在SC09数据集上进行分类实验来评估生成音频序列的质量,所提方法的分类准确率比其他方法高2.3％.

Online Access

Full Text (CAJ - Wanfang) Find it@PNU

이메일

부산대학교 도서관

Online Access

메일 발송