학술논문

基于多核卷积融合网络的BLSTM-CTC语音识别 / BLSTM-CTC SPEECH RECOGNITION BASED ON MULTI-CORE CONVOLUTIONAL FUSION NETWORK

Document Type

Academic Journal

Author

刘晓峰; 宋文爱; 陈小东; 郇晋侠; 李志媛; Liu Xiaofeng; Song Wenai; Chen Xiaodong; Huan Jinxia; Li Zhiyuan

Source

计算机应用与软件 / Computer Applications and Software. 38(11):167-173

Subject

语音识别;多核卷积融合网络;端到端;子空间高斯混合模型

Language

Chinese

ISSN

1000-386X

Abstract

语音信号在传播过程中会产生持续时长不等的音素特征,这些特征会影响语音识别的正确率.针对这一问题,提出一种多核卷积融合网络(Multi-core Convolution Fusion Network,MCFN),用于对不同长度的音素特征进行标准化,用标准化后的特征训练语音识别模型.此外,还利用子空间高斯混合模型(Subspace Gaussian Mixture Model,SGMM)将一般说话者的语音和信息加入到模型中,减小语料稀疏性对模型的影响.通过在Thchs30和ST-CMDS数据集对模型进行评估,结果显示,基于MCFN的BLSTM-CTC语音识别模型的识别字错误率(WER)较传统的语音识别模型有所降低.

Online Access

Full Text (CAJ - Wanfang) Find it@PNU

이메일

부산대학교 도서관

Online Access

메일 발송