贺业涛1,容诣展1,吴 凡1,蔡颖慧2*
(1.浙江树人大学 信息科技学院,浙江 杭州 310015; 2.常州大学 计算机与人工智能学院,江苏 常州 213164)
摘要:基于深度学习的单通道语音分离方法最近取得巨大进展.目前大多数方法都通过混合音频的时频域表示来进行分离任务,这种方法具有声音信号的相位无法精确重建以及计算谱图时的长延迟等缺点.为了解决这些缺点,文章基于一种时域音频分离网络(Conv-TasNet)进行单通道语音分离任务,这是一种用于端到端时域语音分离的深度学习框架.通过对Conv-TasNet进行改进,网络模型的性能指标源失真比达到11.98 dB,相比于原始的Conv-TasNet,该网络模型具有更好的性能.
关键词:语音分离;单通道;时域分离;深度学习
中图分类号:TN912 文献标志码:A 文章编号:1671-2714(2023)01-0014-06