第十届IEEE国际中文口语语言处理大会于10月17日-10月20日在中国天津召开,它是中文语音语言处理领域的IEEE旗舰会议。我系智能交互与认知工程上海高校重点实验室俞凯老师和钱彦旻老师所指导语音实验室一共发表了4篇论文,其中有一篇关于多任务鲁棒语音端点检测的论文获得了最佳学生论文奖(Best
Student Paper Award)。今年大会一共录取137篇论文,10篇论文进入最终的最佳论文候选,最后共有2篇被评为最佳学生论文。
论文相关介绍如下:
Yimeng Zhuang, Sibo Tong, Maofan Yin, Yanmin
Qian, Kai Yu. Multi-Task Joint-Learning for Robust Voice Activity Detection.
International Symposium on Chinese Spoken Language Processing(ISCSLP), Tianjin,
China, 2016.
语音端点检测是语音处理应用中的重要一步,特别是在语音识别领域。基于模型的语音端点检测方法在实践中被广泛使用并取得了成功,这类方法通常将语音端点检测问题看作是语音帧层面的分类问题,并且应用统计模型,如混合高斯模型(GMM)或深度神经网络(DNN),区分每一帧是否是人类语音。由于独立假设,语音端点检测结果容易碎片化。并且在面对真实环境下多类别噪声环境时,性能会急剧下降,远远不能满足实际应用需求。上海交通大学计算机系语音实验室,针对噪声条件下的语音端点检测问题,提出了多任务的深度神经网络结构。在模型训练时,多个连续语音帧的标注被拼接起来作为训练目标,同时语音增强任务被联合训练,以增强系统在噪声环境下的鲁棒性,具体如下图所示。测试时语音端点检测结果由多帧预测结果合并得到。我们所提出的模型,在噪声环境下相比传统的单帧预测的深度神经网络,具有更稳定的预测性能以及更好的鲁棒性。