上海交通大学计算机科学与工程系(CSE)

新闻动态

智能语音实验室钱彦旻副教授及其合作者的论文被评为 IEEE ASRU2019最佳论文

发布时间：2019-12-26

IEEE Automatic Speech Recognition and Understanding Workshop（ASRU）（自动语音识别与理解会议）是语音研究领域的重要旗舰会议。ASRU 2019已于2019年 12 月 14 日在新加坡的圣淘沙岛举行。在ASRU 的299篇论文中，共有7篇被提名为最佳论文。最终来自上海交大计算机系智能语音实验室的1篇论文获得了唯一的Best Paper Award。

钱彦旻老师及其合作者的获奖论文题目是：“MIMO-Speech: End-to-End Multi-Channel Multi-Speaker Speech Recognition”，论文的第一作者是钱彦旻老师指导的硕士研究生常烜恺同学，钱老师也是本文的通讯作者。（常烜恺本科和硕士就读于上海交大，于今年9月起在美国约翰霍普金斯大学语音和语言处理中心JHU-CSLP攻读博士学位）

图1：常烜恺同学在ASRU大会上领奖

图2：最佳论文获奖证书

论文简介

“鸡尾酒会问题”是语音研究领域比较典型也最具挑战的任务之一，它最早是由英国认知科学家 Edwaer Colin Cherry 于 1953 年提出，指的是在类似鸡尾酒会的存在多人同时说话并伴随着大量背景噪声的复杂声学场景中，尝试进行人声分离、跟踪和识别特定目标说话人言语的一系列问题。

近年来，随着深度学习的飞速发展，单说话人的语音识别效果已经得到了显著提升，无论是基于DNN-HMM的混合模型，还是端到端语音识别模型，都在很多任务上达到甚至超过了人类水平。然而，在鸡尾酒会场景下，这些系统的性能往往会严重下降，直接进行多人语音识别仍然十分困难。

针对鸡尾酒会场景下的语音识别问题，已有的一些研究提出的方法可以分为单通道和多通道两种情况。单通道的多人语音识别方法主要有基于深度聚类（DPCL）的语音分离+识别方法、基于排列不变形训练（PIT）的端到端识别方法、深度吸引子网络（DANet）以及引入说话人信息的SpeakerBeam方法。尽管这些方法已经取得了较好的识别效果，但与单人语音识别的性能相比仍然差距较大，因此在实际场景中难以广泛应用。相较于单通道方法，多通道的多人语音识别能够利用额外的空间信息来分离和识别不同说话人的语音，从而取得更好的性能。已有的多通道多人语音识别方法主要包括基于PIT的多通道分离+识别方法、引入通道间差异特征的DPCL分离+识别方法等。但这些方法主要注重于前端语音分离，而语音分离的误差往往会传递到后端的语音识别中，可能导致性能的下降。

在这篇论文中，我们提出了一种新颖的多通道多说话人语音识别系统架构——MIMO-Speech，该架构拓展了已有的单通道单人语音识别模型以处理多通道输入和多通道输出，从而可以完全建模多通道多说话人语音分离和识别。如图3所示，它主要包括：1）单通道掩蔽网络，2）多源神经波束形成器，以及3）多输出语音识别模型。该架构能够将输入的多人混叠语音直接映射到对应多人的文本序列。我们进一步采用了课程学习策略，充分利用训练集来提高性能。训练数据主要由单通道单人语音和多通道多人语音组成，其中单通道语音仅用于训练后端的语音识别模块，而多通道语音会通过前端+后端对整个模型进行训练。此外，在训练的初始阶段，我们将多人训练数据按照两个说话人的信噪比（SNR）由低到高排序，将单人训练数据按照长度升序排列，以便模型能够从较容易的样本开始逐步进行学习，从而获得更好的训练效果。

图3：MIMO-Speech模型示意图

MIMO-Speech是一个完全的端到端框架，它仅通过ASR的训练准则对整个模型进行优化。实验结果也表明，虽然对于前端的掩蔽网络和波束形成器没有显式约束，该模型仍然能够实现很好的整体性能。在多通道的WSJ1-2mix语料库上的实验表明，与单通道系统相比，我们提出的系统能够实现60％以上的WER降低，并且能够分离出具有高质量的增强语音（SI-SDR=23.1dB）。

图4：混叠语音以及分离的语音频谱

图4: 我们提出的MIMO-Speech从混叠语音中分离出的对应两个说话人的语音频谱，横轴表示时间，纵轴表示频率。从图中可以看出，该方法能够较好地保留不同说话人语音频谱的局部特征。大家可以访问 https://simpleoier.github.io/MIMO-Speech 试听更多MIMO-Speech系统分离出的语音样本。