上海交通大学计算机科学与工程系(CSE)

新闻动态

X-LANCE 实验室荣获DCASE2021挑战赛自动音频摘要任务第二名

发布时间：2021-08-26

近期，上海交通大学X-LANCE实验室参加2021年丰富音频领域旗舰挑战赛DCASE (Detection and Classification of Audio Scenes and Events) 自动音频摘要任务，采用音频事件分类任务预训练编码器和强化学习方法，超越了卡内基梅隆大学、中国科学院大学、字节跳动等国内外著名研究机构及高校提出的模型，在比赛中获得了总体第二名，高校第一名的结果。

比赛简介及任务定义

丰富音频研究近年来逐渐成为音频研究的热点，包括声音场景分类、声音事件检测等语音之外的音频内容研究。DCASE挑战赛是一年一度的声学场景和声音事件检测与分类比赛，自2016年起已经连续举办六届，其包含的任务类型也逐渐丰富，吸引了越来越多的国际著名研究团队参与，极大推动了声音场景和音频事件检测的相关研究进步。

图1. 自动音频摘要任务

本次X-LANCE 实验室参加的自动音频摘要任务自2020年开始，主要目标即自动生成不受约束的自然语言描述丰富音频的内容。丰富音频指音频的内容没有限制，不一定要包含语音或者某类声音，不局限在某个场景。音频摘要的内容可能包括：1. 声音的性质；如，低沉的声音2. 环境；如，人们在小而空的房间里谈话3. 高层次的、抽象的知识；如，钟敲了三次。这一项任务将既往音频内容的单纯分类推向了更加类人的理解层面，要求用自然语言描述复杂、有关联的多项事件。

比赛数据

本次比赛的官方数据集是Clotho，分成development, validation, evaluation三个公开的子集和一个不公开的test子集，参赛队伍在公开部分的数据上训练和验证模型效果，最终排名由模型在test集合上的性能决定。Development, validation和evaluation集合共包含约6000个时长为15~30秒的音频片段，每条音频对应五个不同的人工标注。由于数据集较小，选择合适的额外数据、预训练模型成为本任务的重点。本次比赛也鼓励使用官方数据集之外的额外数据及预训练模型。

挑战与方法

由于音频摘要任务相比声音场景和声音事件检测任务，标注形式为自然语言，标注过程较为麻烦，所以该任务的数据集大小非常有限，标注较为多样，同一条音频可能对应着多个不同风格的摘要，描述上使用的词语、句式有一定差异，给模型的训练带来一定的挑战。

图2. 基于预训练和强化学习的音频摘要模型概览

我们本次任务采用的是encoder-decoder结构，encoder从输入音频中提取压缩过的、有用的信息，通常是一个embedding序列，decoder将这个embedding序列解码成具体的描述。由于音频摘要的重点描述内容通常是声音事件，我们选择AudioSet这个大规模的声音事件数据集做预训练。Decoder采用的是单层的GRU，与LSTM相比结构相似、参数更少。Encoder和decoder之间采取传统的attention连接机制。

在Clotho上训练结束后，我们还采用了参加2020年DCASE挑战赛时使用的强化学习方法继续训练模型。该方法基于policy gradient，用模型采样得到的整个序列的reward直接优化评价准则。我们使用self-critical sequence training，定义reward为模型采样得到的句子的CIDEr分数，baseline为模型贪婪解码得到的句子的CIDEr分数。

实验结果

表1列出了在evaluation子集上的结果，其中，SD表示SPIDEr，是比赛排名使用的指标，为自然语言生成任务中评价指标CIDER和SPICE的平均。可见，预训练encoder和强化学习大大提升了模型性能。

表1. 实验结果

相关工作

1. 提出Audio Caption任务并发布了第一个公开的数据集，相关成果发表于ICASSP 2019

论文：https://arxiv.org/abs/1902.09254

代码：

https://github.com/RicherMans/AudioCaption

2. 使用CRNN encoder和强化学习，在DCASE2020挑战赛中获得第四，相关成果发表于DCASE 2020 workshop

论文：

https://x-lance.sjtu.edu.cn/papers/2020/xnx98-xu-dcase2020.pdf

3. 使用在相关任务上预训练的音频encoder在音频摘要任务上做迁移学习，并探索不同数据量和模型结构对迁移学习的影响，相关成果发表于ICASSP 2021

论文：

https://ieeexplore.ieee.org/abstract/document/9413982