新闻动态

X-LANCE 实验室荣获DCASE2021挑战赛自动音频摘要任务第二名

发布时间:2021-08-26

近期,上海交通大学X-LANCE实验室参加2021年丰富音频领域旗舰挑战赛DCASE (Detection and Classification of Audio Scenes and Events) 自动音频摘要任务,采用音频事件分类任务预训练编码器和强化学习方法,超越了卡内基梅隆大学、中国科学院大学、字节跳动等国内外著名研究机构及高校提出的模型,在比赛中获得了总体第二名高校第一名的结果。


 

 

比赛简介 任务定义

丰富音频研究近年来逐渐成为音频研究的热点,包括声音场景分类、声音事件检测等语音之外的音频内容研究DCASE挑战赛是一年一度的声学场景和声音事件检测与分类比赛,自2016年起已经连续举办六届,其包含的任务类型也逐渐丰富,吸引了越来越多的国际著名研究团队参与,极大推动了声音场景和音频事件检测的相关研究进步。

 

1. 自动音频摘要任务

 

本次X-LANCE 实验室参加的自动音频摘要任务2020年开始,主要目标即自动生成不受约束的自然语言描述丰富音频的内容。丰富音频指音频的内容没有限制,不一定要包含语音或者某类声音,不局限在某个场景。音频摘要的内容可能包括:1. 声音的性质;如,低沉的声音2. 环境;如,人们在小而空的房间里谈话3. 高层次的、抽象的知识;如,钟敲了三次。这一项任务将既往音频内容的单纯分类推向了更加类人的理解层面,要求用自然语言描述复杂、有关联的多项事件。

 

比赛数据

比赛的官方数据集是Clotho,分成development, validation, evaluation三个公开的子集和一个不公开的test子集,参赛队伍在公开部分的数据上训练和验证模型效果,最终排名由模型在test集合上的性能决定。Development, validationevaluation集合共包含约6000个时长为15~30秒的音频片段,每条音频对应五个不同的人工标注。由于数据集较小,选择合适的额外数据、预训练模型成为本任务的重点。本次比赛也鼓励使用官方数据集之外的额外数据及预训练模型。

 

挑战与方法

由于音频摘要任务相比声音场景和声音事件检测任务,标注形式为自然语言,标注过程较为麻烦,所以该任务的数据集大小非常有限,标注较为多样,同一条音频可能对应着多个不同风格的摘要,描述上使用的词语、句式有一定差异,给模型的训练带来一定的挑战

 

2. 基于预训练和强化学习的音频摘要模型概览

 

我们本次任务采用的是encoder-decoder结构,encoder从输入音频中提取压缩过的、有用的信息,通常是一个embedding序列,decoder将这个embedding序列解码成具体的描述。由于音频摘要的重点描述内容通常是声音事件,我们选择AudioSet这个大规模的声音事件数据集做预训练。Decoder采用的是单层的GRU,与LSTM相比结构相似、参数更少。Encoderdecoder之间采取传统的attention连接机制。

 

Clotho上训练结束后,我们还采用了参加2020DCASE挑战赛时使用的强化学习方法继续训练模型。该方法基于policy gradient,用模型采样得到的整个序列的reward直接优化评价准则。我们使用self-critical sequence training,定义reward为模型采样得到的句子的CIDEr分数,baseline为模型贪婪解码得到的句子的CIDEr分数。

 

实验结果

1列出了在evaluation子集上的结果,其中,SD表示SPIDEr,是比赛排名使用的指标,为自然语言生成任务中评价指标CIDERSPICE的平均。可见,预训练encoder和强化学习大大提升了模型性能。

 

1. 实验结果

 

相关工作

1. 提出Audio Caption任务并发布了第一个公开的数据集,相关成果发表于ICASSP 2019

论文:https://arxiv.org/abs/1902.09254

代码:

https://github.com/RicherMans/AudioCaption

 

2. 使用CRNN encoder和强化学习,在DCASE2020挑战赛中获得第四,相关成果发表于DCASE 2020 workshop

论文:

https://x-lance.sjtu.edu.cn/papers/2020/xnx98-xu-dcase2020.pdf

 

3. 使用在相关任务上预训练的音频encoder在音频摘要任务上做迁移学习,并探索不同数据量和模型结构对迁移学习的影响,相关成果发表于ICASSP 2021

论文:

https://ieeexplore.ieee.org/abstract/document/9413982

 


联系我们 webmaster@cs.sjtu.edu.cn

上海交通大学计算机科学与工程系版权所有 @ 2013