近日,计算机视觉顶会CVPR 2024公布了录用名单,上海交通大学计算机系计算机应用研究所共有24篇论文被录用。计算机应用研究所团队由马利庄教授领导,成员包括卢策吾教授、盛斌教授、严骏驰教授、谢源教授、张志忠副教授、谭鑫副研究员、易冉助理教授和李永露助理教授等。团队录用的论文在3D场景理解、数字媒体智能生成、深度人脸安全、视觉工业质检、行为理解、具身智能等重要课题上取得突破。
精选论文介绍:
1.论文标题:Make-It-Vivid: Dressing Your Animatable Biped Cartoon Characters from Text
作者及对应单位:
唐俊姝(上海交通大学),曾艳红(浦江实验室),樊珂(上海交通大学),汪绪恒(清华大学),戴勃(浦江实验室),马利庄(上海交通大学),陈恺(浦江实验室)
论文简介:
本文专注于基于输入文本的卡通人物自动纹理设计,首次提出了在 UV 空间中从文本生成高质量纹理的方法,简称Make-It-Vivid。本方法通过使用多轮视觉问答系统为三维模型生成详细的文本纹理配对数据。然后,本方法定制一个预训练的文本到图像生成模型来生成具有UV纹理结构的纹理图,同时保留自然图像知识。此外,为了增强细粒度细节,本方法提出了一种新颖的对抗性学习方案来缩短原始数据集和真实纹理域之间的域差距。大量的实验表明,本方法从生成质量和效率上优于当前的纹理生成方法,从而实现高效的和忠于文本的纹理生成。
配图:
2.论文标题:Test-Time Domain Generalization for Face Anti-Spoofing
作者及对应单位:
周千寓(上海交通大学),张克越(腾讯优图实验室),姚太平(腾讯优图实验室),鲁学权(澳大利亚乐卓博大学),丁守鸿(腾讯优图实验室),马利庄(上海交通大学)
论文简介:
人脸活体检测旨在防止人脸识别系统受到各种人脸呈现攻击的干扰。现有的域泛化活体检测方法主要侧重于在训练过程中学习域不变特征,然而这可能无法保证在与源域分布具有巨大差异的未见目标域数据上的泛化性。本文的核心思想是,测试数据不仅仅是用于模型测试,还可以作为一种有价值的资源以提高对活体检测的泛化性。本文提出了一个新的测试阶段域泛化(TTDG)框架,该框架利用测试数据以提高模型的泛化能力。主要包括两个关键的组件:测试阶段风格投影(TTSP)和多样化风格偏移模拟(DSSS),以有效地将未见数据投影到可见的源域空间。其中,测试阶段风格投影将任意未知域的测试样本的风格投影到训练分布的已知源域空间。此外,本文设计了有效的多样化风格偏移模拟,通过两个特别设计的损失和可学习的风格基在超球面特征空间中合成不同的风格偏移。本方法不需要在测试时重新更新模型,并且不仅可以无缝集成到基于CNN的活体检测方法中,还可以集成到基于ViT主干的活体检测框架。在跨域活体检测基准的大量实验分析证明了所提方法的先进性和有效性。
配图:
3.论文标题:BA-SAM: Scalable Bias-Mode Attention Mask for Segment Anything Model
作者及对应单位:
宋一然(上海交通大学),周千寓(上海交通大学),李祥泰(南洋理工大学),范登平(南开大学),鲁学权(澳大利亚乐卓博大学),马利庄(上海交通大学)
论文简介:
本文主要解决了分割一切模型(SAM)对图像分辨率变化的挑战。SAM以其零样本条件下的泛化性而闻名,然而SAM在面对不同分辨率大小的数据集时表现出显著的性能下降。之前的方法往往将图像调整为固定大小或修改模型结构以适应分辨率变化。但对于SAM来说,这些方法会损失SAM丰富的先验知识。此外,这种特定任务下的调优需要对模型进行重新训练,这会带来昂贵的计算成本。本文首次将图像分辨率变化的问题重新定义为长度外推问题,其中只有token序列的长度变化,而不同分辨率的patch size保持不变。为此,本文提出了可扩展的偏置模式注意掩码框架(BA-SAM),以增强SAM对不同图像分辨率的适应性,同时不需要对网络结果进行修改。具体来说,首先引入了一个新的比例因子以确保当token序列长度变化时,注意层的点积值的大小保持一致。其次,提出了一个偏置模式的注意力掩码,允许每个token优先考虑相邻信息以减轻未训练的远程信息的影响。本文在零样本泛化和微调两种情况下证明了方法的有效性和泛化性。在不同数据集(DIS5K、DUTS、ISIC、COD10K和COCO)上的广泛评估表明,BA-SAM能够显著缓解零样本设置下的性能下降,并能够通过极小的微调实现最先进的性能。
配图:
4.论文标题:Rethinking Generalizable Face Anti-spoofing via Hierarchical Prototype-guided Distribution Refinement in Hyperbolic Space
作者及对应单位:
胡澄洋(上海交通大学),张克越(腾讯优图实验室),姚太平(腾讯优图实验室),丁守鸿(腾讯优图实验室),马利庄(上海交通大学)
论文简介:
泛化活体检测方法受到越来越多的关注,对于保障人脸检测系统在未知环境和未知攻击的鲁棒性和准确性都有非常重要的意义。以前的方法忽略了样本中的层次关系,将特征都对齐到同一特征空间,这样往往会造成一定的特征损失。为了实现这一目的,我们提出了一种新颖的分层原型指导分布细化框架,通过引入叶子原型和非叶子原型在双曲空间中,来表达活体检测数据潜在的分层结构,同时我们提出了分层原型学习,通过约束双曲空间中的多层次关系,在样本-样本,样本-原型与原型-原型进行关系优化,引导域对齐并提高判别性。我们还设计了面向原型的分类器,以提高最终决策的稳健性。
配图:
5.论文标题:Re-thinking Data Availability Attacks Against Deep Neural Networks
作者及对应单位:
方彬(上海交通大学),李博(腾讯优图实验室),吴双(腾讯优图实验室),丁守鸿(腾讯优图实验室),易冉(上海交通大学),马利庄(上海交通大学)
论文简介:
将未授权的个人数据用于商业模型的行为引起了人们的关注。为了解决该问题,研究人员提出了Availability Attacks使得数据无法被利用。我们重新审视了现有的Availability Attacks方法,并提出了一种新的两步Min-Max-Min优化范式来生成鲁棒的Unlearnable Noise。另外,我们公式化了攻击效果并用该公式约束优化目标。我们的方法在较低的成本下取得了最好的效果。
6.论文标题:SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation
作者及对应单位:
陈思辰(上海交通大学),张映艺(腾讯优图实验室),黄思铭(腾讯优图实验室),易冉(上海交通大学),樊珂(上海交通大学),张睿欣(腾讯优图实验室),陈珮娴(腾讯优图实验室),王军(腾讯微信支付实验室),丁守鸿(腾讯优图实验室),马利庄(上海交通大学)
论文简介:
小型自注意力模型往往受到欠拟合问题影响,为了解决这个问题,我们提出了子注意力模型的潜在深度概念,并基于此设计了一种自蒸馏的训练方法,该方法在人体姿态估计任务上相同性能的情况下能够降低25%的参数量与33%的运算量,同时在图像分类与分割任务中也证实有效。
配图:
7.论文标题:SuperSVG: Superpixel-based Scalable Vector Graphics Synthesis
作者及对应单位:
胡腾(上海交通大学),易冉(上海交通大学),钱柏宏(上海交通大学),张江宁(浙江大学),来煜坤(卡迪夫大学)Paul L Rosin(卡迪夫大学)
论文简介:
我们提出了一种基于超像素的图像矢量化模型SuperSVG,实现快速而高精度的图像矢量化。 我们将输入图像分解为超像素,以帮助模型集中关注颜色和纹理相似的区域。我们提出了一个两阶段的自训练框架,其中粗略阶段重建整体结构,精细阶段用以丰富细节。此外,我们提出了一种新的动态路径调整损失,以帮助精细阶段模型从粗略阶段模型中继承知识。大量实验证明,我们的方法在重建准确性和推理时间方面表现出卓越的性能。
配图:
8.论文标题:Real-IAD: A Real-World Multi-view Dataset for Benchmarking Versatile Industrial Anomaly Detection
作者及对应单位:
汪铖杰(上海交通大学,腾讯优图实验室),朱文兵(复旦大学,荣旗工业),高斌斌(腾讯优图实验室),甘振业(腾讯优图实验室),张江宁(腾讯优图实验室),顾智浩(上海交通大学),钱曙光(荣旗工业),陈敏刚(上海软件中心),马利庄(上海交通大学)
论文简介:
文本提出了一个名为Real-IAD的工业质检数据集,包含30种不同工业零件,共计15万高清图像,相较已有数据集在规模上有10倍的提升。同时,根据实际应用场景提出多视角特性,以及FUIAD (Fully Unsupervised Industrial Anomaly Detection)新技术问题抽象,并给出了现有方法的表现以及问题分析。同时该数据因在多个维度上的规模提升,对于包括统一质检模型在内的多个工业异常检测技术研究方向均有助力。
配图:
9. 论文标题:Boosting Order-Preserving and Transferability for Neural Architecture Search: a Joint Architecture Refined Search and Fine-tuning Approach
作者及对应单位:
张北辰(上海交通大学),王晓星(上海交通大学), 秦啸涵(上海交通大学), 严骏驰(上海交通大学)
论文简介:
超网络代理是一种高效的估计神经网络性能的方式,但学界对其估计准确性的研究较少。本文通过实验分析了超网络代理评价在全局搜索空间和局部搜索空间上的保序能力,并指出该方法在局部搜索空间上的保序性较差。针对该问题,本文提出了一种将架构搜索与超网微调相结合的精细搜索策略,并通过实验证明了该方法的有效性。
10.论文标题:Dancing with Still Images: Video Distillation via Static-Dynamic Disentanglement
作者及对应单位:
王梓宇*(上海交通大学),许越*(上海交通大学),卢策吾(上海交通大学),李永露(上海交通大学)(*:共同一作)
论文简介:
最近,数据集蒸馏技术为高效机器学习开辟了新径,尤其在图像数据集方面取得了显著进展。然而,针对视频数据集的蒸馏——其核心特征在于独特的时间维度——仍然是一个未被深入研究的领域。在本项研究中,我们首次系统地探讨了视频蒸馏,并提出了一个分类体系,用以对时间压缩技术进行分类。我们发现,在蒸馏过程中,时间信息往往未能得到充分学习,而合成数据的时间维度对学习的贡献也相对有限。这些发现促使我们构建了一个统一的框架,旨在分离视频中的动态和静态信息。该框架首先将视频转化为静态图像,形成静态记忆,随后通过一个可训练的动态记忆模块来补充动态和运动信息。我们的方法在不同规模的视频数据集上取得了先进的性能,并且显著降低了存储成本。
配图: