快速适应统一自动驾驶场景多任务学习的训练范式
本工作由HCP Lab主要负责人梁小丹副教授指导完成。
在多任务学习中,针对多个下游任务提取具有更好可迁移性的特征是非常重要的。在目前流行的pretrain-finetune训练范式下,许多最新的自监督预训练方法在各种视觉任务上取得了显著的进展,但它们对于多任务场景的泛化能力仍有待探索。
这篇文章广泛研究了MoCo和SimCLR等各种类型的自监督方法在BDD100K数据集上的三个下游任务(包括语义分割、可驾驶区域分割和目标检测)的迁移性能。实验结果表明,它们的性能不是最优的,甚至远远落后于单任务模型,这可能是由于训练范式和架构设计的不同造成的。
为了解决这一问题,研究者提出了一种简单有效的pretrain-adapt-finetune训练范式,可以在不增加训练开销的情况下有效地将现成的预训练模型适应到下游的多个任务。在adapt阶段,我们加入多尺度adapter,同时固定预训练模型的参数。
此外,本研究将视觉语言预训练模型CLIP视为对 pretrain-adapt-finetune范式的有力补充,并提出了LV-Adapter,它通过特定任务提示将语言先验用于多任务模型以及视觉和文本特征之间的对齐。本实验表明,adapt阶段显着提高了那些现成的预训练模型的整体性能,并且LV-Adapter生成的上下文特征对下游任务具有普遍的好处。
点击阅读原文