视觉表征学习在现实世界中的应用无处不在,包括视觉理解、视频理解、多模态分析、人机交互和城市计算。大数据时代出现了大量的多模态异构空间/时间/时空数据,可解释性缺乏、鲁棒性以及分布外泛化能力不足正成为现有视觉模型的挑战。现有的大多数方法倾向于拟合原始数据/变量分布,并忽略了多模态知识背后的本质因果关系,同时缺乏对以下问题的统一指导和分析,即现代视觉表征学习方法为何容易被数据偏误影响,并具有有限的泛化和认知能力。鉴于此,近年来,受与人类认知水平相当的智能体的强大推理能力的启发,研究者们在开发因果推理范式以实现具有良好认知能力的鲁棒表征和模型学习方面做出了巨大努力。中山大学林倞教授团队充分阐述并分析了现有因果推理、多模态表征学习的研究工作,针对因果推理在多模态表征学习领域的应用进行了全面的综述,其中包括基本理论、模型和数据集。同时,进一步分析了多模态表征学习常见的一些任务(如目标检测、场景图生成、视觉推理、视觉常识推理、视觉问答等)所面临的表征鲁棒性差、泛化能力不足的特点,讨论和分析了因果推理在视觉表征学习领域的发展现状和应用场景,还讨论了当前方法和数据集存在的局限性。
中文导读:
https://mp.weixin.qq.com/s/-OlJ44DWE6nuX_OVyykURw
论文标题:
Causal Reasoning Meets Visual
Representation Learning:A
Prospective Study
作者:
Yang Liu, Yushen Wei, Hong Yan,
Guanbin Li, Liang Lin
Machine Intelligence Research(MIR), 2022. (2022国际影响力TOP期刊,中国国际影响力优秀学术期刊)
https://doi.org/10.1007/s11633-022-1362-z
- End -
搜索「」网络结果
暂无留言
微信扫一扫关注该公众号
当前内容可能存在未经审核的第三方商业营销信息,请确认是否继续访问。
微信扫一扫可打开此内容,使用完整服务
请选择补充原因