VTON 360: High-Fidelity Virtual Try-On from Any Viewing Direction
Zijian He, Yuwei Ning, Yipeng Qin, Guangrun Wang, Sibei Yang, Liang Lin, Guanbin Li
摘要:
虚拟试穿(VTON)是一项变革性技术,在电子商务和时尚设计领域具有广泛应用,使服装在个人身上的数字化可视化更加逼真。在本研究中,我们提出了 VTON 360,这是一种新颖的 3D VTON 方法,旨在解决高保真虚拟试穿的开放性挑战,并支持任意视角的渲染。具体而言,我们利用 3D 模型与其多视角 2D 渲染图像之间的等价性,将 3D VTON 重新表述为 2D VTON 的扩展,从而确保多视角间的一致性。为此,我们扩展了 2D VTON 模型,使其输入包括多视角服装图像和不含服装的人体图像,并提出了几项创新技术以提升模型性能,包括:i) 伪 3D 姿态表示,通过 SMPL-X 3D 人体模型生成的法线图进行建模;ii) 多视角空间注意力机制,用于捕捉不同视角特征之间的相关性;iii) 多视角 CLIP 嵌入,将相机信息融入 2D VTON 的服装 CLIP 特征,以提升试穿效果。在大规模真实数据集和电子商务平台服装图像上的实验表明,我们的方法具有显著的有效性。
Cross-modal Causal Relation Alignment for Video Question Grounding
Weixing Chen, Yang Liu, Binglin Chen, Jiandong Su, Yongsen Zheng, Liang Lin
摘要:
视频问题定位(VideoQG)任务要求模型不仅要回答问题,还需同时推理出支持答案的相关视频片段。然而,现有的 VideoQG 方法通常受到跨模态伪相关性的影响,导致模型无法准确识别与问题匹配的关键视觉场景。此外,尽管大模型拥有丰富的先验知识,并在零样本设定下表现出色,但仍难以避免伪相关性的问题,从而限制了其在特定下游任务中的应用。为了解决这一挑战,我们提出了一种新的因果感知VideoQG 框架,称为跨模态因果关系对齐(Cross-modal Causality Relation Alignment, CRA),旨在消除伪相关性,并提升问答任务与视频时间定位之间的因果一致性。CRA 包含以下三个关键模块:i) 高斯平滑注意力定位模块,通过跨模态注意力机制估计时间区间,并利用自适应高斯滤波去噪;ii) 跨模态对齐,利用视频片段与问答特征之间的双向对比学习,提升弱监督 VideoQG 的表现;iii) 显式因果干预模块,通过前门干预去除视觉模态中的混淆因素,并使用 后门干预减少语言模态中的偏差。在两个 VideoQG 数据集上的广泛实验表明,CRA 在发现视觉指向内容和提升问题推理的稳健性方面具有显著优势。项目主页:https://github.com/WissingChen/CRA-GQA。
Towards Long-Horizon Vision-Language Navigation: Platform, Benchmark and Method
Xinshuai Song, Weixing Chen, Yang Liu, Weikai Chen, Guanbin Li, Liang Lin
摘要:
现有的视觉语言导航方法主要关注单阶段导航,这在复杂且动态的环境中限制了其在多阶段和长成任务中的有效性。为了解决这一问题,我们提出了一种新型 VLN 任务,称为长程视觉语言导航(Long-Horizon Vision-Language Navigation, LH-VLN),该任务强调长期规划与连续子任务间的决策一致性。此外,为了支持 LH-VLN,我们开发了一种自动化数据生成平台 NavGen,该平台通过双向、多粒度数据生成的方式构建具有复杂任务结构的数据集,并提升数据的有效性。为了准确评估复杂任务,我们构建了长程规划与推理 VLN 基准数据集(Long-Horizon Planning and Reasoning in VLN, LHPR-VLN),该数据集包含 3,260 个任务,平均每个任务包含 150 个步骤,是首个专为长程 VLN 任务设计的数据集。此外,我们提出了独立成功率、条件成功率和基于真实标签的 CSR 权重三种评价指标,以提供更细粒度的任务完成度评估。为提升模型在复杂任务中的适应性,我们提出了一种多粒度动态记忆(Multi-Granularity Dynamic Memory, MGDM) 模块,该模块结合短期记忆模糊与长期记忆检索,以支持模型在动态环境中的灵活导航。我们的平台、基准数据集与方法为 LH-VLN 提供了稳健的数据生成流程、全面的模型评估数据集、合理的评价指标以及新颖的 VLN 模型,构建了推动 LH-VLN 研究的基础框架。项目主页:https://hcplab-sysu.github.io/LH-VLN/。
DSPNet: Dual-vision Scene Perception for Robust 3D Question Answering
Jingzhou Luo, Yang Liu, Weixing Chen, Zhen Li, Yaowei Wang, Guanbin Li, Liang Lin
摘要:
3D 问答 (3D QA) 要求模型全面理解文本描述的 3D 场景,然后推理其周围环境并在该情况下回答问题。然而,现有方法通常依赖于纯 3D 点云的全局场景感知,而忽略了多视角图像中丰富的局部纹理细节的重要性。此外,由于相机姿势固有的噪声和复杂的遮挡,在将 3D 点云与多视角图像对齐时存在显著的特征退化和特征鲁棒性降低的问题。在本文中,我们提出了一种双视觉场景感知网络 (DSPNet),以全面整合多视角和点云特征,以提高 3D QA 的鲁棒性。我们的文本引导多视角融合模块优先考虑与文本语义内容紧密匹配的图像视图。为了自适应地将反向投影的多视角图像与点云特征融合,我们设计了自适应双视觉感知模块,以增强 3D 场景理解。此外,我们的多模态上下文引导推理模块通过整合视觉和语言模态的上下文信息来促进稳健推理。在 SQA3D 和 ScanQA 数据集上的实验结果证明了我们的 DSPNet 的优越性。项目主页:https://github.com/LZ-CH/DSPNet。
Reproducible Vision-Language Models Meet Concepts Out of Pre-Training
Ziliang Chen, Xin Huang, Xiaoxuan Fan, Keze Wang, Yuyu Zhou, Quanlong Guan, Liang Lin
摘要:
对比语言图像预训练(Contrastive Language-Image Pre-training, CLIP)模型作为现代多模态智能的重要里程碑,其泛化机制引起了学界的广泛关注。然而,现有研究主要局限于预训练知识的范围,难以支撑其对预训练过程中未涉及的开放世界概念的泛化能力。本论文从整体视角深入探讨了超出预训练(Out-of-Pre-training, OOP)的泛化问题。我们提出了 LAION-Beyond 基准,用于在评估过程中隔离 OOP 概念与预训练知识的影响,并针对 OpenCLIP 及其基于 LAION 数据集的可复现变体进行研究。实验分析表明,尽管 OOP 概念的图像特征在类别区分上具有显著的边界,但由于图像-文本对齐效果较差,其零样本迁移能力仍然存在严重缺陷。为此,我们提出了一种“名称微调”(name-tuning)方法,并从理论角度分析了其在 OOP 泛化中的优势。在此基础上,我们进一步提出了少样本名称学习(Few-Shot Name Learning, FSNL)和零样本名称学习(Zero-Shot Name Learning, ZSNL)算法,以数据高效的方式实现 OOP 泛化能力。综合实验验证了我们方法的优越性。
LLM-driven Multimodal and Multi-Identity Listening Head Generation
Peiwen Lai, Weizhi Zhong, Yipeng Qin, Xiaohang Ren, Baoyuan Wang, Guanbin Li
摘要:
在对话场景中生成自然的听者反馈对于打造富有吸引力的数字人和虚拟形象至关重要。近期研究表明,大型语言模型可以有效用于该任务,并在生成符合语境的听者行为方面展现出了卓越的能力。然而,当前基于 LLM 的方法存在两个关键局限性:其仅依赖语音内容,忽略了其他重要的交流信号;此外,其在生成听者响应时会混淆听者身份信息,从而影响输出的保真度和泛化能力。为了解决这些问题,同时保留 LLM 的优势,我们提出了一种新的框架。我们的多模态语言模型架构能够联合处理语音内容、韵律特征和说话者情感,从而捕捉完整的交流线索。此外,我们设计了一种身份解耦策略,在 VQ-VAE 框架中结合实例归一化(Instance Normalization)和自适应实例归一化(Adaptive Instance Normalization),以实现高保真度的听者面部合成,同时提供灵活的身份控制。广泛的实验结果表明,我们的方法在响应自然度和保真度方面显著优于现有方法,同时能够在无需重新训练的情况下实现有效的身份控制。
DAGSM: Disentangled Avatar Generation with GS-enhanced Mesh
Jingyu Zhuang, Di Kang, Linchao Bao, Liang Lin, Guanbin Li
摘要:
基于文本的虚拟人生成因其便利性而受到广泛关注。然而,现有方法通常将整个人体及所有服饰建模为单一的 3D 模型,这在一定程度上限制了可用性(例如更换服饰)并降低了用户对生成过程的控制能力。为克服上述局限性,我们提出了一种新颖的生成管道 DAGSM,该方法能够从文本提示中生成人体与服饰分离的 3D 虚拟人。具体而言,我们将人体的不同部分(如身体、上衣、下装)分别建模为GS 增强网格(GSM),即在传统网格的基础上附加 2D 高斯分布,以更好地处理复杂的纹理(如羊毛材质、半透明服饰)并实现逼真的衣物动画。在生成过程中,我们首先创建无服饰的人体,随后依次生成基于人体的独立服饰,并引入基于语义的分离算法,以优化人体与服饰、服饰之间的分割效果。为提高纹理质量,我们设计了视角一致的纹理优化模块,其中包括用于保持纹理风格一致性的跨视角注意力机制以及用于优化外观效果的基于入射角加权的去噪策略。大量实验表明,DAGSM 能够生成高质量的分离式虚拟人,支持服饰更换与真实感动画,并在视觉质量上优于基线方法。
HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models
Runhui Huang, Xinpeng Ding, Chunwei Wang, Jianhua Han, Yulong Liu, Hengshuang Zhao, Hang Xu, Lu Hou, Wei Zhang, Xiaodan Liang
摘要:
高分辨率图像输入使大型视觉语言模型能够捕捉更精细的视觉细节,从而提升理解能力。然而,这类输入所带来的训练和计算成本的显著增加,构成了重要挑战。为降低成本,常见的方法是采用滑动窗口机制,将输入切割为均匀的图像块,并将每个块调整为视觉编码器的输入尺寸。这种方法虽然高效,但会破坏输入的连续性,从而影响跨块感知任务的性能。为解决这一问题,我们提出HiRes-LLaVA,一个能够高效处理任意尺寸高分辨率输入的框架,同时保留原始的上下文和几何信息。HiRes-LLaVA 包含两个关键组件:i) 切片恢复适配器(SliceRestore Adapter, SRA):该模块能够将被切割的图像块重构回原始形式,并通过下采样-上采样和卷积层提取全局和局部特征,从而提高模型的视觉理解能力。ii) 自挖掘采样器(Self-Mining Sampler, SMS):该模块基于内部关系对视觉 token 进行压缩,在减少训练开销的同时,保留原始上下文和位置信息。为评估模型在处理上下文碎片化问题上的能力,我们构建了一个新的基准数据集 EntityGrid-QA,该数据集涵盖多个与边缘信息相关的任务。大量实验表明,HiRes-LLaVA 在现有公开基准数据集和 EntityGrid-QA 上均表现优越。例如,在 SRA 的帮助下,我们的方法在碎片化问题上的表现比当前最先进的 LVLMs 提高了约 12%。此外,我们的 SMS 模块在数据效率更高的同时,优于现有的视觉 token 下采样方法。
FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model
Jun Zhou, Jiahao Li, Zunnan Xu, Hanhui Li, Yiji Cheng, Fa-Ting Hong, Qin Lin, Qinglin Lu, Xiaodan Liang
摘要:
当前,基于指令的图像编辑方法借助视觉语言模型强大的跨模态理解能力取得了显著进展。然而,这些方法仍然面临以下三大挑战:1)复杂场景;2)语义一致性;3)细粒度编辑。为解决这些问题,我们提出FireEdit,一个创新的精细化指令驱动图像编辑框架,并引入区域感知 VLM。FireEdit 旨在准确理解用户指令并确保编辑过程的有效控制。我们利用 VLM 精准定位复杂场景中的目标编辑区域,并引入额外的区域 token,以增强 VLM 对细粒度视觉信息的感知能力。这些区域 token 作为全局图像特征的补充,并与用户指令进行融合。此外,单纯依赖语言模型的输出来指导扩散模型,可能导致次优的编辑效果。因此,我们提出时间感知目标注入模块(Time-Aware Target Injection, TATI)和混合视觉交叉注意力模块(Hybrid Visual Cross Attention, HVCA)。前者通过将时间步嵌入与文本嵌入相结合,在不同的去噪阶段动态调整引导强度。后者在图像编辑过程中增强视觉细节,从而确保编辑结果与原始图像的语义一致性。通过结合细粒度区域 token增强的 VLM 与时间相关的扩散模型,FireEdit 在理解编辑指令和保持语义一致性方面展现出显著优势。大量实验表明,我们的方法在多个基准数据集上超越了当前最先进的指令驱动图像编辑方法。
EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions
Kai Chen, Yunhao GOU, Runhui Huang, Zhili Liu, Daxin Tan, Jing Xu, Chunwei Wang, Yi Zhu, Yihan Zeng, Kuo Yang, Dingdong WANG, Kun Xiang, Haoyuan Li, Haoli Bai, Jianhua Han, Xiao-Hui Li, Weike Jin, Nian Xie, Yu Zhang, James Kwok, Hengshuang Zhao, Xiaodan Liang, Dit-Yan Yeung, Xiao Chen, Zhenguo Li, Wei Zhang, Qun Liu, Lanqing HONG, Lu Hou, Hang Xu
摘要:
GPT-4o 是一种全模态模型,可以实现具有多种情绪和语调的语音对话,是全模态基础模型的一个里程碑。然而,让大型语言模型能够使用公开数据端到端地感知和生成图像、文本和语音,对于开源社区来说仍然是一个挑战。现有的视觉语言模型依赖于外部工具进行语音处理,而语音语言模型则普遍缺乏或完全不具备视觉理解能力。为填补这一空白,我们提出 EMOVA(EMotionally Omni-present Voice Assistant),旨在赋予大语言模型端到端的语音能力,同时保持领先的视觉语言性能。通过采用语义声学解耦的语音标记器,我们惊讶地发现,相较于仅进行双模态对齐的模型,全模态对齐不仅能够提升视觉语言能力,还能进一步增强语音能力。此外,我们引入了一个轻量级风格模块,以实现对语音风格(包括情绪和音调)的灵活控制。EMOVA首次 在视觉语言和语音基准测试上均达到了最先进的性能,并同时支持具有生动情感的全模态语音对话。项目主页:https://emova-anonymous.github.io/。
PS-Diffusion: Photorealistic Subject-Driven Image Editing with Disentangled Control and Attention
Weicheng Wang, Guoli Jia, Zhongqi Zhang, Liang Lin, Jufeng Yang
摘要:
在大规模成对图像文本数据上预训练的扩散模型在图像编辑中取得了显著的成功。为了传达更细粒度的视觉细节,主体驱动的编辑方法尝试将用户提供的参考图像中的主体融入到现有场景中。然而,实现逼真的编辑结果仍然具有挑战性,尤其是需要模拟目标对象与源图像合成后所产生的上下文交互,例如反射、光照和阴影等。为了解决这一问题,我们提出了 PS-Diffusion,它在编辑过程中确保真实一致的对象场景融合,同时保持主体外观的不变性。具体来说,我们首先将上下文交互分为发生在前景和背景区域中的交互。前景区域的影响通过固有图像分解进行估计,而背景区域的影响则由一个额外的背景效果控制分支进行预测。此外,我们提出了一种效应注意力模块,以解耦交互和主体的学习过程,缓解两者之间的混淆。此外,我们构建了一个合成数据集 Replace-5K,该数据集包含 5,000 对通过 3D 渲染生成的图像,确保主体不变且具有稳定的上下文交互。我们在该数据集及两个真实世界数据集上进行了广泛的定量和定性实验,结果表明我们的方法达到了最先进的性能。
Boosting the Dual-Stream Architecture in Ultra-High Resolution Segmentation with Resolution-Biased Uncertainty Estimation
Rong Qin, Xingyu Liu, Jinglei Shi, Liang Lin, Jufeng Yang
摘要:
在过去十年中,人们付出了巨大的努力来设计有效的模型,以应对超高分辨率 (UHR) 语义分割的挑战。这些模型主要遵循双流架构,并根据其改进目标大致可分为三类,即双流集成、选择性缩放和互补学习。然而,大多数方法过于专注于构建复杂的流水线来分别优化上述某一目标,导致模型在准确性和推理消耗之间的权衡受到限制。为此,我们提出一种同时实现这三类目标的方法,即在低分辨率流中估计分辨率偏置不确定性。其中,分辨率偏置不确定性指的是由于下采样操作导致的分辨率损失,从而引起的预测不可靠性。具体而言,我们提出了一种双流 UHR 语义分割框架,其中包含一个估计器,用于通过熵图和高频特征残差来评估分辨率偏置不确定性。该框架还包括一个选择器、一个集成器和一个补充器,以使用获得的估计来增强模型。它们共享不确定性估计作为权重,分别选择困难区域作为 UHR 流的输入,在不同流之间进行加权融合以及增强重要像素的学习。实验结果表明,与当前最先进的方法相比,我们的方法在准确性和推理消耗之间达到了令人满意的平衡。
No Pains, More Gains: Recycling Sub-Salient Patches for Efficient High-Resolution Image Recognition
Rong Qin, Xin Liu, Xingyu Liu, Jiaxuan Liu, Jinglei Shi, Liang Lin, Jufeng Yang
摘要:
在过去的十年里,许多重要方法相继提出,以应对高分辨率图像识别(HRIR)所面临的计算资源挑战。这些方法通常专注于识别并聚合一些显著区域进行分类,同时丢弃次显著区域,以降低训练成本。然而,许多 HRIR 任务需要探索更广泛的区域,以更好地建模对象和上下文,这限制了这些方法在此类场景下的表现。为了解决这一问题,我们提出了一种 DBPS(Dual-Buffer Patch Selection) 策略,使模型能够以低功耗使用更多图像块进行训练。具体而言,除了存储大多数显著块嵌入的基本缓冲区之外,DBPS 还引入了辅助缓冲区,用于回收次显著的图像块。为了降低处理次显著图像块梯度计算的开销,这些块主要用于前向传播,提供足够的信息支持分类,而仅对显著图像块的梯度进行反向传播,以更新整个网络。此外,我们设计了一种多实例学习(Multiple Instance Learning, MIL) 架构,利用显著图像块的聚合信息来过滤次显著块中的无信息背景,从而提高分类准确性。同时,我们引入随机图像块丢弃机制,以加速训练过程并揭示更多具有信息量的区域。实验结果表明,与其他先进方法相比,我们的方法在准确性和训练成本方面均具有显著优势。
Empowering Large Language Models with 3D Situation Awareness
Zhihao Yuan, Yibo Peng, Jinke Ren, Yinghong Liao, Yatong Han, Chun-Mei Feng, Hengshuang Zhao, Guanbin Li, Shuguang Cui, Zhen Li
摘要:
大型语言模型在二维图像领域取得了巨大成功,其在三维场景理解中的应用也成为一种新趋势。三维和二维之间的一个关键区别是,三维场景中以自我为中心的观察者的情况可能会发生变化,从而产生不同的描述(例如,“左”或“右”)。然而,目前基于 LLMs 的方法忽略了以自我为中心的视角,只是从全局视角使用数据集。为了解决这个问题,我们提出了一种新方法,通过利用数据收集过程中的扫描轨迹并结合视觉语言模型生成高质量的文本描述和问答对来自动生成情境感知数据集。此外,我们引入了一个情境基础模块来明确预测观察者视点的位置和方向,从而使 LLMs 能够在三维场景中为情境描述奠定基础。我们在几个基准上评估了我们的方法,表明我们的方法有效地增强了 LLMs 的 3D 态势感知,同时显著扩展了现有数据集并减少了人工工作量。
Rethinking Query-based Transformer for Continual Image Segmentation
Yuchen Zhu, Cheng Shi, Dingyou Wang, Jiajin Tang, Zhengxuan Wei, Yu Wu, Guanbin Li, Sibei Yang
摘要:
类增量/连续图像分割 (Class-Incremental/Continual Image Segmentation, CIS) 旨在分阶段训练图像分割器,其中每个阶段的可用类别集不同。为了利用基于查询的Transformer的内置对象性来减轻掩码提议的灾难性遗忘,当前方法通常将掩码生成与持续学习过程分离。然而,本研究确定了分离框架的两个关键问题:可塑性下降和对输入数据顺序的严重依赖。为了解决这些问题,我们对内置对象性进行了深入研究,发现高度聚合的图像特征为查询提供了通过简单特征对齐生成掩码的捷径。基于此,我们提出了 SimCIS,这是 CIS 的一个简单但功能强大的基线。其核心思想是直接选择图像特征进行查询分配,确保“完美对齐”以保留对象性,同时允许查询选择新类以促进可塑性。为了进一步缓解类别的灾难性遗忘,我们在选择中引入了跨阶段一致性和创新的基于“视觉查询”的回放机制。实验表明,SimCIS 在各种分割任务、设置、分割和输入数据顺序方面始终优于最先进的方法。