GitHub - chenin-wang/awesome_ai_paper: paper.cheninweb.asia

Updated on 2025.01.04

Usage instructions: here

Table of Contents

多模态
6DOF Object Pose
nerf
分类/检测/识别/分割
生成模型
LLM
Transformer

多模态

Publish Date	Title	Code	Abstract
2024-12-30	Hierarchical Banzhaf Interaction for General Video-Language Representation Learning	link	多模态表征学习，特别是对比学习，在人工智能领域扮演着重要角色。作为其重要的子领域，视频-语言表征学习专注于利用预定义的视频-文本对之间的全局语义交互来学习表征。然而，为了增强和细化这种粗粒度的全局交互，更细粒度的交互对于细粒度多模态学习至关重要。在本研究中，我们引入了一种新方法，将视频-文本建模为博弈参与者，利用多元合作博弈论来处理细粒度语义交互过程中存在的不确定性，这些交互具有多样化的粒度、灵活的组合以及模糊的强度。具体而言，我们设计了分层班扎夫交互（Hierarchical Banzhaf Interaction）来模拟视频片段和文本单词之间从分层角度来看的细粒度对应关系。此外，为了减轻班扎夫交互计算中的偏差，我们提出通过融合单模态和跨模态成分来重建表征。这种重建的表征确保了与单模态表征相当的细粒度，同时保留了跨模态表征的自适应编码特性。此外，我们将原始结构扩展到一个灵活的编码器-解码器框架中，使模型能够适应各种下游任务。在常用的文本-视频检索、视频问答和视频字幕基准数据集上进行的大量实验表明，我们的方法具有优越的性能，验证了其有效性和泛化能力。
2024-12-30	WalkVLM:Aid Visually Impaired People Walking by Vision Language Model	null	全球约有2亿人遭受不同程度的视力障碍，因此利用人工智能技术为这些人提供步行辅助至关重要。随着视觉语言模型（VLM）的最新进展，利用VLM改进这一领域已成为一个热门研究课题。然而，大多数现有方法的研究都基于自建的问答数据集，缺乏统一的步行引导训练和测试基准。此外，在盲人行走任务中，需要执行实时流媒体视频解析并生成简洁而信息丰富的提示，这对容易出现冗余回复和低推理效率的VLM构成了巨大挑战。在本文中，我们首先发布了一个多样化、广泛且无偏差的行走意识数据集，其中包含来自欧洲和亚洲的1.2万个视频-人工注释对，为盲人行走任务提供了一个公平的训练和测试基准。此外，我们提出了一个WalkVLM模型，该模型采用思维链进行分层规划，以生成简洁而信息丰富的提示，并利用时间感知自适应预测来减少提示的时间冗余。最后，我们建立了一个稳固的盲人行走任务基准，并验证了WalkVLM在该任务的流媒体视频处理中相较于其他VLM的优势。我们的数据集和代码将在匿名链接https://walkvlm2024.github.io发布。
2024-12-30	Are Vision-Language Models Truly Understanding Multi-vision Sensor?	link	大规模视觉语言模型 (VLM) 通过将视觉输入与文本对齐取得了进展，显著提高了计算机视觉任务的性能。此外，为了使 VLM 能够有效地应用于实际应用中，理解不同的多视觉传感器数据（例如热、深度和 X 射线信息）至关重要。然而，我们发现当前的 VLM 在处理多视觉传感器图像时，缺乏对传感器信息的深入理解，忽略了每个传感器独特的物理特性。这种限制制约了它们解释和回答需要多视觉传感器推理的复杂问题的能力。为了解决这个问题，我们提出了一个新颖的多视觉传感器感知和推理 (MS-PR) 基准测试，评估 VLM 对特定传感器推理的能力。此外，我们引入了多样性负属性 (DNA) 优化，使 VLM 能够对多视觉传感器任务进行深度推理，有助于弥合图像和传感器数据之间的核心信息差距。大量的实验结果证实，所提出的 DNA 方法可以显著提高 VLM 的多视觉传感器推理能力。
2024-12-30	UniRS: Unifying Multi-temporal Remote Sensing Tasks through Vision Language Models	null	遥感影像与自然图像之间的域差异近年来受到广泛关注，视觉语言模型（VLM）在遥感多模态任务中展现出优异的泛化性能。然而，目前的研究仍局限于探索遥感VLM如何处理不同类型的视觉输入。为了弥合这一差距，我们引入了UniRS，这是第一个统一处理多种视觉输入的跨多时相遥感任务的视觉语言模型。UniRS支持单张图像、双时相图像对和视频作为输入，从而在统一框架内实现全面的遥感时序分析。我们采用统一的视觉表示方法，使模型能够接受各种视觉输入。对于双时相图像对任务，我们定制了一个变化提取模块，以进一步增强时空特征的提取。此外，我们设计了一种针对模型推理过程的提示增强机制，利用通用VLM的先验知识为UniRS提供线索。为了促进多任务知识共享，我们在混合数据集上对模型进行联合微调。实验结果表明，UniRS在视觉问答、变化描述和视频场景分类等各种任务中均达到了最先进的性能，凸显了其在统一这些多时相遥感任务方面的多功能性和有效性。我们的代码和数据集将很快发布。
2024-12-30	M $^3$oralBench: A MultiModal Moral Benchmark for LVLMs	link	近年来，大型基础模型，包括大型语言模型（LLM）和大型视觉语言模型（LVLM），已成为法律、金融和医疗保健等关键领域的重要工具。随着这些模型日益融入我们的日常生活，有必要进行道德评估，以确保其输出符合人类价值观并保持在道德界限内。先前的工作主要集中在LLM上，提出了局限于文本模态的道德数据集和基准。然而，鉴于LVLM的快速发展，仍然缺乏多模态道德评估方法。为了弥合这一差距，我们引入了M$^3$oralBench，这是第一个用于LVLM的多模态道德基准。M$^3$oralBench扩展了道德基础小插图（MFV）中的日常道德场景，并采用文本到图像的扩散模型SD3.0来创建相应的场景图像。它根据道德基础理论（MFT）的六个道德基础进行道德评估，涵盖道德判断、道德分类和道德响应等任务，提供了对模型在多模态道德理解和推理方面性能的全面评估。对10个流行的开源和闭源LVLM进行的广泛实验表明，M$^3$ oralBench是一个具有挑战性的基准，揭示了当前模型中明显的道德局限性。我们的基准测试已公开发布。
2024-12-30	Learning to Rank Pre-trained Vision-Language Models for Downstream Tasks	null	像CLIP这样的视觉语言模型（VLM）在分类基准测试中展现了卓越的零样本能力。然而，在未标记的下游任务中选择性能最高的VLM并非易事。现有的VLM选择方法专注于仅使用类名的情况，依赖于有监督的大规模数据集和大型语言模型，这在部署期间可能无法访问或实施。本文提出了无监督视觉语言模型选择问题，其中只有无监督的下游数据集可用，没有提供任何附加信息。为了解决这个问题，我们提出了一种称为视觉-文本图对齐（VEGA）的方法，通过测量VLM在未标记下游任务中两种模态之间的一致性来选择VLM，无需任何标注。VEGA的动机来自于VLM的预训练范式，该范式将来自视觉和文本模态的具有相同语义的特征对齐，从而将两种模态映射到共享的表示空间中。具体来说，我们首先分别在视觉和文本特征上构建两个图。然后，VEGA被定义为视觉图和文本图在节点和边缘级别上的总体相似性。在涵盖各种应用场景和下游数据集的三个不同基准测试中的大量实验表明，VEGA能够对VLM在未标记下游任务上的性能提供一致可靠且准确的估计。
2024-12-30	YOLO-UniOW: Efficient Universal Open-World Object Detection	link	传统的目标检测模型受限于闭集数据集，只能检测在训练期间遇到的类别。虽然多模态模型通过对齐文本和图像模态扩展了类别识别，但由于跨模态融合，它们引入了显著的推理开销，并且仍然受限于预定义词汇，导致它们在处理开放世界场景中的未知对象时效率低下。在这项工作中，我们引入了通用开放世界目标检测 (Uni-OWD)，这是一种统一开放词汇和开放世界目标检测任务的新范式。为了应对这种设置的挑战，我们提出了 YOLO-UniOW，一个在效率、通用性和性能方面都取得了进步的新颖模型。YOLO-UniOW 结合了自适应决策学习，用 CLIP 潜在空间中的轻量级对齐取代计算成本高昂的跨模态融合，从而在不影响泛化性的情况下实现高效检测。此外，我们设计了一种通配符学习策略，将分布外对象检测为“未知”，同时支持动态词汇扩展，而无需增量学习。这种设计使 YOLO-UniOW 能够无缝适应开放世界环境中的新类别。大量实验验证了 YOLO-UniOW 的优越性，在 LVIS 上实现了 34.6 AP 和 30.0 APr，推理速度为 69.6 FPS。该模型还在 M-OWODB、S-OWODB 和 nuScenes 数据集上设立了基准，展示了其在开放世界目标检测中无与伦比的性能。代码和模型可在 https://github.com/THU-MIG/YOLO-UniOW 获取。
2024-12-29	HALLUCINOGEN: A Benchmark for Evaluating Object Hallucination in Large Visual-Language Models	link	大型视觉语言模型（LVLMs）在执行复杂的多模态任务方面表现出了显著的性能。然而，它们仍然受到对象幻觉的困扰：对图像中存在的对象进行错误识别或错误分类。为此，我们提出了HALLUCINOGEN，这是一个新颖的视觉问答（VQA）对象幻觉攻击基准测试，它利用不同的上下文推理提示来评估最先进的LVLMs中的对象幻觉。我们设计了一系列上下文推理幻觉提示，以评估LVLMs在执行各种视觉语言任务（例如识别、定位或围绕特定对象进行视觉推理）时准确识别目标图像中对象的能力。此外，我们将基准测试扩展到高风险医疗应用，并引入了MED-HALLUCINOGEN，这是一种针对生物医学领域定制的幻觉攻击，并评估了LVLMs在医学图像上的幻觉性能，这是一个精度至关重要的关键领域。最后，我们对八个LVLMs和两种幻觉缓解策略进行了跨多个数据集的广泛评估，以表明当前的通用和医学LVLMs仍然容易受到幻觉攻击。
2024-12-29	Audiopedia: Audio QA with Knowledge	link	本文介绍了一个名为Audiopedia的新任务，即基于知识的音频问答，该任务需要音频理解和外部知识推理。与专注于仅从音频中即可回答的简单查询的传统音频问答（AQA）基准测试不同，Audiopedia针对知识密集型问题。我们定义了三个子任务：（i）单音频问答（s-AQA），其中问题基于单个音频样本回答；（ii）多音频问答（m-AQA），需要对多个音频样本进行推理；以及（iii）检索增强音频问答（r-AQA），其中涉及检索相关音频以回答问题。我们对大型音频语言模型（LALM）在这些子任务上进行了基准测试，并观察到其性能欠佳。为了解决这个问题，我们提出了一个可以适应任何LALM的通用框架，使其具备知识推理能力。我们的框架有两个组成部分：（i）音频实体链接（AEL）和（ii）知识增强音频大型多模态模型（KA2LM），它们共同提高了知识密集型AQA任务的性能。据我们所知，这是第一个通过Audiopedia等知识密集型任务来解决高级音频理解的工作。
2024-12-29	Diff4MMLiTS: Advanced Multimodal Liver Tumor Segmentation via Diffusion-Based Image Synthesis and Alignment	null	多模态学习已被证明可以提高各种临床任务的性能，这归功于不同模态数据提供的不同视角。然而，现有的多模态分割方法依赖于良好配准的多模态数据，这对于现实世界的临床图像来说是不现实的，特别是对于像肝脏肿瘤这样模糊和弥漫的区域。在本文中，我们介绍了Diff4MMLiTS，一个四阶段的多模态肝脏肿瘤分割流程：多模态CT中目标器官的预配准；对标注模态的掩码进行扩张，然后用其进行图像修复，以获得没有肿瘤的多模态正常CT；使用基于多模态CT特征和随机生成的肿瘤掩码的潜在扩散模型合成严格对齐的多模态CT；最后，训练分割模型，从而消除了对严格对齐的多模态数据的需求。在公共和内部数据集上的大量实验表明，Diff4MMLiTS优于其他最先进的多模态分割方法。
2024-12-27	MVTamperBench: Evaluating Robustness of Vision-Language Models	null	视觉语言模型 (VLM) 近期取得的进展促进了复杂视频理解任务的显著进步。然而，它们对现实世界操作的鲁棒性仍未得到充分探索，限制了它们在关键应用中的可靠性。为了弥补这一差距，我们推出了 MVTamperBench，这是一个综合基准，旨在评估 VLM 对视频篡改效应（包括旋转、丢帧、遮盖、替换和重复）的抵抗能力。通过系统地评估最先进的模型，MVTamperBench 揭示了鲁棒性的巨大差异，InternVL2-8B 等模型实现了高性能，而 Llama-VILA1.5-8B 等其他模型则表现出严重的漏洞。为了促进更广泛的采用和可重复性，MVTamperBench 被集成到 VLMEvalKit 中，这是一个模块化评估工具包，可实现简化的测试并促进模型鲁棒性的进步。我们的基准代表了朝着开发防篡改 VLM 的关键一步，确保了它们在现实世界场景中的可靠性。项目页面：https://amitbcp.github.io/MVTamperBench/
2024-12-27	OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis	null	由视觉语言模型 (VLM) 驱动的图形用户界面 (GUI) 代理已展现出类似人类的计算机控制能力。尽管它们在推进数字化自动化方面非常有用，但一个关键瓶颈仍然存在：收集用于训练的高质量轨迹数据。收集此类数据的常见做法依赖于人工监督或通过执行预定义任务来生成合成数据，但这两种方法要么资源密集，要么无法保证数据质量。此外，这些方法还存在数据多样性有限以及合成数据与现实环境之间存在显著差距的问题。为了应对这些挑战，我们提出了 OS-Genesis，一种新颖的 GUI 数据合成流程，它颠覆了传统的轨迹收集过程。OS-Genesis 不是依赖预定义的任务，而是使代理首先感知环境并执行逐步交互，然后回顾性地导出高质量的任务以实现轨迹级探索。然后采用轨迹奖励模型来确保生成的轨迹的质量。我们证明，使用 OS-Genesis 训练 GUI 代理可以显著提高它们在极具挑战性的在线基准测试中的性能。深入分析进一步验证了 OS-Genesis 的效率及其相比现有合成方法更高的数据质量和多样性。我们的代码、数据和检查点可在\href{https://qiushisun.github.io/OS-Genesis-Home/}{OS-Genesis 主页}获取。
2024-12-27	From Elements to Design: A Layered Approach for Automatic Graphic Design Composition	null	在这项工作中，我们研究了多模态图形元素的自动设计组合。尽管最近的研究已经开发了各种用于图形设计的生成模型，但它们通常面临以下限制：它们只关注某些子任务，并且远未实现设计组合任务；它们在生成过程中没有考虑图形设计的层次信息。为了解决这些问题，我们将分层设计原则引入大型多模态模型 (LMM) 中，并提出了一种名为 LaDeCo 的新方法来完成这项具有挑战性的任务。具体来说，LaDeCo 首先对给定的元素集执行图层规划，根据其内容将输入元素划分到不同的语义图层中。基于规划结果，它随后以分层方式预测控制设计组合的元素属性，并将先前生成的图层的渲染图像包含到上下文中。凭借这种富有洞察力的设计，LaDeCo 将困难的任务分解成更小、更易于管理的步骤，使生成过程更流畅、更清晰。实验结果证明了 LaDeCo 在设计组合中的有效性。此外，我们展示了 LaDeCo 在图形设计中支持一些有趣的应用，例如分辨率调整、元素填充、设计变体等。此外，它甚至在某些设计子任务中，无需任何特定任务的训练即可胜过专门的模型。
2024-12-27	Is Your Text-to-Image Model Robust to Caption Noise?	null	在文生图 (T2I) 生成中，一种流行的训练技术是利用视觉语言模型 (VLM) 进行图像重描述。尽管已知 VLM 会出现幻觉，生成偏离视觉现实的描述性内容，但这种描述幻觉对 T2I 生成性能的影响仍未得到充分探索。通过我们的实证研究，我们首先建立了一个包含 VLM 生成描述的综合数据集，然后系统地分析了描述幻觉如何影响生成结果。我们的研究结果表明：(1) 描述质量的差异在微调过程中持续影响模型输出。(2) VLM 置信度分数是检测和表征数据分布中噪声相关模式的可靠指标。(3) 即使描述保真度的细微变化也会对学习到的表征质量产生重大影响。这些发现共同强调了描述质量对模型性能的深远影响，并突出了在 T2I 中需要更复杂的鲁棒训练算法。针对这些观察结果，我们提出了一种利用 VLM 置信度分数来减轻描述噪声的方法，从而增强 T2I 模型对描述幻觉的鲁棒性。
2024-12-27	Towards Open-Vocabulary Remote Sensing Image Semantic Segmentation	link	近年来，基于深度学习的方法彻底改变了遥感图像分割领域。然而，这些方法通常依赖于预定义的语义类别集合，因此在适应新类别时需要额外的图像标注和模型训练。更重要的是，它们无法分割任意语义类别。在这项工作中，我们引入了开放词汇遥感图像语义分割（OVRSISS），旨在分割遥感图像中的任意语义类别。为了解决OVRSISS数据集的缺乏，我们开发了LandDiscover50K，这是一个包含51,846张图像的综合数据集，涵盖40个不同的语义类别。此外，我们提出了一个名为GSNet的新颖框架，它集成了来自特定遥感模型的领域先验知识和通用视觉语言模型的通用能力。从技术上讲，GSNet由双流图像编码器（DSIE）、查询引导特征融合（QGFF）和残差信息保留解码器（RIPD）组成。DSIE首先从双流中的特定模型和通用模型捕获全面特征。然后，在可变词汇表的指导下，QGFF集成了专家和通才特征，使它们能够相互补充。最后，提出了RIPD来聚合多源特征，以获得更准确的掩码预测。实验表明，我们的方法大大优于其他方法，并且我们提出的LandDiscover50K提高了OVRSISS方法的性能。提出的数据集和方法将在https://github.com/yecy749/GSNet上公开发布。
2024-12-26	CALICO: Part-Focused Semantic Co-Segmentation with Large Vision-Language Models	null	大型视觉语言模型 (LVLMs) 近期的进展通过视觉指令微调促进了通用视觉任务的显著进步。虽然一些研究已经证明 LVLMs 能够生成将短语与单个图像中的自然语言描述对齐的分割掩码，但它们难以在多幅图像之间进行基于分割的比较，尤其是在对象部分等更细粒度级别上。在本文中，我们引入了以部分为中心的语义共分割的新任务，该任务旨在识别和分割图像之间共有和独特的对象及部分。为了解决这个问题，我们提出了 CALICO，这是第一个能够跨图像分割和推理多个掩码的 LVLM，从而能够基于对象的组成部分进行对象比较。CALICO 具有两个提出的组件，一个新颖的对应提取模块，用于捕获语义丰富的信息以识别对象之间的部分级对应关系，以及一个对应适应模块，用于将这些信息以参数高效的方式嵌入到 LVLM 中，以促进多图像理解。为了支持训练和评估，我们构建了 MixedParts，这是一个包含约 4.4 万张图像上约 240 万个样本的多图像分割综合数据集，涵盖了各种对象和部分类别。实验结果表明，仅在其架构的 0.3% 上进行微调的 CALICO 在以部分为中心的语义共分割中实现了稳健的性能。
2024-12-26	Multi-Head Attention Driven Dynamic Visual-Semantic Embedding for Enhanced Image-Text Matching	null	随着多模态学习的快速发展，图像-文本匹配任务作为连接视觉和语言的桥梁，变得越来越重要。基于现有研究，本研究提出了一种创新的视觉语义嵌入模型，名为多头一致性感知视觉语义嵌入模型（MH-CVSE）。该模型在一致性感知视觉语义嵌入模型（CVSE）的基础上引入了多头自注意力机制，从而能够并行地捕获多个子空间中的信息，显著增强了模型理解和表示图像与文本之间复杂关系的能力。此外，我们采用了一种参数化的特征融合策略，灵活地整合不同层级的特征信息，进一步提升了模型的表达能力。在损失函数设计方面，MH-CVSE模型采用了动态权重调整策略，根据损失值本身动态调整权重，使模型在训练过程中能够更好地平衡不同损失项的贡献。同时，我们引入了余弦退火学习率策略，帮助模型在训练后期更稳定地收敛。在Flickr30k数据集上的大量实验验证表明，MH-CVSE模型在双向图像和文本检索任务中均取得了比现有方法更好的性能，充分证明了其有效性和优越性。
2024-12-26	MoPD: Mixture-of-Prompts Distillation for Vision-Language Models	null	软提示学习方法可以有效地使视觉语言模型 (VLM) 适应下游任务。然而，经验证据表明，现有方法倾向于过度拟合已见类别，并在未见类别上表现出性能下降。这种局限性是由于训练数据中固有的对已见类别的偏向。为了解决这个问题，我们提出了一种新的软提示学习方法，称为提示混合蒸馏 (MoPD)，它可以有效地将手动精心制作的硬提示（也称为教师提示）中的有用知识转移到可学习的软提示（也称为学生提示），从而增强软提示对未见类别的泛化能力。此外，所提出的 MoPD 方法利用门控网络来学习选择用于提示蒸馏的硬提示。大量实验表明，所提出的 MoPD 方法优于最先进的基线方法，尤其是在未见类别上。
2024-12-26	Relation-aware Hierarchical Prompt for Open-vocabulary Scene Graph Generation	null	开放词汇场景图生成（OV-SGG）通过将视觉关系表示与开放词汇文本表示对齐来克服封闭集合假设的局限性。这使得能够识别新的视觉关系，使其适用于具有多样化关系的现实场景。然而，现有的OV-SGG方法受到固定文本表示的限制，限制了图像-文本对齐的多样性和准确性。为了应对这些挑战，我们提出了关系感知分层提示（RAHP）框架，该框架通过整合主语-宾语和特定区域的关系信息来增强文本表示。我们的方法利用实体聚类来解决关系三元组类别的复杂性，从而能够有效地整合主语-宾语信息。此外，我们利用大型语言模型（LLM）生成详细的区域感知提示，捕捉细粒度的视觉交互，并改进视觉和文本模态之间的对齐。RAHP还在视觉语言模型（VLM）中引入了动态选择机制，该机制根据视觉内容自适应地选择相关的文本提示，从而减少来自无关提示的噪声。在Visual Genome和Open Images v6数据集上的大量实验表明，我们的框架始终 achieves state-of-the-art 的性能，证明了其在解决开放词汇场景图生成挑战方面的有效性。
2024-12-24	TAB: Transformer Attention Bottlenecks enable User Intervention and Debugging in Vision-Language Models	link	多头自注意力机制（MHSA）是 Transformer 的关键组成部分，Transformer 是一种在语言和视觉领域都广受欢迎的架构。多个头直观地实现了对相同输入的不同并行处理。然而，它们也掩盖了每个输入块对模型输出的贡献。我们提出了一种新颖的单头 Transformer 注意力瓶颈（TAB）层，插入到传统的 MHSA 架构之后，用作可解释性和干预的注意力瓶颈。与标准的自注意力机制不同，TAB 将所有图像块上的总注意力限制在 $\in [0, 1]$ 范围内。也就是说，当总注意力为 0 时，没有视觉信息会进一步传播到网络中，并且视觉语言模型（VLM）将默认返回一个通用的、与图像无关的响应。为了证明 TAB 的优势，我们训练了带有 TAB 的 VLM 来执行图像差异描述。在三个数据集上，我们的模型在描述方面的性能与基线 VLM 相似，但瓶颈在定位变化和识别何时没有变化方面更胜一筹。TAB 是第一个允许用户通过编辑注意力进行干预的架构，这通常可以使 VLM 产生预期的输出。
2024-12-24	MixMAS: A Framework for Sampling-Based Mixer Architecture Search for Multimodal Fusion and Learning	link	选择合适的深度学习架构来进行多模态数据融合是一项具有挑战性的任务，因为它需要有效地整合和处理具有不同结构和特征的各种数据类型。在本文中，我们介绍了 MixMAS，这是一个基于采样的混合器架构搜索框架，专为多模态学习而定制。我们的方法可以针对给定的多模态机器学习 (MML) 任务自动选择最佳的基于 MLP 的架构。具体来说，MixMAS 利用基于采样的微基准测试策略来探索各种模态特定编码器、融合函数和融合网络的组合，系统地识别最符合任务性能指标的架构。
2024-12-24	LongDocURL: a Comprehensive Multimodal Long Document Benchmark Integrating Understanding, Reasoning, and Locating	link	大型视觉语言模型 (LVLMs) 显着提高了文档理解能力，能够处理复杂的文档元素、更长的上下文和更广泛的任务。然而，现有的文档理解基准测试仅限于处理少量页面，并且未能提供对布局元素定位的全面分析。在本文中，我们首先定义了三个主要任务类别：长文档理解、数值推理和跨元素定位，然后提出了一个综合基准 LongDocURL，它整合了上述三个主要任务，并包含基于不同主要任务和答案证据分类的 20 个子任务。此外，我们开发了一个半自动构建流程，并收集了 2,325 个高质量的问答对，涵盖超过 33,000 页的文档，显着优于现有基准。随后，我们对 26 种不同配置的开源和闭源模型进行了全面的评估实验，揭示了该领域的关键性能差距。
2024-12-24	Weak Scaling Capability in Token Space: An Observation from Large Vision Language Model	null	扩展能力已经在参数数量和训练数据大小方面得到了广泛验证。一个尚未探索的重要问题是，扩展能力是否也同样存在于视觉标记的数量方面？本研究通过调查视觉标记的数量与视觉语言模型的性能之间的关系来填补这一空白。我们的理论分析和实证评估表明，模型在长度(N_l)上表现出较弱的扩展能力，其性能约为(S(N_l) \approx (c/N_l)^{\alpha})，其中(c, \alpha)是超参数。有趣的是，无论输入中是否包含用户问题，这种扩展行为基本不受影响。此外，当用户问题与任务相关时，将用户问题与视觉标记融合可以提高模型性能。为了应对与大规模视觉标记相关的计算挑战，我们提出了一种新的架构，可以有效地减少标记数量，同时将用户问题标记集成到表示中。我们的研究结果可能为在特定任务限制下开发更高效和更有效的视觉语言模型提供见解。
2024-12-24	Molar: Multimodal LLMs with Collaborative Filtering Alignment for Enhanced Sequential Recommendation	null	序列推荐系统(SR)在过去十年中取得了显著发展，从传统的协同过滤过渡到深度学习方法，以及最近的大语言模型(LLM)。虽然LLM的采用推动了实质性的进步，但这些模型天生缺乏协同过滤信息，主要依赖文本内容数据而忽略其他模态，因此未能达到最佳推荐性能。为了解决这一局限性，我们提出了Molar，一个多模态大语言序列推荐框架，它整合了多种内容模态与ID信息，以有效地捕捉协同信号。Molar采用多模态大语言模型(MLLM)从文本和非文本数据生成统一的物品表示，促进全面的多模态建模并丰富物品嵌入。此外，它通过后对齐机制整合协同过滤信号，该机制将基于内容的模型和基于ID的模型的用户表示进行对齐，确保精确的个性化和稳健的性能。通过将多模态内容与协同过滤的洞察无缝结合，Molar既能捕捉用户兴趣，又能捕捉上下文语义，从而提高推荐准确性。大量实验验证了Molar显著优于传统和基于LLM的基线模型，突出了其在序列推荐任务中利用多模态数据和协同信号的优势。源代码可在https://anonymous.4open.science/r/Molar-8B06/获取。
2024-12-24	EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation	link	近年来，文本到图像 (T2I) 生成模型取得了显著进展。相应地，许多自动化指标涌现出来，用于评估生成模型的图文对齐能力。然而，现有的小数据集限制了这些自动化指标之间的性能比较。此外，这些数据集缺乏在细粒度级别评估自动化指标性能的能力。在本研究中，我们贡献了一个 EvalMuse-40K 基准测试，收集了 40K 个图文对，并带有用于图文对齐相关任务的细粒度人工标注。在构建过程中，我们采用了各种策略，例如平衡的提示采样和数据重新标注，以确保基准的多样性和可靠性。这使我们能够全面评估 T2I 模型图文对齐指标的有效性。同时，我们引入了两种评估 T2I 模型图文对齐能力的新方法：FGA-BLIP2，它涉及对视觉语言模型进行端到端的微调以生成细粒度的图文对齐分数；以及 PN-VQA，它在视觉问答 (VQA) 模型中采用了一种新颖的正负 VQA 方式进行零样本细粒度评估。这两种方法在图文对齐评估中都取得了令人印象深刻的性能。我们还使用我们的方法对当前的 AIGC 模型进行排名，其结果可以作为未来研究的参考，并促进 T2I 生成的发展。数据和代码将公开发布。
2024-12-24	VisionLLM-based Multimodal Fusion Network for Glottic Carcinoma Early Detection	null	声门癌的早期检测对于改善患者预后至关重要，因为它可以及时干预，保留发声功能，并显著降低肿瘤进展和转移的风险。然而，声门癌和声带发育不良在形态上的相似性导致检测准确性欠佳。为了解决这个问题，我们提出了一种基于视觉大型语言模型（VisionLLM）的多模态融合网络，用于声门癌检测，称为MMGC-Net。通过整合图像和文本模态，多模态模型可以捕获互补信息，从而获得更准确和鲁棒的预测。在本文中，我们从中山大学附属第一医院收集了一个名为SYSU1H的真实的私人声门癌数据集，包含5,799个图像-文本对。我们利用图像编码器和额外的Q-Former提取视觉嵌入，并使用大型语言模型Meta AI (Llama3) 获取文本嵌入。然后，这些模态通过喉部特征融合块进行整合，从而实现图像和文本特征的全面融合，进而提高声门癌识别性能。在SYSU1H数据集上的大量实验表明，MMGC-Net可以达到最先进的性能，优于以往的多模态模型。
2024-12-24	MMFactory: A Universal Solution Search Engine for Vision-Language Tasks	null	随着基础模型和视觉语言模型的进步，以及有效的微调技术的出现，大量通用和专用模型被开发出来，用于各种视觉任务。尽管这些模型具有灵活性和可访问性，但没有哪个单一模型能够处理所有潜在用户可能设想的任务或应用。最近的方法，如视觉编程和集成了工具的多模态大型语言模型，旨在通过程序合成来处理复杂的视觉任务。然而，这些方法忽略了用户约束（例如，性能/计算需求），产生了难以部署的测试时特定于样本的解决方案，并且有时需要超出普通用户能力的低级指令。为了解决这些限制，我们引入了MMFactory，这是一个通用的框架，包含模型和指标路由组件，其作用类似于跨各种可用模型的解决方案搜索引擎。基于任务描述、少量样本输入输出对以及（可选的）资源或性能约束，MMFactory可以通过实例化和组合其模型库中的视觉语言工具，来建议一个多样化的程序化解决方案池。除了合成这些解决方案之外，MMFactory还提出了指标和基准性能/资源特征，允许用户选择满足其独特设计约束的解决方案。从技术角度来看，我们还引入了一个基于委员会的解决方案提议器，它利用多代理大型语言模型对话为用户生成可执行、多样化、通用且稳健的解决方案。实验结果表明，MMFactory通过提供针对用户问题规范定制的最先进解决方案，优于现有方法。项目页面位于https://davidhalladay.github.io/mmfactory_demo。
2024-12-23	Comprehensive Multi-Modal Prototypes are Simple and Effective Classifiers for Vast-Vocabulary Object Detection	link	使模型能够识别巨大的开放世界类别一直是目标检测领域的长期追求。通过利用视觉语言模型的泛化能力，目前的开放世界检测器可以识别更广泛的词汇，即使它们只在有限的类别上进行训练。然而，当训练期间类别词汇的规模扩展到真实世界水平时，先前与粗略类别名称对齐的分类器会显著降低这些检测器的识别性能。在本文中，我们介绍了Prova，一个用于大规模词汇目标检测的多模态原型分类器。Prova提取全面的多模态原型作为对齐分类器的初始化，以解决大规模词汇目标识别失败的问题。在V3Det上，这种简单的方法极大地提高了单阶段、两阶段和基于DETR的检测器的性能，在监督和开放词汇设置中仅增加了投影层。特别是，在V3Det的监督设置中，Prova分别将Faster R-CNN、FCOS和DINO的AP提高了3.3、6.2和2.9。对于开放词汇设置，Prova实现了新的最先进性能，基础AP为32.8，新颖AP为11.0，比先前的方法分别提高了2.6和4.3。
2024-12-23	Cross-Lingual Text-Rich Visual Comprehension: An Information Theory Perspective	null	近来的大型视觉语言模型（LVLMs）在图表、表格和文档等富文本图像上展现出 promising 的推理能力。然而，此类图像中丰富的文本可能会增加模型对语言的敏感性。这就需要评估 LVLM 在跨语言富文本视觉输入上的性能，其中图像中的语言与指令的语言不同。为此，我们引入了 XT-VQA（跨语言富文本视觉问答），这是一个用于评估 LVLMs 如何处理图像文本和问题之间语言不一致性的基准测试。XT-VQA 整合了五个现有的富文本 VQA 数据集和一个新收集的数据集 XPaperQA，涵盖了需要在语言不一致的情况下忠实识别和理解视觉信息的各种场景。我们对 XT-VQA 上 prominent LVLMs 的评估表明，即使对于具有多语言能力的模型，跨语言场景的性能也会显著下降。互信息分析表明，这种性能差距源于跨语言问题未能充分激活相关的视觉信息。为了缓解这个问题，我们提出了 MVCL-MI（最大化视觉语言跨语言互信息），通过最大化模型输出和视觉信息之间的互信息来构建视觉文本跨语言对齐。这是通过 KL 散度最小化将知识从单语言设置提炼到跨语言设置来实现的，其中单语言输出 logits 作为教师。在 XT-VQA 上的实验结果表明，MVCL-MI 有效地减少了视觉文本跨语言性能差异，同时保留了 LVLMs 的固有能力，为改进 LVLMs 的潜在实践提供了新的思路。代码可在以下网址获取：https://github.com/Stardust-y/XTVQA.git
2024-12-23	Survey of Large Multimodal Model Datasets, Application Categories and Taxonomy	null	多模态学习是人工智能领域中一个快速发展的领域，它旨在通过整合和分析包括文本、图像、音频和视频在内的多种类型的数据来构建更通用和更鲁棒的系统。这种方法受到人类通过多种感官吸收信息的能力的启发，使文本到视频转换、视觉问答和图像字幕等应用成为可能。本概述重点介绍了支持多模态语言模型 (MLLM) 的数据集方面的最新进展。大规模多模态数据集至关重要，因为它们允许对这些模型进行彻底的测试和训练。该研究重点关注其对学科的贡献，考察了各种数据集，包括用于训练、特定领域任务和实际应用的数据集。它还强调了基准数据集对于评估模型在各种场景下的性能、可扩展性和适用性的重要性。由于多模态学习不断变化，克服这些障碍将有助于人工智能研究和应用达到新的高度。
2024-12-20	HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding	null	大型语言模型 (LLM) 的快速发展催化了视觉语言模型 (VLM) 的发展。一体化 VLM 避免了特定模态编码器，为组合式 VLM 提供了一种有希望的替代方案，但面临着性能较差的挑战。大多数现有的一体化 VLM 需要调整预训练的 LLM 以获得视觉能力，这可能会降低其语言能力。为了解决这一困境，本文提出了一种名为 HoVLE 的新型高性能一体化 VLM。我们注意到，当图像嵌入与文本嵌入对齐时，LLM 已被证明能够解释图像。当前一体化 VLM 的挑战实际上在于缺乏用于视觉和语言输入的整体嵌入模块。因此，HoVLE 引入了一个整体嵌入模块，将视觉和文本输入转换为共享空间，允许 LLM 以与处理文本相同的方式处理图像。此外，精心设计了一种多阶段训练策略来增强整体嵌入模块。它首先被训练以从预训练的视觉编码器中提取视觉特征，并从 LLM 中提取文本嵌入，从而能够使用不成对的随机图像和文本标记进行大规模训练。整个模型进一步对多模态数据进行下一个标记预测以对齐嵌入。最后，加入了指令微调阶段。我们的实验表明，HoVLE 在各种基准测试中实现了接近领先组合模型的性能，大大优于先前的一体化模型。模型可在 https://huggingface.co/OpenGVLab/HoVLE 获取。
2024-12-20	Frequency Is What You Need: Word-frequency Masking Benefits Vision-Language Model Pre-training	link	视觉语言模型（VLM）如果能够减少训练集的大小，就可以更有效地进行训练。最近的研究表明，在 VLM 训练过程中使用各种方法屏蔽文本（例如：截断、随机屏蔽、块屏蔽和语法屏蔽）是有益的。在本文中，我们展示了最佳的屏蔽策略会随着训练周期的变化而变化，并且在足够的训练周期下，词频信息是实现最佳性能所需要的。我们提出的方法，称为基于词频屏蔽的对比语言图像预训练（CLIPF），在一系列大型数据集上的实验结果证明了其优势。随着输入词数量的减少，这种优势尤为明显。我们分析了 CLIPF 与其他屏蔽方法对词频平衡的影响，并讨论了 CLIPF 在维持跨词性类别词频平衡方面的关键作用。
2024-12-20	Demystifying the Potential of ChatGPT-4 Vision for Construction Progress Monitoring	null	大型视觉语言模型 (LVLMs)，例如 OpenAI 的 GPT-4 Vision，融入各行各业标志着人工智能领域，尤其是在视觉数据分析和解释方面，的重大进步。本文探讨了 GPT-4 Vision 在建筑行业的实际应用，重点关注其在监测和跟踪建筑项目进度方面的能力。本研究利用建筑工地的高分辨率航拍图像，检验了 GPT-4 Vision 如何执行详细的场景分析并跟踪随时间推移的发展变化。研究结果表明，虽然 GPT-4 Vision 能熟练地识别施工阶段、材料和机械，但在精确的目标定位和分割方面仍面临挑战。尽管存在这些限制，但该技术未来发展潜力巨大。这项研究不仅强调了当前在建筑领域使用 LVLMs 的现状和机遇，还讨论了未来通过特定领域训练以及与其他计算机视觉技术和数字孪生集成来增强模型效用的方向。
2024-12-20	Error-driven Data-efficient Large Multimodal Model Tuning	null	大型多模态模型 (LMMs) 在众多学术基准测试中展现了令人印象深刻的性能。然而，微调对于在下游任务中获得令人满意的性能仍然至关重要，而特定于任务的微调样本通常难以获得，或者获取成本高昂且耗时。为了解决这个问题，我们提出了一个错误驱动的、数据高效的微调框架，旨在有效地将通用 LMM 适应新兴任务，而无需任何特定于任务的训练样本。在我们的方法中，首先在一个小的目标任务验证集上评估一个作为学生模型的通用 LMM，然后一个更强大的模型（作为教师模型）识别学生模型推理步骤中的错误步骤，并分析其完全解决目标任务的能力差距。基于这些差距，从现有的任务无关数据集中进一步检索有针对性的训练样本，以微调学生模型并使其适应目标任务。我们跨越三种不同的训练数据规模和七项任务进行了广泛的实验，结果表明，我们的训练范式显著且有效地提高了 LMM 在下游任务中的性能，平均性能提升了 7.01%。
2024-12-20	VLM-RL: A Unified Vision Language Models and Reinforcement Learning Framework for Safe Autonomous Driving	null	近年来，基于强化学习 (RL) 的驾驶策略学习方法在自动驾驶领域受到了越来越多的关注，并在各种驾驶场景中取得了显著进展。然而，传统的 RL 方法依赖于手动设计的奖励函数，这需要大量的人力，并且通常缺乏泛化能力。为了解决这些局限性，我们提出了VLM-RL，这是一个将预训练的视觉语言模型 (VLM) 与 RL 相结合的统一框架，利用图像观测和自然语言目标生成奖励信号。VLM-RL的核心是对比语言目标 (CLG) 作为奖励的范式，它使用正面和负面的语言目标来生成语义奖励。我们进一步引入了一种分层奖励合成方法，将基于 CLG 的语义奖励与车辆状态信息相结合，提高了奖励的稳定性，并提供了更全面的奖励信号。此外，我们还采用了批量处理技术来优化训练过程中的计算效率。在 CARLA 模拟器中的大量实验表明，VLM-RL 的性能优于最先进的基线方法，碰撞率降低了 10.5%，路线完成率提高了 104.6%，并且对未见过的驾驶场景具有鲁棒的泛化能力。此外，VLM-RL 可以无缝集成几乎任何标准的 RL 算法，这可能会彻底改变现有的依赖于手动奖励工程的 RL 范式，并实现持续的性能改进。演示视频和代码可在以下网址访问：https://zilin-huang.github.io/VLM-RL-website。
2024-12-19	PRIMA: Multi-Image Vision-Language Models for Reasoning Segmentation	null	尽管大型视觉语言模型（LVLMs）取得了显著进展，但现有的像素定位模型仍然在单图像设置下运行，限制了它们在多图像之间进行详细、细粒度比较的能力。相反，当前的多图像理解模型缺乏像素级定位。我们的工作通过引入多图像像素定位推理分割任务来弥补这一差距，并提出了PRIMA，一个新颖的LVLM，它将像素级定位与强大的多图像推理能力相结合，以生成上下文丰富、像素定位的解释。PRIMA的核心是一个高效的视觉模块，它跨多个图像查询细粒度的视觉表示，从而减少了25.3%的TFLOPs。为了支持训练和评估，我们构建了 $M^4Seg$ ，这是一个新的推理分割基准，包含约224K个问答对，需要跨多图像的细粒度视觉理解。实验结果表明，PRIMA的性能优于最先进的基线模型。
2024-12-19	EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues	null	通过交互式视觉语言模型 (VLM) 自动分析海量地球观测数据，可以为环境监测、灾害响应和资源管理开辟新的机遇。现有的通用 VLM 在遥感数据上的表现不佳，而最近的地理空间 VLM 仍然局限于固定的分辨率和少数传感器模式。在本文中，我们介绍了 EarthDial，这是一个专为地球观测 (EO) 数据设计的对话助手，它将复杂的多传感器地球观测数据转换为交互式的自然语言对话。EarthDial 支持多光谱、多时相和多分辨率图像，从而实现广泛的遥感任务，包括分类、检测、字幕生成、问答、视觉推理和视觉定位。为了实现这一目标，我们引入了一个包含超过 1111 万个指令对的广泛指令微调数据集，涵盖了 RGB、合成孔径雷达 (SAR) 和近红外 (NIR) 和红外等多光谱模式。此外，EarthDial 可以处理双时相和多时相序列分析，用于变化检测等应用。我们对 37 个下游应用进行的广泛实验结果表明，EarthDial 的性能优于现有的通用模型和特定领域模型，在各种 EO 任务中实现了更好的泛化能力。
2024-12-19	Qwen2.5 Technical Report	link	在本报告中，我们介绍了Qwen2.5，这是一系列旨在满足各种需求的大语言模型（LLM）。与之前的版本相比，Qwen 2.5在预训练和后训练阶段都得到了显著改进。在预训练方面，我们将高质量的预训练数据集从之前的7万亿个词元扩展到18万亿个词元。这为常识、专业知识和推理能力提供了坚实的基础。在后训练方面，我们使用超过100万个样本进行了复杂的监督微调，以及多阶段强化学习。后训练技术增强了人类偏好，并显著改进了长文本生成、结构化数据分析和指令遵循能力。为了有效处理多样化的用例，我们提供了各种规模的Qwen2.5 LLM系列。公开权重的模型包括基础模型和指令微调模型，并提供量化版本。此外，对于托管解决方案，专有模型目前包括两个混合专家（MoE）变体：Qwen2.5-Turbo和Qwen2.5-Plus，均可从阿里云模型工作室获取。Qwen2.5在评估语言理解、推理、数学、编码、人类偏好对齐等方面的一系列基准测试中展现了顶级性能。具体来说，公开权重的旗舰模型Qwen2.5-72B-Instruct的性能优于许多公开和专有模型，并且与最先进的公开权重模型Llama-3-405B-Instruct（其规模约为Qwen2.5的5倍）相比，表现出竞争力。Qwen2.5-Turbo和Qwen2.5-Plus具有优越的成本效益，同时性能分别与GPT-4o-mini和GPT-4o相比具有竞争力。此外，作为基础模型，Qwen2.5模型在训练专业模型方面发挥了重要作用，例如Qwen2.5-Math、Qwen2.5-Coder、QwQ和多模态模型。
2024-12-19	Progressive Multimodal Reasoning via Active Retrieval	null	多步骤多模态推理任务对多模态大语言模型（MLLM）提出了重大挑战，如何有效提高其在此类场景下的性能仍是一个未解决的问题。本文提出了AR-MCTS，这是一个通用框架，旨在通过主动检索（AR）和蒙特卡洛树搜索（MCTS）逐步提高MLLM的推理能力。我们的方法首先开发了一个统一的检索模块，该模块从混合模态检索语料库中检索关键支持信息，以解决复杂的推理问题。为了弥合自动多模态推理验证方面的差距，我们采用了MCTS算法结合主动检索机制，从而能够自动生成逐步注释。该策略动态地检索每个推理步骤的关键信息，超越了传统的波束搜索采样，以提高推理空间的多样性和可靠性。此外，我们引入了一个过程奖励模型，该模型逐步对齐以支持多模态推理任务的自动验证。在三个复杂的多模态推理基准上的实验结果证实了AR-MCTS框架在提高各种多模态模型性能方面的有效性。进一步的分析表明，AR-MCTS可以优化采样多样性和准确性，从而产生可靠的多模态推理。
2024-12-19	A Light-Weight Framework for Open-Set Object Detection with Decoupled Feature Alignment in Joint Space	link	开放集目标检测 (OSOD) 对于非结构化环境中的机器人操作非常重要。然而，现有的 OSOD 方法由于计算负担高且部署复杂，通常无法满足机器人应用的需求。为了解决这个问题，本文提出了一种名为解耦 OSOD (DOSOD) 的轻量级框架，它是一种实用且高效的解决方案，可支持机器人系统中的实时 OSOD 任务。具体来说，DOSOD 建立在 YOLO-World 管道的基础上，通过将视觉语言模型 (VLM) 与检测器集成。开发了一种多层感知器 (MLP) 适配器，用于将 VLM 提取的文本嵌入转换为联合空间，检测器在其中学习类别无关提议的区域表示。跨模态特征直接在联合空间中对齐，避免了复杂的特征交互，从而提高了计算效率。DOSOD 在测试阶段的操作类似于传统的闭集检测器，有效地弥合了闭集和开集检测之间的差距。与基线 YOLO-World 相比，所提出的 DOSOD 显着提高了实时性能，同时保持了相当的精度。在 LVIS minival 数据集上使用类似的骨干网络，轻量级 DOSOD-S 模型实现了 26.7% 的 Fixed AP，而 YOLO-World-v1-S 为 26.2%，YOLO-World-v2-S 为 22.7%。同时，DOSOD-S 的 FPS 比 YOLO-World-v1-S 高 57.1%，比 YOLO-World-v2-S 高 29.6%。同时，我们证明了 DOSOD 模型有助于边缘设备的部署。代码和模型已在 https://github.com/D-Robotics-AI-Lab/DOSOD 公开发布。
2024-12-19	Token Preference Optimization with Self-Calibrated Visual-Anchored Rewards for Hallucination Mitigation	null	直接偏好优化 (DPO) 已被证明在减少大型视觉语言模型 (LVLMs) 的幻觉方面非常有效，它可以通过使模型输出更贴近人类偏好来实现这一点。尽管最近取得了进展，现有方法仍存在两个缺点：1) 缺乏可扩展的词元级奖励；2) 忽略了视觉锚定词元。为此，我们提出了一种新的具有自校准奖励的词元偏好优化模型（称为 TPO），它可以自适应地关注与视觉相关的词元，而无需精细的标注。具体来说，我们引入了一个词元级“视觉锚定奖励”，其定义为以原始图像和损坏图像为条件的生成词元的逻辑分布之差。此外，为了突出信息丰富的视觉锚定词元，我们提出了一个视觉感知训练目标，以增强更准确的词元级优化。大量的实验结果表明，所提出的 TPO 实现了最先进的性能。例如，基于 LLAVA-1.5-7B，我们的 TPO 为幻觉基准测试带来了显著的性能提升。
2024-12-19	GraphEQA: Using 3D Semantic Scene Graphs for Real-time Embodied Question Answering	null	在具身问答（EQA）中，智能体必须探索并发展对未知环境的语义理解，才能自信地回答情境化问题。由于难以获取有用的语义表示、在线更新这些表示以及利用先验世界知识进行高效探索和规划，这仍然是机器人技术中的一个挑战性问题。为了解决这些限制，我们提出了GraphEQA，这是一种新颖的方法，它利用实时3D度量语义场景图（3DSG）和任务相关图像作为多模态记忆，将视觉语言模型（VLM）接地，以在未知环境中执行EQA任务。我们采用分层规划方法，利用3DSG的层次性进行结构化规划和语义引导探索。通过在HM-EQA数据集上的模拟实验以及在家庭和办公室环境中的真实世界实验，我们证明了我们的方法在完成EQA任务方面优于关键基线，成功率更高，规划步骤更少。
2024-12-19	MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval	null	尽管对多模态检索的需求迅速增长，但该领域的研究进展仍然受到训练数据缺乏的严重限制。在本文中，我们介绍了一种名为 MegaPairs 的新型数据合成方法，它利用视觉语言模型 (VLM) 和开放域图像，并使用该方法生成了一个庞大的合成数据集。我们的实证分析表明，MegaPairs 生成了高质量的数据，使多模态检索器的性能显著优于在现有数据集（数据量是 MegaPairs 的 70 倍）上训练的基线模型。此外，由于 MegaPairs 仅依赖于通用图像语料库和开源 VLM，因此可以轻松扩展，从而不断提高检索性能。目前，我们已经生成了超过 2600 万个训练实例，并使用这些数据训练了多个不同规模的模型。这些新模型在 4 个流行的组合图像检索 (CIR) 基准测试中实现了最先进的零样本性能，并在 MMEB 提供的 36 个数据集上取得了最高的整体性能。它们在下游微调后也展现出显著的性能提升。我们将公开发布我们生成的数据集、训练好的模型和数据合成流程，以促进该领域的未来发展。
2024-12-18	Descriptive Caption Enhancement with Visual Specialists for Multimodal Perception	link	训练大型多模态模型 (LMM) 依赖于连接图像和语言的描述性图像标题。现有方法要么从 LMM 模型中提取标题，要么从互联网图像或人工构建标题。我们建议利用现成的视觉专家来增强图像标题，这些专家最初是在标注图像上训练的，而不是用于图像标题生成。我们的方法名为 DCE，它探索对象的低级和细粒度属性（例如，深度、情感和细粒度类别）以及对象关系（例如，相对位置和人-物交互 (HOI)），并将这些属性组合到描述性标题中。实验表明，此类视觉专家能够提高视觉理解任务的性能，以及受益于更准确视觉理解的推理能力。我们将发布源代码和流程，以便其他视觉专家可以轻松地组合到流程中。DCE 流程和数据集的完整源代码将在 \url{https://github.com/syp2ysy/DCE} 上提供。
2024-12-18	Incorporating Feature Pyramid Tokenization and Open Vocabulary Semantic Segmentation	null	视觉理解通常从三个粒度级别进行研究：图像、图像块和像素。视觉标记化通过自监督重建学习进行训练，利用码本在图像块级别压缩视觉数据，信息损失很小，但视觉标记本身不具备语义。开放词汇语义分割受益于不断发展的视觉语言模型 (VLM)，这些模型具有强大的图像零样本能力，但将图像级理解转换为像素级理解仍然是一项迫在眉睫的挑战。在本文中，我们将分割视为像素标记化，并研究了一种用于所有粒度理解的统一感知和语义标记压缩方法，从而促进了开放词汇语义分割。参考预训练VLM的认知过程，其中低级特征逐渐组合成高级语义，我们提出了特征金字塔标记化 (PAT) 方法，通过可学习的码本来聚类和表示多分辨率特征，然后通过联合学习像素重建和语义分割来解码它们。我们设计了松散耦合的像素和语义学习分支。像素分支模拟码本标记的自底向上组合和自顶向下可视化，而语义分支则共同融合分层码本作为辅助分割指导。我们的实验表明，PAT增强了VLM特征金字塔的语义直觉，提高了基线分割模型的性能，并在开放词汇语义分割基准测试中取得了具有竞争力的性能。我们的模型对于VLM集成来说参数高效，并且对于独立标记化来说具有灵活性。我们希望不仅能够为改进分割提供灵感，还能为语义视觉标记的利用提供启示。
2024-12-17	Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration	null	最近关于加速视觉语言模型的研究表明，尽管视觉信息被高度压缩，但在各种视觉语言任务中仍可以保持强大的性能。在这项工作中，我们研究了在语言模型内部及早修剪视觉标记的流行加速方法，并发现其在许多任务中的强大性能并非源于压缩视觉信息的出色能力，而是源于基准测试评估细粒度视觉能力的有限能力。也就是说，我们证明了这种加速方法的一个核心问题，即图像顶部的大部分标记都被修剪掉了。然而，这个问题只反映在定位等一小部分任务的性能上。对于其他评估的任务，有缺陷的修剪策略仍能保持强大的性能。注意到所研究的加速技术的视觉能力有限，我们提出了FEATHER（Fast and Effective Acceleration wiTH Ensemble cRiteria），这是一种简单的方法，它（1）解决了早期层修剪中发现的问题，（2）结合了均匀采样以确保覆盖所有图像区域，以及（3）分两个阶段应用修剪，以便使标准在后期层更有效，同时仍然通过早期层修剪实现显著的加速。在相当的计算节省情况下，我们发现FEATHER在以视觉为中心的定位基准测试中比原始加速方法的性能提高了5倍以上。
2024-12-17	DoPTA: Improving Document Layout Analysis using Patch-Text Alignment	null	多模态学习的出现为文档AI带来了显著的改进。文档现在被视为多模态实体，结合文本和视觉信息进行下游分析。然而，该领域的研究通常侧重于文本方面，将视觉空间用作辅助信息。虽然某些工作探索了基于纯视觉技术的文档图像理解，但它们在推理过程中需要OCR识别文本作为输入，或者在学习过程中不与文本对齐。因此，我们提出了一种新颖的图文对齐技术，专门设计用于利用文档图像中的文本信息来提高视觉任务的性能。我们的文档编码器模型DoPTA使用这种技术进行训练，在各种文档图像理解任务中展现出强大的性能，且推理过程中无需OCR。结合辅助重建目标，DoPTA的性能始终优于更大的模型，同时使用的预训练计算量却明显更少。DoPTA还在D4LA和FUNSD这两个具有挑战性的文档视觉分析基准测试中创造了新的最佳结果。
2024-12-17	ZoRI: Towards Discriminative Zero-Shot Remote Sensing Instance Segmentation	link	遥感图像实例分割算法通常基于传统方法，这限制了它们在已知场景和闭集预测中的应用。在这项工作中，我们提出了一个名为零样本遥感实例分割的新任务，旨在识别训练数据中不存在的空中物体。在对具有高类间相似性和类内差异的空中类别进行分类时，会遇到挑战。此外，视觉语言模型预训练数据集和遥感数据集之间的域差异阻碍了预训练模型直接应用于遥感图像时的零样本能力。为了应对这些挑战，我们提出了一个名为ZoRI的零样本遥感实例分割框架。我们的方法采用了一个区分增强分类器，它使用细化的文本嵌入来增强对类别差异的感知。我们没有直接进行微调，而是提出了一种知识维护的自适应策略，将语义相关信息解耦，以保留预训练的视觉语言对齐，同时调整特征以捕获遥感领域特定的视觉线索。此外，我们引入了一个带有空中视觉原型缓存库的先验注入预测，以补充文本嵌入的语义丰富性，并无缝集成空中表征，以适应遥感领域。我们建立了新的实验协议和基准，大量的实验令人信服地证明ZoRI在零样本遥感实例分割任务上达到了最先进的性能。我们的代码可在https://github.com/HuangShiqi128/ZoRI获取。
2024-12-17	CRoF: CLIP-based Robust Few-shot Learning on Noisy Labels	null	由于新领域中特征不精确，噪声标签威胁着少样本学习 (FSL) 的鲁棒性。CLIP，一个大规模视觉语言模型，在基于图像-文本嵌入相似度的 FSL 中表现良好，但它容易受到噪声标签引起的错误分类的影响。如何在 FSL 任务中增强 CLIP 在噪声数据上的域泛化能力是一个关键挑战。在本文中，我们提供了一种新的视角来减轻噪声标签的影响，即基于 CLIP 的鲁棒少样本学习 (CRoF)。CRoF 是一个适用于基于 CLIP 模型的通用插件模块。为了避免错误分类和标签嵌入混淆，我们设计了面向少样本任务的提示生成器，为每个类别提供更具辨别力的描述。所提出的提示实现了更大的类间文本嵌入距离。此外，我们没有完全信任 CLIP 的零样本分类，而是使用类似标签平滑的加权策略，在具有噪声的少样本新领域数据上微调 CLIP。多个潜在正确标签的权重考虑了 CLIP 的先验知识与原始标签信息之间的关系，以确保可靠性。我们的多标签损失函数进一步支持这种范式下的鲁棒训练。综合实验表明，CRoF 作为插件，在不同噪声类型和噪声比率上优于微调和原始 CLIP 模型。
2024-12-17	Activating Distributed Visual Region within LLMs for Efficient and Effective Vision-Language Training and Inference	null	大型视觉语言模型 (LVLMs) 通常通过视觉指令微调来学习视觉能力，这涉及到投影器及其 LLM 主干的更新。受人脑视觉区域概念的启发，我们研究了 LLM 中是否存在类似的充当认知核心的“视觉区域”，并探索了通过选择性层微调来高效训练 LVLMs 的可能性。我们使用 Bunny-Llama-3-8B-V 进行详细实验，并使用 LLaVA-1.5-7B 和 LLaVA-1.5-13B 在各种视觉和文本任务中进行验证。我们的研究结果表明，选择性地更新 25% 的 LLM 层（稀疏且均匀分布）可以保留近 99% 的视觉性能，同时保持或增强文本任务结果，并且还有效地减少了训练时间。基于这种定向训练方法，我们进一步提出了一种新的基于视觉区域的剪枝范式，去除视觉区域外不重要的层，从而最大限度地减少性能损失。这项研究通过激活 LLM 中的逐层视觉区域，为 LVLM 训练和推理提供了一种有效且高效的策略，该策略在不同模型和参数规模上始终有效。
2024-12-17	SPHERE: A Hierarchical Evaluation on Spatial Perception and Reasoning for Vision-Language Models	null	目前的视觉语言模型可能包含单维空间线索，例如深度、物体边界和基本空间方向（例如左、右、前、后），但通常缺乏类人理解和实际应用所需的多维空间推理能力。为了弥补这一差距，我们开发了SPHERE（空间感知和推理的分层评估），这是一个分层评估框架，带有一个新的人工标注数据集，用于精确定位模型的优势和劣势，从单技能任务到多技能任务，最终到需要将多个空间和视觉线索与逻辑推理相结合的复杂推理任务。对最先进的开源模型的基准评估揭示了其重大缺陷，尤其是在理解距离和接近度、从以自我为中心和以物体为中心的视角进行推理以及在物理环境中执行复杂推理的能力方面。这项工作强调了对更高级的空间理解和推理方法的需求，为改进视觉语言模型及其与类人空间能力的对齐铺平了道路。该数据集将在发表后开源。
2024-12-17	PBVS 2024 Solution: Self-Supervised Learning and Sampling Strategies for SAR Classification in Extreme Long-Tail Distribution	null	多模态学习研讨会 (PBVS 2024) 旨在通过利用合成孔径雷达 (SAR) 数据和电光 (EO) 数据进行同步学习来提高自动目标识别 (ATR) 系统的性能，其中SAR数据难以解释但不受天气条件和可见光的影响。名为“多模态航拍图像挑战赛——分类”的子任务，重点是基于一组SAR-EO图像对及其各自的类别标签来预测低分辨率航拍图像的类别标签。所提供的数据集由SAR-EO图像对组成，其特征是具有严重的“长尾”分布，最大类别和最小类别之间的差异超过1000倍，这使得典型的长尾方法难以应用。此外，SAR和EO数据集之间的域差异也使得标准多模态方法的有效性变得复杂。为了应对这些重大挑战，我们提出了一种两阶段学习方法，该方法利用自监督技术，结合多模态学习和通过SAR到EO转换进行推理，以有效利用EO数据。在PBVS 2024多模态航拍图像挑战赛——分类（SAR分类）任务的最终测试阶段，我们的模型实现了21.45%的准确率、0.56的AUC和0.30的总分，在比赛中排名第九。
2024-12-17	DuSSS: Dual Semantic Similarity-Supervised Vision-Language Model for Semi-Supervised Medical Image Segmentation	link	半监督医学图像分割（SSMIS）利用一致性学习来规范模型训练，从而减轻像素级手动标注的负担。然而，它经常受到来自低质量伪标签的错误监督的影响。视觉语言模型（VLM）通过引入文本提示引导的多模态监督信息，具有增强伪标签的巨大潜力。然而，它面临跨模态问题：获得的消息往往对应于多个目标。为了解决上述问题，我们提出了一种用于SSMIS的双语义相似度监督VLM（DuSSS）。具体来说，1）设计了一种双重对比学习（DCL），通过捕获每种模态内的内在表示和跨模态的语义相关性来提高跨模态语义一致性。2）为了鼓励学习多种语义对应关系，提出了一种语义相似度监督策略（SSS），并将其注入到DCL的每个对比学习过程中，通过基于分布的不确定性水平来监督语义相似性。此外，设计了一种新的基于VLM的SSMIS网络，以弥补伪标签的质量缺陷。它利用预训练的VLM生成文本提示引导的监督信息，改进伪标签以获得更好的一致性正则化。实验结果表明，我们的DuSSS在三个公共数据集（QaTa-COV19、BM-Seg和MoNuSeg）上取得了优异的性能，Dice分别为82.52%、74.61%和78.03%。
2024-12-17	Causal Diffusion Transformers for Generative Modeling	link	我们引入了因果扩散模型（Causal Diffusion），它是扩散模型的自回归（AR）对应模型。它是一个下一标记（或多个标记）预测框架，对离散和连续模态都很友好，并且与现有的下一标记预测模型（如LLaMA和GPT）兼容。尽管最近的一些工作尝试将扩散模型与AR模型结合起来，但我们证明，将序列分解引入扩散模型可以显著提高其性能，并实现AR和扩散生成模式之间的平滑过渡。因此，我们提出了CausalFusion——一个仅解码器的Transformer模型，它在序列标记和扩散噪声级别上对数据进行双重分解，在ImageNet生成基准测试中取得了最先进的结果，同时也享有AR生成任意数量标记以进行上下文推理的优势。我们进一步通过联合图像生成和字幕模型展示了CausalFusion的多模态能力，并展示了CausalFusion进行零样本上下文图像处理的能力。我们希望这项工作可以为社区提供训练离散和连续数据多模态模型的新视角。
2024-12-16	CPath-Omni: A Unified Multimodal Foundation Model for Patch and Whole Slide Image Analysis in Computational Pathology	null	大型多模态模型 (LMM) 的出现为病理学带来了显著的进步。以往的研究主要集中在分别训练补丁级别和全切片图像 (WSI) 级别的模型，限制了跨补丁和WSI学习知识的整合，并导致模型冗余。在这项工作中，我们介绍了 CPath-Omni，这是第一个拥有 150 亿参数的 LMM，旨在统一补丁和 WSI 级别的图像分析，整合这两个级别的各种任务，包括分类、视觉问答、字幕生成和视觉参考提示。大量实验表明，CPath-Omni 在 42 个数据集中 39 个的七项不同任务中实现了最先进的 (SOTA) 性能，优于或匹配为单个任务训练的特定任务模型。此外，我们为 CPath-Omni 开发了一个专门的基于病理学 CLIP 的视觉处理器 CPath-CLIP，它首次集成了不同的视觉模型，并结合大型语言模型作为文本编码器，构建了一个更强大的 CLIP 模型，在九个零样本和四个少样本数据集中实现了 SOTA 性能。我们的研究结果突出了 CPath-Omni 统一各种病理学任务的能力，展示了其简化和推进病理学基础模型领域的潜力。
2024-12-13	Apollo: An Exploration of Video Understanding in Large Multimodal Models	null	尽管大型多模态模型 (LMM) 迅速整合了视频感知能力，但驱动其视频理解的潜在机制仍然知之甚少。因此，该领域的许多设计决策缺乏适当的论证或分析。训练和评估此类模型的高计算成本，加上有限的开放研究，阻碍了视频-LMM 的发展。为了解决这个问题，我们提出了一项综合研究，以帮助揭示在 LMM 中有效驱动视频理解的因素。我们首先批判性地研究了与视频-LMM 研究相关的高计算需求的主要原因，并发现了规模一致性，即在较小模型和数据集（达到临界规模）上做出的设计和训练决策可以有效地迁移到较大模型。利用这些见解，我们探索了视频-LMM 的许多视频特定方面，包括视频采样、架构、数据组成、训练计划等等。例如，我们证明了训练期间的 fps 采样比均匀帧采样更可取，并且哪些视觉编码器最适合视频表示。在这些发现的指导下，我们推出了 Apollo，这是一个最先进的 LMM 系列，可在不同模型大小上实现卓越的性能。我们的模型可以有效地感知长达一小时的视频，Apollo-3B 的性能优于大多数现有的 7B 模型，在 LongVideoBench 上取得了令人印象深刻的 55.1 分。Apollo-7B 与 7B LMM 相比处于最先进水平，在 MLVU 上得分为 70.9，在 Video-MME 上得分为 63.3。
2024-12-13	A dual contrastive framework	null	在当前的多模态任务中，模型通常冻结编码器和解码器，同时调整中间层以适应特定任务目标，例如区域描述。区域级别的视觉理解对大规模视觉语言模型提出了重大挑战。虽然有限的空间感知能力是一个已知问题，但粗粒度的预训练尤其加剧了优化潜在表示以实现有效编码器-解码器对齐的难度。我们提出了 AlignCap，这是一个旨在通过潜在空间的细粒度对齐来增强区域级别理解的框架。我们的方法引入了一个新颖的潜在特征细化模块，增强了条件潜在空间表示，从而提高区域级别描述的性能。我们还提出了一种创新的对齐策略，即语义空间对齐模块，它可以提高多模态表示的质量。此外，我们在两个模块中都以一种新颖的方式结合了对比学习，以进一步增强区域级别描述的性能。为了解决空间限制，我们采用了一种通用目标检测（GOD）方法作为数据预处理流程，增强了区域级别的空间推理能力。大量实验表明，我们的方法显著提高了各种任务中区域级别描述的性能。
2024-12-13	DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding	link	我们推出了DeepSeek-VL2，这是一系列先进的大型混合专家模型（MoE）视觉语言模型，它通过两个关键的主要升级在其前身DeepSeek-VL的基础上进行了显著改进。对于视觉组件，我们采用了一种动态分块视觉编码策略，旨在处理具有不同纵横比的高分辨率图像。对于语言组件，我们利用具有多头潜在注意力机制的DeepSeekMoE模型，将键值缓存压缩为潜在向量，以实现高效推理和高吞吐量。DeepSeek-VL2在改进的视觉语言数据集上进行训练，在各种任务中展现出卓越的能力，包括但不限于视觉问答、光学字符识别、文档/表格/图表理解和视觉定位。我们的模型系列由三个变体组成：DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2，分别具有10亿、28亿和45亿个激活参数。与现有的开源密集型和基于MoE的模型相比，DeepSeek-VL2在相似或更少的激活参数下实现了具有竞争力或最先进的性能。代码和预训练模型可在https://github.com/deepseek-ai/DeepSeek-VL2公开访问。
2024-12-13	VLR-Bench: Multilingual Benchmark Dataset for Vision-Language Retrieval Augmented Generation	null	我们提出了VLR-Bench，这是一个基于检索增强生成（RAG）的视觉问答（VQA）基准，用于评估视觉语言模型（VLM）。与现有的基于外部知识的VQA评估数据集不同，我们提出的VLR-Bench包含五个输入段落。这允许测试确定哪个段落对回答给定查询有用的能力，这是先前研究中缺乏的能力。在此背景下，我们构建了一个包含32,000个自动生成的指令遵循示例的数据集，我们将其称为VLR-IF。该数据集旨在通过使VLM学习如何根据输入段落生成适当的答案来增强其RAG能力。我们使用基于最先进Llama3的VLM模型Llava-Llama-3评估了所提出的基准和训练数据的有效性，并验证了其性能。提出的VLR-Bench和VLR-IF数据集已公开在线提供。
2024-12-13	Performance of ChatGPT on tasks involving physics visual representations: the case of the Brief Electricity and Magnetism Assessment	null	基于人工智能的聊天机器人由于其能够解释和响应文本和视觉输入，正日益影响物理教育。本研究评估了两个大型多模态模型聊天机器人ChatGPT-4和ChatGPT-4o在简明电磁评估（BEMA）中的表现，BEMA是一个包含大量视觉表示（如矢量场、电路图和图表）的概念物理题库。定量分析表明，ChatGPT-4o的表现优于ChatGPT-4和大量大学生样本，并展示了ChatGPT-4o相比其前身ChatGPT-4在视觉解释能力方面的改进。然而，对ChatGPT-4o回答的定性分析揭示了其持续存在的挑战。我们确定了聊天机器人在回答BEMA任务时遇到的三种类型的困难：（1）视觉解释困难，（2）提供正确的物理定律或规则困难，以及（3）空间协调和应用物理表征困难。空间推理任务，特别是那些需要使用右手定则的任务，被证明尤其困难。这些发现表明，使用最广泛的大型多模态模型聊天机器人ChatGPT-4o在处理涉及视觉表示的物理任务时仍然存在显著困难。虽然聊天机器人在教育应用方面展现出潜力，包括个性化辅导以及为盲人或低视力学生提供无障碍支持，但其局限性需要谨慎对待。另一方面，我们的研究结果也可以用于设计难以被聊天机器人解决的评估。
2024-12-13	WiseAD: Knowledge Augmented End-to-End Autonomous Driving with Vision-Language Model	null	快速发展的视觉语言模型 (VLM) 在通用人类知识和令人印象深刻的逻辑推理能力方面的进步，推动了人们对将 VLM 应用于高级自动驾驶任务（例如场景理解和决策）的兴趣日益浓厚。然而，关于知识熟练程度（尤其是必要的驾驶专业知识）与闭环自动驾驶性能之间关系的深入研究仍有待进一步探索。在本文中，我们研究了基础驾驶知识的深度和广度对闭环轨迹规划的影响，并介绍了 WiseAD，这是一个专门为端到端自动驾驶定制的 VLM，能够在各种场景下进行驾驶推理、动作解释、物体识别、风险分析、驾驶建议和轨迹规划。我们采用驾驶知识和规划数据集的联合训练，使模型能够相应地执行知识对齐的轨迹规划。大量实验表明，随着驾驶知识多样性的扩展，严重事故显着减少，在 Carla 闭环评估中，驾驶得分和路线完成率分别提高了 11.9% 和 12.4%，达到了最先进的性能。此外，WiseAD 在域内和域外数据集的知识评估中也表现出卓越的性能。
2024-12-13	CaLoRAify: Calorie Estimation with Visual-Text Pairing and LoRA-Driven Visual Language Models	link	肥胖现象，即体重问题，是全球范围内可预防慢性病的主要原因。传统的卡路里估算工具通常依赖于特定的数据格式或复杂的流程，限制了它们在现实场景中的实用性。近年来，视觉语言模型 (VLM) 在理解现实世界环境和实现对话交互方面表现出色，使其成为诸如成分分析等下游任务的理想选择。然而，将 VLM 应用于卡路里估算需要特定领域的数据和对齐策略。为此，我们构建了 CalData，这是一个包含 33 万个图像-文本对的数据集，专为成分识别和卡路里估算而设计，它结合了大规模食谱数据集和详细的营养说明，以实现稳健的视觉语言训练。基于此数据集，我们提出了 CaLoRAify，这是一个新颖的 VLM 框架，通过使用视觉-文本对进行训练来对齐成分识别和卡路里估算。在推理过程中，用户只需一张单目食物图像即可估算卡路里，同时保留基于代理的对话交互的灵活性。借助低秩自适应 (LoRA) 和检索增强生成 (RAG) 技术，我们的系统增强了基础 VLM 在卡路里估算垂直领域的性能。我们的代码和数据已在 https://github.com/KennyYao2001/16824-CaLORAify 完全开源。
2024-12-13	Selective State Space Memory for Large Vision-Language Models	null	大型视觉语言模型 (LVLMs) 在各种多模态任务中展现了卓越的性能。然而，针对特定领域应用对这些模型进行微调仍然是一项计算密集型挑战。本文介绍了状态空间记忆集成 (SSMI)，这是一种用于高效微调 LVLMs 的新方法。通过将基于 Mamba 的轻量级状态空间模块集成到 LVLM 架构中，SSMI 可以有效捕获长程依赖关系并注入特定任务的视觉和序列模式。与传统的微调方法不同，SSMI 只需要更新模型参数的一小部分，使其具有计算效率和可扩展性。在基准数据集（包括 COCO Captioning、VQA 和 Flickr30k）上的实验表明，SSMI 实现了最先进的性能，同时保持了鲁棒性和泛化能力。综合分析进一步验证了 SSMI 在效率、适应性和可解释性方面的优势，使其成为微调大规模视觉语言模型的引人注目的解决方案。
2024-12-12	BayesAdapter: enhanced uncertainty estimation in CLIP few-shot adaptation	null	大型预训练视觉语言模型 (VLM) 的出现代表了机器学习的范式转变，在广泛的视觉识别任务中取得了前所未有的成果。CLIP 作为最流行的 VLM 之一，在分类任务中展现了卓越的零样本学习和迁移学习能力。为了将 CLIP 迁移到下游任务，适配器构成了一种参数高效的方法，避免了通过大型模型进行反向传播（不同于相关的提示学习方法）。然而，CLIP 适配器的开发主要关注判别性能，而其不确定性估计的质量却被忽视了。在这项工作中，我们展示了最先进的 CLIP 适配器的判别性能与其不确定性估计能力并不总是相关，而后者对于在现实场景中的安全部署至关重要。我们还证明了其中一个适配器是通过对更通用的概率框架进行最大后验 (MAP) 推断获得的。基于这一观察，我们引入了 BayesAdapter，它利用贝叶斯推断来估计完整的概率分布而不是单点估计，从而更好地捕捉参数空间中固有的可变性。在全面的实证评估中，我们展示了我们的方法在预测中获得了高质量的不确定性估计，在校准和选择性分类方面表现突出。我们的代码已公开发布在：https://github.com/pablomorales92/BayesAdapter。
2024-12-13	V2PE: Improving Multimodal Long-Context Capability of Vision-Language Models with Variable Visual Position Encoding	link	视觉语言模型 (VLM) 在处理各种多模态任务方面展现出 promising 的能力，但它们在长上下文场景中，尤其是在涉及视频、高分辨率图像或长篇图文文档的任务中表现不佳。在本工作中，我们首先使用我们扩充的长上下文多模态数据集对 VLM 的长上下文能力进行了实证分析。我们的研究结果表明，将用于文本标记的位置编码机制直接应用于视觉标记并非最佳方案，并且当位置编码超过模型的上下文窗口时，VLM 的性能会急剧下降。为了解决这个问题，我们提出了可变视觉位置编码 (V2PE)，这是一种新颖的位置编码方法，它对视觉标记采用可变且较小的增量，从而能够更有效地管理长多模态序列。我们的实验表明，V2PE 可以有效增强 VLM 理解和推理长多模态上下文的能力。我们进一步将 V2PE 与我们扩充的长上下文多模态数据集相结合，对开源 VLM InternVL2 进行了微调。微调后的模型在标准和长上下文多模态任务上均取得了良好的性能。值得注意的是，当训练数据集的序列长度增加到 256K 标记时，该模型能够处理最多 1M 标记的多模态序列，突出了其在现实世界长上下文应用中的潜力。
2024-12-12	PVC: Progressive Visual Token Compression for Unified Image and Video Processing in Large Vision-Language Models	null	大型视觉语言模型 (VLM) 已被扩展用于理解图像和视频。视觉标记压缩被用来减少视觉输入的大量标记长度。为了满足不同任务的需求，现有的高性能模型通常使用不同的标记压缩策略分别处理图像和视频，这限制了图像和视频组合能力。为此，我们将每个图像扩展为“静态”视频，并引入一种统一的标记压缩策略，称为渐进式视觉标记压缩 (PVC)，其中每一帧的标记被渐进式编码和自适应压缩，以补充前几帧未提取的信息。通过利用固有的时间冗余性，视频标记被有效地压缩。图像被重复为静态视频，并且空间细节可以在多帧中逐渐补充。PVC 统一了图像和视频的标记压缩。在每帧标记数量有限的情况下（默认为 64 个标记），仍然可以保留空间细节和时间变化。实验表明，我们的模型在各种视频理解基准测试中实现了最先进的性能，包括长视频任务和细粒度短视频任务。同时，我们统一的标记压缩策略在图像基准测试中没有造成性能损失，尤其是在细节敏感的任务中。
2024-12-12	Dynamic-VLM: Simple Dynamic Visual Token Compression for VideoLLM	link	大型视觉语言模型 (LVLMs) 在图像和视频分析中的应用是一个令人兴奋且快速发展的领域。近年来，我们看到用于微调图像理解的高质量图文数据集有了显著增长，但视频方面仍然缺乏可比的数据集。此外，许多 VideoLLM 是单图像 VLM 的扩展，可能无法有效处理较长视频的复杂性。在本研究中，我们介绍了一个使用专有模型创建的大规模合成数据集，并使用精心设计的提示来处理各种问题。我们还探索了一种动态视觉标记压缩架构，在计算效率和性能之间取得了平衡。我们提出的\model{}在各种视频任务中取得了最先进的结果，并展现出令人印象深刻的泛化能力，为多图像理解设定了新的基准。值得注意的是，\model{}在 VideoMME 上比 LLaVA-OneVision 绝对提升了 2.7%，在 MuirBench 上提升了 10.7%。代码可在 https://github.com/Hon-Wong/ByteVideoLLM 获取。
2024-12-12	Embeddings are all you need! Achieving High Performance Medical Image Classification through Training-Free Embedding Analysis	null	开发用于医学影像的人工智能 (AI) 和机器学习 (ML) 模型通常需要在大型数据集上进行大量训练和测试，这会消耗大量的计算时间、能源和资源。需要更高效的方法，在不增加相关资源负担的情况下实现相当或更优的诊断性能。我们研究了用基于嵌入的方法替代传统训练程序的可行性，该方法利用医学图像的简洁且语义上有意义的表示。使用预训练的基础模型——特别是卷积神经网络 (CNN)（如 ResNet）和多模态模型（如对比语言-图像预训练 (CLIP)）——我们生成了用于多类别分类任务的图像嵌入。然后将简单的线性分类器应用于这些嵌入。该方法在各种医学影像模态中进行了评估，包括视网膜图像、乳腺X线照片、皮肤镜图像和胸部X线照片。将性能与使用传统方法训练和测试的基准模型进行了比较。在各种医学影像模态的多类别分类任务中，基于嵌入的模型的受试者工作特征曲线下面积 (AUC-ROC) 得分比基准模型高出87个百分点。值得注意的是，CLIP 嵌入模型实现了最高的 AUC-ROC 得分，展示了卓越的分类性能，同时显著降低了计算需求。我们的研究表明，利用预训练基础模型的嵌入可以有效地替代医学图像分析中传统的、资源密集型训练和测试程序。这种基于嵌入的方法为图像分割、分类和预测提供了更高效的替代方案，可能加速 AI 技术在临床实践中的集成。
2024-12-12	Causal Graphical Models for Vision-Language Compositional Understanding	link	近期研究经验证明，视觉语言模型（VLM）难以完全理解人类语言的组合特性，通常将图像描述建模为“词袋”。因此，它们在组合任务上的表现不佳，这类任务需要更深入地理解句子中不同实体（主语、动词等）及其相互关系才能解决。在本文中，我们使用因果图模型（CGM）对文本和视觉标记之间的依赖关系进行建模，该模型使用依存分析器构建，并且我们训练了一个以VLM视觉编码器为条件的解码器。与标准的自回归或并行预测不同，我们的解码器的生成过程是根据CGM结构进行偏序的。这种结构鼓励解码器只学习句子中的主要因果依赖关系，而丢弃虚假的相关性。通过在五个组合基准上进行的大量实验，我们证明了我们的方法显著优于所有最先进的组合方法，并且它也比使用更大数据集训练的方法有所改进。
2024-12-12	GaGA: Towards Interactive Global Geolocation Assistant	null	全球地理定位旨在预测世界各地拍摄图像的地理位置，是计算机视觉领域最具挑战性的任务之一。在本文中，我们介绍了一种创新的基于大型视觉语言模型 (LVLM) 的交互式全球地理定位助手 GaGA。GaGA 能够发现图像中的地理线索，并将其与 LVLM 中嵌入的广泛世界知识相结合，从而确定地理位置，同时为预测结果提供依据和解释。我们进一步设计了一种新颖的交互式地理定位方法，超越了传统的静态推理方法。它允许用户干预、纠正或提供预测线索，使模型更加灵活实用。GaGA 的开发依赖于新提出的多模态全球地理定位 (MG-Geo) 数据集，这是一个包含 500 万个高质量图文对的综合集合。GaGA 在 GWS15k 数据集上实现了最先进的性能，在国家级别和城市级别分别将准确率提高了 4.57% 和 2.92%，树立了新的基准。这些进步代表着在开发高度精确、交互式且具有全球适用性的地理定位系统方面取得了重大飞跃。
2024-12-11	DocVLM: Make Your VLM an Efficient Reader	null	视觉语言模型 (VLM) 在各种视觉任务中表现出色，但在需要细粒度文本处理的文档理解方面面临挑战。虽然典型的视觉任务在低分辨率输入下表现良好，但阅读密集型应用需要高分辨率，这会导致巨大的计算开销。在 VLM 提示中使用 OCR 提取的文本可以部分解决这个问题，但与全分辨率图像相比性能较差，因为它缺乏实现最佳性能所需的完整视觉上下文。我们引入了 DocVLM，这是一种将基于 OCR 的模态集成到 VLM 中的方法，以增强文档处理能力，同时保留原始权重。我们的方法采用 OCR 编码器来捕获文本内容和布局，并将这些信息压缩成一组紧凑的学习查询，并将其整合到 VLM 中。对领先 VLM 的综合评估表明，DocVLM 显着降低了文档理解对高分辨率图像的依赖。在有限的令牌方案 (448×448) 中，与 InternVL2 集成时，具有 64 个学习查询的 DocVLM 将 DocVQA 结果从 56.0% 提高到 86.6%，与 Qwen2-VL 集成时，则从 84.4% 提高到 91.2%。在 LLaVA-OneVision 中，DocVLM 使用的图像令牌减少了 80%，同时实现了更好的结果。减少的令牌使用量可以有效地处理多个页面，在 DUDE 上展现出令人印象深刻的零样本结果，并在 MP-DocVQA 上实现了最先进的性能，突出了 DocVLM 在需要高性能和效率的应用中的潜力。
2024-12-11	StreamChat: Chatting with Streaming Video	null	本文介绍了StreamChat，一种增强大型多模态模型（LMM）与流媒体视频内容交互能力的新方法。在流媒体交互场景中，现有方法仅依赖于提问时可用的视觉信息，导致模型无法感知流媒体视频的后续变化，从而造成 significant delays。StreamChat 通过在每个解码步骤创新性地更新视觉上下文来解决这个问题，确保模型在整个解码过程中利用最新的视频内容。此外，我们引入了一种灵活高效的基于交叉注意力的架构来处理动态流媒体输入，同时保持流媒体交互的推理效率。此外，我们构建了一个新的密集指令数据集，以促进流媒体交互模型的训练，并辅以一种并行的 3D-RoPE 机制，用于编码视觉和文本标记的相对时间信息。实验结果表明，StreamChat 在已有的图像和视频基准测试中取得了具有竞争力的性能，并且在流媒体交互场景中展现出比最先进的视频 LMM 更优越的能力。
2024-12-11	Multimodal Latent Language Modeling with Next-Token Diffusion	link	多模态生成模型需要一种统一的方法来处理离散数据（例如文本和代码）和连续数据（例如图像、音频、视频）。在这项工作中，我们提出了潜在语言建模 (LatentLM)，它使用因果Transformer无缝地集成了连续和离散数据。具体来说，我们采用变分自编码器 (VAE) 将连续数据表示为潜在向量，并引入下一标记扩散技术来自回归生成这些向量。此外，我们开发了 $\sigma$ -VAE 来解决方差崩溃的挑战，这对于自回归建模至关重要。大量实验验证了 LatentLM 跨各种模态的有效性。在图像生成方面，LatentLM 在性能和可扩展性方面都超过了扩散Transformer。当集成到多模态大型语言模型中时，LatentLM 提供了一个统一多模态生成和理解的通用接口。实验结果表明，在扩大训练标记的设置中，LatentLM 与 Transfusion 和矢量量化模型相比取得了更好的性能。在文本到语音合成方面，LatentLM 在说话人相似性和鲁棒性方面优于最先进的 VALL-E 2 模型，同时解码步骤减少了 10 倍。这些结果表明 LatentLM 是一种高效且可扩展的方法，可以推进大型多模态模型的发展。
2024-12-11	Synthetic Vision: Training Vision-Language Models to Understand Physics	null	物理推理涉及在动态环境中解释、理解和预测物体的行为，这对于当前的视觉语言模型 (VLM) 仍然是一项重大挑战。在这项工作中，我们提出了两种使用模拟数据增强 VLM 物理推理能力的方法。首先，我们使用从与物理推理任务相关的模拟生成的问答 (QA) 对微调预训练的 VLM。其次，我们引入了物理上下文构建器 (PCB)，这是一种专门的 VLM，经过微调以创建富含物理属性和过程的场景描述。在物理推理任务期间，这些 PCB 可以用作上下文来辅助大型语言模型 (LLM) 以提高其性能。我们使用多个基准评估了这两种方法，包括一个名为“倒塔”的新稳定性检测 QA 数据集（包含模拟场景和真实场景）以及 CLEVRER。我们证明了一个小型 QA 微调 VLM 可以显著优于更大的最先进的基础模型。我们还表明，集成 PCB 可以提高基础 LLM 在物理推理任务上的性能。使用来自“倒塔”数据集的真实场景，我们还验证了两种方法在 Sim2Real 迁移中的鲁棒性。我们的结果突出了模拟数据在创建能够进行高级物理推理的学习系统中的实用性。
2024-12-10	BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities	link	本文介绍了BiMediX2，一个双语（阿拉伯语-英语）生物医学专家大型多模态模型 (LMM)，它采用统一架构集成了文本和视觉模态，支持高级图像理解和医学应用。BiMediX2利用Llama3.1架构，并整合了文本和视觉能力，以便于英语和阿拉伯语的无缝交互，支持基于文本的输入和涉及医学图像的多轮对话。该模型在一个包含160万个阿拉伯语和英语混合的文本和图像模态的双语医疗数据集上进行训练，该数据集包含各种医学交互样本。我们还提出了第一个基于双语GPT-4o的医学LMM基准测试，名为BiMed-MBench。BiMediX2在基于文本和基于图像的任务上进行了基准测试，在多个医学基准测试中实现了最先进的性能。它在医学LLM评估基准测试中优于最近的最先进模型。我们的模型还在多模态医学评估中树立了新的基准，在英语评估中提高了9%以上，在阿拉伯语评估中提高了20%以上。此外，它在UPHILL事实准确性评估中超过GPT-4约9%，并在各种医学视觉问答、报告生成和报告摘要任务中表现出色。项目页面包含源代码和训练好的模型，网址为https://github.com/mbzuai-oryx/BiMediX2。
2024-12-10	DriveMM: All-in-One Large Multimodal Model for Autonomous Driving	link	大型多模态模型 (LMM) 通过结合大型语言模型，在自动驾驶 (AD) 领域展现了卓越的理解和解释能力。尽管取得了这些进展，但当前数据驱动的自动驾驶方法往往集中于单个数据集和特定任务，而忽略了其整体能力和泛化能力。为了弥合这些差距，我们提出了 DriveMM，一个通用的多模态大模型，旨在处理不同的数据输入，如图像和多视角视频，同时执行各种自动驾驶任务，包括感知、预测和规划。最初，该模型 undergoes 课程预训练来处理各种视觉信号并执行基本的视觉理解和感知任务。随后，我们对各种与自动驾驶相关的数据集进行增强和标准化处理，以微调模型，从而形成一个用于自动驾驶的多合一 LMM。为了评估其综合能力和泛化能力，我们对六个公共基准测试进行了评估，并在一个未见数据集上进行了零样本迁移，DriveMM 在所有任务中均达到了最先进的性能。我们希望 DriveMM 成为未来现实世界中端到端自动驾驶应用的一个有前景的解决方案。
2024-12-10	RADIO Amplified: Improved Baselines for Agglomerative Vision Foundation Models	null	聚合模型最近已成为训练视觉基础模型的一种强大方法，它利用了来自现有模型（如 CLIP、DINO 和 SAM）的多教师蒸馏技术。这种策略能够高效地创建鲁棒的模型，结合各个教师的优势，同时显著降低计算和资源需求。在本文中，我们深入分析了最先进的聚合模型，确定了关键挑战，包括分辨率模式转换、教师不平衡、教师特有伪影以及过多的输出标记。为了解决这些问题，我们提出了几种新颖的解决方案：多分辨率训练、马赛克增强以及改进的教师损失函数平衡。具体而言，在视觉语言模型的背景下，我们引入了一种标记压缩技术，以便在固定标记数量内维持高分辨率信息。我们发布了性能最佳的模型，提供多种规模（-B、-L、-H 和 -g），以及推理代码和预训练权重。
2024-12-10	DRUM: Learning Demonstration Retriever for Large MUlti-modal Models	null	近年来，大型语言模型（LLM）在上下文学习（ICL）的帮助下展现出处理新任务的出色能力。在大型视觉语言模型（LVLM）的研究中，当实现ICL时，研究人员通常采用简单的策略，例如跨不同样本的固定演示，或直接通过视觉语言嵌入模型选择演示。这些方法并不能保证配置的演示符合LVLM的需求。为了解决这个问题，我们提出了一个新的框架，即大型多模态模型演示检索器（DRUM），它对视觉语言嵌入模型进行微调以更好地满足LVLM的需求。首先，我们讨论了视觉语言任务的检索策略，假设给定一个嵌入模型。并且我们建议连接图像和文本嵌入以提高检索性能。其次，我们建议通过LVLM的反馈对嵌入模型检索到的演示进行重新排序，并计算用于训练嵌入模型的列表排序损失。第三，我们提出了一种迭代演示挖掘策略来改进嵌入模型的训练。通过对3种视觉语言任务、7个基准数据集的广泛实验，我们的DRUM框架被证明可以有效地通过检索更合适的演示来提升LVLM的上下文学习性能。
2024-12-10	Hallucination Elimination and Semantic Enhancement Framework for Vision-Language Models in Traffic Scenarios	link	大型视觉语言模型（LVLMs）在多模态理解和生成任务中展现出卓越的能力。然而，这些模型有时会产生幻觉文本，导致生成的描述看似合理，但却与图像不符。这种现象可能导致自动驾驶系统做出错误的驾驶决策。为了应对这一挑战，本文提出了HCOENet，一种即插即用的思维链修正方法，旨在消除对象幻觉并为初始响应中忽略的关键对象生成增强的描述。具体而言，HCOENet采用交叉检查机制来过滤实体，并直接从给定图像中提取关键对象，从而丰富描述文本。在POPE基准测试上的实验结果表明，HCOENet分别将Mini-InternVL-4B和mPLUG-Owl3模型的F1分数提高了12.58%和4.28%。此外，使用在开放校园场景中收集的图像进行的定性结果进一步突出了该方法的实际适用性。与GPT-4o模型相比，HCOENet实现了可比的描述性能，同时显著降低了成本。最后，我们为交通场景创建了两个新的语义理解数据集，CODA_desc和nuScenes_desc，以支持未来的研究。代码和数据集已公开发布在https://github.com/fjq-tongji/HCOENet。
2024-12-10	SmartAgent: Chain-of-User-Thought for Embodied Personalized Agent in Cyber World	link	近年来，基于大型视觉语言模型 (LVLMs) 的多模态感知和推理能力的具身智能体取得了显著进展，它们擅长在真实或虚拟世界中自主交互，帮助人们在复杂环境中做出智能决策。然而，目前的研究工作通常通过黄金行动轨迹或针对特定目标的理想任务导向解决方案进行优化。这种范式很少考虑用户导向的因素，这可能是它们在广泛的个人助理应用中性能下降的原因。为了解决这个问题，我们提出了用户思维链 (COUT)，这是一种新的具身推理范式，它采用从基本行动思维到显式和隐式个性化偏好思维的思维链，将个性化因素纳入自主智能体学习中。为了实现COUT，我们引入了SmartAgent，这是一个能够感知网络环境并推理个性化需求的智能体框架，它可以 1) 与GUI交互以访问项目池，2) 生成由先前操作暗示的用户显式需求，以及 3) 推荐项目以满足用户的隐式需求。为了展示SmartAgent的功能，我们还创建了一个全新的数据集SmartSpot，它提供了一个包含个性化行动的全阶段环境。据我们所知，我们的工作是第一个提出COUT流程的工作，是对具身个性化智能体学习的初步尝试。我们对SmartSpot进行的大量实验表明SmartAgent在一系列具身化和个性化子任务中的功能。我们将在论文录用后发布代码和数据，网址为\url{https://github.com/tsinghua-fib-lab/SmartAgent}。
2024-12-10	MM-PoE: Multiple Choice Reasoning via. Process of Elimination using Multi-Modal Models	link	本文介绍了通过使用多模态模型的消元法进行多项选择推理的方法，简称多模态消元法（MM-PoE）。这种新颖的方法旨在增强视觉语言模型（VLM）在多项选择视觉推理任务中的效能。与传统方法独立评估每个选项不同，MM-PoE采用了一种双步骤评分范式，首先识别并排除不可能的选项，然后集中于剩余的最可能的选项。这种方法模拟了人类的考试策略，即人们通常在选择最佳答案之前先排除明显错误的答案。我们对三个基准数据集进行的实证评估表明，MM-PoE显著提高了当代最先进VLM的零样本和小样本性能。至关重要的是，这种方法不仅将消元法的应用扩展到多模态环境，还允许进行小样本实验，从而解决了关于PoE仅在零样本设置中以及仅在纯语言框架中使用的两个主要限制。因此，MM-PoE不仅改进了VLM的推理能力，还扩展了它们在复杂视觉问答场景中的适用性。所有支持我们工作的代码和文档都可以在https://pypi.org/project/mm-poe/上找到，使研究人员和从业人员能够轻松地集成和进一步开发这些技术。
2024-12-09	Visual Lexicon: Rich Image Features in Language Space	null	我们提出了视觉词库 (Visual Lexicon, ViLex)，一种新颖的视觉语言，它将丰富的图像信息编码到词汇标记的文本空间中，同时保留了自然语言通常难以传达的复杂视觉细节。与优先考虑高级语义（例如 CLIP）或像素级重建（例如 VAE）的传统方法不同，ViLex 同时捕获丰富的语义内容和精细的视觉细节，从而实现高质量的图像生成和全面的视觉场景理解。通过自监督学习流程，ViLex 生成用于使用冻结的文本到图像 (T2I) 扩散模型重建输入图像的优化标记，保留高保真语义级重建所需的详细信息。作为语言空间中的图像嵌入，ViLex 标记利用自然语言的组合性，允许它们独立用作“文本标记”或与自然语言标记组合，以使用视觉和文本输入提示预训练的 T2I 模型，反映了我们与视觉语言模型 (VLM) 的交互方式。实验表明，与文本嵌入相比，ViLex 在图像重建中实现了更高的保真度，即使使用单个 ViLex 标记也是如此。此外，ViLex 以零样本、无监督的方式成功执行各种 DreamBooth 任务，而无需微调 T2I 模型。此外，ViLex 可作为强大的视觉编码器，相较于强大的 SigLIP 基线，在 15 个基准测试中持续提高视觉语言模型的性能。
2024-12-09	The Narrow Gate: Localized Image-Text Communication in Vision-Language Models	null	近年来，多模态训练的进步显著提升了图像理解和生成在统一模型中的融合。本研究探讨了视觉语言模型（VLM）如何处理图像理解任务，特别关注视觉信息是如何处理并传递到文本领域的。我们比较了同时生成图像和文本的VLM与仅输出文本的VLM，突出了信息流的关键差异。我们发现，在具有多模态输出的模型中，图像和文本嵌入在残差流中更加分离。此外，模型在视觉信息如何交换到文本标记方面也存在差异。仅输出文本的VLM表现出一种分布式通信模式，其中信息通过多个图像标记进行交换。相比之下，为图像和文本生成而训练的模型依赖于单个标记，该标记充当视觉信息的窄门。我们证明，去除这个单个标记会显著降低图像理解任务的性能。此外，修改此标记可以有效地控制图像语义，表明有针对性的局部干预可以可靠地控制模型的全局行为。
2024-12-09	Ranked from Within: Ranking Large Multimodal Models for Visual Question Answering Without Labels	null	随着大型多模态模型 (LMM) 越来越多地部署到各种应用中，对适应性强、面向真实世界模型排序的需求变得至关重要。传统的评估方法主要以数据集为中心，依赖于固定的、带标签的数据集和监督指标，这些方法资源密集，并且可能缺乏对新场景的泛化能力，这突出了无监督排序的重要性。在这项工作中，我们通过利用大型多模态模型的不确定性信号（例如 softmax 概率）来探索其无监督模型排序。我们评估了最先进的 LMM（例如 LLaVA）在视觉问答基准上的表现，分析了基于不确定性的指标如何反映模型性能。我们的研究结果表明，从 softmax 分布得出的不确定性分数为跨各种任务的模型排序提供了稳健一致的依据。这一发现使得在真实世界、未标记的数据上对视觉问答的 LMM 进行排序成为可能，从而提供了一种无需手动标注即可在不同领域中选择模型的实用方法。
2024-12-06	Multimodal Fact-Checking with Vision Language Models: A Probing Classifier based Solution with Embedding Strategies	link	本研究评估了视觉语言模型 (VLM) 在表示和利用多模态内容进行事实核查方面的有效性。具体而言，我们调查了结合多模态内容是否比仅文本模型提高了性能，以及 VLM 如何利用文本和图像信息来增强错误信息检测。此外，我们提出了一种基于探测分类器的 VLM 解决方案。我们的方法从选定 VLM 的最后一个隐藏层中提取嵌入向量，并将它们输入到神经探测分类器中，以进行多类别真实性分类。通过对两个事实核查数据集进行一系列实验，我们证明了虽然多模态可以提高性能，但与使用 VLM 嵌入向量相比，融合来自文本和图像编码器的单独嵌入向量产生了更好的结果。此外，所提出的神经分类器在利用提取的嵌入向量方面明显优于 KNN 和 SVM 基线，突出了其在多模态事实核查中的有效性。
2024-12-06	Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora	null	BabyLM挑战赛是一项社区活动，旨在缩小人类和计算语言学习者之间的数据效率差距。参与者竞争在1亿单词或更少固定语言数据预算的情况下优化语言模型训练。今年，我们发布了改进的文本语料库，以及一个视觉和语言语料库，以促进对认知上合理的视觉语言模型的研究。提交的模型在针对语法能力、（视觉）问答、语用能力和基础能力等评估任务上进行了比较。参与者可以提交纯文本1000万单词赛道、纯文本1亿单词赛道和/或图文多模态1亿单词赛道。在采用不同方法的31份提交中，混合因果掩码语言模型架构优于其他方法。在多模态赛道中，没有提交的模型超过基线。在后续分析中，我们发现训练FLOPs与跨任务的平均性能之间存在很强的关系，并且表现最佳的提交提出了对训练数据、训练目标和模型架构的更改。今年的BabyLM挑战赛表明，在这种情况下仍有很大的创新空间，特别是对于图像文本建模，但社区驱动的研究可以对小规模语言建模的有效策略产生可操作的见解。
2024-12-06	Espresso: High Compression For Rich Extraction From Videos for Your Vision-Language Model	null	目前大多数用于视频的视觉语言模型 (VLM) 都难以理解超过几秒的视频。这主要是因为它们无法扩展到利用大量帧。为了解决这个限制，我们提出了 Espresso，一种分别提取和压缩空间和时间信息的新方法。通过广泛的评估，我们表明 Espresso 中的空间和时间压缩各自对长视频理解能力有积极的影响；当两者结合使用时，它们的积极影响会增强。此外，我们证明 Espresso 的性能随着训练数据的增加而提升，并且在长视频理解中，Espresso 比现有的 VLM 投影器有效得多。而且，我们为 EgoSchema 设计了一个更困难的评估设置，称为“大海捞针”，它增加了输入视频的长度。Espresso 在这项任务上实现了最先进的性能 (SOTA)，优于那些使用了更多训练数据的 SOTA VLM。
2024-12-05	Cross-Self KV Cache Pruning for Efficient Vision-Language Inference	link	键值缓存剪枝已成为一种很有前景的技术，可用于降低长上下文自回归生成中的内存和计算成本。现有的视觉语言模型 (VLM) 方法通常依赖于大型语言模型 (LLM) 的自注意力分数来识别和剪枝不相关的标记。然而，这些方法忽略了模态之间固有的分布差异，往往导致标记重要性估计不准确，以及过度剪枝关键的视觉标记。为了解决这个问题，我们提出将注意力分数分解为模态内注意力（同一模态内）和模态间注意力（跨模态），通过独立管理这些不同的注意力类型来实现更精确的键值缓存剪枝。此外，我们引入了一个 n-softmax 函数来抵消由剪枝引起的分布偏移，保持注意力分数的原始平滑度并确保性能稳定。我们最终的免训练方法，跨自剪枝 (CSP)，在与具有完整键值缓存的模型相比实现了具有竞争力的性能，同时显著优于以前的剪枝方法。在 MileBench（一个包含 29 个多模态数据集的基准测试）上的大量评估证明了 CSP 的有效性，在诸如对话式具身对话等挑战性任务上实现了高达 41% 的性能提升，同时将键值缓存预算减少了 13.6%。代码可在 https://github.com/TerryPei/CSP 获取。
2024-12-05	Mask-Adapter: The Devil is in the Masks for Open-Vocabulary Segmentation	link	近来的开放词汇分割方法采用掩码生成器来预测分割掩码，并利用预训练的视觉语言模型（例如CLIP）通过掩码池化对这些掩码进行分类。尽管这些方法展现了 promising 的结果，但准确的掩码通常无法通过在掩码区域内池化 CLIP 图像嵌入来产生准确的分类结果，这与直觉相悖。在本文中，我们揭示了掩码池化的性能局限性，并引入了 Mask-Adapter，这是一种简单而有效的方法，可以解决开放词汇分割中的这些挑战。与直接使用候选掩码相比，我们提出的 Mask-Adapter 从候选掩码中提取语义激活图，提供更丰富的上下文信息，并确保掩码和 CLIP 之间的一致性。此外，我们提出了一个掩码一致性损失，鼓励具有相似 IoU 的候选掩码获得相似的 CLIP 嵌入，以增强模型对不同预测掩码的鲁棒性。Mask-Adapter 以即插即用的方式无缝集成到基于掩码池化的开放词汇分割方法中，提供更准确的分类结果。跨多个零样本基准的广泛实验表明，所提出的 Mask-Adapter 在几种成熟的方法上实现了显著的性能提升。值得注意的是，Mask-Adapter 还可以有效地扩展到 SAM，并在几个开放词汇分割数据集上取得了令人印象深刻的结果。代码和模型可在 \url{https://github.com/hustvl/MaskAdapter} 获取。
2024-12-05	VisionZip: Longer is Better but Not Necessary in Vision Language Models	link	视觉语言模型的最新进展通过增加视觉标记的长度来提升性能，使其远长于文本标记，并显著增加了计算成本。然而，我们观察到由流行的视觉编码器（如CLIP和SigLIP）生成的视觉标记存在显著的冗余。为了解决这个问题，我们引入了VisionZip，这是一种简单而有效的方法，它选择一组信息丰富的标记输入到语言模型中，从而减少视觉标记冗余并提高效率，同时保持模型性能。所提出的VisionZip可以广泛应用于图像和视频理解任务，并且非常适合现实世界场景中的多轮对话，而以前的方法在这些场景中往往表现不佳。实验结果表明，VisionZip在几乎所有设置中都比之前的最先进方法至少提高了5%的性能。此外，我们的方法显著提高了模型推理速度，将预填充时间提高了8倍，并使LLaVA-Next 13B模型的推理速度比LLaVA-Next 7B模型更快，同时取得了更好的结果。此外，我们分析了这种冗余产生的原因，并鼓励社区关注提取更好的视觉特征，而不是仅仅增加标记长度。我们的代码可在https://github.com/dvlab-research/VisionZip 获取。
2024-12-05	Grounding Descriptions in Images informs Zero-Shot Visual Recognition	link	像CLIP这样的视觉语言模型 (VLM) 因其能够对开放词汇概念执行零样本视觉识别而备受重视。这是通过选择文本表示与查询图像具有最高相似度的对象类别来实现的。虽然在某些领域取得了成功，但这种方法难以识别细粒度实体以及泛化到训练分布未捕获的未见概念。最近的工作试图通过在测试时整合类别描述来缓解这些挑战，尽管改进不大。我们将这些有限的收益归因于图像和描述表示之间的根本错位，这根植于CLIP的预训练结构。在本文中，我们提出了GRAIN，一种新的预训练策略，旨在同时在精细和粗略级别上对齐表示。我们的方法学习将文本描述与图像区域共同 grounding，同时将总体标题与全局图像表示对齐。为了推动这种预训练，我们利用冻结的多模态大型语言模型 (MLLM) 来导出大规模的合成注释。我们展示了我们的模型与当前最先进的方法相比，在11个不同的图像分类数据集上增强的零样本性能。此外，我们还介绍了Products-2023，这是一个新策划的手动标记数据集，其中包含新颖的概念，并展示了我们的模型通过对其进行基准测试来识别这些概念的能力。我们的模型在其他下游任务（如检索）上取得的显著改进进一步突出了我们的方法学习到的表示的卓越质量。代码可在https://github.com/shaunak27/grain-clip 获取。
2024-12-05	SIDA: Social Media Image Deepfake Detection, Localization and Explanation with Large Multimodal Model	null	生成模型在创建高度逼真图像方面的快速发展给错误信息的传播带来了巨大的风险。例如，在社交媒体上分享的合成图像可能会误导大量受众，并削弱对数字内容的信任，从而造成严重的后果。尽管取得了一些进展，学术界还没有创建一个大型多样化的社交媒体深度伪造检测数据集，也没有设计出有效的解决方案来解决这个问题。在本文中，我们介绍了社交媒体图像检测数据集（SID-Set），它具有三个主要优势：（1）体量大，包含30万张带有全面注释的AI生成/篡改图像和真实图像；（2）多样性广，涵盖各种类别的完全合成图像和篡改图像；（3）逼真度高，图像主要通过肉眼无法与真实图像区分。此外，利用大型多模态模型的卓越能力，我们提出了一个新的图像深度伪造检测、定位和解释框架，名为SIDA（社交媒体图像检测、定位和解释助手）。SIDA不仅可以辨别图像的真伪，还可以通过掩码预测描绘篡改区域，并提供模型判断标准的文本解释。与在SID-Set和其他基准数据集上最先进的深度伪造检测模型相比，大量实验表明，SIDA在各种设置下均实现了卓越的性能。代码、模型和数据集将被公开发布。
2024-12-05	3D Part Segmentation via Geometric Aggregation of 2D Visual Features	null	受监督的3D部件分割模型针对固定的对象和部件集进行定制，限制了它们对开放集、真实场景的可迁移性。最近的研究探索了视觉语言模型 (VLM) 作为一种有前景的替代方案，使用多视图渲染和文本提示来识别物体部件。然而，在此上下文中简单地应用VLM会引入一些缺点，例如需要细致的提示工程，并且未能利用对象的3D几何结构。为了解决这些限制，我们提出了COPS，一个用于部件分割的综合模型，它融合了从视觉概念和3D几何中提取的语义，以有效地识别物体部件。COPS从多个视点渲染点云，提取2D特征，将它们投影回3D，并使用一种新颖的几何感知特征聚合程序来确保空间和语义一致性。最后，它将点聚类成部件并标记它们。我们证明了COPS高效、可扩展，并在五个数据集上实现了零样本的最佳性能，涵盖了合成数据和真实数据、无纹理和彩色对象，以及刚性和非刚性形状。代码可在https://3d-cops.github.io获取。
2024-12-05	CALMM-Drive: Confidence-Aware Autonomous Driving with Large Multimodal Model	null	决策和运动规划对于确保自动驾驶汽车 (AV) 的安全性和效率至关重要。现有方法通常采用两种范式：先决策后规划或先生成后评分。然而，前者常常难以协调决策和规划，而后者在整合短期运行效用和长期战术效能方面面临重大挑战。为了解决这些问题，我们引入了 CALMM-Drive，这是一个由置信度感知大型多模态模型 (LMM) 支持的新型自动驾驶框架。我们的方法采用 Top-K 置信度提取，这有助于生成多个候选决策及其置信度。此外，我们提出了一个新的规划模块，它集成了用于轨迹生成的扩散模型和用于寻找最佳路径的分层优化过程。该框架能够选择兼顾底层解决方案质量和高层战术置信度的最佳方案，从而降低一次性决策的风险并克服短视评分机制带来的局限性。在 nuPlan 闭环仿真环境中的综合评估证明了 CALMM-Drive 在实现可靠和灵活的驾驶性能方面的有效性，展示了在 LMM 支持的 AV 中整合不确定性的重大进步。代码将在论文被接受后发布。
2024-12-05	AIpparel: A Large Multimodal Generative Model for Digital Garments	null	服装对于人类生活至关重要，它提供保护、反映文化认同并展现个人风格。然而，服装的创作仍然是一个耗时的过程，这主要是因为设计过程涉及大量的手工劳动。为了简化这一过程，我们推出了AIpparel，一个用于生成和编辑缝纫图案的大型多模态模型。我们的模型在超过12万件独特服装的定制大型数据集上对最先进的大型多模态模型（LMM）进行了微调，每件服装都带有包括文本、图像和缝纫图案的多模态注释。此外，我们提出了一种新颖的标记化方案，可以简洁地编码这些复杂的缝纫图案，以便大型语言模型（LLM）能够高效地学习预测它们。AIpparel在单模态任务中实现了最先进的性能，包括文本到服装和图像到服装的预测，并支持新颖的多模态服装生成应用，例如交互式服装编辑。项目网站位于georgenakayama.github.io/AIpparel/。
2024-12-05	MegaCOIN: Enhancing Medium-Grained Color Perception for Vision-Language Models	null	在视觉语言模型 (VLM) 中，感知和解释颜色以及物理环境的能力对于实现上下文准确的理解和交互至关重要。然而，尽管多模态建模取得了进步，但仍然严重缺乏专门的数据集来严格评估模型辨别细微颜色变化和空间上下文的能力——这些是情境理解和跨现实世界应用可靠部署的关键要素。为此，我们构建了 MegaCOIN，这是一个基于具有各种上下文属性的真实图像的高质量人工标注数据集。MegaCOIN 由两部分组成：MegaCOIN-Instruct，用作 VLM 的监督微调 (SFT) 数据集；MegaCOIN-Bench，一个带注释的测试集，可用作独立的问答数据集。MegaCOIN 为 220,000 张真实图像提供了三个注释特征：前景颜色、背景颜色和对象物理环境的描述，构成了 660k 个人工注释。此外，MegaCOIN 可用于对域泛化 (DG) 算法进行基准测试。我们探索了在 VLM 线性探测设置中对 DG 方法进行基准测试，并展示了一些新见解。最后但同样重要的是，我们发现包括 GPT-4o 在内的 VLM 的颜色识别能力不足，使用 MegaCOIN 进行微调可以提高视觉评估任务的性能。在某些情况下，使用 MegaCOIN 微调的小规模开源模型（如 LLaVA 和 Bunny）可以胜过闭源的 GPT-4o。我们希望 MegaCOIN 的实用性能够阐明 VLM 的改进方向，并为域泛化算法提供更复杂的平台。
2024-12-05	CLIP-PING: Boosting Lightweight Vision-Language Models with Proximus Intrinsic Neighbors Guidance	null	对比语言-图像预训练 (CLIP) 的成功之外，近期的趋势标志着人们开始探索轻量级视觉语言模型在资源受限场景下的适用性。这些模型通常仅依赖单一的图文对比学习目标时，性能表现欠佳，这凸显了对更有效训练机制的需求，以保证鲁棒的跨模态特征对齐。在这项工作中，我们提出了 CLIP-PING：基于近邻内在引导的对比语言-图像预训练，这是一种简单高效的训练范式，旨在以最小的计算开销和更低的数据需求来提升轻量级视觉语言模型的性能。CLIP-PING 利用从任意预训练编码器中提取的单模态特征来获取近邻样本的内在引导，即最近邻 (NN) 和交叉最近邻 (XNN)。我们发现，来自这些邻居的额外对比监督可以显著促进跨模态对齐，使轻量级模型能够学习更通用的特征，并具有丰富的语义多样性。大量实验表明，CLIP-PING 在零样本泛化和跨模态检索任务中明显优于同类模型。具体来说，与使用在 300 万（图像，文本）对上训练的 ViT-XS 图像编码器的原始 CLIP 相比，CLIP-PING 在零样本 ImageNet1K 上获得了 5.5% 的提升，在 Flickr30K 上的图像到文本 (I2T) 和文本到图像 (T2I) 检索分别提升了 10.7% 和 5.7%。此外，CLIP-PING 在线性评估协议下，在多个下游任务中展现出强大的迁移能力。
2024-12-05	LL-ICM: Image Compression for Low-level Machine Vision via Large Vision-Language Model	null	面向机器的图像压缩 (ICM) 旨在压缩图像以用于机器视觉任务而非人类观看。目前的工作主要集中在目标检测和语义分割等高级任务。然而，现实世界中原始图像的质量通常无法保证，导致压缩后的感知质量或下游任务性能更差。低级 (LL) 机器视觉模型，如图像恢复模型，可以帮助提高这种质量，因此它们的压缩需求也应予以考虑。在本文中，我们提出了一个面向低级机器视觉任务的开创性 ICM 框架，即 LL-ICM。通过联合优化压缩和低级任务，所提出的 LL-ICM 不仅增强了其编码能力以泛化到各种低级任务，而且还优化了下游低级任务模型的处理能力，实现了图像编解码器和低级任务模型的相互适应。此外，我们将大规模视觉语言模型集成到 LL-ICM 框架中，为低级视觉任务生成更通用且抗失真的特征嵌入。因此，一个 LL-ICM 编解码器可以泛化到多个任务。我们建立了一个可靠的基准来评估 LL-ICM，其中包括使用全参考和无参考图像质量评估进行的广泛客观实验。实验结果表明，LL-ICM 比最先进的方法可以实现 22.65% 的 BD 率降低。
2024-12-04	Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension	link	尽管视觉语言模型 (VLM) 取得了显著进展，但仍然缺乏通过扩展推理时计算来提高响应质量的有效方法。在最近的大型语言模型研究中，这种能力被认为是迈向自改进模型的核心步骤。在本文中，我们提出了视觉价值模型 (VisVM)，它可以指导 VLM 推理时搜索，以生成具有更好视觉理解的响应。具体来说，VisVM 不仅评估当前搜索步骤中生成的句子质量，还预测当前步骤可能导致的后续句子的质量，从而提供长期价值。通过这种方式，VisVM 避免 VLM 生成容易出现幻觉或细节不足的句子，从而产生更高质量的响应。实验结果表明，与贪婪解码和其他视觉奖励信号的搜索方法相比，VisVM 引导的搜索显着增强了 VLM 生成具有更丰富视觉细节和更少幻觉的描述性字幕的能力。此外，我们发现使用 VisVM 引导的字幕进行自训练可以提高 VLM 在各种多模态基准测试中的性能，这表明了开发自改进 VLM 的潜力。我们的价值模型和代码可在 https://github.com/si0wang/VisVM 获取。
2024-12-03	CEGI: Measuring the trade-off between efficiency and carbon emissions for SLMs and VLMs	null	本文分析了小型语言模型 (SLM) 和视觉语言模型 (VLM) 的性能，并评估了在四个基本任务（图像描述、视觉问答 (VQA)、对话摘要和文本到 SQL 转换）中模型性能和碳排放之间的权衡。文中选择了属于 Qwen 和 LLaMA 架构系列的各种 SLM 和 VLM，并评估了基于模型大小（参数数量、量化级别和微调参数）的变体。计算了模型变体的性能和碳排放。为了量化模型性能和碳排放之间的权衡，我们引入了一个名为 CEGI（碳效率增益指数）的新指标。该指标表示每百万可训练参数每单位百分比增益的碳排放量。该指标提供了一个标准化指标，用于比较模型在性能改进方面的效率与其环境成本。实验结果表明，微调 SLM 和 VLM 可以达到与大型语言模型 (LLM) 相当的性能水平，同时产生的碳排放量显着减少。我们的研究结果表明，大型模型带来的边际精度提升并不能证明碳排放量的大幅增加是合理的。利用较低比特的量化级别，所提出的指标可以进一步提高能源效率，而不会影响性能。这项研究强调了高性能和环境可持续性之间的平衡。它为选择适合环境友好型 AI 开发的模型提供了一个有价值的指标。
2024-12-03	SJTU:Spatial judgments in multimodal models towards unified segmentation through coordinate detection	link	尽管视觉语言理解取得了进步，但在多模态架构中实现图像分割仍然是现代人工智能系统中的一个根本挑战。现有的视觉语言模型主要依赖于骨干架构或基于 CLIP 的嵌入学习，在精细空间定位和操作能力方面表现出固有的局限性。本文介绍了 SJTU：多模态模型中的空间判断——通过坐标检测实现统一分割，这是一个利用空间坐标理解来桥接视觉语言交互和精确分割的新颖框架，能够通过自然语言指令实现准确的目标识别。该框架提出了一种基于多模态空间推理，将分割技术与视觉语言模型相结合的新方法。通过利用边界框的归一化坐标检测并将其转换为可操作的分割输出，我们探索了整合多模态空间和语言表示的可能性。基于所提出的技术方法，该框架在各种基准数据集上展现出卓越的性能以及准确的目标分割。在 COCO 2017 通用目标检测数据集和 Pascal VOC 语义分割数据集上的结果证明了该框架的泛化能力。
2024-12-03	BYE: Build Your Encoder with One Sequence of Exploration Data for Long-Term Dynamic Scene Understanding	null	动态场景理解仍然是机器人应用中一项持续的挑战。早期的动态建图方法侧重于通过掩蔽或跟踪特定类别来减轻短期动态物体对相机运动估计的负面影响，但这往往难以适应长期场景变化。最近的研究尝试使用在合成数据集上训练的神经网络来解决长期动态环境中的物体关联问题，但它们仍然依赖于预定义的物体形状和类别。其他方法结合了视觉、几何或语义启发式方法进行关联，但通常缺乏鲁棒性。在这项工作中，我们引入了BYE，一个与类别无关的、针对每个场景的点云编码器，它无需预定义的类别、形状先验或大量的关联数据集。BYE只需在单个探索数据序列上进行训练，即可有效地在动态变化的场景中执行物体关联。我们进一步提出了一种集成方案，将视觉语言模型 (VLM) 的语义优势与BYE的场景特定专业知识相结合，在物体关联任务中实现了7%的改进和95%的成功率。代码和数据集可在https://byencoder.github.io获取。
2024-12-03	Initial Study On Improving Segmentation By Combining Preoperative CT And Intraoperative CBCT Using Synthetic Data	null	计算机辅助介入（Computer-Assisted Interventions）使临床医生能够执行精确的微创手术，通常依赖于先进的成像方法。锥形束计算机断层扫描（CBCT）可用于辅助计算机辅助介入，尽管它经常受到伪影的影响，给准确解释带来了挑战。虽然图像质量下降会影响图像分析，但高质量的术前扫描的可用性提供了改进的潜力。我们在此考虑一种术前CT和术中CBCT扫描均可用的情况，然而，扫描之间的对齐（配准）并不完美，以模拟真实场景。我们提出了一种多模态学习方法，融合粗略对齐的CBCT和CT扫描，并研究其对分割性能的影响。在本实验中，我们使用包含真实CT和合成CBCT体积以及相应体素标注的合成生成数据。结果表明，在20个研究设置中，有18个设置的分割性能得到了改进。
2024-12-03	CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy	null	大型多模态模型 (LMMs) 在使用自然语言指令识别文档图像方面表现出令人印象深刻的性能。然而，目前尚不清楚其在具有丰富结构和细粒度视觉挑战的文本理解能力方面的程度。目前的领域缺乏一个全面的基准来有效衡量 LMMs 的文本理解能力。现有的基准通常受到狭窄场景和特定任务的限制。为此，我们引入了 CC-OCR，这是一个包含各种场景、任务和挑战的综合基准。CC-OCR 包含四个以 OCR 为中心的赛道：多场景文本阅读、多语言文本阅读、文档解析和关键信息提取。它包含 39 个子集，共 7,058 张完整标注的图像，其中 41% 来自实际应用，首次发布。此外，我们评估了九个著名的 LMMs，并揭示了这些模型的优势和劣势，特别是在文本定位、多方向和重复幻觉方面。CC-OCR 旨在全面评估 LMMs 在以 OCR 为中心的各项任务上的能力，从而推动 LMMs 的发展。
2024-12-03	LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models	null	开放世界三维布局生成是指根据语言指令排列未标记的三维资产。大型语言模型 (LLM) 难以生成物理上合理的 3D 场景并遵守输入指令，尤其是在杂乱的场景中。我们引入了 LayoutVLM，这是一个框架和场景布局表示，它利用视觉语言模型 (VLM) 的语义知识并支持可微分优化以确保物理合理性。LayoutVLM 使用 VLM 从视觉标记图像生成两个相互增强的表示，以及一个自洽的解码过程来改进 VLM 的空间规划。我们的实验表明，LayoutVLM 克服了现有 LLM 和基于约束的方法的局限性，生成了更符合输入语言指令语义意图的物理上合理的 3D 布局。我们还证明了使用从现有场景数据集中提取的提出的场景布局表示对 VLM 进行微调可以提高性能。
2024-12-03	VideoICL: Confidence-based Iterative In-context Learning for Out-of-Distribution Video Understanding	link	近来，大型视频多模态模型 (LMM) 的进步显著提升了其视频理解和推理能力。然而，在训练数据中代表性不足的分布外 (OOD) 任务上，它们的性能会下降。传统的微调方法由于计算成本高，在 OOD 数据集上不切实际。虽然上下文学习 (ICL) 通过示例演示在语言任务和图像-语言任务中展现了良好的泛化性能，无需微调，但将 ICL 应用于视频-语言任务面临挑战，因为视频 LMM 的上下文长度有限，而视频需要更长的标记长度。为了解决这些问题，我们提出了 VideoICL，一个用于 OOD 任务的新型视频上下文学习框架，它引入了基于相似度的相关示例选择策略和基于置信度的迭代推理方法。这允许选择最相关的示例并根据相似度对其进行排序，用于推理。如果生成的响应置信度低，我们的框架会选择新的示例并再次执行推理，迭代地改进结果，直到获得高置信度的响应。这种方法通过扩展有效上下文长度来提高 OOD 视频理解性能，而不会产生高昂的成本。在多个基准测试上的实验结果表明，该方法取得了显著的性能提升，尤其是在特定领域场景下，为更广泛的视频理解应用奠定了基础。代码将发布在 https://github.com/KangsanKim07/VideoICL
2024-12-03	VISCO: Benchmarking Fine-Grained Critique and Correction Towards Self-Improvement in Visual Reasoning	null	大型视觉语言模型 (LVLMs) 的批判和纠正自身推理能力是其自我改进的关键组成部分。然而，目前仍缺乏对此类 LVLMs 能力的系统性分析。我们提出了 VISCO，这是第一个广泛分析 LVLMs 细粒度批判和纠正能力的基准测试。相比于现有工作使用单一标量值来批判整个推理过程 [4]，VISCO 具有密集且细粒度的批判特性，要求 LVLMs 评估思维链中每个步骤的正确性，并提供自然语言解释来支持其判断。对 24 个 LVLMs 的广泛评估表明，人工编写的批判能显著提高纠正后的性能，展现了自我改进策略的潜力。然而，模型生成的批判作用较小，有时甚至会损害性能，这表明批判是关键瓶颈。我们确定了批判失败的三个常见模式：未能批判视觉感知、不愿“说不”以及夸大错误传播的假设。为了解决这些问题，我们提出了一种有效的 LookBack 策略，即重新审视图像以验证初始推理中每条信息的正确性。LookBack 可以将批判和纠正性能显著提高 13.5%。
2024-12-02	X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models	link	上下文生成是大型语言模型 (LLM) 开放任务泛化能力的关键组成部分。通过利用少量示例作为上下文，LLM 可以执行域内和域外任务。建立在 LLM 之上的自回归视觉语言模型 (VLM) 的最新进展在文本到图像生成方面展现了令人印象深刻的性能。然而，上下文学习在一般图像生成任务中的潜力很大程度上仍未得到探索。为了解决这个问题，我们引入了 X-Prompt，这是一个纯自回归的大型视觉语言模型，旨在在统一的上下文学习框架内，在各种已见和未见图像生成任务中提供具有竞争力的性能。X-Prompt 采用了一种专门的设计，可以有效地压缩上下文示例中的宝贵特征，支持更长的上下文标记序列，并提高其泛化到未见任务的能力。用于文本和图像预测的统一训练任务使 X-Prompt 能够处理一般的图像生成，并通过上下文示例增强任务感知能力。大量实验验证了该模型在各种已见图像生成任务中的性能及其泛化到先前未见任务的能力。
2024-12-02	VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models	null	近来，来自诸如GPT-4V等闭源视觉语言模型（VLM）的高质量视觉指令微调样本的激增加速了各种规模开源VLM的发布。然而，使用更大的模型扩展VLM以提高性能带来了巨大的计算挑战，尤其是在资源受限的设备（如移动平台和机器人）上进行部署时。为了解决这个问题，我们提出了VLsI：Verbalized Layers-to-Interactions，这是一个新的VLM系列，模型大小为2B和7B，它优先考虑效率而不牺牲准确性。VLsI利用独特的逐层蒸馏过程，引入中间“verbalizers”，将每一层的特征映射到自然语言空间，从而允许较小的VLM灵活地与较大VLM的推理过程对齐。这种方法减轻了输出模仿中经常遇到的训练不稳定性，并且超越了典型的最终层微调，通过将小型VLM的逐层进展与大型VLM的逐层进展对齐。我们在十个具有挑战性的视觉语言基准上验证了VLsI，在无需模型缩放、合并或架构更改的情况下，相比GPT-4V实现了显著的性能提升（2B模型提升11.0%，7B模型提升17.4%）。
2024-11-29	SDR-GNN: Spectral Domain Reconstruction Graph Neural Network for Incomplete Multimodal Learning in Conversational Emotion Recognition	link	多模态对话情感识别 (MERC) 旨在利用文本、音频和视觉模态特征对语句的情感进行分类。大多数现有的 MERC 方法假设每个语句都具有完整的模态，忽略了现实场景中常见的模态缺失问题。近年来，图神经网络 (GNNs) 在不完整多模态对话情感识别 (IMERC) 中取得了显著成果。然而，传统的 GNNs 侧重于节点之间的二元关系，限制了其捕获更复杂的高阶信息的能力。此外，重复的消息传递会导致过度平滑，降低其保留关键高频细节的能力。为了解决这些问题，我们提出了一种用于对话情感识别中不完整多模态学习的谱域重建图神经网络 (SDR-GNN)。SDR-GNN 基于说话者和上下文关系，使用滑动窗口构建语句语义交互图，以建模情感依赖关系。为了捕获高阶和高频信息，SDR-GNN 利用加权关系聚合，确保跨语句一致的语义特征提取。此外，它在谱域中进行多频聚合，通过提取高频和低频信息，能够有效地恢复不完整的模态。最后，应用多头注意力机制来融合和优化用于情感识别的特征。在各种真实世界数据集上的大量实验表明，我们的方法在不完整多模态学习中是有效的，并且优于当前最先进的方法。
2024-11-29	SURE-VQA: Systematic Understanding of Robustness Evaluation in Medical VQA Tasks	link	视觉语言模型 (VLM) 在医学任务中具有巨大潜力，例如视觉问答 (VQA)，它们可以作为患者和临床医生的交互助手。然而，它们对未见数据分布变化的鲁棒性仍然是安全部署的关键问题。评估这种鲁棒性需要一个受控的实验设置，以便系统地了解模型的行为。然而，我们证明了目前的设置无法提供足够彻底的评估，限制了它们准确评估模型鲁棒性的能力。为了弥补这一差距，我们的工作引入了一个名为 SURE-VQA 的新框架，该框架围绕三个关键要求构建，以克服当前的缺陷并系统地分析 VLM 的鲁棒性：1) 由于合成偏移的鲁棒性不一定转化为现实世界的偏移，因此鲁棒性应该在 VQA 数据固有的现实世界偏移上进行测量；2) 传统的标记匹配指标通常无法捕捉潜在的语义，因此需要使用大型语言模型 (LLM) 进行更准确的语义评估；3) 由于缺少健全性基线，模型性能通常缺乏可解释性，因此应报告有意义的基线，以便评估多模态对 VLM 的影响。为了证明该框架的相关性，我们对三种医学数据集上的各种微调方法在四种不同类型的分布偏移下的鲁棒性进行了研究。我们的研究揭示了几个重要发现：1) 不使用图像数据的健全性基线可以表现得 surprisingly well；2) 我们确认 LoRA 是表现最佳的 PEFT 方法；3) 没有一种 PEFT 方法在应对偏移的鲁棒性方面始终优于其他方法。代码位于 https://github.com/IML-DKFZ/sure-vqa。
2024-11-29	CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation	null	大型视觉-语言-动作（VLA）模型的进步显著提高了机器人操作在语言引导任务执行和泛化到未见场景方面的能力。虽然现有的由预训练大型视觉-语言模型（VLM）改进而来的VLA已经展现出良好的泛化性，但它们的性能仍然不尽如人意，不同环境下的低任务成功率就证明了这一点。在本文中，我们提出了一种源自VLM的新型高级VLA架构。与先前直接通过简单的动作量化将VLM用于动作预测的工作不同，我们提出了一个组件化的VLA架构，它包含一个专门的动作模块，并以VLM输出为条件。我们系统地研究了动作模块的设计，并展示了使用扩散动作Transformer进行动作序列建模的强大性能提升及其良好的扩展性。我们还进行了全面的实验和消融研究，以评估我们模型在不同设计下的有效性。在模拟和真实世界中对5种机器人实体的评估表明，我们的模型不仅在任务性能上显著优于现有的VLA，而且对新机器人表现出卓越的适应性，并能泛化到未见过的物体和背景。在模拟评估中，它的平均成功率比模型规模（7B）相似的OpenVLA高出35%以上，在真实机器人实验中高出55%以上。它还比大型RT-2-X模型（55B）在模拟中的绝对成功率高出18%。代码和模型可以在我们的项目页面 (https://cogact.github.io/) 上找到。
2024-11-29	Interleaved-Modal Chain-of-Thought	null	思维链（CoT）提示引导大型语言模型（LLM）在得出最终答案之前生成一系列中间推理步骤。然而，当过渡到视觉语言模型（VLM）时，它们仅文本的推理难以表达与原始图像的细粒度关联。在本文中，我们提出了一种结合图像的多模态思维链，名为\textbf{交错模态思维链（ICoT）}，它生成由成对的视觉和文本推理步骤组成的序列，以推断最终答案。直观地说，新的ICoT要求VLM能够生成细粒度的交错模态内容，这对目前的VLM来说很难实现。考虑到所需的视觉信息通常是输入图像的一部分，我们提出了\textbf{注意力驱动选择（ADS）}来在现有VLM上实现ICoT。ADS智能地插入输入图像的区域，以生成交错模态推理步骤，且额外的延迟可忽略不计。ADS仅依赖于VLM的注意力图，无需参数化，因此它是一种即插即用的策略，可以推广到各种VLM。我们将ADS应用于两种不同架构的流行VLM上以实现ICoT。对三个基准的广泛评估表明，与现有的多模态CoT提示方法相比，ICoT提示在性能（高达14%）和可解释性方面都有显著提高。
2024-11-28	Talking to DINO: Bridging Self-Supervised Vision Backbones with Language for Open-Vocabulary Segmentation	link	开放词汇分割 (OVS) 的目标是根据自由形式的文本概念分割图像，而无需预定义的训练类别。虽然现有的视觉语言模型（如 CLIP）可以利用视觉Transformer的粗略空间信息生成分割掩码，但由于图像和文本特征的全局对齐，它们在空间定位方面面临挑战。相反，像 DINO 这样的自监督视觉模型擅长细粒度视觉编码，但缺乏与语言的整合。为了弥合这一差距，我们提出了 Talk2DINO，一种结合了 DINOv2 的空间精度和 CLIP 的语言理解能力的新型混合方法。我们的方法通过学习到的映射函数将 CLIP 的文本嵌入与 DINOv2 的补丁级特征对齐，而无需微调底层主干网络。在训练时，我们利用 DINOv2 的注意力图选择性地将局部视觉补丁与文本嵌入对齐。我们展示了 Talk2DINO 强大的语义和定位能力可以增强分割过程，从而产生更自然、更少噪声的分割，并且我们的方法还可以有效地区分前景对象和背景。实验结果表明，Talk2DINO 在多个无监督 OVS 基准测试中实现了最先进的性能。源代码和模型公开发布于：https://lorebianchi98.github.io/Talk2DINO/。
2024-11-28	GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks	link	虽然最近有许多基准测试专注于评估通用的视觉语言模型 (VLM)，但它们未能满足地理空间应用的独特需求。通用的 VLM 基准测试并非设计用于处理地理空间数据的复杂性，而这对于环境监测、城市规划和灾害管理等应用至关重要。地理空间领域的一些独特挑战包括变化的时间分析、大量目标计数、微小目标检测以及理解遥感影像中实体之间的关系。为了弥补地理空间领域的这一差距，我们提出了 GEOBench-VLM，这是一个专门设计用于评估 VLM 在地理空间任务上的综合基准测试，包括场景理解、目标计数、定位、细粒度分类和时间分析。我们的基准测试包含超过 10,000 条手动验证的指令，涵盖了视觉条件、目标类型和规模的各种变化。我们评估了几个最先进的 VLM，以评估它们在地理空间环境中的准确性。结果表明，尽管现有的 VLM 具有潜力，但在处理地理空间特定示例时仍面临挑战，这凸显了进一步改进的空间。具体而言，表现最好的 GPT4o 在多项选择题上的准确率仅为 40%，仅为随机猜测性能的两倍。我们的基准测试公开发布于 https://github.com/The-AI-Alliance/GEO-Bench-VLM。
2024-11-28	GRAPE: Generalizing Robot Policy via Preference Alignment	null	尽管视觉-语言-动作（VLA）模型在各种机器人任务中取得了最新进展，但由于它们完全依赖于从成功部署中进行行为克隆，因此存在一些关键问题，例如对未见任务的泛化能力差。此外，它们通常经过微调以复制专家在不同设置下收集的演示，从而引入了分布偏差，并限制了它们对不同操作目标（例如效率、安全性和任务完成）的适应性。为了弥合这一差距，我们引入了GRAPE：通过偏好对齐泛化机器人策略。具体来说，GRAPE在轨迹级别上对齐VLA，并隐式地对成功和失败试验的奖励进行建模，以提高对不同任务的泛化能力。此外，GRAPE将复杂的操作任务分解为独立的阶段，并通过大型视觉语言模型提出的关键点的定制时空约束，自动引导偏好建模。值得注意的是，这些约束是灵活的，可以定制以使模型与不同的目标对齐，例如安全性、效率或任务成功。我们在现实世界和模拟环境中的各种任务中评估了GRAPE。实验结果表明，GRAPE增强了最先进的VLA模型的性能，将域内和未见操作任务的成功率分别提高了51.79%和60.36%。此外，GRAPE可以与各种目标对齐，例如安全性和效率，分别将碰撞率降低了44.31%，并将部署步长缩短了11.15%。所有代码、模型和数据均可在https://grape-vla.github.io/获取。
2024-11-28	VARCO-VISION: Expanding Frontiers in Korean Vision-Language Models	null	在本文中，我们介绍了一个开源的韩语-英语视觉语言模型 (VLM)，VARCO-VISION。我们采用了一种逐步训练策略，使模型能够学习语言和视觉信息，同时保留骨干模型的知识。与类似规模的模型相比，我们的模型在需要双语图像文本理解和生成能力的各种设置中展现出优异的性能。VARCO-VISION 还具备图像定位、指称和光学字符识别 (OCR) 功能，扩展了其在实际场景中的用途和潜在应用。除了模型之外，我们还发布了五个韩语评估数据集，包括四个闭集和一个开集基准测试。我们预计，我们的里程碑将为致力于训练 VLM 的人工智能研究人员拓宽机会。VARCO-VISION 可在 https://huggingface.co/NCSOFT/VARCO-VISION-14B 获取。
2024-11-27	Evaluating Vision-Language Models as Evaluators in Path Planning	null	尽管大型语言模型 (LLM) 在执行复杂推理方面很有潜力，但它们在端到端规划中的有效性有限。这引发了一个有趣的问题：如果这些模型无法很好地规划，它们是否仍然可以作为有用的规划评估器为规划框架做出贡献？在这项工作中，我们将这个问题推广到考虑具有视觉理解能力的增强型LLM，即视觉语言模型 (VLM)。我们引入了PathEval，这是一个新颖的基准测试，用于评估VLM在复杂路径规划场景中作为规划评估器的能力。要在此基准测试中取得成功，VLM需要能够从场景描述中提取最佳路径的特征，展示对每条路径的精确低级感知，并整合这些信息来确定更好的路径。我们对最先进的VLM的分析表明，这些模型在此基准测试中面临着重大挑战。我们观察到，VLM可以精确地提取给定场景以识别所需特征，并在整合所提供信息方面表现出好坏参半。然而，它们的视觉组件存在一个关键瓶颈，即模型难以感知路径的低级细节。我们的实验结果表明，这个问题无法通过端到端微调来轻松解决；相反，需要对这些视觉编码器进行特定任务的判别式适应，才能使这些VLM成为有效的路径评估器。
2024-11-27	Embodied Red Teaming for Auditing Robotic Foundation Models	null	以语言为条件的机器人模型（即机器人基础模型）使机器人能够根据自然语言指令执行各种任务。尽管在现有基准测试中表现出色，但由于测试所有可能的语言变体的复杂性，评估这些模型的安全性和有效性仍然具有挑战性。当前的基准测试有两个关键限制：它们依赖于有限的人工生成指令集，遗漏了许多具有挑战性的案例，并且它们只关注任务性能而不评估安全性，例如避免损坏。为了解决这些差距，我们引入了Embodied Red Teaming (ERT)，这是一种新的评估方法，它生成多样化且具有挑战性的指令来测试这些模型。ERT使用带有视觉语言模型（VLM）的自动红队技术来创建基于上下文且难度较高的指令。实验结果表明，最先进的模型在ERT测试中经常失败或表现出不安全的行为，这突显了当前基准测试在评估真实世界性能和安全性方面的不足。代码和视频可在以下网址获取：https://sites.google.com/view/embodiedredteam。
2024-11-27	AMPS: ASR with Multimodal Paraphrase Supervision	null	针对现有最先进的自动语音识别 (ASR) 系统，自然或对话式多语种语音识别提出了诸多挑战。在本研究中，我们提出了一种名为AMPS的新技术，它通过基于释义的监督来增强多语种多模态ASR系统，从而改进包括印地语、马拉地语、马拉雅拉姆语、卡纳达语和尼扬贾语在内的多种语言的对话ASR。我们在训练多模态ASR模型时，使用参考转录的释义作为额外的监督，并针对ASR性能较差的语句选择性地调用此释义目标函数。通过将AMPS与最先进的多模态模型SeamlessM4T结合使用，我们在词错误率 (WER) 上取得了高达5%的显著相对降低。我们使用客观和人工评估指标对系统进行了详细的分析。
2024-11-27	Large Language Model-Brained GUI Agents: A Survey	link	图形用户界面（GUI）长期以来一直是人机交互的核心，提供了一种直观且视觉驱动的方式来访问和操作数字系统。大型语言模型（LLM），特别是多模态模型的出现，开启了GUI自动化的新时代。它们在自然语言理解、代码生成和视觉处理方面展现出卓越的能力。这为新一代基于LLM的GUI智能体铺平了道路，这些智能体能够理解复杂的GUI元素，并根据自然语言指令自主执行操作。这些智能体代表了一种范式转变，使用户能够通过简单的对话命令执行复杂的多步骤任务。它们的应用涵盖网页导航、移动应用交互和桌面自动化，提供了一种变革性的用户体验，彻底改变了个人与软件的交互方式。这个新兴领域正在快速发展，在研究和产业方面都取得了显著进展。为了提供对这一趋势的结构化理解，本文对基于LLM的GUI智能体进行了全面综述，探讨了它们的历史演变、核心组件和先进技术。我们探讨了现有GUI智能体框架、用于训练专用GUI智能体的数据收集和利用、针对GUI任务的大型动作模型的开发以及评估其有效性所需的评估指标和基准等研究问题。此外，我们还研究了由这些智能体驱动的新兴应用。通过详细分析，本综述确定了关键的研究差距，并概述了该领域未来发展的路线图。通过整合基础知识和最新发展，本工作旨在指导研究人员和从业人员克服挑战，并释放基于LLM的GUI智能体的全部潜力。
2024-11-27	Grid-augumented vision: A simple yet effective approach for enhanced spatial understanding in multi-modal agents	link	多模态模型近期取得的进展展现了其在物体识别和场景理解方面的卓越能力。然而，这些模型常常难以实现精确定位，而这对于实际应用至关重要。受人类使用棋盘和地图等基于网格的参考方式的启发，我们提出通过一种简单的网格叠加方法来引入显式视觉位置编码。通过在输入图像上添加一个 9x9 的黑色网格图案，我们的方法提供了类似于Transformer中位置编码的视觉空间引导，但采用的是显式视觉形式。在 COCO 2017 数据集上的实验表明，基于网格的方法显著提高了定位精度，与基线性能相比，IoU 提高了 107.4%（从 0.27 提升至 0.56），GIoU 提高了 194.4%（从 0.18 提升至 0.53）。通过注意力可视化分析，我们展示了这种视觉位置编码如何帮助模型更好地理解空间关系。我们方法的简洁性和有效性使其对于需要精确空间推理的应用，例如机器人操作、医学影像和自动导航，尤为重要。
2024-11-27	Multimodal Integration of Longitudinal Noninvasive Diagnostics for Survival Prediction in Immunotherapy Using Deep Learning	null	目的：使用人工智能分析无创的纵向和多模态数据可能改变癌症患者的免疫治疗，为精准医疗铺平道路。方法：在这项研究中，我们整合了来自一大群泛癌队列（694名接受免疫治疗的患者）的治疗前和治疗期间的血液测量值、处方药和基于CT的器官体积，以预测短期和长期总生存期。通过利用最新发展的组合，我们端到端地训练了我们扩展的多模态基于Transformer的简单时间注意力（MMTSimTA）网络的不同变体，以预测三个月、六个月、九个月和十二个月的死亡率。这些模型还与包含基于中间和后期融合的集成方法的基线方法进行了比较。结果：使用扩展的基于Transformer的多模态模型展现出最强的预后性能，其曲线下面积（AUC）分别为3个月、6个月、9个月和12个月生存预测的 $0.84 \pm $0.04、$0.83 \pm $0.02、$0.82 \pm $0.02、$0.81 \pm$ 0.03。结论：我们的研究结果表明，分析整合的早期治疗数据具有预测免疫治疗患者生存期的潜力。使用我们扩展的基于Transformer的架构，将补充的无创模式整合到一个联合训练的模型中，展现出改进的多模式预后性能，尤其是在短期生存预测方面。
2024-11-27	Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning	null	视觉语言模型（VLM）在多模态推理任务中取得了显著进展。然而，由于诸如图像理解的幻觉或推理路径的不完善等问题，它们仍然经常生成不准确或不相关的响应。为了应对这些挑战，我们引入了Critic-V，这是一个受Actor-Critic范式启发的新颖框架，旨在提升VLM的推理能力。该框架通过集成两个独立的组件来解耦推理过程和评论过程：根据视觉和文本输入生成推理路径的Reasoner，以及提供建设性评论以改进这些路径的Critic。在这种方法中，Reasoner根据文本提示生成推理响应，这些响应可以作为策略根据Critic的反馈进行迭代演进。这种交互过程的理论基础是强化学习框架，其中Critic提供自然语言评论而不是标量奖励，从而实现更细致的反馈，以提升Reasoner在复杂推理任务上的能力。Critic模型使用直接偏好优化（DPO）进行训练，利用基于规则奖励（RBR）排序的评论偏好数据集来增强其评论能力。评估结果表明，Critic-V框架在8个基准测试中的5个上显著优于现有方法，包括GPT-4V，尤其是在推理准确性和效率方面。将Reasoner的动态文本策略与偏好优化Critic的建设性反馈相结合，实现了更可靠且上下文敏感的多模态推理过程。我们的方法为增强VLM的可靠性提供了一个有前景的解决方案，从而提高其在自动驾驶和具身智能等现实世界推理密集型多模态应用中的性能。
2024-11-27	COREval: A Comprehensive and Objective Benchmark for Evaluating the Remote Sensing Capabilities of Large Vision-Language Models	null	随着大型视觉语言模型（VLMs）的快速发展，通用领域模型和专门为遥感地球观测设计的模型都在该特定领域展现出卓越的感知和推理能力。然而，目前缺乏一个全面评估这些VLMs遥感能力的基准，这是一个显著的差距。为了弥合这一差距，我们提出了COREval，这是第一个旨在全面客观地评估VLMs分层遥感能力的基准。我们集中于遥感中两个主要的维度：感知和推理，并进一步细分为6个次级维度和22个叶子任务，以确保对该特定领域进行全面的评估覆盖。COREval通过从全球50个分布式城市收集数据、构建问题和质量控制的严格流程，保证了总共6,263个问题的质量，并且具有明确答案的选择题格式允许对VLM性能进行客观直接的评估。我们对来自通用领域和遥感领域的13个杰出的开源VLMs进行了全面评估，突出了它们在遥感能力方面的当前不足，并为它们在这一特定领域中的应用改进提供了方向。我们希望COREval能够成为一个宝贵的资源，并为VLMs在遥感领域的挑战和潜力提供更深入的见解。
2024-11-27	VLM-HOI: Vision Language Models for Interpretable Human-Object Interaction Analysis	null	大型视觉语言模型（VLM）最近在桥接两种基本模态方面取得了显著进展。通过足够大的数据集训练的VLM展现出对视觉和语言的全面理解，可以执行各种任务。为了准确地提取这些知识，在本文中，我们介绍了一种新颖的方法，该方法明确地将VLM用作人-物交互（HOI）检测任务（VLM-HOI）的目标函数形式。具体来说，我们提出了一种使用图文匹配技术量化预测的HOI三元组相似性的方法。我们以语言方式表示HOI三元组，以充分利用VLM的语言理解能力，由于其定位和以对象为中心的特性，VLM比CLIP模型更适合于此任务。该匹配得分用作对比优化的目标。据我们所知，这是首次将VLM的语言能力用于HOI检测。实验结果证明了我们方法的有效性，在基准测试中达到了最先进的HOI检测精度。我们相信将VLM集成到HOI检测中代表着朝着更高级和更具解释性的人-物交互分析迈出的重要一步。
2024-11-26	HOPPR Medical-Grade Platform for Medical Imaging AI	null	人工智能 (AI) 技术的进步使得开发基于数百万图像和文本配对样本训练的大型视觉语言模型 (LVLM) 成为可能。后续研究工作证明了 LVLM 在医学影像用例（例如，放射报告生成）中实现高性能的巨大潜力，但也存在阻碍这些解决方案广泛部署的障碍。这些障碍包括开发大规模模型所需的巨大计算成本、复杂的 AI 模型开发所需的专业知识，以及难以获取足以代表 LVLM 解决方案部署人群的大量高质量数据集。HOPPR 医疗级平台通过提供强大的计算基础设施、一套基础模型（开发人员可以在其上针对特定用例进行微调）以及稳健的质量管理系统（为评估用于临床部署的微调模型设定了标准）来解决这些障碍。HOPPR 平台可以访问来自数百个影像中心、代表不同人群的数百万影像研究和文本报告，以预训练基础模型并启用针对特定用例的队列进行微调。所有数据均已去识别化并安全存储，以符合 HIPAA 规范。此外，开发人员可以安全地将模型托管在 HOPPR 平台上，并通过 API 访问它们，以便在已建立的临床工作流程中使用这些模型进行推理。借助医疗级平台，HOPPR 的使命是加速 LVLM 解决方案在医学影像领域的部署，最终优化放射科医生的工作流程并满足该领域日益增长的需求。
2024-11-26	NEMO: Can Multimodal LLMs Identify Attribute-Modified Objects?	null	多模态大型语言模型 (MLLM) 在视觉理解方面取得了显著进展，但它们识别被特定属性修饰的物体能力仍然是一个悬而未决的问题。为了解决这个问题，我们探索了 MLLM 在物体识别方面的推理能力，涵盖从常识到超常识的场景。我们引入了一个名为 NEMO 的新基准测试，它包含 900 张原始水果图像及其对应的属性修改图像；以及包含开放式、多项选择和不可解类型的 2700 个问题。我们使用我们的基准测试评估了 26 个最新的开源和商用模型。研究结果突出了模型在 NEMO 中识别物体的性能差距，并揭示了不同模型之间不同的答案偏好。虽然更强大的视觉编码器可以提高性能，但 MLLM 仍然落后于独立的视觉编码器。有趣的是，扩大模型规模并不能持续带来更好的结果，更深入的分析表明，更大的 LLM 在微调过程中会削弱视觉编码器。这些见解揭示了当前 MLLM 的关键局限性，并为开发更通用和更具弹性的多模态模型提出了潜在途径。
2024-11-26	VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models	null	视觉语言生成奖励模型（VL-GenRM）在对齐和评估多模态AI系统中扮演着至关重要的角色，然而对其自身的评估却仍未得到充分探索。目前的评估方法主要依赖于来自传统视觉语言任务的AI标注的偏好标签，这可能会引入偏差，并且通常无法有效地挑战最先进的模型。为了解决这些局限性，我们引入了VL-RewardBench，这是一个涵盖通用多模态查询、视觉幻觉检测和复杂推理任务的综合基准测试。通过我们结合样本选择和人工验证的AI辅助标注流程，我们精心挑选了1250个高质量示例，专门用于探测模型的局限性。对16个领先的大型视觉语言模型进行的全面评估表明，VL-RewardBench作为一个具有挑战性的测试平台是有效的，即使是GPT-4o也仅达到了65.4%的准确率，而像Qwen2-VL-72B这样的最先进的开源模型也很难超过随机猜测的水平。重要的是，VL-RewardBench上的性能与使用VL-GenRM进行Best-of-N采样的MMMU-Pro准确率密切相关（皮尔逊相关系数r > 0.9）。分析实验揭示了改进VL-GenRM的三个关键见解：（i）模型主要在基本的视觉感知任务上失败，而不是推理任务；（ii）推理时缩放的收益因模型容量而异；（iii）训练VL-GenRM学习判断能够大幅提升判断能力（7B VL-GenRM的准确率提升了14.7%）。我们相信VL-RewardBench以及这些实验见解将成为推进VL-GenRM发展的宝贵资源。
2024-11-26	CoA: Chain-of-Action for Generative Semantic Labels	link	近年来，视觉语言模型 (VLM) 在图像分类方面取得了显著进展。这些 VLM 利用预定义的类别集来构建文本提示，以进行零样本推理。然而，在像自动驾驶这样更开放的领域中，使用预定义的标签集变得不切实际，因为语义标签空间是未知的且不断变化的。此外，固定的嵌入文本提示通常倾向于预测单个标签（而实际上，每张图像通常存在多个标签）。在本文中，我们介绍了 CoA，一种创新的行动链 (CoA) 方法，它生成与图像所有上下文相关特征对齐的标签。CoA 的设计基于以下观察：丰富且有价值的上下文信息可以提高推理过程中的生成性能。传统的视觉语言模型倾向于输出单一且冗余的响应。因此，我们采用定制的 CoA 来缓解这个问题。我们首先将生成标签任务分解为详细的行动，并构建一个 CoA，最终达到生成目标。每个行动都从先前的行动中提取并合并关键信息，并将丰富的信息作为上下文传递给下一个行动，最终提高 VLM 生成全面且准确的语义标签的能力。我们通过对广泛使用的基准数据集进行综合评估来评估 CoA 的有效性，结果表明，CoA 在关键性能指标方面均有显著改进。
2024-11-26	AIGV-Assessor: Benchmarking and Evaluating the Perceptual Quality of Text-to-Video Generation with LMM	link	大型多模态模型 (LMM) 的快速发展导致人工智能生成视频 (AIGV) 的迅速扩张，这凸显了对专为 AIGV 设计的有效视频质量评估 (VQA) 模型的迫切需求。由于存在独特的失真，例如不真实的物体、不自然的运动或不一致的视觉元素，目前的 VQA 模型通常无法准确评估 AIGV 的感知质量。为了应对这一挑战，我们首先提出了 AIGVQA-DB，这是一个包含 36,576 个 AIGV 的大规模数据集，这些 AIGV 是由 15 个先进的文本到视频模型使用 1,048 个不同的提示生成的。利用这些 AIGV，我们设计了一个包含评分和排序过程的系统注释流程，迄今为止已收集了 37 万条专家评分。基于 AIGVQA-DB，我们进一步推出了 AIGV-Assessor，这是一种新颖的 VQA 模型，它利用时空特征和 LMM 框架来捕捉 AIGV 复杂的质量属性，从而准确预测精确的视频质量分数和视频对偏好。通过在 AIGVQA-DB 和现有 AIGV 数据库上进行的综合实验，AIGV-Assessor 展现了最先进的性能，在多个感知质量维度上显著超越了现有的评分或评估方法。
2024-11-26	Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment	null	许多现实世界的用户查询（例如“如何制作蛋炒饭？”）可以受益于能够生成包含文本步骤和相应图像的响应的系统，类似于烹饪书。旨在生成交错文本和图像的模型面临着确保这些模态内部和之间一致性的挑战。为了应对这些挑战，我们提出了ISG，一个用于交错文本和图像生成的综合评估框架。ISG利用场景图结构来捕捉文本块和图像块之间的关系，并在四个粒度级别上评估响应：整体、结构、块级和图像特定。这种多层评估允许对一致性、连贯性和准确性进行细致的评估，并提供可解释的问答反馈。结合ISG，我们引入了一个基准测试ISG-Bench，包含8个类别和21个子类别中的1150个样本。该基准数据集包含复杂的语言-视觉依赖关系和黄金答案，可以有效地评估模型在以视觉为中心的任务（例如风格迁移）上的表现，这是当前模型的一个挑战领域。使用ISG-Bench，我们证明了最近的统一视觉语言模型在生成交错内容方面表现不佳。虽然组合方法结合了单独的语言和图像模型，在整体水平上比统一模型提高了111%，但它们在块级和图像级上的性能仍然欠佳。为了促进未来的工作，我们开发了ISG-Agent，一个采用“计划-执行-改进”流程来调用工具的基线代理，实现了122%的性能提升。
2024-11-26	Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation	null	开放词汇语义分割 (OVSS) 随着最近视觉语言模型 (VLMs) 的发展而进步，通过各种学习方案使得分割超越预定义类别成为可能。值得注意的是，免训练方法为处理未见数据（OVSS 的一个关键目标）提供了可扩展、易于部署的解决方案。然而，一个关键问题仍然存在：在基于任意查询提示的 OVSS 挑战性环境中分割复杂对象时，缺乏对象级上下文考虑。这种疏忽限制了模型在对象内分组语义一致元素并将它们精确映射到用户定义的任意类的能力。在这项工作中，我们引入了一种新方法，通过在图像中结合对象级上下文知识来克服这一限制。具体来说，我们的模型通过将视觉基础模型的光谱驱动特征提取到视觉编码器的注意力机制中来增强对象内一致性，从而使语义相关的组件形成单个对象掩码。此外，我们使用零样本对象存在似然性来细化文本嵌入，以确保与图像中表示的特定对象准确对齐。通过利用对象级上下文知识，我们提出的方法在各种数据集上实现了最先进的性能和强大的泛化能力。
2024-11-26	Learning Robust Anymodal Segmentor with Unimodal and Cross-modal Distillation	link	同时利用来自多个传感器的多模态输入来训练分割器从直觉上来说是有利的，但在实践中却具有挑战性。一个关键的挑战是单模态偏差，即多模态分割器过度依赖某些模态，导致在其他模态缺失时性能下降，这在实际应用中很常见。为此，我们开发了第一个用于学习鲁棒分割器的框架，该框架可以处理任何视觉模态组合。具体来说，我们首先引入了一种并行多模态学习策略来学习一个强大的教师模型。然后，通过将特征级知识从多模态分割器迁移到任意模态分割器，在多尺度表示空间中实现跨模态和单模态蒸馏，旨在解决单模态偏差并避免过度依赖特定模态。此外，我们提出了一种预测级模态无关的语义蒸馏方法，以实现分割的语义知识迁移。在合成和真实世界的多传感器基准上的大量实验表明，我们的方法实现了卓越的性能。
2024-11-26	Relations, Negations, and Numbers: Looking for Logic in Generative Text-to-Image Models	link	尽管多模态人工智能研究取得了显著进展，但在一个重要领域，现代人工智能仍然远远落后于人类儿童：逻辑运算符的可靠部署。在这里，我们考察了三种形式的逻辑运算符：关系、否定和离散数字。我们要求人类受访者（总共 N=178）评估由最先进的图像生成人工智能 (DALL-E 3) 生成的图像，这些图像由这些“逻辑探针”提示生成，并发现没有一个能够可靠地产生超过 50% 的人类一致性评分。否定探针和数字（超过 3）失败的频率最高。在第四个实验中，我们评估了一个“基础扩散”流程，它利用目标提示工程和结构化中间表示来实现更大的组合控制，但发现其性能在所有提示中都被评判为比 DALL-E 3 更差。为了进一步阐明这些文本到图像系统中潜在的成功和失败来源，我们用多个辅助分析和示意图补充了我们的 4 个核心实验，例如，直接量化了关系提示的 N-gram 频率与生成图像的平均匹配之间的关系；在否定提示的渲染中，3 种不同提示修改策略的成功率；以及涉及整数的提示的标量可变性/比率依赖性（“近似计算能力”）。最后，我们讨论了“基础”多模态学习系统中固有的局限性，这些系统的基础严重依赖于基于向量的语义（例如 DALL-E 3）或未充分指定的句法约束（例如“基础扩散”），并提出了最小修改（受发展启发，基于图像），这些修改可以帮助弥合规模和结构之间挥之不去的组合差距。所有数据和代码都可以在 https://github.com/ColinConwell/T2I-Probology 获取。
2024-11-26	Words Matter: Leveraging Individual Text Embeddings for Code Generation in CLIP Test-Time Adaptation	link	视觉语言基础模型，例如CLIP，在一系列任务中展现出前所未有的零样本性能。然而，这些模型在分布偏移的情况下可能并不可靠，因为它们的性能会显著下降。在这项工作中，我们探索如何在测试时推理期间有效利用类别文本信息来减轻大型预训练视觉语言模型（VLM）遇到的这些分布漂移。特别是，我们提出通过利用通用类别文本嵌入作为标签分配问题的固定质心来为测试时样本生成伪标签，并使用最优传输有效地解决该问题。此外，所提出的适应方法（CLIP-OT）集成了多模板知识蒸馏方法，该方法复制了无监督表示学习中的多视图对比学习策略，但不会增加额外的计算复杂度。在呈现不同复杂度的多个流行测试时适应基准上的大量实验，凭经验表明了CLIP-OT的优越性，相较于最近的最先进方法，实现了高达7%的性能提升，同时保持计算和内存效率。
2024-11-25	Probing the limitations of multimodal language models for chemistry and materials research	link	人工智能的最新进展激发了人们对科学助手的兴趣，这些助手可以支持研究人员的整个科研工作流程，从文献综述到实验设计和数据分析。此类系统的关键能力是处理和推理视觉和文本形式的科学信息——从解释光谱数据到理解实验室装置。在此，我们介绍MaCBench，这是一个综合基准，用于评估视觉语言模型如何处理现实世界的化学和材料科学任务，涵盖三个核心方面：数据提取、实验理解和结果解释。通过对领先模型的系统评估，我们发现虽然这些系统在基本感知任务中显示出有希望的能力——在设备识别和标准化数据提取方面达到近乎完美的性能——但它们在空间推理、跨模态信息合成和多步逻辑推理方面表现出根本性的局限性。我们的见解对化学和材料科学之外的领域具有重要意义，这表明开发可靠的多模态人工智能科学助手可能需要在整理合适的训练数据和训练这些模型的方法方面取得进展。
2024-11-25	Beyond Sight: Towards Cognitive Alignment in LVLM via Enriched Visual Knowledge	null	大型视觉语言模型（LVLMs）通常集成独立预训练的视觉和语言组件，并经常使用CLIP-ViT作为视觉骨干网络。然而，这些模型经常遇到视觉编码器（VE）和大型语言模型（LLM）之间“认知错位”的核心问题。具体来说，VE对视觉信息的表示可能无法与LLM的认知框架完全一致，导致视觉特征超出语言模型解释范围的不匹配。为了解决这个问题，我们研究了VE表示的变化如何影响LVLM的理解能力，尤其是在LLM面对VE未知数据（图像的视觉表示不明确，挑战VE的解释精度）时。因此，我们构建了一个多粒度地标数据集，并系统地检验了VE已知和VE未知数据对解释能力的影响。我们的结果表明，VE未知数据限制了LVLM的准确理解能力，而具有丰富独特特征的VE已知数据有助于减少认知错位。基于这些见解，我们提出了实体增强认知对齐（EECA）方法，该方法采用多粒度监督来生成视觉上丰富且对齐良好的标记，这些标记不仅融入LLM的嵌入空间，而且与LLM的认知框架对齐。这种对齐显著增强了LVLM在地标识别中的性能。我们的研究结果强调了VE未知数据带来的挑战，并突出了认知对齐在推进多模态系统发展中的重要作用。
2024-11-22	PRIMUS: Pretraining IMU Encoders with Multimodal Self-Supervision	null	基于个人设备中嵌入的惯性测量单元（IMU）的人体运动感知在健康和保健领域有着重要的应用。虽然标记的IMU数据稀缺，但我们可以收集未标记或弱标记的IMU数据来建模人体运动。对于视频或文本模态，“预训练和适应”方法利用大量的未标记或弱标记数据进行预训练，构建强大的特征提取器，然后使用有限的标记数据适应特定任务。这种方法在IMU领域尚未得到广泛采用，原因有两个：（1）在IMU的背景下，预训练方法的研究还不够深入；（2）很少有公开可用的、可跨数据集泛化的开源预训练模型。在本文中，我们旨在解决第一个问题，提出了PRIMUS，一种用于预训练IMU编码器的方法。我们对各种自监督和多模态学习预训练目标进行了系统和统一的评估。我们的研究结果表明，使用结合了自监督、多模态监督和最近邻监督的PRIMUS可以显著提高下游任务的性能。与最先进的多模态训练方法相比，在每类少于500个标记样本的情况下，PRIMUS在留出的测试数据中有效地将下游性能提高了15%。为了使更广泛的社区受益，我们的代码和预训练的IMU编码器将在论文发表后在github.com/nokia-bell-labs公开发布。
2024-11-22	Context-Aware Multimodal Pretraining	null	大规模多模态表征学习成功地优化了测试时的零样本迁移。然而，标准的预训练范式（对大量图文数据进行对比学习）并没有明确鼓励表征支持少样本适应。在这项工作中，我们提出了一个简单但精心设计的多模态预训练扩展，使表征能够适应额外的上下文。使用这个目标，我们展示了视觉语言模型可以被训练成显著提高少样本适应能力：在21个下游任务中，我们发现测试时样本效率提高了四倍，平均少样本适应增益超过5%，同时在不同模型规模和训练时长下保持了零样本泛化性能。特别是，配备了简单的、无需训练的、基于度量的适应机制，我们的表征轻松超越了更复杂和昂贵的基于优化方案，极大地简化了对新领域的泛化。
2024-11-22	Information Extraction from Heterogenous Documents without Ground Truth Labels using Synthetic Label Generation and Knowledge Distillation	null	员工提交的发票和收据是包含文本、视觉和布局信息的富视觉文档 (VRD)。为了防范欺诈和滥用的风险，组织必须有效地从提交的收据中提取所需信息。这有助于评估关键因素，例如费用索赔的适当性、支出和交易策略的遵守情况、收据的有效性，以及各种级别的下游异常检测。这些文档具有异构性，格式和语言多样，上传的图像质量各异，并且通常不包含用于有效训练模型的真实标签。在本文中，我们提出了任务感知的基于指令的标注 (TAIL) 方法，用于在没有标签的 VRD 语料库中生成合成标签，并使用基于响应的知识蒸馏方法在 TAIL 标签上微调多模态富视觉文档理解模型 (VRDU)，无需使用教师模型的权重或训练数据集即可有条件地生成适当格式的注释。我们使用一个具有真实标签的基准外部数据集，通过实证研究证明了我们的方法在哪些条件下与 Claude 3 Sonnet 的性能相当。然后，我们展示了最终模型在一家大型跨国组织的内部费用文档上的性能与最先进的大型多模态模型 (LMM) Claude 3 Sonnet 相当或更好，同时成本降低了 85%，速度提高了约 5 倍，并且由于其能够推理和从罕见格式中提取信息，在平均归一化 Levenshtein 相似度 (ANLS) 得分上比布局感知基线模型高出 10% 以上。最后，我们举例说明了我们的方法在防止多付方面的应用。
2024-11-22	VisGraphVar: A Benchmark Generator for Assessing Variability in Graph Analysis Using Large Vision-Language Models	null	大型视觉语言模型 (LVLMs) 的快速发展展现出巨大的潜力。这些模型越来越有能力处理抽象的视觉任务。几何结构，特别是具有固有灵活性和复杂性的图，是评估这些模型预测能力的绝佳基准。虽然人类观察者可以轻松识别细微的视觉细节并进行准确的分析，但我们的研究表明，最先进的 LVLMs 在特定的视觉图场景中表现出一致的局限性，尤其是在面对风格变化时。为了应对这些挑战，我们引入了 VisGraphVar（视觉图变异性），这是一个可定制的基准生成器，能够生成七个不同任务类别（检测、分类、分割、模式识别、链接预测、推理、匹配）的图图像，旨在系统地评估单个 LVLMs 的优势和局限性。我们使用 VisGraphVar 生成了 990 张图图像，并使用零样本和思维链两种不同的提示策略评估了六个 LVLMs。研究结果表明，图像视觉属性（例如，节点标签和布局）的变化以及故意包含的视觉缺陷（例如，节点重叠）会显着影响模型性能。这项研究强调了对图形相关任务进行全面评估的重要性，而不仅仅是推理。VisGraphVar 为开发更可靠、更强大的能够执行高级视觉图形分析的系统提供了宝贵的见解。
2024-11-22	VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection	link	大型视觉语言模型 (LVLMs) 的进步显著提升了多模态理解能力，但由于缺乏高质量、大规模数据集，视频推理任务仍然面临挑战。现有的视频问答 (VideoQA) 数据集通常依赖于成本高昂、粒度不足的手动标注，或采用冗余的逐帧分析的自动构建方法，限制了其在复杂推理方面的可扩展性和有效性。为了应对这些挑战，我们推出了 VideoEspresso，这是一个新颖的数据集，其特点是保留了关键空间细节和时间连贯性的 VideoQA 对，以及中间推理步骤的多模态标注。我们的构建流程采用语义感知方法来减少冗余，然后使用 GPT-4o 生成问答对。我们进一步开发了视频思维链 (CoT) 标注来丰富推理过程，引导 GPT-4o 从问答对和视频内容中提取逻辑关系。为了充分利用高质量 VideoQA 对的潜力，我们提出了一个混合 LVLMs 协作框架，该框架包含一个帧选择器和一个经过两阶段指令微调的推理 LVLM。该框架自适应地选择核心帧，并使用多模态证据进行 CoT 推理。在我们提出的包含 14 项任务的基准测试中，针对 9 个流行的 LVLMs 进行评估，我们的方法在大多数任务上都优于现有基线，展现出卓越的视频推理能力。我们的代码和数据集将在以下地址发布：https://github.com/hshjerry/VideoEspresso
2024-11-22	Effective SAM Combination for Open-Vocabulary Semantic Segmentation	null	开放词汇语义分割旨在为图像中的像素分配不限范围的类别标签。传统方法通常采用将强大的掩码提议生成器（例如Segment Anything Model，SAM）与预训练的视觉语言模型（例如CLIP）顺序连接的方式来解决这个问题。但这些两阶段方法通常存在计算成本高、内存效率低的问题。在本文中，我们提出了ESC-Net，一种新颖的单阶段开放词汇分割模型，它在一个高效的推理框架内利用SAM解码器模块进行类别无关的分割。通过将从图像-文本相关性生成的伪提示嵌入到SAM的可提示分割框架中，ESC-Net实现了细化的空间聚合，从而实现了准确的掩码预测。ESC-Net在标准基准测试（包括ADE20K、PASCAL-VOC和PASCAL-Context）上取得了优异的性能，在效率和准确性方面均优于先前的方法。全面的消融研究进一步证明了其在挑战性条件下的鲁棒性。
2024-11-21	FuseGPT: Learnable Layers Fusion of Generative Pre-trained Transformers	null	生成式预训练Transformer模型（GPT）通过大规模扩展模型参数，在不同领域展现了显著的性能。近期的研究观察到Transformer块之间存在冗余，并开发了通过结构化剪枝不重要的块来压缩模型的方法。然而，这种直接的消除方法总会带来不可逆的性能下降。在本文中，我们提出了FuseGPT，一种新的方法，通过回收剪枝的Transformer块来进一步恢复模型性能。首先，我们引入了一种新的重要性检测指标，宏观影响（MI），通过计算移除每个Transformer块后的信息损失来检测其长期影响。然后，我们提出了组级层融合，它采用不重要块中层的参数，并将它们注入到相邻块内相应的层中。这种融合不是一次性的，而是通过轻量级的组级微调进行迭代参数更新。具体来说，这些注入的参数被冻结，但通过可学习的秩分解矩阵进行加权，以减少微调时的开销。我们的方法不仅适用于大型语言模型，也适用于大型多模态模型。实验表明，FuseGPT只需使用少量数据，就可以在困惑度和零样本任务性能方面优于先前的工作。
2024-11-21	Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance	null	大型视觉语言模型（LVLMs）在各种视觉语言任务中取得了令人瞩目的成果。然而，尽管展现出 promising 的性能，LVLMs 仍然受到语言偏差导致的幻觉的影响，导致对图像的关注减少和视觉理解 ineffective。我们确定了这种偏差的两个主要原因：1. LLM 预训练阶段和多模态对齐阶段之间训练数据的不同规模。2. 由于文本数据的短期依赖性而学习到的推理偏差。因此，我们提出了 LACING，这是一个系统框架，旨在通过多模态双重注意力机制（MDA）和软图像引导（IFG）来解决 LVLMs 的语言偏差问题。具体来说，MDA 引入了一种并行的双重注意力机制，增强了视觉输入在模型中的整合。IFG 在训练和推理过程中引入了一个可学习的软视觉提示来代替视觉输入，旨在迫使 LVLMs 优先考虑文本输入。然后，IFG 进一步提出了一种使用软视觉提示的新解码策略，以减轻模型对相邻文本输入的过度依赖。综合实验表明，我们的方法有效地消除了 LVLMs 的语言偏差，增强了视觉理解并减少了幻觉，而无需额外的训练资源或数据。代码和模型可在 lacing-lvlm.github.io 获取。
2024-11-21	Visual Contexts Clarify Ambiguous Expressions: A Benchmark Dataset	link	能够跨多模态输入执行复杂推理对于模型在现实世界场景中与人类有效互动至关重要。视觉语言模型的进步显著提高了在需要处理明确和直接文本输入的任务（如视觉问答（VQA）和视觉定位（VG））上的性能。然而，提高模型理解细微和模糊的交流形式的能力却较少受到关注。这提出了一个关键挑战，因为现实世界互动中的人类语言通常传达隐藏的意图，这些意图依赖于上下文才能进行准确的解释。为了解决这一差距，我们提出了VAGUE，这是一个包含3.9K个间接人类话语及其对应场景的多模态基准测试。此外，我们还提供了一个基于模型的管道，用于从输入图像生成提示-解决方案对。我们的工作旨在深入研究模型理解间接交流的能力，并致力于开发能够进行更精细、更像人类互动的模型。对多个VLM的广泛评估表明，主流模型在需要执行复杂的语言和视觉推理时仍然难以理解间接交流。我们在https://github.com/Hazel-Heejeong-Nam/VAGUE.git发布了我们的代码和数据。
2024-11-21	MMGenBench: Evaluating the Limits of LMMs from the Text-to-Image Generation Perspective	link	大型多模态模型 (LMMs) 已展现出卓越的功能。然而，现有的 LMMs 评估基准主要集中在图像理解方面，很少有工作从图像生成的视角进行评估。为了解决这个问题，我们提出了一个简单的自动化评估流程。具体来说，该流程要求 LMMs 根据给定的输入图像生成图像描述。随后，它使用文本到图像生成模型根据这些生成的描述创建新图像。最后，我们通过比较原始图像和生成的图像来评估 LMMs 的性能。此外，我们还引入了 MMGenBench-Test，这是一个全面的基准测试，用于评估 LMMs 在 13 种不同图像模式下的性能，以及 MMGenBench-Domain，旨在评估 LMMs 在生成图像领域内的性能。对 50 多个流行 LMMs 的全面评估证明了该流程和基准测试的有效性和可靠性。我们的观察表明，许多在现有基准测试中表现优异的 LMMs 未能充分完成与图像理解和描述相关的基本任务。这一发现凸显了当前 LMMs 性能提升的巨大潜力，并为未来的模型优化提供了方向。同时，我们的流程仅使用图像输入即可促进对不同领域 LMMs 性能的有效评估。
2024-11-20	BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games	null	大型语言模型 (LLM) 和视觉语言模型 (VLM) 拥有广泛的知识并展现出 promising 的推理能力；然而，它们在复杂、动态的环境中仍然难以良好地执行任务。现实世界的任务需要处理复杂的交互、高级空间推理、长期规划和对新策略的持续探索——在这些领域，我们缺乏有效的方法来全面评估这些能力。为了弥补这一差距，我们引入了 BALROG，这是一个 novel 的基准测试，旨在通过一组不同的 challenging 游戏来评估 LLM 和 VLM 的智能体能力。我们的基准测试包含一系列现有的强化学习环境，难度各不相同，包括非专业人员可以在几秒钟内解决的任务，以及可能需要数年才能掌握的极其挑战性的任务（例如，NetHack 学习环境）。我们设计了细粒度的指标来衡量性能，并对几个流行的开源和闭源 LLM 和 VLM 进行了广泛的评估。我们的研究结果表明，虽然目前的模型在较简单的游戏中取得了部分成功，但在更具挑战性的任务中却举步维艰。值得注意的是，我们观察到基于视觉的决策存在严重缺陷，因为当提供环境的视觉表示时，模型的性能会更差。我们将 BALROG 作为一个开放且用户友好的基准测试发布，以促进智能体社区未来的研究和发展。
2024-11-20	Teaching VLMs to Localize Specific Objects from In-context Examples	link	视觉语言模型 (VLM) 在各种视觉任务中展现了卓越的能力，包括图像识别、视频理解和视觉问答 (VQA)，前提是针对这些任务进行专门训练。尽管取得了这些进展，我们发现当前的 VLM 缺乏一项基本的认知能力：通过考虑上下文来学习定位场景中的对象。在这项工作中，我们专注于少样本个性化定位任务，其中模型被赋予一小组带注释的图像（上下文示例）——每个图像都带有类别标签和边界框——并且其任务是在查询图像中定位相同类型的对象。为了激发模型的个性化定位能力，我们提出了一种以数据为中心的解决方案，使用从视频对象跟踪数据集中精心挑选的数据对模型进行微调。通过利用跨多个镜头跟踪同一对象的帧序列，我们模拟了促进上下文感知的指令调整对话。为了强化这一点，我们引入了一种新的正规化技术，用伪名称替换对象标签，确保模型依赖视觉上下文而不是先验知识。我们的方法显著增强了少样本定位性能，且不会牺牲泛化能力，这在几个为个性化定位定制的基准测试中得到了证明。这项工作是第一个探索和基准测试 VLM 的个性化少样本定位的工作，为未来上下文驱动的视觉语言应用研究奠定了基础。我们的项目代码可在 https://github.com/SivanDoveh/IPLoc 获取。
2024-11-20	VideoAutoArena: An Automated Arena for Evaluating Large Multimodal Models in Video Analysis through User Simulation	null	近年来，具备高级视频分析能力的大型多模态模型 (LMM) 引起了广泛关注。然而，大多数评估依赖于传统方法，例如 VideoMME 和 LongVideoBench 等基准测试中的多项选择题，这些方法往往缺乏深度，难以捕捉现实世界用户的复杂需求。为了解决这一局限性，并且考虑到人工标注视频任务的高成本和低效率，我们引入了 VideoAutoArena，这是一个竞技场式的基准测试，其灵感来自 LMSYS Chatbot Arena 的框架，旨在自动评估 LMM 的视频分析能力。VideoAutoArena 利用用户模拟生成开放式、自适应问题，以严格评估模型在视频理解方面的性能。该基准测试采用了一种可扩展的自动化评估框架，并结合了改进的 ELO 评分系统，以便在多个 LMM 之间进行公平、持续的比较。为了验证我们的自动评判系统，我们使用精心策划的人工标注子集构建了“黄金标准”，证明我们的竞技场与人类判断高度一致，同时保持了可扩展性。此外，我们引入了一种故障驱动的进化策略，逐步增加问题的复杂性，以推动模型处理更具挑战性的视频分析场景。实验结果表明，VideoAutoArena 可以有效地区分最先进的 LMM，并提供有关模型优势和改进方向的见解。为了进一步简化我们的评估，我们引入了 VideoAutoBench 作为辅助基准测试，其中人工标注员在 VideoAutoArena 比赛的子集中标记获胜者。我们使用 GPT-4o 作为评判，将模型的回答与这些经过人工验证的答案进行比较。VideoAutoArena 和 VideoAutoBench 共同提供了一个经济高效且可扩展的框架，用于评估以用户为中心的视频分析中的 LMM。
2024-11-20	XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation	link	现有的开放词汇3D语义分割方法主要集中于建立一个包含3D、2D和文本模态的统一特征空间。然而，诸如全局特征对齐或视觉语言模型蒸馏等传统技术往往只能实现近似的对应，尤其难以描绘细粒度的分割边界。为了解决这个问题，我们提出了一个通过跨模态掩码推理框架XMask3D在3D特征和2D-文本嵌入空间之间进行更精细的掩码级对齐的方法。在我们的方法中，我们基于预训练扩散模型中的去噪UNet开发了一个掩码生成器，利用其对密集像素表示的精确文本控制能力，并增强了生成掩码的开放世界适应性。我们进一步将3D全局特征作为隐式条件融入预训练的2D去噪UNet中，使得生成的分割掩码能够额外感知3D几何信息。随后，生成的2D掩码被用于将掩码级别的3D表示与视觉语言特征空间对齐，从而增强3D几何嵌入的开放词汇能力。最后，我们融合互补的2D和3D掩码特征，从而在多个3D开放词汇语义分割基准测试中取得了竞争性的性能。代码可在https://github.com/wangzy22/XMask3D获取。
2024-11-21	ViSTa Dataset: Do vision-language models understand sequential tasks?	link	将视觉语言模型 (VLM) 用作强化学习中的奖励模型有望降低成本并提高安全性。迄今为止，VLM 奖励模型仅用于目标导向的任务，其中智能体必须达到特定的最终结果。我们探索 VLM 监督无法仅凭最终状态评分的任务的潜力。为此，我们引入了 ViSTa，这是一个用于评估基于视觉的顺序任务理解的数据集。ViSTa 包含 4,000 多个视频，其中包含虚拟家庭、Minecraft 和现实世界环境中的分步描述。其新颖的层次结构——由基本的单步任务组成越来越复杂的顺序任务——可以深入了解 VLM 判断不同复杂度任务的能力。为了说明这一点，我们使用 ViSTa 来评估最先进的 VLM，包括 CLIP、ViCLIP 和 GPT-4o。我们发现，虽然它们都擅长物体识别，但它们无法理解顺序任务，只有 GPT-4o 取得了非平凡的性能。
2024-11-20	TAPT: Test-Time Adversarial Prompt Tuning for Robust Inference in Vision-Language Models	null	大型预训练视觉语言模型（VLM），例如CLIP，在各种下游任务中展现出优异的零样本泛化能力。然而，最近的研究表明，CLIP的推理性能很容易被小的对抗性扰动大幅降低，尤其是在其视觉模态方面，这构成了重大的安全威胁。为了缓解此漏洞，本文提出了一种名为测试时对抗性提示调优（TAPT）的新颖防御方法，以增强CLIP针对视觉对抗性攻击的推理鲁棒性。TAPT是一种测试时防御方法，它学习防御性双模态（文本和视觉）提示以增强CLIP的推理过程的鲁棒性。具体来说，它是一种无监督方法，通过最小化多视图熵并对齐对抗样本和干净样本的分布来优化每个测试样本的防御性提示。我们在11个基准数据集（包括ImageNet和10个其他零样本数据集）上评估了TAPT的有效性，结果表明，它将原始CLIP的零样本对抗鲁棒性提高了至少48.9%（对抗AutoAttack（AA）），同时在很大程度上保持了对干净样本的性能。此外，TAPT在各种骨干网络上的性能都优于现有的对抗性提示调优方法，平均鲁棒性提升至少36.6%。
2024-11-19	VILA-M3: Enhancing Vision-Language Models with Medical Expert Knowledge	null	通用视觉语言模型（VLMs）在计算机视觉领域取得了显著进展，但在医疗等需要专业知识的特定领域却存在不足。在传统的计算机视觉任务中，创造性或近似的答案可能是可以接受的，但在医疗领域，精度至关重要。目前的通用大型多模态模型，如Gemini和GPT-4o，由于依赖记忆的互联网知识而非医疗所需的细致专业知识，因此不足以胜任医疗任务。VLM的训练通常分为三个阶段：视觉预训练、视觉-语言预训练和指令微调（IFT）。IFT通常使用通用数据和医疗数据的混合进行。相比之下，我们提出，对于医学VLM，需要第四阶段的专门IFT，重点关注医学数据，并包含来自领域专家模型的信息。为医疗用途开发的领域专家模型至关重要，因为它们经过专门训练以执行某些临床任务，例如通过分割和分类来检测肿瘤和对异常进行分类，从而学习医学数据的细粒度特征——这些特征通常过于复杂，VLM无法有效捕捉，尤其是在放射学领域。本文介绍了一种新的医学VLM框架VILA-M3，它利用专家模型的领域知识。通过实验，我们展示了改进的最先进（SOTA）性能，平均比之前的SOTA模型Med-Gemini提高了约9%，比针对特定任务训练的模型提高了约6%。我们的方法强调了领域专业知识在创建用于医疗应用的精确、可靠的VLM中的重要性。
2024-11-18	Vision Language Models Are Few-Shot Audio Spectrogram Classifiers	null	我们证明了视觉语言模型（VLM）能够在给定相应频谱图图像的情况下识别音频录音中的内容。具体来说，我们通过提示VLM对每个类别的示例频谱图图像进行分类，指导它们在少样本设置下执行音频分类任务。通过精心设计频谱图图像表示并选择良好的少样本示例，我们展示了GPT-4o在ESC-10环境声音分类数据集上可以达到59.00%的交叉验证准确率。此外，我们证明了VLM目前在同等的音频分类任务上优于唯一可用的具有音频理解能力的商业音频语言模型（Gemini-1.5）（59.00% vs. 49.62%），甚至在视觉频谱图分类方面略优于人类专家（在第一个折叠上，73.75% vs. 72.50%）。我们设想了这些发现的两个潜在用例：（1）结合VLM的频谱图和语言理解能力进行音频字幕增强，以及（2）将视觉频谱图分类作为VLM的挑战任务。
2024-11-18	ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements	link	近年来，基础视觉语言模型 (VLM) 的进步重塑了计算机视觉任务的评估范式。这些基础模型，尤其是 CLIP，加速了开放词汇计算机视觉任务（包括开放词汇语义分割 (OVSS)）的研究。尽管初步结果令人鼓舞，但 VLM 的密集预测能力仍需进一步提高。在本研究中，我们通过引入新的模块和修改来增强 CLIP 的语义分割性能：1) 改变 ViT 最后一层的架构，并将中间层的注意力图与最后一层合并；2) 图像工程：应用数据增强来丰富输入图像的表示；3) 使用大型语言模型 (LLM) 为每个类别名称生成定义和同义词，以利用 CLIP 的开放词汇能力。我们的免训练方法 ITACLIP 在 COCO-Stuff、COCO-Object、Pascal Context 和 Pascal VOC 等分割基准测试中优于当前最先进的方法。我们的代码可在 https://github.com/m-arda-aydn/ITACLIP 获取。
2024-11-17	On-Board Vision-Language Models for Personalized Autonomous Vehicle Motion Control: System Design and Real-World Validation	null	个性化驾驶指的是自动驾驶车辆在保证安全和舒适标准的前提下，使其驾驶行为或控制策略适应个体用户偏好和驾驶风格的能力。然而，现有研究要么无法精确捕捉每个个体的偏好，要么随着用户群的扩大而导致计算效率低下。视觉语言模型（VLM）凭借其自然语言理解和场景推理能力，为解决这一问题提供了 promising 的方案。在这项工作中，我们提出了一个轻量级但高效的车载 VLM 框架，该框架在提供低延迟个性化驾驶性能的同时，保持了强大的推理能力。我们的解决方案包含一个基于检索增强生成（RAG）的记忆模块，该模块能够通过人类反馈持续学习个体驾驶偏好。通过全面的实际车辆部署和实验，我们的系统已 demonstrated 在各种场景下提供安全、舒适和个性化的驾驶体验的能力，并将接管率显著降低了高达 76.9%。据我们所知，这项工作代表了在实际自动驾驶车辆中第一个端到端的基于 VLM 的运动控制系统。
2024-11-18	The Power of Many: Multi-Agent Multimodal Models for Cultural Image Captioning	link	大型多模态模型 (LMMs) 在各种多模态任务中展现出令人瞩目的性能。然而，由于大多数数据和模型以西方为中心，它们在跨文化语境中的有效性仍然有限。相反，多智能体模型在解决复杂任务方面表现出显著的能力。我们的研究评估了 LMMs 在多智能体交互环境下对文化图像描述这一新任务的集体表现。我们的贡献如下：(1) 我们引入了 MosAIC，这是一个多智能体框架，利用具有不同文化角色的 LMMs 来增强跨文化图像描述；(2) 我们提供了一个包含来自中国、印度和罗马尼亚图像的英文文化丰富图像描述数据集，涵盖 GeoDE、GD-VCR 和 CVQA 三个数据集；(3) 我们提出了一个文化适应性指标，用于评估图像描述中的文化信息；(4) 我们证明了多智能体交互在不同指标上优于单智能体模型，并为未来的研究提供了宝贵的见解。我们的数据集和模型可在 https://github.com/MichiganNLP/MosAIC 获取。
2024-11-18	MC-LLaVA: Multi-Concept Personalized Vision-Language Model	link	目前的视觉语言模型 (VLM) 在包括视觉问答在内的各种任务中展现出卓越的能力。为了增强实际应用中的用户体验，最近的研究探索了VLM个性化以理解用户提供的概念。然而，现有研究主要集中在单概念个性化上，忽略了多个概念的存在和相互作用，这限制了个性化VLM的实际应用。在本文中，我们提出了第一个多概念个性化方法，称为MC-LLaVA，以及一个高质量的多概念个性化数据集。具体来说，MC-LLaVA采用联合训练策略，在单个训练步骤中结合多个概念，使VLM能够在多概念个性化中准确执行。为了降低联合训练的成本，MC-LLaVA利用视觉标记信息进行概念标记初始化，从而改进概念表示并加速联合训练。为了推进多概念个性化研究，我们进一步贡献了一个高质量的数据集。我们从包含多个角色的各种电影中精心收集图像，并手动生成多概念问答样本。我们的数据集涵盖了不同的电影类型和问答类型。我们进行了全面的定性和定量实验，以证明MC-LLaVA可以实现令人印象深刻的多概念个性化响应，为VLM成为更好的用户特定助手铺平了道路。代码和数据集将在https://github.com/arctanxarc/MC-LLaVA公开发布。
2024-11-18	VLN-Game: Vision-Language Equilibrium Search for Zero-Shot Semantic Navigation	null	遵循人类指令在陌生环境中探索和搜索指定目标是移动服务机器人的一项关键技能。以往关于物体目标导航的研究大多集中在单一输入模态作为目标，这可能导致对包含详细属性和空间关系的语言描述考虑不足。为了解决这一局限性，我们提出了VLN-Game，一个用于视觉目标导航的新型零样本框架，可以有效地处理物体名称和描述性语言目标。更准确地说，我们的方法通过将预训练的视觉语言特征与物理环境的三维重建相结合，构建了一个以物体为中心的三维空间地图。然后，该框架识别出最有希望的区域，以探索潜在的目标候选者。采用博弈论视觉语言模型来确定哪个目标与给定的语言描述最匹配。在Habitat-Matterport 3D (HM3D)数据集上进行的实验表明，所提出的框架在物体目标导航和基于语言的导航任务中均实现了最先进的性能。此外，我们展示了VLN-Game可以轻松部署到现实世界的机器人上。VLN-Game的成功凸显了使用博弈论方法和紧凑型视觉语言模型来提升机器人系统决策能力的巨大潜力。补充视频和代码可以通过以下链接访问：https://sites.google.com/view/vln-game。
2024-11-18	Enhancing Vision-Language Model Safety through Progressive Concept-Bottleneck-Driven Alignment	null	受益于大型语言模型 (LLM) 的强大功能，预训练的连接到 LLM 的视觉编码器模型形成了视觉语言模型 (VLM)。然而，最近的研究表明，VLM 中的视觉模态非常脆弱，攻击者可以通过视觉传输的内容绕过 LLM 中的安全对齐，发起有害攻击。为了应对这一挑战，我们提出了一种基于渐进式概念的对齐策略 PSA-VLM，它将安全模块作为概念瓶颈，以增强视觉模态安全对齐。通过将模型预测与特定安全概念对齐，我们改进了针对风险图像的防御，增强了可解释性和可控性，同时最大限度地减少了对一般性能的影响。我们的方法通过两阶段训练获得。第一阶段的低计算成本带来了非常有效的性能提升，第二阶段的语言模型微调进一步提高了安全性能。我们的方法在流行的 VLM 安全基准测试中取得了最先进的结果。
2024-11-18	InstruGen: Automatic Instruction Generation for Vision-and-Language Navigation Via Large Multimodal Models	null	最近关于视觉和语言导航 (VLN) 的研究表明，由于缺乏真实的训练环境和高质量的路径-指令对，agent 在未知环境中的泛化能力较差。大多数现有的构建逼真导航场景的方法成本较高，且指令的扩展主要依赖于预定义的模板或规则，缺乏适应性。为了缓解这个问题，我们提出了 InstruGen，一个 VLN 路径-指令对生成范式。具体来说，我们使用 YouTube 房屋参观视频作为真实的导航场景，并利用大型多模态模型 (LMM) 强大的视觉理解和生成能力来自动生成多样化且高质量的 VLN 路径-指令对。我们的方法可以生成不同粒度的导航指令，并在指令和视觉观察之间实现细粒度的对齐，这是以前的方法难以实现的。此外，我们设计了一个多阶段验证机制，以减少 LMM 的幻觉和不一致性。实验结果表明，使用 InstruGen 生成的路径-指令对训练的 agent 在 R2R 和 RxR 基准测试中，尤其是在未知环境中，达到了最先进的性能。代码可在 https://github.com/yanyu0526/InstruGen 获取。
2024-11-18	Efficient Transfer Learning for Video-language Foundation Models	link	预训练的视觉语言模型为跨各种下游任务的高效迁移学习提供了稳健的基础。在视频动作识别领域，主流方法通常会引入额外的参数模块来捕获时间信息。虽然这些额外参数带来的模型容量增加有助于更好地拟合视频特定的归纳偏差，但现有方法需要学习大量的参数，并且容易出现对原始泛化知识的灾难性遗忘。在本文中，我们提出了一个简单而有效的多模态时空适配器（MSTA），以改进文本和视觉分支中表示之间的对齐，从而在通用知识和特定任务知识之间取得平衡。此外，为了减轻过拟合并增强泛化能力，我们引入了时空描述引导的一致性约束。这种约束包括将模板输入（即“{cls} 的视频”）馈送到可训练的语言分支，同时将LLM生成的时空描述输入到预训练的语言分支，强制两个分支的输出保持一致。这种机制可以防止对下游任务的过拟合，并提高可训练分支在时空语义空间中的可区分性。我们在四个任务上评估了我们方法的有效性：零样本迁移、小样本学习、基础到新颖的泛化以及全监督学习。与许多最先进的方法相比，我们的MSTA在所有评估中都取得了优异的性能，而只使用了原始模型中2-7%的可训练参数。代码将在 https://github.com/chenhaoxing/ETL4Video 上提供。
2024-11-17	Exploiting VLM Localizability and Semantics for Open Vocabulary Action Detection	null	动作检测旨在对视频中的人类动作进行时空上的检测（识别和定位）。现有方法主要集中在封闭集合设置，其中动作检测器在来自固定动作类别集合的视频上进行训练和测试。然而，这种受限的设置在开放世界中是不可行的，因为测试视频不可避免地会超出训练的动作类别。在本文中，我们解决了实际但具有挑战性的开放词汇动作检测 (OVAD) 问题。其目标是在固定动作类别集合上训练模型的同时检测测试视频中的任何动作。为了实现这种开放词汇能力，我们提出了一种名为 OpenMixer 的新方法，它利用了大型视觉语言模型 (VLM) 在基于查询的检测转换器 (DETR) 系列中固有的语义和可定位性。具体来说，OpenMixer 由空间和时间 OpenMixer 模块（S-OMB 和 T-OMB）以及一个动态融合对齐 (DFA) 模块组成。这三个组件共同享有预训练 VLM 的强泛化能力和 DETR 设计的端到端学习的优点。此外，我们建立了各种设置下的 OVAD 基准测试，实验结果表明，OpenMixer 在检测已见和未见动作方面优于基线方法。我们在 https://github.com/Cogito2012/OpenMixer 发布了代码、模型和数据集划分。
2024-11-15	LLaVA-o1: Let Vision Language Models Reason Step-by-Step	link	大型语言模型在推理能力方面展现出显著进步，尤其体现在推理时规模扩展上，例如OpenAI的o1模型。然而，当前的视觉语言模型（VLM）在执行系统性和结构化推理时常常遇到困难，尤其是在处理复杂的视觉问答任务时。在这项工作中，我们介绍了LLaVA-o1，一个旨在进行自主多阶段推理的新型VLM。与思维链提示不同，LLaVA-o1独立地进行摘要、视觉解释、逻辑推理和结论生成等连续阶段。这种结构化方法使LLaVA-o1在推理密集型任务上的精度显著提高。为此，我们编译了LLaVA-o1-100k数据集，整合了来自各种视觉问答来源的样本，并提供了结构化的推理标注。此外，我们提出了一种推理时阶段级集束搜索方法，实现了有效的推理时规模扩展。值得注意的是，仅使用10万个训练样本和一个简单而有效的推理时规模扩展方法，LLaVA-o1不仅在各种多模态推理基准测试中比其基础模型的性能提高了8.9%，而且还超过了更大甚至闭源模型的性能，例如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。
2024-11-15	SEAGULL: No-reference Image Quality Assessment for Regions of Interest via Vision-Language Instruction Tuning	link	现有的图像质量评估 (IQA) 方法在分析整体图像质量方面取得了显著成功，但很少有研究探索感兴趣区域 (ROI) 的质量分析。ROI 的质量分析可以为图像质量改进提供细粒度的指导，并且对于关注区域级质量的场景至关重要。本文提出了一种名为 SEAGULL 的新型网络，它可以借助大型视觉语言模型的指导来查看和评估 ROI 的质量。SEAGULL 结合了视觉语言模型 (VLM)、由 Segment Anything Model (SAM) 生成的用于指定 ROI 的掩码，以及精心设计的基于掩码的特征提取器 (MFE) 来提取指定 ROI 的全局和局部标记，从而实现对 ROI 的精确细粒度 IQA。此外，本文构建了两个基于 ROI 的 IQA 数据集，SEAGULL-100w 和 SEAGULL-3k，用于训练和评估基于 ROI 的 IQA。SEAGULL-100w 包含约 100 万张合成失真图像和 3300 万个 ROI，用于预训练以提高模型的区域质量感知能力，而 SEAGULL-3k 包含约 3000 个真实失真 ROI，以增强模型感知真实世界失真的能力。在 SEAGULL-100w 上进行预训练并在 SEAGULL-3k 上进行微调后，SEAGULL 在细粒度 ROI 质量评估方面展现出卓越的性能。代码和数据集已在 https://github.com/chencn2020/Seagull 公开发布。
2024-11-15	Federated Domain Generalization via Prompt Learning and Aggregation	link	联邦域泛化 (FedDG) 旨在通过解决隐私保护约束下的数据异构性来提高全局模型在未见域中的泛化能力。现有 FedDG 研究中的一种常见策略是在客户端之间共享特定域的知识，例如频谱信息、类别原型和数据风格。然而，这些知识是直接从本地客户端样本中提取的，共享此类敏感信息会带来数据泄露的潜在风险，这可能无法完全满足 FedDG 的要求。在本文中，我们引入了提示学习来适应 FedDG 场景下的预训练视觉语言模型 (VLM)，并利用本地学习的提示作为更安全的桥梁来促进客户端之间的知识转移。具体来说，我们提出了一个通过提示学习和聚合 (PLAN) 的新型 FedDG 框架，该框架包含两个训练阶段，在每个联邦轮次协同生成局部提示和全局提示。首先，每个客户端使用自己的数据执行文本和视觉提示学习，通过将全局提示作为共同参考来间接同步局部提示。其次，所有特定域的局部提示在客户端之间交换，并使用基于轻量级注意力的聚合器选择性地聚合到全局提示中。最终，全局提示被应用于使 VLM 适应未见的目标域。由于我们的 PLAN 框架只需要训练有限数量的提示和轻量级聚合器，因此它在 FedDG 的计算和通信效率方面具有显著优势。大量实验表明，PLAN 在四个基准数据集上具有优越的泛化能力。
2024-11-15	Free Lunch in Pathology Foundation Model: Task-specific Model Adaptation with Concept-Guided Feature Enhancement	link	全切片图像（WSI）分析在医学影像领域日益受到重视。病理学基础模型的最新进展表明，其具有从WSI中提取强大的特征表示用于下游任务的潜力。然而，这些基础模型通常设计用于通用病理图像分析，对于特定的下游任务或癌症类型可能并非最佳选择。在这项工作中，我们提出了概念锚引导的任务特定特征增强（CATE），这是一个适应性强的范例，可以提高病理学基础模型针对特定下游任务的表现力和辨别力。基于一组从病理视觉语言模型中提取的、由专家设计的提示得到的任务特定概念，我们引入了两个相互关联的模块，以动态校准基础模型提取的通用图像特征，使其适用于特定任务或癌症类型。具体来说，我们设计了一个概念引导的信息瓶颈模块，通过最大化图像特征和概念锚之间的互信息，同时抑制多余信息，来增强与任务相关的特征。此外，我们还提出了一个概念-特征干扰模块，利用校准后的特征和概念锚之间的相似性，进一步生成具有辨别力的任务特定特征。在公共WSI数据集上的大量实验表明，CATE显着提高了MIL模型的性能和泛化能力。此外，热力图和umap可视化结果也揭示了CATE的有效性和可解释性。源代码可在https://github.com/HKU-MedAI/CATE获取。
2024-11-14	Cross-Modal Consistency in Multimodal Large Language Models	null	多模态方法的最新发展标志着模型处理各种数据类型（包括文本、音频和视觉内容）的新时代的开始。像GPT-4V这样将计算机视觉与高级语言处理相结合的模型，在处理需要同时理解文本和视觉信息的复杂任务方面表现出非凡的能力。之前的研究工作已经仔细评估了这些视觉大型语言模型（VLLM）在各种领域（包括目标检测、图像描述和其他相关领域）的有效性。然而，现有的分析往往存在局限性，主要集中在孤立地评估每种模态的性能，而忽略了探索它们复杂的跨模态交互。具体来说，这些模型在面对不同模态的相同任务实例时是否达到相同的准确度水平的问题仍然没有答案。在本研究中，我们主动通过引入一个称为跨模态一致性的新概念来深入研究这些感兴趣的模态之间的交互和比较。此外，我们提出了一个基于此概念的定量评估框架。我们从自己开发的一系列精选的平行视觉语言数据集中得出的实验结果表明，尽管GPT-4V被描述为一个统一的多模态模型，但其视觉和语言模态之间存在明显的不一致性。我们的研究揭示了此类模型的适当使用方法，并暗示了改进其设计的潜在途径。
2024-11-13	ClevrSkills: Compositional Language and Visual Reasoning in Robotics	link	机器人任务本质上是高度组合的。例如，要执行像清洁桌子这样的高级任务，机器人必须运用低级能力，将效应器移动到桌子上的物体，拾取它们，然后将它们一个个地从桌子上移开，同时在此过程中重新评估随之而来的动态场景。鉴于大型视觉语言模型 (VLM) 在许多需要高级、类人推理的任务上取得了进展，我们提出了这样一个问题：如果教会模型必要的低级能力，它们能否以新颖的方式组合这些能力来完成有趣的像清洁桌子这样的高级任务，而无需明确地教授？为此，我们提出了 ClevrSkills——一个用于机器人组合推理的基准套件。ClevrSkills 是一个基于 ManiSkill2 模拟器开发的环境套件以及一个伴随的数据集。该数据集包含在一系列机器人任务上生成的轨迹，带有语言和视觉注释以及作为任务规范的多模态提示。该套件包括一个包含三个级别的组合理解的任务课程，从需要基本运动技能的简单任务开始。我们在 ClevrSkills 上对多个不同的 VLM 基线进行了基准测试，并表明即使在大量任务上进行了预训练后，这些模型在机器人任务的组合推理上仍然失败。
2024-11-13	DART-LLM: Dependency-Aware Multi-Robot Task Decomposition and Execution using Large Language Models	link	大型语言模型 (LLM) 在机器人系统中展现出显著的推理能力。然而，它们在多机器人系统中的部署仍然较为分散，难以处理复杂的依赖关系和并行执行。本研究介绍了 DART-LLM（基于依赖感知的多机器人任务分解和执行系统），旨在应对这些挑战。DART-LLM 利用 LLM 解析自然语言指令，将其分解为多个具有依赖关系的子任务，以建立复杂的任务序列，从而增强多机器人系统中的高效协调和并行执行。该系统包含问答LLM模块、分解函数模块、执行模块和基于视觉语言模型 (VLM) 的目标检测模块，支持将自然语言指令转换为机器人动作的任务分解和执行。实验结果表明，DART-LLM 擅长处理长周期任务和具有复杂依赖关系的协作任务。即使使用较小的模型（如 Llama 3.1 8B），该系统也能取得良好的性能，突出了 DART-LLM 在模型规模方面的鲁棒性。更多视频和代码，请访问项目网站：https://wyd0817.github.io/project-dart-llm/。
2024-11-13	The Limited Impact of Medical Adaptation of Large Language and Vision-Language Models	link	最近的一些工作致力于开发专门用于医疗应用的基础模型，通过在公开可用的生物医学语料库上继续进行预训练来调整通用大型语言模型 (LLM) 和视觉语言模型 (VLM)。这些工作通常声称这种领域自适应预训练 (DAPT) 可以提高下游医疗任务的性能，例如回答医学执照考试问题。在本文中，我们将十个公开的“医学”LLM 和两个 VLM 与它们相应的基准模型进行了比较，得出了不同的结论：所有医学 VLM 和几乎所有医学 LLM 在医学问答 (QA) 的零样本/少样本提示和监督微调机制中均未能持续改进其基准模型。例如，在我们考虑的 3 样本设置中的所有任务和模型对中，医学 LLM 仅在 22.7% 的情况下优于其基准模型，在 36.8% 的情况下达到（统计）持平，并且在其余 40.5% 的情况下明显差于其基准模型。我们的结论基于 (i) 将每个医学模型与其相应的基准模型直接进行头对头比较；(ii) 在零样本/少样本提示中分别优化每个模型的提示；以及 (iii) 考虑比较中的统计不确定性。虽然这些基本实践并未在文献中得到一致采用，但我们的消融研究表明它们会对结论产生重大影响。同时，我们发现，在针对特定 QA 任务进行微调后，医学 LLM 可以显示出性能改进，但这些好处并不会延续到基于临床记录的任务。我们的研究结果表明，最先进的通用领域模型可能已经展现出强大的医学知识和推理能力，并为加强未来研究的结论提供了建议。
2024-11-13	Sharingan: Extract User Action Sequence from Desktop Recordings	null	用户活动视频记录，尤其是桌面录屏，为理解用户行为和自动化流程提供了丰富的数据来源。然而，尽管视觉语言模型（VLM）取得了进步并在视频分析中得到越来越多的应用，但从桌面录屏中提取用户动作仍然是一个未被充分探索的领域。本文旨在弥补这一差距，提出了两种基于VLM的用户动作提取新方法：直接基于帧的方法（DF），将采样帧直接输入VLM；以及基于差异帧的方法（DiffF），它结合了通过计算机视觉技术检测到的帧间差异。我们使用一个基本的自建数据集和一个改编自先前工作的进阶基准来评估这些方法。结果表明，DF方法在识别用户动作方面达到了70%到80%的准确率，提取的动作序列可以通过机器人流程自动化（RPA）进行重放。我们发现，虽然VLM展现了潜力，但纳入显式的UI变化反而会降低性能，使得DF方法更加可靠。这项工作首次将VLM应用于从桌面录屏中提取用户动作序列，为未来的研究贡献了新的方法、基准和见解。
2024-11-13	Voxeland: Probabilistic Instance-Aware Semantic Mapping with Evidence-based Uncertainty Quantification	link	在以人为中心的场景中，机器人需要准确的场景理解才能有效地执行高级任务。这种理解可以通过实例感知语义建图来实现，它涉及在单个实例级别重建元素。神经网络作为场景理解的实际解决方案，仍然面临一些局限性，例如对分布外对象的过度自信的错误预测或生成不准确的掩码。过度依赖这些预测会使重建容易出错，降低最终地图的鲁棒性，并妨碍机器人的操作。在这项工作中，我们提出了Voxeland，一个用于增量构建实例感知语义地图的概率框架。受证据理论的启发，Voxeland将神经网络预测视为关于地图实例在几何和语义层面的主观意见。这些意见随着时间的推移聚合形成证据，并通过概率模型进行形式化。这使我们能够量化重建过程中的不确定性，从而有助于识别需要改进的地图区域（例如重新观察或重新分类）。作为利用这一点的一种策略，我们结合了一个大型视觉语言模型（LVLM）来对具有高不确定性的实例执行语义级别的消歧。在公开可用的SceneNN数据集上的标准基准测试结果表明，Voxeland优于最先进的方法，突出了结合和利用实例级和语义级不确定性来增强重建鲁棒性的好处。在真实世界的ScanNet数据集上进行的定性实验进一步验证了这一点。
2024-11-13	Retrieval Augmented Recipe Generation	null	鉴于从食物图像生成食谱的潜在应用，近年来该领域受到了研究人员的极大关注。现有的食谱生成工作主要采用两阶段训练方法，首先生成食材，然后从图像和食材中获取烹饪步骤。大型多模态模型 (LMM) 在各种视觉和语言任务中取得了显著成功，为直接从图像生成食材和步骤提供了新的思路。然而，LMM 在食谱生成过程中仍然面临常见的幻觉问题，导致性能欠佳。为了解决这个问题，我们提出了一种用于食谱生成的检索增强大型多模态模型。我们首先引入了随机多样化检索增强 (SDRA) 方法，从现有数据存储中检索与图像语义相关的食谱作为补充，将它们集成到提示中，为输入图像添加多样化和丰富的上下文。此外，我们提出了自一致性集成投票机制，以确定最置信的预测食谱作为最终输出。它计算生成的候选食谱之间的一致性，这些候选食谱使用不同的检索食谱作为生成上下文。大量实验验证了我们提出的方法的有效性，它在 Recipe1M 数据集上的食谱生成任务中展现了最先进 (SOTA) 的性能。
2024-11-13	Open-World Task and Motion Planning via Vision-Language Model Inferred Constraints	null	基于互联网规模数据训练的基础模型，例如视觉语言模型 (VLM)，擅长执行涉及常识的任务，例如视觉问答。尽管它们能力非凡，但这些模型目前无法直接应用于需要复杂且精确的连续推理的挑战性机器人操作问题。任务和运动规划 (TAMP) 系统可以通过组合传统的原始机器人操作来控制高维连续系统进行长期规划。然而，这些系统需要机器人如何影响其环境的详细模型，这阻止它们直接解释和处理新的目标，例如，一个任意的自然语言目标。我们建议在 TAMP 系统内部署 VLM，让它们生成离散和连续的语言参数化约束，使 TAMP 能够推理开放世界概念。具体来说，我们提出了 VLM 部分规划算法，该算法约束 TAMP 系统的离散时间搜索和 VLM 连续约束解释，以增强 TAMP 系统寻求满足的传统操作约束。我们在两种机器人平台（包括一个真实世界的机器人）上通过几个操作任务演示了我们的方法，其中期望的目标仅通过语言传达。
2024-11-12	DPU: Dynamic Prototype Updating for Multimodal Out-of-Distribution Detection	link	分布外 (OOD) 检测对于通过识别偏离训练分布的样本从而确保机器学习模型的鲁棒性至关重要。虽然传统的 OOD 检测主要关注单模态输入（例如图像），但多模态模型的最新进展已经证明了利用多模态（例如视频、光流、音频）来增强检测性能的潜力。然而，现有方法通常忽略分布内 (ID) 数据中的类内差异，假设同一类的样本完全一致且没有变化。这种假设会导致性能下降，尤其当预测差异在所有样本中被均匀放大时。为了解决这个问题，我们提出了动态原型更新 (DPU)，这是一个用于多模态 OOD 检测的即插即用框架，它考虑了类内变化。我们的方法通过测量每个批次中相似样本的方差来动态更新每个类的中心表示，从而实现自适应调整。这种方法允许我们根据更新的类中心放大预测差异，从而提高模型在不同模态下的鲁棒性和泛化能力。在两个任务、五个数据集和九个基础 OOD 算法上的大量实验表明，DPU 显着提高了 OOD 检测性能，在多模态 OOD 检测中树立了新的最先进水平，在远距离 OOD 检测中的改进高达 80%。为了促进可访问性和可重复性，我们的代码已在 GitHub 上公开发布。
2024-11-12	JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation	link	我们提出了JanusFlow，这是一个强大的框架，它在单个模型中统一了图像理解和生成。JanusFlow引入了一个极简的架构，它将自回归语言模型与校正流（一种最先进的生成建模方法）集成在一起。我们的主要发现表明，校正流可以直接在大型语言模型框架内进行训练，而无需复杂的架构修改。为了进一步提高我们统一模型的性能，我们采用了两个关键策略：（i）解耦理解编码器和生成编码器，以及（ii）在统一训练期间对齐它们的表示。大量实验表明，JanusFlow在其各自领域实现了与专用模型相当或更优的性能，同时在标准基准测试中显著优于现有的统一方法。这项工作代表着朝着更高效、更通用的视觉语言模型迈出的一步。
2024-11-12	SparrowVQE: Visual Question Explanation for Course Content Understanding	link	视觉问答 (VQA) 研究致力于创建能够回答图像中自然语言问题的 AI 系统，然而 VQA 方法通常只会产生过于简单和简短的答案。本文旨在通过引入视觉问题解释 (VQE) 来推进该领域的发展，VQE 增强了 VQA 提供详细解释而非简短回答的能力，并解决了对更复杂的视觉内容交互的需求。我们首先从一个为期 14 周的流媒体视频机器学习课程中创建了一个 MLVQE 数据集，其中包含 885 张幻灯片图像、110,407 个单词的转录文本和 9,416 个设计好的问答 (QA) 对。接下来，我们提出了一个新颖的 SparrowVQE 模型，这是一个仅有 30 亿参数的小型多模态模型。我们使用三阶段训练机制来训练我们的模型，包括多模态预训练（幻灯片图像和转录文本特征对齐）、指令微调（使用转录文本和问答对微调预训练模型）和领域微调（微调幻灯片图像和问答对）。最终，我们的 SparrowVQE 可以使用 SigLIP 模型理解和连接视觉信息，并使用带有 MLP 适配器的 Phi-2 语言模型处理转录文本。实验结果表明，我们的 SparrowVQE 在我们开发的 MLVQE 数据集中取得了更好的性能，并且在其他五个基准 VQA 数据集中优于最先进的方法。源代码可在 \url{https://github.com/YoushanZhang/SparrowVQE} 获取。
2024-11-11	Multimodal Fusion Balancing Through Game-Theoretic Regularization	null	多模态学习可以通过揭示数据源之间的关键依赖关系来完善信息提取的图景。然而，当前的系统未能充分利用多种模态以获得最佳性能。这归因于模态竞争，其中各种模态争夺训练资源，导致一些模态未得到充分优化。我们发现，当前的平衡方法难以训练出超越简单基线（例如集成模型）的多模态模型。这就提出了一个问题：我们如何确保多模态训练中的所有模态都得到充分训练，并且从新模态中学习能够持续提高性能？本文提出了多模态竞争正则化器 (MCR)，这是一种受互信息 (MI) 分解启发的新损失组件，旨在防止多模态训练中竞争的不利影响。我们的主要贡献是：1) 在多模态学习中引入博弈论原则，其中每种模态都充当一个参与者，竞争以最大化其对最终结果的影响，从而实现 MI 项的自动平衡。2) 细化每个 MI 项的下限和上限，以增强对跨模态的任务相关的独特信息和共享信息的提取。3) 建议使用潜在空间排列进行条件 MI 估计，从而显著提高计算效率。MCR 的性能优于所有先前建议的训练策略，并且是第一个持续改进多模态学习并超越集成模型基线的方法，清楚地表明结合多种模态可以在合成数据集和大型真实世界数据集上带来显著的性能提升。
2024-11-11	StoryTeller: Improving Long Video Description through Global Audio-Visual Character Identification	link	现有的大型视觉语言模型 (LVLM) 主要局限于处理短至几秒的视频，难以生成连贯的描述来概括长达几分钟或更长时间的视频。长视频描述引入了新的挑战，例如描述中跨情节级别的一致性。为了解决这些问题，我们确定了视听角色识别（将角色名称与每个对话匹配）是一个关键因素。我们提出了 StoryTeller，一个用于生成长视频密集描述的系统，它结合了低级视觉概念和高级情节信息。StoryTeller 使用集成了视觉、音频和文本模态的多模态大型语言模型，对长达几分钟的视频片段执行视听角色识别。然后将结果输入到 LVLM 中以增强视频描述的一致性。我们在电影描述任务上验证了我们的方法，并引入了 MovieStory101，一个包含三分钟电影片段密集描述的数据集。为了评估长视频描述，我们创建了 MovieQA，一个针对 MovieStory101 测试集的大型多项选择题集。我们通过将描述输入 GPT-4 来回答这些问题，并使用准确率作为自动评估指标来评估描述质量。实验表明，StoryTeller 在 MovieQA 上的性能优于所有开源和闭源基线模型，准确率比最强基线 Gemini-1.5-pro 高 9.5%，并且在人工并排评估中展现出 +15.56% 的优势。此外，结合 StoryTeller 的视听角色识别功能，所有视频描述模型的性能均有所提高，Gemini-1.5-pro 和 GPT-4o 在 MovieQA 上的准确率分别提高了 5.5% 和 13.0%。
2024-11-11	UMFC: Unsupervised Multi-Domain Feature Calibration for Vision-Language Models	null	预训练的视觉语言模型（例如CLIP）已经展现出强大的零样本迁移能力。但是它们仍然难以应对领域迁移，并且通常需要标记数据来适应下游任务，这可能成本高昂。在这项工作中，我们旨在利用自然跨越多个领域的未标记数据来增强视觉语言模型的可迁移性。在这个无监督多领域设置下，我们发现了CLIP中固有的模型偏差，尤其是在其视觉和文本编码器中。具体来说，我们观察到CLIP的视觉编码器倾向于优先编码领域信息而不是区分性类别信息，同时其文本编码器表现出对领域相关类别的偏好。为了减轻这种模型偏差，我们提出了一种免训练且免标签的特征校准方法，即无监督多领域特征校准（UMFC）。UMFC从特定领域的特征估计图像级偏差，并从领域转换的方向估计文本级偏差。随后，这些偏差分别从原始图像和文本特征中减去，以使它们与领域无关。我们在多种设置（包括直推式学习和测试时适应）下评估了我们的方法。大量实验表明，我们的方法优于CLIP，并且性能与需要额外标注或优化的最先进方法相当。我们的代码可在https://github.com/GIT-LJc/UMFC获取。
2024-11-11	Renaissance: Investigating the Pretraining of Vision-Language Encoders	link	在过去几年中，用于视觉语言任务的可用模型数量激增。然而，现有文献仍然存在许多与设计和训练此类模型的最佳实践相关的问题。在本文中，我们试图通过元分析来回答几个与视觉语言编码器预训练相关的问题。在我们的第一组实验中，我们表明，通过在预训练期间冻结视觉语言模型的大部分，我们可以在不损失下游性能的情况下节省大量的计算资源。在我们的第二组实验中，我们研究了基于视觉模型与基于文本模型的视觉语言转换器的效果。此外，我们介绍了一个名为Renaissance的视觉语言建模平台，我们使用该平台进行所有实验。该程序为创建、训练和评估用于视觉语言建模的Transformer编码器提供了极大的灵活性。Renaissance的源代码可以在https://github.com/bsu-slim/renaissance找到。
2024-11-09	M-Longdoc: A Benchmark For Multimodal Super-Long Document Understanding And A Retrieval-Aware Tuning Framework	null	能够理解文档并回答相关问题的能力在许多商业和实际应用中都非常有用。然而，文档通常包含冗长且多样化的多模态内容，例如文本、图表和表格，这对于人类来说非常耗时。因此，迫切需要开发有效且自动的方法来帮助人类完成这项任务。在这项工作中，我们引入了M-LongDoc，一个包含851个样本的基准测试，以及一个用于评估大型多模态模型性能的自动化框架。我们进一步提出了一种检索感知的调整方法，以实现高效且有效的多模态文档阅读。与现有工作相比，我们的基准测试包含更新且更长的文档（数百页），同时也需要开放式答案，而不仅仅是提取式答案。据我们所知，我们的训练框架是第一个直接解决多模态长文档检索问题的框架。为了能够调整开源模型，我们以全自动的方式构建了一个用于此类文档问答任务的训练语料库。实验表明，与基线开源模型相比，我们的调整方法使模型响应的正确性提高了4.6%。我们的数据、代码和模型可在https://multimodal-documents.github.io获取。
2024-11-09	Aquila: A Hierarchically Aligned Visual-Language Model for Enhanced Remote Sensing Image Comprehension	null	近年来，大型视觉语言模型（VLM）通过视觉指令微调在视觉语言能力方面取得了显著进展，在遥感图像解译领域展现出巨大的潜力。然而，现有的遥感视觉语言模型（RSVLM）通常难以捕捉遥感场景的复杂特征，因为它们通常依赖于低分辨率、单尺度的视觉特征以及将视觉特征映射到语言特征的简单方法。在本文中，我们提出了Aquila，一个先进的视觉语言基础模型，旨在实现更丰富的遥感图像视觉特征表示和更精确的视觉语言特征对齐。我们的方法引入了一个可学习的分层空间特征融合（SFI）模块，该模块支持高分辨率图像输入并聚合多尺度视觉特征，从而可以详细表示复杂的视觉信息。此外，SFI模块被反复集成到大型语言模型（LLM）的层中，以实现深度视觉语言特征对齐，而不会影响模型在自然语言处理任务中的性能。这些创新，通过更高分辨率和多尺度输入捕捉详细的视觉效果，并增强特征对齐，显著提高了模型从图像文本数据中学习的能力。我们通过广泛的定量实验和定性分析验证了Aquila的有效性，证明了其优越的性能。
2024-11-09	GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection	link	零样本异常检测 (ZSAD) 对于在没有训练样本的情况下检测目标数据集中的异常模式至关重要，尤其是在目标域和训练数据之间存在分布差异或由于访问限制导致数据稀缺的情况下。尽管最近预训练的视觉语言模型在各种视觉任务中展现出强大的零样本性能，但它们侧重于学习类别语义，这使得它们直接应用于 ZSAD 具有挑战性。为了解决这种情况，我们提出了 GlocalCLIP，它独特地分离全局和局部提示并对其进行联合优化。这种方法使得与对象无关的全局语义提示设计能够有效地捕获一般的正常和异常模式，而无需依赖图像中的特定对象。我们通过在文本编码器中利用深度文本提示调整来改进文本提示，以进行更精确的调整。在视觉编码器中，我们应用 V-V 注意力层来捕获详细的局部图像特征。最后，我们引入了全局对比学习来改进全局和局部提示的互补学习，从而有效地检测跨各个领域的异常模式。GlocalCLIP 在 ZSAD 中的泛化性能在来自工业和医疗领域的 15 个真实世界数据集上得到了证明，实现了优于现有方法的性能。
2024-11-09	An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models	link	大型多模态模型 (LMMs) 在各种视觉和语言任务中都取得了强大的性能。然而，它们的空间推理能力却缺乏研究。在本文中，我们构建了一个新颖的视觉问答数据集 Spatial-MM，以全面研究 LMMs 的空间理解和推理能力。我们对对象关系和多跳推理的分析揭示了几个重要发现。首先，边界框和场景图，即使是合成的，也可以显著增强 LMMs 的空间推理能力。其次，LMMs 在处理从人类视角提出的问题时，比从相机视角提出的问题更困难。第三，思维链 (CoT) 提示并不能提高模型在涉及空间关系的复杂多跳问题上的性能。最后，我们对 GQA-spatial 的扰动分析表明，LMMs 在基本物体检测方面比复杂空间推理方面更强。我们相信我们的基准数据集和深入分析可以激发对 LMMs 空间推理的进一步研究。Spatial-MM 基准数据集可在以下网址获取：https://github.com/FatemehShiri/Spatial-MM
2024-11-08	End-to-End Navigation with Vision Language Models: Transforming Spatial Reasoning into Question-Answering	link	我们提出了VLMnav，这是一个将视觉语言模型（VLM）转换为端到端导航策略的具体化框架。与先前的工作不同，我们不依赖于感知、规划和控制之间的分离；相反，我们使用VLM一步直接选择动作。令人惊讶的是，我们发现VLM可以零样本地用作端到端策略，即无需任何微调或接触导航数据。这使得我们的方法具有开放性，并且可以泛化到任何下游导航任务。我们进行了广泛的研究，以评估我们的方法与基线提示方法相比的性能。此外，我们还进行了设计分析，以了解最具影响力的设计决策。我们项目的视觉示例和代码可以在https://jirl-upenn.github.io/VLMnav/找到。
2024-11-08	Towards Low-Resource Harmful Meme Detection with LMM Agents	link	在社交媒体时代，网络迷因的泛滥使得有效识别有害迷因成为必要。由于迷因的动态特性，现有的数据驱动模型在只有少量标记样本的低资源场景下可能会遇到困难。本文提出了一个基于代理的低资源有害迷因检测框架，利用少量标注样本进行外向和内向分析。受大型多模态模型 (LMM) 在多模态推理方面强大能力的启发，我们首先检索带有标注的相关迷因，以利用标签信息作为LMM代理的辅助信号。然后，我们引出LMM代理内部的知识修正行为，以获得对迷因有害性的良好泛化洞察。通过结合这些策略，我们的方法能够对复杂和隐含的危害指示模式进行辩证推理。在三个迷因数据集上进行的大量实验表明，我们提出的方法在低资源有害迷因检测任务上取得了优于现有最先进方法的性能。
2024-11-08	Enhancing Visual Classification using Comparative Descriptors	link	视觉语言模型（VLM），例如CLIP，在视觉分类任务中的性能已经通过利用来自大型语言模型（LLM）（包括GPT）的语义知识得到增强。最近的研究表明，在零样本分类任务中，包含附加线索、高级概念甚至随机字符的描述符通常优于仅使用类别名称的描述符。在许多分类任务中，虽然top-1准确率可能相对较低，但top-5准确率通常要高得多。这种差距意味着大多数错误分类发生在几个相似的类别之间，突出了模型难以区分具有细微差异的类别。为了应对这一挑战，我们引入了比较描述符的新概念。这些描述符强调目标类别与其最相似类别之间的独特特征，从而增强区分度。通过生成并将这些比较描述符整合到分类框架中，我们改进了语义焦点并提高了分类精度。额外的过滤过程确保这些描述符更接近CLIP空间中的图像嵌入，进一步提高了性能。我们的方法通过解决细微的类间差异这一特定挑战，提高了视觉分类任务的准确性和鲁棒性。
2024-11-08	Exploring the Alignment Landscape: LLMs and Geometric Deep Models in Protein Representation	link	隐性表征对齐已成为构建多模态大型语言模型 (MLLM) 的基础技术，它将不同模态的嵌入映射到共享空间，通常与大型语言模型 (LLM) 的嵌入空间对齐，以实现有效的跨模态理解。虽然初步的蛋白质导向 MLLM 已经出现，但它们主要依赖于启发式方法，缺乏对跨表征的最佳对齐实践的基本理解。在本研究中，我们探索了蛋白质领域中 LLM 和几何深度模型 (GDM) 之间多模态表征的对齐。我们全面评估了三个最先进的 LLM（Gemma2-2B、LLaMa3.1-8B 和 LLaMa3.1-70B）与四个蛋白质特化 GDM（GearNet、GVP、ScanNet、GAT）。我们的工作从模型和蛋白质角度检验对齐因素，确定当前对齐方法中的挑战，并提出改进对齐过程的策略。我们的主要发现表明，结合图和 3D 结构信息的 GDM 可以更好地与 LLM 对齐，更大的 LLM 表现出改进的对齐能力，蛋白质的稀有性会显着影响对齐性能。我们还发现，增加 GDM 嵌入维度、使用双层投影头以及在蛋白质特定数据上微调 LLM 可以显着提高对齐质量。这些策略为增强蛋白质相关多模态模型的性能提供了潜力。我们的代码和数据可在 https://github.com/Tizzzzy/LLM-GDM-alignment 获取。
2024-11-08	Real-World Offline Reinforcement Learning from Vision Language Model Feedback	null	离线强化学习可以在没有在线交互的情况下，利用预先收集的次优数据集进行策略学习。这使得它非常适合于现实世界的机器人和安全关键场景，在这些场景中，收集在线数据或专家演示缓慢、昂贵且有风险。然而，大多数现有的离线强化学习工作假设数据集已经被标注了任务奖励，这个过程通常需要大量的人工工作，尤其是在难以确定真实状态的情况下（例如，在现实世界中）。在本文中，我们基于先前的工作，特别是RL-VLM-F，提出了一个新颖的系统，该系统使用来自视觉语言模型的偏好反馈和任务的文本描述，自动为离线数据集生成奖励标签。然后，我们的方法使用带有奖励标签的数据集进行离线强化学习来学习策略。我们展示了该系统在复杂的现实世界机器人辅助穿衣任务中的适用性，我们首先使用视觉语言模型在次优离线数据集上学习奖励函数，然后使用学习到的奖励函数，采用隐式Q学习来开发有效的穿衣策略。我们的方法在涉及操纵刚性和可变形物体的仿真任务中也表现良好，并且显著优于行为克隆和逆强化学习等基线方法。总之，我们提出了一个新的系统，能够从未标记的、次优的离线数据集中自动进行奖励标记和策略学习。
2024-11-07	On Erroneous Agreements of CLIP Image Embeddings	null	最近的研究表明，视觉语言模型 (VLM) 在视觉推理方面的失败通常源于错误的一致性——语义上不同的图像被 CLIP 图像编码器模糊地编码为具有高余弦相似度的嵌入向量。在本文中，我们表明错误的一致性并不总是主要原因，因为多模态大型语言模型 (MLLM) 仍然可以从中提取不同的信息。例如，在 What'sUp 基准测试中区分左侧和右侧的物体时，左右对的 CLIP 图像嵌入向量的平均余弦相似度 >0.99，并且 CLIP 的性能与随机猜测相当；但是使用相同 CLIP 图像编码器的 LLaVA-1.5-7B 却达到了接近 100% 的准确率。我们发现 CLIP 图像嵌入向量中可提取的信息可能被 CLIP 不充分的视觉语言对齐所掩盖：其通过对比目标学习的匹配分数可能没有捕获所有不同的图像-文本对应关系。我们还研究了 MMVP 基准测试，先前的工作表明 LLaVA-1.5 无法区分具有高余弦相似度的图像对。我们观察到通过替代解码算法更多地关注视觉输入所带来的性能提升。此外，如果模型可以将两个图像都作为输入以强调它们细微的差异，则准确性会显着提高。这两项发现都表明 LLaVA-1.5 没有充分利用提取的视觉信息。总之，我们的研究结果表明，虽然改进图像编码器可能对 VLM 有利，但通过应用更好的提取和利用视觉信息的策略，仍然有提升使用固定图像编码器的模型的空间。
2024-11-07	DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation	link	在开放词汇移动操控领域，目标是让机器人根据自然语言描述在任何环境中执行任务，目前已取得重大进展。然而，大多数现有系统假设环境是静态的，这限制了系统在现实场景中的适用性，因为现实场景中环境会由于人为干预或机器人自身的行为而频繁变化。在这项工作中，我们提出了 DynaMem，一种用于开放世界移动操控的新方法，它使用动态时空语义记忆来表示机器人的环境。DynaMem 构建了一个 3D 数据结构来维护点云的动态记忆，并使用多模态大型语言模型或由最先进的视觉语言模型生成的开放词汇特征来回答开放词汇对象定位查询。在 DynaMem 的支持下，我们的机器人可以探索新环境，搜索记忆中不存在的物体，并在场景中物体移动、出现或消失时不断更新记忆。我们在三个真实场景和九个离线场景中使用 Stretch SE3 机器人进行了大量实验，对非静止物体的平均拾取和放置成功率达到了 70%，比最先进的静态系统提高了 2 倍以上。我们的代码以及实验和部署视频已开源，可在我们的项目网站上找到：https://dynamem.github.io/
2024-11-07	Exploring Hierarchical Molecular Graph Representation in Multimodal LLMs	null	随着大型语言模型 (LLM) 和多模态模型的里程碑式发展，我们看到将 LLM 应用于生化任务的热潮。利用图特征和分子文本表示，LLM 可以处理各种任务，例如预测化学反应结果和描述分子性质。然而，目前大多数工作忽略了图特征的多层次性。不同特征层次对 LLM 的影响以及每个层次的重要性仍未得到探索，而且不同的化学任务可能需要不同的特征层次。在这项工作中，我们首先通过融合 GNN 生成的特征标记来研究特征粒度的影响，发现即使将所有标记减少到单个标记也不会显着影响性能。然后，我们探索了不同特征级别对性能的影响，发现 LLM 生成分子的质量和不同任务的性能都受益于不同的特征级别。我们总结了两个关键见解：（1）当前的分子多模态 LLM (MLLM) 缺乏对图特征的全面理解，以及（2）静态处理不足以处理分层图特征。我们的代码即将公开发布。
2024-11-07	Vision Language Models are In-Context Value Learners	null	从视觉轨迹预测时间进度对于能够学习、适应和改进的智能机器人至关重要。然而，学习这种跨不同任务和领域的进度估计器或时间值函数，需要大量多样化的数据和可扩展且可泛化的学习方法。为了应对这些挑战，我们提出了生成式值学习（GVL），一种通用的值函数估计器，它利用视觉语言模型（VLM）中嵌入的世界知识来预测任务进度。简单地让VLM预测视频序列的值表现不佳，因为连续帧之间存在强烈的时序相关性。相反，GVL将值估计视为对打乱的视频帧进行时序排序的问题；这项看似更具挑战性的任务鼓励VLM更充分地利用其潜在的语义和时序基础能力来区分帧，基于其感知的任务进度，从而产生明显更好的值预测。无需任何机器人或特定任务的训练，GVL可以在上下文零样本和少样本情况下，对跨不同机器人平台的300多个不同的真实世界任务（包括具有挑战性的双手操作任务）预测有效值。此外，我们证明了GVL允许通过来自异构任务和实施例（例如人类视频）的示例进行灵活的多模态上下文学习。GVL的通用性使其能够应用于各种与视觉运动策略学习相关的下游应用，包括数据集过滤、成功检测和优势加权回归——所有这些都无需任何模型训练或微调。
2024-11-06	Medical Adaptation of Large Language and Vision-Language Models: Are We Making Progress?	link	最近的一些工作致力于开发专门用于医疗应用的基础模型，通过在公开可用的生物医学语料库上继续进行预训练来调整通用大型语言模型 (LLM) 和视觉语言模型 (VLM)。这些工作通常声称这种领域自适应预训练 (DAPT) 可以提高下游医疗任务的性能，例如回答医学执照考试问题。在本文中，我们将七个公开的“医学”LLM 和两个 VLM 与它们相应的基准模型进行了比较，得出了不同的结论：所有医学 VLM 和几乎所有医学 LLM 在医学问答 (QA) 任务的零样本/少样本提示机制下，均未能始终如一地改进其基准模型。例如，在我们考虑的 3 样本设置中的任务和模型对中，医学 LLM 仅在 12.1% 的情况下优于其基准模型，在 49.8% 的情况下达到（统计）持平，并且在其余 38.2% 的情况下明显差于其基准模型。我们的结论基于 (i) 将每个医学模型与其相应的基准模型直接进行头对头比较；(ii) 分别为每个模型优化提示；以及 (iii) 考虑比较中的统计不确定性。虽然这些基本实践并未在文献中始终如一地采用，但我们的消融研究表明，它们会对结论产生重大影响。我们的研究结果表明，最先进的通用领域模型可能已经展现出强大的医学知识和推理能力，并为加强未来研究的结论提供了建议。
2024-11-06	RaVL: Discovering and Mitigating Spurious Correlations in Fine-Tuned Vision-Language Models	link	微调后的视觉语言模型 (VLM) 通常会捕获图像特征和文本属性之间的虚假关联，导致零样本测试性能下降。现有的解决虚假关联的方法 (i) 主要在全局图像级别操作，而不是直接干预细粒度的图像特征，并且 (ii) 主要为单模态设置而设计。在这项工作中，我们提出了 RaVL，它通过使用局部图像特征而不是在全局图像级别操作来发现和减轻虚假关联，从而从细粒度的角度来看待 VLM 的鲁棒性。给定一个微调的 VLM，RaVL 首先利用区域级聚类方法来识别导致零样本分类错误的精确图像特征，从而发现虚假关联。然后，RaVL 通过一种新颖的区域感知损失函数来减轻已识别的虚假关联，该函数使 VLM 能够专注于相关区域并在微调期间忽略虚假关系。我们在 654 个具有各种模型架构、数据域和学习到的虚假关联的 VLM 上评估了 RaVL。我们的结果表明，RaVL 能够准确地发现（比最接近的基线提高 191%）和减轻（最差组图像分类准确率提高 8.2%）虚假关联。对通用领域和医学领域 VLM 的定性评估证实了我们的发现。
2024-11-06	DesignMinds: Enhancing Video-Based Design Ideation with Vision-Language Model and Context-Injected Large Language Model	null	构思是基于视频的设计 (VBD) 的关键组成部分，其中视频是设计探索和灵感的首要媒介。生成式人工智能的出现为增强这一过程提供了巨大的潜力，它可以简化视频分析并促进创意生成。在本文中，我们提出了 DesignMinds，这是一个将最先进的视觉语言模型 (VLM) 与上下文增强的语言大模型 (LLM) 相结合的原型，以支持 VBD 中的构思。为了评估 DesignMinds，我们对 35 位设计从业者进行了一项受试者间研究，将其性能与基线条件进行了比较。我们的结果表明，DesignMinds 显着增强了构思的灵活性和原创性，同时也提高了任务参与度。重要的是，这项技术的引入并没有对用户体验、技术接受度或可用性产生负面影响。
2024-11-06	Fine-Tuning Vision-Language Model for Automated Engineering Drawing Information Extraction	null	几何尺寸和公差 (GD&T) 通过定义零件特征的可接受偏差来确保组件质量和功能，在制造业中起着至关重要的作用。然而，从 2D 工程图中提取 GD&T 信息是一项耗时且劳动密集型的任务，通常依赖于手动工作或半自动化工具。为了应对这些挑战，本研究提出了一种通过微调 Florence-2（一种开源视觉语言模型 (VLM)）来自动化且高效地提取 GD&T 信息的方法。该模型在包含 400 张工程图的数据集上进行训练，其中真实标注由领域专家提供。为了进行比较，两个最先进的闭源 VLM，GPT-4o 和 Claude-3.5-Sonnet，也在同一数据集上进行了评估。所有模型均使用精确率、召回率、F1 值和幻觉指标进行评估。由于针对特定领域任务微调大型闭源 VLM 的计算成本和不切实际性，GPT-4o 和 Claude-3.5-Sonnet 在零样本设置下进行了评估。相比之下，Florence-2 拥有 2.3 亿个参数，是一个较小的模型，它通过在三个不同的实验中进行全参数微调来进行优化，每个实验都使用了不同程度增强的数据集。结果表明，与性能最佳的闭源模型相比，Florence-2 的精确率提高了 29.95%，召回率提高了 37.75%，F1 值提高了 52.40%，幻觉率降低了 43.15%。这些发现突出了微调较小的开源 VLM（如 Florence-2）的有效性，为自动化 GD&T 提取提供了一种实用且高效的解决方案，以支持下游制造任务。
2024-11-05	Benchmarking Vision Language Model Unlearning via Fictitious Facial Identity Dataset	link	机器遗忘学习已成为一种在训练数据中遗忘特定信息的有效策略。然而，随着视觉数据集成度的提高，视觉语言模型 (VLM) 中的隐私问题仍未得到充分探索。为了解决这个问题，我们引入了面部身份遗忘基准 (FIUBench)，这是一个新颖的 VLM 遗忘学习基准，旨在稳健地评估“被遗忘权”设置下遗忘算法的有效性。具体来说，我们通过构建虚拟面部身份VQA数据集来制定VLM遗忘学习任务，并应用一个两阶段评估流程，旨在精确控制信息来源及其暴露程度。在评估方面，由于VLM支持使用具有相同语义的各种提问方式，我们还提供强大的评估指标，包括成员推理攻击和精心设计的对抗性隐私攻击，以评估算法的性能。通过在FIUBench内评估四个基线VLM遗忘学习算法，我们发现所有方法的遗忘学习性能仍然有限，在模型效用和遗忘质量之间存在显著的权衡。此外，我们的研究结果还强调了隐私攻击对于稳健评估的重要性。我们希望FIUBench能够推动开发更有效的VLM遗忘学习算法。
2024-11-05	VLA-3D: A Dataset for 3D Semantic Scene Understanding and Navigation	link	随着大型语言模型 (LLM)、视觉语言模型 (VLM) 和其他通用基础模型的兴起，能够仅通过自然语言输入就在不同环境中运行的多模态、多任务具身代理的潜力越来越大。室内导航便是这种应用领域之一，它使用自然语言指令进行导航。然而，尽管最近取得了进展，但由于所需的空间推理和语义理解，这个问题仍然具有挑战性，尤其是在可能包含许多属于细粒度类别的物体的任意场景中。为了应对这一挑战，我们构建了用于三维场景视觉和语言引导动作的最大真实世界数据集 (VLA-3D)，其中包含来自现有数据集的超过 11.5K 个扫描三维室内房间、23.5M 个启发式生成的物体间语义关系和 9.7M 个综合生成的指称语句。我们的数据集包含处理过的三维点云、语义对象和房间注释、场景图、可导航自由空间注释以及专门关注用于消除对象歧义的视图无关空间关系的指称语言语句。这些特征旨在辅助下游导航任务，尤其是在真实世界系统中，在不断变化的场景和不完美语言的开放世界中必须保证一定程度的鲁棒性。我们使用当前最先进的模型对我们的数据集进行基准测试，以获得性能基线。生成和可视化数据集的所有代码都已公开发布，请参阅 https://github.com/HaochenZ11/VLA-3D。我们希望通过发布此数据集，为在对变化具有鲁棒性的语义三维场景理解方面取得进展提供资源，并有助于开发交互式室内导航系统。
2024-11-05	MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning	null	近年来，通用领域的多模态基准指导了通用任务多模态模型的快速发展。然而，金融领域具有其特殊性。它以独特的图形图像（例如， candlestick 图表、技术指标图表）为特征，并拥有丰富的专业金融知识（例如，期货、换手率）。因此，来自通用领域的基准通常无法衡量金融领域多模态模型的性能，从而无法有效指导大型金融模型的快速发展。为了促进大型金融多模态模型的发展，我们提出了 MME-Finance，一个面向实际应用的双语开放式视觉问答 (VQA) 基准。我们的基准的特点是金融性和专业性，其中包括构建反映用户实际使用需求的图表（例如，计算机屏幕截图和手机摄影）、根据金融领域查询的偏好创建问题，以及由具有 10 年以上金融行业经验的专家注释问题。此外，我们开发了一个定制的金融评估系统，在多模态评估过程中首先引入视觉信息。我们对 19 个主流多模态大语言模型 (MLLM) 进行了广泛的实验评估，以测试它们的感知、推理和认知能力。结果表明，在通用基准上表现良好的模型在 MME-Finance 上表现不佳；例如，表现最佳的开源和闭源模型分别获得 65.69 (Qwen2VL-72B) 和 63.18 (GPT-4o)。它们在与金融最相关的类别（例如 candlestick 图表和技术指标图表）中表现尤其差。此外，我们还提出了一个中文版本，有助于比较 MLLM 在中文语境下的性能。
2024-11-05	Inference Optimal VLMs Need Only One Visual Token but Larger Models	link	视觉语言模型 (VLM) 在各种视觉理解和推理任务中展现出强大的能力。然而，由于大型语言模型 (LLM) 处理大量输入标记（主要来自图像）所需的计算量巨大，导致推理过程中延迟较高，这常常限制了它们在现实世界的部署。为了降低推理成本，可以缩小 LLM 的规模或减少输入图像标记的数量，后者是最近许多关于标记压缩工作的重点。然而，由于这两个因素都直接影响 VLM 的性能，因此最佳的权衡策略尚不清楚。我们首先通过建立捕捉这两个因素的性能变化的缩放法则来描述视觉标记数量和 LLM 参数之间的最佳权衡。我们的结果揭示了一个令人惊讶的趋势：对于视觉推理任务，VLM 中推理最优的行为，即在任何给定的固定推理计算量下，下游误差最小，是在使用推理预算内最大的 LLM 的同时最小化视觉标记数量（通常减少到单个标记）时实现的。虽然标记减少的文献主要关注于通过适度减少标记数量（例如 5-10 倍）来保持基础模型的性能，但我们的结果表明，计算最优的推理机制需要在更高的标记压缩比下运行。基于这些见解，我们初步尝试构建针对高标记压缩设置的方法。代码可在 https://github.com/locuslab/llava-token-compression 获取。
2024-11-05	HumanVLM: Foundation for Human-Scene Vision-Language Model	null	人景视觉语言任务在各种社会应用中日益普及，但最近的进展主要依赖于专门为单个任务定制的模型。新兴研究表明，大型视觉语言模型 (VLM) 可以增强各种下游视觉语言理解任务的性能。然而，通用领域模型在特定领域通常表现不佳。本研究介绍了一个特定领域的大型视觉语言模型，即人景视觉语言模型 (HumanVLM)，旨在为人景视觉语言任务提供基础。具体而言，(1) 我们创建了一个大规模的人景多模态图文数据集 (HumanCaption-10M)，数据源自互联网，以促进特定领域的对齐；(2) 开发了一种以人为中心的图像的描述方法，捕捉人脸、身体和背景，并构建了一个高质量的人景图文数据集 (HumanCaptionHQ，约 31.1 万对)，其中包含尽可能详细的人物信息；(3) 使用 HumanCaption-10M 和 HumanCaptionHQ，我们训练了一个 HumanVLM。在实验中，我们随后在各种下游任务中评估了我们的 HumanVLM，它在同等规模的多模态模型中展现出优越的整体性能，尤其在与人类相关的任务中表现出色，并显著优于类似模型，包括 Qwen2VL 和 ChatGPT-4o。HumanVLM 以及引入的数据将促进人类相关领域的研究。
2024-11-05	Toward Robust Incomplete Multimodal Sentiment Analysis via Hierarchical Representation Learning	null	多模态情感分析（MSA）是一项重要的研究领域，旨在通过多种模态理解和识别人类情感。多模态融合提供的补充信息促进了情感分析，使其比仅利用单一模态更有效。然而，在实际应用中，许多不可避免的因素可能导致模态不确定缺失的情况，从而阻碍多模态建模的有效性并降低模型的性能。为此，我们针对模态不确定缺失情况下的MSA任务提出了一种分层表示学习框架（HRLF）。具体来说，我们提出了一个细粒度的表示分解模块，通过跨模态翻译和情感语义重建将模态分解为情感相关和模态特定的表示，从而充分提取有价值的情感信息。此外，我们引入了一种分层互信息最大化机制，以增量方式最大化多尺度表示之间的互信息，从而对齐和重建表示中的高层语义。最后，我们提出了一种分层对抗学习机制，进一步对齐和调整情感相关表示的潜在分布，以生成鲁棒的联合多模态表示。在三个数据集上的综合实验表明，HRLF在模态不确定缺失的情况下显著提高了MSA性能。
2024-11-05	DDFAV: Remote Sensing Large Vision Language Models Dataset and Evaluation Benchmark	link	随着大型视觉语言模型（LVLMs）的快速发展，这些模型在各种多模态任务中展现出优异的成果。由于LVLMs容易出现幻觉，且目前针对遥感的专用数据集和评估方法较少，因此它们在应用于遥感任务时的性能通常较差。为了解决这些问题，本文介绍了一个高质量的遥感LVLMs数据集DDFAV，该数据集是使用数据增强和数据混合策略创建的。接下来，基于从所提出的数据集中选择的一些高质量遥感图像生成了一套训练指令集。最后，我们基于所提出的数据集开发了一种遥感LVLMs幻觉评估方法RSPOPE，并评估了不同LVLMs的零样本能力。我们提出的数据集、指令集和评估方法文件可在https://github.com/HaodongLi2024/rspope获取。
2024-11-04	INQUIRE: A Natural World Text-to-Image Retrieval Benchmark	link	我们推出了INQUIRE，这是一个文本到图像检索基准测试，旨在挑战多模态视觉语言模型在专家级查询上的能力。INQUIRE包含iNaturalist 2024 (iNat24)，这是一个包含五百万张自然世界图像的新数据集，以及250个专家级检索查询。这些查询与iNat24中所有相关的图像进行了全面配对和标注，总共包含33,000个匹配项。查询涵盖物种识别、环境、行为和外观等类别，强调需要细致的图像理解和领域专业知识的任务。我们的基准测试评估了两个核心检索任务：(1) INQUIRE-Fullrank，一个全数据集排序任务，以及 (2) INQUIRE-Rerank，一个用于改进top-100检索结果的重排序任务。对一系列最新多模态模型的详细评估表明，INQUIRE提出了一个重大挑战，即使是最佳模型也未能达到50%以上的mAP@50。此外，我们还展示了使用更强大的多模态模型进行重排序可以提高检索性能，但仍有很大的改进空间。INQUIRE专注于具有科学动机的生态挑战，旨在弥合人工智能能力与现实世界科学探究需求之间的差距，鼓励开发能够协助加速生态和生物多样性研究的检索系统。我们的数据集和代码可在https://inquire-benchmark.github.io获取。
2024-11-04	One VLM to Keep it Learning: Generation and Balancing for Data-free Continual Visual Question Answering	null	视觉语言模型（VLMs）在利用网络规模多模态数据集的视觉问答（VQA）任务中展现出巨大的潜力。然而，这些模型在适应新任务时，由于灾难性遗忘，往往难以进行持续学习。作为缓解灾难性遗忘的有效补救措施，复习策略在学习新任务时会使用过去任务的数据。然而，这种策略需要存储过去的数据，这由于硬件限制或隐私问题可能并不可行。在这项工作中，我们提出了第一个无数据方法，它利用VLM的语言生成能力（而不是依赖外部模型）来生成伪复习数据，以解决持续VQA问题。我们的方案名为GaB，它通过对新任务数据提出先前任务的问题来生成伪复习数据。然而，尽管有效，但由于训练数据有限且特定于任务，生成问题的分布会偏向于最常提出的问题。为了缓解这个问题，我们引入了一个伪复习平衡模块，它使用问题元统计或无监督聚类方法将生成的数据与真实数据分布对齐。我们在两个最近的基准测试集上评估了我们提出的方法，即VQACL-VQAv2和CLOVE-function基准测试集。GaB 的性能优于所有无数据基线，在跨不断变化的任务中保持 VQA 性能方面有了实质性的改进，同时与可以访问过去数据的方法不相上下。
2024-11-04	TableGPT2: A Large Multimodal Model with Tabular Data Integration	link	像GPT、Claude、LLaMA和Qwen这样的模型的出现重塑了人工智能应用，为各行各业带来了巨大的新机遇。然而，尽管表格数据在众多现实领域中发挥着基础性作用，但其与这些模型的集成仍然明显不足。这种差距之所以至关重要，主要有三个原因。首先，数据库或数据仓库的数据集成对于高级应用至关重要；其次，大量且很大程度上尚未开发的表格数据资源提供了巨大的分析潜力；第三，商业智能领域尤其需要适应性强、精确的解决方案，而许多目前的LLM可能难以提供。为此，我们推出了TableGPT2，这是一个经过严格预训练和微调的模型，使用了超过593.8万个表格和236万个高质量的查询-表格-输出元组，其表格相关数据的规模在以往的研究中是前所未有的。这种广泛的训练使TableGPT2能够在以表格为中心的任务中表现出色，同时保持强大的通用语言和编码能力。TableGPT2的关键创新之一是其新颖的表格编码器，专门设计用于捕获模式级和单元格级信息。这种编码器增强了模型处理现实应用中常见的歧义查询、缺失列名和不规则表格的能力。与视觉语言模型类似，这种开创性的方法与解码器集成，形成了一个强大的大型多模态模型。我们相信结果令人信服：在23个基准测试指标中，TableGPT2在7B模型和72B模型上分别比之前的基准中性LLM平均性能提高了35.20%和49.32%，同时保持了强大的通用能力。
2024-11-04	Foundations and Recent Trends in Multimodal Mobile Agents: A Survey	link	移动代理是复杂和动态移动环境中自动化任务的关键。随着基础模型的发展，对能够实时适应和处理多模态数据的代理的需求也在增长。本综述全面回顾了移动代理技术，重点关注增强实时适应性和多模态交互的最新进展。最近开发的评估基准可以更好地捕捉移动任务的静态和交互环境，从而更准确地评估代理的性能。我们将这些进展分为两种主要方法：基于提示的方法，它利用大型语言模型（LLM）进行基于指令的任务执行；以及基于训练的方法，它对多模态模型进行微调以适应移动特定应用。此外，我们还探讨了增强代理性能的补充技术。通过讨论关键挑战并概述未来的研究方向，本综述为推进移动代理技术提供了宝贵的见解。综合资源列表可在 https://github.com/aialt/awesome-mobile-agents 获取。
2024-11-03	EEE-Bench: A Comprehensive Multimodal Electrical And Electronics Engineering Benchmark	null	近期对大型语言模型 (LLM) 和大型多模态模型 (LMM) 的研究表明，它们在科学和数学等各个领域都展现出 promising 的技能。然而，它们在更具挑战性和现实世界相关场景（如工程）中的能力尚未得到系统研究。为了弥合这一差距，我们提出了 EEE-Bench，这是一个多模态基准测试，旨在评估 LMM 解决实际工程任务的能力，使用电气与电子工程 (EEE) 作为测试平台。我们的基准测试包含 2860 个精心策划的问题，涵盖 10 个重要子领域，例如模拟电路、控制系统等。与其他领域的基准测试相比，工程问题的本质是 1) 视觉上更复杂和多样化，2) 解决方案更不确定。成功解决这些问题通常需要比以往更严格地整合视觉和文本信息，因为模型需要理解复杂的图像（如抽象电路和系统图），同时还要考虑专业指令，这使得它们成为 LMM 评估的绝佳候选者。除了 EEE-Bench，我们还提供了对 17 种广泛使用的开源和闭源 LLM 和 LMM 的广泛定量评估和细粒度分析。我们的结果表明，当前基础模型在 EEE 方面存在显著缺陷，平均性能范围为 19.48% 至 46.78%。最后，我们揭示并探讨了 LMM 的一个关键缺点，我们称之为“懒惰”：在对技术图像问题进行推理时，倾向于走捷径，依赖文本而忽略视觉上下文。总之，我们相信 EEE-Bench 不仅揭示了 LMM 的一些值得注意的局限性，而且为推进其在实际工程任务中应用的研究提供了宝贵的资源，推动其处理复杂现实场景的能力的未来改进。
2024-10-31	$π_0$ : A Vision-Language-Action Flow Model for General Robot Control	null	机器人学习拥有巨大潜力，可以释放灵活、通用和灵巧机器人系统的全部潜能，并解决人工智能领域一些最深层次的问题。然而，要将机器人学习提升到有效现实世界系统所需的通用性水平，在数据、泛化性和鲁棒性方面面临着重大障碍。在本文中，我们讨论了通才机器人策略（即机器人基础模型）如何应对这些挑战，以及我们如何为复杂且高度灵巧的任务设计有效的通才机器人策略。我们提出了一种构建于预训练视觉语言模型 (VLM) 之上的新型流匹配架构，以继承互联网规模的语义知识。然后，我们讨论了如何使用来自多个灵巧机器人平台（包括单臂机器人、双臂机器人和移动机械手）的大型多样化数据集来训练该模型。我们评估了模型在预训练后零样本执行任务的能力、遵循来自人类和高级 VLM 策略的语言指令的能力，以及通过微调获取新技能的能力。我们的结果涵盖了各种各样的任务，例如叠衣服、清洁桌子和组装盒子。
2024-10-31	Exploring Vision Language Models for Facial Attribute Recognition: Emotion, Race, Gender, and Age	null	人脸属性识别技术，例如种族、性别、年龄和情绪识别，在监控、广告内容、情感分析以及人口趋势和社会行为研究等领域拥有广泛的应用。基于图像分析人口统计特征和面部表情分析由于人脸属性的复杂性而面临诸多挑战。传统方法采用卷积神经网络（CNN）和其他各种深度学习技术，并在大量标记图像上进行训练。虽然这些方法展现出有效性能，但仍有进一步提升的空间。在本文中，我们提议利用视觉语言模型（VLM），例如生成式预训练Transformer（GPT）、GEMINI、大型语言和视觉助手（LLAVA）、PaliGemma和Microsoft Florence2，从人脸图像中识别种族、性别、年龄和情绪等面部属性。我们使用了各种数据集，如FairFace、AffectNet和UTKFace来评估这些方案。结果表明，VLM与传统技术相比，即使不优越，也具有竞争力。此外，我们提出了“FaceScanPaliGemma”——一个微调的PaliGemma模型——用于种族、性别、年龄和情绪识别。结果显示，在种族、性别、年龄组和情绪分类方面，其准确率分别为81.1%、95.8%、80%和59.4%，优于预训练版本的PaliGemma、其他VLM和SotA方法。最后，我们提出了“FaceScanGPT”，这是一个GPT-4o模型，用于在图像中存在多个人时，使用针对具有特定面部和/或身体属性的人设计的提示来识别上述属性。结果强调了FaceScanGPT卓越的多任务处理能力，仅使用提示即可驱动检测和识别任务，检测个体的属性，如发型、服装颜色、姿势等。
2024-10-31	Nearest Neighbor Normalization Improves Multimodal Retrieval	link	多模态模型利用大规模预训练在图像描述、视觉问答和跨模态检索等任务上取得了显著但仍不完美的性能。本文提出了一种简单有效的方法，无需额外训练即可纠正已训练的对比图像-文本检索模型中的错误，称为最近邻归一化 (NNN)。我们展示了在我们测试的所有对比模型（CLIP、BLIP、ALBEF、SigLIP、BEiT）以及我们使用的两个数据集（MS-COCO 和 Flickr30k）上，文本检索和图像检索指标均有所改进。NNN 需要一个参考数据库，但不需要对该数据库进行任何训练，甚至可以在模型微调后提高其检索精度。
2024-10-31	Bayesian-guided Label Mapping for Visual Reprogramming	link	视觉重编程（VR）利用预训练视觉模型的内在能力，通过调整其输入或输出接口来解决下游任务，这些任务的标签（即下游标签）可能与预训练模型相关的标签（即预训练标签）完全不同。在调整输出接口时，标签映射方法通过在下游标签和预训练标签之间建立一个无梯度的一对一对应关系，将预训练标签转换为下游标签。然而，在本文中，我们揭示了一对一映射可能忽略了预训练标签和下游标签之间的复杂关系。基于这一观察，我们提出了一种贝叶斯引导的标签映射（BLM）方法。BLM构建了一个迭代更新的概率标签映射矩阵，其中每个元素量化了预训练标签和下游标签之间的成对关系。该矩阵值的分配由贝叶斯条件概率引导，考虑了预训练模型对下游样本预测的标签和下游标签的联合分布。在预训练视觉模型（例如ResNeXt）和视觉语言模型（例如CLIP）上进行的实验表明，BLM的性能优于现有的标签映射方法。BLM的成功也提供了一个概率视角，可以用来理解和分析VR的有效性。我们的代码可在https://github.com/tmlr-group/BayesianLM获取。
2024-10-31	EZ-HOI: VLM Adaptation via Guided Prompt Learning for Zero-Shot HOI Detection	link	在零样本设置下检测人与物体交互 (HOI) 是一个巨大的挑战，模型必须处理未见过的类别。现有方法依赖于将视觉编码器与大型视觉语言模型 (VLM) 对齐以利用 VLM 的广泛知识，这需要大型的、计算成本高的模型，并且会遇到训练困难。使用提示学习调整 VLM 提供了直接对齐的替代方案。然而，由于缺乏未见类别的标签，在特定任务数据集上进行微调通常会导致对已见类别的过拟合以及对未见类别的次优性能。为了应对这些挑战，我们引入了一种新的基于提示学习的框架，用于高效的零样本 HOI 检测 (EZ-HOI)。首先，我们引入了大型语言模型 (LLM) 和 VLM 指导的可学习提示，整合详细的 HOI 描述和视觉语义，以使 VLM 适应 HOI 任务。然而，由于训练数据集仅包含已见类别的标签，因此在此类数据集上微调 VLM 往往会针对已见类别而不是未见类别优化可学习提示。因此，我们利用来自相关已见类别信息的提示学习来处理未见类别，并利用 LLM 突出显示未见类别与相关已见类别之间的差异。在基准数据集上的定量评估表明，我们的 EZ-HOI 在各种零样本设置下均实现了最先进的性能，与现有方法相比，仅使用了 10.35% 到 33.95% 的可训练参数。代码可在 https://github.com/ChelsieLei/EZ-HOI 获取。
2024-10-31	Aggregate-and-Adapt Natural Language Prompts for Downstream Generalization of CLIP	null	像CLIP这样的大型预训练视觉语言模型已展现出良好的泛化能力，但在专业领域（例如卫星图像）或细粒度分类（例如汽车型号）中可能会遇到困难，因为这些视觉概念在预训练期间未出现或未得到充分体现。提示学习提供了一种参数高效的微调框架，即使在标注数据有限的情况下也能使CLIP适应下游任务。在本文中，我们通过从自然语言提示（人工生成或LLM生成）中提取文本知识来改进提示学习，从而为这些未得到充分体现的概念提供丰富的先验知识。我们首先通过学习的提示聚合器获得与每个输入图像对齐的提示“摘要”。然后，我们联合训练一个提示生成器，使其生成的提示嵌入尽可能接近聚合的摘要，同时最小化任务损失。我们将这种提示嵌入称为聚合和自适应提示嵌入（AAPE）。AAPE被证明能够泛化到不同的下游数据分布和任务，包括视觉语言理解任务（例如，少样本分类、VQA）和生成任务（图像描述），并在这些任务中取得了具有竞争力的性能。我们还表明，AAPE对于处理非规范和OOD样本特别有帮助。此外，AAPE学习消除了基线方法所需的基于LLM的推理成本，并且可以更好地扩展数据和LLM模型规模。
2024-10-31	SuctionPrompt: Visual-assisted Robotic Picking with a Suction Cup Using Vision-Language Models and Facile Hardware Design	null	大型语言模型和视觉语言模型 (VLM) 的发展使得机器人在各个领域的应用日益增多。然而，如何将这些模型有效地整合到现实世界的机器人任务中是一个关键挑战。我们开发了一个名为 SuctionPrompt 的多功能机器人系统，该系统利用 VLM 的提示技术结合 3D 检测来执行在多样化和动态环境中的产品拾取任务。我们的方法强调了将 3D 空间信息与自适应行动规划相结合的重要性，使机器人能够在新的环境中接近和操纵物体。在验证实验中，该系统准确选择了 75.4% 的吸取点，并在拾取常见物品方面达到了 65.0% 的成功率。这项研究突出了 VLM 在机器人操纵任务中的有效性，即使只进行简单的 3D 处理。
2024-10-30	CLIPErase: Efficient Unlearning of Visual-Textual Associations in CLIP	null	机器遗忘（MU）作为一种无需完全重新训练即可从训练模型中移除特定数据的方法，受到了广泛关注。尽管在文本和图像分类等单模态领域取得了进展，但多模态模型中的遗忘研究仍然相对不足。本研究致力于解决CLIP（一种对齐视觉和文本表示的杰出多模态模型）中遗忘带来的独特挑战。我们引入了CLIPErase，这是一种新颖的方法，可以解开并选择性地遗忘视觉和文本关联，确保遗忘不会损害模型性能。CLIPErase由三个关键模块组成：遗忘模块，用于破坏遗忘集中样本的关联；保留模块，用于保持模型在保留集上的性能；以及一致性模块，用于维护与原始模型的一致性。在CIFAR-100和Flickr30K数据集上，针对四个CLIP下游任务进行的大量实验表明，CLIPErase可以有效地遗忘零样本任务中多模态样本的指定关联，同时在遗忘后保持模型在保留集上的性能。
2024-10-30	EMMA: End-to-End Multimodal Model for Autonomous Driving	null	我们推出了EMMA，一个用于自动驾驶的端到端多模态模型。EMMA建立在多模态大型语言模型的基础上，可将原始摄像头传感器数据直接映射到各种驾驶专用输出，包括规划轨迹、感知对象和道路图元素。EMMA通过将所有非传感器输入（例如导航指令和车辆自身状态）和输出（例如轨迹和3D位置）表示为自然语言文本，最大限度地利用了预训练大型语言模型的世界知识。这种方法允许EMMA在统一的语言空间中联合处理各种驾驶任务，并使用特定于任务的提示生成每个任务的输出。根据经验，我们通过在nuScenes上实现最先进的运动规划性能以及在Waymo Open Motion Dataset (WOMD) 上取得有竞争力的结果来证明EMMA的有效性。EMMA还在Waymo Open Dataset (WOD) 上的摄像头主要3D目标检测中取得了有竞争力的结果。我们表明，使用规划轨迹、目标检测和道路图任务对EMMA进行联合训练可以在所有三个领域带来改进，突出了EMMA作为自动驾驶应用通用模型的潜力。然而，EMMA也存在某些局限性：它只能处理少量图像帧，不包含LiDAR或雷达等精确的3D传感模态，并且计算成本高昂。我们希望我们的研究结果能够激励进一步的研究来缓解这些问题，并进一步发展自动驾驶模型架构的最新技术。
2024-10-30	Keypoint Abstraction using Large Models for Object-Relative Imitation Learning	null	泛化到不同任务和环境中的新颖物体配置和实例是机器人技术中的一个关键挑战。基于关键点的表示已被证明是一种有效且简洁的表示方法，可以捕获重要的物体特征，并在动作预测中建立参考框架，从而实现数据高效的机器人技能学习。然而，它们的手动设计性质以及对额外人工标签的依赖限制了它们的可扩展性。在本文中，我们提出了KALM，一个利用大型预训练视觉语言模型 (LM) 自动生成与任务相关且跨实例一致的关键点的框架。KALM 通过使用 LM 生成关键点提议并根据少量机器人演示数据验证它们，从而提取跨视图和物体的鲁棒且一致的关键点。基于生成的关键点，我们可以训练以关键点为条件的策略模型，该模型可以在以关键点为中心的框架中预测动作，使机器人能够有效地泛化到不同的物体姿态、相机视角和具有相似功能形状的物体实例。我们的方法在现实世界中展现出强大的性能，只需少量演示即可适应不同的任务和环境，并且不需要额外的标签。网站：https://kalm-il.github.io/
2024-10-29	Natural Language Inference Improves Compositionality in Vision-Language Models	null	视觉语言模型 (VLM) 的组合推理仍然具有挑战性，因为这些模型通常难以关联对象、属性和空间关系。最近的方法旨在通过依赖文本描述的语义来解决这些限制，使用大型语言模型 (LLM) 将其分解为问题和答案的子集。然而，这些方法主要在表面层面运作，未能融入更深层次的词汇理解，同时引入了由 LLM 生成的错误假设。为了应对这些问题，我们提出了“基于矛盾和蕴涵的标题扩展 (CECE)”方法，这是一种利用自然语言推理 (NLI) 从给定前提生成蕴涵和矛盾的原则性方法。CECE 生成词汇多样化的句子，同时保持其核心含义。通过广泛的实验，我们表明 CECE 增强了可解释性并减少了对有偏差或肤浅特征的过度依赖。通过平衡 CECE 和原始前提，我们在无需额外微调的情况下实现了比先前方法的显著改进，在用于评估图像-文本对齐一致性的人类判断基准测试中取得了最先进的结果，并在 Winoground 上实现了 +19.2%（组得分）的性能提升，在 EqBen 上实现了 +12.9%（组得分）的性能提升，超过了之前的最佳工作（使用目标数据进行微调）。
2024-10-29	Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving	link	端到端自动驾驶凭借大规模数据展现出强大的规划能力，但在复杂和罕见场景下仍因缺乏常识而难以应对。相比之下，大型视觉语言模型（LVLM）擅长场景理解和推理。未来的方向在于融合两者的优势。以往使用LVLM预测轨迹或控制信号的方法效果欠佳，因为LVLM不适合进行精确的数值预测。本文提出Senna，一个结合了LVLM（Senna-VLM）和端到端模型（Senna-E2E）的自动驾驶系统。Senna将高级规划与低级轨迹预测解耦。Senna-VLM用自然语言生成规划决策，而Senna-E2E预测精确的轨迹。Senna-VLM利用多图像编码方法和多视角提示词来实现高效的场景理解。此外，我们引入了面向规划的问答以及三阶段训练策略，这增强了Senna-VLM的规划性能，同时保留了常识。在两个数据集上的大量实验表明，Senna实现了最先进的规划性能。值得注意的是，通过在大型数据集DriveX上进行预训练并在nuScenes上进行微调，Senna相比未经预训练的模型显著降低了27.12%的平均规划误差和33.33%的碰撞率。我们相信Senna的跨场景泛化能力和可迁移性对于实现完全自动驾驶至关重要。代码和模型将在https://github.com/hustvl/Senna发布。
2024-10-29	ProMQA: Question Answering Dataset for Multimodal Procedural Activity Understanding	link	多模态系统在辅助人类执行程序性活动方面具有巨大潜力，在这些活动中，人们遵循指令以实现其目标。尽管应用场景多种多样，但系统通常在传统的分类任务上进行评估，例如动作识别或时间动作分割。在本文中，我们提出了一个新的评估数据集ProMQA，用于衡量系统在面向应用场景中的进展。ProMQA包含401个多模态程序性问答对，基于用户录制的程序性活动及其相应的指令。对于问答标注，我们采用了一种经济高效的人机协作方法，其中利用LLM生成的、随后经人工验证的问答对来扩充现有标注。然后，我们提供了基准测试结果，以设定ProMQA的基线性能。我们的实验揭示了人类表现与当前系统（包括具有竞争力的专有多模态模型）之间存在显著差距。我们希望我们的数据集能够揭示模型多模态理解能力的新方面。
2024-10-29	Active Learning for Vision-Language Models	null	像CLIP这样的预训练视觉语言模型（VLM）在一系列下游计算机视觉任务中展现了令人印象深刻的零样本性能。然而，这些模型与在下游数据集上训练的有监督深度模型之间仍然存在相当大的性能差距。为了弥合这一差距，我们提出了一种新的主动学习（AL）框架，通过仅从未标记数据中选择少量信息丰富的样本进行标注来增强VLM的零样本分类性能。为了实现这一点，我们的方法首先校准VLM的预测熵，然后利用自不确定性和邻居感知不确定性的组合来计算可靠的不确定性度量，用于主动样本选择。我们的大量实验表明，所提出的方法在多个图像分类数据集上优于现有的AL方法，并显著提高了VLM的零样本性能。
2024-10-29	Are VLMs Really Blind	link	视觉语言模型擅长处理各种复杂任务，包括光学字符识别 (OCR)、视觉问答 (VQA) 和高级几何推理。然而，这些模型在人类特别容易掌握的低级基本视觉任务中表现不佳。我们这项工作的目标是确定这些模型是否真的对几何推理“视而不见”，或者是否存在增强其在这方面能力的方法。我们的工作提出了一种新颖的自动流水线，旨在根据特定问题从图像中提取关键信息。我们没有仅仅依赖直接的 VQA，而是使用从问题中提取的关键词来创建一个标题，突出显示图像中与问题相关的重要的细节。然后，语言模型使用此标题来提供对问题的精确答案，而无需外部微调。
2024-10-29	Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications	link	大型语言模型 (LLM) 在回答问题方面展现出令人印象深刻的能力，但它们缺乏特定领域的知识，并且容易出现幻觉。检索增强生成 (RAG) 是解决这些挑战的一种方法，而多模态模型正在成为处理文本和图像方面很有前途的 AI 助手。在本文中，我们描述了一系列实验，旨在确定如何将多模态模型最好地集成到工业领域的 RAG 系统中。这些实验的目的是确定在工业领域的文件中包含图像以及文本是否会提高 RAG 性能，并找到这种多模态 RAG 系统的最佳配置。我们的实验包括两种图像处理和检索方法，以及两种用于答案合成的 LLM（GPT4-Vision 和 LLaVA）。这些图像处理策略涉及使用多模态嵌入和从图像生成文本摘要。我们使用 LLM 作为评判者的方法来评估我们的实验。我们的结果表明，多模态 RAG 可以胜过单模态 RAG 设置，尽管图像检索比文本检索更具挑战性。此外，利用图像的文本摘要与使用多模态嵌入相比，提供了一种更有希望的方法，为未来的进步提供了更多机会。
2024-10-29	Text-Guided Attention is All You Need for Zero-Shot Robustness in Vision-Language Models	link	由于预训练视觉语言模型（例如CLIP）令人印象深刻的零样本能力，它们吸引了广泛关注并在各个领域得到应用。然而，CLIP已被观察到容易受到对抗样本的攻击。通过实验分析，我们观察到一个现象：对抗扰动会导致文本引导的注意力发生偏移。基于这一观察，我们提出了一个简单而有效的策略：文本引导注意力零样本鲁棒性（TGA-ZSR）。该框架包含两个组件：注意力细化模块和基于注意力的模型约束模块。我们的目标是保持CLIP模型的泛化能力并增强其对抗鲁棒性：注意力细化模块将通过对抗样本从目标模型获得的文本引导注意力与通过干净样本从原始模型获得的文本引导注意力对齐。这种对齐增强了模型的鲁棒性。此外，基于注意力的模型约束模块使用干净样本从目标模型和原始模型获取文本引导注意力。其目标是保持模型在干净样本上的性能，同时增强整体鲁棒性。实验验证，我们的方法在16个数据集上，将零样本鲁棒精度比当前最先进的技术提高了9.58%。我们的代码可在https://github.com/zhyblue424/TGA-ZSR获取。
2024-10-29	AutoBench-V: Can Large Vision-Language Models Benchmark Themselves?	link	大型视觉语言模型（LVLMs）已成为推进视觉和语言信息融合的关键，促进了各种复杂应用和任务的发展。然而，LVLMs 的评估面临着重大挑战，因为评估基准的构建总是需要大量的人力成本，并且一旦构建完成就保持静态，缺乏灵活性。尽管在文本模态中已经探索了自动评估，但视觉模态仍然缺乏研究。因此，在这项工作中，我们提出了一个问题：“LVLMs 能否成为自动基准测试的途径？”. 我们引入了 AutoBench-V，这是一个用于按需进行评估的自动化框架，即基于模型能力的特定方面对 LVLMs 进行基准测试。在接收到评估能力后，AutoBench-V 利用文本到图像模型生成相关的图像样本，然后利用 LVLMs 来编排视觉问答（VQA）任务，从而高效灵活地完成评估过程。通过对七个流行的 LVLMs 在五个用户输入（即评估能力）上的广泛评估，该框架展现了有效性和可靠性。我们观察到以下几点：（1）我们构建的基准准确地反映了不同的任务难度；（2）随着任务难度的增加，模型之间的性能差距会扩大；（3）虽然模型在抽象层面的理解上表现出很强的性能，但在细节推理任务中表现不佳；（4）构建具有不同难度级别的 datasets 对于全面彻底的评估至关重要。总的来说，AutoBench-V 不仅成功地利用 LVLMs 进行自动基准测试，还揭示了 LVLMs 作为评估者的巨大潜力。
2024-10-28	Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines	link	搜索引擎能够通过文本检索未知信息。然而，传统方法在理解不熟悉的视觉内容方面存在不足，例如识别模型从未见过的物体。对于大型视觉语言模型 (VLM) 来说，这一挑战尤为突出：如果模型没有接触过图像中描绘的物体，它就难以针对用户关于该图像的问题生成可靠的答案。此外，由于新的物体和事件不断涌现，频繁更新VLM由于沉重的计算负担而变得不切实际。为了解决这一限制，我们提出了视觉搜索助手 (Vision Search Assistant)，一个促进VLM和网络代理之间协作的新框架。该方法利用VLM的视觉理解能力和网络代理的实时信息访问能力，通过网络执行开放世界检索增强生成。通过这种协作集成视觉和文本表示，即使图像对系统来说是新颖的，模型也可以提供有根据的响应。在开放集和封闭集问答基准上进行的大量实验表明，视觉搜索助手显著优于其他模型，并且可以广泛应用于现有的VLM。
2024-10-28	Zero-Shot Action Recognition in Surveillance Videos	null	公共场所日益增长的监控需求对人力资源短缺带来了重大挑战。当前基于人工智能的视频监控系统严重依赖需要大量微调的核心计算机视觉模型，而由于数据集有限且设置困难（视角、低质量等），这在监控环境中尤其困难。在本研究中，我们提出利用以强大的零样本和小样本泛化能力而闻名的大型视觉语言模型 (LVLM) 来处理监控中的视频理解任务。具体来说，我们探索了最先进的 LVLM VideoLLaMA2 和一种改进的标记级采样方法——自反射采样 (Self-ReS)。我们在 UCF-Crime 数据集上的实验表明，VideoLLaMA2 代表了零样本性能的显著飞跃，比基线提高了 20%。Self-ReS 还将零样本动作识别性能提高到 44.6%。这些结果突出了 LVLM 与改进的采样技术相结合在推进各种场景下的监控视频分析方面的潜力。
2024-10-25	Rethinking Visual Dependency in Long-Context Reasoning for Large Vision-Language Models	null	大型视觉语言模型 (LVLM) 擅长跨模态任务，但在长上下文推理中表现不佳，因为它过度依赖文本信息而降低了对视觉的依赖。在本研究中，我们对 LVLM 在长上下文推理中的表现进行了实证分析，结果表明，随着上下文长度的增加，模型对语言的依赖程度会提高，而对视觉的依赖程度会降低。为了解决这个问题，我们提出了一种新的无需训练的上下文剪枝方法，该方法可以有选择地删除不太重要的文本信息。我们的方法增强了视觉依赖性并减少了文本噪声，从而提高了 LVLM 在长上下文推理中的性能。我们通过构建一个长上下文数据集来验证我们方法的有效性，并在各种 LVLM 上证明了其有效性。此外，进一步的分析证实了不同标记剪枝策略的鲁棒性，并初步探讨了剪枝率与上下文长度之间的比例关系。
2024-10-25	OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization	link	大型语言和多模态模型的快速发展引发了人们对使用 GPT-4o 等专有模型开发能够处理现实世界场景（如网页导航）的自主代理的浓厚兴趣。尽管最近的开源工作试图赋予代理探索环境并随着时间的推移不断改进的能力，但他们是在奖励信号明确定义的合成环境中构建纯文本代理。此类代理难以泛化到需要多模态感知能力且缺乏真实信号的现实环境中。在本文中，我们介绍了一个开源框架，旨在促进多模态 Web 代理的开发，该代理可以自主进行现实世界的探索并自我改进。我们首先通过模仿学习训练基础模型以获得基本能力。然后，我们让代理探索开放网络并收集对其轨迹的反馈。之后，它通过学习另一个通用模型判断的良好表现轨迹来进一步改进其策略。这种探索-反馈-优化循环可以持续多次迭代。实验结果表明，我们的 Web 代理在每次迭代后都成功地自我改进，在多个测试集中表现出强大的性能。
2024-10-25	GeoLLaVA: Efficient Fine-Tuned Vision-Language Models for Temporal Change Detection in Remote Sensing	link	探测地理景观中的时间变化对于环境监测和城市规划等应用至关重要。虽然遥感数据丰富，但现有的视觉语言模型 (VLM) 通常无法有效捕捉时间动态。本文通过引入一个带注释的视频帧对数据集来解决这些限制，以跟踪随时间推移而演变的地理模式。通过在 Video-LLaVA 和 LLaVA-NeXT-Video 等模型上使用低秩自适应 (LoRA)、量化 LoRA (QLoRA) 和模型剪枝等微调技术，我们显著提高了 VLM 处理遥感时间变化的性能。结果表明，性能得到显著提升，最佳性能的 BERT 得分为 0.864，ROUGE-1 得分为 0.576，在描述土地利用转变方面表现出卓越的准确性。
2024-10-25	COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training	link	FP8训练已成为提高训练效率的一种很有前景的方法。现有框架通过将FP8计算应用于线性层来加速训练，同时将优化器状态和激活保持在更高的精度，但这未能完全优化内存使用。本文介绍了COAT（压缩优化器状态和激活以进行FP8训练），这是一种新颖的FP8训练框架，旨在显着减少训练大型模型时的内存占用。COAT通过两项关键创新解决了当前的局限性：(1) 动态范围扩展，它使优化器状态分布更接近FP8表示范围，从而减少量化误差，以及(2) 混合粒度激活量化，它结合每张量和每组量化策略来优化激活内存。实验表明，与BF16相比，COAT有效地将端到端训练内存占用减少了1.54倍，同时在各种任务（如大型语言模型预训练和微调以及视觉语言模型训练）中实现了几乎无损的性能。与BF16相比，COAT还实现了1.43倍的端到端训练加速，性能与TransformerEngine的加速相当或优于后者。COAT能够在更少的GPU上对大型模型进行高效的全参数训练，并在分布式训练环境中将批大小翻倍，为扩展大规模模型训练提供了一种实用的解决方案。代码可在https://github.com/NVlabs/COAT获取。
2024-10-25	Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting	null	视觉语言模型，例如 CLIP，在使用适当的文本描述时表现出令人印象深刻的泛化能力。虽然在下游标记数据上优化提示已被证明可以有效提高性能，但这些方法需要承担注释的人工成本，并且受其质量的限制。此外，由于 CLIP 是在高度不平衡的网络规模数据上预先训练的，因此它存在固有的标签偏差，导致性能欠佳。为了应对上述挑战，我们提出了一个免标签的提示分布学习和偏差校正框架，称为 Frolic，它可以在不需要标记数据的情况下提高零样本性能。具体来说，我们的 Frolic 学习提示原型的分布以捕获不同的视觉表示，并通过置信度匹配自适应地将这些表示与原始 CLIP 融合。通过免标签的 logits 调整来校正标签偏差，进一步增强了这个融合模型。值得注意的是，我们的方法不仅无需训练，而且还避免了超参数调整的必要性。跨 16 个数据集的大量实验结果证明了我们方法的有效性，特别是使用 CLIP ViT-B/16 在 10 个数据集上的性能平均优于最先进方法 2.6%，并在 ImageNet 及其五个分布偏移上使用 CLIP ViT-B/16 实现了平均 1.5% 的优势。代码可在 https://github.com/zhuhsingyuu/Frolic 获取。
2024-10-24	Visual Text Matters: Improving Text-KVQA with Visual Text Entity Knowledge-aware Large Multimodal Assistant	link	我们重新审视了基于知识的文本视觉问答，也称为 Text-KVQA，并结合大型多模态模型 (LMM) 的最新进展，做出了以下贡献：(i) 我们提出了 VisTEL——一种执行视觉文本实体链接的原则性方法。所提出的 VisTEL 模块利用最先进的视觉文本识别引擎和大规模多模态模型的能力，使用从图像中的周围线索获得的文本和视觉上下文进行联合推理，将视觉文本实体链接到正确的知识库实体。(ii) 我们介绍了 KaLMA——一种知识感知的大型多模态助手，它使用与图像中的视觉文本实体相关的知识来增强 LMM，以获得准确的答案。此外，我们还提供了我们的方法与传统视觉问答、大型多模态模型之前的模型、大型多模态模型以及先前表现最佳的方法的全面实验分析和比较。在 Text-KVQA 的三个拆分上的平均值，我们提出的方法比之前的最佳方法在绝对规模上大幅提高了 23.3%，并建立了新的最先进水平。我们将公开我们的实现。
2024-10-24	VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks	null	视频常被用于学习或提取完成任务所需的信息，其方式不同于仅凭文本和静态图像所能提供的。然而，许多现有的智能体基准测试忽略了长上下文视频理解，而是专注于文本或静态图像输入。为了弥合这一差距，我们引入了 VideoWebArena (VideoWA)，这是一个用于评估长上下文多模态智能体视频理解能力的基准测试。VideoWA 由 2,021 个基于人工制作的视频教程的网络智能体任务组成，总计近四个小时的内容。对于我们的基准测试，我们定义了长上下文视频智能体任务的分类法，主要关注两个方面：技能保留和事实保留。技能保留任务评估智能体是否可以使用给定的人类演示有效地完成任务，而事实保留任务评估智能体是否可以从视频中检索与指令相关的信息以完成任务。我们发现，最佳模型在事实保留任务上的成功率为 13.3%，在事实保留问答对上的成功率为 45.8%，远低于人类分别为 73.9% 和 79.3% 的表现。在技能保留任务上，长上下文模型在使用教程的情况下比不使用教程的情况下表现更差，WebArena 任务的性能下降了 5%，VisualWebArena 任务的性能下降了 10.3%。我们的工作强调了提高长上下文多模态模型的智能体能力的必要性，并为未来长上下文视频智能体的开发提供了一个测试平台。
2024-10-24	CAMEL-Bench: A Comprehensive Arabic LMM Benchmark	link	近年来，开发能够执行各种视觉推理和理解任务的大型多模态模型 (LMM) 引起了人们的极大兴趣。这导致引入了多个 LMM 基准来评估 LMM 在不同任务上的表现。然而，大多数现有的 LMM 评估基准主要以英语为中心。在这项工作中，我们为阿拉伯语开发了一个全面的 LMM 评估基准，以代表超过 4 亿人口。拟议的基准测试名为 CAMEL-Bench，包括八个不同的领域和 38 个子领域，包括多图像理解、复杂视觉感知、手写文档理解、视频理解、医学成像、植物病害和基于遥感的土地利用理解，以评估广泛的场景泛化性。我们的 CAMEL-Bench 包含大约 29,036 个问题，这些问题是从更大的样本池中筛选出来的，其质量由母语人士手动验证，以确保可靠的模型评估。我们对闭源（包括 GPT-4 系列）和开源 LMM 进行了评估。我们的分析表明，需要进行重大改进，尤其是在最佳开源模型中，即使是闭源 GPT-4o 也仅获得了 62% 的总体得分。我们的基准测试和评估脚本是开源的。
2024-10-24	Deep Insights into Cognitive Decline: A Survey of Leveraging Non-Intrusive Modalities with Deep Learning Techniques	null	认知能力下降是衰老的自然组成部分，通常会导致认知能力下降。然而，在某些情况下，这种下降更为明显，通常是由于阿尔茨海默病等疾病。早期发现异常的认知能力下降至关重要，因为它可以促进及时的专业干预。虽然医学数据可以帮助进行这种检测，但它通常涉及侵入性程序。另一种方法是采用非侵入性技术，例如语音或笔迹分析，这些技术不一定会影响日常活动。本综述回顾了使用深度学习技术来自动化认知能力下降估计任务的最相关方法，包括音频、文本和视觉处理。我们讨论了每种模式和方法的关键特征和优势，包括最先进的方法，如Transformer架构和基础模型。此外，我们还介绍了整合不同模态以开发多模态模型的工作。我们还重点介绍了最重要的数据集以及使用这些资源的研究的量化结果。从这次审查中得出了一些结论。在大多数情况下，文本模态取得了最佳结果，并且与检测认知能力下降最相关。此外，将来自单个模态的各种方法组合成多模态模型始终如一地提高了几乎所有场景下的性能。
2024-10-24	Zero-shot Object Navigation with Vision-Language Models Reasoning	null	物体导航对于机器人至关重要，但传统方法需要大量的训练数据，并且无法泛化到未知环境。零样本物体导航 (ZSON) 旨在解决这一挑战，使机器人能够在没有特定训练数据的情况下与未知物体进行交互。语言驱动的零样本物体导航 (L-ZSON) 是 ZSON 的扩展，它结合了自然语言指令来指导机器人导航和与物体交互。在本文中，我们提出了一种新颖的视觉语言模型，该模型具有用于 L-ZSON 的思维树网络 (VLTNet)。VLTNet 包含四个主要模块：视觉语言模型理解、语义映射、思维树推理和探索以及目标识别。在这些模块中，思维树 (ToT) 推理和探索模块作为核心组件，创新地使用 ToT 推理框架在机器人探索过程中进行导航边界选择。与没有推理的传统边界选择相比，使用 ToT 推理的导航涉及多路径推理过程并在必要时进行回溯，从而能够进行全局信息的决策，并具有更高的准确性。在 PASTURE 和 RoboTHOR 基准测试上的实验结果表明，我们的模型在 LZSON 中表现出色，特别是在涉及复杂自然语言作为目标指令的场景中。
2024-10-24	Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data	null	视觉语言模型（VLM）最近取得了显著进展，但开源指令数据的规模和质量有限，阻碍了它们的性能，使其与闭源模型相比存在差距。在这项工作中，我们通过引入 Infinity-MM 来解决这个限制，Infinity-MM 是一个包含 4000 万个样本的大规模多模态指令数据集，通过严格的质量过滤和去重进行了增强。我们还提出了一种基于开源 VLM 的合成指令生成方法，使用详细的图像标注和多样化的问题生成。利用这些数据，我们训练了一个 20 亿参数的 VLM，Aquila-VL-2B，在类似规模的模型中实现了最先进的（SOTA）性能。这表明扩大指令数据和生成合成数据可以显著提高开源模型的性能。
2024-10-24	Beyond Color and Lines: Zero-Shot Style-Specific Image Variations with Coordinated Semantics	null	传统上，风格主要从颜色、笔触和光照等艺术元素方面来考虑。然而，相同的语义主题，例如人、船和房屋，在不同的艺术传统中可以有很大的差异，这表明风格也包含了潜在的语义。因此，在本研究中，我们提出了一种用于协调语义的图像变化的零样本方案。具体来说，我们的方案将图像到图像的问题转化为图像到文本到图像的问题。图像到文本的操作采用视觉语言模型（例如BLIP）来生成描述输入图像内容的文本，包括对象及其位置。随后，将输入的风格关键词详细描述，然后使用ChatGPT的推理能力将其与内容文本合并。最后，文本到图像的操作利用Diffusion模型根据文本提示生成图像。为了使Diffusion模型能够适应更多风格，我们提出了一种微调策略，将文本和风格约束注入到交叉注意力中。这确保了输出图像在所需的风格中展现出相似的语义。为了验证所提出方案的性能，我们构建了一个包含各种风格和场景图像的基准，并引入了两个新的指标。尽管简单，但我们的方案以零样本的方式产生了高度合理的结果，尤其是在生成具有高保真语义的风格化图像方面。
2024-10-23	R-CoT: Reverse Chain-of-Thought Problem Generation for Geometric Reasoning in Large Multimodal Models	link	现有的多模态大模型 (LMMs) 在数学几何推理方面表现不佳，原因是缺乏高质量的图文配对数据。当前的几何数据生成方法，无论是应用预设模板生成几何数据还是使用大型语言模型 (LLMs) 改写问答 (Q&A)，都不可避免地限制了数据的准确性和多样性。为了合成更高质量的数据，我们提出了一个两阶段逆向思维链 (R-CoT) 几何问题生成流程。首先，我们引入了 GeoChain 来生成高保真几何图像以及相应的描述，突出几何元素之间的关系。然后，我们设计了一种逆向问答方法，该方法基于描述逐步推理，并从推理结果反向生成问题。实验表明，所提出的方法为多个 LMM 基准模型带来了显著且一致的改进，在 2B、7B 和 8B 设置中均达到了新的性能记录。值得注意的是，R-CoT-8B 在 MathVista 和 GeoQA 上分别显著优于先前最先进的开源数学模型 16.6% 和 9.2%，同时还超过了闭源模型 GPT-4o 在这两个数据集上的平均性能 13%。代码可在 https://github.com/dle666/R-CoT 获取。
2024-10-23	Lightweight Neural App Control	null	本文介绍了一种名为“app agents”的新型手机控制架构，用于在各种安卓应用之间进行高效的交互和控制。所提出的轻量多模态应用控制 (LiMAC) 将文本目标和一系列过去的移动观察（例如屏幕截图和相应的 UI 树）作为输入，以生成精确的操作。为了解决智能手机固有的计算限制，我们在 LiMAC 中引入了一个小型动作转换器 (AcT)，并将其与微调的视觉语言模型 (VLM) 集成，以实现实时决策和任务执行。我们在两个开源移动控制数据集上评估了 LiMAC，证明了我们的小尺寸方法优于开源 VLM（例如 Florence2 和 Qwen2-VL）的微调版本。它也明显优于利用闭源基础模型（如 GPT-4o）的提示工程基线。更具体地说，与微调的 VLM 相比，LiMAC 将整体动作准确率提高了 19%，与提示工程基线相比提高了 42%。
2024-10-23	MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models	link	视觉偏好对齐涉及训练大型视觉语言模型 (LVLM) 来预测人类对视觉输入的偏好。这通常是通过使用已标记的选中/拒绝图像对数据集并采用直接偏好优化 (DPO) 等优化算法来实现的。现有的视觉对齐方法主要针对单图像场景而设计，由于缺乏多样化的训练数据以及标注选中/拒绝图像对的高成本，难以有效处理多图像任务的复杂性。我们提出了多图像增强直接偏好优化 (MIA-DPO)，这是一种可以有效处理多图像输入的视觉偏好对齐方法。MIA-DPO 通过使用以网格拼贴或画中画格式排列的无关图像来扩展单图像数据，从而缓解了多样化多图像训练数据的稀缺性，显著降低了与多图像数据标注相关的成本。我们的观察表明，LVLM 的注意力值在不同图像之间存在很大差异。我们使用注意力值来识别和过滤掉模型可能错误关注的已拒绝响应。我们基于注意力值的策略选择构建选中/拒绝图像对，无需依赖 (i) 人工标注，(ii) 额外数据，以及 (iii) 外部模型或 API。MIA-DPO 与各种架构兼容，并且在五个多图像基准测试中优于现有方法，在 LLaVA-v1.5 上平均性能提升 3.0%，在最近的 InternLM-XC2.5 上平均性能提升 4.3%。此外，MIA-DPO 对模型理解单图像的能力的影响微乎其微。
2024-10-22	JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation	null	加速非英语语言大型多模态模型 (LMM) 的研究对于提升更广泛人群的用户体验至关重要。在本文中，我们介绍了 JMMMU（日语 MMMU），这是第一个基于日本文化背景、旨在评估 LMM 在专家级任务上表现的大规模日语基准测试。为了促进全面的文化感知评估，JMMMU 包含两个互补的子集：(i) 文化无关 (CA) 子集，其中选择与文化无关的学科（例如数学）并将其翻译成日语，以便与对应的英语 MMMU 进行一对一比较；以及 (ii) 文化特定 (CS) 子集，包含反映日本文化背景的新创建学科。使用 CA 子集，我们观察到许多 LMM 在日语评估中性能下降，这完全归因于语言差异。使用 CS 子集，我们揭示了它们对日本文化理解的不足。此外，通过结合两个子集，我们发现一些 LMM 在 CA 子集上表现良好，但在 CS 子集上表现不佳，这暴露了它们对日语的理解肤浅，缺乏文化深度的理解。我们希望这项工作不仅有助于提升 LMM 在日语方面的性能，还能作为创建用于多语言 LMM 开发的高标准、文化多样化基准测试的指南。项目页面为 https://mmmu-japanese-benchmark.github.io/JMMMU/。
2024-10-22	PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction	link	在大型视觉语言模型 (LVLMs) 中，图像作为输入承载着丰富的信息。正如谚语“一图胜千言”所言，在当前的 LVLMs 中表示单个图像可能需要数百甚至数千个标记。这导致了巨大的计算成本，并且随着输入图像分辨率的增加呈二次方增长，从而严重影响训练和推理的效率。以前的方法试图在 LVLMs 的早期层之前或之内减少图像标记的数量。然而，这些策略不可避免地会导致关键图像信息的丢失，最终降低模型性能。为了应对这一挑战，我们进行了一项实证研究，表明所有视觉标记对于 LVLMs 的浅层都是必要的，而标记冗余在模型的深层逐渐增加。为此，我们提出了 PyramidDrop，一种 LVLMs 的视觉冗余减少策略，以提高其训练和推理效率，且性能损失可忽略不计。具体来说，我们将 LVLM 划分为几个阶段，并在每个阶段的末尾以预定义的比率丢弃部分图像标记，从而在模型层中创建金字塔状的视觉标记。丢弃操作基于轻量级的相似度计算，时间开销可以忽略不计。大量实验表明，PyramidDrop 可以使 LLaVA-NeXT 的训练时间缩短 40%，推理 FLOPs 减少 55%，且性能相当。此外，PyramidDrop 还可以作为即插即用的推理加速策略，无需训练，即可获得比同类方法更好的性能和更低的推理成本。我们希望 PyramidDrop 引入的见解和方法能够激励未来的研究，进一步探索图像标记在 LVLMs 中的作用。
2024-10-22	An Eye for an AI: Evaluating GPT-4o's Visual Perception Skills and Geometric Reasoning Skills Using Computer Graphics Questions	null	CG（计算机图形学）是 CS（计算机科学）中的一个热门领域，但许多学生发现这门课程很难，因为它需要大量的技能，如数学、编程、几何推理和创造力。在过去几年中，研究人员一直在探索利用生成式人工智能 (GenAI) 的力量来改进教学的方法。在计算机科学领域，许多研究都集中在计算机入门教育上。最近一项评估大型语言模型 (LLM) GPT-4（仅限文本）在 CG 问题上的表现的研究表明，GPT-4 的表现不佳，并且依赖于对图像内容的详细描述，这通常需要用户具备相当多的洞察力才能返回合理的结果。到目前为止，还没有研究调查过大型多模态模型 (LMM) 或多模态 LLM 解决 CG 问题的能力，以及如何利用这些能力来改进教学。在本研究中，我们构建了两个 CG 问题数据集，这些问题需要不同程度的视觉感知能力和几何推理能力，并评估了当前最先进的 LMM GPT-4o 在这两个数据集上的表现。我们发现，尽管 GPT-4o 在独立解决带有视觉信息的问题方面展现出巨大潜力，但在生成结果的准确性和质量方面仍然存在重大局限性。我们为 CG 教育工作者提出了一些新颖的方法，以便将生成式人工智能融入到 CG 教学中，尽管存在这些限制。我们希望，我们的指导方针能进一步鼓励 CG 课堂的学习和参与。
2024-10-22	MPDS: A Movie Posters Dataset for Image Generation with Diffusion Model	null	电影海报对于吸引观众、传达主题和推动电影行业的市场竞争至关重要。虽然传统的设计费时费力，但智能生成技术可以提高效率并增强设计效果。尽管图像生成取得了令人兴奋的进展，但目前的模型在生成令人满意的海报结果方面往往存在不足。主要问题在于缺乏专门的海报数据集来进行有针对性的模型训练。在这项工作中，我们提出了一个电影海报数据集 (MPDS)，专为文本到图像生成模型量身定制，旨在彻底改变海报制作。MPDS 专注于海报，据我们所知，它是第一个图像-文本对数据集，由 37.3 万多个图像-文本对和 8 千多张演员图像（涵盖 4 千多名演员）组成。详细的海报描述，例如电影标题、类型、演员阵容和概要，都根据公开的电影概要（也称为电影概要提示）进行了精心组织和标准化。为了充实海报描述并减少与电影概要的差异，我们进一步利用大型视觉语言模型自动为每个海报生成视觉感知提示，然后进行手动校正并与电影概要提示相结合。此外，我们引入了海报标题提示，以展示海报中的文本元素，如演员姓名和电影标题。对于电影海报生成，我们开发了一个多条件扩散框架，将海报提示、海报标题和演员图像（用于个性化）作为输入，通过学习扩散模型产生出色的结果。实验表明，我们提出的 MPDS 数据集在推进个性化电影海报生成方面具有重要价值。MPDS 可在 https://anonymous.4open.science/r/MPDS-373k-BD3B 获取。
2024-10-21	DocEdit-v2: Document Structure Editing Via Multimodal LLM Grounding	null	文档结构编辑涉及根据用户请求操作文档图像中的局部文本、视觉和布局组件。过去的研究表明，用户请求在文档图像中的多模态 grounding 以及准确识别结构组件及其相关属性仍然是这项任务的关键挑战。为了解决这些问题，我们引入了 DocEdit-v2，这是一个利用大型多模态模型 (LMM) 执行端到端文档编辑的新框架。它包含三个新组件：(1) Doc2Command，它同时定位感兴趣的编辑区域 (RoI) 并将用户编辑请求分解为编辑命令；(2) 基于 LLM 的命令重构提示，将最初为专业软件设计的编辑命令定制为适合通才 LMM 的编辑指令。(3) 此外，DocEdit-v2 通过 GPT-4V 和 Gemini 等大型多模态模型处理这些输出，以解析文档布局、对 grounded 感兴趣区域 (RoI) 执行编辑并生成编辑后的文档图像。在 DocEdit 数据集上的大量实验表明，DocEdit-v2 在编辑命令生成 (2-33%)、RoI 边界框检测 (12-31%) 和整体文档编辑 (1-12%) 任务上明显优于强大的基线。
2024-10-21	Promoting cross-modal representations to improve multimodal foundation models for physiological signals	null	许多医疗保健应用本质上是多模态的，涉及多种生理信号。随着这些信号的传感器变得越来越普遍，改进针对多模态医疗保健数据的机器学习方法至关重要。预训练基础模型是取得成功的有希望的途径。然而，在医疗保健领域开发基础模型的方法仍处于早期探索阶段，并且尚不清楚鉴于生理信号的多样性，哪种预训练策略最有效。这在一定程度上是由于多模态健康数据方面的挑战：获取许多患者的数据既困难又昂贵，受试者之间存在很大差异，并且模态在下游任务中的信息量通常存在异质性。在这里，我们在 PhysioNet 2018 数据集中探讨了这些挑战。我们使用掩蔽自动编码目标来预训练多模态模型。我们证明了该模型学习到的表示可以被线性探测用于各种下游任务。我们假设跨模态重建目标对于成功的多模态训练很重要，因为它们鼓励模型整合跨模态的信息。我们证明了输入空间中的模态丢失可以提高下游任务的性能。我们还发现，使用对比学习目标预训练的后期融合模型在多个任务中的效果较差。最后，我们分析了模型的表示，表明注意力权重通过我们的预训练策略变得更加跨模态和时间对齐。就每个单元编码的模态而言，学习到的嵌入也变得更加分散。总的来说，我们的工作证明了多模态基础模型对健康数据的效用，即使是在不同的生理数据源中也是如此。我们进一步认为，用于诱导跨模态的显式方法可以增强多模态预训练策略。
2024-10-21	VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use	null	虽然视觉语言模型 (VLM) 在结合文本和视觉信息的各种任务中表现出卓越的性能，但它们在需要详细像素级分析的细粒度视觉感知任务中仍然面临挑战。如何有效地从 VLM 中引出对此类复杂视觉元素的全面推理仍然是一个开放的挑战。在本文中，我们提出了 VipAct，这是一个通过集成多智能体协作和视觉专家模型来增强 VLM 的智能体框架，从而实现更精确的视觉理解和更全面的推理。VipAct 由一个协调器智能体和一些专门的智能体组成，协调器智能体负责任务需求分析、规划和协调，而专门的智能体则处理图像字幕等特定任务，以及提供高精度感知信息的视觉专家模型。这种多智能体方法允许 VLM 通过协同规划、推理和工具使用来更好地执行细粒度视觉感知任务。我们在具有一组不同视觉感知任务的基准测试中评估了 VipAct，实验结果表明，在所有任务中，与最先进的基线相比，性能都有显著提高。此外，全面的消融研究揭示了多智能体协作在引出更详细的系统 2 推理中的关键作用，并强调了图像输入对任务规划的重要性。此外，我们的错误分析确定了 VLM 在视觉感知方面固有局限性的模式，为未来潜在的改进提供了见解。VipAct 提供了一个灵活且可扩展的框架，为各种现实应用中更先进的视觉感知系统铺平了道路。
2024-10-21	Improve Vision Language Model Chain-of-thought Reasoning	link	视觉语言模型 (VLM) 中的思维链 (CoT) 推理对于提高模型的可解释性和可信度至关重要。然而，目前的训练方法缺乏强大的 CoT 推理数据，依赖于以简短注释和少量推理过程为主的数据集。在这项工作中，我们发现，在简短答案上训练 VLM 并不能很好地泛化到需要更详细回答的推理任务。为了解决这个问题，我们提出了一种双重方法。首先，我们从 GPT-4o 模型中提取推理过程，以丰富训练数据并微调 VLM，从而提高其 CoT 性能。其次，我们应用强化学习来进一步校准推理质量。具体来说，我们通过将模型生成的推理链的预测结果与带注释的简短答案进行比较，构建正（正确）和负（错误）样本对。利用这些成对数据，我们应用直接偏好优化算法来改进模型的推理能力。我们的实验表明，在基准数据集上，CoT 推理得到了显著改进，并且对直接答案预测的泛化能力也更强。这项工作强调了在训练中纳入详细推理过程以及利用强化学习来增强 VLM 推理能力的重要性。
2024-10-21	Griffon-G: Bridging Vision-Language and Vision-Centric Tasks via Large Multimodal Models	link	大型多模态模型 (LMM) 在基于自回归建模的各种视觉语言和以视觉为中心的的任务中取得了重大突破。然而，这些模型通常侧重于以视觉为中心的的任务，例如视觉定位和区域描述，或者视觉语言任务，例如图像描述和多场景视觉问答 (VQA)。目前还没有哪个 LMM 能够像自然语言处理领域的大型语言模型那样，将这两种类型的任务全面统一在一个模型中。此外，即使有丰富的多任务指令遵循数据，直接堆叠这些数据来扩展通用能力仍然具有挑战性。为了解决这些问题，我们引入了一个名为 CCMD-8M 的新型多维度策划和整合的多模态数据集，它通过多级数据策划和多任务整合克服了统一以视觉为中心的任务和视觉语言任务的数据障碍。更重要的是，我们提出了 Griffon-G，这是一个通用的 LMM，它在单个端到端范式中同时解决了以视觉为中心的任务和视觉语言任务。Griffon-G 解决了在这些任务的联合优化过程中遇到的训练崩溃问题，实现了更好的训练效率。跨多模态基准、通用视觉问答 (VQA) 任务、场景文本中心 VQA 任务、文档相关 VQA 任务、指称表达式理解和目标检测的评估表明，Griffon-G 优于先进的 LMM，并在复杂的以视觉为中心的的任务中达到了专家级的性能。
2024-10-21	Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Composite Spatial Reasoning	null	视觉语言模型 (VLM) 在各种下游任务中表现出了令人印象深刻的性能。然而，尽管空间推理在涉及导航和与物理环境交互的任务中起着至关重要的作用，但VLM在这方面的能力仍然有限。具体来说，这些任务中的大部分空间推理发生在二维 (2D) 环境中，我们的评估表明，最先进的 VLM 经常对复合空间推理问题生成不合理和错误的响应，包括人类一眼就能轻松解决的简单寻路任务。为了解决这个问题，我们探索了一种有效的方法，通过训练模型的基本空间能力来增强 VLM 中的 2D 空间推理能力。我们首先将 2D 空间推理的关键组成部分分解为：方向理解、距离估计和定位。我们的核心假设是，掌握这些基本的空间能力可以显着提高模型在需要高级空间理解和组合问题解决能力的复合空间任务中的性能。为了验证这一假设，我们引入了 Sparkle，这是一个通过合成数据生成和目标监督对这三种基本空间能力进行微调的 VLM 框架，以便为每种能力形成一个指令数据集。我们的实验表明，使用 Sparkle 微调的 VLM 不仅在基本任务本身中取得了显着的性能提升，而且还可以泛化到复合和分布外的空间推理任务中（例如，在最短路径问题上的性能从 13.5% 提高到 40.0%）。这些发现强调了掌握基本空间能力在增强复合空间问题解决能力方面的有效性，为提高 VLM 的空间推理能力提供了见解。
2024-10-18	NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples	null	视觉语言模型（VLM）在最近的视觉问答（VQA）基准测试中取得了重大进展，这些基准测试评估了复杂的视觉语言推理能力。然而，这些模型真的有效吗？在这项工作中，我们发现VLM仍然难以处理人类可以轻松回答的自然图像和问题，我们将其称为自然对抗样本。我们还发现，使用 CLIP 和 ChatGPT 等现成模型从自然图像文本语料库中生成这些VQA样本非常容易。我们提出了一种半自动方法来收集一个新的基准测试集NaturalBench，该测试集包含10,000个经过人工验证的VQA样本，用于可靠地评估VLM。至关重要的是，我们采用以视觉为中心的设计，将每个问题与两张产生不同答案的图像配对，防止模型在不使用图像的情况下盲目作答。这使得NaturalBench比之前可以利用常识先验知识解决的基准测试更具挑战性。我们在NaturalBench上评估了53个最先进的VLM，结果表明，LLaVA-OneVision、Cambrian-1、Llama3.2-Vision、Molmo、Qwen2-VL，甚至GPT-4o等模型都比人类表现（超过90%）落后50%-70%。我们从两个角度分析了NaturalBench为何难以处理：（1）组合性：解决NaturalBench需要多种视觉语言技能，包括理解属性绑定、对象关系以及逻辑和计数等高级推理。为此，与先前的工作使用每个样本一个标签不同，我们为每个NaturalBench样本标记了1到8个技能标签，以便进行细粒度评估。（2）偏差：NaturalBench揭示了VLM中存在的严重偏差，因为模型通常会选择相同的答案，而不管图像如何。最后，我们将基准测试集构建方法应用于不同的数据源，包括长标题（超过100字）和中文、印地语等非英语语言，突出了其对VLM进行动态评估的潜力。
2024-10-18	Croc: Pretraining Large Multimodal Models with Cross-Modal Comprehension	link	近年来，大型语言模型（LLM）的进步推动了大型多模态模型（LMM）的发展。然而，现有的研究主要集中在调整语言和图像指令上，而忽略了模型学习联合处理文本和视觉模态的关键预训练阶段。在本文中，我们提出了一种新的LMM预训练范式，通过引入一种新颖的跨模态理解阶段来增强LLM的视觉理解能力。具体来说，我们设计了一个动态可学习的提示标记池，并采用匈牙利算法用最相关的提示标记替换部分原始视觉标记。然后，我们将视觉标记概念化为LLM的“外语”，并提出了一种混合注意力机制，结合双向视觉注意力和单向文本注意力，以全面增强对视觉标记的理解。同时，我们整合了详细的图像描述生成任务，利用丰富的描述来进一步促进LLM理解视觉语义信息。在150万条公开数据上进行预训练后，我们提出了一个名为Croc的新基础模型。实验结果表明，Croc在大型视觉语言基准测试中取得了新的最先进性能。为了支持可 reproducibility 并促进进一步的研究，我们在https://github.com/deepglint/Croc 上发布了训练代码和预训练模型权重。
2024-10-18	E3D-GPT: Enhanced 3D Visual Foundation for Medical Vision-Language Model	null	三维医学视觉语言模型的开发在疾病诊断和患者治疗方面具有巨大潜力。然而，与二维医学图像相比，三维医学图像（如CT扫描）面临着训练数据有限和维度高等挑战，这严重限制了三维医学视觉语言模型的进展。为了解决这些问题，我们收集了大量未标记的三维CT数据，并利用自监督学习构建了一个用于提取三维视觉特征的三维视觉基础模型。然后，我们应用三维空间卷积来聚合和投影高级图像特征，在降低计算复杂度的同时保留空间信息。我们还基于BIMCV-R和CT-RATE构建了两个指令微调数据集，用于微调三维视觉语言模型。我们的模型在报告生成、视觉问答和疾病诊断方面表现出优于现有方法的性能。代码和数据将很快公开发布。
2024-10-18	LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs	null	实验室事故对人类生命和财产构成重大风险，凸显了健全安全规程的重要性。尽管安全培训有所进步，但实验室人员仍可能在不知不觉中进行不安全的操作。随着各领域（包括实验室环境）越来越依赖大型语言模型 (LLM) 进行指导，人们越来越担心LLM在关键安全相关决策中的可靠性。与受过训练的人类研究人员不同，LLM缺乏正式的实验室安全教育，这引发了人们对其提供安全和准确指导的能力的质疑。现有关于LLM可信度的研究主要集中在道德合规性、真实性和公平性等问题上，但未能完全涵盖安全关键型现实应用，例如实验室安全。为了弥补这一差距，我们提出了实验室安全基准（LabSafety Bench），这是一个基于与职业安全与健康管理局 (OSHA) 协议相一致的新分类法的综合评估框架。该基准测试包括由人类专家验证的765道多项选择题，用于评估LLM和视觉语言模型 (VLM) 在实验室安全环境中的性能。我们的评估表明，虽然GPT-4o的表现优于人类参与者，但它仍然容易出现严重错误，这凸显了在安全关键型环境中依赖LLM的风险。我们的研究结果强调，需要专门的基准来准确评估LLM在现实安全应用中的可信度。
2024-10-18	ProReason: Multi-Modal Proactive Reasoning with Decoupled Eyesight and Wisdom	null	大型视觉语言模型 (LVLM) 在视觉理解任务方面取得了重大进展。然而，它们在视觉推理任务中经常优先考虑语言知识而不是图像信息，从而导致性能下降。为了解决这个问题，我们首先确定了现有解决方案的缺点（即视觉描述不足且不相关，以及多模态能力有限）。然后，我们将视觉推理过程分解为两个阶段：视觉感知（即视力）和文本推理（即智慧），并介绍了一种名为 ProReason 的新型视觉推理框架。该框架具有多轮主动感知和解耦的视觉推理能力。简而言之，给定一个多模态问题，ProReason 会迭代主动信息收集和推理，直到可以用必要且充分的视觉描述得出答案。值得注意的是，能力的解耦允许无缝集成现有的大型语言模型 (LLM) 来弥补 LVLM 的推理缺陷。我们广泛的实验表明，ProReason 在开源和闭源模型的各种基准测试中都优于现有的多步推理框架和被动对等方法。此外，在 LLM 的帮助下，ProReason 在 MMMU 基准测试中实现了高达 15% 的性能提升。我们对现有解决方案的见解以及对 LLM 可行集成的解耦视角，为未来的视觉推理技术研究（尤其是 LLM 辅助技术）提供了启示。
2024-10-17	Efficient Vision-Language Models by Summarizing Visual Tokens into Compact Registers	null	近年来，视觉语言模型 (VLM) 的进步扩展了其在现实世界应用中的潜力，使这些模型能够对图像进行复杂的推理。在像 LLaVA 这样广泛使用的完全自回归的基于 Transformer 的模型中，投影的视觉标记被添加到文本标记之前。通常，视觉标记比提示标记多得多，导致训练和推理过程中的计算开销增加。在本文中，我们提出了视觉压缩标记寄存器 (Victor)，这是一种通过将视觉标记汇总到一组较小的寄存器标记来减少视觉标记数量的方法。Victor 在视觉标记之后添加了一些可学习的寄存器标记，并使用 VLM 语言塔中的前几层将视觉信息汇总到这些寄存器中。在这几层之后，所有视觉标记都将被丢弃，从而显着提高了训练和推理的计算效率。值得注意的是，我们的方法易于实现，并且只需要少量新的可训练参数，对模型性能的影响最小。在我们的实验中，Victor 仅使用 8 个视觉寄存器（约占原始标记的 1%），就将准确率下降控制在 4% 以内，同时将总训练时间减少了 43%，并将推理吞吐量提高了 3.3 倍。
2024-10-17	Reproducibility study of "LICO: Explainable Models with Language-Image Consistency"	link	机器学习领域日益严重的复现性危机要求我们仔细审查研究结果。本文调查了 Lei 等人 (2023) 提出的 LICO 方法，该方法旨在增强事后可解释性技术并提高图像分类性能。LICO 利用来自视觉语言模型的自然语言监督来丰富特征表示并指导学习过程。我们进行了一项全面的可重复性研究，采用了 (Wide) ResNets 和已建立的可解释性方法，如 Grad-CAM 和 RISE。我们基本上无法复现作者的结果。特别是，我们没有发现 LICO 始终能够提高分类性能或改进可解释性的定量和定性指标。因此，我们的研究结果强调了在可解释性研究中进行严格评估和透明报告的重要性。
2024-10-17	Debiasing Large Vision-Language Models by Ablating Protected Attribute Representations	null	大型视觉语言模型 (LVLM)，例如 LLaVA，已经展示出作为通用聊天机器人的强大能力，能够就提供的输入图像进行对话。然而，它们的响应会受到训练数据集中存在的社会偏见的影响，导致模型在处理描绘不同人群图像时产生不希望的差异。在这项工作中，我们为 LVLM 提出了一种新的去偏见框架，通过在文本生成过程中直接消融偏见属性，以避免生成与受保护属性相关的文本，甚至在内部表示它们。我们的方法不需要训练，只需要相对少量的代表性偏见输出（约 1000 个样本）。我们的实验表明，我们不仅可以最大限度地降低 LVLM 生成与受保护属性相关的文本的倾向，而且甚至可以使用合成数据来指导消融，同时保持在真实数据（如 COCO）上的字幕性能。此外，我们发现，去偏 LVLM 的结果生成表现出与基线偏见模型相似的准确性，表明可以在不牺牲模型性能的情况下实现去偏效果。
2024-10-17	Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation	link	在本文中，我们介绍了 Janus，这是一个统一了多模态理解和生成的自动回归框架。之前的研究通常依赖于单一视觉编码器来完成这两项任务，例如 Chameleon。然而，由于多模态理解和生成所需的信息粒度不同，这种方法会导致性能欠佳，尤其是在多模态理解方面。为了解决这个问题，我们将视觉编码分离成独立的路径，同时仍然利用单个统一的 Transformer 架构进行处理。这种分离不仅缓解了视觉编码器在理解和生成中角色之间的冲突，还增强了框架的灵活性。例如，多模态理解和生成组件都可以独立选择最合适的编码方法。实验表明，Janus 优于之前的统一模型，并且达到或超过了特定任务模型的性能。Janus 的简洁性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。
2024-10-17	VL-GLUE: A Suite of Fundamental yet Challenging Visuo-Linguistic Reasoning Tasks	link	从异构输入（如图像、文本和音频）中推导出推理是人类执行日常任务的一项重要技能。对于开发先进的人工智能 (AI) 系统来说，类似的能力也是非常需要的。虽然最先进的模型在各种计算机视觉和自然语言处理任务上正在迅速缩小与人类水平性能的差距，但它们在解决需要对视觉和文本模态进行联合推理的任务时仍然很吃力。受 GLUE（Wang 等人，2018 年）的启发，GLUE 是一个用于自然语言理解的多任务基准测试，我们在本文中提出了 VL-GLUE。VL-GLUE 由跨越七个不同任务的超过 100k 个样本组成，这些任务的核心都需要视觉语言推理。此外，我们的基准测试包含了多样化的图像类型（从合成渲染的图形、日常场景到图表和复杂图表），并包含了广泛的特定领域文本（从烹饪、政治、体育到高中课程），证明了现实世界中对多模态理解的需求。我们表明，这个基准测试对于现有的大规模视觉语言模型来说相当具有挑战性，并鼓励开发具有鲁棒视觉语言推理能力的系统。
2024-10-17	H2OVL-Mississippi Vision Language Models Technical Report	null	由于能够在消费者硬件上高效运行以处理企业商业文档和图像，体积更小的视觉语言模型 (VLM) 对于注重隐私的设备上应用程序变得越来越重要。这些模型需要强大的语言理解和视觉能力来增强人机交互。为了满足这一需求，我们推出了 H2OVL-Mississippi，这是一对小型 VLM，使用 8 个 H100 GPU，在 240 小时的计算时间内，利用 3700 万个图文对进行训练。H2OVL-Mississippi-0.8B 是一款参数量为 8 亿的微型模型，专注于文本识别，在 OCRBench 的文本识别部分实现了最先进的性能，并在该领域超越了许多更大的模型。此外，我们还发布了 H2OVL-Mississippi-2B，这是一个包含 20 亿个参数的通用模型，在各种学术基准测试中均表现出极具竞争力的指标。这两个模型都建立在我们之前使用 H2O-Danube 语言模型的工作基础之上，将其功能扩展到视觉领域。我们将它们在 Apache 2.0 许可下发布，使所有人都可以使用 VLM，从而使文档 AI 和视觉 LLM 民主化。
2024-10-17	GeoCoder: Solving Geometry Problems by Generating Modular Code through Vision-Language Models	null	几何问题解决需要高级推理能力来处理多模态输入并有效地利用数学知识。视觉语言模型（VLM）在各种多模态任务中取得了重大进展。然而，它们仍然难以解决几何问题，并且由于无法执行预训练期间未见过的数学运算（例如计算任意角度的余弦）以及难以正确应用相关几何公式而受到很大限制。为了克服这些挑战，我们提出了 GeoCoder，它利用模块化代码微调来使用预定义的几何函数库生成和执行代码。通过执行代码，我们实现了准确和确定的计算，与自回归标记预测的随机性形成对比，而函数库最大限度地减少了公式使用中的错误。我们还提出了 GeoCoder 的多模态检索增强变体，名为 RAG-GeoCoder，它结合了一个非参数内存模块来从几何库中检索函数，从而减少对参数内存的依赖。我们的模块化代码微调方法增强了 VLM 的几何推理能力，与其他微调方法相比，在 GeomVerse 数据集上的各种问题复杂性方面平均提高了 16% 以上。
2024-10-17	Parameter-efficient Adaptation of Multilingual Multimodal Models for Low-resource ASR	null	由于缺乏标注的训练数据，低资源语言的自动语音识别 (ASR) 仍然是一个挑战。参数高效的微调和纯文本自适应是两种常用的方法，用于解决这种低资源环境下的问题。在这项工作中，我们研究了如何使用像 SeamlessM4T 这样的多语言多模态模型有效地结合这些技术。多模态模型能够通过纯文本自适应利用未标注的文本，并进一步进行参数高效的 ASR 微调，从而提高 ASR 性能。我们还展示了从高资源语言进行跨语言迁移，在没有任何标注语音的零样本设置中，相对于基线实现了高达 17% 的词错误率 (WER) 降低。
2024-10-17	Mitigating Hallucinations in Large Vision-Language Models via Summary-Guided Decoding	null	大型视觉语言模型 (LVLM) 在根据视觉输入生成详细且连贯的响应方面表现出令人印象深刻的能力。然而，由于过度依赖语言先验，它们容易产生幻觉。为了解决这个问题，我们研究了 LVLM 中的语言先验，并得出两个关键观察结果：(1) 即使在预测与图像相关的词性 (POS) 相关的标记时，随着标记序列的增长，模型越来越依赖语言先验，从而放大了幻觉。(2) 直接校准 LVLM 的输出分布以减轻语言先验的方法可能会导致文本质量下降，甚至加剧幻觉。基于这些发现，我们提出了一种新方法，即摘要引导解码 (SGD)。该方法通过摘要减少文本上下文，自然地鼓励模型更多地关注图像信息，同时仅控制与图像相关的词性标记以保持文本质量。通过实验，我们证明了 SGD 在物体幻觉基准测试中实现了最先进的性能。此外，在精确率和召回率的权衡方面，SGD 在现有方法中实现了帕累托最优。最后，我们观察到，尽管现有方法难以在减少物体幻觉和保持文本质量之间取得平衡，但 SGD 在应对这一挑战方面表现出稳健性。
2024-10-17	Mapping Bias in Vision Language Models: Signposts, Pitfalls, and the Road Ahead	link	随着视觉语言模型 (VLM) 得到广泛应用，其公平性仍然缺乏探索。在本文中，我们分析了五个模型和六个数据集的人口统计学偏差。我们发现，像 UTKFace 和 CelebA 这样的肖像数据集是检测偏差的最佳工具，可以发现 LLaVa 和 CLIP 模型之间在性能和公平性方面的差距。然而，像 PATA、VLStereoSet 这样的场景数据集由于其构建方式，无法成为有效的偏差基准。至于像 VisoGender 这样的基于代词的数据集，我们收到了混合信号，因为只有一部分数据子集对提供见解有用。为了缓解这个问题，我们引入了更难版本的 VisoGender，作为更严格的评估标准。基于这些结果，我们呼吁建立更有效、设计更仔细的数据集，以确保 VLM 的公平性和可靠性。
2024-10-16	Sensitivity of Generative VLMs to Semantically and Lexically Altered Prompts	null	尽管用于生成式视觉语言模型 (VLM) 的提示调整技术大量涌现，但这些模型对提示中的词汇和语义变化的敏感程度仍不清楚。在本文中，我们使用 SugarCrepe++ 数据集评估了生成式 VLM 理解文本中词汇和语义变化的能力。我们分析了 VLM 对提示中词汇变化的敏感性，而这些变化不对应于语义变化。我们的研究结果表明，生成式 VLM 对此类更改高度敏感。此外，我们还发现，这种脆弱性会影响旨在实现其输出一致性的技术性能。
2024-10-16	Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models	null	端到端学习将感官输入直接映射到动作，为复杂的机器人任务创建高度集成和高效的策略。然而，此类模型难以有效训练，并且通常难以泛化到其训练场景之外，从而限制了对新环境、任务和概念的适应性。在这项工作中，我们研究了在看不见的文本指令和视觉分布变化下，基于视觉的控制策略实现稳健的闭环性能所需的最小数据要求和架构适应。为此，我们设计了具有不同数据表示丰富度的数据库，通过利用多模态基础模型编码器来改进特征提取协议，并评估不同策略网络头的适用性。我们的研究结果在 Flex（Fly-lexically）中得到综合，这是一个使用预训练的视觉语言模型（VLM）作为冻结的逐块特征提取器的框架，生成整合语义和视觉信息的具有空间感知的嵌入。这些丰富的特征构成了训练高度稳健的下游策略的基础，这些策略能够跨平台、环境和文本指定的任务进行泛化。我们展示了这种方法在四旋翼飞行器飞往目标任务中的有效性，其中通过行为克隆在小型模拟数据库上训练的代理成功地泛化到现实世界场景，处理不同的新目标和命令公式。
2024-10-16	The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio	null	近年来，大型多模态模型 (LMM) 的进步显著提高了其在各种任务中的性能，并且人们一直在努力进一步整合视频和音频等其他模态。然而，大多数现有的 LMM 仍然容易出现幻觉，即事实上的多模态输入与生成的文本输出之间存在差异，这限制了它们在各种现实场景中的适用性。本文首次系统地研究了涉及三种最常见模态（语言、视觉和音频）的 LMM 中的幻觉问题。我们的研究揭示了导致幻觉的两个关键因素：过度依赖单模态先验和虚假的模态间相关性。为了应对这些挑战，我们引入了多模态诅咒 (CMM) 基准测试，该基准全面评估了 LMM 中的幻觉，并详细分析了其根本问题。我们的研究结果突出了关键的漏洞，包括模态整合的不平衡和训练数据的偏差，强调了平衡跨模态学习和增强幻觉缓解策略的必要性。根据我们的观察和发现，我们提出了一些潜在的研究方向，可以提高 LMM 的可靠性。
2024-10-15	Unveiling the Mystery of Visual Attributes of Concrete and Abstract Concepts: Variability, Nearest Neighbors, and Challenging Categories	link	一个概念的视觉表征会因其含义和出现语境的不同而发生显著变化，这对视觉和多模态模型都提出了多重挑战。我们的研究侧重于具象性，这是一个经过充分研究的词汇语义变量，并以此作为案例研究来检验视觉表征的可变性。我们依赖于从两个不同数据集（Bing 和 YFCC）中提取的与大约 1000 个抽象和具体概念相关的图像。我们的目标是：(i) 评估概念描述中的视觉多样性是否可以可靠地区分具体概念和抽象概念；(ii) 通过最近邻分析来分析同一概念的多幅图像的视觉特征的可变性；(iii) 通过对图像进行分类和注释来识别导致这种可变性的挑战性因素。我们的研究结果表明，对于抽象概念和具体概念图像的分类，颜色和纹理等基本视觉特征的组合比视觉Transformer（ViT）等更复杂模型提取的特征更有效。然而，ViT 在最近邻分析中表现出更好的性能，这强调了在通过文本以外的模态分析概念变量时，需要谨慎选择视觉特征。
2024-10-15	On-the-fly Modulation for Balanced Multimodal Learning	link	多模态学习旨在通过整合来自不同模态的信息来提升模型性能。然而，由于广泛使用的联合训练策略对所有模态采用统一目标，导致单模态表征不平衡和欠优化，因此多模态学习的潜力并未得到充分发挥。具体来说，我们指出通常存在具有更多判别信息的模态，例如踢足球的视觉和刮风的听觉。它们可能在联合训练过程中占据主导地位，导致其他模态严重欠优化。为了缓解这个问题，我们首先从优化的前馈和反向传播阶段分析了欠优化现象。然后，提出了动态预测调制（OPM）和动态梯度调制（OGM）策略，通过在训练过程中监控模态间的判别差异来调节每个模态的优化。具体而言，OPM在前馈阶段通过动态概率丢弃主导模态的特征来削弱其影响，而OGM在反向传播阶段减轻其梯度。在实验中，我们的方法在各种多模态任务中都表现出相当大的改进。这些简单而有效的策略不仅增强了普通和面向任务的多模态模型的性能，而且在更复杂的多模态任务中也表现出色，展示了它们的有效性和灵活性。源代码可在\url{https://github.com/GeWu-Lab/BML_TPAMI2024}获取。
2024-10-15	Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference	null	多模态变分自编码器 (VAE) 旨在通过整合来自不同数据模态的信息来捕获共享的潜在表示。一个重大挑战是在不需要为所有可能的模态组合训练不切实际数量 (2^M) 个推理网络的情况下，准确地从任何模态子集推断表示。基于混合的模型通过仅需要与模态数量一样多的推理模型来简化这一过程，从而聚合单模态推理。然而，当模态缺失时，它们会遭受信息丢失的困扰。基于对齐的 VAE 通过最小化 Kullback-Leibler (KL) 散度将单模态推理模型与多模态模型对齐来解决这个问题，但由于摊销差距导致推理精度下降，因此面临着问题。为了解决这些问题，我们在多模态 VAE 框架内引入了多模态迭代摊销推理，这是一种迭代细化机制。该方法通过使用所有可用模态迭代地细化多模态推理，从而克服了缺失模态造成的信息丢失，并最大程度地减少了摊销差距。通过将单模态推理与这种细化的多模态后验对齐，我们实现了单模态推理，该推理有效地结合了多模态信息，同时在推理过程中仅需要单模态输入。在基准数据集上的实验表明，我们的方法提高了推理性能，更高的线性分类精度和竞争性余弦相似性证明了这一点，并增强了跨模态生成，FID 得分较低表明了这一点。这表明我们的方法增强了从单模态输入推断的表示。
2024-10-15	LargePiG: Your Large Language Model is Secretly a Pointer Generator	null	最近关于查询生成的研究集中在使用大型语言模型（LLM）上，虽然LLM带来了最先进的性能，但也引入了生成查询中的幻觉问题。在这项工作中，我们将相关性幻觉和事实性幻觉作为一种新的类型学来描述基于LLM的查询生成带来的幻觉问题。我们提出了一种有效的方法来分离LLM生成查询中的内容和形式，该方法保留了从输入中提取和集成的 factual knowledge，并利用LLM强大的语言能力编译了句法结构，包括功能词。具体来说，我们介绍了一种与模型无关且无需训练的方法，将大型语言模型转换为指针生成器（LargePiG），其中指针注意力分布利用了LLM固有的注意力权重，并且复制概率源自模型高层和最后一层的词汇分布差异。为了验证LargePiG的有效性，我们构建了两个数据集，用于评估查询生成中的幻觉问题，涵盖了文档和视频场景。对各种LLM的实证研究表明，LargePiG在两个数据集上都具有优越性。额外的实验还验证了LargePiG可以减少大型视觉语言模型中的幻觉，并提高基于文档的问答和事实性评估任务的准确性。
2024-10-15	CLIP-DFGS: A Hard Sample Mining Method for CLIP in Generalizable Person Re-Identification	null	近年来，像CLIP这样的预训练视觉语言模型的进步，已经显示出其在行人重识别（ReID）应用中的潜力。然而，它们在通用行人重识别任务中的性能仍然欠佳。CLIP预训练中使用的大规模多样化的图像-文本对可能导致某些细粒度特征的缺失或不足。针对这些挑战，我们提出了一种名为DFGS（深度优先图采样器）的困难样本挖掘方法，该方法基于深度优先搜索，旨在提供足够具有挑战性的样本，以增强CLIP提取细粒度特征的能力。DFGS可以应用于CLIP中的图像编码器和文本编码器。通过利用CLIP强大的跨模态学习能力，我们的目标是应用DFGS方法提取具有挑战性的样本，并形成具有高判别难度的mini-batches，为图像模型提供更有效、更具挑战性的难以区分的样本，从而增强模型区分个体的能力。我们的结果表明，与其他方法相比，DFGS有显著的改进，证实了DFGS在提供具有挑战性的样本以增强CLIP在通用行人重识别中的性能方面的有效性。
2024-10-14	Locality Alignment Improves Vision-Language Models	null	近年来，视觉语言模型 (VLM) 得到越来越多的应用，但许多模型仍然难以解决基本的 spatial reasoning 错误。我们假设这是由于 VLM 采用了预训练的视觉骨干网络，特别是使用图像级监督和最小归纳偏差训练的视觉变换器 (ViT)。此类模型可能无法编码图像中每个位置的类别内容，我们的目标是通过确保视觉骨干网络有效捕获局部和全局图像语义来解决此问题。我们的主要见解是，我们不需要新的监督来学习这种能力——预训练模型包含大量的局部语义知识，我们可以提取这些知识并将其用于可扩展的自监督。我们为 ViT 提出了一种新的高效的训练后阶段，称为局部性对齐，以及一种新的微调程序，称为 MaskEmbed，它使用掩蔽重建损失来学习每个图像块的语义贡献。我们首先使用仅视觉基准评估局部性对齐，发现它提高了模型在块级语义分割任务中的性能，特别是对于使用图像-标题对（例如，CLIP 和 SigLIP）训练的强骨干网络。然后，我们训练了一系列使用和不使用局部性对齐的 VLM，并表明局部性对齐的骨干网络提高了各种基准测试的性能，特别是那些涉及空间理解的基准测试（例如，RefCOCO、OCID-Ref、TallyQA、VSR、AI2D）。总的来说，我们证明了我们可以通过局部性对齐阶段有效地学习局部语义提取，并且此过程补充了使用现成视觉骨干网络的现有 VLM 训练方法。
2024-10-14	Towards Foundation Models for 3D Vision: How Close Are We?	link	构建用于 3D 视觉的基础模型是一个尚未解决的复杂挑战。为了实现这一目标，重要的是了解当前模型的 3D 推理能力，并确定这些模型与人类之间的差距。因此，我们构建了一个新的 3D 视觉理解基准，该基准涵盖了视觉问答 (VQA) 格式的基本 3D 视觉任务。我们评估了最先进的视觉语言模型 (VLM)、专门模型和人类受试者。我们的结果表明，VLM 的性能普遍较差，而专门模型虽然准确但不稳健，在几何扰动下会失败。相比之下，人类视觉仍然是最可靠的 3D 视觉系统。我们进一步证明，与经典计算机视觉方法相比，神经网络与人类 3D 视觉机制的一致性更高，并且基于 Transformer 的网络（如 ViT）比 CNN 与人类 3D 视觉机制的一致性更高。我们希望我们的研究能够有利于未来 3D 视觉基础模型的开发。
2024-10-14	VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents	link	检索增强生成（RAG）是一种有效的技术，它使大型语言模型（LLM）能够利用外部知识源进行生成。然而，当前的RAG系统完全基于文本，无法利用在现实世界多模态文档中起着至关重要作用的视觉信息，如布局和图像。在本文中，我们介绍了VisRAG，它通过建立一个基于视觉语言模型（VLM）的RAG流程来解决这个问题。在这个流程中，不是先解析文档以获取文本，而是使用VLM将文档作为图像直接嵌入，然后检索以增强VLM的生成。与传统的基于文本的RAG相比，VisRAG最大限度地保留和利用了原始文档中的数据信息，消除了解析过程中引入的信息损失。我们收集了开源数据和合成数据来训练VisRAG中的检索器，并探索了各种生成方法。实验表明，VisRAG在检索和生成阶段都优于传统的RAG，相较于传统的基于文本的RAG流程，实现了25%-39%的端到端性能提升。进一步的分析表明，VisRAG可以有效地利用训练数据并表现出强大的泛化能力，这使其成为多模态文档上RAG的一个很有前景的解决方案。我们的代码和数据可在https://github.com/openbmb/visrag 获取。
2024-10-14	LG-CAV: Train Any Concept Activation Vector with Language Guidance	null	概念激活向量（CAV）通过将模型预测优雅地归因于特定概念，在可解释人工智能领域引起了广泛的研究兴趣。然而，CAV 的训练通常需要大量高质量的图像，这些图像的整理成本很高，因此仅限于一组预定义的概念。为了解决这个问题，我们提出了语言引导的 CAV（LG-CAV），以利用某些预训练的视觉语言模型（例如 CLIP）中丰富的概念知识。该方法允许在没有标记数据的情况下训练任何 CAV，方法是利用相应的概念描述作为指导。为了弥合视觉语言模型与目标模型之间的差距，我们使用视觉语言模型计算了一组通用图像（探测图像）上概念描述的激活值，并利用它们作为语言指导来训练 LG-CAV。此外，在训练了与目标模型中所有预测类别相关的高质量 LG-CAV 后，我们提出了激活样本重新加权（ASR）作为一种模型校正技术，以反过来提高目标模型的性能。在四个数据集上跨越九种架构的实验表明，LG-CAV 在给定任何概念的情况下，相较于以前的 CAV 方法实现了显著的质量提升，并且我们的模型校正方法与现有的基于概念的方法相比，实现了最先进的性能。我们的代码可在 https://github.com/hqhQAQ/LG-CAV 获取。
2024-10-14	Saliency Guided Optimization of Diffusion Latents	null	随着扩散模型的快速发展，从文本提示生成高质量图像已不再是挑战。文本到图像生成的重点是如何优化生成结果，使其更好地与人类意图或提示保持一致。现有的优化方法通常将整个图像视为一个整体，进行全局优化。这些方法忽略了一个事实：当人类观察图像时，视觉系统会自然地将注意力集中在显著区域，而忽略不太重要或不显著的区域。也就是说，人类很可能忽略对非显著区域的优化。因此，尽管在大型多模态模型的指导下进行了模型微调，但现有进行全局优化的方法得到的结果并不理想。为了有效且高效地解决这种对齐挑战，我们提出了显著性引导的扩散潜在空间优化方法（SGOOL）。我们首先使用显著性检测器来模拟人类视觉注意力系统，并标记出显著区域。为了避免重新训练额外的模型，我们的方法直接优化扩散模型的潜在空间。此外，SGOOL 利用了可逆扩散过程，并具有恒定内存实现的优点。因此，我们的方法成为了一种参数高效且即插即用的微调方法。我们使用多种指标和人工评估进行了大量实验。实验结果表明，SGOOL 在图像质量和提示对齐方面具有优越性。
2024-10-11	SegGrasp: Zero-Shot Task-Oriented Grasping via Semantic and Geometric Guided Segmentation	null	面向任务的抓取，即根据物体功能抓取其特定部位，对于开发能够在动态环境中执行复杂任务的先进机器人系统至关重要。在本文中，我们提出了一个免训练框架，该框架结合了语义和几何先验，用于零样本面向任务的抓取生成。所提出的框架名为 SegGrasp，首先利用 GLIP 等视觉语言模型进行粗分割。然后，它使用来自凸分解的详细几何信息，通过名为 GeoFusion 的融合策略来提高分割质量。通过改进分割的抓取网络可以生成有效的抓取姿态。我们在分割基准和真实世界机器人抓取上进行了实验。实验结果表明，SegGrasp 在抓取和分割性能方面均优于基线 15% 以上。
2024-10-11	Calibrated Cache Model for Few-Shot Vision-Language Model Adaptation	null	基于缓存的方法在适应视觉语言模型 (VLM) 方面表现出色且高效。然而，现有的缓存模型忽略了三个关键方面。1) 预训练的 VLM 主要针对图像-文本相似性进行优化，忽略了图像-图像相似性的重要性，导致预训练和适应之间存在差距。2) 当前的缓存模型基于 Nadaraya-Watson (N-W) 估计器，它在构建权重函数时忽略了训练样本之间错综复杂的关系。3) 在样本有限的情况下，缓存模型生成的 logits 具有很高的不确定性，直接使用这些 logits 而不考虑置信度可能会有问题。为了解决上述挑战，本工作提出了三个校准模块。相似性校准通过使用未标记的图像来改进图像-图像相似性。我们在 CLIP 的预训练图像编码器之上添加了一个带有残差连接的可学习投影层，并通过最小化自监督对比损失来优化参数。权重校准在权重函数中引入了一个精度矩阵，以充分模拟训练样本之间的关系，将现有的缓存模型转换为高斯过程 (GP) 回归器，这可能比 N-W 估计器更准确。置信度校准利用 GP 回归计算的预测方差来动态地重新调整缓存模型的 logits，确保缓存模型的输出根据其置信度进行适当调整。此外，为了降低 GP 的高复杂度，我们进一步提出了一种基于组的学习策略。整合上述设计，我们提出了免训练和需要训练的两种变体。在 11 个少样本分类数据集上的大量实验表明，所提出的方法可以达到最先进的性能。
2024-10-11	RoRA-VLM: Robust Retrieval-Augmented Vision Language Models	null	目前的视觉语言模型 (VLM) 在知识密集型任务中仍然表现不佳，这主要是由于难以将视觉对象和场景与其对应的实体和背景知识之间的所有关联进行准确编码。虽然检索增强方法提供了一种集成外部知识的有效方法，但将其扩展到视觉语言领域存在着独特的挑战：(1) 由于多模态查询中固有的差异，难以从外部来源准确检索相关信息；(2) 难以抵抗检索到的多模态知识片段中包含的无关、多余和嘈杂的信息。在这项工作中，我们介绍了 RORA-VLM，这是一个专为 VLM 量身定制的新颖且强大的检索增强框架，它具有两项关键创新：(1) 一种采用图像锚定文本查询扩展的两阶段检索过程，以协同组合查询中的视觉和文本信息，并检索最相关的多模态知识片段；(2) 一种鲁棒的检索增强方法，通过在检索增强训练过程中注入对抗性噪声，增强 VLM 对检索到的多模态知识中无关信息的抵抗力，并通过面向查询的视觉标记优化策略过滤掉无关的视觉信息，例如图像中呈现的无关实体。我们进行了广泛的实验，以验证我们提出的方法在三个广泛采用的基准数据集上的有效性和鲁棒性。我们的结果表明，只需极少的训练实例，RORA-VLM 就可以使基础模型实现显著的性能提升，并在所有基准测试中始终优于最先进的检索增强 VLM，同时还展现出新颖的零样本域迁移能力。
2024-10-11	VLM See, Robot Do: Human Demo Video to Robot Action Plan via Vision Language Model	null	视觉语言模型 (VLM) 近期因其在常识推理和泛化能力方面的优势被应用于机器人领域。现有工作已将 VLM 应用于从自然语言指令生成任务和运动规划，以及为机器人学习模拟训练数据。在本工作中，我们探索使用 VLM 来解释人类演示视频并生成机器人任务规划。我们的方法将关键帧选择、视觉感知和 VLM 推理集成到一个管道中。我们将其命名为 SeeDo，因为它使 VLM 能够“看到”人类演示并向机器人解释相应的计划，以便机器人“执行”。为了验证我们的方法，我们收集了一组长时程人类视频，演示了三种不同类别中的拾放任务，并设计了一套指标，以全面比较 SeeDo 与几种基线方法（包括最先进的视频输入 VLM）的性能。实验结果表明 SeeDo 具有优越的性能。我们进一步在仿真环境和真实的机器人手臂上部署了生成的的任务计划。
2024-10-11	Superpipeline: A Universal Approach for Reducing GPU Memory Usage in Large Models	link	机器学习模型的快速发展，特别是在自然语言处理和计算机视觉领域，给在资源有限的硬件上运行这些模型带来了挑战。本文介绍了 Superpipeline，这是一个旨在优化大型 AI 模型在训练和推理过程中在受限硬件上执行的新框架。我们的方法涉及通过将模型划分为单独的层并有效地在 GPU 和 CPU 内存之间传输这些层来动态管理模型执行。在我们的实验中，Superpipeline 在保持模型精度和可接受的处理速度的同时，将 GPU 内存使用量减少了高达 60%。这使得原本会超出可用 GPU 内存的模型能够有效运行。与主要关注推理或特定模型类型的现有解决方案不同，Superpipeline 可以应用于大型语言模型 (LLM)、视觉语言模型 (VLM) 和基于视觉的模型。我们在各种模型和硬件设置中测试了 Superpipeline 的性能。该方法包括两个关键参数，允许微调 GPU 内存使用量和处理速度之间的平衡。重要的是，Superpipeline 不需要重新训练或更改模型参数，确保原始模型的输出保持不变。Superpipeline 的简单性和灵活性使其对在有限硬件上使用高级 AI 模型的研究人员和专业人士非常有用。它允许在现有硬件上使用更大的模型或更大的批次大小，从而有可能加快许多机器学习应用的创新。这项工作标志着朝着使高级 AI 模型更易于访问并在资源有限的环境中优化其部署迈出了重要一步。Superpipeline 的代码可在 https://github.com/abbasiReza/super-pipeline 获取。
2024-10-11	Dynamic Multimodal Evaluation with Flexible Complexity by Vision-Language Bootstrapping	link	大型视觉语言模型（LVLM）在视觉感知和推理等多模态任务中表现出非凡的能力，在各种多模态评估基准测试中均取得了良好的性能。然而，这些基准测试保持着静态性，并且与预训练数据重叠，导致复杂度限制固定和数据污染问题。这引发了对评估有效性的担忧。为了应对这两项挑战，我们引入了一种称为视觉语言自举（VLB）的动态多模态评估协议。VLB 为 LVLM 提供了一个稳健且全面的评估，减少了数据污染，并具有灵活的复杂性。为此，VLB 通过多模态自举模块动态生成新的视觉问答样本，该模块修改图像和语言，同时通过判断模块确保新生成的样本与原始样本保持一致。通过组合各种自举策略，VLB 提供了具有不同复杂性的现有基准测试的动态变体，使评估能够随着 LVLM 不断发展的能力而共同发展。跨多个基准测试（包括 SEEDBench、MMBench 和 MME）的大量实验结果表明，VLB 显着减少了数据污染，并暴露了 LVLM 的性能局限性。
2024-10-11	Conjugated Semantic Pool Improves OOD Detection with Pre-trained Vision-Language Models	link	零样本分布外 (OOD) 检测的直接 pipeline 涉及从广泛的语义库中选择潜在的 OOD 标签，然后利用预训练的视觉语言模型对分布内 (ID) 和 OOD 标签执行分类。在本文中，我们提出理论，认为提高性能需要扩展语义库，同时增加 OOD 样本激活所选 OOD 标签的预期概率，并确保这些 OOD 标签的激活之间相互依赖性低。一种自然的扩展方式是采用更大的词库；然而，不可避免地引入大量同义词和不常用词无法满足上述要求，这表明可行的扩展方式不仅仅是从词库中选择词语。由于 OOD 检测旨在将输入图像正确分类到 ID/OOD 类别组中，我们可以“编造”OOD 标签候选，这些候选不是标准类别名称，但有利于该过程。观察到原始语义库由未修改的特定类别名称组成，我们相应地构建了一个共轭语义库 (CSP)，它由修改后的超类别名称组成，每个名称都充当跨不同类别共享相似属性的样本的聚类中心。与我们建立的理论一致，使用 CSP 扩展 OOD 标签候选满足要求，并且在 FPR95 中的性能比现有工作提高了 7.89%。代码可在 https://github.com/MengyuanChen21/NeurIPS2024-CSP 中获得。
2024-10-11	ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification and KV Cache Compression	null	大型视觉语言模型 (LVLMs) 的效率受到预填充阶段注意力机制的计算瓶颈和解码阶段获取键值 (KV) 缓存的内存瓶颈的限制，尤其是在涉及高分辨率图像或视频的情况下。视觉内容通常表现出大量的冗余，导致 LVLMs 中的注意力图高度稀疏。可以利用这种稀疏性，通过各种方法来加速注意力计算或压缩 KV 缓存。然而，大多数研究只关注解决这些瓶颈中的一个，并且没有充分支持根据不同的层或任务动态调整稀疏性。在本文中，我们提出了 ZipVL，这是一个为 LVLMs 设计的高效推理框架，它通过重要标记的动态比率分配策略来解决计算和内存瓶颈。该比率是根据特定层的注意力分数分布自适应确定的，而不是固定的超参数，从而在较简单的任务中提高效率，同时在更具挑战性的任务中保持高性能。然后我们根据归一化后的注意力分数选择重要的标记，并仅对这些重要的标记执行注意力机制，以加速预填充阶段。为了缓解解码阶段的内存瓶颈，我们对 KV 缓存采用混合精度量化，其中对重要标记的缓存使用高比特量化，而对不那么重要的标记的缓存使用低比特量化。我们的实验表明，ZipVL 可以将预填充阶段的速度提高 2.6 倍，并将 GPU 内存使用量减少 50.0%，在 LongVA-7B 模型上的 Video-MME 基准测试中，准确率仅下降了 0.2%，有效地提高了 LVLMs 的生成效率。
2024-10-10	LatteCLIP: Unsupervised CLIP Fine-Tuning via LMM-Synthetic Texts	null	大规模视觉语言预训练 (VLP) 模型（例如 CLIP）以其多功能性而闻名，因为它们可以在零样本设置中应用于各种应用。然而，当这些模型用于特定领域时，由于领域差距或训练数据中这些领域的代表性不足，它们的性能往往不尽如人意。虽然在具有人工标注标签的自定义数据集上微调 VLP 模型可以解决这个问题，但即使是标注小规模数据集（例如，100k 个样本）也可能是一项昂贵的工作，如果任务复杂，通常需要专家标注员。为了应对这些挑战，我们提出了 LatteCLIP，这是一种无监督方法，用于在自定义领域中使用已知类名对 CLIP 模型进行分类微调，而无需依赖人工标注。我们的方法利用大型多模态模型 (LMM) 为单个图像和图像组生成富有表现力的文本描述。这些信息提供了额外的上下文信息，以指导自定义领域中的微调过程。由于 LMM 生成的描述容易出现幻觉或细节缺失，我们引入了一种新策略，仅提取有用信息并稳定训练过程。具体来说，我们从噪声生成的文本和双重伪标签中学习丰富的每类原型表示。我们在 10 个特定领域数据集上的实验表明，LatteCLIP 的性能优于预训练的零样本方法，平均提高了 +4.74 个百分点的 top-1 准确率，并且优于其他最先进的无监督方法 +3.45 个百分点。
2024-10-10	Emerging Pixel Grounding in Large Multimodal Models Without Grounding Supervision	null	当前的大型多模态模型 (LMM) 面临着 grounding 的挑战， grounding 要求模型将语言成分与视觉实体相关联。与使用额外的 grounding 监督微调 LMM 的常见做法相反，我们发现 grounding 能力实际上可以在没有明确 grounding 监督的情况下训练的 LMM 中出现。为了揭示这种新兴的 grounding 能力，我们引入了一种“attend-and-segment”方法，该方法利用来自标准 LMM 的注意力图来执行像素级分割。此外，为了增强 grounding 能力，我们提出了 DIFFLMM，这是一种利用基于扩散的视觉编码器（而不是标准 CLIP 视觉编码器）的 LMM，并使用相同的弱监督进行训练。我们的方法不受限于 grounding 特定监督数据的偏差和规模限制，因此更具通用性和可扩展性。与 grounding LMM 和通才 LMM 相比，我们在 grounding 特定和一般视觉问答基准测试中均取得了有竞争力的性能。值得注意的是，我们在没有任何 grounding 监督的情况下，在 grounded 对话生成方面实现了 44.2 的 grounding 掩码召回率，优于经过广泛监督的模型 GLaMM。项目页面：https://groundLMM.github.io。
2024-10-10	MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models	null	现有的多模态检索基准主要侧重于评估模型是否能够检索和利用外部文本知识来回答问题。然而，在某些情况下，检索视觉信息比文本数据更有益或更容易获取。在本文中，我们介绍了一个多模态检索增强生成基准 MRAG-Bench，在该基准中，我们系统地识别和分类了视觉增强知识优于文本知识的场景，例如，来自不同视角的更多图像。MRAG-Bench 由 16,130 张图像和 1,353 个人工标注的多项选择题组成，涵盖 9 个不同的场景。借助 MRAG-Bench，我们对 10 个开源和 4 个专有的超大型视觉语言模型 (LVLM) 进行了评估。我们的结果表明，与文本知识相比，所有 LVLM 在使用图像增强时都表现出更大的改进，这证实了 MRAG-Bench 以视觉为中心的特点。此外，我们使用 MRAG-Bench 进行了广泛的分析，为了解检索增强型 LVLM 提供了宝贵的见解。值得注意的是，表现最佳的模型 GPT-4o 在有效利用检索到的知识方面面临挑战，在使用真实信息的情况下仅实现了 5.82% 的改进，而人类参与者观察到的改进为 33.16%。这些发现突出了 MRAG-Bench 在鼓励社区增强 LVLM 更有效地利用检索到的视觉知识方面的能力的重要性。
2024-10-10	Q-VLM: Post-training Quantization for Large Vision-Language Models	link	在本文中，我们提出了一种针对大型视觉语言模型 (LVLMs) 的训练后量化框架，以实现高效的多模态推理。传统的量化方法通过最小化激活离散化误差来顺序搜索逐层舍入函数，这种方法由于没有考虑跨层依赖性，因此无法获得最佳量化策略。相反，我们挖掘了对整个视觉语言模型的离散化误差有显著影响的跨层依赖性，并将这种依赖性嵌入到低搜索成本的最佳量化策略搜索中。具体来说，我们观察到激活熵和跨层依赖性之间存在强相关性，这与输出离散化误差有关。因此，我们采用熵作为代理来优化分区块，旨在在离散化误差和搜索成本之间取得令人满意的平衡。此外，我们优化了视觉编码器以解耦跨层依赖性，从而对搜索空间进行细粒度分解，从而在不损害量化精度的情况下进一步降低搜索成本。实验结果表明，我们的方法在不降低各种多模态推理任务性能的情况下，将大约 13B LLaVA 模型的内存压缩了 2.78 倍，并将生成速度提高了 1.44 倍。代码可在 https://github.com/ChangyuanWang17/QVLM 获取。
2024-10-10	Unsupervised Data Validation Methods for Efficient Model Training	null	本文探讨了改进低资源语言机器学习系统所面临的挑战和潜在解决方案。自然语言处理 (NLP)、文本到语音 (TTS)、语音到文本 (STT) 和视觉语言模型 (VLM) 中的最新模型严重依赖于大型数据集，而这些数据集通常不适用于低资源语言。本研究探讨了关键领域，例如定义“高质量数据”、开发生成适当数据的方法以及增强模型训练的可访问性。对当前方法的全面回顾，包括数据增强、多语言迁移学习、合成数据生成和数据选择技术，突出了进步和局限性。确定了几个开放的研究问题，为未来旨在优化数据利用、减少所需数据量和保持高质量模型性能的研究提供了框架。通过应对这些挑战，本文旨在使低资源语言更容易获得先进的机器学习模型，从而增强其在各个领域的效用和影响力。
2024-10-10	HeGraphAdapter: Tuning Multi-Modal Vision-Language Models with Heterogeneous Graph Adapter	null	基于适配器的调优方法在将知识从预训练的视觉语言模型迁移到下游任务方面已显示出巨大潜力。然而，在回顾现有的适配器后，我们发现它们通常无法充分探索构建特定任务知识时不同模态之间的交互。此外，现有工作通常只关注正文本提示之间的相似性匹配，这使得区分具有高度相似视觉内容的类别变得具有挑战性。为了解决这些问题，在本文中，我们提出了一种新颖的异构图适配器来实现下游任务的视觉语言模型微调。具体来说，我们首先构建了一个统一的异构图模式，它包含 i) 视觉节点、正文本节点和负文本节点，以及 ii) 几种类型的边连接，以全面地对模态内、模态间和类间结构知识进行建模。接下来，我们采用特定的异构图神经网络来挖掘多模态结构知识，以便为下游任务调整视觉和文本特征。最后，在HeGraphAdapter之后，我们同时构建基于文本和基于视觉的分类器，以全面提升CLIP模型的性能。在 11 个基准数据集上的实验结果证明了所提出的 HeGraphAdapter 的有效性和优势。
2024-10-10	FLIER: Few-shot Language Image Models Embedded with Latent Representations	null	随着像对比语言-图像预训练 (CLIP) 这样的大型视觉语言模型的快速发展，许多类似 CLIP 的方法在视觉识别方面表现出了令人印象深刻的能力，尤其是在低数据场景下。然而，我们注意到大多数这些方法仅限于对文本和图像编码器进行新的修改。最近，潜在扩散模型 (LDM) 在图像生成方面表现出了良好的能力。LDM 的强大能力将我们的注意力引向了 UNet 采样的潜在表示。受 CoOp 中学习到的提示编码超出现有词汇量的含义的猜想的启发，我们假设，对于深度模型，潜在表示是对图像的简洁准确的理解，其中抽象掉了高频的、不可感知的细节。在本文中，我们提出了一种融合潜在表示的少样本语言图像模型 (FLIER)，通过引入一个与 CLIP 的图像编码器联合训练的潜在编码器来进行图像识别，它结合了 CLIP 的预训练视觉语言知识和稳定扩散的潜在表示。我们首先通过稳定扩散使用 GPT-3 的文本输入生成图像和相应的潜在表示。将潜在表示作为“模型可理解的像素”，我们引入了一个具有两个卷积层的灵活卷积神经网络作为潜在编码器，它比视觉语言模型中的大多数编码器都简单。潜在编码器与 CLIP 的图像编码器联合训练，可以更好地将预训练的知识迁移到下游任务。在各种视觉分类任务上的实验和广泛的消融研究表明，FLIER 在大多数少样本分类的 11 个数据集上表现出最先进的性能。
2024-10-10	A Unified Debiasing Approach for Vision-Language Models across Modalities and Tasks	link	视觉语言模型 (VLM) 的最新进展使得通过同时处理文本和图像数据来完成复杂的多模态任务成为可能，从而显著增强了人工智能领域。然而，这些模型经常表现出偏差，这些偏差会导致输出偏向社会刻板印象，因此需要去偏差策略。现有的去偏差方法狭隘地关注特定的模态或任务，并且需要大量的再训练。为了解决这些限制，本文介绍了用于去偏差的选择性特征插补 (SFID)，这是一种集成了特征剪枝和低置信度插补 (LCI) 的新方法，可以有效减少 VLM 中的偏差。SFID 具有多种功能，可以保持输出的语义完整性，并且通过消除重新训练的需要来节省成本。我们的实验结果证明了 SFID 在各种 VLM 任务中的有效性，包括零样本分类、文本到图像检索、图像字幕和文本到图像生成，通过在不影响性能的情况下显着减少性别偏差。这种方法不仅增强了 VLM 应用的公平性，而且还保留了它们在不同场景中的效率和实用性。
2024-10-10	3D Vision-Language Gaussian Splatting	null	近年来，三维重建方法和视觉语言模型的进步推动了多模态三维场景理解的发展，这在机器人技术、自动驾驶以及虚拟/增强现实中具有至关重要的应用。然而，当前的多模态场景理解方法简单地将语义表示嵌入到三维重建方法中，而没有在视觉和语言模态之间取得平衡，这导致半透明或反射性物体的语义栅格化效果不理想，以及对颜色模态的过度拟合。为了缓解这些限制，我们提出了一种充分处理不同视觉和语义模态的解决方案，即用于场景理解的三维视觉语言高斯散射模型，以强调语言模态的表示学习。我们提出了一种新颖的跨模态栅格化器，使用模态融合以及平滑语义指示器来增强语义栅格化。我们还采用了相机视图混合技术来提高现有视图和合成视图之间的语义一致性，从而有效地减轻过度拟合。大量实验表明，我们的方法在开放词汇语义分割方面达到了最先进的性能，明显优于现有方法。
2024-10-09	The Cognitive Capabilities of Generative AI: A Comparative Analysis with Human Benchmarks	null	人们越来越关注追踪通用人工智能基础模型的能力。本研究以韦氏成人智力量表（WAIS-IV）为基准，将领先的大型语言模型和视觉语言模型与人类表现进行了比较。WAIS-IV是一种全面、以人群为规范的潜在人类认知和智力能力评估，重点关注语言理解（VCI）、工作记忆（WMI）和知觉推理（PRI）领域。大多数模型在存储、检索和处理诸如字母和数字的任意序列等token方面表现出卓越的能力，与人类群体规范能力相比，工作记忆指数（WMI）的表现等于或大于99.5%。语言理解指数（VCI）衡量的是对获得信息的检索，以及对单词含义及其相互关系的语言理解，其表现也始终保持在98%或以上。尽管有这些广泛的优势，但我们观察到，多模态模型在知觉推理指数（PRI；范围0.1-10%）上的表现一直很差，这表明其在解释和推理视觉信息方面存在严重不足。较小和较旧的模型版本的表现始终较差，这表明训练数据、参数数量和微调方面的进步正在导致认知能力的显著进步。
2024-10-07	Fine-Tuning CLIP's Last Visual Projector: A Few-Shot Cornucopia	link	我们研究了如何将像 CLIP (Radford et al., 2021) 这样的对比预训练视觉语言模型应用于少样本分类问题。现有文献通过学习冻结视觉特征的线性分类器、优化词嵌入或学习外部特征适配器来解决这个问题。本文介绍了一种无需添加“外部”参数来优化 CLIP 自适应的替代方法。我们发现，与现有的基线相比，简单地微调视觉编码器的最后一个投影矩阵就能获得强大的性能。此外，我们发现，通过微调矩阵和预训练矩阵之间的距离对训练进行正则化，可以提高通过该层自适应 CLIP 的可靠性。也许令人惊讶的是，这种被称为 ProLIP 的方法在 11 个少样本分类基准测试、少样本域泛化、跨数据集迁移和测试时自适应方面取得了与最先进水平相当或更好的性能。代码将在 https://github.com/astra-vision/ProLIP 上提供。
2024-10-07	TextHawk2: A Large Vision-Language Model Excels in Bilingual OCR and Grounding with 16x Fewer Tokens	null	阅读密集文本和定位图像中的物体是大规模视觉语言模型 (LVLM) 执行高级任务的基本能力。以前的 LVLM，包括像 GPT-4o 这样的优秀专有模型，都难以同时在这两项任务中表现出色。此外，以前具有细粒度感知能力的 LVLM 每张图像需要消耗数千个标记，这使得它们非常消耗资源。我们提出了 TextHawk2，这是一种双语 LVLM，具有高效的细粒度感知能力，并在通用、OCR 和 grounding 任务中展现出最先进的性能，同时图像标记数量减少了 16 倍。关键改进包括：(1) 标记压缩：TextHawk2 建立在其前身的有效架构之上，将每张图像的标记数量显著减少了 16 倍，从而能够以最少的资源促进 TextHawk 系列的训练和部署。(2) 视觉编码器增强：我们通过 LVLM 联合训练增强了视觉编码器，从而释放了其在中文 OCR 和 grounding 等以前未见任务中的潜力。(3) 数据多样性：我们在保持 1 亿个样本的相当规模的同时，使预训练数据的来源多样化。我们在多个基准测试中评估了 TextHawk2，它始终如一地提供卓越的性能，并优于类似规模的闭源模型，例如在 OCRBench 上实现了 78.4% 的准确率，在 ChartQA 上实现了 81.4% 的准确率，在 DocVQA 上实现了 89.6% 的 ANLS，以及在 RefCOCOg-test 上实现了 88.1% 的 accuracy@0.5。
2024-10-07	TuneVLSeg: Prompt Tuning Benchmark for Vision-Language Segmentation Models	link	视觉语言模型 (VLM) 在视觉任务中表现出色，但将其应用于新领域通常需要昂贵的微调。提示调整技术，包括文本、视觉和多模态提示，通过利用可学习的提示提供了有效的替代方案。然而，它们在视觉语言分割模型 (VLSM) 中的应用以及在显著领域迁移下的评估仍有待探索。本研究提出了一个开源基准测试框架 TuneVLSeg，将各种单模态和多模态提示调整技术集成到 VLSM 中，使得提示调整适用于任何类别数量的下游分割数据集。TuneVLSeg 包括在 2 个 VLSM 中使用的不同提示深度上的 6 种提示调整策略，总共 8 种不同的组合。我们在 8 个不同的医学数据集上测试了各种提示调整，包括 3 个放射学数据集（乳腺肿瘤、超声心动图、胸部 X 光片病变）和 5 个非放射学数据集（息肉、溃疡、皮肤癌），以及两个自然领域分割数据集。我们的研究发现，文本提示调整在从自然领域图像到医学数据的显著领域迁移下表现不佳。此外，与多模态提示调整相比，视觉提示调整具有更少的超参数，通常可以实现与多模态方法相当的性能，使其成为一种有价值的首次尝试。我们的工作促进了对不同提示调整技术在鲁棒的特定领域分割中的理解和适用性。源代码可在 https://github.com/naamiinepal/tunevlseg 获取。
2024-10-07	LADEV: A Language-Driven Testing and Evaluation Platform for Vision-Language-Action Models in Robotic Manipulation	null	基于大型语言模型（LLMs）和视觉语言模型（VLMs）的进步，近期的研究引入了视觉-语言-动作（VLA）模型作为机器人操作任务的集成解决方案。这些模型将相机图像和自然语言任务指令作为输入，直接生成机器人的控制动作来执行指定任务，极大地提高了决策能力和与人类用户的交互。然而，VLA模型的数据驱动特性，加上其缺乏可解释性，使得确保其有效性和鲁棒性成为一项具有挑战性的任务。这突出了对可靠测试和评估平台的需求。为此，在这项工作中，我们提出了LADEV，这是一个专门为评估VLA模型而设计的综合高效平台。我们首先提出了一种语言驱动的方法，可以根据自然语言输入自动生成仿真环境，从而减少了手动调整的需求，并显著提高了测试效率。然后，为了进一步评估语言输入对VLA模型的影响，我们实现了一种释义机制，可以生成不同的自然语言任务指令进行测试。最后，为了加快评估过程，我们引入了一种批量式方法来对VLA模型进行大规模测试。使用LADEV，我们对几种最先进的VLA模型进行了实验，证明了其作为评估这些模型的工具的有效性。我们的结果表明，LADEV不仅提高了测试效率，而且为评估VLA模型建立了坚实的基础，为开发更智能、更先进的机器人系统铺平了道路。
2024-10-07	HE-Drive: Human-Like End-to-End Driving with Vision Language Models	null	本文提出了HE-Drive：第一个以类人为中心的端到端自动驾驶系统，用于生成时间一致且舒适的轨迹。最近的研究表明，基于模仿学习的规划器和基于学习的轨迹评分器可以有效地生成和选择与专家演示非常相似的精确轨迹。然而，这种轨迹规划器和评分器面临着生成时间不一致和不舒适轨迹的困境。为了解决上述问题，我们的HE-Drive首先通过稀疏感知提取关键的3D空间表示，然后将其作为基于条件去噪扩散概率模型（DDPMs）的运动规划器的条件输入，以生成时间一致的多模态轨迹。随后，视觉语言模型（VLMs）引导的轨迹评分器从这些候选轨迹中选择最舒适的轨迹来控制车辆，确保类人的端到端驾驶。实验表明，HE-Drive不仅在具有挑战性的nuScenes和OpenScene数据集上实现了最先进的性能（即将平均碰撞率降低了71%比VAD）和效率（即比SparseDrive快1.9倍），而且在真实世界的数据上提供了最舒适的驾驶体验。更多信息请访问项目网站：https://jmwang0117.github.io/HE-Drive/。
2024-10-07	Patch is Enough: Naturalistic Adversarial Patch against Vision-Language Pre-training Models	null	视觉语言预训练 (VLP) 模型在各个领域都取得了显著成功，但它们仍然容易受到对抗性攻击。解决这些对抗性漏洞对于增强多模态学习的安全性至关重要。传统上，针对 VLP 模型的对抗性方法涉及同时扰动图像和文本。然而，这种方法面临着显著的挑战：首先，对抗性扰动通常无法有效地转化为现实场景；其次，对文本的直接修改非常明显。为了克服这些限制，我们提出了一种新策略，该策略专门使用图像补丁进行攻击，从而保持原始文本的完整性。我们的方法利用来自扩散模型的先验知识来增强扰动的真实性和自然性。此外，为了优化补丁放置并提高攻击的效率，我们利用了交叉注意力机制，该机制通过生成注意力图来封装模态间交互，以指导战略性补丁放置。在图像到文本场景的白盒设置中进行的综合实验表明，我们提出的方法明显优于现有技术，实现了 100% 的攻击成功率。此外，它在涉及文本到图像配置的迁移任务中表现出 commendable 的性能。
2024-10-05	TUBench: Benchmarking Large Vision-Language Models on Trustworthiness with Unanswerable Questions	link	大型视觉语言模型 (LVLM) 在视觉感知和语言理解方面取得了显著进展。尽管它们在各种任务中表现出色，但 LVLM 仍然存在幻觉问题，即生成与视觉或文本输入不正确或不忠实的内容。传统的基准测试，如 MME 和 POPE，使用可回答的问题在视觉问答 (VQA) 范围内评估 LVLM 中的幻觉。然而，由于图像中信息不足，有些问题无法回答，而 LVLM 在此类无法回答的问题上的表现仍未得到充分探索。为了弥合这一研究差距，我们提出了 TUBench，这是一个专门用于使用无法回答的问题评估 LVLM 可靠性的基准测试。TUBench 包含大量高质量的、无法回答的问题，这些问题是使用十种不同的策略精心制作的。为了全面评估 LVLM，TUBench 中的无法回答的问题基于来自四个不同领域的图像作为视觉上下文：代码片段的屏幕截图、自然图像、几何图形和统计表的屏幕截图。这些无法回答的问题分别用于测试 LVLM 在代码推理、常识推理、几何推理和与表格相关的数学推理方面的可信度。我们对 TUBench 上的 28 个领先基础模型进行了全面的定量评估，其中表现最佳的模型 Gemini-1.5-Pro 在确定问题是否可回答方面达到了 69.2% 的平均准确率，排名第三的模型 GPT-4o 则达到了 66.7% 的平均准确率。TUBench 可在 https://github.com/NLPCode/TUBench 获取。
2024-10-05	Self-Correction is More than Refinement: A Learning Framework for Visual and Language Reasoning Tasks	link	虽然视觉语言模型 (VLM) 在视觉和语言推理任务中表现出非凡的能力，但它们也不可避免地会产生错误的响应。自我纠正，即指导模型改进其输出，为解决这个问题提供了一种很有前景的解决方案。以往的研究主要集中在大型语言模型 (LLM) 上，而 VLM 的自我纠正能力，特别是在视觉和语言信息方面的能力，在很大程度上仍未得到检验。本研究调查了 VLM 在推理和微调阶段的自我纠正能力。我们介绍了一种自我纠正学习 (SCL) 方法，该方法使 VLM 能够通过直接偏好优化 (DPO) 从其自我生成的自我纠正数据中学习，而无需依赖外部反馈，从而促进自我改进。具体来说，我们根据初始和改进响应的正确性收集偏好和不偏好的样本，这些样本是通过在推理阶段使用 VLM 进行两轮自我纠正获得的。实验结果表明，虽然 VLM 在没有额外微调和外部反馈的情况下难以在迭代推理过程中有效地进行自我纠正，但当它们自我生成的自我纠正数据被分类为偏好和不偏好样本时，它们可以通过偏好微调来提高性能并避免以前的错误。这项研究强调，自我纠正不仅仅是一个改进过程；相反，它应该通过额外的训练来增强模型的推理能力，使其能够直接生成高质量的响应，而无需进一步改进。
2024-10-05	Gamified crowd-sourcing of high-quality data for visual fine-tuning	null	本文介绍了游戏化对抗提示 (GAP)，这是一个为大型多模态模型的视觉指令微调进行众包高质量数据的框架。GAP 将数据收集过程转化为引人入胜的游戏，激励玩家提供针对模型知识差距的细粒度、具有挑战性的问题和答案。我们的贡献包括 (1) 一种从人类那里捕获问答对的方法，这些问答对直接针对模型知识中的弱点，(2) 一种评估和奖励玩家的方法，该方法成功地激励他们提供高质量的提交内容，以及 (3) 一个可扩展的游戏化平台，该平台成功地在几周内从超过 50,000 名参与者那里收集了这些数据。我们对 GAP 的实现显着提高了小型多模态模型 MiniCPM-Llama3-V-2.5-8B 的准确性，将其在我们数据集上的 GPT 分数从 0.147 提高到 0.477，接近更大的 GPT-4V 所设定的基准。此外，我们证明了使用 MiniCPM-Llama3-V-2.5-8B 生成的数据也增强了其在其他基准测试中的性能，并展现出跨模型的优势。具体来说，相同的数据提高了 QWEN2-VL-2B 和 QWEN2-VL-7B 在相同多个基准测试中的性能。
2024-10-04	Model Developmental Safety: A Safety-Centric Method and Applications in Vision-Language Models	link	在现实世界中，学习型系统通常会经历多个模型开发周期，以增强系统处理困难或新出现任务的能力。这种持续的模型开发过程提出了一个重要问题，即为获取新能力或改进现有能力而进行的模型开发可能会无意中失去旧模型的能力，也称为灾难性遗忘。现有的持续学习研究侧重于通过权衡先前任务和新任务的性能来减轻灾难性遗忘，以确保良好的平均性能。然而，它们不足以用于许多应用，特别是在安全关键领域，因为未能严格保持旧模型的性能不仅会带来安全风险和不确定性，还会在重新改进和重新验证现有属性方面造成巨大开销。为了解决这个问题，我们引入了模型开发安全作为学习系统的保证，即在模型开发过程中，新模型应严格保留旧模型现有的受保护能力，同时提高其在目标任务上的性能。为了确保模型开发安全，我们提出了一个以安全为中心的框架，将模型开发安全制定为依赖于数据的约束。在这个框架下，我们研究了如何开发一个预训练的视觉语言模型（又称 CLIP 模型），以获得新的能力或改进现有的图像分类能力。我们提出了一种具有理论保证的高效约束优化算法，并利用其见解微调具有任务依赖头的 CLIP 模型，以促进模型开发安全。我们在自动驾驶和场景识别数据集上改进视觉感知能力的实验结果证明了该方法的有效性。
2024-10-04	Generalizable Prompt Tuning for Vision-Language Models	null	针对诸如 CLIP 等视觉语言模型的提示调优涉及优化用于为特定下游任务生成图像-文本对的文本提示。虽然手工制作或基于模板的提示通常适用于更广泛的未见类别，但它们在下游任务（即已见类别）中往往表现不佳。另一方面，可学习的软提示通常在下游任务中表现良好，但缺乏泛化性。此外，先前的研究主要集中在文本模态上，很少有研究试图从视觉模态探索提示的泛化潜力。考虑到这些限制，我们研究了如何进行提示调优以获得具有竞争力的下游性能和泛化能力。研究表明，通过将软提示和手工提示视为文本模态的双重视图，并最大化它们的互信息，我们可以更好地集成特定任务的语义信息和通用语义信息。此外，为了生成更具表达力的提示，该研究引入了来自视觉模态的类别增强，从而显著提高了对更广泛的未见类别的鲁棒性。对多个基准的广泛评估表明，所提出的方法在特定任务性能和泛化能力方面都取得了具有竞争力的结果。
2024-10-04	Investigating and Mitigating Object Hallucinations in Pretrained Vision-Language (CLIP) Models	link	大型视觉语言模型 (LVLM) 已经取得了令人瞩目的性能，但研究指出，这些模型存在严重的物体幻觉问题。然而，对于这些幻觉源自模型的哪个部分，目前还没有明确的结论。在本文中，我们深入研究了 CLIP 模型中的物体幻觉问题，CLIP 模型是许多最先进的视觉语言系统的支柱。我们揭示了即使是单独使用，CLIP 模型也容易出现物体幻觉，这表明幻觉问题不仅仅是由于视觉和语言模态之间的交互造成的。为了解决这个问题，我们提出了一种反事实数据增强方法，通过创建具有各种幻觉问题的负样本来实现。我们证明了我们的方法可以有效地减轻 CLIP 模型的物体幻觉，并且我们展示了增强后的模型可以用作视觉编码器，有效地缓解了 LVLMs 中的物体幻觉问题。
2024-10-04	AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark	null	视频详细字幕生成是一项关键任务，旨在生成对视频内容全面而连贯的文本描述，有利于视频理解和生成。在本文中，我们提出了 AuroraCap，一个基于大型多模态模型的视频字幕生成器。我们遵循最简单的架构设计，没有为时间建模添加额外的参数。为了解决长视频序列带来的开销，我们实施了标记合并策略，减少了输入视觉标记的数量。令人惊讶的是，我们发现这种策略几乎没有造成性能损失。AuroraCap 在各种视频和图像字幕基准测试中表现出色，例如，在 Flickr30k 上获得了 88.9 的 CIDEr 分数，超过了 GPT-4V (55.3) 和 Gemini-1.5 Pro (82.2)。然而，现有的视频字幕基准测试只包含简单的描述，由几十个词组成，这限制了该领域的研究。因此，我们开发了 VDC，这是一个包含一千多个精心标注的结构化字幕的视频详细字幕基准测试。此外，我们提出了一种新的 LLM 辅助指标 VDCscore，用于改进评估，该指标采用分治策略将长字幕评估转化为多个简短的问答对。在人工 Elo 排名的帮助下，我们的实验表明，该基准测试与人类对视频详细字幕质量的判断具有更好的相关性。
2024-10-03	CPFD: Confidence-aware Privileged Feature Distillation for Short Video Classification	null	在短视频分类中，针对不同业务场景定制的密集特征至关重要。然而，它们的复杂性、特定的适应性要求和高计算成本使得它们在在线推理过程中资源密集且难以访问。因此，这些密集特征被称为“特权密集特征”。同时，端到端多模态模型在众多计算机视觉任务中显示出良好的效果。在工业应用中，优先考虑端到端多模态特征可以提高效率，但往往会导致丢失历史特权密集特征中的宝贵信息。为了在保持效率和可管理的资源成本的同时整合这两种特征，我们提出了置信度感知的特权特征蒸馏（CPFD），它通过在训练过程中自适应地提取特权特征来增强端到端多模态模型的特征。与现有的特权特征蒸馏（PFD）方法不同，CPFD不会在蒸馏过程中对所有实例应用统一的权重（这可能会导致不同业务场景下的性能不稳定，以及教师模型（密集特征增强的多模态模型DF-X-VLM）和学生模型（仅使用多模态模型X-VLM）之间存在显著的性能差距），而是利用从教师模型中获得的置信度分数来自适应地减轻学生模型的性能差异。我们在五个不同的任务上进行了广泛的离线实验，结果表明，与端到端多模态模型（X-VLM）相比，CPFD将视频分类的F1分数提高了6.76%，与普通的PFD相比平均提高了2.31%。它将性能差距缩小了84.6%，并取得了与教师模型DF-X-VLM相当的结果。在线实验进一步证实了CPFD的有效性，我们的框架已经部署到生产系统中，用于十多个模型。
2024-10-03	MMP: Towards Robust Multi-Modal Learning with Masked Modality Projection	null	多模态学习旨在结合来自多个输入源的数据，以提高不同下游任务的性能。在现实场景中，如果缺少某些输入模态，性能可能会大幅下降。现有的可以处理缺失模态的方法包括针对每个输入模态组合进行定制训练或适应步骤。这些方法要么绑定到特定的模态，要么随着输入模态数量的增加而变得计算成本高昂。在本文中，我们提出了掩蔽模态投影（MMP），这是一种旨在训练单个模型的方法，该模型对任何缺失模态场景都具有鲁棒性。我们通过在训练期间随机掩蔽一部分模态并学习投影可用的输入模态来估计掩蔽模态的标记来实现这一点。这种方法使模型能够有效地学习利用来自可用模态的信息来补偿缺失的模态，从而增强缺失模态的鲁棒性。我们使用各种基线模型和数据集进行了一系列实验，以评估该策略的有效性。实验表明，我们的方法提高了对不同缺失模态场景的鲁棒性，优于为缺失模态或特定模态组合设计的现有方法。
2024-10-03	Real-World Cooking Robot System from Recipes Based on Food State Recognition Using Foundation Models and PDDL	null	尽管机器人烹饪行为的需求日益增长，但基于机器人在现实世界中对新食谱描述的一系列烹饪行为尚未实现。在本研究中，我们提出了一种机器人系统，该系统集成了使用大型语言模型 (LLM) 和 PDDL 描述的经典规划的可执行的真实世界机器人烹饪行为规划，以及使用视觉语言模型 (VLM) 从少量数据中学习食物成分状态识别。我们成功地进行了实验，在实验中，双臂轮式机器人 PR2 在真实环境中根据安排的新食谱进行烹饪，并确认了所提出系统的有效性。
2024-10-03	Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos	null	最近，越来越多的人认为现代大型多模态模型 (LMM) 已经解决了与短视频理解相关的大多数关键挑战。因此，学术界和工业界都逐渐将注意力转向理解长视频带来的更复杂挑战。然而，事实真的如此吗？我们的研究表明，即使在处理短视频时，LMM 仍然缺乏许多基本的推理能力。我们介绍了 Vinoground，这是一个包含 1000 个短而自然的视频-字幕对的时间反事实 LMM 评估基准。我们证明，现有的 LMM 很难区分不同动作和对象转换之间的时间差异。例如，最佳模型 GPT-4o 在我们的文本和视频得分中仅获得约 50% 的分数，与约 90% 的人类基线相比存在较大差距。所有开源多模态模型和基于 CLIP 的模型表现更差，产生的结果大多是随机的。通过这项工作，我们揭示了短视频中的时间推理是一个尚未完全解决的问题。数据集和评估代码可在 https://vinoground.github.io 获取。
2024-10-03	Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations	link	我们研究了视觉语言模型 (VLM) 的内部表征，以解决幻觉问题，尽管模型规模和训练方面取得了进步，但这仍然是一个持续的挑战。我们将 VLM 的内部图像表征投影到它们的语言词汇表中，并观察到真实物体的输出概率比幻觉物体更有信心。我们还使用这些输出概率来对真实物体进行空间定位。在此方法的基础上，我们引入了一种知识擦除算法，通过线性正交化图像特征和幻觉物体特征来消除幻觉。我们表明，对模型潜在表征的有针对性的编辑可以将 COCO2014 数据集上的幻觉减少高达 25.7%，同时保持性能。我们的研究结果表明，更深入地理解 VLM 的潜在表征可以增强可靠性并实现新的功能，例如零样本分割。
2024-10-03	Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models	null	多模态模型的最新进展突出了重写图像描述对于提高性能的价值，但也存在一些关键挑战。例如，虽然合成图像描述通常提供更高的质量和图文对齐性，但尚不清楚它们是否可以完全替代 AltTexts：合成图像描述的作用及其与原始网络抓取的 AltTexts 在预训练中的交互作用仍不清楚。此外，不同的多模态基础模型可能对特定的图像描述格式有独特的偏好，但确定每个模型的最佳图像描述的努力仍然有限。在这项工作中，我们提出了一种新颖的、可控的和可扩展的图像描述生成流程，旨在生成适合各种多模态模型的不同图像描述格式。通过以简短合成图像描述 (SSC) 和密集合成图像描述 (DSC+) 作为案例研究，我们系统地探索了它们对 CLIP、多模态 LLM 和扩散模型等模型的影响以及与 AltTexts 的交互作用。我们的研究结果表明，保留合成图像描述和 AltTexts 的混合方法可以优于单独使用合成图像描述，从而提高对齐性和性能，并且每个模型都表现出对特定图像描述格式的偏好。这种全面的分析为优化图像描述策略提供了宝贵的见解，从而推进了多模态基础模型的预训练。
2024-10-03	DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects	link	在未知环境中进行物体导航对于在现实世界应用中部署具身代理至关重要。虽然由于大规模场景数据集、更快的模拟器和更强大的模型，我们已经目睹了巨大的进步，但之前的研究主要集中在有限的场景类型和目标物体上。在本文中，我们研究了在大量场景类型中导航到不同目标物体的新任务。为了对该问题进行基准测试，我们提出了一个大规模场景数据集 DivScene，其中包含跨越 81 种不同类型的 4,614 个场景。利用该数据集，我们通过模仿学习微调大型视觉语言模型 (LVLM)，构建了一个端到端的具身代理 NatVLM。LVLM 被训练用于获取来自环境的先前观察结果并生成下一步动作。我们还引入了动作预测的思维链 (CoT) 解释轨迹，以便在调整 LVLM 时获得更好的性能。我们广泛的实验发现，我们可以通过对由 BFS 规划器构建的最短路径进行模仿学习来构建性能良好的基于 LVLM 的代理，而无需任何人工监督。我们的代理实现了超过 GPT-4o 20% 以上的成功率。同时，我们进行了各种分析，展示了我们代理的泛化能力。
2024-10-03	Video Instruction Tuning With Synthetic Data	null	视频大型多模态模型 (LMM) 的发展一直受到从网络获取大量高质量原始数据的难度的阻碍。为了解决这个问题，我们提出了一种替代方法，即创建一个专门用于视频指令遵循的高质量合成数据集，即 LLaVA-Video-178K。该数据集包括关键任务，例如详细字幕、开放式问答 (QA) 和多项选择 QA。通过结合现有的视觉指令调整数据对该数据集进行训练，我们推出了一个新的视频 LLM，即 LLaVA-Video。我们的实验表明，LLaVA-Video 在各种视频基准测试中均取得了出色的性能，突出了我们数据集的有效性。我们计划发布数据集、其生成管道和模型检查点。
2024-10-03	LLaVA-Critic: Learning to Evaluate Multimodal Models	null	我们推出了 LLaVA-Critic，这是第一个开源的大型多模态模型 (LMM)，它被设计成一个通用的评估器，用于评估各种多模态任务的性能。LLaVA-Critic 使用高质量的批评指令遵循数据集进行训练，该数据集包含不同的评估标准和场景。我们的实验结果证明了该模型在两个关键领域的有效性：(1) LMM 作为评判者，LLaVA-Critic 提供可靠的评估分数，在多个评估基准上表现与 GPT 模型相当或更优；(2) 偏好学习，它为偏好学习生成奖励信号，增强模型对齐能力。这项工作强调了开源 LMM 在自我批评和评估方面的潜力，为未来研究 LMM 可扩展的、超人的对齐反馈机制奠定了基础。
2024-10-03	Understanding and Mitigating Miscalibration in Prompt Tuning for Vision-Language Models	null	置信度校准对于机器学习模型在现实世界中的安全部署至关重要。然而，像 CLIP 这样的视觉语言模型，特别是在微调之后，尚未完全解决这个问题。本研究表明，现有的提示微调方法通常会导致基础类别和新类别之间校准的权衡：CoOp 中的交叉熵损失通过增加文本标签差异导致对新类别的过度自信，而 KgCoOp 的正则化保持了置信度水平，但由于准确性的提高，导致对基础类别的不自信。受这些观察结果的启发，我们引入了动态异常值正则化 (DOR) 来确保微调后对基础类别和新类别的置信度校准。特别是，我们建议最小化从大型词汇表中采样的新文本标签（而不是基础类别）的特征偏差。实际上，DOR 阻止了新标签的文本差异的增加，同时放宽了对基础类别的限制。大量实验表明，DOR 可以增强当前微调方法在基础类别和新类别上的校准性能。
2024-10-03	Guiding Long-Horizon Task and Motion Planning with Vision Language Models	null	视觉语言模型 (VLM) 能够在被提示目标、上下文、场景图像和任何规划约束时生成看似合理的高级计划。但是，无法保证预测的动作对于特定的机器人实施方案在几何和运动学上是可行的。因此，在他们的计划中，许多先决条件步骤（例如打开抽屉以获取物体）经常被省略。机器人任务和运动规划器可以生成尊重动作几何可行性的运动轨迹，并插入物理上必要的动作，但无法扩展到需要常识知识并涉及由许多变量组成的大状态空间的日常问题。我们提出了 VLM-TAMP，这是一种分层规划算法，它利用 VLM 生成语义上有意义且减少范围的中间子目标，从而指导任务和运动规划器。当子目标或动作无法细化时，将再次查询 VLM 以进行重新规划。我们在厨房任务中评估 VLM-TAMP，其中机器人必须完成需要按顺序执行 30-50 个动作并与多达 21 个物体交互的烹饪目标。VLM-TAMP 的性能大大优于严格且独立地执行 VLM 生成的动作序列的基线，无论是在成功率（50% 到 100% 对比 0%）还是平均任务完成百分比（72% 到 100% 对比 15% 到 45%）。有关更多信息，请参阅项目网站 https://zt-yang.github.io/vlm-tamp-robot/。
2024-10-02	Anchors Aweigh! Sail for Optimal Unified Multi-Modal Representations	null	多模态学习在使机器学习模型能够融合和利用文本、图像和音频等不同数据源以支持各种下游任务方面发挥着至关重要的作用。跨各种模态的统一表示对于提高效率和性能尤为重要。最近的绑定方法，如ImageBind（Girdhar等人，2023），通常使用固定的锚点模态来对齐锚点模态嵌入空间中的多模态数据。在本文中，我们对固定锚点绑定方法进行了数学分析，并发现了其显著的局限性：（1）过度依赖于锚点模态的选择，（2）无法捕获模态内信息，以及（3）无法解释非锚点模态之间的模态间相关性。为了解决这些局限性，我们提出了CentroBind，这是一种简单而强大的方法，它消除了对固定锚点的需求；相反，它采用从所有可用模态生成的动态可调的基于质心的锚点，从而产生平衡且丰富的表示空间。我们从理论上证明了我们的方法捕获了多模态学习的三个关键属性：模态内学习、模态间学习和多模态对齐，同时还在所有模态中构建了一个稳健的统一表示。我们在合成数据集和真实世界数据集上的实验都证明了该方法的优越性，表明动态锚点方法优于所有固定锚点绑定方法，因为前者捕获了更细微的多模态交互。
2024-10-02	Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning	null	自主智能体在自动化复杂的多步决策任务中展现出巨大潜力。然而，即使是最先进的视觉语言模型（VLM），例如GPT-4o，在复杂网络环境和长期规划任务中仍未达到人类水平。为了解决这些限制，我们引入了反射蒙特卡洛树搜索（R-MCTS），这是一种新颖的测试时算法，旨在增强人工智能体（例如由GPT-4o驱动的智能体）动态探索决策空间的能力。R-MCTS通过以下方式扩展了传统的MCTS：1）结合对比反射，使智能体能够从过去的交互中学习并动态提高其搜索效率；2）使用多智能体辩论来提供可靠的状态评估。此外，我们通过自我学习微调GPT-4o来提高智能体的性能，使用R-MCTS生成的树遍历，无需任何人工提供的标签。在具有挑战性的VisualWebArena基准测试中，我们基于GPT-4o的R-MCTS智能体在各种任务中比之前的最先进技术实现了6%到30%的相对改进。此外，我们还表明，从测试时搜索中获得的知识可以通过微调有效地转移回GPT-4o。经过微调的GPT-4o在测试时可以达到R-MCTS性能的97%，同时计算量减少了四倍。此外，定性结果表明，经过微调的GPT-4o模型能够探索环境、评估状态，并在检测到当前状态无法导致成功时回溯到可行的状态。此外，我们的工作展示了训练（使用R-MCTS收集数据）和测试时的计算扩展特性。这些结果为通过测试时搜索和自我学习来增强VLM的推理和规划能力，以用于智能体应用，提出了一个有希望的研究方向。
2024-09-30	HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding	null	大型视觉语言模型 (LVLM) 在许多视觉语言任务中都表现出了非凡的性能。然而，这些模型仍然受到多模态幻觉的影响，这意味着会生成违反图像内容的对象或内容。许多现有工作通过直接判断一个对象是否存在于图像中来检测幻觉，而忽略了对象与语义之间的关联。为了解决这个问题，我们提出了视觉增强惩罚解码的分层反馈学习 (HELPD)。该框架在对象和句子语义层面都纳入了幻觉反馈。值得注意的是，即使训练程度不高，这种方法也可以减少 15% 以上的幻觉。同时，HELPD 根据图像注意力窗口惩罚输出 logits，以避免过度受生成文本的影响。HELPD 可以无缝集成到任何 LVLMs 中。我们的实验表明，所提出的框架在多个幻觉基准测试中产生了良好的结果。它有效地减轻了不同 LVLMs 的幻觉，同时提高了它们的文本生成质量。
2024-09-30	CableInspect-AD: An Expert-Annotated Anomaly Detection Dataset	link	机器学习模型正越来越多地部署在现实环境中。然而，关于其对特定和关键应用的可迁移性的系统研究在研究文献中却鲜有报道。一个重要的例子是用于机器人电力线巡检的视觉异常检测 (VAD)。虽然现有的 VAD 方法在受控环境中表现良好，但现实场景中存在着当前数据集无法捕捉到的各种意外异常。为了弥补这一差距，我们推出了 $\textit{CableInspect-AD}$，这是一个由加拿大公用事业公司 Hydro-Qu'ebec 的领域专家创建和标注的高质量、公开可用的数据集。该数据集包含具有挑战性的现实世界异常的高分辨率图像，涵盖了不同严重程度的缺陷。为了解决为设置检测阈值而收集各种异常和正常样本的挑战，我们建议对著名的 PatchCore 算法进行增强。这种增强使其能够在标记数据有限的情况下使用。我们还提出了一个基于交叉验证的综合评估方案，以评估模型的性能。我们评估了我们的 $\textit{Enhanced-PatchCore}$ 在少样本和多样本检测方面的性能，以及视觉语言模型在零样本检测方面的性能。虽然这些模型很有前景，但它们难以检测所有异常，这突出了该数据集作为一个具有挑战性的基准对更广泛研究群体的价值。项目页面：https://mila-iqia.github.io/cableinspect-ad/。
2024-09-30	Visual Context Window Extension: A New Perspective for Long Video Understanding	null	大型多模态模型 (LMM) 在短视频理解任务中表现出色，但在应用于长视频理解时面临巨大挑战。相比之下，大型语言模型 (LLM) 在建模长文本方面表现出色。现有工作试图通过在训练期间引入长视频-文本对来解决这个问题。然而，这些方法需要大量的计算和数据资源。在本文中，我们从上下文窗口的角度来应对长视频理解的挑战，旨在将 LMM 应用于长视频任务，而无需在长视频数据集上重新训练。我们首先深入分析了预训练的 LMM 难以理解长视频内容的原因，发现视觉和语言模态之间的差异导致视觉和语言标记的上下文窗口不同，这使得直接扩展视觉标记以匹配语言上下文窗口变得困难。基于此，我们建议通过扩展视觉上下文窗口来调整 LMM 以适应长视频理解任务，从而无需在大型长视频数据集上重新训练。为了进一步减少长序列导致的大量内存消耗，我们引入了一种渐进式池化推理策略，该策略选择性地调整帧嵌入的空间分辨率，在保留重要空间信息的同时减少视觉标记的数量。在多个长视频理解基准测试中，我们的方法随着视频帧数量的增加而持续提高性能。在 MLVU 基准测试中，我们的方法优于 GPT-4o，即使我们的模型大小只有 7B。此外，在 256 帧设置中，与基线相比，我们的方法将内存使用量减少了大约 45%，而不会导致任何性能损失。
2024-09-30	Towards Robust Multimodal Sentiment Analysis with Incomplete Data	link	多模态情感分析（MSA）领域最近出现了一个新兴方向，旨在解决数据不完整性问题。认识到语言模态通常包含密集的情感信息，我们将其视为主要模态，并提出了一种创新的语言主导抗噪学习网络（LNLN），以实现稳健的MSA。所提出的LNLN具有主要模态校正（DMC）模块和基于主要模态的多模态学习（DMML）模块，通过确保主要模态表示的质量，增强了模型在各种噪声场景下的鲁棒性。除了方法论设计之外，我们还在随机数据缺失场景下进行了全面的实验，在几个流行的数据集（例如MOSI、MOSEI和SIMS）上使用了多样化且有意义的设置，与文献中的现有评估相比，提供了额外的统一性、透明度和公平性。根据经验，LNLN始终优于现有的基线，在这些具有挑战性和广泛的评估指标中表现出卓越的性能。
2024-09-30	Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels	null	像 CLIP 这样的大规模视觉语言模型在图像级任务中表现出了令人印象深刻的开放词汇能力，在识别物体方面表现出色。然而，它们在语义分割等像素级识别任务中却表现不佳，因为这些任务还需要理解物体的位置。在这项工作中，我们提出了一种名为 PixelCLIP 的新方法，通过使用从 SAM 和 DINO 等视觉基础模型生成的未标记图像和掩码来指导模型识别物体的位置，从而使 CLIP 图像编码器适应像素级理解。为了解决在没有语义标签的情况下利用掩码的挑战，我们设计了一种使用可学习类名的在线聚类算法来获取一般的语义概念。PixelCLIP 在开放词汇语义分割方面比 CLIP 显示出显著的性能提升，并且与字幕监督方法相比具有竞争力的结果。项目页面：https://cvlab-kaist.github.io/PixelCLIP
2024-09-29	PALM: Few-Shot Prompt Learning for Audio Language Models	null	音频语言模型（ALM）最近在零样本音频识别任务中取得了显著成果，其灵感来自视觉语言模型（VLM）的进步，将音频波形的特征与特定类别的文本提示特征相匹配。鉴于零样本性能对人工设计文本提示选择的敏感性，已经为VLM开发了许多提示学习技术。我们探索了这些方法在ALM中的有效性，并提出了一种名为“音频语言模型中的提示学习”（PALM）的新方法，该方法优化了文本编码器分支的特征空间。与在输入空间中工作的现有方法不同，我们的方法实现了更高的训练效率。我们在11个音频识别数据集上证明了我们方法的有效性，这些数据集涵盖了各种语音处理任务，并在少样本学习设置中将结果与三个基线进行了比较。我们的方法在计算量较小的同时，其性能与其他方法相当或更优。代码可在https://asif-hanif.github.io/palm/获取。
2024-09-29	Vision-Language Models are Strong Noisy Label Detectors	link	最近关于视觉语言模型微调的研究表明，其在下游任务中表现出色。然而，在实际应用中获取准确标记数据的挑战给微调过程带来了重大障碍。为了应对这一挑战，本文提出了一种名为 DeFT 的去噪微调框架，用于视觉语言模型的适应性训练。DeFT 利用在数百万个辅助图像-文本对上预训练的文本和视觉特征的鲁棒对齐来筛选噪声标签。所提出的框架通过学习每个类别的正负文本提示来建立噪声标签检测器。正提示旨在揭示该类别的独特特征，而负提示则作为可学习的阈值，用于区分干净样本和噪声样本。我们采用参数高效的微调方法来调整预训练的视觉编码器，以促进其与学习到的文本提示对齐。作为一个通用框架，DeFT 可以通过利用精心挑选的干净样本，将许多预训练模型无缝地微调到下游任务。在七个合成和真实噪声数据集上的实验结果验证了 DeFT 在噪声标签检测和图像分类方面的有效性。
2024-09-29	MedViLaM: A multimodal large language model with advanced generalizability and explainability for medical data understanding and generation	link	医学本质上是多模态和多任务的，具有涵盖文本、影像等多种数据模态。然而，目前大多数医学领域模型都是单模态单任务的，缺乏良好的泛化性和可解释性。在本研究中，我们介绍了MedViLaM，这是一个通用的医学数据视觉语言模型，它可以使用相同的模型权重灵活地编码和解释各种形式的医学数据，包括临床语言和影像。为了促进这种多任务模型的创建，我们策划了MultiMedBench，这是一个全面的预训练数据集和基准，包含多个不同的任务，即连续问答、多标签疾病分类、疾病定位、放射学报告的生成和总结。MedViLaM在所有MultiMedBench任务中都表现出色，经常大幅超越其他通用模型。此外，我们还展示了零样本泛化到新的医学概念和任务、跨不同任务的有效迁移学习以及零样本医学推理的出现。
2024-09-29	Federated Learning from Vision-Language Foundation Models: Theoretical Analysis and Method	link	将CLIP等预训练的视觉语言基础模型整合到联邦学习中，以增强跨不同任务的泛化能力，引起了广泛关注。通常，视觉语言模型的联邦学习采用提示学习来降低通信和计算成本，即基于提示的联邦学习。然而，目前对基于提示的联邦学习性能的理论分析还很有限。在这项工作中，我们通过特征学习理论构建了一个基于提示的联邦学习的理论分析框架。具体来说，我们监控了基于提示的联邦学习中信号学习和噪声记忆的演变，证明了可以通过与任务相关和与任务无关的系数之比来评估性能。此外，我们将投资组合优化中的收益和风险与特征学习中的任务相关和任务无关项进行了类比。受投资组合优化理论的启发，即组合两种独立资产将保持收益，同时降低风险，我们引入了两种提示：全局提示和局部提示，以构建一个提示组合来平衡泛化性和个性化。因此，我们展示了提示组合的性能优势，并推导出了最佳混合系数。这些理论主张得到了进一步的实证实验的支持。
2024-09-28	FairPIVARA: Reducing and Assessing Biases in CLIP-Based Multimodal Models	link	尽管视觉语言模型取得了重大进展并得到广泛应用，但很少有研究探讨其伦理含义。这些模型通常需要大量的训练数据，而这些数据往往来自仓促审查的文本和图像数据集，导致数据集高度失衡并引发伦理问题。此外，最初用英语训练的模型经常针对其他语言进行微调，例如 CLIP 模型，可以通过添加更多数据来增强其功能，但也可能引入新的偏差。CAPIVARA 是一种基于 CLIP 模型并适用于葡萄牙语的模型，在零样本任务中表现出色。在本文中，我们评估了视觉语言模型中的四种不同类型的歧视性做法，并介绍了 FairPIVARA，这是一种通过移除特征嵌入中受影响最大的维度来减少这些做法的方法。FairPIVARA 的应用显著减少了高达 98% 的观察到的偏差，同时促进了模型中更平衡的词语分布。我们的模型和代码可在以下网址获取：https://github.com/hiaac-nlp/FairPIVARA。
2024-09-27	Image-guided topic modeling for interpretable privacy classification	link	用人类可理解的术语预测和解释图像中包含的隐私信息是一项复杂且依赖于上下文的的任务。即使对于大型语言模型来说，这项任务也具有挑战性。为了促进对隐私决策的理解，我们建议根据一组自然语言内容描述符来预测图像隐私。这些内容描述符与隐私分数相关联，这些分数反映了人们如何看待图像内容。我们使用我们新颖的图像引导主题建模（ITM）方法生成描述符。ITM 通过多模态对齐，利用来自视觉语言模型的视觉信息和图像文本描述。我们使用 ITM 生成的描述符来学习隐私预测器 Priv×ITM，其决策在设计上是可解释的。我们的 Priv×ITM 分类器在准确率方面比参考的可解释方法高出 5 个百分点，并且性能与当前最先进的不可解释模型相当。
2024-09-26	LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness	null	大型多模态模型 (LMM) 近期的进步极大地提高了其在 2D 视觉理解任务中的能力，使其能够有效地处理和理解图像和视频。然而，由于缺乏大规模 3D 视觉语言数据集和强大的 3D 编码器，具有 3D 感知能力的 LMM 在 3D 场景理解方面的开发一直受到阻碍。在本文中，我们介绍了一种简单而有效的框架，称为 LLaVA-3D。LLaVA-3D 利用 LLaVA 强大的 2D 理解先验知识，有效地将 LLaVA 应用于 3D 场景理解，而不会影响其 2D 理解能力。为了实现这一点，我们采用了一种简单有效的表示方法，即 3D Patch，它将 2D CLIP 图像块特征与其在 3D 空间中的对应位置连接起来。通过将 3D Patch 集成到 2D LMM 中，并采用联合 2D 和 3D 视觉语言指令微调，我们建立了一个用于 2D 图像理解和 3D 场景理解的统一架构。实验结果表明，在 3D 视觉语言数据集上训练时，LLaVA-3D 的收敛速度比现有 3D LMM 快 3.5 倍。此外，LLaVA-3D 不仅在各种 3D 任务上实现了最先进的性能，而且还保持了与 LLaVA 相当的 2D 图像理解和视觉语言对话能力。
2024-09-26	EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions	null	GPT-4o，一个能够进行带有不同情感和语调的语音对话的多模态模型，标志着多模态基础模型的一个里程碑。然而，在开源社区中，使用公开可用的数据赋予大型语言模型以端到端的方式感知和生成图像、文本和语音仍然具有挑战性。现有的视觉语言模型依赖于外部工具进行语音处理，而语音语言模型仍然存在视觉理解能力有限甚至没有的问题。为了解决这个问题，我们提出了EMOVA（情感无所不在的语音助手），它使大型语言模型具备端到端的语音能力，同时保持领先的视觉语言性能。利用语义-声学解耦的语音标记器，我们惊奇地发现，与相应的双模态对齐模型相比，多模态对齐可以进一步增强视觉语言和语音能力。此外，我们还提出了一个轻量级的风格模块，用于灵活控制语音风格（例如情感和音调）。EMOVA首次在视觉语言和语音基准测试中均实现了最先进的性能，同时支持具有生动情感的多模态语音对话。
2024-09-26	DARE: Diverse Visual Question Answering with Robustness Evaluation	null	视觉语言模型 (VLM) 扩展了仅文本大型语言模型和仅视觉模型的卓越能力，并且能够从多模态视觉文本输入中学习和处理。虽然现代 VLM 在许多标准图像分类和图像文本匹配任务中表现良好，但它们仍然难以应对许多关键的视觉语言 (VL) 推理能力，例如计数和空间推理。此外，虽然它们可能对指令和/或评估协议的微小变化非常脆弱，但现有基准测试未能评估它们的稳健性（或者更确切地说是缺乏稳健性）。为了将具有挑战性的 VL 场景与全面的稳健性评估相结合，我们引入了 DARE，即具有稳健性评估的多样化视觉问答，这是一个精心创建和策划的多项选择 VQA 基准。DARE 评估 VLM 在五个不同类别上的性能，并包括四个基于以下变化的面向稳健性的评估：提示、答案选项子集、输出格式和正确答案的数量。在一系列其他发现中，我们报告说，最先进的 VLM 仍然难以回答大多数类别中的问题，并且无法在测试的稳健性评估中始终如一地提供其峰值性能。选项子集的最差情况性能比标准情况下的性能低 34%。诸如 LLaVA 1.6 和 Idefics2 等开源 VLM 的稳健性无法与 GPT-4 和 Gemini 等闭源模型相提并论，但即使是后者仍然非常容易受到不同变化的影响。
2024-09-26	The Hard Positive Truth about Vision-Language Compositionality	link	多项基准测试得出结论，我们最好的视觉语言模型（例如 CLIP）缺乏组合性。给定一张图像，这些基准测试会探测模型从一组组合干扰项中识别其关联标题的能力。作为回应，最近涌现出大量提案，表明通过使用干扰项作为强负例对 CLIP 进行微调可以改进模型。我们的调查表明，这些改进实际上被严重夸大了——因为现有的基准测试没有探究微调后的视觉语言模型是否对强正例保持不变。通过使用 112,382 个强负例和强正例整理评估数据集，我们发现包含强正例会使 CLIP 的性能降低 12.9%，而人类则可以毫不费力地达到 99% 的准确率。使用强负例微调 CLIP 会导致更大的性能下降，高达 38.7%。基于这一发现，我们制作了一个包含 1,775,259 个图像文本的训练集，其中包含强负例和强正例标题。通过同时使用两者进行训练，我们看到现有基准测试的性能有所提高，同时强正例的性能也有所提高，这表明组合性得到了更稳健的改进。我们的工作表明，未来的研究需要严格测试和改进 CLIP 对相关“正”概念之间语义关系的理解。
2024-09-26	A Multimodal Single-Branch Embedding Network for Recommendation in Cold-Start and Missing Modality Scenarios	link	大多数推荐系统采用协同过滤 (CF) 并根据过去的集体交互提供推荐。因此，当可用交互很少或没有交互时，CF 算法的性能会下降，这种情况称为冷启动。为了解决这个问题，以前的工作依赖于利用协作数据和用户或项目辅助信息的模型。类似于多模态学习，这些模型旨在将协作和内容表示组合到共享嵌入空间中。在这项工作中，我们提出了一种新的多模态推荐技术，它依赖于用于推荐的多模态单分支嵌入网络 (SiBraR)。SiBraR 利用权重共享，在不同模态上使用相同的单分支嵌入网络对交互数据以及多模态辅助信息进行编码。这使得 SiBraR 在缺少模态的情况下（包括冷启动）非常有效。我们对来自三个不同推荐域（音乐、电影和电子商务）并提供多模态内容信息（音频、文本、图像、标签和交互）的大规模推荐数据集进行了广泛实验，结果表明，SiBraR 在冷启动场景下明显优于 CF 以及最先进的基于内容的 RS，并且在热启动场景下也具有竞争力。我们证明了 SiBraR 的推荐在缺少模态的情况下是准确的，并且该模型能够将不同的模态映射到共享嵌入空间的同一区域，从而减少了模态差距。
2024-09-26	Cascade Prompt Learning for Vision-Language Model Adaptation	link	提示学习已成为一种有效的方法，可以提高视觉语言模型 (VLM)（如 CLIP）在下游任务中的性能。然而，当前的可学习提示标记主要用于适应任务的单一阶段（即，调整提示），容易导致过拟合风险。在这项工作中，我们提出了一种新颖的级联提示学习 CasPL 框架，使提示学习能够同时服务于通用和特定专业知识（即，增强和调整提示）。具体来说，CasPL 是一种新的学习范式，包括两个不同阶段的可学习提示：第一个增强提示旨在通过使用大量未标记的域图像对齐其预测的 logits，从高级更大的 CLIP 教师模型中提取域通用知识。然后，第二个调整提示与冻结的第一组级联，以微调下游任务，遵循先前研究中采用的方法。通过这种方式，CasPL 可以有效地将域通用和任务特定表示捕获到明确不同的渐进提示组中，从而潜在地缓解目标域中的过拟合问题。值得注意的是，CasPL 作为一个即插即用的模块，可以无缝集成到任何现有的提示学习方法中。CasPL 在性能和推理速度之间实现了显著更好的平衡，这对于在资源受限的环境中部署较小的 VLM 模型特别有利。与先前最先进的方法 PromptSRC 相比，CasPL 在 11 个图像分类数据集上，基本类别平均提高了 1.85%，新类别平均提高了 3.44%，调和平均值平均提高了 2.72%。代码公开地址：https://github.com/megvii-research/CasPL。
2024-09-26	Harnessing Shared Relations via Multimodal Mixup Contrastive Learning for Multimodal Classification	link	深度多模态学习通过利用对比学习来捕捉模态之间显式的一对一关系，已经展现出显著的成果。然而，现实世界的数据往往表现出超越简单成对关联的共享关系。我们提出了M3CoL，一种多模态混合对比学习方法，用于捕捉多模态数据中固有的细微共享关系。我们的主要贡献是一种基于混合的对比损失函数，它通过将来自一种模态的混合样本与其来自其他模态的对应样本对齐来学习鲁棒的表示，从而捕捉它们之间的共享关系。对于多模态分类任务，我们引入了一个框架，该框架将融合模块与单模态预测模块相结合，以便在训练期间进行辅助监督，并辅以我们提出的基于混合的对比损失函数。通过对不同数据集（N24News、ROSMAP、BRCA 和 Food-101）的广泛实验，我们证明了 M3CoL 可以有效地捕捉共享的多模态关系并在不同领域泛化。它在 N24News、ROSMAP 和 BRCA 上的表现优于最先进的方法，同时在 Food-101 上取得了可比的性能。我们的工作突出了学习共享关系对于鲁棒的多模态学习的重要性，为未来的研究开辟了有希望的途径。
2024-09-26	Robotic-CLIP: Fine-tuning CLIP on Action Data for Robotic Applications	null	视觉语言模型在为各种机器人应用提取有意义的特征方面发挥了关键作用。其中，对比语言-图像预训练 (CLIP) 广泛应用于需要视觉和自然语言理解的机器人任务。然而，CLIP 仅在与文本提示配对的静态图像上进行训练，尚未完全适应涉及动态动作的机器人任务。在本文中，我们介绍了 Robotic-CLIP 来增强机器人的感知能力。我们首先收集和标记大规模动作数据，然后使用对比学习在 309,433 个视频（约 740 万帧）的动作数据上微调 CLIP，构建我们的 Robotic-CLIP。通过利用动作数据，Robotic-CLIP 继承了 CLIP 强大的图像性能，同时获得了理解机器人环境中动作的能力。大量实验表明，我们的 Robotic-CLIP 在各种语言驱动的机器人任务中优于其他基于 CLIP 的模型。此外，我们还展示了 Robotic-CLIP 在现实世界抓取应用中的实际有效性。
2024-09-26	MIO: A Foundation Model on Multimodal Tokens	link	本文介绍了一种基于多模态token的新型基础模型MIO，它能够以端到端、自回归的方式理解和生成语音、文本、图像和视频。尽管大型语言模型（LLM）和多模态大型语言模型（MM-LLM）凭借其多功能性推动了人工智能通用性的进步，但它们仍然缺乏真正的任意模态之间理解和生成的能力。最近，GPT-4o的发布展示了任意模态之间LLM在处理复杂现实世界任务方面的巨大潜力，它能够实现图像、语音和文本之间的全向输入和输出。然而，它是一个闭源模型，并且不支持生成多模态交错序列。为了解决这个问题，我们提出了MIO，它使用因果多模态建模在四种模态的离散token混合数据集上进行训练。MIO经历了四个训练阶段：（1）对齐预训练，（2）交错预训练，（3）语音增强预训练，以及（4）针对不同文本、视觉和语音任务的综合监督微调。我们的实验结果表明，与之前的双模态基线、任意模态之间模型基线，甚至是特定模态基线相比，MIO表现出具有竞争力的性能，在某些情况下甚至更胜一筹。此外，MIO还展示了其任意模态之间功能所带来的高级能力，例如交错视频文本生成、视觉思维链推理、视觉指南生成、指令图像编辑等。
2024-09-26	P4Q: Learning to Prompt for Quantization in Visual-language Models	null	大规模预训练的视觉语言模型（VLM）在各种视觉和多模态任务中取得了显著成果，但由于其对训练样本和计算资源的巨大需求，将VLM部署到下游应用平台仍然具有挑战性。对VLM进行微调和量化可以显著降低样本和计算成本，因此迫切需要这方面的研究。量化领域目前存在两种主要范式：量化感知训练（QAT）可以有效地量化大规模VLM，但会产生巨大的训练成本；而低比特位后训练量化（PTQ）则存在明显的性能下降问题。我们提出了一种平衡微调和量化的方法，称为“量化提示”（P4Q），其中我们设计了一种轻量级架构，利用对比损失监督来增强PTQ模型的识别性能。我们的方法可以有效地减少由低比特位量化引起的图像特征和文本特征之间的差距，其方法是基于可学习的提示来重组文本表示，并使用低比特位适配器重新调整图像和文本特征的分布。我们还引入了一种基于余弦相似度预测的蒸馏损失，以使用全精度教师模型对量化模型进行蒸馏。大量的实验结果表明，我们的P4Q方法优于现有技术，甚至可以达到与其全精度模型相当的结果。例如，我们的8位P4Q理论上可以将CLIP-ViT/B-32压缩4倍，同时在ImageNet数据集上实现66.94%的Top-1准确率，比可学习提示微调的全精度模型高出2.24%，而额外的参数可以忽略不计。
2024-09-18	Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution	link	我们推出了Qwen2-VL系列，这是对先前Qwen-VL模型的先进升级，它重新定义了视觉处理中传统的预定分辨率方法。Qwen2-VL引入了朴素动态分辨率机制，使模型能够将不同分辨率的图像动态处理成不同数量的视觉标记。这种方法允许模型生成更高效、更准确的视觉表示，与人类的感知过程紧密一致。该模型还集成了多模态旋转位置嵌入（M-RoPE），促进了文本、图像和视频中位置信息的有效融合。我们采用统一的范式来处理图像和视频，增强了模型的视觉感知能力。为了探索大型多模态模型的潜力，Qwen2-VL研究了大型视觉语言模型（LVLM）的缩放规律。通过扩展模型规模（包括2B、8B和72B参数的版本）和训练数据量，Qwen2-VL系列实现了极具竞争力的性能。值得注意的是，Qwen2-VL-72B模型在各种多模态基准测试中取得了与GPT-4o和Claude3.5-Sonnet等领先模型相当的结果，优于其他通用模型。代码可在\url{https://github.com/QwenLM/Qwen2-VL}获取。
2024-09-18	GauTOAO: Gaussian-based Task-Oriented Affordance of Objects	null	当您的机器人使用灵巧的手或抓手抓取物体时，它应该理解物体的面向任务的可操作性 (TOAO)，因为不同的任务通常需要关注物体的特定部分。为了应对这一挑战，我们提出了 GauTOAO，这是一个基于高斯的物体面向任务可操作性框架，它以零样本的方式利用视觉语言模型，在给定自然语言查询的情况下预测物体上与可操作性相关的区域。我们的方法引入了一种新的范式：“静态相机，移动物体”，使机器人在操作过程中能够更好地观察和理解手中的物体。GauTOAO 解决了现有方法的局限性，这些方法通常缺乏有效的空间分组，它使用 DINO 特征提取完整的 3D 物体掩码。然后，该掩码用于有条件地查询高斯分布，从而生成针对特定任务的、在物体上的精细语义分布。这种方法可以更准确地提取 TOAO，增强机器人对物体的理解并提高任务性能。我们通过现实世界实验验证了 GauTOAO 的有效性，证明了它能够泛化到各种任务。
2024-09-18	LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Foundation Models	null	视觉语言模型 (VLM) 在众多任务中都表现出色，但与其专用或微调模型相比，它们的零样本能力可能有限。然而，微调 VLM 存在局限性，因为它需要对模型架构和权重的“白盒”访问权限，以及设计微调目标和优化超参数的专业知识，这些都特定于每个 VLM 和下游任务。在这项工作中，我们提出了 LLM-wrapper，这是一种通过利用大型语言模型 (LLM) 来推理其输出，以“黑盒”方式调整 VLM 的新方法。我们通过指代表达理解 (REC) 证明了 LLM-wrapper 的有效性，这是一项需要空间和语义推理的具有挑战性的开放词汇任务。我们的方法显著提高了现成模型的性能，与经典微调相比获得了具有竞争力的结果。
2024-09-17	NVLM: Open Frontier-Class Multimodal LLMs	null	我们推出了 NVLM 1.0，这是一系列前沿的多模态大型语言模型 (LLM)，在视觉语言任务上取得了最先进的结果，可与领先的专有模型（例如 GPT-4o）和开放访问模型（例如 Llama 3-V 405B 和 InternVL 2）相媲美。值得注意的是，NVLM 1.0 在多模态训练后，其纯文本性能优于其 LLM 骨干模型。在模型设计方面，我们对仅解码器多模态 LLM（例如 LLaVA）和基于交叉注意力的模型（例如 Flamingo）进行了全面比较。基于这两种方法的优缺点，我们提出了一种新颖的架构，可以提高训练效率和多模态推理能力。此外，我们为基于图块的动态高分辨率图像引入了 1-D 图块标记设计，这显着提高了多模态推理和 OCR 相关任务的性能。关于训练数据，我们精心策划并提供有关我们多模态预训练和监督微调数据集的详细信息。我们的研究结果表明，即使在预训练阶段，在所有架构中，数据集质量和任务多样性都比规模更重要。值得注意的是，我们为 NVLM-1.0 模型开发了生产级多模态，使其能够在视觉语言任务中表现出色，同时保持甚至改进与其 LLM 骨干模型相比的纯文本性能。为此，我们将高质量的纯文本数据集与大量的多模态数学和推理数据一起制作并集成到多模态训练中，从而增强了跨模态的数学和编码能力。为了推动该领域的研究，我们将发布模型权重，并将开源代码供社区使用：https://nvlm-project.github.io/。
2024-09-17	CAST: Cross-modal Alignment Similarity Test for Vision Language Models	link	视觉语言模型 (VLM) 通常通过视觉问答 (VQA) 任务进行评估，这些任务评估模型对场景的理解。良好的 VQA 性能被视为该模型能够在需要视觉和语言输入的更广泛任务中表现良好的证据。然而，场景感知 VQA 并不能完全捕捉输入偏差，也不能评估由模态之间错位引起的幻觉。为了解决这个问题，我们提出了跨模态对齐相似性测试 (CAST) 来探测 VLM 在不同模态之间的自洽性。该测试包括要求模型仅通过文本、仅通过图像或两者兼用来识别两个场景之间的相似性，然后评估它们生成的相似性的真实性。由于没有可供比较的真实情况，因此该评估的重点不是客观准确性，而是 VLM 在输出方面是否内部一致。我们认为，虽然并非所有自洽模型都具有能力或准确性，但所有有能力的 VLM 都必须是自洽的。
2024-09-17	KALE: An Artwork Image Captioning System Augmented with Heterogeneous Graph	link	Exploring the narratives conveyed by fine-art paintings is a challenge in image captioning, where the goal is to generate descriptions that not only precisely represent the visual content but also offer a in-depth interpretation of the artwork's meaning. The task is particularly complex for artwork images due to their diverse interpretations and varied aesthetic principles across different artistic schools and styles. In response to this, we present KALE Knowledge-Augmented vision-Language model for artwork Elaborations), a novel approach that enhances existing vision-language models by integrating artwork metadata as additional knowledge. KALE incorporates the metadata in two ways: firstly as direct textual input, and secondly through a multimodal heterogeneous knowledge graph. To optimize the learning of graph representations, we introduce a new cross-modal alignment loss that maximizes the similarity between the image and its corresponding metadata. Experimental results demonstrate that KALE achieves strong performance (when evaluated with CIDEr, in particular) over existing state-of-the-art work across several artwork datasets. Source code of the project is available at https://github.com/Yanbei-Jiang/Artwork-Interpretation.
2024-09-16	Do Pre-trained Vision-Language Models Encode Object States?	null	For a vision-language model (VLM) to understand the physical world, such as cause and effect, a first step is to capture the temporal dynamics of the visual world, for example how the physical states of objects evolve over time (e.g. a whole apple into a sliced apple). Our paper aims to investigate if VLMs pre-trained on web-scale data learn to encode object states, which can be extracted with zero-shot text prompts. We curate an object state recognition dataset ChangeIt-Frames, and evaluate nine open-source VLMs, including models trained with contrastive and generative objectives. We observe that while these state-of-the-art vision-language models can reliably perform object recognition, they consistently fail to accurately distinguish the objects' physical states. Through extensive experiments, we identify three areas for improvements for VLMs to better encode object states, namely the quality of object localization, the architecture to bind concepts to objects, and the objective to learn discriminative visual and language encoders on object states. Data and code are released.
2024-09-16	CtRNet-X: Camera-to-Robot Pose Estimation in Real-world Conditions Using a Single Camera	null	Camera-to-robot calibration is crucial for vision-based robot control and requires effort to make it accurate. Recent advancements in markerless pose estimation methods have eliminated the need for time-consuming physical setups for camera-to-robot calibration. While the existing markerless pose estimation methods have demonstrated impressive accuracy without the need for cumbersome setups, they rely on the assumption that all the robot joints are visible within the camera's field of view. However, in practice, robots usually move in and out of view, and some portion of the robot may stay out-of-frame during the whole manipulation task due to real-world constraints, leading to a lack of sufficient visual features and subsequent failure of these approaches. To address this challenge and enhance the applicability to vision-based robot control, we propose a novel framework capable of estimating the robot pose with partially visible robot manipulators. Our approach leverages the Vision-Language Models for fine-grained robot components detection, and integrates it into a keypoint-based pose estimation network, which enables more robust performance in varied operational conditions. The framework is evaluated on both public robot datasets and self-collected partial-view datasets to demonstrate our robustness and generalizability. As a result, this method is effective for robot pose estimation in a wider range of real-world manipulation scenarios.
2024-09-16	HiFi-CS: Towards Open Vocabulary Visual Grounding For Robotic Grasping Using Vision-Language Models	null	能够通过自然语言与人类交互的机器人可以解锁许多应用，例如参考抓取合成（RGS）。给定一个文本查询，RGS确定一个稳定的抓取姿态来操纵机器人工作空间中所指的对象。RGS包括两个步骤：视觉定位和抓取姿态估计。最近的研究利用强大的视觉语言模型（VLM）将自由流动的自然语言视觉定位到现实世界的机器人执行中。然而，在具有多个相同对象实例的复杂、杂乱环境中的比较仍然缺乏。本文介绍了HiFi-CS，它采用特征线性调制（FiLM）的分层应用来融合图像和文本嵌入，增强了机器人抓取中遇到的复杂属性丰富文本查询的视觉定位。视觉定位将二维/三维空间中的对象与自然语言输入相关联，并在两种情况下进行研究：封闭词汇和开放词汇。HiFi-CS具有一个轻量级的解码器，结合了一个冻结的VLM，在封闭词汇设置中优于竞争基线，同时尺寸缩小了100倍。我们的模型可以有效地指导像GroundedSAM这样的开放集目标检测器，以提高开放词汇性能。我们使用一个7自由度机械臂，通过真实的RGS实验验证了我们的方法，在15个桌面场景中实现了90.33%的视觉定位精度。我们在补充材料中包含了我们的代码库。
2024-09-19	IRIS: Interactive Responsive Intelligent Segmentation for 3D Affordance Analysis	null	大型语言和视觉语言模型的最新进展显著增强了多模态理解，然而将高级语言指令转换为精确的3D空间机器人动作仍然具有挑战性。本文介绍了IRIS（交互式响应智能分割），这是一种用于3D功能分割的全新免训练多模态系统，以及一个用于评估日常环境中交互式语言引导功能的基准。IRIS将大型多模态模型与专门的3D视觉网络相结合，实现了2D和3D视觉理解与语言理解的无缝融合。为了便于评估，我们提供了一个包含10个典型室内环境的数据集，每个环境包含50张标注了物体动作和3D功能分割的图像。大量实验表明，IRIS能够处理各种环境下的交互式3D功能分割任务，并在各种指标上均展现出具有竞争力的性能。我们的结果突出了IRIS在增强基于复杂室内环境中功能理解的人机交互方面的潜力，推进了更直观、更高效的机器人系统在现实世界应用中的发展。
2024-09-15	FSL-LVLM: Friction-Aware Safety Locomotion using Large Vision Language Model in Wheeled Robots	null	轮腿式机器人在移动性和多功能性方面具有显著优势，但在湿滑地形上运行时面临着巨大挑战。这些机器人的传统基于模型的控制器假设没有滑动。虽然强化学习（RL）可以帮助四足机器人适应不同的表面，但从滑动中恢复仍然具有挑战性，特别是对于接触点较少的系统。估计地面摩擦系数是另一个开放的挑战。在本文中，我们提出了一种新颖的摩擦感知安全运动框架，该框架将大型视觉语言模型（LLM）与RL策略相结合。我们的方法将估计的摩擦系数明确纳入RL策略，使机器人能够在到达表面之前根据表面类型提前调整其行为。我们引入了一个“视觉摩擦”（FFV）模块，该模块利用LLM估计地面摩擦系数，从而无需大型数据集和大量训练。该框架在定制的轮式倒立摆上进行了验证，实验结果表明，我们的框架通过根据地形类型调整速度来提高完成驾驶任务的成功率，同时与基线方法相比实现了更好的跟踪性能。我们的框架可以轻松地与任何其他RL策略集成。
2024-09-15	Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models	null	尽管近期研究表明视觉语言模型 (VLM) 能够使用自然语言描述图像中的复杂关系，但其对物体大小和距离进行定量推理的能力仍有待探索。在这项工作中，我们引入了一个手动标注的基准测试集 Q-Spatial Bench，其中包含 271 个跨越五个类别的、专为定量空间推理设计的问题，并系统地研究了最先进的 VLM 在这项任务上的性能。我们的分析表明，推理物体之间的距离对 SoTA VLM 来说尤其具有挑战性；然而，一些 VLM 的性能明显优于其他模型，表现最好的两个模型之间存在超过 40 个百分点的差距。我们还惊奇地观察到，当响应中自然出现使用参考对象的推理路径时，性能最佳的 VLM 的成功率提高了 19 个百分点。受此观察结果的启发，我们开发了一种零样本提示技术 SpatialPrompt，该技术鼓励 VLM 使用参考对象作为视觉线索来回答定量空间问题。通过 SpatialPrompt 指导 VLM 在其推理路径中使用参考对象，Gemini 1.5 Pro、Gemini 1.5 Flash 和 GPT-4V 的成功率分别提高了 40、20 和 30 个百分点以上。我们强调，这些显著的改进无需更多数据、模型架构修改或微调即可实现。
2024-09-15	Finetuning CLIP to Reason about Pairwise Differences	link	视觉语言模型 (VLM) 如 CLIP 是通过文本和图像对之间的对比学习进行训练的，从而产生对齐的图像和文本嵌入，这对许多下游任务非常有用。然而，CLIP 的一个显著缺点是，由此产生的嵌入空间似乎缺乏其纯文本替代方案所具有的一些结构。例如，长期以来，人们一直注意到文本嵌入可以使用向量算术来满足嵌入空间中的\emph{类比}，而 CLIP 则没有这种特性。在本文中，我们提出了一种以对比方式原生训练 CLIP 的方法，以便推理嵌入空间中的差异。我们对 CLIP 进行了微调，以便图像嵌入空间中的差异对应于\emph{图像差异的文本描述}，我们使用大型语言模型在图像-标题配对数据集上合成地生成了这些描述。我们首先证明，我们的方法在按特定属性对图像进行排序（例如，大象比猫大）方面产生了显著改进的能力，这在检索或构建基于属性的分类器中非常有用，并且提高了许多下游图像分类任务上的零样本分类性能。此外，我们的方法还实现了一种新的推理机制，我们将其称为比较提示，其中我们利用对感兴趣类别之间差异的文本描述的先验知识，在分类中实现了更大的性能提升。最后，我们说明了生成的嵌入在嵌入空间中遵循更大程度的几何特性，例如在文本到图像的生成中。
2024-09-13	Interactive Masked Image Modeling for Multimodal Object Detection in Remote Sensing	null	遥感影像中的目标检测在地球观测的各种应用中发挥着至关重要的作用。然而，与自然场景图像中的目标检测不同，这项任务特别具有挑战性，因为在不同的地形中存在大量的小型且通常难以察觉的目标。为了应对这些挑战，可以使用多模态学习来整合来自不同数据模态的特征，从而提高检测精度。然而，多模态学习的性能往往受到标记数据集大小的限制。在本文中，我们建议使用掩蔽图像建模（MIM）作为一种预训练技术，利用无标记数据的自监督学习来提高检测性能。然而，传统的MIM方法（如MAE）使用没有上下文信息的掩蔽标记，由于缺乏与图像其他部分的交互，难以捕捉到细粒度的细节。为了解决这个问题，我们提出了一种新的交互式MIM方法，可以在不同的标记之间建立交互，这对于遥感中的目标检测特别有利。大量的消融研究和评估证明了我们方法的有效性。
2024-09-13	A Multimodal Approach for Fluid Overload Prediction: Integrating Lung Ultrasound and Clinical Data	null	维持透析患者的体液平衡至关重要，因为管理不当会导致严重并发症。在本文中，我们提出了一种多模态方法，该方法整合了肺部超声图像的视觉特征和临床数据，以增强对体内多余液体预测的准确性。我们的框架采用独立的编码器来提取每种模态的特征，并通过跨域注意力机制将它们组合起来，以捕获互补信息。通过将预测构建为分类任务，该模型实现了比回归模型更好的性能。结果表明，多模态模型始终优于单模态模型，尤其是在注意力机制优先考虑表格数据时。伪样本生成进一步有助于缓解分类问题中的数据不平衡问题，实现了 88.31% 的最高准确率。这项研究强调了多模态学习对透析患者液体超负荷管理的有效性，为改善临床结果提供了宝贵的见解。
2024-09-13	ChangeChat: An Interactive Model for Remote Sensing Change Analysis via Multimodal Instruction Tuning	null	遥感 (RS) 变化分析通过检测图像随时间的变化来监测地球动态过程，至关重要。传统的变点检测擅长识别像素级的变化，但缺乏将这些变化置于背景中的能力。虽然最近在变化描述方面的进展提供了对变化的自然语言描述，但它们不支持交互式的、用户特定的查询。为了解决这些限制，我们引入了 ChangeChat，这是第一个专为 RS 变化分析设计的双时态视觉语言模型 (VLM)。ChangeChat 利用多模态指令微调，使其能够处理复杂的查询，例如变化描述、特定类别的量化和变化定位。为了提高模型的性能，我们开发了 ChangeChat-87k 数据集，该数据集是使用基于规则的方法和 GPT 辅助技术相结合生成的。实验表明，ChangeChat 为 RS 变化分析提供了一个全面、交互式的解决方案，在特定任务上的性能达到甚至优于最先进 (SOTA) 方法，并显着超过了最新的通用模型 GPT-4。代码和预训练权重可在 https://github.com/hanlinwu/ChangeChat 获取。
2024-09-13	Generalization Boosted Adapter for Open-Vocabulary Segmentation	null	视觉语言模型 (VLM) 已展现出卓越的开放词汇对象识别能力，这促使它们被应用于密集预测任务，例如分割。然而，由于缺乏像素级粒度以及可用于微调的数据有限，直接将 VLM 应用于此类任务仍然具有挑战性，导致过度拟合和泛化能力差。为了解决这些限制，我们提出了泛化增强适配器 (GBA)，这是一种新颖的适配器策略，可以增强 VLM 对开放词汇分割的泛化能力和鲁棒性。GBA 包含两个核心组件：(1) 风格多样化适配器 (SDA)，它将特征解耦为幅度和相位分量，仅对幅度进行操作以丰富特征空间表示，同时保持语义一致性；(2) 相关性约束适配器 (CCA)，它采用交叉注意力机制在文本类别和目标区域之间建立更紧密的语义关联，抑制不相关的低频“噪声”信息并避免错误关联。通过浅层 SDA 和深层 CCA 的协同效应，GBA 有效地缓解了过度拟合问题，并增强了特征表示的语义相关性。作为一个简单、高效、即插即用的组件，GBA 可以灵活地集成到各种基于 CLIP 的方法中，展现出广泛的适用性，并在多个开放词汇分割基准测试中实现了最先进的性能。
2024-09-12	Rethinking Prompting Strategies for Multi-Label Recognition with Partial Annotations	null	像 CLIP 这样的视觉语言模型 (VLM) 已被应用于部分标注的多标签识别 (MLR)，其方法是利用提示学习，为每个类别学习正负提示，以便将它们的嵌入与共享视觉文本特征空间中的类别存在或不存在相关联。虽然这种方法通过依赖 VLM 先验信息提高了 MLR 性能，但我们假设学习负面提示可能不是最优的，因为用于训练 VLM 的数据集缺乏明确关注类别缺失的图像-标题对。为了分析正负提示学习对 MLR 的影响，我们引入了 PositiveCoOp 和 NegativeCoOp，其中只有一个提示是在 VLM 指导下学习的，而另一个提示则被直接在共享特征空间中学习的嵌入向量所取代，而不依赖于文本编码器。通过实证分析，我们观察到负面提示会降低 MLR 性能，并且仅学习正面提示并结合学习到的负面嵌入（PositiveCoOp）优于双提示学习方法。此外，我们量化了提示学习相对于仅使用视觉特征的简单基线的性能优势，观察到当缺失标签的比例较低时，基线表现出与双提示学习方法 (DualCoOp) 相当的强劲性能，同时所需的训练计算量减少一半，参数数量减少 16 倍。
2024-09-12	What Makes a Maze Look Like a Maze?	null	人类视觉理解的一个独特之处在于能够灵活地解释抽象概念：获取解释其象征意义的提升规则，将它们应用于熟悉和不熟悉的语境，并对其进行预测或推理。虽然现成的视觉语言模型擅长对图像进行字面解释（例如，识别树枝等物体类别），但它们仍然难以理解此类视觉抽象概念（例如，树枝的排列方式如何形成迷宫的墙壁）。为了应对这一挑战，我们引入了深度模式基础（DSG），这是一个利用视觉抽象的显式结构化表示进行基础化和推理的框架。DSG 的核心是模式——抽象概念的依赖图描述，将它们分解成更原始级别的符号。DSG 使用大型语言模型来提取模式，然后使用视觉语言模型将模式的具体组件到抽象组件分层地基础化到图像上。基础化的模式用于增强视觉抽象理解。我们在新的视觉抽象数据集上系统地评估了 DSG 和不同的推理方法，该数据集包含各种现实世界中抽象概念的图像以及由人类标记的相应问答对。我们表明，DSG 显着提高了视觉语言模型的抽象视觉推理性能，并且是朝着人类一致的视觉抽象理解迈出的一步。
2024-09-13	A Comprehensive Survey on Deep Multimodal Learning with Missing Modality	null	在多模态模型训练和推理过程中，由于传感器限制、成本限制、隐私问题、数据丢失以及时间和空间因素，数据样本可能会缺少某些模态，从而导致模型性能下降。本综述概述了缺失模态的多模态学习 (MLMM) 的最新进展，重点关注深度学习技术。它是第一个涵盖历史背景和 MLMM 与标准多模态学习设置之间区别的综合性综述，然后详细分析了当前的 MLMM 方法、应用和数据集，最后讨论了该领域的挑战和潜在的未来方向。
2024-09-12	Top-down Activity Representation Learning for Video Question Answering	null	从原子动作（例如，拿起一个礼物，移动到沙发，打开礼物）到上下文事件（例如，庆祝圣诞节）捕捉复杂的分层人类活动对于实现高性能视频问答 (VideoQA) 至关重要。最近的工作已经扩展了多模态模型（例如，CLIP，LLaVA）来处理连续视频序列，增强了模型的时间推理能力。然而，这些方法通常无法捕捉可以分解为多个原子动作的上下文事件，这些动作非连续地分布在相对长期的序列中。在本文中，为了利用 CLIP 模型的空间视觉上下文表示能力来获得视频中上下文事件方面的非连续视觉表示，我们将长期视频序列转换为空间图像域，并针对 VideoQA 任务微调多模态模型 LLaVA。我们的方法在 STAR 任务上取得了具有竞争力的性能，特别是在 NExTQA 任务上，获得了 78.4% 的准确率，超过了当前最先进的得分 2.8 个百分点。
2024-09-12	DSBench: How Far Are Data Science Agents to Becoming Data Science Experts?	link	大型语言模型（LLM）和大型视觉语言模型（LVLM）已经展现出令人印象深刻的语言/视觉推理能力，引发了构建针对特定应用（如购物助手或AI软件工程师）的代理的最新趋势。最近，许多数据科学基准测试被提出，以研究其在数据科学领域的性能。然而，现有的数据科学基准测试与现实世界的数据科学应用相比仍然存在不足，因为它们的设置过于简化。为了弥合这一差距，我们引入了 DSBench，这是一个全面的基准测试，旨在评估具有现实任务的数据科学代理。该基准测试包括 466 个数据分析任务和 74 个数据建模任务，这些任务来自 Eloquence 和 Kaggle 竞赛。DSBench 通过包含长上下文、多模态任务背景、对大型数据文件和多表结构进行推理以及执行端到端数据建模任务，提供了一个真实的设置。我们对最先进的 LLM、LVLM 和代理的评估表明，它们难以完成大多数任务，最好的代理仅能解决 34.12% 的数据分析任务，并实现了 34.74% 的相对性能差距 (RPG)。这些发现强调了进一步发展更实用、更智能、更自主的数据科学代理的必要性。
2024-09-12	Open-Vocabulary Remote Sensing Image Semantic Segmentation	link	开放词汇图像语义分割 (OVS) 旨在将图像分割成跨开放类别集的语义区域。现有的 OVS 方法通常依赖于基础视觉语言模型，并利用相似度计算来处理 OVS 任务。然而，这些方法主要针对自然图像量身定制，难以应对遥感图像的独特特征，例如快速变化的方向和显著的尺度变化。这些挑战使地球视觉中的 OVS 任务变得复杂，需要专门的方法。为了解决这一难题，我们借鉴了独特的遥感特征，提出了第一个专门为遥感图像设计的 OVS 框架。特别是，为了解决不同的方向问题，我们引入了一种旋转聚合相似度计算模块，该模块生成方向自适应相似度图作为初始语义图。随后，这些图会在空间和类别级别进行细化，以生成更准确的语义图。此外，为了管理显著的尺度变化，我们将多尺度图像特征集成到上采样过程中，从而得到最终的尺度感知语义掩码。为了推进地球视觉中的 OVS 并鼓励可重复研究，我们建立了第一个用于遥感图像的开源 OVS 基准，包括四个公共遥感数据集。在这个基准上的大量实验表明，我们提出的方法达到了最先进的性能。所有代码和数据集都可以在 https://github.com/caoql98/OVRS 获取。
2024-09-11	Securing Vision-Language Models with a Robust Encoder Against Jailbreak and Adversarial Attacks	link	基于多模态大数据集训练的大型视觉语言模型 (LVLM) 在视觉语言任务方面表现出色，极大地推进了人工智能的发展。然而，这些模型仍然容易受到对抗性攻击，尤其是越狱攻击，这些攻击会绕过安全协议，导致模型生成误导性或有害的响应。这种脆弱性源于大型语言模型 (LLM) 固有的敏感性以及视觉模态引入的扩大攻击面。我们提出了 Sim-CLIP+，这是一种新颖的防御机制，它利用 Siamese 架构通过对抗性微调 CLIP 视觉编码器。这种方法最大限度地提高了扰动样本和干净样本之间的余弦相似度，增强了对对抗性操作的抵抗力。Sim-CLIP+ 提供了一种即插即用的解决方案，允许作为强大的视觉编码器无缝集成到现有的 LVLM 架构中。与以前的防御措施不同，我们的方法不需要对 LVLM 进行结构修改，并且计算开销最小。Sim-CLIP+ 证明了其对基于梯度的对抗性攻击和各种越狱技术的有效性。我们针对三种不同的越狱攻击策略评估了 Sim-CLIP+，并使用标准下游数据集（包括用于图像字幕的 COCO 和用于视觉问答的 OKVQA）执行了干净评估。大量实验表明，Sim-CLIP+ 在保持高清洁精度的同时，显着提高了对基于梯度的对抗性攻击和越狱技术的鲁棒性。我们的代码和强大的视觉编码器可在 https://github.com/speedlab-git/Robust-Encoder-against-Jailbreak-attack.git 获取。
2024-09-11	MiniDrive: More Efficient Vision-Language Models with Multi-Level 2D Features as Text Tokens for Autonomous Driving	link	视觉语言模型 (VLM) 作为自动驾驶中的通用端到端模型，通过问答交互执行预测、规划和感知等子任务。然而，大多数现有方法依赖于计算成本高昂的视觉编码器和大型语言模型 (LLM)，这使得它们难以部署在现实世界场景和实时应用程序中。同时，大多数现有 VLM 缺乏处理多图像的能力，难以适应自动驾驶中的多摄像头感知。为了解决这些问题，我们提出了一种名为 MiniDrive 的新型框架，该框架结合了我们提出的特征工程混合专家 (FE-MoE) 模块和动态指令适配器 (DI-Adapter)。FE-MoE 在输入语言模型之前，将 2D 特征有效地映射到视觉标记嵌入中。DI-Adapter 使视觉标记嵌入能够随指令文本嵌入动态变化，解决了以往方法中同一图像的静态视觉标记嵌入问题。与之前的工作相比，MiniDrive 在参数大小、浮点运算和响应效率方面实现了最先进的性能，最小版本仅包含 83M 参数。
2024-09-11	MVLLaVA: An Intelligent Agent for Unified and Flexible Novel View Synthesis	null	本文介绍了MVLLaVA，这是一种专为新视角合成任务设计的智能代理。MVLLaVA将多个多视图扩散模型与大型多模态模型LLaVA相结合，使其能够高效地处理各种任务。MVLLaVA代表了一个通用且统一的平台，可以适应不同的输入类型，包括单个图像、描述性标题或视角方位角的特定变化，并以语言指令指导视角生成。我们精心设计了特定于任务的指令模板，随后用于微调LLaVA。因此，MVLLaVA获得了根据用户指令生成新视角图像的能力，展示了其在不同任务中的灵活性。实验验证了MVLLaVA的有效性，证明了其在应对各种新视角合成挑战时的强大性能和多功能性。
2024-09-11	FSMDet: Vision-guided feature diffusion for fully sparse 3D detector	null	近年来，全稀疏三维目标检测引起了越来越多的关注。然而，这些框架中特征的稀疏性由于扩散过程有限，对候选框的生成提出了挑战。此外，对效率的追求导致对视觉辅助的全稀疏模型的研究很少。在本文中，我们提出了FSMDet（全稀疏多模态检测），它使用视觉信息来指导激光雷达特征扩散过程，同时仍然保持管道的效率。具体来说，大多数全稀疏工作都集中在复杂的定制中心融合扩散/回归算子上。然而，我们观察到，如果执行了适当的目标补全，即使是最简单的插值算子也能得到令人满意的结果。受此观察的启发，我们将视觉引导的扩散过程分为两个模块：形状恢复层（SRLayer）和自扩散层（SDLayer）。前者使用RGB信息来恢复物体可见部分的形状，后者使用视觉先验将特征进一步扩散到中心区域。实验表明，我们的方法成功地提高了以往仅使用激光雷达的全稀疏模型的性能，并在多模态模型中达到了SOTA性能。同时，由于采用了稀疏架构，我们的方法在推理过程中比以往的SOTA方法效率最高可提高5倍。
2024-09-10	ExIQA: Explainable Image Quality Assessment Using Distortion Attributes	null	盲图像质量评估 (BIQA) 旨在开发无需参考图像即可估计图像质量分数的方法。在本文中，我们从失真识别角度探讨 BIQA，主要目标是利用视觉语言模型 (VLM)（如 CLIP）预测失真类型和强度，因为它们具有广泛的知识和泛化能力。基于这些预测的失真，我们然后估计图像的质量分数。为此，我们提出了一种基于属性学习的可解释失真识别方法。我们没有使用失真名称提示 VLM，而是使用失真的属性或影响提示它们，并汇总这些信息以推断失真强度。此外，我们为每张图像考虑了多种失真，使我们的方法更具可扩展性。为此，我们生成了一个包含 100,000 张图像的数据集，用于高效训练。最后，检索属性概率并将其输入回归器以预测图像质量分数。结果表明，我们的方法除了具有可解释性和透明度外，还在多个数据集的 PLCC 和 SRCC 指标上均达到了最先进 (SOTA) 的性能。此外，零样本结果证明了该方法的泛化能力。
2024-09-10	MAGDA: Multi-agent guideline-driven diagnostic assistance	null	在急诊科、乡村医院或欠发达地区的诊所，临床医生往往缺乏训练有素的放射科医生进行快速图像分析，这可能对患者的医疗保健产生不利影响。大型语言模型 (LLM) 有可能通过提供有助于临床医生做出决策的见解，从而减轻他们的一些压力。虽然这些 LLM 在医学考试中取得了很高的测试成绩，展示了其丰富的理论医学知识，但它们往往不遵循医学指南。在这项工作中，我们介绍了一种新的零样本指南驱动决策支持方法。我们模拟了一个由多个 LLM 代理组成的系统，该系统增强了对比视觉语言模型，这些代理协作以达成患者诊断。在向代理提供简单的诊断指南后，他们将根据这些指南合成提示并筛选图像以查找结果。最后，他们为自己的诊断提供易于理解的思维链推理，然后对其进行自我完善，以考虑疾病之间的相互依赖性。由于我们的方法是零样本的，因此它适用于罕见疾病的设置，在这些情况下，训练数据有限，但可以使用专家制定的疾病描述。我们在两个胸部 X 光数据集 CheXpert 和 ChestX-ray 14 Longta

Name		Name	Last commit message	Last commit date
Latest commit History 144 Commits
.github/workflows		.github/workflows
docs		docs
CNAME		CNAME
README.md		README.md
Updated on 2024.08.31.md		Updated on 2024.08.31.md
config.yaml		config.yaml
main.py		main.py
论文.md		论文.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Updated on 2025.01.04

多模态

About

Releases

Packages

Languages

chenin-wang/awesome_ai_paper

Folders and files

Latest commit

History

Repository files navigation

Updated on 2025.01.04

多模态

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages