DeepVisionary 每日深度学习前沿科技推送&顶会论文分享,与你一起了解前沿深度学习信息!
解锁图像新维度:剑桥联手英特尔,利用大语言模型重构逆向图形学!-LMLPHP

引言:探索逆图形学的新视角

逆图形学(Inverse Graphics)是计算机视觉和图形学中的一个基本挑战,它涉及将图像反转为物理变量,这些变量在渲染时能够再现观察到的场景。这一任务要求将图像解构为其构成元素,例如产生图像的3D场景中的对象的形状、颜色和材料属性。这种需求限制了现有方法在跨领域时的泛化能力。受到大型语言模型(LLMs)在新环境中的零样本泛化能力的启发,我们探索了利用这些模型中编码的广泛世界知识来解决逆图形问题的可能性。本文提出了一个以LLM为中心的逆图形框架——逆图形大语言模型(Inverse-Graphics Large Language Model, IG-LLM),该框架自回归地将视觉嵌入解码为结构化的、组合式的3D场景表示。通过我们的研究,我们展示了LLMs在逆图形学中的潜力,通过下一个令牌的预测来促进逆图形学,而无需使用图像空间的监督。我们的分析为精确的空间推理开辟了新的可能性,这种推理利用了LLMs的视觉知识。

论文基本信息

标题: Re-Thinking Inverse Graphics With Large Language Models

作者: Peter Kulits, Haiwen Feng, Weiyang Liu, Victoria Abrevaya, Michael J. Black

机构: Max Planck Institute for Intelligent Systems, Tübingen, Germany; University of Cambridge

论文链接: https://arxiv.org/pdf/2404.15228.pdf

逆图形学的定义与历史背景

逆图形学(Inverse Graphics)是计算机视觉和图形学中的一个基本挑战,其任务是将图像反转为物理变量,这些变量在渲染时能够再现观察到的场景。这一过程涉及到将图像解构为其构成元素,如场景中物体的形状、颜色和材料属性等。逆图形学的概念可以追溯到至少1974年的Baumgart,并在后续的研究中不断发展,如Kersten & Yuille (1996) 和 Yuille & Kersten (2006) 的工作。这些研究通常涉及“通过合成分析”(analysis by synthesis)的方法,即通过已知的世界模型来拟合图像数据。

更严格的逆图形学定义是创建一个图形程序,这是一种结构化的表示,可以被渲染引擎用来近似重现3D场景。这些程序是对视觉原语的紧凑且可解释的表示,有助于场景理解。逆图形学的目标不仅仅是对图像进行像素级或对象级的解释,而是利用对象之间固有的空间和物理关系来实现全面的场景理解。

大语言模型(LLMs)在逆图形学中的应用

1. LLMs的一般性和推理能力

大语言模型(LLMs),如GPT和BERT系列,因其在多种语言任务中表现出的卓越泛化能力而备受关注。这些模型通过在大规模数据集上进行预训练,能够捕捉到丰富的世界知识和语言结构,从而在零样本(zero-shot)任务中也能展现出良好的性能。最近,研究者开始探索将LLMs应用于逆图形学任务,即利用这些模型强大的推理能力和知识理解能力,来解析和重建3D场景。

2. 从视觉嵌入到图形代码的解码

在逆图形学的应用中,LLMs可以被用来从视觉嵌入中解码出图形代码。具体来说,通过结合预训练的视觉编码器和LLMs,研究者可以构建一个框架,将图像编码为视觉嵌入,然后通过LLM解码为能够被图形引擎使用的结构化代码。这一过程不依赖于图像空间的监督,而是利用LLM在语言处理中的下一个词预测能力来实现端到端的训练。

通过这种方式,LLMs不仅能够理解图像内容的语义信息,还能够根据图像生成精确的3D场景描述。这一能力的关键在于LLMs能够处理和生成连续的数值数据,这对于精确的空间推理尤为重要。例如,通过在LLM输出中集成数值头(numeric head),可以直接生成用于3D位置和方向估计的连续数值,而不是将这些数值作为离散的标记序列处理。

这种方法的潜力在于,它为精确的图像空间推理提供了一种新的可能性,这种推理利用了LLMs在视觉知识方面的能力,为未来的研究和应用开辟了新的道路。

方法详解:Inverse-Graphics Large Language Model (IG-LLM)

1. 结构和训练方法

Inverse-Graphics Large Language Model (IG-LLM) 是一个结合了大型语言模型(LLM)的逆图形框架,旨在通过视觉嵌入自回归解码,生成结构化的、组合式的3D场景表示。该模型结构包括一个预训练的视觉编码器和一个连续的数字头,以实现端到端训练。

IG-LLM 的训练方法采用了指令调整(instruction tuning),通过在有限的、精心策划的数据集上微调,使LLM获得遵循指令的能力。这种方法的优势在于,它允许模型在没有图像空间监督的情况下,通过下一个令牌预测来促进逆图形任务。
解锁图像新维度:剑桥联手英特尔,利用大语言模型重构逆向图形学!-LMLPHP

2. 数字头的设计与实现

数字头的设计核心在于将数字作为连续值处理,而不是作为离散的令牌序列。这一设计允许模型在欧几里得空间中进行精确的度量推理,从而解决了传统语言模型输出离散令牌时的局限性。

数字头本身是一个四层的多层感知机(MLP),它处理LLM的最后一个隐藏层输出,并将其转换为标量值。为了在生成数值和文本信息之间进行区分,模型使用了一个特殊的令牌 [NUM],作为掩码指示是否应产生一个数字。在训练过程中,除了对 [NUM] 令牌本身使用下一个令牌预测损失之外,还对每个数字应用均方误差(MSE)损失。
解锁图像新维度:剑桥联手英特尔,利用大语言模型重构逆向图形学!-LMLPHP

实验设计与数据集

为了评估IG-LLM框架的效能和泛化能力,设计了一系列的实验,使用合成数据进行定量分析。这些实验旨在探索模型在控制的分布偏移下的性能。

CLEVR和CLEVR-CoGenT数据集

CLEVR是一个程序生成的数据集,包含简单的3D对象,如球体、立方体和圆柱体,这些对象在平面上随机分布,并具有随机采样的属性,如形状、大小、颜色、材料和空间姿态。CLEVR-CoGenT是CLEVR的一个扩展,用于评估视觉问答(VQA)模型的组合泛化能力。

在这些数据集上,IG-LLM 被训练来从单个图像生成能够再现3D场景和其组成对象的图形程序。通过这种方式,模型学习解析图像并生成详细的场景描述,这些描述可以被传统的图形引擎使用。

评估指标和实验设置

实验中使用了属性识别准确率和对象计数误差作为评估指标。在CLEVR-CoGenT设置中,训练集包含具有特定属性组合的对象,而测试数据包括在训练期间未见过的属性组合。这种设置帮助评估了模型在面对分布偏移时的泛化能力。

通过这些精心设计的实验和数据集,IG-LLM展示了其在逆图形任务中的应用潜力,特别是在处理复杂场景和实现精确度量推理方面的能力。

实验结果与分析

1. 组合一般化能力

在CLEVR-CoGenT数据集上的实验结果显示,我们的模型在ID(In-Distribution)条件下达到了超过99%的准确率,这表明LLMs能够与特定领域的模块化设计相媲美。然而,在OOD(Out-Of-Distribution)条件下,基线方法的形状识别准确率显著下降66.12%,而我们的模型仅下降了6.01%。这一结果强调了LLMs在处理未见组合属性时的强大一般化能力。此外,数据效率分析表明,浮点基模型在估计对象位置方面比字符基模型更为高效,尽管随着样本数量的增加,这种差异逐渐减小。

2. 参数空间的一般化

我们在2D参数空间和SO(3)参数空间的一般化能力上进行了测试。在2D参数空间实验中,字符基模型在训练分布上过拟合,而浮点基模型能够有效地在测试分布上进行插值。SO(3)参数空间的实验结果显示,浮点基模型在ID和OOD条件下均优于字符基模型,这表明浮点基模型在处理更高维度数据时具有更好的一般化能力。
解锁图像新维度:剑桥联手英特尔,利用大语言模型重构逆向图形学!-LMLPHP

3. 视觉领域的跨域一般化

在6-DoF位姿估计的实验中,我们的模型能够处理单个对象和多对象场景的估计,并在视觉域转移方面表现出良好的一般化能力。特别是在使用ShapeNet数据集进行的场景级6-DoF位姿估计实验中,浮点基模型在所有评估中均优于或等同于字符基模型,特别是在处理未见对象和纹理的OOD-T+S设置中,表现出显著的一般化能力。
解锁图像新维度:剑桥联手英特尔,利用大语言模型重构逆向图形学!-LMLPHP

讨论与局限性

通过这项研究,我们展示了LLMs在处理逆图形任务中跨多个域的一般化能力。我们的模型能够在控制的设置中有效地解析和重建场景,但将这些模型扩展到复杂的现实世界场景将面临额外的挑战。

局限性

我们的方法的主要局限性在于其表达能力受到训练数据生成框架的限制。虽然模型能够学习将场景图像组合解析为构成元素,并在分布转移下重建场景,但它在处理未知对象或未训练的颜色和形状时的能力有限。此外,我们的评估场景简化了对象遮挡问题,未来的工作可能需要在增加模型的一般性和引入额外监督之间找到平衡。

未来方向

未来的研究可以探索更可扩展的训练数据生成器,或集成自监督技术以从未标记的图像中学习。虽然我们在实验中采用了相对简单的基于对象的代码表示,但更具表现力的场景表示也值得进一步探索。此外,考虑到在现实世界应用中可能遇到的各种挑战,如复杂的场景动态和多样的视觉现象,持续改进模型的适应性和鲁棒性将是持续的研究重点。

总结与未来展望

在本研究中,我们探索了大型语言模型(LLMs)在逆向图形任务中的应用潜力,并提出了逆向图形大型语言模型(Inverse-Graphics Large Language Model, IG-LLM)框架。通过将LLMs的广泛推理能力应用于图形编码,我们展示了该框架在多种分布偏移情况下的自然泛化能力。此外,我们还探讨了通过数值头部的整合,使LLMs适应连续度量值估计,从而提高了模型的泛化能力和训练动态的平滑性。

1. 模型泛化能力的验证

我们的评估显示,IG-LLM在组合泛化(Sec. 4.1)、参数空间(Sec. 4.2)和视觉域(Sec. 4.3)中均表现出良好的泛化能力。特别是在CLEVR-CoGenT数据集上,与传统的NS-VQA模型相比,IG-LLM在面对未见过的属性组合时显示出更强的泛化能力。此外,我们的模型在处理单一对象的6-DoF姿态估计任务中也显示出优异的性能,能够处理超过100个不同资产的复杂多对象场景。

2. 数值头部的创新应用

通过引入数值头部,我们的模型能够在保持连续参数估计的同时,有效地处理字符和浮点数输出的差异。这一改进不仅提高了模型在参数空间的泛化能力,还使得训练过程更加稳定和高效。

3. 未来研究方向

尽管IG-LLM在多个方面表现出色,但在实际应用中仍面临一些挑战和限制。首先,模型的表达能力受到训练数据生成框架的限制,尤其是在处理未知对象或OOD配置时。其次,尽管我们的方法不依赖于特定的任务特定归纳偏差,但在处理更复杂的真实世界场景时,可能需要更多的训练数据或更高的代码表达力。

未来的工作可以探索更可扩展的训练数据生成器,或集成自监督技术以从未标记的图像中学习。此外,也可以探索更具表达力的场景表示方法,以及如何在保持泛化能力的同时,通过增加额外的监督或归纳偏差来处理更难以分解的场景。

总之,IG-LLM框架为使用大型语言模型解决逆向图形问题开辟了新的研究方向,展示了LLMs在空间推理和场景理解中的巨大潜力。随着模型和训练技术的进一步发展,我们有望在未来看到更多创新的应用。

关注DeepVisionary 了解更多深度学习前沿科技信息&顶会论文分享!

05-01 07:24