大型语言模型(LLMs)已经展示了生成通用计算机程序的能力,并提供了对程序结构的理解。然而,测试 LLMs 的真实能力是一个挑战,尤其是在找到它们训练期间未见过的任务时。确定 LLMs 是否能真正“理解”这些在执行时生成视觉内容的符号图形程序至关重要。研究人员将这种理解定义为在仅基于程序的原始文本输入的情况下,理解呈现图像的语义内容。这种方法涉及在不实际查看图像的情况下回答有关图像内容的问题,这对于有视觉输入的情况来说很容易,但仅依赖程序文本则要困难得多。
现有的符号图形程序研究主要集中在 2D 形状和 3D 几何的程序化建模上。这些程序包括构造实体几何(CSG)、计算机辅助设计(CAD)和可扩展矢量图形(SVG),它们提供了清晰且可解释的视觉内容表示。此外,LLMs 已被应用于各种编程任务,如代码检索、自动化测试和代码生成;然而,理解符号图形程序与这些任务有很大不同,因为其语义意义通常是通过视觉定义的。现有的 LLMs 评估基准主要关注非图形程序的理解,而视觉语言模型则使用多模态数据集进行图像字幕生成和视觉问答等任务的评估。
来自马普智能系统研究所、剑桥大学和麻省理工学院的研究人员提出了一种新的方法来评估和增强 LLMs 对符号图形程序的理解。引入了名为 SGP-Bench 的基准,用于测试 LLMs 在解释 SVG(2D 矢量图形)和 CAD(2D/3D 对象)程序方面的语义理解和一致性。此外,基于一个名为符号指令调优的收集指令跟随数据集,研究人员开发了一种新的微调方法以提升性能。此外,研究人员创建的符号 MNIST 数据集显示了 LLM 和人类在理解符号图形程序方面存在重大差异。
构建评估 LLMs 符号图形程序理解能力的基准过程采用了一个可扩展且高效的流水线。它使用一个强大的视觉语言模型(GPT-4o)根据符号程序渲染的图像生成语义问题,进一步由人工校对人员验证这些自动生成的问答对的质量和准确性。与传统的数据创建方法相比,这种方法减少了所需的人工工作。对于 SVG 和 2D CAD 程序,这个过程很简单,因为它们直接生成 2D 图像,但在 3D CAD 程序中,3D 模型首先需要从多个固定的摄像机位置转换为 2D 图像。
LLMs 对符号图形程序理解的评估是在由 1,000 个生成类似 MNIST 数字图像的 SVG 程序组成的 SGP-MNIST 数据集上进行的,每个数字(0-9)有 100 个程序。虽然人类可以轻松识别这些图像,但 LLMs 发现解释这些符号程序极其具有挑战性。即使是先进的 GPT-4o 模型也仅比随机猜测稍好。人类和 LLMs 在处理和理解视觉信息符号表示方面的显著差异突显了一个重要的差距。
综上所述,研究人员提出了一种新的评估 LLMs 的方法,通过评估它们直接从符号图形程序中理解图像的能力,而无需视觉输入。研究人员创建了 SGP-Bench,这是一个有效衡量 LLMs 在这一任务中表现的基准。他们还引入了符号指令调优(SIT)以增强 LLMs 解读图形程序的能力。这项研究有助于更清晰地了解 LLMs 的能力,并促进多样化评估任务的创建。未来的研究包括调查 LLMs 在这一领域的语义理解,并致力于开发先进的方法以提高它们在这些任务中的性能。