LLMs Archives

LLMs 能否可视化图形？评估人工智能对符号程序的理解

大型语言模型（LLMs）已经展示了生成通用计算机程序的能力，并提供了对程序结构的理解。然而，测试 LLMs 的真实能力是一个挑战，尤其是在找到它们训练期间未见过的任务时。确定 LLMs 是否能真正“理解”这些在执行时生成视觉内容的符号图形程序至关重要。研究人员将这种理解定义为在仅基于程序的原始文本输入的情况下，理解呈现图像的语义内容。这种方法涉及在不实际查看图像的情况下回答有关图像内容的问题，这对于有视觉输入的情况来说很容易，但仅依赖程序文本则要困难得多。现有的符号图形程序研究主要集中在 2D 形状和 3D 几何的程序化建模上。这些程序包括构造实体几何（CSG）、计算机辅助设计（CAD）和可扩展矢量图形（SVG），它们提供了清晰且可解释的视觉内容表示。此外，LLMs 已被应用于各种编程任务，如代码检索、自动化测试和代码生成；然而，理解符号图形程序与这些任务有很大不同，因为其语义意义通常是通过视觉定义的。现有的 LLMs 评估基准主要关注非图形程序的理解，而视觉语言模型则使用多模态数据集进行图像字幕生成和视觉问答等任务的评估。来自马普智能系统研究所、剑桥大学和麻省理工学院的研究人员提出了一种新的方法来评估和增强 LLMs 对符号图形程序的理解。引入了名为 SGP-Bench 的基准，用于测试 LLMs 在解释 SVG（2D 矢量图形）和 CAD（2D/3D 对象）程序方面的语义理解和一致性。此外，基于一个名为符号指令调优的收集指令跟随数据集，研究人员开发了一种新的微调方法以提升性能。此外，研究人员创建的符号 MNIST 数据集显示了 LLM 和人类在理解符号图形程序方面存在重大差异。构建评估 LLMs 符号图形程序理解能力的基准过程采用了一个可扩展且高效的流水线。它使用一个强大的视觉语言模型（GPT-4o）根据符号程序渲染的图像生成语义问题，进一步由人工校对人员验证这些自动生成的问答对的质量和准确性。与传统的数据创建方法相比，这种方法减少了所需的人工工作。对于 SVG 和 2D CAD 程序，这个过程很简单，因为它们直接生成 2D 图像，但在 3D CAD 程序中，3D 模型首先需要从多个固定的摄像机位置转换为 2D 图像。 LLMs 对符号图形程序理解的评估是在由 1,000 个生成类似 MNIST 数字图像的 SVG 程序组成的 SGP-MNIST 数据集上进行的，每个数字（0-9）有 100 个程序。虽然人类可以轻松识别这些图像，但 LLMs 发现解释这些符号程序极其具有挑战性。即使是先进的 GPT-4o 模型也仅比随机猜测稍好。人类和 LLMs 在处理和理解视觉信息符号表示方面的显著差异突显了一个重要的差距。综上所述，研究人员提出了一种新的评估 LLMs 的方法，通过评估它们直接从符号图形程序中理解图像的能力，而无需视觉输入。研究人员创建了 SGP-Bench，这是一个有效衡量 LLMs 在这一任务中表现的基准。他们还引入了符号指令调优（SIT）以增强 LLMs 解读图形程序的能力。这项研究有助于更清晰地了解 LLMs 的能力，并促进多样化评估任务的创建。未来的研究包括调查 LLMs 在这一领域的语义理解，并致力于开发先进的方法以提高它们在这些任务中的性能。

关于大模型「越狱」的多种方式，有这些防御手段

随着人工智能（AI）技术的迅猛发展，特别是大语言模型（LLMs）如 GPT-4 和视觉语言模型（VLMs）如 CLIP 和 DALL-E，这些模型在多个技术领域取得了显著的进展。LLMs 已经在自然语言处理任务中展现出了前所未有的能力，而 VLMs 则在图像和文本的融合任务中表现优异。这些技术的应用范围从自动化客服到智能创作，无不展示出其强大的潜力。然而，伴随着这些进展，安全性和伦理对齐的问题也日益凸显。近年来，越来越多的研究者关注 LLMs 和 VLMs 的越狱现象，即通过特定技术手段绕过这些模型的内置安全机制，生成不符合伦理规范的输出。这些越狱行为不仅对模型的实际应用构成威胁，也对用户的安全和隐私带来潜在风险。因此，理解和防范这些越狱行为成为 AI 安全研究中的一个关键问题。我们来看一个具体的关于越狱的例子：在上述例子中，用户输入一个恶意问题（蓝色所示），通常而言，大语言模型会拒绝回答此类问题。然而，当攻击者增加一个精心制作的越狱前缀（黄色所示），大语言模型将会对恶意问题进行详细的解答。同样，防御者可以通过增加一些安全提示（红色所示），提醒大语言模型重新思考所给出的答案，中止恶意回复。针对上述越狱现象，近期，来自伊利诺伊大学香槟分校，布朗大学，密歇根大学安娜堡分校，香港科技大学，卡内基梅隆大学和博伊西州立大学的研究者联合发布了一篇综述，详细探讨了 LLMs 和 VLMs 的越狱现象，对各种越狱类型和相应的防御机制进行了系统分类和分析。通过对现有研究的全面综述，旨在为学术界和工业界提供一个关于 AI 模型安全性的全面视角，并提出应对这些挑战的有效策略。论文地址：https://arxiv.org/pdf/2407.01599 项目地址：https://github.com/Allen-piexl/JailbreakZoo 网站地址：https://chonghan-chen.com/llm-jailbreak-zoo-survey/ 这篇综述提供了： 1. 越狱分类：我们将关于LLMs的越狱现象细分为5种类型，将关于VLMs的越狱现象细分为3种类型，提供了每种类型的详细分类和理解。以下是我们分类的主要内容： LLMs 梯度攻击（Gradient-based Attacks）进化攻击（Evolutionary-based Attacks）演示攻击（Demonstration-based Attacks）规则攻击（Rule-based Attacks）多代理攻击（Multi-agent-based Attacks） VLMs 提示到图像注入的越狱攻击（Prompt-to-Image Injection Jailbreaks）提示-图像扰动注入越狱攻击（Prompt-Image Perturbation Injection Jailbreaks）代理模型迁移越狱攻击（Proxy Model Transfer Jailbreaks）此外，我们进一步整理了现有的利用越狱攻击对LLMs和VLMs进行评测的方法，以及一些相关的综述。 2. 防御机制：我们回顾并分类了各种防御策略，我们发现，LLMs和VLMs有着类似的防御机制，强调了统一方法以应对这些越狱漏洞的必要性。主要防御机制包括：提示检测（Prompt Detection-based Defenses）提示扰动（Prompt Perturbation-based Defenses）演示防御（Demonstration-based Defenses）生成干预（Generation Intervention-based Defenses）响应评估（Response Evaluation-based Defenses）模型微调（Model Fine-tuning-based Defenses） 3. 未来研究方向：我们的综述突出了当前研究中的关键空白，并提出了未来的研究方向，以增强LLMs和VLMs的安全框架。越狱类型及实例 – 大语言模型（LLMs）在我们的研究中，我们将大语言模的越狱现象进行了系统分类，归纳为七种主要类型。每种类型都有其独特的攻击方法和技术细节，通过对这些越狱类型的深入分析，我们希望能够揭示这些模型在安全性方面的潜在漏洞，并为未来的防御工作提供指导。 1. 梯度攻击（Gradient-based Attacks）梯度攻击通过利用模型的梯度信息，生成有害响应。例如，使用梯度坐标贪婪算法（GCG）生成后缀，使模型生成有害内容。此方法通过梯度优化生成能避开模型检测的提示，从而使 LLM 输出有害的响应。此类攻击常用于测试模型的安全性和鲁棒性，研究者通过此类攻击可以发现模型的潜在漏洞，并进行相应的修复和优化。 2. 进化攻击（Evolutionary-based Attacks）进化攻击使用遗传算法生成对抗性提示，优化语义相似性、攻击效果和流畅性。例如，FuzzLLM 通过随机组合模板、约束和问题集生成攻击指令。这些方法使用进化策略逐步改进提示，以找到最有效的攻击手段。进化攻击特别适合在黑盒环境中使用，即攻击者对模型内部结构和参数未知的情况下，也能进行有效攻击。 3. 演示攻击（Demonstration-based Attacks）演示攻击通过创建特定的系统提示，指示 LLMs 生成预期的响应。这些方法通常是硬编码的，提示经过精心设计以引导模型生成所需的响应。例如，DAN 方法通过预设的对话框架，使模型在 “开发者模式” 下生成本不应生成的内容。演示攻击利用模型的上下文学习能力，通过提供一系列示例，使模型更容易产生目标响应。 4. 规则攻击（Rule-based Attacks）规则攻击通过预定义的规则将恶意成分分解并重定向。攻击者设计复杂的规则，隐藏恶意内容。例如，通过词汇替换将有害意图编码为看似正常的内容，从而绕过模型的检测。这类攻击方法特别适用于绕过简单的基于关键字的检测系统，使攻击内容在输入时显得无害。 5. 多代理攻击（Multi-agent-based Attacks）多代理攻击利用多个 LLMs 合作，生成、组织和改进越狱提示。这些方法通过模拟多模型协作的方式，提高越狱攻击的效果。例如，PAIR 方法利用多个代理模型生成和评估提示，不断优化攻击策略。这种方法特别适合用于需要迭代改进的攻击场景，通过多次尝试和反馈，找到最有效的攻击手段。越狱类型及实例 – 视觉语言模型（VLMs）与大语言模型（LLM）类似，与视觉语言模型（VLM）相关的越狱也已成为一个重要关注点。由于所有 VLM 都使用 LLM 组件进行文本编码，因此影响 LLM 的漏洞也可能会危及 VLM。此外，VLM 中视觉输入的引入不仅拓宽了其功能范围，还显著增加了攻击面，从而加剧了涉及的安全风险。与主要针对文本输入的 LLM 越狱不同，VLM 的恶意操纵可以通过视觉输入、文本组件或两者的组合进行，表现出更加复杂和多样的模式。 1. 提示到图像注入的越狱攻击（Prompt-to-Image Injection Jailbreaks）通过将恶意提示注入到图像生成过程中来绕过模型的安全机制。攻击者设计特定的文本提示，使模型生成含有不良或不符合伦理的图像。例如，攻击者可以利用一些敏感词汇或语句来引导模型生成攻击性或误导性的图像。 2. 提示 – 图像扰动注入越狱攻击（Prompt-Image Perturbation Injection Jailbreaks）提示 – 图像扰动注入越狱攻击结合了文本提示和图像扰动，通过在输入提示中加入微小的扰动，使模型生成错误或有害的响应。例如，攻击者可以在图像中加入几乎不可见的像素变化，同时调整文本提示，以引导模型生成偏离预期的描述或内容。这种方法利用了模型对微小变化的敏感性，使其难以检测和防御。 3. 代理模型迁移越狱攻击（Proxy Model Transfer Jailbreaks）代理模型迁移越狱攻击利用代理模型进行攻击，即在较小的代理模型上训练和优化攻击，然后将其转移到目标模型上。攻击者在代理模型上进行大量试验，找到有效的攻击方式，再将这些攻击应用到目标模型上。此类攻击可以有效绕过目标模型的安全机制，因为代理模型和目标模型可能共享相似的弱点和漏洞。防御机制及实例 – 大语言模型（LLMs） 1. 提示检测（Prompt Detection-based Defenses）提示检测基于输入提示的特征，如困惑度（Perplexity）和长度，评估提示的有害性。例如，通过困惑度计算器 LLM 检测输入提示的困惑度，判断其是否安全。提示检测是最早的防御策略之一，利用模型对高困惑度提示的不敏感性来判断提示的安全性。 2. 提示扰动（Prompt Perturbation-based Defenses）提示扰动通过对输入提示进行修改，破坏其恶意意图。例如，通过语义扰动和重新分词技术生成多个变体，评估每个变体的响应是否安全。此类方法利用了恶意提示对精确结构和词序的依赖，通过随机扰动破坏这些结构，使其难以成功执行攻击。 3. 演示防御（Demonstration-based Defenses）演示防御通过设置安全的系统提示，引导 LLM 生成安全响应。例如，使用自我提醒提示模型生成安全的响应。演示防御利用了模型的上下文学习能力，通过提供正面示例，增强模型对安全响应的倾向。 4. 生成干预（Generation Intervention-based Defenses）生成干预通过调整 LLM 的响应生成过程，确保输出的安全性。例如，RAIN 方法通过反复生成和评估 token，确保生成的内容安全。此类方法在生成过程中实时干预，动态调整输出内容，以避免生成有害响应。 5. 响应评估（Response Evaluation-based Defenses）响应评估通过对生成的响应进行评估，确保其安全性。例如，利用辅助 LLM 评估响应的有害性，并进行迭代改进。此类方法利用模型对自身生成内容的评估能力，通过不断优化，确保最终输出的安全。 6. 模型微调（Model Fine-tuning-based Defenses）模型微调通过调整 LLM 的内部参数，增强其安全性。例如，通过在混合数据上训练模型，使其对有害内容更加敏感，从而生成更安全的响应。此类方法直接改变模型的行为，使其在面对恶意提示时能够做出更安全的决策。防御机制及实例 – 视觉语言模型（VLMs）在视觉语言模型中，许多防御策略与大语言模型的防御策略相似。这些策略通过调整模型的内部参数、评估生成的响应以及扰动输入提示来增强模型的安全性。 1. 提示扰动防御（Prompt Perturbation-based Defenses）提示扰动通过对输入提示进行修改，破坏其恶意意图。例如，通过语义扰动和重新分词技术生成多个变体，评估每个变体的响应是否安全。此类方法利用了恶意提示对精确结构和词序的依赖，通过随机扰动破坏这些结构，使其难以成功执行攻击。 2. 响应评估防御（Response Evaluation-based Defenses）响应评估通过对生成的响应进行评估，确保其安全性。例如，利用辅助 VLM 评估响应的有害性，并进行迭代改进。此类方法利用模型对自身生成内容的评估能力，通过不断优化，确保最终输出的安全。 3. 模型微调防御（Model Fine-tuning-based Defenses）模型微调通过调整 VLM 的内部参数，增强其安全性。例如，通过在混合数据上训练模型，使其对有害内容更加敏感，从而生成更安全的响应。此类方法直接改变模型的行为，使其在面对恶意提示时能够做出更安全的决策。未来研究方向我们的研究不仅分析了当前 LLMs 和 VLMs 越狱现象及其防御机制，还发现了现有研究中的一些关键空白。这些空白为未来的研究提供了重要的方向，以进一步增强 AI 模型的安全性和鲁棒性。以下是我们提出的几个未来研究方向： 1. 多模态越狱攻击与防御随着多模态 AI 系统的快速发展，如何在结合文本和图像的环境中进行越狱攻击并有效防御成为一个重要课题。未来研究应重点关注多模态模型中的越狱技术，包括如何利用视觉和文本输入的协同作用来规避安全机制。同时，需要开发专门针对多模态系统的防御策略，以确保这些系统在处理复杂任务时的安全性。 2. 自动化越狱检测与修复现有的越狱检测方法大多依赖于手工设计的规则和特征，效率较低且难以适应不断变化的攻击手段。未来研究可以探索利用机器学习和深度学习技术，开发自动化的越狱检测与修复系统。这些系统应能够实时检测并修复潜在的越狱攻击，提升模型的自我保护能力。 3. 强化学习在越狱防御中的应用强化学习（Reinforcement Learning, RL）在越狱防御中的应用具有广阔前景。通过 RL，模型可以在不断的交互中学习如何识别和防御越狱攻击。例如，利用 RL 技术，模型可以动态调整其内部参数和响应策略，以应对不同类型的攻击。未来研究应深入探索 RL 在越狱防御中的应用，并开发相应的算法和工具。 4. 越狱攻击的伦理与法律研究随着越狱技术的不断发展，其潜在的伦理和法律问题也逐渐显现。未来研究应关注越狱攻击的伦理和法律影响，包括如何制定相关法规和政策来规范越狱行为。此外，还需要探索如何在技术和法律层面有效平衡创新与安全，确保 AI 技术的可持续发展。 5. 开放与封闭模型的安全对比研究当前的研究多集中于开放源代码的模型，而对封闭源代码模型的研究相对较少。未来应更多关注开放与封闭模型在安全性方面的差异，研究如何在封闭环境中实现高效的安全防御。同时，还需探索开放模型社区的协作机制，以共享和推广有效的防御策略。 6. 用户教育与防护除了技术层面的防御，用户教育也是防范越狱攻击的重要环节。未来研究应开发针对不同用户群体的教育资源，提高用户对越狱攻击的认知和防范能力。通过增强用户的安全意识，可以有效减少越狱攻击的成功率，从而提升整体系统的安全性。总结大语言模型（LLMs）和视觉语言模型（VLMs）的越狱现象和防御机制有许多共性和差异。共性源于它们都基于深度学习技术和类似的神经网络结构，且主要处理自然语言内容，因此在面临梯度攻击、进化攻击等威胁时表现出相似的脆弱性。防御策略如提示检测、提示扰动、生成干预、响应评估和模型微调在两者中也有广泛应用。然而，VLMs 由于需要处理图像和文本的组合输入，其攻击手段更为复杂，包括 Prompt-to-Image Injection 和 Prompt-Image Perturbation Injection 等多模态攻击。防御机制也因此更复杂，需要同时考虑视觉和语言输入的特性。VLMs 的训练成本较高，Proxy Model Transfer Jailbreaks 在这种情况下更为常见，攻击者利用代理模型优化攻击，再将其应用于目标模型。此外，LLMs 和 VLMs 在应用场景上有所不同，LLMs 主要用于文本生成和对话系统，而 VLMs 则用于图像生成和图文理解任务。这些共性和差异为理解和应对 AI 模型的安全威胁提供了重要的洞见，未来研究应继续关注这些方面，以开发更有效的防御策略，确保 AI 技术的安全应用。

ICML 2024｜复杂组合3D场景生成，LLMs对话式3D可控生成编辑框架来了

近年来，针对单个物体的 Text-to-3D 方法取得了一系列突破性进展，但是从文本生成可控的、高质量的复杂多物体 3D 场景仍然面临巨大挑战。之前的方法在生成场景的复杂度、几何质量、纹理一致性、多物体交互关系、可控性和编辑性等方面均存在较大缺陷。最近，来自北京大学王选计算机研究所的 VDIG 研究团队与其合作者公布了最新研究成果 GALA3D。针对多物体复杂 3D 场景生成，该工作提出了 LLM 引导的复杂三维场景可控生成框架 GALA3D，能够生成高质量、高一致性、具有多物体和复杂交互关系的 3D 场景，支持对话式交互的可控编辑，论文已被 ICML 2024 录用。论文标题：GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting 论文链接：https://arxiv.org/pdf/2402.07207 论文代码：https://github.com/VDIGPKU/GALA3D 项目网站：https://gala3d.github.io/ GALA3D 是一个高质量的 Text-to-3D 复杂组合场景生成与可控编辑框架。用户输入一段描述文本，GALA3D 能够 zero-shot 地生成相应的具有多物体和复杂交互关系的三维场景。GALA3D 在保证生成 3D 场景与文本高度对齐的同时，展现了其在生成场景质量、多物体复杂交互、场景几何一致性等方面的卓越性能。此外，GALA3D 还支持用户友好的端到端生成和可控编辑，使得普通用户能够在对话式的交谈中轻松定制和编辑 3D 场景。在与用户的交流中，GALA3D 可以精准地实现复杂三维场景对话式的可控编辑，并根据用户的对话实现复杂三维场景的布局变换、数字资产嵌入、装修风格改变等多样化的可控编辑需求。方法介绍 GALA3D 的整体架构如下图所示： GALA3D 利用大型语言模型（LLMs）生成初始布局，并提出布局引导的生成式 3D 高斯表示构建复杂 3D 场景。GALA3D 设计通过自适应几何控制优化 3D 高斯的形状和分布，以生成具有一致几何、纹理、比例和精确交互的 3D 场景。此外，GALA3D 还提出了一种组合优化机制，结合条件扩散先验和文生图模型，协作生成具有一致风格的 3D 多物体场景，同时迭代优化从 LLMs 提取的初始布局先验，以获得更加逼真准确的真实场景空间布局。广泛的定量实验和定性研究表明 GALA3D 在文本到复杂三维场景生成方面取得了显著效果，超越现有文生 3D 场景方法。 a、基于 LLMs 的场景布局先验大语言模型展现了优异的自然语言理解和推理能力，本文进一步探索了 LLMs 大语言模型在 3D 复杂场景的推理和布局生成能力。如何在没有人工设计的情况下获得相对合理的布局先验有助于减少场景建模和生成的代价。对此，我们使用 LLMs (例如 GPT-3.5) 对文本输入的实例及其空间关系进行抽取，并生成相应的 Layout 布局先验。然而，通过 LLMs 解读的场景 3D 空间布局和 Layout 先验与实际场景存在一定差距，通常表现生成悬浮 / 穿模的物体，比例差异过大的物体组合等。进一步地，我们提出了 Layout Refinement 模块，通过基于视觉的 Diffusion 先验和 Layout 引导的生成式 3D 高斯对上述生成的粗糙布局先验进行调整和优化。 b、Layout Refinement GALA3D 使用基于 Diffusion 先验的 Layout 布局优化模块对上述 LLMs 生成的布局先验进行优化。具体地，我们将 Layout 引导的 3D 高斯空间布局的梯度优化加入 3D 生成过程，通过 ControlNet 对 LLM-generated Layouts 进行空间位置、旋转角度和尺寸比例的调整，如图展示了优化前后 3D 场景和 Layout 的对应关系。经过优化的 Layout 具有更加准确的空间位置和比例尺度，并且使得 3D 场景中多物体的交互关系更加合理。 c、布局引导的生成式 3D 高斯表示我们首次将 3D-Layout 约束引入 3D 高斯表示，提出了布局引导的生成式 3D 高斯，用于复杂文生 3D 场景。Layout-guided 3D 高斯表示包含多个语义抽取的实例物体，其中每个实例物体的 Layout 先验可以参数化为：其中，N 代表场景中实例物体的总数。具体地，每一个实例 3D 高斯通过自适应几何控制进行优化，得到实例级的物体 3D 高斯表示。进一步地，我们将多个物体高斯根据相对位置关系组合到全场景中，生成布局引导的全局 3D 高斯并通过全局 Gaussian Splatting 渲染整个场景。 d、自适应几何控制为了更好地控制 3D 高斯在生成过程中的空间分布和几何形状，我们提出了针对生成式 3D 高斯的自适应几何控制方法。首先给定一组初始高斯，为了将 3D 高斯约束在 Layout 范围内，GALA3D 使用一组密度分布函数来约束高斯椭球的空间位置。我们接着对 Layout 表面附近的高斯进行采样来拟合分布函数。之后，我们提出使用形状正则化控制 3D 高斯的几何形状。在 3D 生成的过程中，自适应几何控制不断优化高斯的分布和几何，从而生成更具纹理细节和规范几何的 3D 多物体与场景。自适应几何控制还保证了布局引导的生成式 3D 高斯具有更高的可控性和一致性。实验结果与现有 Text-to-3D 生成方法相比，GALA3D 展现了更加优异的 3D 场景生成质量和一致性，定量实验结果如下表所示：我们还进行了广泛且有效的用户调研，邀请 125 位参与者（其中 39.2% 为相关领域的专家和从业人员）对本文方法和现有方法的生成场景进行多角度评估，结果如下表所示：实验结果表明 GALA3D 在生成场景质量、几何保真度、文本一致性、场景一致性等多维度的测评指标中均超越现有方法，取得了最优的生成质量。如下图定性实验结果所示，GALA3D 能够 zero-shot 地生成复杂多物体组合 3D 场景，并且具有良好的一致性：下图展示了 GALA3D 能够支持用户友好的、对话式的可控生成和编辑：

首届大模型顶会COLM 高分论文：偏好搜索算法PairS，让大模型进行文本评估更高效

大模型展现出了卓越的指令跟从和任务泛化的能力，这种独特的能力源自 LLMs 在训练中使用了指令跟随数据以及人类反馈强化学习（RLHF）。在 RLHF 训练范式中，奖励模型根据排名比较数据与人类偏好对齐。这增强了 LLMs 与人类价值观的对齐，从而生成更好地帮助人类并遵守人类价值观的回应。近日，第一届大模型顶会 COLM 刚刚公布接收结果，其中一项高分工作分析了 LLM 作为文本评估器时难以避免和纠正的分数偏见问题，并提出了将评估问题转换成偏好排序问题，从而设计了 PairS 算法，一个可以从成对偏好（pairwise preference）中搜索和排序的算法。通过利用不确定性和 LLM 传递性（transitivity）的假设，PairS 可以给出高效，准确的偏好排序，并在多个测试集上展现出和人类判断更高的一致性。论文链接: https://arxiv.org/abs/2403.16950 论文标题：Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators Github 地址: https://github.com/cambridgeltl/PairS 用大模型评估有什么问题？最近大量的工作展示了 LLMs 在评估文本质量上的出色表现，形成了一种无需参考的生成任务评估新范式，避免了昂贵的人类标注成本。然而，LLM 评估器（evaluator）对提示（prompt）设计高度敏感，甚至会受到多种偏见的影响，包括位置偏见、冗长偏见和上下文偏见。这些偏见阻碍了 LLM 评估器的公平和可信，导致与人类判断的不一致和不对齐。为了减少 LLMs 的偏见预测，之前的工作开发了校准技术（calibration）以减少 LLM 预测中的偏见。我们先对校准技术在对齐单点（pointwise） LLM 评估器的有效性进行了系统分析。如上图 2 所示，即使提供了监督数据，现有的校准方法仍然不能很好的对齐 LLM 评估器。如公式 1 所示，我们认为评估不对齐的主要原因并非 LLM 评估分数分布的先验具有偏见（biased priors over evaluation score distribution），而是评估标准（evaluation standard）的错位，即 LLM 评估器的似然（likelihood）。我们认为做成对（pairwise）评估时，LLM 评估器会与人类有更一致的评价标准，因此，我们探索了一种新的 LLM 评估范式，以促进更对齐的判断。 RLHF 带来的启发如下图 1 所示，受到 RLHF 中通过偏好数据对奖励模型进行对齐的启发，我们认为 LLM 评估器可以通过生成偏好排序（preference ranking）来得到更和人类对齐的预测。最近已有一些工作开始通过让 LLM 进行成对比较（pairwise comparison）来得到偏好排序。然而，评估偏好排序的复杂性和可扩展性在很大程度上被忽视了。它们忽略了传递性假设（transitivity assumption），使得比较次数的复杂度为 O (N^2)，让评估过程变得昂贵而不可行。 PairS：高效偏好搜索算法在本工作中，我们提出了两种成对偏好搜索算法（PairS-greedy 和 PairS-beam）。PairS-greedy 是基于完全的传递性假设和合并排序（merge sort）的算法，只需要通过 O (NlogN) 的复杂度就可以得到全局的偏好排序。传递性假设是指，比如对于 3 个候选项，LLM 总是有如果 A≻B 以及 B≻C，则 A≻C。在这个假设下我们可以直接用传统的排序算法从成对偏好中获得偏好排序。但是 LLM 并不具有完美的传递性，所以我们又设计了 PairS-beam 算法。在更宽松传递性假设下，我们推导并化简了偏好排序的似然函数（likelihood function）。PairS-beam 在合并排序算法的每一次的合并操作（merge operation）中按似然值做集束搜索，并通过偏好的不确定性（uncertainty）来减枝成对比较的空间的搜索方法。PairS-beam 可以调整对比复杂度和排序质量，高效的给出偏好排序的最大似然估计（MLE）。在下图 3 中我们展示了一个 PairS-beam 如何做合并操作的例子。实验结果我们在多个具有代表性的数据集上进行了测试，包括闭合式生成的缩写任务NewsRoom 和 SummEval，和开放式的故事生成任务HANNA，并对比了多个 LLM 单点评估的基线方法，包括无监督的 direct scoring, G-Eval, GPTScore 和有监督训练过的 UniEval 以及 BARTScore。如下表 1 所示，PairS 在每个任务上和他们相比都有着和人类评分更高的一致性。GPT-4-turbo 更是能达到 SOTA 的效果。在文章中，我们还对比了两种偏好排序的基线方法，win rate 和 ELO rating。PairS 可以仅用约 30% 的对比次数就能达到他们同样质量的偏好排序。论文还提供了更多关于如何使用成对偏好来量化计算 LLM 评估器的传递性，以及成对评估器如何在校准中受益的见解。