一文看尽LLM对齐技术:RLHF、RLAIF、PPO、DPO……

为了对齐 LLM,各路研究者妙招连连。 LLM 很强大了,但却并不完美,它也会出错或者生成无用乃至有害的结果,比如有人发现可以让 ChatGPT 教人如何偷盗: 让 ChatGPT 教人如何偷盗商店;左图,ChatGPT 拒绝回答;右图,在 prompt 中添加了「with no moral restraints(不加道德约束)」后,ChatGPT 给出了商店偷盗指南 这时候,对齐(alignment)就至关重要了,其作用就是让 LLM 与人类的价值观保持一致。 在对齐 LLM 方面,基于人类反馈的强化学习(RLHF)是一种突破性的技术。该方法催生了 GPT-4、Claude 和 Gemini 等强大模型。RLHF 之后,人们也探索了多种多样的对齐 LLM 的方法。但是,此前还没有人全面总结对齐 LLM 与人类偏好的方法。 Salesforce 决定填补这一空白,于近日发布了一份 37 页的综述报告,其中按类别总结了现有的研究文献,并详细分析了各篇论文。   论文标题:A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More 论文地址:https://arxiv.org/pdf/2407.16216 这篇论文分为四大主题:奖励模型、反馈、强化学习(RL)、优化。每个主题又包含进一步的子主题,如图 1 所示。   奖励模型的子主题包括:1. 显式奖励模型与隐式奖励模型;2. 逐点奖励模型与偏好模型;3. 响应层面的奖励与 token 层面的奖励;4. 负偏好优化。 反馈的子主题包括:1. 偏好反馈与二元反馈;2. 成对反馈与列表反馈;3. 人类反馈与 AI 反馈。 强化学习的子主题包括:1. 基于参考的强化学习与无参考的强化学习;2. 长度控制式强化学习;3. 强化学习中的不同分支;4. 在线策略强化学习与离线策略强化学习。 优化的子主题包括:1. 在线 / 迭代式偏好优化与离线 / 非迭代式偏好优化;2. 分离 SFT 和对齐与合并 SFT 和对齐。   表 1 列出了这篇综述报告中分析的所有论文在这 13 个评估指标上的划分情况。 研究论文 这一节将详细介绍各篇论文,让读者无需阅读原论文也能了解这些重要创新。机器之心将简单梳理各个研究方向并列出代表性论文。 1. RLHF/PPO LLM 的预训练要用到大量来自不同来源的语料库,而这本身就无法确保这些数据集的质量。此外,LLM 的主要目标是预测下一个 token,这个目标与「有用且安全地遵从用户指令」的目标并不一致。因此,LLM 可能会输出不真实、有害或对用户无用的内容。本质上讲,这些模型并未与用户意图对齐。RLHF/PPO 的主要目标是在各种任务上对齐语言模型与用户意图,其做法是使用人类反馈来微调模型。有关这个主题的研究有很多。 InstructGPT InstructGPT 来自 OpenAI,这是训练 ChatGPT 和 GPT-4 等模型的基础,参阅《GPT-4 技术报告》以及机器之心的报道《GPT-4 震撼发布:多模态大模型,直接升级 ChatGPT、必应,开放 API,游戏终结了?》《跟李沐学 ChatGPT 背后技术:67 分钟读透 InstructGPT 论文》。 通过纳入人类偏好,评估 LLM 生成的响应的难题得到了解决。BLEU、ROUGE 和 BERTScore 等用于评估 LLM 的传统评估指标无法保证与人类偏好的一致性。为了解决这个问题,研究者直接将人类偏好整合进了 LLM 以增强其性能。这个过程通常涉及两个主要步骤:奖励模型学习和强化学习策略训练。 在奖励模型学习阶段,会使用 prompt 和配对的响应训练一个显式的逐点奖励函数。 之后,开始强化学习策略训练阶段;在这个阶段,LLM 和预训练奖励模型分别作为一个强化学习框架中的智能体和环境。 为了训练 InstructGPT,要用到三个数据集:1.SFT 数据集:包含用于训练 SFT 模型的标注者演示。2.RM(奖励模型)数据集:由人类标注者对模型输出的排名构成,用于训练奖励模型。3.PPO 数据集:由用作 RLHF 微调输入的 prompt 构成。 训练后的 InstructGPT 会在三个方面得到评估:有用性、可信度、有害性。 从结果上看,人类评估表明「相比于 175B 的 GPT-3,人们 更偏好 1.3B 参数版本的 InstructGPT 模型的输出,尽管后者的参数量少 100 多倍。」值得注意的是,InstructGPT 在有用性和毒性任务上的表现均优于 GPT-3,这于对齐而言至关重要。 Anthropic 的 RLHF Anthropic 也研究过同一主题,论文为《Training a helpful and harmless assistant with reinforcement learning from human feedback》。 OpenAI 发现 RLHF 有助于对齐,但也可能导致模型在某些 NLP 基准上的性能下降,这个现象被称为「对齐税(alignment tax)」。其开发的 InstructGPT 模型有 1.3B 参数。相反,Anthropic 的研究者评估了大小在 13M 到 52B 之间的 7 种不同模型,这些模型的大小按 4 倍的几何级数增长。 他们得出结论说,对较小的模型来说,对齐会产生「税」,但对较大模型来说,对齐只有好处,尤其是参数量在 13B 到 52B 之间的模型。 考虑到对齐的这种优势,他们还实验了用编程技术数据集来提升 LLM 的能力。OpenAI 的 RLHF 方法包含 PPO 和 PPO-ptx,其中 PPO-ptx 的设计目标就是为了降低在 NLP 基准上的对齐税。而 Anthropic 的 RLHF 研究发现,只要模型够大,PPO 本身就能在 NLP 下游任务上带来对齐的好处。他们还确定了强化学习策略训练中 KL 散度的最优参数为 β = 0.001。 在线 / 迭代式 RLHF 传统上,对齐 LLM 的 RLHF 技术都是离线方法。但这类方法有些缺点,比如所得结果难以应对分布外数据。 为此,需要对 LLM 进行持续的微调,进行迭代式 / 在线学习,即使用中间策略为 prompt 生成响应,再使用预言机(oracle)为这样的成对数据给出偏好反馈,再将这些反馈馈送给策略。在实践中,迭代式学习分为两个部分:偏好预言机学习和迭代式策略优化。参阅论文《RLHF workflow: From reward modeling to online RLHF》。 2. RLAIF 获取人类偏好数据集的成本不低,因此基于人工智能反馈的强化学习(RLAIF)诞生了。此外,随着 LLM 的能力不断进步,所能收集到的 AI 偏好数据集的质量也不断提高,由此可提升 LLM 的对齐效果。 Anthropic 的 RLAIF Anthropic 基于 RLHF 的基础研究工作,提出了一种名为 RLAIF 的全新方法。参阅论文《Constitutional ai: Harmlessness from ai feedback》。 该方法主要包含两个阶段:1. 通过 Critiques(批评)和 Revisions(修订)进行监督学习,这由一个章程引导。2. RLAIF。 谷歌的 RLAIF 基于 Anthropic 的 RLAIF 研究成果,谷歌一个研究团队认为之前的研究无法直接比较人类反馈与 AI 反馈的效果,值得进一步研究。在收集 AI 反馈的过程中,要创建一个结构化的 prompt,其构成包括:导言、少样本示例(可选)、要标注的样本、结尾。 为了生成 AI 反馈,需要执行一个两步式评估:首先,使用指令中的 4 个组件加上 CoT,让 LLM 生成响应。在下一步中,这个 LLM 响应再附带上「preferred summary=」这样的结尾被发送回 LLM,从而生成「summary 1=0.6, summary 2=0.4」这样的偏好概率。为了减少位置偏差,需要交替放置这两个响应的序列,并计算其平均分数。 RLAIF 过程采用了两个策略:1.「蒸馏 RLAIF」,其遵循传统的 RLHF 方法,即使用偏好训练一个奖励模型,然后再将其用于训练 LLM 策略;2. 「直接 RLAIF」,其直接将 LLM 反馈用作 prompt 来输出评估分数,再将该分数用作强化学习策略训练的信号。 最后,其评估过程会使用三个关键指标:1.AI – 标注者对齐度:AI 与人类标注者的一致程度。2. 胜率:人类标注者比较两个候选项并选择其中某一个的可能性。3. 无害率:人类评估者认为无害的响应的占比。 更多详情请参阅论文《RLAIF: Scaling reinforcement learning from human feedback with AI feedback》。 直接人类偏好优化 传统 RLHF 方法通常涉及到优化源自人类偏好的奖励函数。该方法虽有效,但也可能带来一些难题,比如增大计算复杂度以及在估计和优化奖励时需要考虑偏置 – 方差权衡。参阅论文《High-dimensional continuous control using generalized advantage estimation》。 近期有研究探索了其它一些旨在根据人类偏好(无需依赖某个标量的奖励信号)来直接优化 LLM 策略的方法。 这些方法的目标是通过更直接地使用偏好数据来简化对齐流程、降低计算开销以及实现更稳健的优化。通过将该问题描述为一个偏好优化问题,而不是奖励估计和最大化问题,这些方法能提供一种将语言模型与人类判断对齐的不同视角: SliC-HF,使用人类反馈进行序列似然校准,参阅论文《SliC-HF: Sequence likelihood calibration with human feedback》。 RSO,拒绝采样优化,参阅论文《Statistical rejection sampling improves preference optimization》。 DPO,直接偏好优化,参阅论文《Direct preference optimization: Your language model is secretly a reward model》。 DPOP,DPO-positive,参阅论文《Smaug: Fixing failure modes of preference optimisation with DPO-positive》。 β-DPO,参阅论文《β-DPO: Direct preference optimization with dynamic β》。 IPO,身份偏好优化,参阅论文《A general theoretical paradigm to understand learning from human preferences》。 sDPO,逐步 DPO,参阅论文《sDPO: Don’t use your data all at once》。 GPO,广义偏好优化,参阅论文《Generalized preference optimization: A unified approach to offline alignment》。 token 级 DPO 使用 DPO 时,奖励会被一起分配给 prompt 和响应。相反,使用 MDP 时,奖励会被分配给各个动作。后续的两篇论文在 token 层面阐述了 DPO 并将其应用扩展到了 token 级的分析。 DPO 可以执行 token 级信用分配的研究,参阅论文《From r to Q∗: Your language model is secretly a Q-function》,报道《这就是 OpenAI 神秘的 Q*?斯坦福:语言模型就是 Q 函数》。 TDPO,token 级 DPO,参阅论文《Token-level direct preference optimization》。 迭代式 / 在线 DPO 使用 DPO 时,会使用所有可用的偏好数据集来对齐 LLM。为了持续提升 LLM,应当实现迭代式 / 在线 DPO。这就引出了一个有趣的问题:如何高效地收集新的偏好数据集。下面两篇论文深入探讨了这一主题。 自我奖励式语言模型,参阅论文《Self-rewarding language models》。 CRINGE,参阅论文《The cringe loss: Learning what language not to model》。 二元反馈 事实证明,收集偏好反馈比收集二元反馈(比如点赞或点踩)的难度大,因此后者可促进对齐过程的扩展。KTO 和 DRO 这两项研究关注的便是使用二元反馈来对齐 LLM。 KTO,Kahneman-Tversky 优化,参阅论文《KTO: Model alignment as prospect theoretic optimization》。 DRO,直接奖励优化,参阅论文《Offline regularised reinforcement learning for large language models alignment》。 融合 SFT 和对齐 之前的研究主要还是按顺序执行 SFT 和对齐,但事实证明这种方法很费力,并会导致灾难性遗忘。后续的研究有两个方向:一是将这两个过程整合成单一步骤;二是并行地微调两个模型,最终再进行融合。 ORPO,比值比偏好优化,参阅论文《ORPO: Monolithic preference optimization without reference model》。 PAFT,并行微调,参阅论文《PAFT: A parallel training paradigm for effective llm fine-tuning》。 长度控制式 DPO 和无参考 DPO 之前有研究表明,LLM 的输出往往过于冗长。为了解决这个问题,R-DPO 和 SimPO 的关注重心是在不影响生成性能的前提下实现对响应长度的控制。 此外,DPO 必需参考策略来确保已对齐模型不会与参考模型有太大偏差。相较之下,SimPO 和 RLOO 提出了一些方法,可以在不影响 LLM 效果的情况下消除对参考模型的需求。 R-DPO,正则化 DPO,参阅论文《Disentangling length from quality in direct preference optimization》。 SimPO,简单偏好优化,参阅论文《SimPO: Simple preference optimization with a reference-free reward》,报道《全面超越 DPO:陈丹琦团队提出简单偏好优化 SimPO,还炼出最强 8B 开源模型》。 RLOO,REINFORCE Leave-One-Out,参阅论文《Back to basics: Revisiting reinforce style optimization for learning from human feedback in LLMs》。 逐列表的偏好优化 之前在 PPO 和 DPO 方面的研究关注的是成对偏好,而 RLHF 方面的研究则是收集逐列表的偏好来加速数据收集过程,之后再将它们转换成成对偏好。尽管如此,为了提升 LLM 的性能,直接使用逐列表的数据集来执行偏好优化是可行的。以下三篇论文专门讨论了这种方法。 LiPO,逐列表偏好优化,参阅论文《LIPO: Listwise preference optimization through learning-to-rank》。 RRHF,参阅论文《RRHF: Rank responses to align language models with human feedback without tears》。 PRO,偏好排名优化,参阅论文《Preference ranking optimization for human alignment》。 负偏好优化 这些研究有一个共同前提:当前这一代 LLM 已经在翻译和总结等任务上超越了人类性能。因此,可以将 LLM 的输出视为期望响应,而无需依靠将人类标注的数据视为偏好响应;这样做是有好处的。反过来,不期望得到的响应依然也可被用于对齐 LLM,这个过程就是所谓的负偏好优化(NPO)。 NN,否定负例方法,参阅论文《Negating negatives: Alignment without human positive samples via distributional dispreference optimization》。 NPO,负例偏好优化,参阅论文《Negative preference optimization: From catastrophic collapse to effective unlearning》。 CPO,对比偏好优化,参阅论文《Contrastive preference optimization: Pushing the boundaries of llm performance in machine translation》。 纳什学习 之前的研究通常是使用逐点奖励和 BT 模型来得到成对偏好。但是,这种方法比不上直接成对偏好建模并且无法解决成对偏好中的不一致问题。为了克服这些局限,一些研究提出了纳什学习方法。 根据人类反馈的纳什学习,参阅论文《Nash learning from human feedback》。 SPPO,自博弈偏好优化,参阅论文《A minimaximalist approach to reinforcement learning from human feedback》。 DNO,直接纳什优化,参阅论文《Direct nash optimization: Teaching language models to self-improve with general preferences》。 不同方法的比较   一些研究则是为了比较这些不同方法。这类研究可以阐释每种方法各自的优缺点。 评估 DPO 及其变体 论文《Insights into alignment: Evaluating dpo and its variants across multiple tasks》在推理、数学问题求解、可信度、问答和多任务理解等多种任务上全面评估了隐式奖励模型,即无强化学习算法,包括 DPO、KTO、IPO 和 CPO。这些评估涉及三个不同场景:1) 微调监督式微调(SFT)模型、2) 微调预训练模型、3) 微调指令模型。 该研究发现,在大多数基准上,KTO 比其它对齐方法更优。此外,研究表明,对齐并不会显著提升模型的推理和问答性能,但确实能大幅提升模型的数学问题求解能力。该研究还注意到了数据量的重要性,对齐方法在较小的数据子集上的性能最佳。此外,研究发现 KTO 和 CPO 能有效绕过 SFT 阶段,在不影响性能的前提下直接进入对齐阶段。相比之下,当绕过 SFT 阶段,直接进入对齐阶段时,DPO 和 IPO 会表现出明显的性能下降。 DPO 是比 PPO 更好的 LLM 对齐方法吗? 论文《Is DPO superior to PPO for LLM alignment? A comprehensive study》表明,DPO 可能存在固有局限,可能会产生有偏差的解答,并可能由于分布变化而导致性能下降, 他们发现,DPO 训练出的策略倾向于未曾见过的响应,尤其是分布外的样本。而迭代式 / 在线 DPO 则能缓解这个问题,其做法是广泛探索响应空间并不断更新参考模型。相较之下,RLHF/PPO 则是通过优势归一化、大批量大小以及对参考模型使用指数移动平均来解决这些挑战。最终,这些发现表明 PPO 优于迭代式 / 在线 DPO,而这又进一步优于标准 DPO。 更多详情可参阅机器之心专栏文章《ICML 2024 Oral | DPO 是否比 PPO 更适合 LLM,清华吴翼团队最新揭秘》。 未来方向 通过分析过往论文,该团队确定了一些有待进一步探索的研究问题。 用于对齐评估的一般任务 不同论文使用了不同的任务来评估这些方法的性能。但是,GSM8K 等一些任务更关注推理,可能并不适合用于评估对齐性能。相反,TruthfulQA 等任务或那些关注毒性的任务应当优先考虑,以评估已微调 LLM 的毒性。应当想办法将这些任务组合起来,创建一个用于评估对齐的统一排行榜。 将隐式奖励模型、逐列表偏好和纳什学习用于更大规模的语言模型 目前,使用隐式奖励模型的最大模型的参数量也不过 70B。如果能将这些方法扩展用于更大的模型,比如 GPT-4 和 Claude-3 大小的模型,那应该能帮助我们更好地理解它们与 RLHF/PPO 的相对效果。 类似地,逐列表偏好模型也值得进一步研究。使用 RLHF 时,要使用逐列表偏好收集偏好数据集,之后再将其转换成多对成对偏好数据。大规模应用逐列表偏好模型的潜在问题依然有待解决。 最后,纳什学习可以解决人类标注者之间的不一致问题。如果能将纳什学习模型集成到更大规模的 LLM 中,就可以证明其捕获人性复杂性的能力。 有关二元反馈的实验 KTO 和 DRO 都采用了「点赞」和「点踩」这样的二元反馈机制,而不是成对偏好。这些二元反馈来自偏好数据集,其中将期望响应标记成正例,将不期望响应标记成负例。我们还需要对现实的二元数据集进行进一步研究。此外,相比于偏好数据,二元数据集更容易收集,因此有望使用更大规模的二元反馈数据集来进行对齐。但是,二元反馈中的噪声可能比偏好数据集中的噪声更加明显,因此如何有效滤除有噪声数据也是一个非常有趣的研究方向。 实验研究有用的 AI 反馈 目前的 AI 反馈主要包括 RLAIF 中的无害反馈和迭代式 DPO 中的反馈排名。但是,使用 RLAIF 时,有用反馈依然是由人类标注者提供。这种方法是合理的,因为生成有用响应的难度比识别有害反馈明显大得多。一个有趣的未来研究方向是使用 LLM 来生成有用的反馈,由此让 LLM 可以自我提升。 加速纳什学习 纳什学习方法可以有效建模成对偏好并解决人类标注之间的不一致问题。但是,它必需多次迭代才能收敛到最优策略。尽管其作者没有明说对齐所需的时间,但可猜测其会比 DPO 等隐式奖励模型慢得多。因此,提升纳什学习过程的速度也是一个值得关注的研究方向。 迭代 / 在线学习的终止 在使用迭代 / 在线训练时,确定终止迭代的时间很关键。之前有研究发现,迭代式学习有时会降低 LLM 在某些任务上的性能,这可能是过拟合的迹象。但是,目前还没有研究者探索如何确定终止迭代的合理 epoch。 简化 SFT + 对齐 当前的方法通常是以一种连续方式实现 SFT 和对齐。但是,这种方法往往会导致灾难性遗忘,并让整个训练过程变得更加费力。PAFT 方法减轻灾难性遗忘的方式是先分别微调 SFT 和对齐然后再将它们融合到一起,但这也会提升复杂性。相较之下,ORPO 技术是同时整合这两个过程,但却会导致性能下降。那么,该如何有效地将 SFT 和对齐组合起来实现高性能同时又维持高效率呢?这还是一个有待解决的挑战。

ACL 2024 Oral | 大模型也会被忽悠?揭秘AI的信念之旅

地球是平的吗?   当然不是。自古希腊数学家毕达哥拉斯首次提出地圆说以来,现代科学技术已经证明了地球是圆形这一事实。   但是,你有没有想过,如果 AI 被误导性信息 “忽悠” 了,会发生什么?   来自清华、上海交大、斯坦福和南洋理工的研究人员在最新的论文中深入探索 LLMs 在虚假信息干扰情况下的表现,他们发现大语言模型在误导信息反复劝说下,非常自信地做出「地球是平的」这一判断。     论文链接:https://arxiv.org/pdf/2312.09085 项目主页:https://llms-believe-the-earth-is-flat.github.io/ GitHub 源代码:https://github.com/LLMs-believe-the-earth-is-flat/llms-believe-the-earth-is-flat   生成式人工智能技术的快速发展,为生成虚假信息提供了便利。这些技术不仅能够创建逼真的文本、图像、音频和视频内容,还能够在社交网络上自动发布和传播这些内容。虚假信息的泛滥给社会带来了诸多挑战,但目前对这类信息的确切影响仍不十分清楚。然而,可以预见的是,随着技术的发展,虚假信息的生成和传播将会变得更加容易和普遍。   另一方面,大语言模型的上下文学习能力使其受到误导性信息的影响。这种误导性信息可能会在模型的部署过程中在上下文中被接受,并在模型生成的输出中反映出来,导致其产生不准确或具有偏见的内容。因此,研究者们正在努力探索如何提高大模型对虚假信息的识别能力和抵抗能力,这是提升大模型安全和鲁棒性的重要内容之一。   本篇研究就探索了这种有误信息对于大语言模型知识信念的影响,研究论文已经被 ACL 2024 接收,并选做大会报告(Oral)。 实验:大模型的 “信念” 测试   研究者们首先构建了一个名为 Farm(Fact to Misinform Dataset)的数据集,包含 1500 个事实性问题及其相关的误导性信息。他们在大语言模型的帮助下系统性地构造了更具有说服力的有误信息:首先,他们对原始正确的事实性 QA 进行语义取反或者构造错误答案,随后利用 “越狱” 后的大模型协助生成更具有说服力的长文本有误信息。   利用这些数据,便可以测试大语言模型在多轮对话中面对虚假信息时的反应。测试过程分为三个阶段:初始信念检验、多轮对话中劝说误导、结果信念检验。模型的信念检验通过模型在闭卷 QA 中答案的信心分数反应。通过这种方式,研究者们能够观察到 LLMs 在多轮对话中信念的变化。   多轮测试框架   主要结果   在劝说性交流阶段,研究者们使用了多种策略来误导 LLMs 改变其信念。这些策略包括晓之以理的劝说(LO)、树立权威的劝说(CR)和动之以情的劝说(EM)。结果显示,即使是最先进的模型,如 GPT-4,也有高达 20.7% 的可能性被虚假信息所影响。基于对 ChatGPT、GPT-4、Llama-2-7B-chat、Vicuna-v1.5-7B、Vicuna-v1.5-13B 五种大模型平均准确度(Average Accuracy Rate, ACC)和被误导率(Misinformed Rate, MR)的实验,研究者们有五点发现:   绝大多数大模型都易被虚假信息欺骗:从最先进的 GPT-4 (注:本研究的完成时间是 2023 年 9 月,当时最先进的模型是 GPT-4)到最差的模型,所有模型在经过多轮测试之后,误导率从 20%-80% 不等。 越先进的大模型抵抗虚假信息能力越强:实验表明,抵抗能力最强的是 GPT-4 模型,其能以 80% 坚持自己的事实信念。这给了我们一些宽慰:上下文理解能力越强的模型,并非更容易受到有误信息的干扰! 多次重复虚假信息比单次输出虚假信息更能骗倒大模型:通过多轮引入的虚假信息,其作用要胜过单此的引入,这很符合我们对安全性对齐的常识 —— 有害内容越多,模型越容易被其影响。 运用修辞的劝说性虚假信息更容易骗倒大模型:使用更复杂,更具有说服力的修辞可以增加模型改变看法的概率。这点就和人一样,越 “真实” 的假信息,你越容易相信 逻辑性说服比其它说服方式更有效:模型对逻辑性强的信息特别敏感,无论是真实信息还是虚假信息,只要逻辑连贯一致,就更容易影响模型的判断。这表明,模型在处理信息时,可能过分依赖于表面的逻辑结构,而忽略了对信息来源和内容真实性的深入验证。 ChatGPT 和 GPT4 在不同劝说策略下的正确率(虚线)和误导成功率(实线)   大模型面对虚假信息的五种反应   在面对虚假信息时,AI 表现出了五种不同的行为:拒绝(Rejection)、奉承(sycophancy)、不确定(Uncertainty)、接受(Acceptance)和自我不一致(Self-Inconsisitancy)。这些行为揭示了 AI 在处理错误信息时的复杂性。例如,拒绝行为表明 AI 坚持正确的答案,不受错误信息影响;而奉承行为则表明 AI 在对话中表面上接受错误信息,但内心仍坚持正确答案。   模型的信念和对应面对误信息的行为:拒绝,奉承和接纳   研究还发现,在经过一轮虚假信息交互后,大语言模型的信心程度往往会降低。然而,对于一些问题,重复虚假信息却让大模型更加确信自己的答案,这种现象被称为 “逆火效应(Backfire Effect)”。   如何提升抗虚假信息干扰能力?   研究组发现,由于 RLHF(Reinforcement Learning with Human Feedback)算法,大模型在训练中会倾向于接受用户的输入,即认为外界的 context 总是友善且正确的。而且当大语言模型有足够信息支撑观点时,会对正确的回答更有信心。   为了帮助大模型提升抗虚假信息干扰能力,研究者们提出了一种轻量级解决方案:在检测到虚假信息后,使用 safety system prompt 对大模型进行提醒,并在回答之前从自己的参数化知识中检索相关信息。这种方法在一定程度上减少了虚假信息对大模型的影响。   加入 safety system prompt 后,模型抗干扰能力显著提升   OpenAI 的看法   有趣的是,OpenAI 在 2024 年 5 月发布了最新的 AI 模型行为准则,其中特别提到了 “认知冲突” 的处理。在此部分的示例中,他们使用了 “地球是平的” 这一例子来说明模型在面对与已知事实相冲突的信息时应如何反应,与本次研究团队的标题不谋而合,也更加突显了大语言模型在处理认知冲突时的行为表现的重要性。 https://cdn.openai.com/spec/model-spec-2024-05-08.html   研究启发   随着模型的智能化,大模型逐渐展现出了一些人类的特性,但它们的本质仍然是概率模型。这些模式很有可能仍然是从训练语料中的人类行为学习而来,即是一种 “模仿游戏”。   以上的研究探索了针对简单事实问题,当 LLM 的内部认知和外部信息冲突的时候,LLM 当作何选择,是盲从还是坚持自己的意见?而人类在这种认知冲突的过程中所展现的 “理愈辩愈明”、“思想碰撞出火花” 等能力还是目前的 LLM 所不具备的。   未来的研究可以进一步从模型的内在机理和训练数据中对大模型的行为进行溯源式的分析,提高 AI 的可解释性,并进一步提升跨学科研究,探索大模型的更多潜力。

AI画家的「滑铁卢」:为什么冰可乐不愿意住进茶杯里?

  设想一下,如果让你画一幅 “茶杯中的冰可乐” 的图片,尽管茶杯与冰可乐的组合可能并不恰当,你仍然会很自然地先画出一个茶杯,然后画上冰块与可乐。那么,当我们给 AI 画家提出 “画出茶杯中的冰可乐” 的要求时,会发生什么呢?在 2023 年 10 月大规模 AI 图像生成模型刚刚兴起时,我们便进行了这种尝试,得到了以下结果:   考虑到 AI 模型更新换代带来的性能提升,我们在 2024 年 7 月又使用了最先进的模型进行了同样的尝试: 可以看出,即使是最先进的 AI 画家(例如 Dall・E 3),也无法凭空构建 “茶杯中的冰可乐” 的场景,它们往往会摸不着头脑,纠结良久后画出一个装满冰可乐的透明玻璃杯。即使是拥有昂贵数据标注基础以及 ChatGPT-4 加持下的最新 Dall・E 3 也无法稳定地 “将冰可乐装进茶杯里”,这一问题在学术界被归类为文生图模型的文本图像不对齐问题(text-image misalignment)。最近,上海交通大学王德泉老师课题组在论文《Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models》中深入探索了这一问题的新分支,该论文即将发表在 2024 年 10 月份的第 18 届欧洲计算机视觉大会(ECCV)上。     论文链接:https://arxiv.org/abs/2408.00230 项目链接:https://lcmis.github.io 文本图像不对齐问题是图像生成领域中的一个重要方向,与传统不对齐问题不同的是,在传统不对齐问题中,人们主要关注的是一组概念对中两个概念的相互影响,例如给定 “一个苹果和一个梨” 的需求,得到的图像要么是两个苹果,要么是两个梨,不会出现第三种概念。而在 “茶杯中的冰可乐” 这一例子中,有一个关键的隐藏变量 “透明玻璃杯”,其从未在文本提示中出现,却替代 “茶杯” 出现在了图像中。这种现象在本文中被称为包含隐藏变量的不对齐问题(Latent Concept Misalignment,简称 LC-Mis)。 为了更深入地探索为什么茶杯会消失在图像中,我们首先希望收集一些与 “茶杯中的冰可乐” 存在相似问题的数据。然而,“茶杯中的冰可乐” 问题源于人类的奇思妙想与 AI 的死记硬背之间的冲突,如果仅依靠人类专家冥思苦想来创造新的概念对,效率将会非常低下。因此,我们设计了一个基于大语言模型(LLMs)的系统,利用 LLMs 体内蕴含的人类思维来帮助我们快速收集与 “茶杯中的冰可乐” 存在类似问题的概念对。在这个系统中,我们首先向 LLMs 解释 “茶杯中的冰可乐” 问题背后的逻辑,然后简单地将这一问题划分为几个类别,让 LLMs 按照不同类别的逻辑生成更多的类别和概念对,最后我们使用文生图模型来绘制图像进行检查。然而,我们在后续实验中发现,现有的自动化评价指标在 “茶杯中的冰可乐” 这一新问题上存在一定缺陷。因此,我们只能采用人工评估的方式,我们对每组概念对生成 20 张图像,并根据这 20 张图中正确画出的数量为这组概念对给予 1 至 5 的评级,其中第 5 级表示所有 20 张图像均未能正确生成。 为了找回图像中的茶杯,我们提出了一种名为 Mixture of Concept Experts (MoCE) 的方法。我们认为,如果不从人类处理问题的角度来进行思考,那么人工智能的一切都是毫无道理的。在当今最火热的文生图模型 diffusion models 中,注意力机制会同时处理文本提示中的可乐与茶杯,但这并不符合人类按照概念顺序作画的规律。因此,我们将顺序作画的规律融入到 diffusion models 的多步采样过程中,成功地将消失的茶杯找了回来:   具体来说,LLMs 会首先告诉我们应该先画一个茶杯。接下来,我们将茶杯这一概念单独输入给 diffusion models,完成 T-N 步的采样。而在余下的 N 步采样中,再提供完整的文本提示,“茶杯中的冰可乐”,最终生成一张干净的图像。在此过程中,N 起到了至关重要的作用,因为它决定了为 “茶杯” 分配的采样步数。于是,我们使用一个多模态模型来衡量图像与茶杯以及冰可乐的契合度评分。当图像和两个概念的评分之间相差很大时,说明有一个概念很可能被模型忽略了,于是就需要相应地调整 N 的取值。由于 N 的取值与概念在图中出现概率之间的关系是正相关的,因此这一调整过程是由二分查找来完成的。 最后,我们使用 MoCE 以及各种 baseline 模型在收集到的数据集上进行了广泛的实验,并展示了以 “茶杯中的冰可乐” 为首的可视化修复结果,以及在整个数据集上人类专家评估的结果对比。和几种 baseline 模型相比,我们提出的 MoCE 方法显著地降低了第 5 级 LC-Mis 概念对的占比。另外值得注意的是,MoCE 的性能在一定程度上甚至超越了需要大量数据标注成本的 Dall・E 3(2023 年 10 月版本): 此外,正如在上文中提到的,现有的自动化评价指标在 “茶杯中的冰可乐” 这一新问题上存在一定缺陷。我们首先仔细挑选了一些带把的透明玻璃杯图像,它们虽然具有茶杯的形状,但是由于其透明玻璃的材质而不能称之为茶杯。我们将这些图像与 MoCE 生成的 “茶杯中的冰可乐” 图像进行了对比,如下图所示:   我们使用了两种当前流行的评价指标,Clipscore 和 Image-Reward,来计算图像与 “冰可乐” 之间的契合程度。图像与冰可乐的契合程度越高,得分就越高。然而,这两种评价指标均对茶杯中的冰可乐给予了明显更低的评分,而对透明玻璃杯中的冰可乐赋予了明显更高的评分。因此,这表明现有的自动化评价指标可能无法识别出茶杯中的冰可乐,因为其模型内部仍存在 “冰可乐 = 冰块 + 可乐 + 玻璃杯” 的偏见,从而导致其无法有效参与 LC-Mis 问题的评价。 总的来说,我们受到 “茶杯中的冰可乐” 例子的启发,介绍了一种文本图像不对齐问题的新分支,即包含隐藏概念的不对齐问题 (LC-Mis)。我们在大语言模型和文生图模型的帮助下,开发了一个系统来收集 LC-Mis 概念对。接下来,我们受到人类绘画规律的启发,将绘画顺序引入 diffusion models 的采样过程,提出了 MoCE 的方法,缓解了 LC-Mis 问题。最后,我们还通过代表例子 “茶杯中的冰可乐” 展示了当下文本图像对齐问题的评价指标存在的缺陷。在未来的工作中,我们将持续深入研究生成式 AI 技术,推动 AI 更好地满足人类的实际需求,通过不断的努力和创新,我们期待见证 AI 在理解和再现人类创造力方面的突破。

阿里国际推出首个专业版AI Search,为什么它会是下一个B2B谷歌?

  经历过「千模大战」的喧嚣,一年半之后,生成式 AI 的应用层创新终于步入爆发期。 年初的 Sora 激起一阵 AI + 视频生成的浪潮。涟漪未散,OpenAI 新的 SearchGPT 又燃起了 AI + 搜索的战火。 AI + 搜索,这其实是生成式 AI 技术浪潮刚涌现时,大部分人对其应用的想象:改变传统的搜索引擎。这一战场上,Perplexity 在另起炉灶,Google 想着自我革新,Bing 忙着乘势而起。 如今,阿里国际也宣布入局,直接带来了一款新产品。但与其它所有人都不同,阿里国际的 AI 搜索切入了一个空白地带:涉及更多行业 Know-How 的深度信息搜索领域。阿里国际选择了自己最擅长的「全球电商」行业,意在改变全球采购流程,使之更加直观和高效。 7 月 31 日在法国巴黎举办的发布会上,阿里国际官宣了全球首个 AI 驱动的 B2B 采购搜索引擎。据了解,这款 AI 采购搜索引擎会在今年 9 月正式亮相。 在巴黎的发布会现场,阿里国际副总裁张阔展示了这款新产品。它能主动理解采购者的自然语言,并转化为专业的采购请求;还能根据全球市场数据预测需求、提供建议,实现更精准的匹配。   业内认为,这将成为全球贸易领域的「下一个 Google」。 「新的 AI 搜索引擎并不是在传统的被动搜索的基础上做提升,这是全新的全球贸易采购体验。」张阔表示。 对于从事采购的中小企业主来说,它首先能听懂你的「大白话」,自动转译成专业采购术语,然后跟你一步步对话,并智能整合全网信息,化被动搜索为主动理解,更精准地理解甚至预测你的需求。 同时,它重构了信息呈现的方式,能主动帮你做信息比较,推荐最合适的供应商。 最后,它还能提供更完整的采购服务,最终帮你完整贸易的全部流程。 如果说过去的 Google,还只是在被动应答,把网页信息跟你输入的关键词匹配,那这一新的 AI 采购搜索引擎,则是在真正理解商品的信息、理解企业的需求,然后主动完成精准匹配。 Sora 的发布,曾让大家惊叹「AI 开始理解并生成真实的物理世界」,那这一 AI 搜索引擎,似乎开始理解现实世界的商业逻辑了? AI 让「隔行」不再「如隔山」 自互联网兴起的几十年来,「搜索引擎」一直是大众接触各类信息的主流方式。 但我们知道,以传统搜索引擎获取专业领域信息的成本很高,在广袤的互联网上寻找专业知识宛如「大海捞针」,多次尝试之后才能接近想要的结果。 对于跨境电商的买家与卖家更是如此,发现商机、确定采购渠道等环节的工作,耗时耗力且涉及繁琐的数据分类过程,对于人类来说本就是一套很复杂的知识体系。 如果不是本身就具备一定专业知识,甚至连搜什么都不知道。这可能就是传统上「隔行如隔山」的含义。 人们需要能帮忙快捷找到更深度、更有价值的信息、以及更懂自身需求的 AI Search 工具。 擅长指令遵循、长上下文总结、内容生成的大模型技术,成为了撬动这场搜索变革的关键力量。 简单来说,阿里国际推出的这款 AI 采购搜索引擎就像是为通用模型注入了跨境电商领域的专家知识,提供了一种「直观而自然的知识涌现方式」。他们的 AI 产品学习了 10 亿商品和产业知识,这几乎覆盖了全球最大的 B2B 贸易领域的知识库。 在巴黎的发布会现场,阿里国际展示了一位前职业网球运动员西蒙娜的例子。她在退役后发现新兴的匹克球运动很火,想就此开启创业。 但缺乏专业知识,从没接触过全球采购的她,第一步该做些什么呢? 答案是,打开阿里国际的这个 AI 搜索引擎,就像聊天一样告诉 AI 自己的想法。 AI 采购搜索引擎就能会根据对全球所有跟匹克球相关的市场洞察,做深入分析,推荐多个可能的创业方向,比如匹克球拍、训练鞋等等。还全面地列出各个指标:竞争激烈程度、淡旺季、市场需求量、价格段…… 看完 AI 调研出来的情况,西蒙娜选择了从匹克球训练鞋入手,并根据自己打网球多年的经验,给它设计的训练鞋提出更多要求:要能够调节训练模式。 当然提出这个想法时,西蒙娜压根没有运动鞋制造业的经验,也不知道训练模式的调节该用什么方式实现。 不要紧,AI 会主动解读:「你其实是要需要找一家能在球鞋上增加配重块的供应商」 很快,全世界最擅长做这类鞋的供应商就展现在西蒙娜眼前了:   在此之后,AI 还能多维度地理解它推荐的各类商品、供应商的信息,一键比较不同供应的各个指标,这下西蒙娜选起来就简单多了。 别小瞧这一步,要是放在以往,靠传统的搜索引擎,创业者或采购者要想完成这一步,就得点开一个个网页,在浩如烟海的信息里寻找想要的商品信息,再记录下来逐一比较。 由此,AI Search 的优势尽数显现,用户获取有效答案的成本,能够比过去下降几个数量级。 此外,这款 AI 采购搜索引擎还将在信息检索之外提供更完整的智能采购服务。 它会借助阿里国际在数字外贸领域 25 年的深耕和积累,AI 采购搜索引擎也将融合交易支付、物流履约等全球贸易各个环节中的专业知识,像一个真正专业的人类采购员一样,帮忙完成沟通总结、跟进交期等等全方位服务。   全球电商是 AI 最好的用武之地 一直以来,全球电商都是 AI 技术最好的应用方向之一。电商行业中丰富的场景,是 AI 绝佳的用武之地。 但阿里国际推出的这款 AI 采购搜索引擎跟以往简单的提效工具截然不同,某种程度上说,它已经不是一个单纯辅助简单工作的 AI,而是太像一位「超级个人助理」了。 这种能力的实现,与生成式 AI 时代当下的多项技术进步密切相关。 众所周知,大模型预训练数据的最常用来源是公共互联网,很多专业领域信息存在过时和缺失问题。 为了解决这个问题,在通用大模型的基础上,业界往往会采用监督式微调来更新模型知识以提升具体能力。RAG(检索增强生成)也是另外一种有效的方法。简单来说,RAG 就是先检索相关文档,然后将其用作额外上下文来执行生成,可以提供对更大知识库的访问。 据了解,阿里国际此次发布的 AI 采购搜索引擎在训练阶段学习了全网超过 10 亿条商品和产业信息,尤其是专业的产品知识。这也是为什么它能精准地将朴实的「大白话」转化为电商领域的专业词汇,并且完成深度的筛选工作,帮助商家完成部分专业知识的短板。 对阿里国际来说,以生成式 AI 技术带来全新的跨境电商体验,将是其全球业务重要的未来增长点。此次 AI 采购搜索引擎的发布,还只是其中一环。 早在去年 11 月,阿里国际就发布了首个 AI 产品「Aidge」,开放了 15 个 API 和多个 Agent 框架,支持 18 种语言,帮助全球商家在不同国家市场经营中,克服语言和文化障碍,提升经营效果。 过去一年,阿里国际在 40 多个场景里测试了 AI 能力,服务了超过 50 万中小商家,有 1 亿款商品得到优化。平均每两个月,商家对于 AI 的调用量就会翻一倍,目前已达日均 5000 万次的规模。 持续的 AI 投入、丰富的 AI 场景和激增的 AI 需求,其实是支撑现在阿里国际推出全新的 AI 采购搜索引擎、以真正 AI 原生的方式改变全球贸易体验的核心要素。 一个个 AI 时代的「专业版 Google」 都要来了吗? 生成式 AI 席卷全球之时,业内曾有一个发人深省的观点:所有的应用都值得用大模型重做一遍。 作为被寄予厚望的「重做」方向之一,「AI Search」对用户体验提升的价值,如今已在实践中被充分验证。从内容推荐到知识整合,任何一个领域的门槛都在持续降低,让普通人也能更直接、轻松地获取信息。 而面向专业赛道「重做」之后,AI Search 的落地价值也更加具像化。阿里国际发布的这款 AI 采购搜索引擎,率先绘制出了「AI 时代 B2B Google」的落地形态,为生成式 AI 技术在各个专业领域的应用打了个样。 随着更多细分领域玩家的加入,可以想见的是,未来每个行业都会有自己的「Google」。 而信息获取方式的变革,带来的影响其实会是本质性的。一场因搜索引发的变革或许会比我们想象中更快到来。

错误率从10%降至0.01%,领英全面分享LLM应用落地经验

随着大型语言模型(LLM)技术日渐成熟,各行各业加快了 LLM 应用落地的步伐。为了改进 LLM 的实际应用效果,业界做出了诸多努力。   近期,领英(LinkedIn)团队分享了他们在构建生成式 AI 产品的过程中总结的宝贵经验。领英表示基于生成式人工智能构建产品并非一帆风顺,他们在很多地方都遇到了困难。   以下是领英博客原文。 过去六个月,我们 LinkedIn 团队一直在努力开发一种新的人工智能体验,试图重新构想我们的会员如何进行求职和浏览专业内容。   生成式人工智能的爆发式增长让我们停下来思考,一年前不可能实现的事情现在有了哪些可能。我们尝试了很多想法,但都没有成功,最终发现产品需要如下关键点:   更快地获取信息,例如从帖子中获取要点或了解公司最新动态。 将信息点连接起来,例如评估您是否适合某个职位。 获取建议,例如改善您的个人资料或准备面试。 ……   我们通过一个现实场景来展示新开发的系统是如何工作的。想象一下,您正在滚动浏览 LinkedIn 信息流,偶然发现了一篇关于设计中的可访问性的有趣帖子。除了这篇文章之外,您还会刷到一些入门问题,以便更深入地研究该主题,您很好奇,例如点击「科技公司中可访问性推动商业价值的例子有哪些?」   系统后台会发生如下操作: 选择合适的智能体:系统会接受您的问题并决定哪个 AI 智能体最适合处理它。在这种情况下,它会识别您对科技公司内部可访问性的兴趣,并将您的查询路由到专门执行通用知识搜索的 AI 智能体。 收集信息:AI 智能体调用内部 API 和 Bing 的组合,搜索具体示例和案例研究,突出设计的可访问性如何为技术领域的商业价值做出贡献。 制定回复:有了必要的信息,智能体现在可以撰写回复。它将数据过滤并合成为连贯、信息丰富的答案,为您提供清晰的示例,说明可访问性计划如何为科技公司带来商业价值。为了使体验更具交互性,系统会调用内部 API 来使用文章链接或帖子中提到的人员简介等附件。 你可能会提问「我如何将我的职业生涯转向这个领域」,那么系统会重复上述过程,但现在会将你转给职业和工作(career and job)AI 智能体。只需点击几下,您就可以深入研究任何主题,获得可行的见解或找到下一个工作机会。   大部分新功能是借助 LLM 技术才成为可能。   总体设计   系统 pipeline 遵循检索增强生成(RAG),这是生成式人工智能系统的常见设计模式。令人惊讶的是,建设 pipeline 并没有我们预期的那么令人头疼。在短短几天内,我们就建立并运行了基本框架:   路由:决定查询是否在范围内,以及将其转发给哪个 AI 智能体。 检索:面向 recall 的步骤,AI 智能体决定调用哪些服务以及如何调用(例如 LinkedIn 人物搜索、Bing API 等)。 生成:面向精度的步骤,筛选检索到的噪声数据,对其进行过滤并生成最终响应。 图 1:处理用户查询的简化 pipeline。KSA 代表「知识共享智能体」,是数十种可以处理用户查询的智能体之一。 关键设计包括:   固定三步 pipeline; 用于路由 / 检索的小型模型,用于生成的较大模型; 基于嵌入的检索 (EBR),由内存数据库提供支持,将响应示例直接注入到提示(prompt)中; 每步特定的评估 pipeline,特别是对于路由 / 检索。 开发速度   我们决定将开发任务拆分为由不同人员开发独立智能体:常识、工作评估、职位要点等。   通过并行化开发任务,我们提高了开发速度,但这是以「碎片」为代价的。当与通过不同的模型、提示或工具进行管理的助手(assistant)进行后续交互时,保持统一的用户体验变得具有挑战性。   为了解决这个问题,我们采用了一个简单的组织结构:   一个小型「水平(horizontal)」工程 pod,处理通用组件并专注于整体体验,其中包括: 托管产品的服务 评估 / 测试工具 所有垂直领域使用的全局提示模板(例如智能体的全局身份(identity)、对话历史、越狱防御等) 为 iOS/Android/Web 客户端共享 UX 组件 服务器驱动的 UI 框架,用于发布新的 UI 更改,而无需更改或发布客户端代码。 关键设计包括:   分而治之,但限制智能体数量; 具有多轮对话的集中式评估 pipeline; 共享提示模板(例如「身份(identity)」定义)、UX 模板、工具和检测   评估   事实证明,评估响应的质量比预期的更加困难。这些挑战可大致分为三个领域:制定指南(guideline)、扩展注释和自动评估。 制定 guideline 是第一个障碍。以工作评估为例:点击「评估我是否适合这份工作」并得到「你非常适合」并没有多大用处。我们希望响应既真实又富有同理心。一些用户可能正在考虑转行到他们目前不太适合的领域,并需要帮助了解差距和后续步骤。确保这些细节一致对注释器非常关键。   扩展注释是第二步。我们需要一致和多样化的注释器。我们内部的语言学家团队构建了工具和流程,以评估多达 500 个日常对话并获取相关指标:整体质量得分、幻觉率、AI 违规、连贯性、风格等。   自动评估工作目前仍在进行中。如果没有自动评估,工程师只能目测结果并在一组有限的示例上进行测试,并且要延迟 1 天以上才能了解指标。我们正在构建基于模型的评估器来评估上述指标,并努力在幻觉检测方面取得一些成功,端到端自动评估 pipeline 将实现更快的迭代。   图 2:评估步骤。   调用内部 API   LinkedIn 拥有大量有关人员、公司、技能、课程等的独特数据,这些数据对于构建提供差异化价值的产品至关重要。然而,LLM 尚未接受过这些信息的训练,因此无法使用它们进行推理和生成响应。解决此问题的标准模式是设置检索增强生成 (RAG) pipeline,通过该 pipeline 调用内部 API,并将其响应注入到后续的 LLM 提示中,以提供额外的上下文来支持响应。 许多此类数据通过各种微服务中的 RPC API 在内部公开。虽然这对于人类以编程方式调用非常方便,但对 LLM 来说并不友好。我们通过围绕这些 API 包装「技能」来解决这个问题。每个技能都有以下组件:   关于 API 的功能以及何时使用的人类友好描述 调用 RPC API 的配置(端点、输入模式、输出模式等) LLM 友好的输入和输出模式 原始类型(字符串 / 布尔 / 数字)值 JSON 模式的输入和输出模式描述 LLM 友好模式和实际 RPC 模式之间映射的业务逻辑 这些技能旨在让 LLM 能够执行与产品相关的各种操作,例如查看个人资料、搜索文章 / 人员 / 职位 / 公司,甚至查询内部分析系统。同样的技术也用于调用非 LinkedIn API,例如 Bing 搜索。 图 3:使用技能调用内部 API。   我们编写提示,要求 LLM 决定使用什么技能来解决特定的工作(通过规划选择技能),然后输出参数来调用技能(函数调用)。由于调用的参数必须与输入模式匹配,因此我们要求 LLM 以结构化方式输出它们。大多数 LLM 都接受过用于结构化输出的 YAML 和 JSON 训练。我们选择 YAML 是因为它不太冗长,因此比 JSON 消耗更少的 token。 我们遇到的挑战之一是,虽然大约 90% 的情况下,LLM 响应包含正确格式的参数,但大约 10% 的情况下,LLM 会出错,并且经常输出格式无效的数据,或者更糟糕的是甚至不是有效的 YAML。   这些错误对人类来说是微不足道的,但却会导致解析它们的代码崩溃。10% 是一个足够高的数字,我们不能轻易忽视,因此我们着手解决这个问题。   解决此问题的标准方法是检测它,然后重新提示 LLM 要求其纠正错误并提供一些额外的指导。虽然这种方法有效,但它增加了相当大的延迟,并且由于额外的 LLM 调用而消耗了宝贵的 GPU 容量。为了规避这些限制,我们最终编写了一个内部防御性 YAML 解析器。   通过对各种有效负载的分析,我们确定了 LLM 所犯的常见错误,并编写了代码以在解析之前适当地检测和修补(patch)这些错误。我们还修改了提示,针对其中一些常见错误注入提示,以提高修补的准确率。我们最终能够将这些错误的发生率减少到约 0.01%。   我们目前正在构建一个统一的技能注册表,用于在我们的生成式人工智能产品中,动态发现和调用打包为 LLM 友好技能的 API / 智能体。 容量和延迟   容量和延迟始终是首要考虑因素,这里提及一些考量维度:   质量与延迟:思想链 (CoT) 等技术对于提高质量和减少幻觉非常有效,但需要从未见过的 token,因此增加了延迟。 吞吐量与延迟:运行大型生成模型时,通常会出现 TimeToFirstToken (TTFT) 和 TimeBetweenTokens (TBT) 随着利用率的增加而增加的情况。 成本:GPU 集群不易获得且成本高昂。一开始我们甚至必须设定测试产品的时间表,因为会消耗太多 token。 端到端流式处理(streaming):完整的答案可能需要几分钟才能完成,因此我们流式处理所有请求,以减少感知延迟。更重要的是,我们实际上在 pipeline 中端到端地进行流式处理。例如,决定调用哪些 API 的 LLM 响应是逐步解析的,一旦参数准备好,就会触发 API 调用,而无需等待完整的 LLM 响应。最终的综合响应也会使用实时消息传递基础设施一路传输到客户端,并根据「负责任的 AI」等进行增量处理。 异步非阻塞 pipeline:由于 LLM 调用可能需要很长时间才能处理,因此我们通过构建完全异步非阻塞 pipeline 来优化服务吞吐量,该 pipeline 不会因 I/O 线程阻塞而浪费资源。   感兴趣的读者可以阅读博客原文,了解更多研究内容。   原文链接:https://www.linkedin.com/blog/engineering/generative-ai/musings-on-building-a-generative-ai-product

智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调

智谱AI把自研打造的大模型给开源了。 国内视频生成领域越来越卷了。刚刚,智谱 AI 宣布将与「清影」同源的视频生成模型 ——CogVideoX 开源。短短几个小时狂揽 4k 星标。   代码仓库:https://github.com/THUDM/CogVideo 模型下载:https://huggingface.co/THUDM/CogVideoX-2b 技术报告:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf 7 月 26 日,智谱 AI 正式发布视频生成产品「清影」,得到大家广泛好评。只要你有好的创意(几个字到几百个字),再加上一点点耐心(30 秒),「清影」就能生成 1440×960 清晰度的高精度视频。 官宣即日起,清影上线清言 App,所有用户都可以全方位体验。想要尝试的小伙伴可以去「智谱清言」上体验「清影」生视频的能力。 「清影」的出现被誉为是国内首个人人可用的 Sora。发布 6 天,「清影」生成视频数就突破百万量级。 PC 端访问链接:https://chatglm.cn/ 移动端访问链接:https://chatglm.cn/download?fr=web_home 为何智谱 AI 开源模型如此爆火?要知道虽然现在视频生成技术正逐步走向成熟,然而,仍未有一个开源的视频生成模型,能够满足商业级应用的要求。大家熟悉的 Sora、Gen-3 等都是闭源的。CogVideoX 的开源就好比 OpenAI 将 Sora 背后的模型开源,对广大研究者而言,意义重大。   CogVideoX 开源模型包含多个不同尺寸大小的模型,目前智谱 AI 开源 CogVideoX-2B,它在 FP-16 精度下的推理仅需 18GB 显存,微调则只需要 40GB 显存,这意味着单张 4090 显卡即可进行推理,而单张 A6000 显卡即可完成微调。   CogVideoX-2B 的提示词上限为 226 个 token,视频长度为 6 秒,帧率为 8 帧 / 秒,视频分辨率为 720*480。智谱 AI 为视频质量的提升预留了广阔的空间,期待开发者们在提示词优化、视频长度、帧率、分辨率、场景微调以及围绕视频的各类功能开发上贡献开源力量。   性能更强参数量更大的模型正在路上,敬请关注与期待。   模型   VAE 视频数据因包含空间和时间信息,其数据量和计算负担远超图像数据。为应对此挑战,智谱提出了基于 3D 变分自编码器(3D VAE)的视频压缩方法。3D VAE 通过三维卷积同时压缩视频的空间和时间维度,实现了更高的压缩率和更好的重建质量。     模型结构包括编码器、解码器和潜在空间正则化器,通过四个阶段的下采样和上采样实现压缩。时间因果卷积确保了信息的因果性,减少了通信开销。智谱采用上下文并行技术以适应大规模视频处理。 实验中,智谱 AI 发现大分辨率编码易于泛化,而增加帧数则挑战较大。因此,智谱分两阶段训练模型:首先在较低帧率和小批量上训练,然后通过上下文并行在更高帧率上进行微调。训练损失函数结合了 L2 损失、LPIPS 感知损失和 3D 判别器的 GAN 损失。   专家 Transformer 智谱 AI 使用 VAE 的编码器将视频压缩至潜在空间,然后将潜在空间分割成块并展开成长的序列嵌入 z_vision。同时,智谱 AI 使用 T5,将文本输入编码为文本嵌入 z_text,然后将 z_text 和 z_vision 沿序列维度拼接。拼接后的嵌入被送入专家 Transformer 块堆栈中处理。最后,反向拼接嵌入来恢复原始潜在空间形状,并使用 VAE 进行解码以重建视频。     Data 视频生成模型训练需筛选高质量视频数据,以学习真实世界动态。视频可能因人工编辑或拍摄问题而不准确。智谱 AI 开发了负面标签来识别和排除低质量视频,如过度编辑、运动不连贯、质量低下、讲座式、文本主导和屏幕噪音视频。通过 video-llama 训练的过滤器,智谱 AI 标注并筛选了 20,000 个视频数据点。同时,计算光流和美学分数,动态调整阈值,确保生成视频的质量。   视频数据通常没有文本描述,需要转换为文本描述以供文本到视频模型训练。现有的视频字幕数据集字幕较短,无法全面描述视频内容。智谱 AI 提出了一种从图像字幕生成视频字幕的管道,并微调端到端的视频字幕模型以获得更密集的字幕。这种方法通过 Panda70M 模型生成简短字幕,使用 CogView3 模型生成密集图像字幕,然后使用 GPT-4 模型总结生成最终的短视频。智谱 AI 还微调了一个基于 CogVLM2-Video 和 Llama 3 的 CogVLM2-Caption 模型,使用密集字幕数据进行训练,以加速视频字幕生成过程。     性能 为了评估文本到视频生成的质量,智谱 AI 使用了 VBench 中的多个指标,如人类动作、场景、动态程度等。智谱 AI 还使用了两个额外的视频评估工具:Devil 中的 Dynamic Quality 和 Chrono-Magic 中的 GPT4o-MT Score,这些工具专注于视频的动态特性。如下表所示。     智谱 AI 已经验证了 scaling law 在视频生成方面的有效性,未来会在不断 scale up 数据规模和模型规模的同时,探究更具突破式创新的新型模型架构、更高效地压缩视频信息、更充分地融合文本和视频内容。 最后,我们看看「清影」的效果。   提示语:「一艘精致的木制玩具船,桅杆和船帆雕刻精美,平稳地滑过一块模仿海浪的蓝色毛绒地毯。船体漆成浓郁的棕色,有小窗户。地毯柔软而有质感,提供了完美的背景,类似于广阔的海洋。船周围还有各种玩具和儿童用品,暗示着一个好玩的环境。这个场景捕捉到了童年的纯真和想象力,玩具船的旅程象征着在异想天开的室内环境中无尽的冒险。」 提示语:「镜头跟随一辆装着黑色车顶行李架的白色老式 SUV,它在陡峭的山坡上沿着松树环绕的土路加速行驶,轮胎扬起尘土,阳光照射在沿着土路飞驰的 SUV 身上,为场景投下温暖的光芒。土路缓缓弯曲向远方延伸,看不到其他汽车或车辆。道路两旁的树木都是红杉,点缀着一片片绿植。从后面看,汽车轻松地顺着弯道行驶,让人觉得它正在崎岖的地形上行驶。土路周围是陡峭的山丘和山脉,头顶是湛蓝的天空,上面飘着薄薄的云彩。」   提示语:「一片白雪皑皑的森林景观,一条土路穿过其中。道路两旁是被白雪覆盖的树木,地面也被白雪覆盖。阳光灿烂,营造出明亮而宁静的氛围。道路上空无一人,视频中看不到任何人或动物。视频的风格是自然风景拍摄,重点是白雪皑皑的森林之美和道路的宁静。」   提示语:「鸡肉和青椒烤肉串在烧烤架上烧烤的特写。浅焦和淡烟。色彩鲜艳」  

准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊

逆合成是药物发现和有机合成中的一项关键任务,AI 越来越多地用于加快这一过程。 现有 AI 方法性能不尽人意,多样性有限。在实践中,化学反应通常会引起局部分子变化,反应物和产物之间存在很大重叠。 受此启发,浙江大学侯廷军团队提出将单步逆合成预测重新定义为分子串编辑任务,迭代细化目标分子串以生成前体化合物。并提出了基于编辑的逆合成模型 EditRetro,该模型可以实现高质量和多样化的预测。 大量实验表明,模型在标准基准数据集 USPTO-50 K 上取得了出色的性能,top-1 准确率达到 60.8%。 结果表明,EditRetro 表现出良好的泛化能力和稳健性,凸显了其在 AI 驱动的化学合成规划领域的潜力。 相关研究以「Retrosynthesis prediction with an iterative string editing model」为题,于 7 月 30 日发布在《Nature Communications》上。 论文链接:https://www.nature.com/articles/s41467-024-50617-1 分子合成路径设计是有机合成的一项重要任务,对生物医学、制药和材料工业等各个领域都具有重要意义。 逆合成分析是开发合成路线最广泛使用的方法。它包括使用已建立的反应将分子迭代分解为更简单、更易于合成的前体。 近年来,AI 驱动的逆合成促进了对更复杂分子的探索,大大减少了设计合成实验所需的时间和精力。单步逆合成预测是逆合成规划的重要组成部分,目前已有几种基于深度学习的方法,且效果优异。这些方法大致可分为三类:基于模板的方法、无模板的方法和半基于模板的方法。 在此,研究人员专注于无模板逆合成预测。提出将问题重新定义为分子字符串编辑任务,并提出基于编辑的逆合成模型 EditRetro,可以实现高质量和多样化的预测。 图示:所提出的基于分子串的逆合成的 EditRetro 方法的示意图。(来源:论文) 该研究的核心概念是,通过使用 Levenshtein 操作的迭代编辑过程生成反应物字符串。该方法从基于编辑的序列生成模型的最新进展中汲取灵感。具体来说,采用了 EDITOR 中的操作,EDITOR 是一种基于编辑的 Transformer,专为神经机器翻译而设计。 EditRetro 模型包含三种编辑操作,即序列重新定位、占位符插入和标记插入,以生成反应物字符串。它由一个 Transformer 模型实现,该模型由一个编码器和三个解码器组成,两者都由堆叠的 Transformer 块组成。 重新定位解码器:重新定位操作包括基本的 token 编辑操作,例如保留、删除和重新排序。它可以与识别反应中心的过程进行比较,包括重新排序和删除原子或基团以获得合成子。 占位符解码器:占位符插入策略(分类器)预测要在相邻 token 之间插入的占位符数量。它在确定反应物的结构方面起着至关重要的作用,类似于识别从序列重新定位阶段获得的中间合成子中添加原子或基团的位置。 Token 解码器:token 插入策略(分类器),负责为每个占位符生成候选 token。这对于确定可用于合成目标产品的实际反应物至关重要。该过程可以看作是合成子完成的类似过程,结合占位符插入操作。 EditRetro 模型通过其非自回归解码器提高了生成效率。尽管结合了额外的解码器来迭代预测编辑操作,但 EditRetro 在每个解码器内并行执行编辑操作(即非自回归生成)。 当给定一个目标分子时,编码器将其字符串作为输入并生成相应的隐藏表示,然后将其用作解码器交叉注意模块的输入。类似地,解码器也在第一次迭代时将产品字符串作为输入。在每次解码迭代期间,三个解码器依次执行。 研究人员在公共基准数据集 USPTO-50K 和 USPTO-FULL 上评估了所提方法。大量实验结果表明,该方法在预测准确度方面优于其他基线,包括最先进的基于序列的方法 R-SMILES 和基于图编辑的方法 Graph2Edits。 EditRetro 在基准逆合成数据集 USPTO-50K 上进行的大量实验表明,EditRetro 取得了优越的性能,top-1 精确匹配准确率达到 60.8%。 此外,在更大的 USPTO-FULL 数据集上,其中 top-1 精确匹配准确率达到 52.2%,证明了其在更多样化和更具挑战性的化学反应中是有效的。 EditRetro 在 RoundTrip 和 MaxFrag 准确率方面也表现出优于基线方法的性能。这证明了 EditRetro 能够有效地学习化学规则。 此外,EditRetro 通过精心设计的推理模块提供多样化的预测。该模块结合了重新定位采样和序列增强,有助于生成多样化和变化的预测。重新定位采样对重新定位动作的预测进行采样,从而能够识别不同的反应位点。序列增强从不同的产品变体到反应物生成不同的编辑途径,从而提高了预测的准确性和多样性。这两种策略共同作用,提高了预测的准确性和多样性。 进一步的实验验证了 EditRetro 在一些更复杂的反应中的优越性,包括手性、开环和成环反应。结果证实了 EditRetro 在这些具有挑战性的场景中的优越性,证明了它能够处理不同类型的化学转化。 特别是,EditRetro 在四个多步骤逆合成规划场景中的成功应用证明了其实用性。 为了评估 EditRetro 在合成规划中的实用性,通过连续的逆合成预测设计完整的化学途径。研究人员选择了四种具有重要药用价值的目标化合物进行评估:非布司他、奥希替尼、GPX4 的变构激活剂和 DDR1 激酶抑制剂 INS015_037。 图示:EditRetro 的多步逆合成预测。(来源:论文) 所有四个示例都产生了与文献中报道的途径非常一致的逆合成途径,大多数预测排名在前两位。在考虑的 16 个单独步骤中,有 10 个步骤的预测准确率为 1。这些结果证明了 EditRetro 在实际逆合成预测中的实际潜力。 通过提供有价值的见解并促进高效合成路线的设计,该方法有望在逆合成规划领域得到实际应用。

八问八答搞懂Transformer内部运作原理

七年前,论文《Attention is all you need》提出了 transformer 架构,颠覆了整个深度学习领域。 如今,各家大模型都以 transformer 架构为基础,但 transformer 内部运作原理,仍是一个未解之谜。 去年,transformer 论文作者之一 Llion Jones 宣布创立人工智能公司 Sakana AI。近期,Sakana AI 发表了一篇题为《Transformer Layers as Painters》的论文,探究了预训练 transformer 中的信息流,并针对仅解码器和仅编码器冻结 transformer 模型进行了一系列实验。请注意,该研究没有对预训练模型进行任何类型的微调。 论文地址:https://arxiv.org/pdf/2407.09298v1 该研究认为 transformer 的内部机制(特别是中间层)可以类比画家作画流水线来理解。 作画流水线通常是将画布(输入)传递给一系列画家。有些画家擅长画鸟类,而另一些画家则擅长画轮子。每个画家从其下一级画家那里收到画布,然后其决定是否给画作添加一些笔画,或者只是将其传递给其上一级画家(使用剩余连接)。 这个类比并不是一个严格的理论,而是一个思考 transformer 层的工具。受这个类比的启发,该研究测试验证了一些假设: 各层是否都在使用相同的表征空间?  所有层都是必要的吗? 中间层都执行相同的功能吗?  层的顺序重要吗? 这些层可以并行运行吗? 对于某些任务来说,顺序是否比其他因素更重要? 循环有助于层并行吗? 哪些变体对模型性能影响最小? 该研究对预训练 LLM 进行了一系列实验,其中包括试验标准 transformer 执行策略的变化,并在仅解码器 (Llama) 和仅编码器 (BERT) 模型的各种基准上测量这些变化对模型性能的影响。 各层是否都在使用相同的表征空间? 为了回答不同层是否使用相同的表征空间,作者测试了 Transformer 在跳过特定层或切换相邻层的顺序时是否具有稳健性。例如,在 Llama2-7B 中,第 6 层通常期望接收第 5 层的输出。如果给第 6 层以第 4 层的输出,它是否会出现「灾难性」的行为? 在图 2 中,我们可以看到,除了第一层和最后几层之外,Llama2-7B 的各层对跳层或切换层都相当稳健。 该实验表明,中间层共享一个表征空间,且与「外围层」(第一层和最后几层)拥有不同的表征空间。为了进一步验证这一假设,作者效仿之前的研究,测量了基准中模型(Llama2-7B、Llama2-13B 和 BERT-Large)不同层的隐藏状态激活之间的平均余弦相似度。图 3 显示了所有中间层之间的一致性。 这表明该模型可能具有「开始」、「中间」和「结束」层的三个不同的表征空间。回答问题 1:是的,中间层似乎共享一个共同的表征空间。 所有层都是必要的吗? 为了进一步测试中间层的重定向空间是否真正共享(除了具有接近的余弦相似度之外),该研究尝试了「跳过层」,即将第 N 层的输出直接发送到第 N + M 层(其中 M > 1)的输入中,从而「跳过」M − 1 层,如图 1a 所示。该实验是为了看看第 N + M 层是否可以理解第 N 层的激活,尽管它仅根据从第 N + M − 1 层发来的输入进行训练。图 4 显示,Llama2-7B 和 BERT-Large 在许多基准测试上性能均出现适度下降。回答问题 2,是否所有层都是必要的: 不,至少可以删除一些中间层而不会发生灾难性故障。   中间层都执行相同的功能吗? 如果中间层都共享一个共同的表征空间,这是否意味着除此之外的中间层是多余的呢?为了测试这一点,研究者们重新运行了前一子节中的「跳过」实验,他们将中间层的权重替换为中心层的权重,有效地在被替换的每一层上循环 T – 2N + 1 次,其中 T 是总层数(Llama2-7B 为 32 层,BERT-Large 为 24 层)。 如图 5 所示,可以观察到,随着被替换层数的增加,模型在基准测试的得分迅速下降。从后文的图 11 看来,这种替换层的做法比研究者们尝试的其他方法都更糟糕。因此,研究者得出结论:中间层执行的是不同的功能,让中间层之间共享权重并不可行。 层的顺序重要吗? 之前的实验表明,中间层共享一个表示空间,但在该空间中负责不同的功能。下一个需要解决的问题是,这些功能的顺序有何意义。为了解决这个问题,研究者们设计了两组实验。首先,以与训练时相反的顺序来运行中间层。具体来说,取第 T – N 层的输出,将其输入到第 T – N – 1 层,然后将这一层的输出输入到第 T – N – 2 层,依此类推,一直到第 N 层,再将这一层的输出发送到后面的 T – N 层。在第二组实验中,研究者采用随机顺序运行中间层,并在 10 个种子值上取平均值。 图 6 和图 7 分别显示了反向和以随机顺序运行中间层的结果,模型在所有基础测试集中都显示出了逐渐下降的趋势。这也表明虽然层的顺序对模型来说有一定的重要性,但即使改变了顺序,这些层仍然能够发挥作用。 更有趣的是,随机打乱层的顺序比完全反过来效果更好。这可能是因为,随机打乱的顺序在某些方面保留了层之间的一些原有关系(即层 i 在层 j 之后,其中 i > j),而完全反过来则完全打破了这些关系。 这些层可以并行运行吗? 为了验证层本身存在比执行的顺序更重要,研究者们设计了一个实验,并行运行中间层,将它们的平均结果发送给最终的 N 层。 如图 8 所示,模型在所有基准测试中的表现均呈现了一种平缓下降趋势,然而,这种趋势并不适用于 GSM8K 中的数学应用题。 实验结果显示,大部分情况下这种方法都是有效的,只是一些复杂的数学题处理得不太好。这种并行处理方法相比直接跳过一些层,效果更好,但不如按反向顺序运行层的效果出色。基于此,研究者得出结论:并行运行层在一般情况下是可行的,但对于需要顺序逻辑理解的数学问题,这种方法可能不太适用。   对于某些任务来说,顺序是否比其他因素更重要?  对于大多数经过「改造」的模型,在面对抽象推理(ARC)或数学推理(GSM8K)基准测试时,它们往往显示出最陡峭的下降趋势。这一现象可能源于逐步推理任务对于模型层级顺序的敏感度远高于那些主要依赖语义理解的常识性任务。与那些仅通过理解语义便能完成的任务不同,推理任务要求模型同时把握结构与含义。这种观察与模型在单次处理过程中可能进行一定程度的顺序依赖性推理的假设相吻合。 研究者使用了一个比喻来说明:如果画一幅由许多不同元素组成的拼贴画,那么画的顺序可能不那么重要;但如果是要画一幅精确的建筑场景,那么每一笔的顺序就变得非常重要了。据此,研究者得出了结论:数学和推理任务对模型层的顺序具有更高的依赖性,而对于那些主要依赖语义理解的任务,顺序的影响则相对较小。 循环有助于层之间并行吗? 沿用上一节中画画的的比喻,当画家在画一幅画时,不是一开始就画所有东西,而是先画一部分,比如车身,然后再根据这部分来添加其他的东西,比如车轮。在 AI 模型中,层就是所谓的画家,处理信息就是在画画,如果先得到了正确的信息,也就先画出了所谓的车身,那么它们就能更好地完成自己的工作,为画作添加车轮。   对于 transformer 而言,当给予适当的输入时,层可能只在前向传播中做出贡献,并非通过残差连接「传递」输入。如果情况确实如此,那么迭代上一个实验中的并行层应该比单次执行并行层更能提高模型的性能。基于此,研究者通过将并行层的平均输出反馈到同一层中进行固定次数的迭代来测试这一点。 图 9 展示了将并行层循环 3 次的结果。循环并行 3 次的结果显著优于单次迭代(并行层)。起始层 N 设定为 15(针对 Llama2-7B 模型)或 11(针对 BERT 模型)时,即处于每种情况的极左端点,仅有单一的层级受到影响。在这种特定情况下,三次循环并行的效果等同于单纯地将中间层重复三次。与此同时,对于这一点上的并行层而言,其性能与完整模型无异。   研究者们还针对不同的迭代次数重复了相同的实验。图 10 展示了 Llama2-7B 的性能随并行化层数 M 和迭代次数的变化情况。每个 M 的最高性能迭代次数用红框标出。除了 M=29 和 M=31(几乎并行化所有层)外,最佳迭代次数大致与并行化层数成线性比例。因此,研究者得出的结论是:最佳迭代次数与并行化层数成正比。    如何调整层,对模型性能的影响最小? 最后,在图 11 中,研究者们将所有实验中对 Transformer 的「改造」进行了比较,在一个图表上显示了所有基准测试的中位数或平均性 。  中间重复 —— 用相同数量的中间层副本替换中间层 —— 表现最差, 很快就降到了随机基线的性能。相反,循环并行和随机层顺序的影响最小。因此,研究者得出的结论是:重复单一层的影响最严重。随机化层顺序和循环并行的影响最小。  这些实验整体上显示出平缓的性能下降,但研究者仍然不清楚为什么这些层在大多数扰动下还能保持一定的稳健性,这个问题还需在未来的研究中进一步探讨。  更多细节请参见原论文。 参考链接:https://arxiv.org/pdf/2407.09298v1

李飞飞「空间智能」之后,上交、智源、北大等提出空间大模型SpatialBot

此前,李飞飞老师提出了空间智能 (Spatial Intelligence) 这一概念,作为回应,来自上交、斯坦福、智源、北大、牛津、东大的研究者提出了空间大模型 SpatialBot,并提出了训练数据 SpatialQA 和测试榜单 SpatialBench, 尝试让多模态大模型在通用场景和具身场景下理解深度、理解空间。  论文标题: SpatialBot: Precise Depth Understanding with Vision Language Models 论文链接: https://arxiv.org/abs/2406.13642 项目主页: https://github.com/BAAI-DCAI/SpatialBot 在具身智能的 pick and place 任务中,需要判断机械爪是否碰到了目标物体。如果碰到,则可以合上爪子抓取。然而,在这个 Berkerly UR5 Demonstration Dataset 场景中,即使是 GPT-4o 或人类,都无法从单张 RGB 图像中判断机械爪是否碰到了目标物体,比如借助深度信息,将深度图直接给 GPT-4o 看的话,也无法判断,因为它不能理解深度图。   SpatialBot 通过对 RGB-Depth 的理解,可以准确获得机械爪和目标物体的深度值,从而产生对空间概念的理解。 具身场景的 SpatialBot Demo:   1. 以人 (相机) 的视角,抓取右侧的茶杯   2. 抓取最中间的茶杯 作为走向具身智能的必要路径,如何让大模型理解空间?   点云比较贵,双目相机在使用中需要经常校准。相比之下,深度相机价格可以接受、使用范围广。在通用场景中,即使没有这样的硬件设备,大规模无监督训练过的深度估计模型已经可以提供较为准确的深度信息。因此,作者提出,使用 RGBD 作为空间大模型的输入。 目前的技术路线存在什么问题?   现有模型无法直接理解深度图输入。比如,图像编码器 CLIP/SigLIP 在 RGB 图像上训练,没有见过深度图。 现有大模型数据集,大多仅用 RGB 就可以分析、回答。因此,如果仅仅简单的将现有数据改为 RGBD 输入,模型不会主动到深度图中索引知识。需要专门设计任务和 QA,引导模型理解深度图、使用深度信息。   三个层次的 SpatialQA,逐步引导模型理解深度图、使用深度信息 如何引导模型理解和使用深度信息,理解空间?   作者提出具有三个层次的 SpatialQA 数据集。   在 low level 引导模型理解深度图,引导从深度图直接获取信息; 在 middle level 让模型将 depth 与 RGB 对齐; 在 high level 设计多个深度相关任务,标注了 50k 的数据,让模型在理解深度图的基础上,使用深度信息完成任务。任务包括:空间位置关系,物体大小,物体接触与否,机器人场景理解等。 示例对话 SpatialBot 包含什么?   1. 借鉴 agent 中的思想,SpatialBot 在需要时,可以通过 API 获取准确的深度信息。在深度信息获取、远近关系比较的任务上,可以达到 99%+ 的准确率。 2. 针对空间理解任务,作者公布了 SpatialBench 榜单。通过精心设计和标注 QA,测试模型深度理解能力。SpatialBot 在榜单上展示了和 GPT-4o 接近的能力。 模型如何理解深度图?   1. 输入模型的深度图:为了兼顾室内室外任务,需要统一的深度图编码方式。室内的抓取、导航任务可能需要毫米级的精确度,室外的场景不需要这么精准,却可能需要 100 米以上的深度值范围。传统视觉任务中会用 Ordinal Encoding 来编码,但是 ordinal 的值无法进行加减运算。为了尽可能保留所有深度信息,SpatialBot 直接使用以毫米为单位的 metric depth,范围为 1mm~131m,使用 uint24 或三通道的 uint8 来保留这些值。 2. 为了精准的获取深度信息,借鉴 agents 中的思想,SpatialBot 在认为有必要的时候,会以点的形式调用 DepthAPI,获取准确的深度值。若想获取物体的深度,SpatialBot 会先思考物体的 bounding box 是什么,然后用 bounding box 的中心点调用 API。 3. SpatialBot 使用物体的中心点、深度平均、最大和最小四个值来描述深度。 SpatialBot 和 DepthAPI 架构 SpatialBot 在通用场景和具身场景效果如何?   1. SpatialBot 基于 3B 到 8B 的多个 base LLM。通过在 SpatialQA 中学习空间知识,SpatialBot 在常用 MLLM 数据集 (MME、MMBench 等) 上同样展示了显著的效果提升。 2. 在 Open X-Embodiment、作者收集的机器人抓取数据等具身任务上,SpatialBot 同样展示了惊人效果。 SpatialBot 通用场景对比实验 数据如何标注?   精心设计了关于空间理解的问题,比如深度、远近关系、上下左右前后位置关系、大小关系,并且包含了具身中的重要问题,比如两个物体是否接触。   在测试集 SpatialBench 中,首先人工思考问题、选项和答案。为了扩大测试集大小,也使用 GPT 以同样的流程标注。   训练集 SpatialQA 包含三方面:    直接理解深度图,让模型看深度图,分析深度的分布,猜测其中可能包含的物体;  空间关系理解和推理; 机器人场景理解:描述 Open X-Embodiment 和本文收集的机器人数据中的场景、包含的物体、可能的任务,并人工标注物体、机器人的 bounding box。 空间关系理解 Open X-Embodiment 机器人场景理解 深度图理解。在使用 GPT 标注这部分数据时,GPT 会先看到深度图,描述深度图、推理其中可能包含的场景和物体,然后看到 RGB 图,筛选出正确的描述和推理。

李飞飞亲自撰文,数十名科学家签署联名信,反对加州AI限制法案

AI真的已经危险到要如此监管的地步了吗?    在创新的热土硅谷,李飞飞、吴恩达等 AI 科学家正在与监管部门展开一场关于安全与创新的拉锯战。 这场拉锯战的核心是一个名叫 SB-1047 的法案。该法案的全称是「Safe and Secure Innovation for Frontier Artificial Intelligence Act(《前沿人工智能模型安全创新法案》)」,试图为高风险的 AI 模型建立明确的安全标准,以防止其被滥用或引发灾难性后果。  该法案于今年 2 月份在参议院被提出,随后引起了很大的争议。很多科学家认为,法案的条款过于不合理,将对科技创新造成毁灭性的影响。     法案链接:https://leginfo.legislature.ca.gov/faces/billTextClient.xhtml?bill_id=202320240SB1047 具体来说,该法案旨在从模型层面对人工智能进行监管,适用于在特定计算和成本阈值之上训练的模型。 模型覆盖范围如下: 1、使用超过 10^26 次整数或浮点运算的计算能力进行训练的人工智能模型,其成本超过一亿美元(100,000,000 美元),该成本是根据开发者合理评估的训练开始时云计算的平均市场价格计算得出的。   2、利用等于或大于 10^25 次整数或浮点运算三倍的计算能力,对范围内的模型进行微调而创建的人工智能模型。 这一范围基本覆盖了现在市面上所有主流的大型模型。如果法案通过,这些模型都将被定义为存在「潜在危险」或需要额外监督。 法案还要求模型开发者对其模型的下游使用或修改承担法律责任。在训练开始之前,开发人员需要证明他们的模型不会启用或提供「危险功能」,并实施一系列保护措施来防止此类使用。这将阻碍开源社区的发展。 监督新法律执行的将是一个「前沿模型部门(frontier model division)」,这是一个新成立的监督和监管机构。该机构将制定安全标准并就人工智能法律提供建议,向该机构歪曲模型的功能可能会使开发人员因伪证而入狱。 法案中还加入了吹哨人保护条款,保护和鼓励 AI 开发实体内部的举报者,确保员工可以在不受报复的情况下报告企业的不合规情况。  如果法案获得通过,州长 Gavin Newsom 的一个签名就可以将其纳入加州法律。a16z 普通合伙人 Anjney Midha 表示,如果这项法案在加州获得通过,将为其他州树立先例,并在美国国内外产生连锁反应 —— 本质上对创新状况带来巨大的蝴蝶效应。 在太平洋夏令时间 8 月 7 日早晨,相关部门将举行关于该法案的听证会。留给科学家们的抗议时间已经不多了。因此,李飞飞亲自撰文,陈明法案利害。还有些科学家正在签署一封联名信,以阻止法案通过。   李飞飞的文章发表在《财富》(Fortune)网站上。 李飞飞撰文抨击 SB-1047 李飞飞在文章中表示:「加州的 SB-1047 将产生重大而意想不到的后果。如果通过成为法律,SB-1047 将损害正在萌芽的人工智能生态系统。SB-1047 将不必要地惩罚开发人员,扼杀开源社区,并阻碍人工智能学术研究,同时无法解决其旨在解决的真正问题。」 她写道: 首先,SB-1047 将过度惩罚开发者并扼杀创新。如果人工智能模型被滥用,SB-1047 要求责任方和该模型的原始开发者承担责任。每个人工智能开发人员(尤其是崭露头角的程序员和企业家)不可能预测到其模型的每种可能用途。SB-1047 将迫使开发人员退步并采取防御行动 —— 这正是我们试图避免的。  其次,SB-1047 将束缚开源开发。SB-1047 要求所有超过特定阈值的模型都包含「终止开关」,这是一种可以随时关闭程序的机制。如果开发人员担心他们下载和构建的程序会被删除,他们在编写代码和协作方面就会更加犹豫。这个终止开关将摧毁开源社区,这是无数创新的源泉。其影响不限于人工智能领域,而是在从 GPS 到 MRI 到互联网本身的各个领域。 第三,SB-1047 将削弱公共部门和学术人工智能研究。开源开发对于私营部门很重要,但对于学术界也至关重要。如果没有协作和对模型数据的访问,学术界就无法进步。如果我们的机构无法获得适当的模型和数据,我们将如何培训下一代人工智能领导者?终止开关甚至会进一步削弱学生和研究人员的努力,与大型科技公司相比,他们在数据和计算方面已经处于劣势。当我们应该加倍加大公共部门人工智能投资时,SB-1047 将为学术人工智能敲响丧钟。 最令人担忧的是,该法案并未解决人工智能进步的潜在危害,包括偏见和深度伪造(deepfake)等等。相反,SB-1047 设置了一个任意阈值,调节使用一定计算能力或花费 1 亿美元训练的模型。这项措施远非提供保障,只会限制包括学术界在内的跨部门创新。如今,学术人工智能模型低于这一门槛,但如果我们要重新平衡私营和公共部门人工智能的投资,学术界将受到 SB-1047 的监管。我们的人工智能生态系统将会因此而变得更糟。 SB-1047 的限制过于武断,我们必须采取相反的做法。 我并不反对人工智能治理。立法对于人工智能的安全有效发展至关重要。但人工智能政策必须赋能开源开发,提出统一且合理的规则,并建立消费者信心。SB-1047 未达到这些标准。 数十位科学家联名反对 针对 SB-1047,除了李飞飞,由加州大学 7 个校区的师生以及来自其他 20 多个机构的研究人员组成的团体也在积极行动。他们共同起草并签署了一封反对 SB-1047 的公开信,从研究者的角度出发,陈述该法案对加州人工智能研究和教育目标的损害。   联名信从以下几方面展开论述 SB-1047 的不合理性: 1、法案会给开源模型的发布带来「寒蝉效应」,从而损害研究 法案中要求对「前沿模型」进行「安全审核」和具备「完全关闭」能力,可能会严重阻碍开源和开放权重模型的发布。这些严格的规定对于私有实体控制的专有模型来说可能更易于实现,而对于非营利组织或大学联盟使用的开放模型则较为困难。法案中关于安全展示和审核的条款表述不够具体,依赖于可能尚未存在且可能缺乏科学严谨性的测试。这种审计的潜在成本对于有盈利产品的商业实体来说可能容易承担,但对于像 Meta 的 LLaMA 系列这样的商业实体的科学性开放发布,或是由非营利组织或大学联盟训练的开放模型,情况可能并非如此。 由于这些繁琐的限制,开源模型的开发者可能选择在加州或美国之外构建系统,并在避免责任的前提下发布其模型。在这种情况下,不顾合规的私人行为者可能会秘密使用这些模型,而受到公共工作性质约束的学术研究人员将被排除在外,这促使他们更改研究主题或转移到不侵犯其学术自由的司法管辖区。开源模型的可获取性对于现代学术 AI 研究至关重要,因为它们使学术界能够探索模型的工作原理、训练过程中的能力提升以及如何进行改进和破解。  2、人工智能风险预测与「能力」评估存在不科学性 作为人工智能、机器学习和自然语言处理领域的专家,这些研究者强调:SB-1047 中提到的评估模型风险的建议方法非常值得怀疑。科学界就语言模型或其他前沿人工智能系统是否以及如何对公众构成威胁尚未达成共识。 3、对开源模型的保护不足  尽管法案提到未来可能对开源模型提供特例,但由于参数数量的快速增长和计算成本的降低,现有的保护措施可能难以持续。在没有强有力的保护措施的情况下,这些模型面临的后果可能很快就会显现。此外,性能相当的小型模型相比大型模型需要更高的计算成本。因此,法案中的修正案预计无法缓解对开源模型发布的负面影响,而严格的报告和审核要求还将不必要地影响研究活动。 4、对学生的就业安置和职业成果的担忧 SB-1047 未来可能会阻碍对人工智能感兴趣的学生进一步学习相关知识,甚至可能会阻止新人才进入计算机科学等关键领域。此外,随着科技行业从大公司向初创公司的转变,额外的监管障碍可能会通过支持更大、更好的企业来削弱新兴创新者。这种转变可能会缩窄学生的职业道路。 联名信部分学者签名。 除了公开信,还有一些研究者选择在社交媒体发声。其中,一位系统生物学家指出,SB-1047 就像在我们还不知道病原体是什么、何时会感染我们以及感染会发生在哪里之前就激活了炎症反应。 此前,吴恩达也多次就此事发声。他认为,监管机构应该监管应用而不是技术。例如,电动机就是一项技术。当我们将其放入搅拌机、电动汽车、透析机或制导炸弹中时,它就成为了一种应用。想象一下,如果法律规定,当任何人以有害的方式使用电机时,电机制造商都要承担责任。那电机制造商要么停产,要么将电机制造得非常小,以至于对大多数应用来说毫无用处。如果我们通过这样的法律,可能会阻止人们制造炸弹,但我们也会失去搅拌机、电动汽车和透析机。相反,如果我们关注特定的应用,就可以更合理地评估风险并判断如何确保它们的安全,甚至禁止某些类型的应用。   AI 真的已经危险到要如此监管的地步了吗?对此,你怎么看?   参考链接:https://a16z.com/sb-1047-what-you-need-to-know-with-anjney-midha/ https://drive.google.com/file/d/1E2yDGXryPhhlwS4OdkzMpNeaG5r6_Jxa/view https://fortune.com/2024/08/06/godmother-of-ai-says-californias-ai-bill-will-harm-us-ecosystem-tech-politics/?abc123