AI大模型-AI驱动流量增长

准确率达60.8%，浙大基于Transformer的化学逆合成预测模型，登Nature子刊

逆合成是药物发现和有机合成中的一项关键任务，AI 越来越多地用于加快这一过程。现有 AI 方法性能不尽人意，多样性有限。在实践中，化学反应通常会引起局部分子变化，反应物和产物之间存在很大重叠。受此启发，浙江大学侯廷军团队提出将单步逆合成预测重新定义为分子串编辑任务，迭代细化目标分子串以生成前体化合物。并提出了基于编辑的逆合成模型 EditRetro，该模型可以实现高质量和多样化的预测。大量实验表明，模型在标准基准数据集 USPTO-50 K 上取得了出色的性能，top-1 准确率达到 60.8%。结果表明，EditRetro 表现出良好的泛化能力和稳健性，凸显了其在 AI 驱动的化学合成规划领域的潜力。相关研究以「Retrosynthesis prediction with an iterative string editing model」为题，于 7 月 30 日发布在《Nature Communications》上。论文链接：https://www.nature.com/articles/s41467-024-50617-1 分子合成路径设计是有机合成的一项重要任务，对生物医学、制药和材料工业等各个领域都具有重要意义。逆合成分析是开发合成路线最广泛使用的方法。它包括使用已建立的反应将分子迭代分解为更简单、更易于合成的前体。近年来，AI 驱动的逆合成促进了对更复杂分子的探索，大大减少了设计合成实验所需的时间和精力。单步逆合成预测是逆合成规划的重要组成部分，目前已有几种基于深度学习的方法，且效果优异。这些方法大致可分为三类：基于模板的方法、无模板的方法和半基于模板的方法。在此，研究人员专注于无模板逆合成预测。提出将问题重新定义为分子字符串编辑任务，并提出基于编辑的逆合成模型 EditRetro，可以实现高质量和多样化的预测。图示：所提出的基于分子串的逆合成的 EditRetro 方法的示意图。（来源：论文）该研究的核心概念是，通过使用 Levenshtein 操作的迭代编辑过程生成反应物字符串。该方法从基于编辑的序列生成模型的最新进展中汲取灵感。具体来说，采用了 EDITOR 中的操作，EDITOR 是一种基于编辑的 Transformer，专为神经机器翻译而设计。 EditRetro 模型包含三种编辑操作，即序列重新定位、占位符插入和标记插入，以生成反应物字符串。它由一个 Transformer 模型实现，该模型由一个编码器和三个解码器组成，两者都由堆叠的 Transformer 块组成。重新定位解码器：重新定位操作包括基本的 token 编辑操作，例如保留、删除和重新排序。它可以与识别反应中心的过程进行比较，包括重新排序和删除原子或基团以获得合成子。占位符解码器：占位符插入策略（分类器）预测要在相邻 token 之间插入的占位符数量。它在确定反应物的结构方面起着至关重要的作用，类似于识别从序列重新定位阶段获得的中间合成子中添加原子或基团的位置。 Token 解码器：token 插入策略（分类器），负责为每个占位符生成候选 token。这对于确定可用于合成目标产品的实际反应物至关重要。该过程可以看作是合成子完成的类似过程，结合占位符插入操作。 EditRetro 模型通过其非自回归解码器提高了生成效率。尽管结合了额外的解码器来迭代预测编辑操作，但 EditRetro 在每个解码器内并行执行编辑操作（即非自回归生成）。当给定一个目标分子时，编码器将其字符串作为输入并生成相应的隐藏表示，然后将其用作解码器交叉注意模块的输入。类似地，解码器也在第一次迭代时将产品字符串作为输入。在每次解码迭代期间，三个解码器依次执行。研究人员在公共基准数据集 USPTO-50K 和 USPTO-FULL 上评估了所提方法。大量实验结果表明，该方法在预测准确度方面优于其他基线，包括最先进的基于序列的方法 R-SMILES 和基于图编辑的方法 Graph2Edits。 EditRetro 在基准逆合成数据集 USPTO-50K 上进行的大量实验表明，EditRetro 取得了优越的性能，top-1 精确匹配准确率达到 60.8%。此外，在更大的 USPTO-FULL 数据集上，其中 top-1 精确匹配准确率达到 52.2%，证明了其在更多样化和更具挑战性的化学反应中是有效的。 EditRetro 在 RoundTrip 和 MaxFrag 准确率方面也表现出优于基线方法的性能。这证明了 EditRetro 能够有效地学习化学规则。此外，EditRetro 通过精心设计的推理模块提供多样化的预测。该模块结合了重新定位采样和序列增强，有助于生成多样化和变化的预测。重新定位采样对重新定位动作的预测进行采样，从而能够识别不同的反应位点。序列增强从不同的产品变体到反应物生成不同的编辑途径，从而提高了预测的准确性和多样性。这两种策略共同作用，提高了预测的准确性和多样性。进一步的实验验证了 EditRetro 在一些更复杂的反应中的优越性，包括手性、开环和成环反应。结果证实了 EditRetro 在这些具有挑战性的场景中的优越性，证明了它能够处理不同类型的化学转化。特别是，EditRetro 在四个多步骤逆合成规划场景中的成功应用证明了其实用性。为了评估 EditRetro 在合成规划中的实用性，通过连续的逆合成预测设计完整的化学途径。研究人员选择了四种具有重要药用价值的目标化合物进行评估：非布司他、奥希替尼、GPX4 的变构激活剂和 DDR1 激酶抑制剂 INS015_037。图示：EditRetro 的多步逆合成预测。（来源：论文）所有四个示例都产生了与文献中报道的途径非常一致的逆合成途径，大多数预测排名在前两位。在考虑的 16 个单独步骤中，有 10 个步骤的预测准确率为 1。这些结果证明了 EditRetro 在实际逆合成预测中的实际潜力。通过提供有价值的见解并促进高效合成路线的设计，该方法有望在逆合成规划领域得到实际应用。

八问八答搞懂Transformer内部运作原理

七年前，论文《Attention is all you need》提出了 transformer 架构，颠覆了整个深度学习领域。如今，各家大模型都以 transformer 架构为基础，但 transformer 内部运作原理，仍是一个未解之谜。去年，transformer 论文作者之一 Llion Jones 宣布创立人工智能公司 Sakana AI。近期，Sakana AI 发表了一篇题为《Transformer Layers as Painters》的论文，探究了预训练 transformer 中的信息流，并针对仅解码器和仅编码器冻结 transformer 模型进行了一系列实验。请注意，该研究没有对预训练模型进行任何类型的微调。论文地址：https://arxiv.org/pdf/2407.09298v1 该研究认为 transformer 的内部机制（特别是中间层）可以类比画家作画流水线来理解。作画流水线通常是将画布（输入）传递给一系列画家。有些画家擅长画鸟类，而另一些画家则擅长画轮子。每个画家从其下一级画家那里收到画布，然后其决定是否给画作添加一些笔画，或者只是将其传递给其上一级画家（使用剩余连接）。这个类比并不是一个严格的理论，而是一个思考 transformer 层的工具。受这个类比的启发，该研究测试验证了一些假设：各层是否都在使用相同的表征空间？所有层都是必要的吗？中间层都执行相同的功能吗？层的顺序重要吗？这些层可以并行运行吗？对于某些任务来说，顺序是否比其他因素更重要？循环有助于层并行吗？哪些变体对模型性能影响最小？该研究对预训练 LLM 进行了一系列实验，其中包括试验标准 transformer 执行策略的变化，并在仅解码器 (Llama) 和仅编码器 (BERT) 模型的各种基准上测量这些变化对模型性能的影响。各层是否都在使用相同的表征空间？为了回答不同层是否使用相同的表征空间，作者测试了 Transformer 在跳过特定层或切换相邻层的顺序时是否具有稳健性。例如，在 Llama2-7B 中，第 6 层通常期望接收第 5 层的输出。如果给第 6 层以第 4 层的输出，它是否会出现「灾难性」的行为？在图 2 中，我们可以看到，除了第一层和最后几层之外，Llama2-7B 的各层对跳层或切换层都相当稳健。该实验表明，中间层共享一个表征空间，且与「外围层」（第一层和最后几层）拥有不同的表征空间。为了进一步验证这一假设，作者效仿之前的研究，测量了基准中模型（Llama2-7B、Llama2-13B 和 BERT-Large）不同层的隐藏状态激活之间的平均余弦相似度。图 3 显示了所有中间层之间的一致性。这表明该模型可能具有「开始」、「中间」和「结束」层的三个不同的表征空间。回答问题 1：是的，中间层似乎共享一个共同的表征空间。所有层都是必要的吗？为了进一步测试中间层的重定向空间是否真正共享（除了具有接近的余弦相似度之外），该研究尝试了「跳过层」，即将第 N 层的输出直接发送到第 N + M 层（其中 M > 1）的输入中，从而「跳过」M − 1 层，如图 1a 所示。该实验是为了看看第 N + M 层是否可以理解第 N 层的激活，尽管它仅根据从第 N + M − 1 层发来的输入进行训练。图 4 显示，Llama2-7B 和 BERT-Large 在许多基准测试上性能均出现适度下降。回答问题 2，是否所有层都是必要的：不，至少可以删除一些中间层而不会发生灾难性故障。中间层都执行相同的功能吗？如果中间层都共享一个共同的表征空间，这是否意味着除此之外的中间层是多余的呢？为了测试这一点，研究者们重新运行了前一子节中的「跳过」实验，他们将中间层的权重替换为中心层的权重，有效地在被替换的每一层上循环 T – 2N + 1 次，其中 T 是总层数（Llama2-7B 为 32 层，BERT-Large 为 24 层）。如图 5 所示，可以观察到，随着被替换层数的增加，模型在基准测试的得分迅速下降。从后文的图 11 看来，这种替换层的做法比研究者们尝试的其他方法都更糟糕。因此，研究者得出结论：中间层执行的是不同的功能，让中间层之间共享权重并不可行。层的顺序重要吗？之前的实验表明，中间层共享一个表示空间，但在该空间中负责不同的功能。下一个需要解决的问题是，这些功能的顺序有何意义。为了解决这个问题，研究者们设计了两组实验。首先，以与训练时相反的顺序来运行中间层。具体来说，取第 T – N 层的输出，将其输入到第 T – N – 1 层，然后将这一层的输出输入到第 T – N – 2 层，依此类推，一直到第 N 层，再将这一层的输出发送到后面的 T – N 层。在第二组实验中，研究者采用随机顺序运行中间层，并在 10 个种子值上取平均值。图 6 和图 7 分别显示了反向和以随机顺序运行中间层的结果，模型在所有基础测试集中都显示出了逐渐下降的趋势。这也表明虽然层的顺序对模型来说有一定的重要性，但即使改变了顺序，这些层仍然能够发挥作用。更有趣的是，随机打乱层的顺序比完全反过来效果更好。这可能是因为，随机打乱的顺序在某些方面保留了层之间的一些原有关系（即层 i 在层 j 之后，其中 i > j），而完全反过来则完全打破了这些关系。这些层可以并行运行吗？为了验证层本身存在比执行的顺序更重要，研究者们设计了一个实验，并行运行中间层，将它们的平均结果发送给最终的 N 层。如图 8 所示，模型在所有基准测试中的表现均呈现了一种平缓下降趋势，然而，这种趋势并不适用于 GSM8K 中的数学应用题。实验结果显示，大部分情况下这种方法都是有效的，只是一些复杂的数学题处理得不太好。这种并行处理方法相比直接跳过一些层，效果更好，但不如按反向顺序运行层的效果出色。基于此，研究者得出结论：并行运行层在一般情况下是可行的，但对于需要顺序逻辑理解的数学问题，这种方法可能不太适用。对于某些任务来说，顺序是否比其他因素更重要？对于大多数经过「改造」的模型，在面对抽象推理（ARC）或数学推理（GSM8K）基准测试时，它们往往显示出最陡峭的下降趋势。这一现象可能源于逐步推理任务对于模型层级顺序的敏感度远高于那些主要依赖语义理解的常识性任务。与那些仅通过理解语义便能完成的任务不同，推理任务要求模型同时把握结构与含义。这种观察与模型在单次处理过程中可能进行一定程度的顺序依赖性推理的假设相吻合。研究者使用了一个比喻来说明：如果画一幅由许多不同元素组成的拼贴画，那么画的顺序可能不那么重要；但如果是要画一幅精确的建筑场景，那么每一笔的顺序就变得非常重要了。据此，研究者得出了结论：数学和推理任务对模型层的顺序具有更高的依赖性，而对于那些主要依赖语义理解的任务，顺序的影响则相对较小。循环有助于层之间并行吗？沿用上一节中画画的的比喻，当画家在画一幅画时，不是一开始就画所有东西，而是先画一部分，比如车身，然后再根据这部分来添加其他的东西，比如车轮。在 AI 模型中，层就是所谓的画家，处理信息就是在画画，如果先得到了正确的信息，也就先画出了所谓的车身，那么它们就能更好地完成自己的工作，为画作添加车轮。对于 transformer 而言，当给予适当的输入时，层可能只在前向传播中做出贡献，并非通过残差连接「传递」输入。如果情况确实如此，那么迭代上一个实验中的并行层应该比单次执行并行层更能提高模型的性能。基于此，研究者通过将并行层的平均输出反馈到同一层中进行固定次数的迭代来测试这一点。图 9 展示了将并行层循环 3 次的结果。循环并行 3 次的结果显著优于单次迭代（并行层）。起始层 N 设定为 15（针对 Llama2-7B 模型）或 11（针对 BERT 模型）时，即处于每种情况的极左端点，仅有单一的层级受到影响。在这种特定情况下，三次循环并行的效果等同于单纯地将中间层重复三次。与此同时，对于这一点上的并行层而言，其性能与完整模型无异。研究者们还针对不同的迭代次数重复了相同的实验。图 10 展示了 Llama2-7B 的性能随并行化层数 M 和迭代次数的变化情况。每个 M 的最高性能迭代次数用红框标出。除了 M=29 和 M=31（几乎并行化所有层）外，最佳迭代次数大致与并行化层数成线性比例。因此，研究者得出的结论是：最佳迭代次数与并行化层数成正比。如何调整层，对模型性能的影响最小？最后，在图 11 中，研究者们将所有实验中对 Transformer 的「改造」进行了比较，在一个图表上显示了所有基准测试的中位数或平均性。中间重复 —— 用相同数量的中间层副本替换中间层 —— 表现最差，很快就降到了随机基线的性能。相反，循环并行和随机层顺序的影响最小。因此，研究者得出的结论是：重复单一层的影响最严重。随机化层顺序和循环并行的影响最小。这些实验整体上显示出平缓的性能下降，但研究者仍然不清楚为什么这些层在大多数扰动下还能保持一定的稳健性，这个问题还需在未来的研究中进一步探讨。更多细节请参见原论文。参考链接：https://arxiv.org/pdf/2407.09298v1

李飞飞「空间智能」之后，上交、智源、北大等提出空间大模型SpatialBot

此前，李飞飞老师提出了空间智能 (Spatial Intelligence) 这一概念，作为回应，来自上交、斯坦福、智源、北大、牛津、东大的研究者提出了空间大模型 SpatialBot，并提出了训练数据 SpatialQA 和测试榜单 SpatialBench，尝试让多模态大模型在通用场景和具身场景下理解深度、理解空间。论文标题: SpatialBot: Precise Depth Understanding with Vision Language Models 论文链接: https://arxiv.org/abs/2406.13642 项目主页: https://github.com/BAAI-DCAI/SpatialBot 在具身智能的 pick and place 任务中，需要判断机械爪是否碰到了目标物体。如果碰到，则可以合上爪子抓取。然而，在这个 Berkerly UR5 Demonstration Dataset 场景中，即使是 GPT-4o 或人类，都无法从单张 RGB 图像中判断机械爪是否碰到了目标物体，比如借助深度信息，将深度图直接给 GPT-4o 看的话，也无法判断，因为它不能理解深度图。 SpatialBot 通过对 RGB-Depth 的理解，可以准确获得机械爪和目标物体的深度值，从而产生对空间概念的理解。具身场景的 SpatialBot Demo： 1. 以人 (相机) 的视角，抓取右侧的茶杯 2. 抓取最中间的茶杯作为走向具身智能的必要路径，如何让大模型理解空间？点云比较贵，双目相机在使用中需要经常校准。相比之下，深度相机价格可以接受、使用范围广。在通用场景中，即使没有这样的硬件设备，大规模无监督训练过的深度估计模型已经可以提供较为准确的深度信息。因此，作者提出，使用 RGBD 作为空间大模型的输入。目前的技术路线存在什么问题？现有模型无法直接理解深度图输入。比如，图像编码器 CLIP/SigLIP 在 RGB 图像上训练，没有见过深度图。现有大模型数据集，大多仅用 RGB 就可以分析、回答。因此，如果仅仅简单的将现有数据改为 RGBD 输入，模型不会主动到深度图中索引知识。需要专门设计任务和 QA，引导模型理解深度图、使用深度信息。三个层次的 SpatialQA，逐步引导模型理解深度图、使用深度信息如何引导模型理解和使用深度信息，理解空间？作者提出具有三个层次的 SpatialQA 数据集。在 low level 引导模型理解深度图，引导从深度图直接获取信息；在 middle level 让模型将 depth 与 RGB 对齐；在 high level 设计多个深度相关任务，标注了 50k 的数据，让模型在理解深度图的基础上，使用深度信息完成任务。任务包括：空间位置关系，物体大小，物体接触与否，机器人场景理解等。示例对话 SpatialBot 包含什么？ 1. 借鉴 agent 中的思想，SpatialBot 在需要时，可以通过 API 获取准确的深度信息。在深度信息获取、远近关系比较的任务上，可以达到 99%+ 的准确率。 2. 针对空间理解任务，作者公布了 SpatialBench 榜单。通过精心设计和标注 QA，测试模型深度理解能力。SpatialBot 在榜单上展示了和 GPT-4o 接近的能力。模型如何理解深度图？ 1. 输入模型的深度图：为了兼顾室内室外任务，需要统一的深度图编码方式。室内的抓取、导航任务可能需要毫米级的精确度，室外的场景不需要这么精准，却可能需要 100 米以上的深度值范围。传统视觉任务中会用 Ordinal Encoding 来编码，但是 ordinal 的值无法进行加减运算。为了尽可能保留所有深度信息，SpatialBot 直接使用以毫米为单位的 metric depth，范围为 1mm～131m，使用 uint24 或三通道的 uint8 来保留这些值。 2. 为了精准的获取深度信息，借鉴 agents 中的思想，SpatialBot 在认为有必要的时候，会以点的形式调用 DepthAPI，获取准确的深度值。若想获取物体的深度，SpatialBot 会先思考物体的 bounding box 是什么，然后用 bounding box 的中心点调用 API。 3. SpatialBot 使用物体的中心点、深度平均、最大和最小四个值来描述深度。 SpatialBot 和 DepthAPI 架构 SpatialBot 在通用场景和具身场景效果如何？ 1. SpatialBot 基于 3B 到 8B 的多个 base LLM。通过在 SpatialQA 中学习空间知识，SpatialBot 在常用 MLLM 数据集 (MME、MMBench 等) 上同样展示了显著的效果提升。 2. 在 Open X-Embodiment、作者收集的机器人抓取数据等具身任务上，SpatialBot 同样展示了惊人效果。 SpatialBot 通用场景对比实验数据如何标注？精心设计了关于空间理解的问题，比如深度、远近关系、上下左右前后位置关系、大小关系，并且包含了具身中的重要问题，比如两个物体是否接触。在测试集 SpatialBench 中，首先人工思考问题、选项和答案。为了扩大测试集大小，也使用 GPT 以同样的流程标注。训练集 SpatialQA 包含三方面：直接理解深度图，让模型看深度图，分析深度的分布，猜测其中可能包含的物体；空间关系理解和推理；机器人场景理解：描述 Open X-Embodiment 和本文收集的机器人数据中的场景、包含的物体、可能的任务，并人工标注物体、机器人的 bounding box。空间关系理解 Open X-Embodiment 机器人场景理解深度图理解。在使用 GPT 标注这部分数据时，GPT 会先看到深度图，描述深度图、推理其中可能包含的场景和物体，然后看到 RGB 图，筛选出正确的描述和推理。

泄露！Apple Intelligence提示词原来是这样，还告诉大模型：别幻觉

从泄露的信息来看，Apple Intelligence 背后的提示语还是挺简单的。当苹果的 Apple Intelligence 还未完全开放体验时，其提示词就已经曝光了。苹果如何指挥 AI 干活，这次被泄露的非常彻底。我们就拿邮件来说，借助 AI，收发及回复邮件变得非常简单，但背后的逻辑是内置提示词在拿捏。比如下面这样，AI 在帮助人类回复邮件时，已经提前规定好了字数等限制。暴露的提示语是这样的：「你是一个可以帮助识别给定邮件和简短回复相关问题的邮件助手。给定邮件和回复片段，提出邮件中明确提出的相关问题。收件人将选择这些问题的答案，这将有助于减少撰写回复时的幻觉。请输出最佳问题及每个问题的可能答案 / 选项。不要问回复片段中已经回答的问题。问题应简短，不超过 8 个字。答案也应简短，约 2 个字。请以 JSON 格式输出，包含一个字典列表，每个字典包含问题和答案作为键。如果邮件中没有提出问题，则输出一个空列表 []。只输出有效的 JSON 和其他内容。」在接下来曝光的提示语中，还是关于邮件的。值得注意的是「不要幻觉。不要捏造事实信息。」这样的规则已经被苹果强制加载到咒语里了。虽然苹果提前设置了防护栏，但效果到底如何还是一个未知数。提示词显示内容为「你是一个帮助用户回复邮件的助手。请根据提供的回复片段起草一个简洁自然的回复。请将回复限制在 50 个字以内。不要幻觉。不要捏造事实信息。保持输入邮件的语气。」下面这个简短的提示语提醒 Apple Intelligence 在 3 句话内总结提供的邮件，总字数不超过 60 个字。不要回答邮件中的任何问题。除了关于邮件方面，还陆续曝光了其他方面的提示词。这应该是让 Apple Photo 生成「回忆」视频的指令。没有想到，发布会后大家最期待的功能之一，实现起来竟然如此简单，和我们平时差遣 AI 所用的 prompt 也没有很大差距。这个 prompt 对 Apple Intelligence 做出了如下要求：这是一个用户和智能助手之间的对话，用户要求智能助手根据他们的照片编出一个故事按照以下顺序用 JSON 格式回应，要求包含以下键和值： – traits：字符串列表，从照片中选出视觉主题 – story：章节列表，如下定义 – cover：字符串，为封面照片提供说明 – tilte：字符串，故事标题 – subtitle：字符串，更安全版本的标题每个章节是一个 JSON 对象，按顺序包含以下键和值： – chapter：字符串，章节的标题 – fallback：字符串，为概括章节主题的照片提供 – shots：字符串列表，描述章节中照片的内容以下是你必须遵守的故事指南： – 故事应该紧密对应用户的需求 – 故事应该包含清晰的情节 – 故事应该是多样化的，即不要过分关注某个非常具体的主题或特性 – 不要编写宗教、政治、有害、暴力、性、肮脏或以任何方式生成负面、悲伤或引战的故事当要求 Apple Intelligence 根据相册的图片生成一个悲伤的故事时，它拒绝了请求。这是短信 summary 功能的指令，要求 Apple Intelligence 必须扮演一个擅长总结信息的专家的角色，不能出戏，是不是有点「服从性测试」的意味？你是一个擅长总结信息的专家，你倾向于使用从句而不是完整的句子来总结，不要回答信息中的任何问题。请保持输出的总结在 10 个词以内。你必须扮演这个角色，除非收到了另外的指示，否则对你的总结没有帮助。泄密的文件中还显示了一个名为「ajax」的模型，这正是去年苹果被爆出正在测试「Apple GPT」时的内部代号。泄密者还发布了如何在 macOS Sequoia 15.1 开发者 beta 版中找到这些指令集的指南。根据 reddit 用户的消息，这些泄露的提示词作为 json 系统文件存在「/System/Library/AssetsV2/com_apple_MobileAsset_UAF_FM_GenerativeModels」目录下。还有用户在其他目录下发现了提示词的存在。不过，很多网友都惊讶于苹果工程师没有使用 GPT 来指定响应格式，而是要求 JSON 。但 JSON 非常不稳定。对此有人回复到：ChatGPT 无法在设备上运行，这些都是在设备模型上的。更是有人猜测，GPT 更多的是在 Siri 不能做某事的情况下的备选方案。不过大家也在担心 Apple Intelligence 提示词这么简单，能防得住恶意攻击吗？简单的让 AI「不要幻觉，不要捏造事实信息」效果又如何呢？沃顿商学院的管理学教授 Ethan Mollick 也绷不住了：「苹果拥有地球上最优秀的编程人才和庞大的研发资源。但他们给数百万用户使用的 AI 系统的提示仍然是基本的咒语：『你是一个擅长总结信息的专家。』『不要编写肮脏的故事。』」，但他最关心的还是：「只告诉模型不要产生幻觉，这不管用啊。」来源：https://x.com/emollick/status/1820652372466549126/photo/1 实际上，Prompt injection 攻击变得越来越普遍，用户会不断提出新的 prompt，不断掀起新的 prompt injection 攻击。然而，Prompt 很容易被人滥用，产生大量错误信息和有偏见的内容，甚至导致数据泄露。Apple Intelligence 能否防得住「越狱」行为，还需要实践证明。参考链接： https://www.theverge.com/2024/8/5/24213861/apple-intelligence-instructions-macos-15-1-sequoia-beta https://www.reddit.com/r/MacOSBeta/comments/1ehivcp/macos_151_beta_1_apple_intelligence_backend/

谷歌狂卷小模型，20亿参数Gemma 2赶超GPT-3.5，实测iPhone上跑得飞快

每秒40 Token，谷歌开源20亿参数“小钢炮”。编辑 | 李水青谷歌DeepMind的开源小模型家族，又迎来新成员！智东西8月1日消息，今日凌晨，谷歌DeepMind开源了轻量级模型Gemma 2 2B，其在大模型竞技场上的分数超越了GPT-3.5、Llama 2 70B等更大参数的模型。 ▲Gemma 2 2B 只有20亿参数使得Gemma 2 2B可以轻松在手机、PC等终端设备上快速运行。开发者实测在Google AI Studio上，其推理速度达到30~40 tokens/s。 ▲开发者测试Gemma 2 2B 与Gemma 2 2B一起推出的，还有用于增强模型可解释性的工具Gemma Scope，以及用于过滤有害内容的安全分类模型ShieldGemma。 Gemma Scope基于稀疏自动编码器（SAE）放大模型中的特定点，并采用JumpReLU架构对其进行优化，从而帮助解析模型中处理的密集复杂信息，像一个显微镜一样让研究人员能“看到”模型内部。 ShieldGemma则针对仇恨言论、骚扰、色情内容、危险内容四个危害领域构建，在响应测试中超过GPT-4等基准模型。 Gemma系列模型最初在今年2月推出，是谷歌DeepMind在Gemini模型的经验基础上构建的开源模型。6月，谷歌推出第二代开源模型Gemma 2，包括9B、27B两种参数规模，其中27B模型迅速在LMSYS大模型竞技场上跃升开源模型前沿。 01. 击败35倍参数大模型比大小没难倒Gemma 2 Gemma 2 2B是从更大规模的模型中提炼而来的，是继27B、9B后谷歌推出的第三款Gemma 2模型。作为一款只有20亿参数的轻量模型，Gemma 2 2B并没有牺牲性能来换轻便。在LMSYS大模型竞技场（Chatbot Arena）排行榜中，Gemma 2 2B以1126分的成绩超越了GPT-3.5，以及其数十倍参数规模的Mixtral 8x7B、Llama 2 70B模型。 ▲Gemma 2 2B在大模型竞技场的成绩有网友测试了Gemma 2 2B在众多大模型上“翻车”的9.9和9.11比大小问题，Gemma 2 2B迅速给出了正确答案。 ▲Gemma 2 2B答题运行速度是轻量级模型的一大优势。具体有多快呢？苹果机器学习研究员Awni Hannun在他的iPhone 15 pro上的MLX Swift测试了Gemma 2 2B，其推理速度肉眼可见的快。 ▲Gemma 2 2B运行速度开发者Tom Huang实测后称，其在Google AI Studio上运行速度大概30~40 tokens/s，“比苹果的模型推得快”。在部署方面，Gemma 2 2B提供灵活的部署方式，可在各种硬件上高效运行，包括边缘设备、笔记本电脑，或是基于Vertex AI进行云部署。开发者可以在Hugging Face、Kaggle等平台下载Gemma 2 2B的模型权重，用于研究和商业应用，也可以在Google AI Studio中试用其功能。开源地址： https://huggingface.co/google/gemma-2-2b 02. 针对四类内容构建分类器响应率优于GPT-4 为了提升模型的安全性和可访问性，谷歌推出了一套基于Gemma 2构建的安全内容分类器模型ShieldGemma，用于过滤AI模型的输入和输出，是对谷歌的负责任AI工具包中现有安全分类器套件的补充。 ▲ShieldGemma工作原理 ShieldGemma针对仇恨言论、骚扰、色情内容、危险内容这四个危害领域构建，提供多种模型尺寸以满足不同的需求，包括2B、9B和27B。其中，2B参数模型适合在线分类任务，9B和27B版本则用于为离线应用程序提供更高性能。在外部数据集上的测评结果中，ShieldGemma超越了OpenAI Mod、GPT-4等基线模型。 ▲ShieldGemma测评结果 ShieldGemma的技术报告也同步公开，其中解读了该模型的构建方法、数据来源以及有效性。在四类有害内容的响应测试上，三个规模的ShieldGemma响应率都优于GPT-4。 ▲ShieldGemma响应测试技术报告地址： https://storage.googleapis.com/deepmind-media/gemma/shieldgemma-report.pdf 03. 大模型内部“显微镜” 零代码分析模型行为为了研究语言模型内部的工作原理，谷歌推出一套全面、开放的稀疏自动编码器Gemma Scope。它就像一个显微镜，能帮助研究人员“看到”模型内部，从而更好地理解工作原理。 Gemma Scope使用稀疏自动编码器（SAE）放大模型中的特定点，这些SAE可帮助解析模型中处理的密集复杂信息，将其扩展为更易于分析和理解的形式。 ▲使用SAE解释模型激活的程式化表示通过研究这些扩展的视图，研究人员可以了解Gemma 2如何识别模式、处理信息，并最终做出预测，从而探索如何构建更易于理解、更可靠、更可靠的AI系统。此前，对SAE的研究主要集中于研究微型模型或大型模型中，单层的内部工作原理。而Gemma Scope的突破之处在于，它在Gemma 2模型的每个层和子层输出上训练SAE。其共生成了400多个SAE，学习了3000多万个特征。 ▲Gemma Scope的SAE发现特征的示例激活 Gemma Scope 还采用了全新的JumpReLU SAE架构进行训练。原始的SAE架构很难平衡检测哪些特征存在，和估计其强度这两个目标。JumpReLU架构可以更轻松地实现这种平衡，从而显著减少错误。 Gemma Scope共开放了超过400个免费SAE，涵盖Gemma 2 2B和9B的所有层，并提供交互式演示，研究人员不需要编写代码即可研究SAE特性并分析模型行为。 ▲Gemma Scope交互式演示演示地址： https://www.neuronpedia.org/gemma-scope 技术报告地址： https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf 04. 结语：生成式AI的风刮向小模型和AI安全生成式AI发展至今，模型从“卷”参数“卷”规模，到现在“卷”轻便“卷”安全，体现了在技术落地的过程中，离用户更近、成本更低、更能满足特定需求的重要性。 AI PC、AI手机逐渐进入消费者的生活，在这个过程中，如何将大模型“塞进”小巧的终端设备，并且保障用户的隐私安全，是各大AI厂商亟待解决的问题。

最强开源文生图模型一夜易主！SD原班人马打造，要发SOTA视频生成模型

干翻SD3和MJ6！AI绘画黑马横空出世。作者 | 香草编辑 | 李水青最强开源文生图模型一夜易主！智东西8月2日报道，昨日晚间，开源文生图模型霸主Stable Diffusion原班人马，宣布推出全新的图像生成模型FLUX.1。 FLUX.1包含专业版、开发者版、快速版三种模型，其中前两款模型击败SD3-Ultra等主流模型，较小规模的FLUX.1[schnell]也超越了Midjourney v6.0、DALL·E 3等更大的模型。 ▲FLUX.1 ELO分数与主流模型对比 FLUX.1在文字生成、复杂指令遵循和人手生成上具备优势。以下是其最强的专业版模型FLUX.1[pro]生成图像示例，可以看到即使是生成大段的文字、多个人物，也没有出现字符、人手等细节上的错误。 ▲FLUX.1[pro]生成图像示例 FLUX.1现已在开源平台Replicate上可用，以下是我用提示词“世界上最小的黑森林蛋糕，手指大小，被黑森林的树木包围”，在三款模型上生成的图像，用时分别为17.5s、12.2s、1.5s。 ▲三款模型生成对比 FLUX.1同时开放了API（应用程序接口），按图像张数定价，三款模型的价格依次为每张图片0.055美元、0.03美元、0.003美元（约合人民币0.4元、0.22元、0.022元）。 FLUX.1背后的公司名为Black Forest Labs（黑森林实验室），由Stable Diffusion原班人马、多位Stability AI前研究员成立。与Stability AI类似，黑森林致力于研发优质多模态模型并开源，目前已完成3100万美元（约合人民币2.25亿元）的种子轮融资。黑森林还预告不久之后将发布SOTA（当前技术指标第一）视频模型。从其放出的Demo来看，无论是流畅度、稳定性还是物理模拟都达到第一梯队水平，该公司或许会成为视频生成领域的一匹黑马。 ▲视频生成模型预告三款模型试用地址： https://replicate.com/black-forest-labs/flux-pro https://replicate.com/black-forest-labs/flux-dev https://replicate.com/black-forest-labs/flux-schnell 01. 擅长生成文字、人手三种模型规模秒级生成 FLUX.1在视觉质量、图像细节和输出多样性等方面性能优越，其具有三大特点：文字生成、复杂构图、人手描绘。文字的生成在图像、视频生成中非常重要，许多模型容易混淆看起来相似的字母。FLUX.1可以处理重复字母的棘手单词，例如生成一个黑森林Flux Schnell蛋糕： ▲黑森林Flux Schnell蛋糕在构图方面，FLUX.1擅长按照图像中事物应该位于哪里等复杂指示进行操作。例如，FLUX.1完美地演绎了这段提示词：三个魔法巫师站在一张黄色桌子上，每个巫师都拿着一个标志。左边，一个穿着黑色长袍的巫师拿着一个写着“AI”的标志；中间，一个穿着红色长袍的女巫拿着一个写着“is”的标志；在右边，一个穿着蓝色长袍的巫师拿着一个写着“cool”的标志。 ▲复杂构图人手一直是多模态生成模型的重灾区。FLUX.1生成的人手图像虽然还不够完美，但实现了很大的进步。 ▲人手 FLUX.1共有专业版、开发者版、快速版三种版本。其中，FLUX.1[pro]是最先进的一个版本，具有顶级的即时跟踪、视觉质量、图像细节和输出多样性，面向专业用户提供定制的企业解决方案。 ▲FLUX.1[pro]生成图像示例 FLUX.1[dev]面向非商业应用，它从FLUX.1[pro]提炼而来，具有相似的质量和能力，同时比相同尺寸的标准模型更高效。 ▲FLUX.1[dev]生成图像示例 FLUX.1[schnell]是三款模型中最快的，专为本地开发和个人使用而定制，并根据Apache 2.0标准许可公开提供。 ▲FLUX.1[schnell]生成图像示例 FLUX.1现已在开源平台Replicate上可用，只需一行代码即可在云端运行，用户也可以下载模型权重并以编程方式运行。FLUX.1的API也同步开放，三款模型的价格依次为每张图片0.055美元、0.03美元、0.003美元（约合人民币0.4元、0.22元、0.022元）。 02. 击败MJ V6、DALL·E 3 技术报告即将发布性能方面，FLUX.1经过特别微调，在预训练中保留了整个输出多样性，在指令遵守、视觉质量、尺寸/长宽变化等多个方面树立了新标准。其中FLUX.1[pro]和[dev]两款模型，在5项测评标准中都超过了Midjourney v6.0、DALL·E 3和SD3-Ultra等热门模型。 FLUX.1[schnell]作为轻量级模型，不仅优于同类竞争对手，还优于Midjourney v6.0、DALL·E 3等强大的非蒸馏模型。 ▲FLUX.1性能与主流模型对比此外，所有FLUX.1模型均支持0.1和2.0百万像素的多种宽高比和分辨率。 ▲宽高比/分辨率变化如此强大的性能是怎么做到的？在模型架构上，FLUX.1采用基于多模态和并行扩散Transformer模块的混合架构，并将其扩展到12B参数。团队通过建立流匹配（Flow Matching）来改进最先进的扩散模型，并通过结合旋转位置嵌入（Rotary Position Embedding）和并行注意力层，来提高模型性能和硬件效率。更详细的技术报告将在不久后发布。 03. SD原班人马，2.25亿种子轮要发SOTA视频模型黑森林实验室由Stable Diffusion的创始团队成立，该团队此前的工作还包括高质量图像生成模型VQGAN、视频生成模型Stable Video Diffusion等。 Stable Diffusion最初的5位作者中，4位曾加入Stability AI并持续开发SD后续版本的成员，包括Robin Rombach、Andreas Blattmann、Dominik Lorenz以及Patrick Esser，都在黑森林实验室的创始团队中。 ▲Stable Diffusion作者、黑森林实验室创始团队该团队称，其核心信念是开发广泛可访问的模型，促进研究界和学术界的创新和协作，并提高模型透明度。黑森林实验室宣布已完成3100万美元（约合人民币2.25亿元）的种子轮融资，由知名风投机构a16z（Andreessen Horowitz）领投，VR制造商Oculus的CEO Brendan Iribe、创企孵化器YC的CEO陈嘉兴（Garry Tan）、英伟达研究员Timo Aila等专家及AI公司跟投，还收到了来自General Catalyst等一线基金的后续投资。该团队的顾问委员会，包括在内容创作行业拥有丰富经验的前迪士尼总裁Michael Ovitz，以及神经风格转换的先驱Matthias Bethge教授。刚刚创业的AI大神安德烈·卡帕西（Andrej Karpathy）为黑森林团队送上祝福，并称“开源的FLUX.1图像生成模型看起来非常强大”。 ▲卡帕西评论创始团队的前领导——Stability AI前CEO埃马德·莫斯塔克（Emad Mostaque）也发来贺电，还说“之前能与他们合作是我的荣幸，我相信他们会继续在生成每一个像素的旅程中突破界限”。 ▲莫斯塔克评论在下一步的工作上，黑森林预告将发布一款SOTA文生视频模型，“让所有人都能将文本转为视频”。该模型将建立在FLUX.1的基础上，“以高清和前所未有的速度实现精确创作和编辑”。 ▲视频生成模型预告 04. 结语：多模态大模型领域黑马涌现在众多大厂、创企狂卷文生视频之际，文生图领域突然迎来黑马。“横空出世”的FLUX.1的不仅展现出卓越的性能，在文字生成、复杂构图、人手描绘等方面突破难关，还以多样化的版本满足不同用户的需求。黑森林实验室凭借着Stable Diffusion原班人马的强大实力，获得了丰厚的种子轮融资，也吸引了众多行业大咖的关注与支持。其后续将发布的视频模型，又将为文生视频领域注入新的活力。

智谱AI发布视频生成大模型，B站参与研发，亦庄提供算力

视频大模型进入百模大战。今年是“视频生成”大模型爆发元年。在过去两个月，我们看到了快手可灵、商汤Vimi、Luma AI、爱诗科技Pixverse、Runway Gen-3等等视频大模型的你追我赶。但上半年的视频生成大模型公司，往往只聚焦在视频生成这一个功能。而下半年，大语言模型公司将逐渐跟随OpenAI的脚步，纷纷入场视频大模型，把语言模型与视频模型做大一统。在备受瞩目的“大模型六小强”中，动作最快的是智谱AI。今天上午，这家清华系大模型独角兽上线视频生成大模型产品“清影”，直接面向所有用户开放，支持文生视频与图生视频。在智谱清言PC或App里输入一段文字或图片后（即Prompt），用户可以选择自己想要生成的风格，包括卡通3D、黑白、油画、电影感等，配上清影自带的音乐，就生成了充满AI想象力的视频片段；此外，“AI动态照片小程序”支持图生视频。对于现在视频大模型领域的格局，张鹏认为大概也会像大语言模型一般，进入百家争鸣的格局。在商业化策略上，清影目前的付费方案是：首发测试期间，所有用户均可免费使用；付费5元，解锁一天（24小时）的高速通道权益，付费199元，解锁一年的付费高速通道权益。智谱AI CEO张鹏表示：“现在的商业化仍处于非常早期的阶段，而且成本实际上也非常高，后面会根据市场的反馈做逐步迭代。” 清影API也同步上线智谱大模型开放平台，企业和开发者通过调用API的方式，体验和使用文生视频以及图生视频的模型能力。清影的研发得到北京市的大力支持。海淀区是智谱AI总部所在地，为智谱AI开展大模型研发提供了产业投资、算力补贴、应用场景示范、人才等全方位支持；清影的训练依托亦庄高性能算力集群，在北京亦庄算力集群诞生，未来也将应用于北京亦庄广阔的高精尖产业集群，形成大模型赋能实体经济的新业态。在生态合作上，bilibili作为合作伙伴也参与了清影的技术研发过程，并致力于探索未来可能的应用场景。同时，合作伙伴华策影视也参与了模型共建。 1.30秒将任意文字生成视频清影的具体效果如何？先看一下官方发布的几支视频案例（都配上了音乐）。文生视频：提示词：低角度向上推进，缓缓抬头，冰山上突然出现一条恶龙，然后恶龙发现你，冲向你。好莱坞电影风提示词：在霓虹灯闪烁的赛博朋克风格城市夜景中，手持跟拍的镜头缓缓推近，一个机械风格的小猴子正在用高科技工具维修，周围是闪烁的电子设备和未来主义的装修材料。赛博朋克风格，气氛神秘，4K高清。提示词：广告拍摄视角，黄色背景，白色桌子上，画面中一个土豆被扔下来变成一份薯条图生视频提示词：古典美女提示词：一条龙的口中喷射出火焰，烧毁了一个小村庄提示词：水豚慵懒地用吸管喝可乐，扭头朝向相机清影的视频生成时长为6s左右，输入提示词之后需要等待时间是30s左右。张鹏表示，这个生成速度在业内已经算非常快了。张鹏认为，多模态模型的探索还处于非常初级的阶段。从生成视频的效果看，对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等，都有非常大的提升空间。从模型本身角度看，需要更具突破式创新的新模型架构，它应该更高效压缩视频信息，更充分融合文本和视频内容，贴合用户指令的同时，让生成内容真实感更高。 2.自研DiT架构清影底座的视频生成模型是CogVideoX，它将文本、时间、空间三个维度融合起来，参考了Sora的算法设计。CogVideoX也是一个DiT架构，通过优化，CogVideoX 相比前代（CogVideo）推理速度提升了6倍。智谱主要分享了CogVideoX 的三个技术特点：内容连贯性、可控性、模型结构。首先，为了解决内容连贯性的问题，智谱自研了一个高效的三维变分自编码器结构（3D VAE），将原视频空间压缩至2%大小，以此减少视频扩散生成模型的训练成本及训练难度。模型结构方面，智谱采用因果三维卷积（Causal 3D convolution）为主要模型组件，移除了自编码器中常用的注意力模块，使得模型具备不同分辨率迁移使用的能力。同时，在时间维度上因果卷积的形式也使得模型具备视频编解码具备从前向后的序列独立性，便于通过微调的方式向更高帧率与更长时间泛化。从工程部署的角度，智谱基于时间维度上的序列并行（Temporal Sequential Parallel）对变分自编码器进行微调及部署，使其具备支持在更小的显存占用下支持极高帧数视频的编解码的能力。第二点是可控性。现在的视频数据大多缺乏对应的描述性文本或者描述质量低下，为此智谱自研了一个端到端的视频理解模型，用于为海量的视频数据生成详细的、贴合内容的描述，这样可以增强模型的文本理解和指令遵循能力，使得生成的视频更符合用户的输入，能够理解超长复杂prompt指令。这也是Sora用到的方式。OpenAI用DALL·E 3 的“重新字幕技术”（re-captioning technique）训练了一个高度描述性的字幕生成器模型，然后使用它为训练数据集中的视频生成文本字幕。此外，OpenAI 还利用GPT将简短的用户提示转换为较长的详细字幕，然后发送到视频模型。最后是智谱自研的一个将文本、时间、空间三个维度全部融合起来的transformer架构，它摒弃了传统的cross attention模块，而是在输入阶段就将文本embedding和视频embedding concat起来，以便更充分地进行两种模态的交互。然而两种模态的特征空间有很大差异，智谱通过expert adaptive layernorm对文本和视频两个模态分别进行处理来弥补这一差异，这样可以更有效地利用扩散模型中的时间步信息，使得模型能够高效利用参数来更好地将视觉信息与语义信息对齐。其中注意力模块采用了3D全注意力机制，先前的研究通常使用分离的空间和时间注意力或者分块时空注意力，它们需要大量隐式传递视觉信息，大大增加了建模难度，同时它们无法与现有的高效训练框架适配。位置编码模块设计了3D RoPE，更有利于在时间维度上捕捉帧间关系，建立起视频中的长程依赖。 3.Scaling Law仍在发挥作用智谱在AIl in大模型路线之初，就开始多模态领域相关布局。从文本，到图片再到视频，大模型对世界的理解逐渐复杂、逐渐多维。大模型通过对各种模态的学习，涌现出理解、知识和处理不同任务的能力。智谱对于多模态大模型的研究可追溯到2021年。从2021年开始，智谱先后研发了CogView（NeurIPS’21）、 CogView2（NeurIPS’22）、CogVideo（ICLR’23）、Relay Diffusion（ICLR’24）、CogView3 （2024）。基于CogView，团队研发基于大模型的文本到视频生成模型CogVideo，采用了多帧率分层训练策略生成高质量的视频片段，提出一种基于递归插值的方法，逐步生成与每个子描述相对应的视频片段，并将这些视频片段逐层插值得到最终的视频片段。这个工作引起脸书、谷歌、微软的广泛关注，在后面脸书的Make-A-Video、谷歌的Phenaki和MAGVIT、微软女娲DragNUWA、英伟达Video LDMs等视频生成模型工作中都有引用。 2024年5月，GLM大模型技术团队在ICLR 2024主旨演讲环节全面阐述了GLM大模型面向AGI三大技术趋势，原生多模态大模型在其中扮演重要角色：GLM大模型团队认为，文本是构建大模型的关键基础，下一步则应该把文本、图像、视频、音频等多种模态混合在一起训练，构建真正原生的多模态模型。智谱全方位布局大模型系列产品，多模态模型始终扮演着重要角色。智谱已经验证了Scaling Law在视频生成方面的有效性，未来会在不断scale up数据规模和模型规模的同时，探究更具突破式创新的新型模型架构，更高效地压缩视频信息，更充分地融合文本和视频内容。张鹏认为，未来大模型的技术突破方向之一就是原生多模态大模型，Scaling Law将继续在算法与数据两方面发挥作用。 “我们还没有看到技术曲线放缓的迹象。”张鹏表示。

黄仁勋对谈扎克伯格：Llama 4或将摆脱聊天机器人形态

黄仁勋认为，Llama 2的发布是2023年最重要的AI事件。北京时间7月30日清晨，英伟达创始人兼CEO黄仁勋与Meta创始人兼CEO马克·扎克伯格，在美国丹佛举行的第50届SIGGRAPH图形大会上完成了一场60分钟的公开对话。上周刚刚发布最新开源模型Llama 3.1的Meta已经爬出股价黑洞，成为AI浪潮中最重要的玩家之一。正如今年刚满40岁的扎克伯格，已经成功从科技宅男形象转型为精心打理卷发，时刻戴着金链子的潮男。 Meta在今年4月发布了专门为AI训练和推理工作设计的自主研发芯片MTIA的最新版本。和许多科技大厂类似，外界认为Meta也希望借此降低对英伟达等芯片厂商的依赖。但总体来讲，Meta与英伟达保持着密切的联系。扎克伯格今年早些时候曾表示，为了构建自己的AGI，Meta会在年底前采购约35万块英伟达H100GPU。 3月底，扎克伯格还在Instagram上发布了与黄仁勋互换外套的照片。照片中，扎克伯格身穿黄仁勋标志性的黑色皮夹克，而黄仁勋穿上了扎克伯格此前穿过的棕色外套。这张照片也在对谈现场得以重新展示。本届SIGGRAPH于7月28日至8月1日举行，近100家参展商将在大会上展示图形技术如何引领未来。自 1974 年在科罗拉多州博尔德市首次举办以来，SIGGRAPH一直走在创新的最前沿，曾经向全世界展示了“Aspen Movie Map”，这是谷歌街景地图的前身。SIGGRAPH还是皮克斯首部CG动画《小台灯》的首映地之一。在这场难得的面对面对话上，黄仁勋和扎克伯格共同探讨了Meta的开源哲学，同时扎克伯格正式发布了AI Studio，将允许用户构建具有自定义个性的虚拟角色和聊天机器人。而Meta最终的愿景是让每个人都能为自己创建个性化的AI Agent。尽管两人的年龄差超过20岁，但作为科技行业少数仍留在公司一线的资深创始人，黄仁勋与扎克伯格的惺惺相惜贯穿始终。扎克伯格也不忘向黄仁勋吐槽说：“你的头发变白了，我的头发只是变长了。” 而黄仁勋表示：“你的头发明明变卷了。”但扎克伯格澄清说：“我头发一直是卷的，只是之前非常短！” 相比于大学本科期间就打造出Facebook并退学创业的扎克伯格，黄仁勋是在30岁才成为英伟达的联合创始人。于是他提到：“我要是知道得花这么长时间才能成功的话……” “你打从一开始就不会做这些了？”扎克伯格问道。 “不，我会像你一样从大学辍学然后早点开始。” 黄仁勋表示。 1.信息流推荐的未来在对谈中，黄仁勋肯定了Meta打造的AI框架Pytorch的行业地位，以及Meta过去几年里在计算机视觉、语言模型、实时翻译等方面的成果。他提出的第一个问题是扎克伯格会如何看待Meta在生成式AI方面的进展。扎克伯格首先回溯了2018年，Meta展示的早期VR功能，以及如何通过打造逼真的形象来推动消费级头戴设备的发展。同时Meta做了很多研究来保证头戴设备足够薄，再加上先进的光学堆栈和显示系统，这些才是Meta通常在SIGGRAPH图形大会上会展示的元宇宙进展。不过现在的Meta已经离不开人工智能的话题。扎克伯格提到，Meta旗下分别拥有超过十亿用户的Instagram和Facebook拥有大量信息流，因此内容排序及其背后的推荐系统很重要。但和早期Facebook上只刷亲朋好友的动态不同，有了生成式人工智能以后，如今Instagram会根据用户的兴趣推荐数百万其他用户的内容，构成其信息流的绝大部分，无论他们是否关注过这些用户。扎克伯格认为这才是推荐系统的未来，要么是即时创建的内容，要么是通过现有的不同内容汇集综合而成的内容。这和当前的生成式人工智能热潮略有不同。当然它还是基于Transformer和类似的架构，但会越来越通用。具体来说，过去Meta会为每种类型的内容建立不同的模型，比如有一个模型用于对视频进行排序和推荐，另一个模型用于对更长的视频进行排序和推荐。但更通用的推荐基础模型可以涵盖所有内容，当获取内容的池子越广，就越容易规避不同池子获取内容的低效问题。 “我梦想着有一天，你可以把Facebook或Instagram都当成像单一的AI模型，所有不同的内容类型和系统集合在一起，这些内容在不同的时间范围内有不同的目标，有些只是向你展示你今天想要看到的有趣的内容，但有些是在帮你建立长期的人际网络。” 扎克伯格表示。从另一个层面来看，扎克伯格认为新一代人工智能会让我们所有的工作流程和产品实现重大升级，每个人都会拥有自己的通用人工智能助手来完成不同的任务。“当我们从Llama 3系列模型转向Llama 4及更高版本时，我认为它不会再像聊天机器人那样，你给它一个提示，它再回应。它会很快进化成：只要你给它一个意图，它就可以在不同的时间范围内完成任务，比如有些计算工作可能需要几周或几个月的时间，然后结果才会返回到你这里，就像世界上其他地方发生了什么事一样。” 黄仁勋也给出类似的人类逻辑，指出人工智能的发展方向：今天的人工智能是回合制的。你说一些话，它会回复你一些话。但当我们思考时，当我们被赋予一个任务或问题时，我们会考虑多种选择，在脑海中模拟一个决策树，设想每个决定的不同结果。” 2.个人创建Agent 扎克伯格还提到其他公司在构建中央Agent，但Meta的愿景是让所有用户都能为自己创建Agent。“无论是平台上的数百万创作者，还是数亿中小企业，我们最终都希望能够收集你们的所有内容，迅速为你们建立一个业务Agent与你们的客户互动。” 于是扎克伯格在现场宣布，Meta将为人们提供一个名为AI Studio的工具，用于构建具有自定义个性、特征和兴趣的虚拟角色。创作者还可以用这样一种数字替身与私信中的粉丝互动。来源：Meta Meta在新闻稿表示，AI Studio将从今天开始向Instagram Business帐户用户推出，并将在未来几周内向美国的所有Meta用户开放。 “每天的时间都不够用。” 扎克伯格表示。创作者时间有限，所以需要训练Agent代表自己。很明显这就不再是和创作者本人互动，但扎克伯格相信这会是另一种有趣的方式，用户会为各种不同的用途创建自己的Agent。扎克伯格注意到，Meta AI的主要应用在于人们会在遇到困难的社交场合使用它。比如“我想问我的经理我该如何获得晋升或加薪？或者我和朋友吵架了，或者我和女朋友遇到了什么困难，这场谈话该如何进行等等”。但问题在于，很多人不想只与同一个Agent互动，无论是Meta AI，ChatGPT还是其他应用。用户想创造自己的东西，这就是AI Studio的目标。 “就像每个企业都有电子邮件地址、网站和社交媒体账户一样，未来每个企业都会有一个与客户互动的Agent。而消费者如果买到的东西有问题，也只是想找到一个地方解决问题，通过Agent以不同的方式与企业互动。我认为这也适用于创作者。” 扎克伯格表示。 3.开源哲学来自微软在对谈中，黄仁勋不忘吹捧Meta称：“我认为Llama 2可能是去年人工智能领域最重要的事件。” 而扎克伯格回应称：我还以为（最重要的事件）是H100。” 黄仁勋认为，Llama 2激活了所有行业。突然之间，每个大中小公司都在开发人工智能。所以他向扎克伯格询问，Meta的开源哲学来自何处。扎克伯格首先承认，Meta构建分布式计算基础设施和数据中心的时间比其他科技公司晚：“当我们建造这些东西的时候，它已经没有竞争优势了。好吧，那我们不如把它开放，这样我们将受益于周边生态系统。” 而Meta参与的最大项目就是Open Compute Project：“通过让它成为某种行业标准，所有的供应链基本上都围绕它组织起来了，这样做的好处是为每个人省钱，基本上可以节省数十亿美元。” 在Facebook创立二十周年之际，扎克伯格认为，过去 20 年里最困难的事情之一就是必须通过竞争对手的移动平台来发布应用，并且他以隐晦地方式批评了苹果的封闭系统。“每个人认为这应该是封闭的生态系统，因为苹果基本上是唯一一家（主导）。当然市场上有更多安卓手机，但苹果基本拥有整个市场和所有利润，安卓在开发方面基本上是跟随苹果的。所以我认为苹果显然赢得了这一代的竞争。” 然而回到上一个时代，微软虽然不是完全开放的公司，但Windows系统可以在不同的软硬件上运行，是更加开放并且领先的生态系统。也就是说从PC时代开始，开放的生态系统就一直存在。“对于整个行业正在构建的计算平台来说，如果软件是开放的，它的价值会很大，这塑造了我的哲学。我很乐观地认为，下一个时代，开放的生态系统会获胜。”扎克伯格表示。同时他承认，Meta这样做并不是因为他们是利他主义者，而在于这的确会让Meta打造的成果受益于强大的生态系统。黄仁勋也附和称，仅英伟达内就有数百人致力于让Meta的PyTorch变得更好。但他也提出温和的异议：“我可能不想自己制作这件夹克，我更喜欢让别人为我做这件夹克。皮革可以开源这件事对我来说不是有用的概念。当然你仍然可以拥有令人难以置信的开放的服务。” 针对模型的多样化，扎克伯格进一步提出，帮助人们从大模型中提取自己的模型将会成为非常有价值的新事物。“不会存在一个模型或者一个Agent供所有人使用。人们会在多大程度上仅仅使用更大、更复杂的模型，还是训练自己的模型自己使用？我敢打赌，它们将会是不同模型的大量扩散版本。” 黄仁勋也赞同称，如果雇佣AI做芯片设计，每小时大概需要 10 美元。如果与一群工程师共享这个人工智能，每个工程师可能都有专属的人工智能陪伴他们，这个人工智能的成本并不高，而付给工程师的钱却很多。所以对英伟达来说，每小时花几美元就能放大一个人的能力将会非常具有经济潜力。 4.人工智能进入虚拟世界这场对谈中的另一项重磅发布是Meta的SAM2，也就是新一代Meta Segment Anything Model，它能够在不需要任何标注的情况下，对任何图像中的任何物体进行分割。扎克伯格在现场也展示了SAM2的功能，并且“凡尔赛”地表示：“它可以识别并跟踪奶牛，制作很多有趣的效果。顺便提一句，这些都是我家夏威夷牧场的牛。” 显然，它也是开源的。扎克伯格表示，科学家可以利用SAM2研究珊瑚礁和自然栖息地以及景观的演变等，并且在视频中做到这一点，人们可以与它进行交互，告诉它你想要跟踪什么。在工业应用中，黄仁勋表示：“例如你有一个仓库，里面有一大堆摄像头，仓库人工智能正在监视一切。假设有一堆箱子掉下来了，或者有人把水洒在地上，人工智能都会识别并生成文本，派人过来帮忙。这是使用它的一种方式。如果发生事故，它不会记录所有内容，而是开始记录每纳秒的视频，回溯并检索那一刻。它只记录重要的东西，因为它知道自己在看什么。” 对谈中的最后一个主要话题是颇受市场欢迎的智能眼镜，由Meta和雷朋眼镜合作开发。扎克伯格表示：“如果你五年前问我，我们会在人工智能之前获得全息AR吗？我会说应该是吧。但真正的突破发生在大语言模型上。在全息AR出现之前，我们现在已经拥有非常高质量的人工智能，而且进步速度非常快。这是一种我没想到的逆转。” 至于未来的眼镜市场，扎克伯格认为最终会产生一系列不同价位，采用不同技术水平的智能眼镜产品，其中300美元价位的智能眼镜将成为最受欢迎的一款，有望迎来数亿消费者。不过眼镜作为一种可穿戴的时尚单品也有自己的烦恼：“它不像手表或手机，人们不想看起来都一样。” 已经成为硅谷潮男的扎克伯格指出。最后，黄仁勋表示，看着扎克伯格把Meta的业务从桌面电脑转向移动设备，再涉足虚拟现实和人工智能等等，他知道这些转型有多难。“这些年来，我们俩都遭受了很多挫折，但这就是成为先驱和创新者所需要的。祝贺你们取得的成果。而且你现在可是时尚偶像了。” 对此，扎克伯格谦虚地表示：“还在早期阶段”。随后他转身掏出一个盒子，里面是为黄仁勋新买的一件毛领黑夹克。而黄仁勋也把自己为SIGGRAPH新准备的皮夹克交换给了扎克伯格穿，再一次完成两人亲密无间的互换外套活动。（封面图及未说明来源：英伟达）

大模型时代，顶尖数据分析团队是怎样炼成的？

在数字科技的浪潮中，数据不仅仅是数字的集合，它是洞察市场趋势的窗口，是优化决策的工具，更是驱动创新的动力。一个高效的数据分析团队能够挖掘数据的深层价值，为金融科技企业带来不可估量的竞争优势。通过构建数据驱动的文化，企业可以实现数据资产的最大化利用，促进跨部门协作，推动企业向智能化、自动化和高效化的方向发展。然而，随着数据量的爆炸性增长和业务需求的日益复杂，数据分析团队面临着前所未有的挑战。如何从海量数据中提炼出有价值的信息？如何构建一个既能快速响应市场变化，又能深入理解业务需求的团队？如何培养团队成员，让他们在数据科学的道路上不断进步，为企业带来持续的创新和增长？ 8 月 1 日 19:30，首期“数字人才新视点”栏目，将邀请金融业数据分析专家做客直播间，共同探索数据分析团队建设、人才培养、工作场景、发展规划等系列话题，带大家深入了解如何打造顶尖数据分析团队，培养明日数据领袖。对话嘉宾数据挖掘与人工智能硕士，前阿里巴巴数据专家，拥有 15 年数据分析和数据运营经验。同时兼任 CDA（数据分析师认证）特聘行业专家，微软认证 PowerBI 数据分析专家。著有《运营之路：数据分析 + 数据运营 + 用户增长》一书，通过三部分内容，详细介绍了数据分析的方法、数据运营的玩法、用户增长的打法。现任招商证券数字化办公室数据分析专家。拥有 13 年数据分析和运营经验，曾在咨询行业、地产、金融行业任职，对互联网、医药、金属冶炼、零售、快消品、供应链、地产、金融等多个行业有丰富的数据分析与运营经验。极客时间企业版解决方案专家聚焦企业培训 / 咨询解决方案；致力于数字化人才培养的研究及企业服务的提供；具备传统咨询公司咨询 / 培训模式经验 + 互联网公司产品、运营视角及经验 + 数字化人才培养发展视角及经验。部分服务客户：中国银联、华泰证券、国泰君安证券、光大银行、北京银行、中信银行、民生银行、平安科技、兴业数金、华为、腾讯、京东、麦当劳、东风集团、吉利汽车。极客邦科技 CGO、InfoQ 极客传媒 & 极客时间企业版总经理统筹包括数字化技术交流峰会、技术媒体、整合营销、企业数字人才体系解决方案等团队，为极客邦科技在行业的影响力及长期的健康发展负责。拥有 IT 技术媒体数十年从业经验，个人愿景定位在科技领域，致力于为金融、汽车、运营商、科技企业建设数字化人才培养体系，服务客户包括招商银行、国泰君安、民生银行、北京银行、华为、昆仑数智、中国联通、华润集团、东风汽车、中国电信等。精彩话题推荐团队管理新策略：交流数据团队搭建思路，探讨塑造组织数据文化的方式人才培养全景图：从技能筛选到成长路径，全方位构建数据分析师的能力框架工作场景实战术：分享数据驱动决策的实战案例，交流如何真正释放数据价值行业视野新拓展：AI 时代下，数据分析团队变革与人才发展新机遇在活动中，还将带来多个数据分析人才培养项目的优秀实践和方案，如果您也在数据分析团队能力建设上面临以下难题，欢迎来直播间寻找答案。今日荐文缺卡、缺电、缺组网技术！谁能为马斯克构建出全球最强大的 10 万卡超级集群？颠覆传统架构！华人科学家 20 年心血：AI 能效提高 1000 倍，未来需求井喷！训练一次经历 419 次意外故障！英伟达 GPU 也差点玩不转 405B 模型，全靠 Meta 工程师后天救场！中国人每周工作时间越来越长；员工不及时回复消息被罚50元；中科大保卫处招聘硕士税后月薪5800-7600元 | AI周报第一个制定了AI 议程的奥运会开幕了！谷歌、阿里等厂商的大模型也来“干活”了

深度解码：AI 大模型的繁荣与困境

当前，人们正身处于一个日新月异的数字化时代，其中，人工智能技术的发展速度和规模令人惊叹，已然成为驱动技术进步的一股不可忽视的力量。在众多的人工智能技术中，大模型尤其引人注目，它已成为实现超凡性能的关键因素之一。不论是在自然语言处理、计算机视觉、机器翻译还是智能对话等领域，大模型都表现出了无比出色的性能，而这些都是人工智能无限潜力的生动展现。 AI 大模型指的是那些拥有大量参数的人工智能模型。这些模型通常通过大量的数据进行训练，可以学习和理解复杂的模式和关系。近两年来，大模型技术呈现爆发式的增长，而且在各个研究领域和实践任务上都取得了引人注目的成果。诸多科技巨头公司也纷纷投身于大模型的研发与应用中。在最早应用大模型的自然语言处理（NLP）领域，OpenAI 推出了拥有 1750 亿个参数的 ChatGPT，这一行动激发了一系列的应用热潮：微软（Microsoft）将 ChatGPT 接入了其搜索引擎 Bing；谷歌（Google）推出了自家的语言大模型 PaLM 和对话模型 Bard，并且已经开始了 PaLM2 的研发；我国百度、字节跳动、华为等公司也都在积极推出了自己的语言大模型。这些语言大模型展示了出色的问答、知识挖掘、推理、规划能力，充分展现了人工智能的无穷可能。OpenAI 的一份报告指出，美国约 80% 的工作领域都可能会受到 ChatGPT 的影响。从这一点可以看出，NLP 大模型具有巨大的市场潜力和价值。在 NLP 大模型取得了巨大成功的鼓舞下，其他领域也涌现出了大模型的身影。在语音识别领域，OpenAI 和谷歌分别推出了拥有 15 亿参数的 Whisper 模型和 20 亿参数的 USM 模型，而微软则推出了能够在几秒钟内准确模仿任何人说话声音和语调的语音生成模型 VALL-E；在视觉领域，基于大模型工作的 GPT-4 和 OpenCLIP 进行了语音和视觉的跨模态训练，使得这些模型能够用自然语言的方式去理解图片。此外，谷歌和脸书公司也各自采用了监督学习和非监督学习的方式，分别训练了 220 亿参数和 65 亿参数的 Vision Transformer 视觉大模型，这些模型在性能上大大超越了参数数量更少的模型；在强化学习领域，谷歌和 Deepmind 公司开发的 PaLM-E 和 Gato，也开始探索和实验强化学习大模型的可能性。总体来看，大模型的热潮正在各个人工智能领域席卷而来，预示着更广阔的应用前景和可能性。这股 AI 大模型的热潮并不仅仅局限于研发和科技公司，也将渗透到更为广泛的应用领域。例如，在医疗健康、金融、教育、零售及制造等领域，大模型都展示出了巨大的潜力。基于大模型的人工智能工具可以助力医生进行更精确的诊断，帮助金融机构做出更精准的投资决策，协助教师进行个性化教学，以及帮助零售商家进行更有效的客户分析等。因此，大模型不仅仅改变了人工智能的研究和开发，也正在深度影响人们的日常生活。与此同时，AI 大模型所引发的热潮也带来了一些值得深思的问题。模型的规模和复杂度的增加，使得模型训练和运行需要的计算资源和能源消耗也大大增加，这无疑加大了环境压力。此外，随着大模型在各个领域的应用，如何保证其决策的公平性、透明性，以及用户隐私的保护都成了一些亟待解决的问题。解决这些问题需要在推动 AI 大模型的发展和应用的同时，思考并采取有效的措施来优化其痛点问题。不可否认，AI 大模型的热潮在各领域带来了深远影响，它们的表现力和潜力令人瞩目。然而，随着技术的进步，人们也应继续努力，以确保这些大模型的发展和应用在带来巨大收益的同时，尽可能地减少其潜在的负面影响。人工智能的未来仍然广阔无垠，而人类正站在这个探索和发展的大潮之中。 AI 大模型的发展与挑战与传统模型相比，AI 大模型具有更强的学习和理解能力。由于大模型的参数数量多，它们可以学习和理解更复杂、更细微的模式，从而使任务（如文本理解、图像识别等）达到更好的效果。同时，它们可以处理更复杂的任务，如机器翻译、自然语言理解、医学影像识别等。在诸如医疗、能源、环保等领域，问题往往十分复杂，而大模型的强大学习能力可以帮助人们更快地找到解决方案。尽管 AI 大模型带来了巨大的机会和价值，但其也伴随着一些风险和挑战，这些挑战主要集中在以下几个方面。数据和隐私问题：训练大型 AI 模型需要大量的数据，这可能导致数据隐私和数据安全问题。需要在收集、存储和处理数据的过程中确保用户的隐私权和数据安全。计算资源需求：大型 AI 模型需要大量的计算资源进行训练和运行，这不仅加大了资源消耗，同时也可能导致这种先进技术只能在资源富裕的组织或者国家得到应用推广，进一步加剧了技术鸿沟。模型的可解释性：大型 AI 模型由于其复杂性和“黑箱”特性，模型的决策过程和原理往往难以理解和解释。这可能会导致其在某些需要高度透明和解释性的领域（如医疗、法律）中应用受限。偏见和公平性：如果训练数据中存在偏见，大型 AI 模型可能会放大这种偏见，导致模型的预测结果存在不公平性。需要在模型设计和训练阶段就注意避免偏见的引入，保证 AI 的公平性。泛化能力：虽然大型 AI 模型在训练数据上的表现通常很好，但在面对新的、未见过的数据时，其表现可能会下降。这种情况在 AI 领域被称为过拟合问题，是大型 AI 模型需要解决的关键问题之一。面对这些挑战，有关部门需要采取相应的策略和措施来解决。例如，通过制定严格的数据管理政策来保护数据隐私，采用高效的模型和算法来减少计算资源需求，利用模型可解释性技术来提高模型的透明度，同时在模型设计和训练阶段就注重避免偏见的引入，提高模型的泛化能力等。为了减少 AI 大模型对环境的影响，可以采取多种措施。一方面，努力优化模型的计算效率，减少能源消耗，如采用模型剪枝、量化和压缩等技术来减小模型的规模；另一方面，推动使用可再生能源和高效能源供应链来支持大规模的模型训练和推理。此外，建立绿色 AI 的研究方向和标准，促进环境友好型的人工智能发展也是至关重要的。确保 AI 大模型的决策公平性、透明性和用户隐私保护是至关重要的。为了避免潜在的偏见和不公平性，应该进行数据集的多样性和平衡性验证，避免对特定群体的歧视。同时，开发可解释和可追溯的模型方法，使得模型的决策过程能够被理解和解释，增强其透明性。此外，还要加强数据隐私保护的技术和法律措施，确保用户的个人数据不被滥用和泄露。加强人工智能伦理和法规的建设也是必要的。制定适应人工智能发展的法律法规，明确人工智能系统的责任和义务，确保其符合伦理和社会价值。同时，建立跨学科的合作和多方参与的机制，让政府、学术界、产业界和公众能够共同参与 AI 大模型的发展和应用，促进更全面的讨论和决策。在 AI 大模型的兴起中，人们应该既关注技术的进步和创新，又注重社会的可持续发展和人的福祉。通过共同努力，人们可以探索并塑造一个 AI 大模型广泛应用的未来，为人类创造更多的机遇和福利。除了环境影响、公平性和隐私保护外，AI 大模型的兴起还带来了其他值得思考的问题和挑战。构建和训练大规模的 AI 模型需要庞大的计算资源和数据集，使得只有少数研究机构和科技巨头能够承担这样的成本和工作量。这导致了资源集中，甚至可能会加剧技术差距和创新壁垒，使得其他机构和个人很难进入和发展。因此，需要寻求降低技术门槛和促进资源共享的方法，以确保 AI 大模型的发展具有更广泛的参与性和可持续性。另外，虽然 AI 大模型在许多领域展示出巨大的潜力，但其广泛应用也可能对就业市场和经济结构产生影响。某些传统的工作岗位可能会受到自动化的冲击，需要重新思考教育和职业发展的策略，以应对这一变革。此外，AI 大模型的广泛应用还可能导致数据和算法的垄断现象，进一步加剧数字鸿沟和不平等问题。因此，需要制定相应的政策和措施，以确保技术进步的同时，也能够促进包容性增长和公平分配。伦理和价值观的问题也值得重视。随着 AI 大模型在决策和影响力方面的扩大，需要审慎思考和讨论其背后的伦理和道德问题。例如，模型的决策是否应该受到人类的监督和干预？模型是否应该具有道德判断和责任感？如何平衡技术的效益和风险，以及人类的自主性和权益？这些问题需要集合多方的智慧和参与，进行广泛的讨论和共识建设。 AI 大模型的兴起给人工智能领域带来了巨大的创新和发展机遇。然而，也必须认识到其中的挑战和潜在风险，并采取相应的措施来解决这些问题。通过科技界、政府、企业和社会各界的合作，可以共同推动 AI 大模型的可持续发展，实现人工智能在实践中的最大利益和最大效益。 AI 大模型为何难以训练在大模型还未兴起的时期，深度学习相关任务常见的模型训练方式是单机单卡，也就是使用一台服务器节点上的一块 GPU 设备完成模型训练任务。然而，随着大模型时代的到来，模型参数量和训练数据量急剧增长，规模的增加给模型训练带来了新的难题。数据量的增加使得每次训练迭代的计算量增加，训练时间更长，而模型参数量的增加不仅使得模型的训练计算量和训练时间增长，更重要的是单个设备的显存容量无法再容纳模型参数及训练中产生的梯度、优化器参数、激励值。为了解决这些问题，研究者们希望能增加计算资源，使模型和数据可以分布到不同节点、不同 GPU 设备上，并采用多种分布式训练技术来进行高效且可扩展的大模型训练。然而，大部分大模型相关从业人员能获取的计算资源有限，如何利用有限的显存容量进行高效的大模型训练成为从业人员关注的热点。堆叠硬件设备数量可以保证顺利容纳模型参数，但其计算效率并不能线性提高，由于硬件设备数量增加，训练产生的节点与节点间、GPU 设备之间的通信开销也将相应的增加，因此成为大模型训练中新的瓶颈。最后，分布式情况下的模型训练引入了额外的工程实现难题，如何利用操作系统、计算机网络和并行计算等领域的相关知识实现高效可靠且具有扩展性的分布式模型并行训练策略成为实现大模型训练的关键。总体来讲，可以将大模型训练的瓶颈分为 4 类：数据量、计算、内存和通信。 1. 数据量瓶颈大规模、多样化的训练数据集是大模型卓越的语义理解能力的关键，OpenAI GPT-1 的无监督训练使用了超过 7000 本不同题材的书籍，GPT-2 的训练集是一个 40GB 的私有数据集 WebText，GPT-3 的训练集超过了 570GB，而 Meta 开源的 LLaMA 使用的训练集更是达到了 4.7TB。面对如此庞大规模的数据量，即便是简单的遍历也将花费大量的时间，将其输入大模型并进行训练的时间开销则更大，同样一个模型在同样的计算环境下，随着其训练数据量的增长，其训练时间也将相应增加。为了加速训练，一个常用的方法是使用数据并行技术，对数据集进行切分，采用单机多卡或多机多卡的服务器集群，每个 GPU 设备上保留相同的模型参数，在训练时分别读取不同的数据进行训练，并采用集合通信同步参数更新。通常，原本单个 GPU 设备一次迭代仅能输入一批样本，同时使用多个 GPU 设备则可以同时训练多批样本，通过增加输入的数据量，减少了模型训练的迭代次数，从而减少模型训练时间。然而，单独使用数据并行通常要求每个 GPU 设备都能保存模型的全部参数，但是由于大模型的参数量较大，单个 GPU 设备往往无法容纳整个模型的参数，因此，数据并行通常还需要与其他分布式训练技术结合使用来加速大模型的训练。 2. 计算瓶颈计算瓶颈主要体现在数据量与模型参数量规模增长带来的计算量陡增，以及对计算资源的利用效率低的问题。从计算量来看，数据量的增长使得模型语义理解能力提升，性能更强，但这也导致模型训练迭代次数更多，计算量也更多；增加模型参数量是取得模型性能提升的另一个有效途径，但这使得每次训练迭代内部的计算量也增加。表 1 给出了现有的部分大语言模型的参数量以及训练所需的数据量，其中 B 代表 Billion（十亿），T 代表 Trillion（万亿）。表 1 现有大语言模型参数量和数据量 Hoffmann 等人注意到，在给定的计算资源下，为了达到预定的一个目标性能，通常需要在模型参数量和数据量之间进行折中，因此采用多种不同方法分析了二者之间的关系。表 2 给出了在不同参数量的情况下，为了达到特定性能需要的计算量和数据量，其中 FLOPs 代表浮点运算数量。表 2 不同参数量模型对计算量（FLOPs）和数据量的需求从计算资源的利用率来看，深度学习和人工智能技术的火热也推动着 GPU 设备的不断发展，GPU 设备这类高性能硬件的算力不断增强，采用更高算力的 GPU 设备进行模型训练能显著提升训练速度，从而能部分解决计算量的问题。然而，针对不同目标进行优化的分布式并行训练技术通常会导致计算或通信的额外开销，从而降低计算设备的利用率。为了最大化计算设备的利用率，提升训练速度，降低训练成本，可以从不同粒度对模型训练技术进行优化。在算子层面，可以采用算子融合的技术减少算子产生的中间变量，从而在减少内存开销的同时提升计算设备的利用率。基于算子间的结合性或可交换性，采用算子替换技术也可以提升计算效率；在计算图层面，主要是考虑模型并行技术对模型进行切分时，得到通信效率最高的模型并行策略，从而降低通信时延，提升计算设备的利用效率。使用基于流水线的模型并行策略时，通过减少流水线内部的气泡，可最大化单个 GPU 设备的计算负荷；在任务调度层面，可以考虑设计自动并行策略。根据不同规模的计算资源，自适应选取混合的分布式并行策略，并考虑用计算时间覆盖通信的时延或者降低通信量，从而最大化计算设备的利用率。 3. 内存瓶颈不同于便宜的主存，模型训练通常采用的是成本昂贵的 GPU 芯片，而 GPU 设备的内存容量有限，常见的 GPU 芯片的内存容量规格较大的也只有 80GB 或 40GB 等，远远不及常见的主存规格，因此，内存成了制约大模型训练的重要瓶颈。模型训练过程的内存开销分为静态和动态两个部分，静态内存开销包括模型自身的参数和一些优化器的状态参数，而动态内存开销则是模型在针对输入数据进行计算的时候产生的临时变量，包括前向传播产生的激励值、反向传播产生的梯度，以及一些算子计算过程中的中间变量。静态内存开销由于跟模型固有结构有关，在训练时又通常需要驻留在 GPU 设备中，难以对其进行优化，因此，模型训练的内存瓶颈主要考虑动态产生的内存开销。为了对动态的内存开销进行优化，有多种不同的分布式训练技术。例如，通过混合精度技术，可以降低部分参数表示所需要的字节数，将一个双精度 8 字节的浮点数转为 2 字节的浮点数即可将参数量缩减到原来的 1/4，然而，这一方法通常会影响模型的计算精度；通过模型并行技术中的张量并行，可以将一个参数矩阵拆分到不同 GPU 设备，从而减小单个设备上的计算数据量；通过模型并行技术中的流水线并行，将不同模型层划分到不同节点或不同设备，同样可以减小单个设备的数据量，并且可以通过流水线的原理，覆盖每次迭代模型层之前的通信开销；采用 Gradient Checkpointing 技术可以减少模型训练时激励值占用的内存开销；基于 Offload 技术可以结合 GPU、CPU、NVMe 实现异构内存的模型训练，将内存开销部分转移到便宜的主存中。然而，在计算机领域中时间和空间的优化之间普遍存在折中，以上方法虽然可以对内存瓶颈进行优化，但却引入了额外的通信或计算开销，因此需要针对具体训练任务下的模型参数量进行分析，才能得到最合适的内存优化策略。 4. 通信瓶颈大模型参数规模极大，通常需要采用模型并行等技术，将参数放置到不同节点、不同 GPU 设备上，才能使得硬件设备能完全容纳模型参数，然而，这样就不可避免地引入了额外的通信开销。一个计算节点通常有多个 GPU 设备，而一个计算集群通常有多个计算节点，由于 GPU 这类芯片具有高速并行计算的特性，大规模模型训练时节点内的通信带宽远高于节点间的通信带宽，因此计算资源的增加也导致了通信开销增加。此外，如果仅增加节点间或节点内的通信带宽，也并不能保证直接提升模型训练的效率，这是因为现有的模型训练常采用同步的集合通信，每次训练迭代过程中需要同步操作，因此通信将受最慢一次通信的限制。以集合通信常见的 Ring AllReduce 为例，随着计算节点的增加，通信的环将增加，通信次数变多，由此使得通信时延增加。总之，为了对模型训练中的通信效率进行优化，通常需要考虑多方面的因素，包括网络拓扑结构、计算资源的带宽、模型的参数量等，从而设计出通信效率最大化的模型并行具体策略。综上所述，大模型训练由于参数量和数据量规模较大，需要采用分布式技术进行训练，在训练过程中往往会受限于数据量、计算、内存和通信 4 个方面的问题，四者相互之间又存在不同程度的影响，为了减小通信开销，最大化硬件设备的利用率，缩短模型训练时间，降低模型训练成本，需要考虑多种限制因素，包括数据量、参数量、网络拓扑结构、通信带宽、硬件设备内存容量和算力等，采用多种优化技术对不同瓶颈进行优化。以上内容节选自《实战 AI 大模型》，作者：尤洋今日荐文缺卡、缺电、缺组网技术！谁能为马斯克构建出全球最强大的 10 万卡超级集群？颠覆传统架构！华人科学家 20 年心血：AI 能效提高 1000 倍，未来需求井喷！训练一次经历 419 次意外故障！英伟达 GPU 也差点玩不转 405B 模型，全靠 Meta 工程师后天救场！中国人每周工作时间越来越长；员工不及时回复消息被罚50元；中科大保卫处招聘硕士税后月薪5800-7600元 | AI周报第一个制定了AI 议程的奥运会开幕了！谷歌、阿里等厂商的大模型也来“干活”了