ACL 2024 Oral | 大模型也会被忽悠?揭秘AI的信念之旅

地球是平的吗?   当然不是。自古希腊数学家毕达哥拉斯首次提出地圆说以来,现代科学技术已经证明了地球是圆形这一事实。   但是,你有没有想过,如果 AI 被误导性信息 “忽悠” 了,会发生什么?   来自清华、上海交大、斯坦福和南洋理工的研究人员在最新的论文中深入探索 LLMs 在虚假信息干扰情况下的表现,他们发现大语言模型在误导信息反复劝说下,非常自信地做出「地球是平的」这一判断。     论文链接:https://arxiv.org/pdf/2312.09085 项目主页:https://llms-believe-the-earth-is-flat.github.io/ GitHub 源代码:https://github.com/LLMs-believe-the-earth-is-flat/llms-believe-the-earth-is-flat   生成式人工智能技术的快速发展,为生成虚假信息提供了便利。这些技术不仅能够创建逼真的文本、图像、音频和视频内容,还能够在社交网络上自动发布和传播这些内容。虚假信息的泛滥给社会带来了诸多挑战,但目前对这类信息的确切影响仍不十分清楚。然而,可以预见的是,随着技术的发展,虚假信息的生成和传播将会变得更加容易和普遍。   另一方面,大语言模型的上下文学习能力使其受到误导性信息的影响。这种误导性信息可能会在模型的部署过程中在上下文中被接受,并在模型生成的输出中反映出来,导致其产生不准确或具有偏见的内容。因此,研究者们正在努力探索如何提高大模型对虚假信息的识别能力和抵抗能力,这是提升大模型安全和鲁棒性的重要内容之一。   本篇研究就探索了这种有误信息对于大语言模型知识信念的影响,研究论文已经被 ACL 2024 接收,并选做大会报告(Oral)。 实验:大模型的 “信念” 测试   研究者们首先构建了一个名为 Farm(Fact to Misinform Dataset)的数据集,包含 1500 个事实性问题及其相关的误导性信息。他们在大语言模型的帮助下系统性地构造了更具有说服力的有误信息:首先,他们对原始正确的事实性 QA 进行语义取反或者构造错误答案,随后利用 “越狱” 后的大模型协助生成更具有说服力的长文本有误信息。   利用这些数据,便可以测试大语言模型在多轮对话中面对虚假信息时的反应。测试过程分为三个阶段:初始信念检验、多轮对话中劝说误导、结果信念检验。模型的信念检验通过模型在闭卷 QA 中答案的信心分数反应。通过这种方式,研究者们能够观察到 LLMs 在多轮对话中信念的变化。   多轮测试框架   主要结果   在劝说性交流阶段,研究者们使用了多种策略来误导 LLMs 改变其信念。这些策略包括晓之以理的劝说(LO)、树立权威的劝说(CR)和动之以情的劝说(EM)。结果显示,即使是最先进的模型,如 GPT-4,也有高达 20.7% 的可能性被虚假信息所影响。基于对 ChatGPT、GPT-4、Llama-2-7B-chat、Vicuna-v1.5-7B、Vicuna-v1.5-13B 五种大模型平均准确度(Average Accuracy Rate, ACC)和被误导率(Misinformed Rate, MR)的实验,研究者们有五点发现:   绝大多数大模型都易被虚假信息欺骗:从最先进的 GPT-4 (注:本研究的完成时间是 2023 年 9 月,当时最先进的模型是 GPT-4)到最差的模型,所有模型在经过多轮测试之后,误导率从 20%-80% 不等。 越先进的大模型抵抗虚假信息能力越强:实验表明,抵抗能力最强的是 GPT-4 模型,其能以 80% 坚持自己的事实信念。这给了我们一些宽慰:上下文理解能力越强的模型,并非更容易受到有误信息的干扰! 多次重复虚假信息比单次输出虚假信息更能骗倒大模型:通过多轮引入的虚假信息,其作用要胜过单此的引入,这很符合我们对安全性对齐的常识 —— 有害内容越多,模型越容易被其影响。 运用修辞的劝说性虚假信息更容易骗倒大模型:使用更复杂,更具有说服力的修辞可以增加模型改变看法的概率。这点就和人一样,越 “真实” 的假信息,你越容易相信 逻辑性说服比其它说服方式更有效:模型对逻辑性强的信息特别敏感,无论是真实信息还是虚假信息,只要逻辑连贯一致,就更容易影响模型的判断。这表明,模型在处理信息时,可能过分依赖于表面的逻辑结构,而忽略了对信息来源和内容真实性的深入验证。 ChatGPT 和 GPT4 在不同劝说策略下的正确率(虚线)和误导成功率(实线)   大模型面对虚假信息的五种反应   在面对虚假信息时,AI 表现出了五种不同的行为:拒绝(Rejection)、奉承(sycophancy)、不确定(Uncertainty)、接受(Acceptance)和自我不一致(Self-Inconsisitancy)。这些行为揭示了 AI 在处理错误信息时的复杂性。例如,拒绝行为表明 AI 坚持正确的答案,不受错误信息影响;而奉承行为则表明 AI 在对话中表面上接受错误信息,但内心仍坚持正确答案。   模型的信念和对应面对误信息的行为:拒绝,奉承和接纳   研究还发现,在经过一轮虚假信息交互后,大语言模型的信心程度往往会降低。然而,对于一些问题,重复虚假信息却让大模型更加确信自己的答案,这种现象被称为 “逆火效应(Backfire Effect)”。   如何提升抗虚假信息干扰能力?   研究组发现,由于 RLHF(Reinforcement Learning with Human Feedback)算法,大模型在训练中会倾向于接受用户的输入,即认为外界的 context 总是友善且正确的。而且当大语言模型有足够信息支撑观点时,会对正确的回答更有信心。   为了帮助大模型提升抗虚假信息干扰能力,研究者们提出了一种轻量级解决方案:在检测到虚假信息后,使用 safety system prompt 对大模型进行提醒,并在回答之前从自己的参数化知识中检索相关信息。这种方法在一定程度上减少了虚假信息对大模型的影响。   加入 safety system prompt 后,模型抗干扰能力显著提升   OpenAI 的看法   有趣的是,OpenAI 在 2024 年 5 月发布了最新的 AI 模型行为准则,其中特别提到了 “认知冲突” 的处理。在此部分的示例中,他们使用了 “地球是平的” 这一例子来说明模型在面对与已知事实相冲突的信息时应如何反应,与本次研究团队的标题不谋而合,也更加突显了大语言模型在处理认知冲突时的行为表现的重要性。 https://cdn.openai.com/spec/model-spec-2024-05-08.html   研究启发   随着模型的智能化,大模型逐渐展现出了一些人类的特性,但它们的本质仍然是概率模型。这些模式很有可能仍然是从训练语料中的人类行为学习而来,即是一种 “模仿游戏”。   以上的研究探索了针对简单事实问题,当 LLM 的内部认知和外部信息冲突的时候,LLM 当作何选择,是盲从还是坚持自己的意见?而人类在这种认知冲突的过程中所展现的 “理愈辩愈明”、“思想碰撞出火花” 等能力还是目前的 LLM 所不具备的。   未来的研究可以进一步从模型的内在机理和训练数据中对大模型的行为进行溯源式的分析,提高 AI 的可解释性,并进一步提升跨学科研究,探索大模型的更多潜力。

错误率从10%降至0.01%,领英全面分享LLM应用落地经验

随着大型语言模型(LLM)技术日渐成熟,各行各业加快了 LLM 应用落地的步伐。为了改进 LLM 的实际应用效果,业界做出了诸多努力。   近期,领英(LinkedIn)团队分享了他们在构建生成式 AI 产品的过程中总结的宝贵经验。领英表示基于生成式人工智能构建产品并非一帆风顺,他们在很多地方都遇到了困难。   以下是领英博客原文。 过去六个月,我们 LinkedIn 团队一直在努力开发一种新的人工智能体验,试图重新构想我们的会员如何进行求职和浏览专业内容。   生成式人工智能的爆发式增长让我们停下来思考,一年前不可能实现的事情现在有了哪些可能。我们尝试了很多想法,但都没有成功,最终发现产品需要如下关键点:   更快地获取信息,例如从帖子中获取要点或了解公司最新动态。 将信息点连接起来,例如评估您是否适合某个职位。 获取建议,例如改善您的个人资料或准备面试。 ……   我们通过一个现实场景来展示新开发的系统是如何工作的。想象一下,您正在滚动浏览 LinkedIn 信息流,偶然发现了一篇关于设计中的可访问性的有趣帖子。除了这篇文章之外,您还会刷到一些入门问题,以便更深入地研究该主题,您很好奇,例如点击「科技公司中可访问性推动商业价值的例子有哪些?」   系统后台会发生如下操作: 选择合适的智能体:系统会接受您的问题并决定哪个 AI 智能体最适合处理它。在这种情况下,它会识别您对科技公司内部可访问性的兴趣,并将您的查询路由到专门执行通用知识搜索的 AI 智能体。 收集信息:AI 智能体调用内部 API 和 Bing 的组合,搜索具体示例和案例研究,突出设计的可访问性如何为技术领域的商业价值做出贡献。 制定回复:有了必要的信息,智能体现在可以撰写回复。它将数据过滤并合成为连贯、信息丰富的答案,为您提供清晰的示例,说明可访问性计划如何为科技公司带来商业价值。为了使体验更具交互性,系统会调用内部 API 来使用文章链接或帖子中提到的人员简介等附件。 你可能会提问「我如何将我的职业生涯转向这个领域」,那么系统会重复上述过程,但现在会将你转给职业和工作(career and job)AI 智能体。只需点击几下,您就可以深入研究任何主题,获得可行的见解或找到下一个工作机会。   大部分新功能是借助 LLM 技术才成为可能。   总体设计   系统 pipeline 遵循检索增强生成(RAG),这是生成式人工智能系统的常见设计模式。令人惊讶的是,建设 pipeline 并没有我们预期的那么令人头疼。在短短几天内,我们就建立并运行了基本框架:   路由:决定查询是否在范围内,以及将其转发给哪个 AI 智能体。 检索:面向 recall 的步骤,AI 智能体决定调用哪些服务以及如何调用(例如 LinkedIn 人物搜索、Bing API 等)。 生成:面向精度的步骤,筛选检索到的噪声数据,对其进行过滤并生成最终响应。 图 1:处理用户查询的简化 pipeline。KSA 代表「知识共享智能体」,是数十种可以处理用户查询的智能体之一。 关键设计包括:   固定三步 pipeline; 用于路由 / 检索的小型模型,用于生成的较大模型; 基于嵌入的检索 (EBR),由内存数据库提供支持,将响应示例直接注入到提示(prompt)中; 每步特定的评估 pipeline,特别是对于路由 / 检索。 开发速度   我们决定将开发任务拆分为由不同人员开发独立智能体:常识、工作评估、职位要点等。   通过并行化开发任务,我们提高了开发速度,但这是以「碎片」为代价的。当与通过不同的模型、提示或工具进行管理的助手(assistant)进行后续交互时,保持统一的用户体验变得具有挑战性。   为了解决这个问题,我们采用了一个简单的组织结构:   一个小型「水平(horizontal)」工程 pod,处理通用组件并专注于整体体验,其中包括: 托管产品的服务 评估 / 测试工具 所有垂直领域使用的全局提示模板(例如智能体的全局身份(identity)、对话历史、越狱防御等) 为 iOS/Android/Web 客户端共享 UX 组件 服务器驱动的 UI 框架,用于发布新的 UI 更改,而无需更改或发布客户端代码。 关键设计包括:   分而治之,但限制智能体数量; 具有多轮对话的集中式评估 pipeline; 共享提示模板(例如「身份(identity)」定义)、UX 模板、工具和检测   评估   事实证明,评估响应的质量比预期的更加困难。这些挑战可大致分为三个领域:制定指南(guideline)、扩展注释和自动评估。 制定 guideline 是第一个障碍。以工作评估为例:点击「评估我是否适合这份工作」并得到「你非常适合」并没有多大用处。我们希望响应既真实又富有同理心。一些用户可能正在考虑转行到他们目前不太适合的领域,并需要帮助了解差距和后续步骤。确保这些细节一致对注释器非常关键。   扩展注释是第二步。我们需要一致和多样化的注释器。我们内部的语言学家团队构建了工具和流程,以评估多达 500 个日常对话并获取相关指标:整体质量得分、幻觉率、AI 违规、连贯性、风格等。   自动评估工作目前仍在进行中。如果没有自动评估,工程师只能目测结果并在一组有限的示例上进行测试,并且要延迟 1 天以上才能了解指标。我们正在构建基于模型的评估器来评估上述指标,并努力在幻觉检测方面取得一些成功,端到端自动评估 pipeline 将实现更快的迭代。   图 2:评估步骤。   调用内部 API   LinkedIn 拥有大量有关人员、公司、技能、课程等的独特数据,这些数据对于构建提供差异化价值的产品至关重要。然而,LLM 尚未接受过这些信息的训练,因此无法使用它们进行推理和生成响应。解决此问题的标准模式是设置检索增强生成 (RAG) pipeline,通过该 pipeline 调用内部 API,并将其响应注入到后续的 LLM 提示中,以提供额外的上下文来支持响应。 许多此类数据通过各种微服务中的 RPC API 在内部公开。虽然这对于人类以编程方式调用非常方便,但对 LLM 来说并不友好。我们通过围绕这些 API 包装「技能」来解决这个问题。每个技能都有以下组件:   关于 API 的功能以及何时使用的人类友好描述 调用 RPC API 的配置(端点、输入模式、输出模式等) LLM 友好的输入和输出模式 原始类型(字符串 / 布尔 / 数字)值 JSON 模式的输入和输出模式描述 LLM 友好模式和实际 RPC 模式之间映射的业务逻辑 这些技能旨在让 LLM 能够执行与产品相关的各种操作,例如查看个人资料、搜索文章 / 人员 / 职位 / 公司,甚至查询内部分析系统。同样的技术也用于调用非 LinkedIn API,例如 Bing 搜索。 图 3:使用技能调用内部 API。   我们编写提示,要求 LLM 决定使用什么技能来解决特定的工作(通过规划选择技能),然后输出参数来调用技能(函数调用)。由于调用的参数必须与输入模式匹配,因此我们要求 LLM 以结构化方式输出它们。大多数 LLM 都接受过用于结构化输出的 YAML 和 JSON 训练。我们选择 YAML 是因为它不太冗长,因此比 JSON 消耗更少的 token。 我们遇到的挑战之一是,虽然大约 90% 的情况下,LLM 响应包含正确格式的参数,但大约 10% 的情况下,LLM 会出错,并且经常输出格式无效的数据,或者更糟糕的是甚至不是有效的 YAML。   这些错误对人类来说是微不足道的,但却会导致解析它们的代码崩溃。10% 是一个足够高的数字,我们不能轻易忽视,因此我们着手解决这个问题。   解决此问题的标准方法是检测它,然后重新提示 LLM 要求其纠正错误并提供一些额外的指导。虽然这种方法有效,但它增加了相当大的延迟,并且由于额外的 LLM 调用而消耗了宝贵的 GPU 容量。为了规避这些限制,我们最终编写了一个内部防御性 YAML 解析器。   通过对各种有效负载的分析,我们确定了 LLM 所犯的常见错误,并编写了代码以在解析之前适当地检测和修补(patch)这些错误。我们还修改了提示,针对其中一些常见错误注入提示,以提高修补的准确率。我们最终能够将这些错误的发生率减少到约 0.01%。   我们目前正在构建一个统一的技能注册表,用于在我们的生成式人工智能产品中,动态发现和调用打包为 LLM 友好技能的 API / 智能体。 容量和延迟   容量和延迟始终是首要考虑因素,这里提及一些考量维度:   质量与延迟:思想链 (CoT) 等技术对于提高质量和减少幻觉非常有效,但需要从未见过的 token,因此增加了延迟。 吞吐量与延迟:运行大型生成模型时,通常会出现 TimeToFirstToken (TTFT) 和 TimeBetweenTokens (TBT) 随着利用率的增加而增加的情况。 成本:GPU 集群不易获得且成本高昂。一开始我们甚至必须设定测试产品的时间表,因为会消耗太多 token。 端到端流式处理(streaming):完整的答案可能需要几分钟才能完成,因此我们流式处理所有请求,以减少感知延迟。更重要的是,我们实际上在 pipeline 中端到端地进行流式处理。例如,决定调用哪些 API 的 LLM 响应是逐步解析的,一旦参数准备好,就会触发 API 调用,而无需等待完整的 LLM 响应。最终的综合响应也会使用实时消息传递基础设施一路传输到客户端,并根据「负责任的 AI」等进行增量处理。 异步非阻塞 pipeline:由于 LLM 调用可能需要很长时间才能处理,因此我们通过构建完全异步非阻塞 pipeline 来优化服务吞吐量,该 pipeline 不会因 I/O 线程阻塞而浪费资源。   感兴趣的读者可以阅读博客原文,了解更多研究内容。   原文链接:https://www.linkedin.com/blog/engineering/generative-ai/musings-on-building-a-generative-ai-product

八问八答搞懂Transformer内部运作原理

七年前,论文《Attention is all you need》提出了 transformer 架构,颠覆了整个深度学习领域。 如今,各家大模型都以 transformer 架构为基础,但 transformer 内部运作原理,仍是一个未解之谜。 去年,transformer 论文作者之一 Llion Jones 宣布创立人工智能公司 Sakana AI。近期,Sakana AI 发表了一篇题为《Transformer Layers as Painters》的论文,探究了预训练 transformer 中的信息流,并针对仅解码器和仅编码器冻结 transformer 模型进行了一系列实验。请注意,该研究没有对预训练模型进行任何类型的微调。 论文地址:https://arxiv.org/pdf/2407.09298v1 该研究认为 transformer 的内部机制(特别是中间层)可以类比画家作画流水线来理解。 作画流水线通常是将画布(输入)传递给一系列画家。有些画家擅长画鸟类,而另一些画家则擅长画轮子。每个画家从其下一级画家那里收到画布,然后其决定是否给画作添加一些笔画,或者只是将其传递给其上一级画家(使用剩余连接)。 这个类比并不是一个严格的理论,而是一个思考 transformer 层的工具。受这个类比的启发,该研究测试验证了一些假设: 各层是否都在使用相同的表征空间?  所有层都是必要的吗? 中间层都执行相同的功能吗?  层的顺序重要吗? 这些层可以并行运行吗? 对于某些任务来说,顺序是否比其他因素更重要? 循环有助于层并行吗? 哪些变体对模型性能影响最小? 该研究对预训练 LLM 进行了一系列实验,其中包括试验标准 transformer 执行策略的变化,并在仅解码器 (Llama) 和仅编码器 (BERT) 模型的各种基准上测量这些变化对模型性能的影响。 各层是否都在使用相同的表征空间? 为了回答不同层是否使用相同的表征空间,作者测试了 Transformer 在跳过特定层或切换相邻层的顺序时是否具有稳健性。例如,在 Llama2-7B 中,第 6 层通常期望接收第 5 层的输出。如果给第 6 层以第 4 层的输出,它是否会出现「灾难性」的行为? 在图 2 中,我们可以看到,除了第一层和最后几层之外,Llama2-7B 的各层对跳层或切换层都相当稳健。 该实验表明,中间层共享一个表征空间,且与「外围层」(第一层和最后几层)拥有不同的表征空间。为了进一步验证这一假设,作者效仿之前的研究,测量了基准中模型(Llama2-7B、Llama2-13B 和 BERT-Large)不同层的隐藏状态激活之间的平均余弦相似度。图 3 显示了所有中间层之间的一致性。 这表明该模型可能具有「开始」、「中间」和「结束」层的三个不同的表征空间。回答问题 1:是的,中间层似乎共享一个共同的表征空间。 所有层都是必要的吗? 为了进一步测试中间层的重定向空间是否真正共享(除了具有接近的余弦相似度之外),该研究尝试了「跳过层」,即将第 N 层的输出直接发送到第 N + M 层(其中 M > 1)的输入中,从而「跳过」M − 1 层,如图 1a 所示。该实验是为了看看第 N + M 层是否可以理解第 N 层的激活,尽管它仅根据从第 N + M − 1 层发来的输入进行训练。图 4 显示,Llama2-7B 和 BERT-Large 在许多基准测试上性能均出现适度下降。回答问题 2,是否所有层都是必要的: 不,至少可以删除一些中间层而不会发生灾难性故障。   中间层都执行相同的功能吗? 如果中间层都共享一个共同的表征空间,这是否意味着除此之外的中间层是多余的呢?为了测试这一点,研究者们重新运行了前一子节中的「跳过」实验,他们将中间层的权重替换为中心层的权重,有效地在被替换的每一层上循环 T – 2N + 1 次,其中 T 是总层数(Llama2-7B 为 32 层,BERT-Large 为 24 层)。 如图 5 所示,可以观察到,随着被替换层数的增加,模型在基准测试的得分迅速下降。从后文的图 11 看来,这种替换层的做法比研究者们尝试的其他方法都更糟糕。因此,研究者得出结论:中间层执行的是不同的功能,让中间层之间共享权重并不可行。 层的顺序重要吗? 之前的实验表明,中间层共享一个表示空间,但在该空间中负责不同的功能。下一个需要解决的问题是,这些功能的顺序有何意义。为了解决这个问题,研究者们设计了两组实验。首先,以与训练时相反的顺序来运行中间层。具体来说,取第 T – N 层的输出,将其输入到第 T – N – 1 层,然后将这一层的输出输入到第 T – N – 2 层,依此类推,一直到第 N 层,再将这一层的输出发送到后面的 T – N 层。在第二组实验中,研究者采用随机顺序运行中间层,并在 10 个种子值上取平均值。 图 6 和图 7 分别显示了反向和以随机顺序运行中间层的结果,模型在所有基础测试集中都显示出了逐渐下降的趋势。这也表明虽然层的顺序对模型来说有一定的重要性,但即使改变了顺序,这些层仍然能够发挥作用。 更有趣的是,随机打乱层的顺序比完全反过来效果更好。这可能是因为,随机打乱的顺序在某些方面保留了层之间的一些原有关系(即层 i 在层 j 之后,其中 i > j),而完全反过来则完全打破了这些关系。 这些层可以并行运行吗? 为了验证层本身存在比执行的顺序更重要,研究者们设计了一个实验,并行运行中间层,将它们的平均结果发送给最终的 N 层。 如图 8 所示,模型在所有基准测试中的表现均呈现了一种平缓下降趋势,然而,这种趋势并不适用于 GSM8K 中的数学应用题。 实验结果显示,大部分情况下这种方法都是有效的,只是一些复杂的数学题处理得不太好。这种并行处理方法相比直接跳过一些层,效果更好,但不如按反向顺序运行层的效果出色。基于此,研究者得出结论:并行运行层在一般情况下是可行的,但对于需要顺序逻辑理解的数学问题,这种方法可能不太适用。   对于某些任务来说,顺序是否比其他因素更重要?  对于大多数经过「改造」的模型,在面对抽象推理(ARC)或数学推理(GSM8K)基准测试时,它们往往显示出最陡峭的下降趋势。这一现象可能源于逐步推理任务对于模型层级顺序的敏感度远高于那些主要依赖语义理解的常识性任务。与那些仅通过理解语义便能完成的任务不同,推理任务要求模型同时把握结构与含义。这种观察与模型在单次处理过程中可能进行一定程度的顺序依赖性推理的假设相吻合。 研究者使用了一个比喻来说明:如果画一幅由许多不同元素组成的拼贴画,那么画的顺序可能不那么重要;但如果是要画一幅精确的建筑场景,那么每一笔的顺序就变得非常重要了。据此,研究者得出了结论:数学和推理任务对模型层的顺序具有更高的依赖性,而对于那些主要依赖语义理解的任务,顺序的影响则相对较小。 循环有助于层之间并行吗? 沿用上一节中画画的的比喻,当画家在画一幅画时,不是一开始就画所有东西,而是先画一部分,比如车身,然后再根据这部分来添加其他的东西,比如车轮。在 AI 模型中,层就是所谓的画家,处理信息就是在画画,如果先得到了正确的信息,也就先画出了所谓的车身,那么它们就能更好地完成自己的工作,为画作添加车轮。   对于 transformer 而言,当给予适当的输入时,层可能只在前向传播中做出贡献,并非通过残差连接「传递」输入。如果情况确实如此,那么迭代上一个实验中的并行层应该比单次执行并行层更能提高模型的性能。基于此,研究者通过将并行层的平均输出反馈到同一层中进行固定次数的迭代来测试这一点。 图 9 展示了将并行层循环 3 次的结果。循环并行 3 次的结果显著优于单次迭代(并行层)。起始层 N 设定为 15(针对 Llama2-7B 模型)或 11(针对 BERT 模型)时,即处于每种情况的极左端点,仅有单一的层级受到影响。在这种特定情况下,三次循环并行的效果等同于单纯地将中间层重复三次。与此同时,对于这一点上的并行层而言,其性能与完整模型无异。   研究者们还针对不同的迭代次数重复了相同的实验。图 10 展示了 Llama2-7B 的性能随并行化层数 M 和迭代次数的变化情况。每个 M 的最高性能迭代次数用红框标出。除了 M=29 和 M=31(几乎并行化所有层)外,最佳迭代次数大致与并行化层数成线性比例。因此,研究者得出的结论是:最佳迭代次数与并行化层数成正比。    如何调整层,对模型性能的影响最小? 最后,在图 11 中,研究者们将所有实验中对 Transformer 的「改造」进行了比较,在一个图表上显示了所有基准测试的中位数或平均性 。  中间重复 —— 用相同数量的中间层副本替换中间层 —— 表现最差, 很快就降到了随机基线的性能。相反,循环并行和随机层顺序的影响最小。因此,研究者得出的结论是:重复单一层的影响最严重。随机化层顺序和循环并行的影响最小。  这些实验整体上显示出平缓的性能下降,但研究者仍然不清楚为什么这些层在大多数扰动下还能保持一定的稳健性,这个问题还需在未来的研究中进一步探讨。  更多细节请参见原论文。 参考链接:https://arxiv.org/pdf/2407.09298v1

谷歌狂卷小模型,20亿参数Gemma 2赶超GPT-3.5,实测iPhone上跑得飞快

每秒40 Token,谷歌开源20亿参数“小钢炮”。 编辑 |  李水青 谷歌DeepMind的开源小模型家族,又迎来新成员! 智东西8月1日消息,今日凌晨,谷歌DeepMind开源了轻量级模型Gemma 2 2B,其在大模型竞技场上的分数超越了GPT-3.5、Llama 2 70B等更大参数的模型。 ▲Gemma 2 2B 只有20亿参数使得Gemma 2 2B可以轻松在手机、PC等终端设备上快速运行。开发者实测在Google AI Studio上,其推理速度达到30~40 tokens/s。 ▲开发者测试Gemma 2 2B 与Gemma 2 2B一起推出的,还有用于增强模型可解释性的工具Gemma Scope,以及用于过滤有害内容的安全分类模型ShieldGemma。 Gemma Scope基于稀疏自动编码器(SAE)放大模型中的特定点,并采用JumpReLU架构对其进行优化,从而帮助解析模型中处理的密集复杂信息,像一个显微镜一样让研究人员能“看到”模型内部。 ShieldGemma则针对仇恨言论、骚扰、色情内容、危险内容四个危害领域构建,在响应测试中超过GPT-4等基准模型。 Gemma系列模型最初在今年2月推出,是谷歌DeepMind在Gemini模型的经验基础上构建的开源模型。6月,谷歌推出第二代开源模型Gemma 2,包括9B、27B两种参数规模,其中27B模型迅速在LMSYS大模型竞技场上跃升开源模型前沿。   01. 击败35倍参数大模型 比大小没难倒Gemma 2   Gemma 2 2B是从更大规模的模型中提炼而来的,是继27B、9B后谷歌推出的第三款Gemma 2模型。 作为一款只有20亿参数的轻量模型,Gemma 2 2B并没有牺牲性能来换轻便。在LMSYS大模型竞技场(Chatbot Arena)排行榜中,Gemma 2 2B以1126分的成绩超越了GPT-3.5,以及其数十倍参数规模的Mixtral 8x7B、Llama 2 70B模型。 ▲Gemma 2 2B在大模型竞技场的成绩 有网友测试了Gemma 2 2B在众多大模型上“翻车”的9.9和9.11比大小问题,Gemma 2 2B迅速给出了正确答案。 ▲Gemma 2 2B答题 运行速度是轻量级模型的一大优势。具体有多快呢?苹果机器学习研究员Awni Hannun在他的iPhone 15 pro上的MLX Swift测试了Gemma 2 2B,其推理速度肉眼可见的快。 ▲Gemma 2 2B运行速度 开发者Tom Huang实测后称,其在Google AI Studio上运行速度大概30~40 tokens/s,“比苹果的模型推得快”。 在部署方面,Gemma 2 2B提供灵活的部署方式,可在各种硬件上高效运行,包括边缘设备、笔记本电脑,或是基于Vertex AI进行云部署。 开发者可以在Hugging Face、Kaggle等平台下载Gemma 2 2B的模型权重,用于研究和商业应用,也可以在Google AI Studio中试用其功能。 开源地址: https://huggingface.co/google/gemma-2-2b   02. 针对四类内容构建分类器 响应率优于GPT-4   为了提升模型的安全性和可访问性,谷歌推出了一套基于Gemma 2构建的安全内容分类器模型ShieldGemma,用于过滤AI模型的输入和输出,是对谷歌的负责任AI工具包中现有安全分类器套件的补充。 ▲ShieldGemma工作原理 ShieldGemma针对仇恨言论、骚扰、色情内容、危险内容这四个危害领域构建,提供多种模型尺寸以满足不同的需求,包括2B、9B和27B。其中,2B参数模型适合在线分类任务,9B和27B版本则用于为离线应用程序提供更高性能。 在外部数据集上的测评结果中,ShieldGemma超越了OpenAI Mod、GPT-4等基线模型。 ▲ShieldGemma测评结果 ShieldGemma的技术报告也同步公开,其中解读了该模型的构建方法、数据来源以及有效性。在四类有害内容的响应测试上,三个规模的ShieldGemma响应率都优于GPT-4。 ▲ShieldGemma响应测试 技术报告地址: https://storage.googleapis.com/deepmind-media/gemma/shieldgemma-report.pdf   03. 大模型内部“显微镜” 零代码分析模型行为   为了研究语言模型内部的工作原理,谷歌推出一套全面、开放的稀疏自动编码器Gemma Scope。它就像一个显微镜,能帮助研究人员“看到”模型内部,从而更好地理解工作原理。 Gemma Scope使用稀疏自动编码器(SAE)放大模型中的特定点,这些SAE可帮助解析模型中处理的密集复杂信息,将其扩展为更易于分析和理解的形式。 ▲使用SAE解释模型激活的程式化表示 通过研究这些扩展的视图,研究人员可以了解Gemma 2如何识别模式、处理信息,并最终做出预测,从而探索如何构建更易于理解、更可靠、更可靠的AI系统。 此前,对SAE的研究主要集中于研究微型模型或大型模型中,单层的内部工作原理。而Gemma Scope的突破之处在于,它在Gemma 2模型的每个层和子层输出上训练SAE。其共生成了400多个SAE,学习了3000多万个特征。 ▲Gemma Scope的SAE发现特征的示例激活 Gemma Scope 还采用了全新的JumpReLU SAE架构进行训练。原始的SAE架构很难平衡检测哪些特征存在,和估计其强度这两个目标。JumpReLU架构可以更轻松地实现这种平衡,从而显著减少错误。 Gemma Scope共开放了超过400个免费SAE,涵盖Gemma 2 2B和9B的所有层,并提供交互式演示,研究人员不需要编写代码即可研究SAE特性并分析模型行为。 ▲Gemma Scope交互式演示 演示地址: https://www.neuronpedia.org/gemma-scope 技术报告地址: https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf   04. 结语:生成式AI的风 刮向小模型和AI安全   生成式AI发展至今,模型从“卷”参数“卷”规模,到现在“卷”轻便“卷”安全,体现了在技术落地的过程中,离用户更近、成本更低、更能满足特定需求的重要性。 AI PC、AI手机逐渐进入消费者的生活,在这个过程中,如何将大模型“塞进”小巧的终端设备,并且保障用户的隐私安全,是各大AI厂商亟待解决的问题。

合合信息研发总监常扬:大模型RAG技术架构与应用实践

  随着大语言模型的兴起,其在处理自然语言任务上展现出了强大的能力,但也逐渐暴露出一些问题。大语言模型虽然能够生成连贯且富有逻辑的文本,但在某些情况下可能会出现“幻觉”,即生成不准确或无根据的内容。而且,大语言模型对于最新的、特定领域的专业知识的掌握可能存在滞后性。 目前主要有两种途径解决以上问题:一是微调,二是RAG。微调虽能使模型“学会”私域知识,但是,模型微调工作复杂,从数据准备、算力资源、微调效果到训练时间,都面临诸多挑战,用新数据随时微调不切实际,每月能更新一次已属理想状况。RAG 则为生成式模型与外部世界互动提供了颇具前景的解决办法。 RAG的全称是Retrieval-Augmented Generation,中文翻译为检索增强生成,是一个为大模型提供外部知识源的概念。通过RAG,可以使大语言模型生成准确且符合上下文的答案,同时能够减少“幻觉”。 RAG的主要功能类似于搜索引擎,能够找出与用户提问最相关的知识或对话历史,并结合原始提问创建内容丰富的 prompt,引导模型生成准确的输出。RAG还可分为5个基本流程:知识文档的准备、嵌入模型(embedding model)、向量数据库、查询检索和生产回答。 为帮助大家更加深入地了解RAG技术及应用,8月5日19点,智猩猩邀请到合合信息智能创新事业部研发总监常扬带来最新一期「智猩猩大模型技术公开课」,主题为《大模型RAG技术架构与应用实践》。 常扬首先会介绍RAG技术背景、系统架构的演进与前沿进展,之后将着重讲解 RAG 技术架构与核心模块。接下来,常扬将以合合信息的TextIn文档解析技术、acge_embedding_model向量化模型为例,对RAG关键技术进行精讲。最后,他会分享合合信息的两个应用实践:OpenKIE 开放域多模态信息抽取、TextIn分析师知识问答。 第9期信息  主 题 《大模型RAG技术架构与应用实践》  提 纲 1. RAG技术背景、系统架构的演进与前沿进展 2. RAG技术架构与核心模块 3. RAG关键技术精讲 – TextIn文档解析技术与acge_embedding_model向量化模型 4. 应用实践 – OpenKIE 开放域多模态信息抽取、TextIn分析师知识问答  主 讲 人 常扬,合合信息智能创新事业部研发总监,复旦大学博士,复旦大学机器人智能实验室成员,国家级大学生赛事评审专家,发表多篇SCI核心期刊学术论文,多个学术会议讲师与技术社区AI专家博主,负责合合智能文档处理业务线的产品、技术、云服务平台研发工作。任职期间,先后主导了人工智能数据清洗平台,卡证识别、票据识别、行业文档定制等信息抽取产品,TextIn智能文字识别云服务平台,TextIn票据机器人、财报机器人、合同机器人等智能文档场景落地产品,为金融、制造、物流等行业提供智能文档处理产品与解决方案,在企业信息化转型领域具备丰富的技术落地经验和行业场景洞察力。  直 播 时 间 8月5日19:00-20:00

最强开源文生图模型一夜易主!SD原班人马打造,要发SOTA视频生成模型

干翻SD3和MJ6!AI绘画黑马横空出世。 作者 |  香草 编辑 |  李水青 最强开源文生图模型一夜易主! 智东西8月2日报道,昨日晚间,开源文生图模型霸主Stable Diffusion原班人马,宣布推出全新的图像生成模型FLUX.1。 FLUX.1包含专业版、开发者版、快速版三种模型,其中前两款模型击败SD3-Ultra等主流模型,较小规模的FLUX.1[schnell]也超越了Midjourney v6.0、DALL·E 3等更大的模型。 ▲FLUX.1 ELO分数与主流模型对比 FLUX.1在文字生成、复杂指令遵循和人手生成上具备优势。以下是其最强的专业版模型FLUX.1[pro]生成图像示例,可以看到即使是生成大段的文字、多个人物,也没有出现字符、人手等细节上的错误。 ▲FLUX.1[pro]生成图像示例 FLUX.1现已在开源平台Replicate上可用,以下是我用提示词“世界上最小的黑森林蛋糕,手指大小,被黑森林的树木包围”,在三款模型上生成的图像,用时分别为17.5s、12.2s、1.5s。 ▲三款模型生成对比 FLUX.1同时开放了API(应用程序接口),按图像张数定价,三款模型的价格依次为每张图片0.055美元、0.03美元、0.003美元(约合人民币0.4元、0.22元、0.022元)。 FLUX.1背后的公司名为Black Forest Labs(黑森林实验室),由Stable Diffusion原班人马、多位Stability AI前研究员成立。与Stability AI类似,黑森林致力于研发优质多模态模型并开源,目前已完成3100万美元(约合人民币2.25亿元)的种子轮融资。 黑森林还预告不久之后将发布SOTA(当前技术指标第一)视频模型。从其放出的Demo来看,无论是流畅度、稳定性还是物理模拟都达到第一梯队水平,该公司或许会成为视频生成领域的一匹黑马。 ▲视频生成模型预告 三款模型试用地址: https://replicate.com/black-forest-labs/flux-pro https://replicate.com/black-forest-labs/flux-dev https://replicate.com/black-forest-labs/flux-schnell   01. 擅长生成文字、人手 三种模型规模秒级生成   FLUX.1在视觉质量、图像细节和输出多样性等方面性能优越,其具有三大特点:文字生成、复杂构图、人手描绘。 文字的生成在图像、视频生成中非常重要,许多模型容易混淆看起来相似的字母。FLUX.1可以处理重复字母的棘手单词,例如生成一个黑森林Flux Schnell蛋糕: ▲黑森林Flux Schnell蛋糕 在构图方面,FLUX.1擅长按照图像中事物应该位于哪里等复杂指示进行操作。例如,FLUX.1完美地演绎了这段提示词:三个魔法巫师站在一张黄色桌子上,每个巫师都拿着一个标志。左边,一个穿着黑色长袍的巫师拿着一个写着“AI”的标志;中间,一个穿着红色长袍的女巫拿着一个写着“is”的标志;在右边,一个穿着蓝色长袍的巫师拿着一个写着“cool”的标志。 ▲复杂构图 人手一直是多模态生成模型的重灾区。FLUX.1生成的人手图像虽然还不够完美,但实现了很大的进步。 ▲人手 FLUX.1共有专业版、开发者版、快速版三种版本。 其中,FLUX.1[pro]是最先进的一个版本,具有顶级的即时跟踪、视觉质量、图像细节和输出多样性,面向专业用户提供定制的企业解决方案。 ▲FLUX.1[pro]生成图像示例 FLUX.1[dev]面向非商业应用,它从FLUX.1[pro]提炼而来,具有相似的质量和能力,同时比相同尺寸的标准模型更高效。 ▲FLUX.1[dev]生成图像示例 FLUX.1[schnell]是三款模型中最快的,专为本地开发和个人使用而定制,并根据Apache 2.0标准许可公开提供。 ▲FLUX.1[schnell]生成图像示例 FLUX.1现已在开源平台Replicate上可用,只需一行代码即可在云端运行,用户也可以下载模型权重并以编程方式运行。FLUX.1的API也同步开放,三款模型的价格依次为每张图片0.055美元、0.03美元、0.003美元(约合人民币0.4元、0.22元、0.022元)。   02. 击败MJ V6、DALL·E 3 技术报告即将发布   性能方面,FLUX.1经过特别微调,在预训练中保留了整个输出多样性,在指令遵守、视觉质量、尺寸/长宽变化等多个方面树立了新标准。 其中FLUX.1[pro]和[dev]两款模型,在5项测评标准中都超过了Midjourney v6.0、DALL·E 3和SD3-Ultra等热门模型。 FLUX.1[schnell]作为轻量级模型,不仅优于同类竞争对手,还优于Midjourney v6.0、DALL·E 3等强大的非蒸馏模型。 ▲FLUX.1性能与主流模型对比 此外,所有FLUX.1模型均支持0.1和2.0百万像素的多种宽高比和分辨率。 ▲宽高比/分辨率变化 如此强大的性能是怎么做到的? 在模型架构上,FLUX.1采用基于多模态和并行扩散Transformer模块的混合架构,并将其扩展到12B参数。 团队通过建立流匹配(Flow Matching)来改进最先进的扩散模型,并通过结合旋转位置嵌入(Rotary Position Embedding)和并行注意力层,来提高模型性能和硬件效率。更详细的技术报告将在不久后发布。   03. SD原班人马,2.25亿种子轮 要发SOTA视频模型   黑森林实验室由Stable Diffusion的创始团队成立,该团队此前的工作还包括高质量图像生成模型VQGAN、视频生成模型Stable Video Diffusion等。 Stable Diffusion最初的5位作者中,4位曾加入Stability AI并持续开发SD后续版本的成员,包括Robin Rombach、Andreas Blattmann、Dominik Lorenz以及Patrick Esser,都在黑森林实验室的创始团队中。 ▲Stable Diffusion作者、黑森林实验室创始团队 该团队称,其核心信念是开发广泛可访问的模型,促进研究界和学术界的创新和协作,并提高模型透明度。 黑森林实验室宣布已完成3100万美元(约合人民币2.25亿元)的种子轮融资,由知名风投机构a16z(Andreessen Horowitz)领投,VR制造商Oculus的CEO Brendan Iribe、创企孵化器YC的CEO陈嘉兴(Garry Tan)、英伟达研究员Timo Aila等专家及AI公司跟投,还收到了来自General Catalyst等一线基金的后续投资。 该团队的顾问委员会,包括在内容创作行业拥有丰富经验的前迪士尼总裁Michael Ovitz,以及神经风格转换的先驱Matthias Bethge教授。 刚刚创业的AI大神安德烈·卡帕西(Andrej Karpathy)为黑森林团队送上祝福,并称“开源的FLUX.1图像生成模型看起来非常强大”。 ▲卡帕西评论 创始团队的前领导——Stability AI前CEO埃马德·莫斯塔克(Emad Mostaque)也发来贺电,还说“之前能与他们合作是我的荣幸,我相信他们会继续在生成每一个像素的旅程中突破界限”。 ▲莫斯塔克评论 在下一步的工作上,黑森林预告将发布一款SOTA文生视频模型,“让所有人都能将文本转为视频”。该模型将建立在FLUX.1的基础上,“以高清和前所未有的速度实现精确创作和编辑”。 ▲视频生成模型预告   04. 结语:多模态大模型领域黑马涌现   在众多大厂、创企狂卷文生视频之际,文生图领域突然迎来黑马。“横空出世”的FLUX.1的不仅展现出卓越的性能,在文字生成、复杂构图、人手描绘等方面突破难关,还以多样化的版本满足不同用户的需求。 黑森林实验室凭借着Stable Diffusion原班人马的强大实力,获得了丰厚的种子轮融资,也吸引了众多行业大咖的关注与支持。其后续将发布的视频模型,又将为文生视频领域注入新的活力。

智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力

视频大模型进入百模大战。 今年是“视频生成”大模型爆发元年。在过去两个月,我们看到了快手可灵、商汤Vimi、Luma AI、爱诗科技Pixverse、Runway Gen-3等等视频大模型的你追我赶。 但上半年的视频生成大模型公司,往往只聚焦在视频生成这一个功能。 而下半年,大语言模型公司将逐渐跟随OpenAI的脚步,纷纷入场视频大模型,把语言模型与视频模型做大一统。 在备受瞩目的“大模型六小强”中,动作最快的是智谱AI。 今天上午,这家清华系大模型独角兽上线视频生成大模型产品“清影”,直接面向所有用户开放,支持文生视频与图生视频。 在智谱清言PC或App里输入一段文字或图片后(即Prompt),用户可以选择自己想要生成的风格,包括卡通3D、黑白、油画、电影感等,配上清影自带的音乐,就生成了充满AI想象力的视频片段;此外,“AI动态照片小程序”支持图生视频。 对于现在视频大模型领域的格局,张鹏认为大概也会像大语言模型一般,进入百家争鸣的格局。 在商业化策略上,清影目前的付费方案是:首发测试期间,所有用户均可免费使用;付费5元,解锁一天(24小时)的高速通道权益,付费199元,解锁一年的付费高速通道权益。智谱AI CEO张鹏表示:“现在的商业化仍处于非常早期的阶段,而且成本实际上也非常高,后面会根据市场的反馈做逐步迭代。” 清影API也同步上线智谱大模型开放平台,企业和开发者通过调用API的方式,体验和使用文生视频以及图生视频的模型能力。 清影的研发得到北京市的大力支持。海淀区是智谱AI总部所在地,为智谱AI开展大模型研发提供了产业投资、算力补贴、应用场景示范、人才等全方位支持;清影的训练依托亦庄高性能算力集群,在北京亦庄算力集群诞生,未来也将应用于北京亦庄广阔的高精尖产业集群,形成大模型赋能实体经济的新业态。   在生态合作上,bilibili作为合作伙伴也参与了清影的技术研发过程,并致力于探索未来可能的应用场景。同时,合作伙伴华策影视也参与了模型共建。 1.30秒将任意文字生成视频 清影的具体效果如何?先看一下官方发布的几支视频案例(都配上了音乐)。 文生视频: 提示词:低角度向上推进,缓缓抬头,冰山上突然出现一条恶龙,然后恶龙发现你,冲向你。好莱坞电影风   提示词:在霓虹灯闪烁的赛博朋克风格城市夜景中,手持跟拍的镜头缓缓推近,一个机械风格的小猴子正在用高科技工具维修,周围是闪烁的电子设备和未来主义的装修材料。赛博朋克风格,气氛神秘,4K高清。   提示词:广告拍摄视角,黄色背景,白色桌子上,画面中一个土豆被扔下来变成一份薯条   图生视频 提示词:古典美女   提示词:一条龙的口中喷射出火焰,烧毁了一个小村庄   提示词:水豚慵懒地用吸管喝可乐,扭头朝向相机   清影的视频生成时长为6s左右,输入提示词之后需要等待时间是30s左右。张鹏表示,这个生成速度在业内已经算非常快了。   张鹏认为,多模态模型的探索还处于非常初级的阶段。从生成视频的效果看,对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等,都有非常大的提升空间。从模型本身角度看,需要更具突破式创新的新模型架构,它应该更高效压缩视频信息,更充分融合文本和视频内容,贴合用户指令的同时,让生成内容真实感更高。 2.自研DiT架构 清影底座的视频生成模型是CogVideoX,它将文本、时间、空间三个维度融合起来,参考了Sora的算法设计。CogVideoX也是一个DiT架构,通过优化,CogVideoX 相比前代(CogVideo)推理速度提升了6倍。   智谱主要分享了CogVideoX 的三个技术特点:内容连贯性、可控性、模型结构。     首先,为了解决内容连贯性的问题,智谱自研了一个高效的三维变分自编码器结构(3D VAE),将原视频空间压缩至2%大小,以此减少视频扩散生成模型的训练成本及训练难度。   模型结构方面,智谱采用因果三维卷积(Causal 3D convolution)为主要模型组件,移除了自编码器中常用的注意力模块,使得模型具备不同分辨率迁移使用的能力。   同时,在时间维度上因果卷积的形式也使得模型具备视频编解码具备从前向后的序列独立性,便于通过微调的方式向更高帧率与更长时间泛化。   从工程部署的角度,智谱基于时间维度上的序列并行(Temporal Sequential Parallel)对变分自编码器进行微调及部署,使其具备支持在更小的显存占用下支持极高帧数视频的编解码的能力。   第二点是可控性。现在的视频数据大多缺乏对应的描述性文本或者描述质量低下,为此智谱自研了一个端到端的视频理解模型,用于为海量的视频数据生成详细的、贴合内容的描述,这样可以增强模型的文本理解和指令遵循能力,使得生成的视频更符合用户的输入,能够理解超长复杂prompt指令。   这也是Sora用到的方式。OpenAI用DALL·E 3 的“重新字幕技术”(re-captioning technique)训练了一个高度描述性的字幕生成器模型,然后使用它为训练数据集中的视频生成文本字幕。此外,OpenAI 还利用GPT将简短的用户提示转换为较长的详细字幕,然后发送到视频模型。   最后是智谱自研的一个将文本、时间、空间三个维度全部融合起来的transformer架构,它摒弃了传统的cross attention模块,而是在输入阶段就将文本embedding和视频embedding concat起来,以便更充分地进行两种模态的交互。   然而两种模态的特征空间有很大差异,智谱通过expert adaptive layernorm对文本和视频两个模态分别进行处理来弥补这一差异,这样可以更有效地利用扩散模型中的时间步信息,使得模型能够高效利用参数来更好地将视觉信息与语义信息对齐。   其中注意力模块采用了3D全注意力机制,先前的研究通常使用分离的空间和时间注意力或者分块时空注意力,它们需要大量隐式传递视觉信息,大大增加了建模难度,同时它们无法与现有的高效训练框架适配。   位置编码模块设计了3D RoPE,更有利于在时间维度上捕捉帧间关系,建立起视频中的长程依赖。 3.Scaling Law仍在发挥作用 智谱在AIl in大模型路线之初,就开始多模态领域相关布局。从文本,到图片再到视频,大模型对世界的理解逐渐复杂、逐渐多维。大模型通过对各种模态的学习,涌现出理解、知识和处理不同任务的能力。   智谱对于多模态大模型的研究可追溯到2021年。从2021年开始,智谱先后研发了CogView(NeurIPS’21)、 CogView2(NeurIPS’22)、CogVideo(ICLR’23)、Relay Diffusion(ICLR’24)、CogView3 (2024)。     基于CogView,团队研发基于大模型的文本到视频生成模型CogVideo,采用了多帧率分层训练策略生成高质量的视频片段,提出一种基于递归插值的方法,逐步生成与每个子描述相对应的视频片段,并将这些视频片段逐层插值得到最终的视频片段。这个工作引起脸书、谷歌、微软的广泛关注,在后面脸书的Make-A-Video、谷歌的Phenaki和MAGVIT、微软女娲DragNUWA、英伟达Video LDMs等视频生成模型工作中都有引用。   2024年5月,GLM大模型技术团队在ICLR 2024主旨演讲环节全面阐述了GLM大模型面向AGI三大技术趋势,原生多模态大模型在其中扮演重要角色:GLM大模型团队认为,文本是构建大模型的关键基础,下一步则应该把文本、图像、视频、音频等多种模态混合在一起训练,构建真正原生的多模态模型。     智谱全方位布局大模型系列产品,多模态模型始终扮演着重要角色。智谱已经验证了Scaling Law在视频生成方面的有效性,未来会在不断scale up数据规模和模型规模的同时,探究更具突破式创新的新型模型架构,更高效地压缩视频信息,更充分地融合文本和视频内容。   张鹏认为,未来大模型的技术突破方向之一就是原生多模态大模型,Scaling Law将继续在算法与数据两方面发挥作用。   “我们还没有看到技术曲线放缓的迹象。”张鹏表示。

大模型时代,顶尖数据分析团队是怎样炼成的?

在数字科技的浪潮中,数据不仅仅是数字的集合,它是洞察市场趋势的窗口,是优化决策的工具,更是驱动创新的动力。一个高效的数据分析团队能够挖掘数据的深层价值,为金融科技企业带来不可估量的竞争优势。通过构建数据驱动的文化,企业可以实现数据资产的最大化利用,促进跨部门协作,推动企业向智能化、自动化和高效化的方向发展。 然而,随着数据量的爆炸性增长和业务需求的日益复杂,数据分析团队面临着前所未有的挑战。如何从海量数据中提炼出有价值的信息?如何构建一个既能快速响应市场变化,又能深入理解业务需求的团队?如何培养团队成员,让他们在数据科学的道路上不断进步,为企业带来持续的创新和增长? 8 月 1 日 19:30,首期“数字人才新视点”栏目,将邀请金融业数据分析专家做客直播间,共同探索数据分析团队建设、人才培养、工作场景、发展规划等系列话题,带大家深入了解如何打造顶尖数据分析团队,培养明日数据领袖。 对话嘉宾 数据挖掘与人工智能硕士,前阿里巴巴数据专家,拥有 15 年数据分析和数据运营经验。同时兼任 CDA(数据分析师认证)特聘行业专家,微软认证 PowerBI 数据分析专家。著有《运营之路:数据分析 + 数据运营 + 用户增长》一书,通过三部分内容,详细介绍了数据分析的方法、数据运营的玩法、用户增长的打法。 现任招商证券数字化办公室数据分析专家。拥有 13 年数据分析和运营经验,曾在咨询行业、地产、金融行业任职,对互联网、医药、金属冶炼、零售、快消品、供应链、地产、金融等多个行业有丰富的数据分析与运营经验。 极客时间企业版解决方案专家 聚焦企业培训 / 咨询解决方案;致力于数字化人才培养的研究及企业服务的提供;具备传统咨询公司咨询 / 培训模式经验 + 互联网公司产品、运营视角及经验 + 数字化人才培养发展视角及经验。部分服务客户:中国银联、华泰证券、国泰君安证券、光大银行、北京银行、中信银行、民生银行、平安科技、兴业数金、华为、腾讯、京东、麦当劳、东风集团、吉利汽车。 极客邦科技 CGO、InfoQ 极客传媒 & 极客时间企业版总经理 统筹包括数字化技术交流峰会、技术媒体、整合营销、企业数字人才体系解决方案等团队,为极客邦科技在行业的影响力及长期的健康发展负责。拥有 IT 技术媒体数十年从业经验,个人愿景定位在科技领域,致力于为金融、汽车、运营商、科技企业建设数字化人才培养体系,服务客户包括招商银行、国泰君安、民生银行、北京银行、华为、昆仑数智、中国联通、华润集团、东风汽车、中国电信等。 精彩话题推荐 团队管理新策略:交流数据团队搭建思路,探讨塑造组织数据文化的方式 人才培养全景图:从技能筛选到成长路径,全方位构建数据分析师的能力框架 工作场景实战术:分享数据驱动决策的实战案例,交流如何真正释放数据价值 行业视野新拓展:AI 时代下,数据分析团队变革与人才发展新机遇 在活动中,还将带来多个数据分析人才培养项目的优秀实践和方案,如果您也在数据分析团队能力建设上面临以下难题,欢迎来直播间寻找答案。 今日荐文 缺卡、缺电、缺组网技术!谁能为马斯克构建出全球最强大的 10 万卡超级集群? 颠覆传统架构!华人科学家 20 年心血:AI 能效提高 1000 倍,未来需求井喷! 训练一次经历 419 次意外故障!英伟达 GPU 也差点玩不转 405B 模型,全靠 Meta 工程师后天救场! 中国人每周工作时间越来越长;员工不及时回复消息被罚50元;中科大保卫处招聘硕士税后月薪5800-7600元 | AI周报 第一个制定了AI 议程的奥运会开幕了!谷歌、阿里等厂商的大模型也来“干活”了

深度解码:AI 大模型的繁荣与困境

当前,人们正身处于一个日新月异的数字化时代,其中,人工智能技术的发展速度和规模令人惊叹,已然成为驱动技术进步的一股不可忽视的力量。在众多的人工智能技术中,大模型尤其引人注目,它已成为实现超凡性能的关键因素之一。不论是在自然语言处理、计算机视觉、机器翻译还是智能对话等领域,大模型都表现出了无比出色的性能,而这些都是人工智能无限潜力的生动展现。 AI 大模型指的是那些拥有大量参数的人工智能模型。这些模型通常通过大量的数据进行训练,可以学习和理解复杂的模式和关系。近两年来,大模型技术呈现爆发式的增长,而且在各个研究领域和实践任务上都取得了引人注目的成果。诸多科技巨头公司也纷纷投身于大模型的研发与应用中。在最早应用大模型的自然语言处理(NLP)领域,OpenAI 推出了拥有 1750 亿个参数的 ChatGPT,这一行动激发了一系列的应用热潮:微软(Microsoft)将 ChatGPT 接入了其搜索引擎 Bing;谷歌(Google)推出了自家的语言大模型 PaLM 和对话模型 Bard,并且已经开始了 PaLM2 的研发;我国百度、字节跳动、华为等公司也都在积极推出了自己的语言大模型。这些语言大模型展示了出色的问答、知识挖掘、推理、规划能力,充分展现了人工智能的无穷可能。OpenAI 的一份报告指出,美国约 80% 的工作领域都可能会受到 ChatGPT 的影响。从这一点可以看出,NLP 大模型具有巨大的市场潜力和价值。 在 NLP 大模型取得了巨大成功的鼓舞下,其他领域也涌现出了大模型的身影。在语音识别领域,OpenAI 和谷歌分别推出了拥有 15 亿参数的 Whisper 模型和 20 亿参数的 USM 模型,而微软则推出了能够在几秒钟内准确模仿任何人说话声音和语调的语音生成模型 VALL-E;在视觉领域,基于大模型工作的 GPT-4 和 OpenCLIP 进行了语音和视觉的跨模态训练,使得这些模型能够用自然语言的方式去理解图片。此外,谷歌和脸书公司也各自采用了监督学习和非监督学习的方式,分别训练了 220 亿参数和 65 亿参数的 Vision Transformer 视觉大模型,这些模型在性能上大大超越了参数数量更少的模型;在强化学习领域,谷歌和 Deepmind 公司开发的 PaLM-E 和 Gato,也开始探索和实验强化学习大模型的可能性。总体来看,大模型的热潮正在各个人工智能领域席卷而来,预示着更广阔的应用前景和可能性。 这股 AI 大模型的热潮并不仅仅局限于研发和科技公司,也将渗透到更为广泛的应用领域。例如,在医疗健康、金融、教育、零售及制造等领域,大模型都展示出了巨大的潜力。基于大模型的人工智能工具可以助力医生进行更精确的诊断,帮助金融机构做出更精准的投资决策,协助教师进行个性化教学,以及帮助零售商家进行更有效的客户分析等。因此,大模型不仅仅改变了人工智能的研究和开发,也正在深度影响人们的日常生活。 与此同时,AI 大模型所引发的热潮也带来了一些值得深思的问题。模型的规模和复杂度的增加,使得模型训练和运行需要的计算资源和能源消耗也大大增加,这无疑加大了环境压力。此外,随着大模型在各个领域的应用,如何保证其决策的公平性、透明性,以及用户隐私的保护都成了一些亟待解决的问题。解决这些问题需要在推动 AI 大模型的发展和应用的同时,思考并采取有效的措施来优化其痛点问题。 不可否认,AI 大模型的热潮在各领域带来了深远影响,它们的表现力和潜力令人瞩目。然而,随着技术的进步,人们也应继续努力,以确保这些大模型的发展和应用在带来巨大收益的同时,尽可能地减少其潜在的负面影响。人工智能的未来仍然广阔无垠,而人类正站在这个探索和发展的大潮之中。 AI 大模型的发展与挑战 与传统模型相比,AI 大模型具有更强的学习和理解能力。由于大模型的参数数量多,它们可以学习和理解更复杂、更细微的模式,从而使任务(如文本理解、图像识别等)达到更好的效果。同时,它们可以处理更复杂的任务,如机器翻译、自然语言理解、医学影像识别等。在诸如医疗、能源、环保等领域,问题往往十分复杂,而大模型的强大学习能力可以帮助人们更快地找到解决方案。 尽管 AI 大模型带来了巨大的机会和价值,但其也伴随着一些风险和挑战,这些挑战主要集中在以下几个方面。 数据和隐私问题:训练大型 AI 模型需要大量的数据,这可能导致数据隐私和数据安全问题。需要在收集、存储和处理数据的过程中确保用户的隐私权和数据安全。 计算资源需求:大型 AI 模型需要大量的计算资源进行训练和运行,这不仅加大了资源消耗,同时也可能导致这种先进技术只能在资源富裕的组织或者国家得到应用推广,进一步加剧了技术鸿沟。 模型的可解释性:大型 AI 模型由于其复杂性和“黑箱”特性,模型的决策过程和原理往往难以理解和解释。这可能会导致其在某些需要高度透明和解释性的领域(如医疗、法律)中应用受限。 偏见和公平性:如果训练数据中存在偏见,大型 AI 模型可能会放大这种偏见,导致模型的预测结果存在不公平性。需要在模型设计和训练阶段就注意避免偏见的引入,保证 AI 的公平性。 泛化能力:虽然大型 AI 模型在训练数据上的表现通常很好,但在面对新的、未见过的数据时,其表现可能会下降。这种情况在 AI 领域被称为过拟合问题,是大型 AI 模型需要解决的关键问题之一。 面对这些挑战,有关部门需要采取相应的策略和措施来解决。例如,通过制定严格的数据管理政策来保护数据隐私,采用高效的模型和算法来减少计算资源需求,利用模型可解释性技术来提高模型的透明度,同时在模型设计和训练阶段就注重避免偏见的引入,提高模型的泛化能力等。 为了减少 AI 大模型对环境的影响,可以采取多种措施。一方面,努力优化模型的计算效率,减少能源消耗,如采用模型剪枝、量化和压缩等技术来减小模型的规模;另一方面,推动使用可再生能源和高效能源供应链来支持大规模的模型训练和推理。此外,建立绿色 AI 的研究方向和标准,促进环境友好型的人工智能发展也是至关重要的。 确保 AI 大模型的决策公平性、透明性和用户隐私保护是至关重要的。为了避免潜在的偏见和不公平性,应该进行数据集的多样性和平衡性验证,避免对特定群体的歧视。同时,开发可解释和可追溯的模型方法,使得模型的决策过程能够被理解和解释,增强其透明性。此外,还要加强数据隐私保护的技术和法律措施,确保用户的个人数据不被滥用和泄露。 加强人工智能伦理和法规的建设也是必要的。制定适应人工智能发展的法律法规,明确人工智能系统的责任和义务,确保其符合伦理和社会价值。同时,建立跨学科的合作和多方参与的机制,让政府、学术界、产业界和公众能够共同参与 AI 大模型的发展和应用,促进更全面的讨论和决策。 在 AI 大模型的兴起中,人们应该既关注技术的进步和创新,又注重社会的可持续发展和人的福祉。通过共同努力,人们可以探索并塑造一个 AI 大模型广泛应用的未来,为人类创造更多的机遇和福利。 除了环境影响、公平性和隐私保护外,AI 大模型的兴起还带来了其他值得思考的问题和挑战。 构建和训练大规模的 AI 模型需要庞大的计算资源和数据集,使得只有少数研究机构和科技巨头能够承担这样的成本和工作量。这导致了资源集中,甚至可能会加剧技术差距和创新壁垒,使得其他机构和个人很难进入和发展。因此,需要寻求降低技术门槛和促进资源共享的方法,以确保 AI 大模型的发展具有更广泛的参与性和可持续性。 另外,虽然 AI 大模型在许多领域展示出巨大的潜力,但其广泛应用也可能对就业市场和经济结构产生影响。某些传统的工作岗位可能会受到自动化的冲击,需要重新思考教育和职业发展的策略,以应对这一变革。此外,AI 大模型的广泛应用还可能导致数据和算法的垄断现象,进一步加剧数字鸿沟和不平等问题。因此,需要制定相应的政策和措施,以确保技术进步的同时,也能够促进包容性增长和公平分配。 伦理和价值观的问题也值得重视。随着 AI 大模型在决策和影响力方面的扩大,需要审慎思考和讨论其背后的伦理和道德问题。例如,模型的决策是否应该受到人类的监督和干预?模型是否应该具有道德判断和责任感?如何平衡技术的效益和风险,以及人类的自主性和权益?这些问题需要集合多方的智慧和参与,进行广泛的讨论和共识建设。 AI 大模型的兴起给人工智能领域带来了巨大的创新和发展机遇。然而,也必须认识到其中的挑战和潜在风险,并采取相应的措施来解决这些问题。通过科技界、政府、企业和社会各界的合作,可以共同推动 AI 大模型的可持续发展,实现人工智能在实践中的最大利益和最大效益。 AI 大模型为何难以训练 在大模型还未兴起的时期,深度学习相关任务常见的模型训练方式是单机单卡,也就是使用一台服务器节点上的一块 GPU 设备完成模型训练任务。然而,随着大模型时代的到来,模型参数量和训练数据量急剧增长,规模的增加给模型训练带来了新的难题。数据量的增加使得每次训练迭代的计算量增加,训练时间更长,而模型参数量的增加不仅使得模型的训练计算量和训练时间增长,更重要的是单个设备的显存容量无法再容纳模型参数及训练中产生的梯度、优化器参数、激励值。为了解决这些问题,研究者们希望能增加计算资源,使模型和数据可以分布到不同节点、不同 GPU 设备上,并采用多种分布式训练技术来进行高效且可扩展的大模型训练。 然而,大部分大模型相关从业人员能获取的计算资源有限,如何利用有限的显存容量进行高效的大模型训练成为从业人员关注的热点。堆叠硬件设备数量可以保证顺利容纳模型参数,但其计算效率并不能线性提高,由于硬件设备数量增加,训练产生的节点与节点间、GPU 设备之间的通信开销也将相应的增加,因此成为大模型训练中新的瓶颈。最后,分布式情况下的模型训练引入了额外的工程实现难题,如何利用操作系统、计算机网络和并行计算等领域的相关知识实现高效可靠且具有扩展性的分布式模型并行训练策略成为实现大模型训练的关键。 总体来讲,可以将大模型训练的瓶颈分为 4 类:数据量、计算、内存和通信。 1. 数据量瓶颈 大规模、多样化的训练数据集是大模型卓越的语义理解能力的关键,OpenAI GPT-1 的无监督训练使用了超过 7000 本不同题材的书籍,GPT-2 的训练集是一个 40GB 的私有数据集 WebText,GPT-3 的训练集超过了 570GB,而 Meta 开源的 LLaMA 使用的训练集更是达到了 4.7TB。面对如此庞大规模的数据量,即便是简单的遍历也将花费大量的时间,将其输入大模型并进行训练的时间开销则更大,同样一个模型在同样的计算环境下,随着其训练数据量的增长,其训练时间也将相应增加。 为了加速训练,一个常用的方法是使用数据并行技术,对数据集进行切分,采用单机多卡或多机多卡的服务器集群,每个 GPU 设备上保留相同的模型参数,在训练时分别读取不同的数据进行训练,并采用集合通信同步参数更新。通常,原本单个 GPU 设备一次迭代仅能输入一批样本,同时使用多个 GPU 设备则可以同时训练多批样本,通过增加输入的数据量,减少了模型训练的迭代次数,从而减少模型训练时间。 然而,单独使用数据并行通常要求每个 GPU 设备都能保存模型的全部参数,但是由于大模型的参数量较大,单个 GPU 设备往往无法容纳整个模型的参数,因此,数据并行通常还需要与其他分布式训练技术结合使用来加速大模型的训练。 2. 计算瓶颈 计算瓶颈主要体现在数据量与模型参数量规模增长带来的计算量陡增,以及对计算资源的利用效率低的问题。 从计算量来看,数据量的增长使得模型语义理解能力提升,性能更强,但这也导致模型训练迭代次数更多,计算量也更多;增加模型参数量是取得模型性能提升的另一个有效途径,但这使得每次训练迭代内部的计算量也增加。表 1 给出了现有的部分大语言模型的参数量以及训练所需的数据量,其中 B 代表 Billion(十亿),T 代表 Trillion(万亿)。 表 1 现有大语言模型参数量和数据量 Hoffmann 等人注意到,在给定的计算资源下,为了达到预定的一个目标性能,通常需要在模型参数量和数据量之间进行折中,因此采用多种不同方法分析了二者之间的关系。表 2 给出了在不同参数量的情况下,为了达到特定性能需要的计算量和数据量,其中 FLOPs 代表浮点运算数量。 表 2 不同参数量模型对计算量(FLOPs)和数据量的需求 从计算资源的利用率来看,深度学习和人工智能技术的火热也推动着 GPU 设备的不断发展,GPU 设备这类高性能硬件的算力不断增强,采用更高算力的 GPU 设备进行模型训练能显著提升训练速度,从而能部分解决计算量的问题。然而,针对不同目标进行优化的分布式并行训练技术通常会导致计算或通信的额外开销,从而降低计算设备的利用率。 为了最大化计算设备的利用率,提升训练速度,降低训练成本,可以从不同粒度对模型训练技术进行优化。在算子层面,可以采用算子融合的技术减少算子产生的中间变量,从而在减少内存开销的同时提升计算设备的利用率。基于算子间的结合性或可交换性,采用算子替换技术也可以提升计算效率;在计算图层面,主要是考虑模型并行技术对模型进行切分时,得到通信效率最高的模型并行策略,从而降低通信时延,提升计算设备的利用效率。使用基于流水线的模型并行策略时,通过减少流水线内部的气泡,可最大化单个 GPU 设备的计算负荷;在任务调度层面,可以考虑设计自动并行策略。根据不同规模的计算资源,自适应选取混合的分布式并行策略,并考虑用计算时间覆盖通信的时延或者降低通信量,从而最大化计算设备的利用率。 3. 内存瓶颈 不同于便宜的主存,模型训练通常采用的是成本昂贵的 GPU 芯片,而 GPU 设备的内存容量有限,常见的 GPU 芯片的内存容量规格较大的也只有 80GB 或 40GB 等,远远不及常见的主存规格,因此,内存成了制约大模型训练的重要瓶颈。模型训练过程的内存开销分为静态和动态两个部分,静态内存开销包括模型自身的参数和一些优化器的状态参数,而动态内存开销则是模型在针对输入数据进行计算的时候产生的临时变量,包括前向传播产生的激励值、反向传播产生的梯度,以及一些算子计算过程中的中间变量。静态内存开销由于跟模型固有结构有关,在训练时又通常需要驻留在 GPU 设备中,难以对其进行优化,因此,模型训练的内存瓶颈主要考虑动态产生的内存开销。 为了对动态的内存开销进行优化,有多种不同的分布式训练技术。例如,通过混合精度技术,可以降低部分参数表示所需要的字节数,将一个双精度 8 字节的浮点数转为 2 字节的浮点数即可将参数量缩减到原来的 1/4,然而,这一方法通常会影响模型的计算精度;通过模型并行技术中的张量并行,可以将一个参数矩阵拆分到不同 GPU 设备,从而减小单个设备上的计算数据量;通过模型并行技术中的流水线并行,将不同模型层划分到不同节点或不同设备,同样可以减小单个设备的数据量,并且可以通过流水线的原理,覆盖每次迭代模型层之前的通信开销;采用 Gradient Checkpointing 技术可以减少模型训练时激励值占用的内存开销;基于 Offload 技术可以结合 GPU、CPU、NVMe 实现异构内存的模型训练,将内存开销部分转移到便宜的主存中。 然而,在计算机领域中时间和空间的优化之间普遍存在折中,以上方法虽然可以对内存瓶颈进行优化,但却引入了额外的通信或计算开销,因此需要针对具体训练任务下的模型参数量进行分析,才能得到最合适的内存优化策略。 4. 通信瓶颈 大模型参数规模极大,通常需要采用模型并行等技术,将参数放置到不同节点、不同 GPU 设备上,才能使得硬件设备能完全容纳模型参数,然而,这样就不可避免地引入了额外的通信开销。 一个计算节点通常有多个 GPU 设备,而一个计算集群通常有多个计算节点,由于 GPU 这类芯片具有高速并行计算的特性,大规模模型训练时节点内的通信带宽远高于节点间的通信带宽,因此计算资源的增加也导致了通信开销增加。此外,如果仅增加节点间或节点内的通信带宽,也并不能保证直接提升模型训练的效率,这是因为现有的模型训练常采用同步的集合通信,每次训练迭代过程中需要同步操作,因此通信将受最慢一次通信的限制。以集合通信常见的 Ring AllReduce 为例,随着计算节点的增加,通信的环将增加,通信次数变多,由此使得通信时延增加。 总之,为了对模型训练中的通信效率进行优化,通常需要考虑多方面的因素,包括网络拓扑结构、计算资源的带宽、模型的参数量等,从而设计出通信效率最大化的模型并行具体策略。 综上所述,大模型训练由于参数量和数据量规模较大,需要采用分布式技术进行训练,在训练过程中往往会受限于数据量、计算、内存和通信 4 个方面的问题,四者相互之间又存在不同程度的影响,为了减小通信开销,最大化硬件设备的利用率,缩短模型训练时间,降低模型训练成本,需要考虑多种限制因素,包括数据量、参数量、网络拓扑结构、通信带宽、硬件设备内存容量和算力等,采用多种优化技术对不同瓶颈进行优化。 以上内容节选自《实战 AI 大模型》,作者:尤洋 今日荐文 缺卡、缺电、缺组网技术!谁能为马斯克构建出全球最强大的 10 万卡超级集群? 颠覆传统架构!华人科学家 20 年心血:AI 能效提高 1000 倍,未来需求井喷! 训练一次经历 419 次意外故障!英伟达 GPU 也差点玩不转 405B 模型,全靠 Meta 工程师后天救场! 中国人每周工作时间越来越长;员工不及时回复消息被罚50元;中科大保卫处招聘硕士税后月薪5800-7600元 | AI周报 第一个制定了AI 议程的奥运会开幕了!谷歌、阿里等厂商的大模型也来“干活”了

构建大模型一年多,我们总结了关于 LLM 应用的运营经验

作者丨 Eugene Yan et al. 译者丨明知山 策划丨褚杏娟 常有人错误地将这样一句话归因于一些领导者,尽管它可能完全是虚构的:“外行谈论战略和战术,内行关注运营。”从战术的角度看,我们面对的是一系列独特的问题,从运营角度,我们看到的是需要解决的组织功能失调模式。在战略视角看到的是机会,在运营视角看到的是需要应对的挑战。 在本系列文章的第一部分,我们介绍了 LLM 的战术性操作。接下来,我们将拓宽视野,深入探讨长期的战略规划。在这一部分,我们将讨论构建 LLM 应用程序的运营层面,这些应用程序是战略与战术的桥梁,将理论与实际应用紧密结合。 在运营 LLM 应用程序过程中,我们遇到了一些似曾相识的问题,这些问题在传统软件系统的运营中也常常出现,不同的是它们也带来了一些新的挑战,使得探索过程充满了趣味。此外,运营 LLM 应用程序还带来了一些全新的问题。我们将这些问题及其答案归纳为四个部分:数据、模型、产品和人。 对于数据,我们将探讨这几个问题:如何以及多久需要重新审视一次 LLM 的输入和输出?如何测量并有效减少测试环境与生产环境之间的偏差? 对于模型,我们将探讨这几个问题:如何将语言模型集成到现有的技术栈中?如何看待模型的版本控制以及如何在不同模型和版本之间进行平滑迁移? 对于产品,我们将探讨这几个问题:设计应该在何时介入应用程序的开发过程,为什么要“尽早介入”?如何设计能够充分吸纳人类反馈的用户体验?在面对相互冲突的需求时如何安排优先级?如何校准产品风险? 最后,对于人,我们将探讨这几个问题:选择哪些人才来构建成功的 LLM 应用程序,以及何时招募他们?如何培养正确的实验性文化?如何利用现有的 LLM 应用程序来辅助开发自己的 LLM 解决方案?哪一个更关键:流程还是工具? 运营:LLM 应用程序的 构建和开发团队 数据 正如精选的食材能够成就一道佳肴,高质量的输入数据同样对机器学习系统的表现起着决定性作用。此外,系统的输出是评估其是否正常工作的唯一方式。所有人都紧密关注数据,他们每周都会花几个小时细致地分析输入和输出,以便更好地理解数据分布:模式、边缘情况以及模型的局限性。 检查开发与生产偏差 在传统机器学习流程中存在的一个普遍问题是训练与服务之间的偏差。这种情况通常发生在模型训练时使用的数据与模型在实际应用中遇到的数据不一致时。尽管我们可以无需训练或微调就能够使用 LLM,从而避免了训练集的问题,但开发与生产环境之间的数据偏差问题依然存在。关键在于,在开发阶段测试系统时所用的数据应与系统在生产环境中实际面对的数据相一致。如果不是这样的话,我们可能会发现生产环境中的模型准确性会受影响。 LLM 开发与生产偏差可以分为两种类型:结构性偏差和基于内容的偏差。结构性偏差包括格式不一致,比如 JSON 字典与 JSON 列表之间的差异、不一致的大小写以及错误,如错别字或不完整的句子片段。这些错误可能导致模型性能不可预测,因为不同的 LLM 是基于特定的数据格式训练的,而提示词对微小变化都非常敏感。基于内容的偏差(或“语义”偏差)指的是数据的含义或上下文的差异。 正如传统的机器学习一样,对 LLM 的输入和输出进行定期的偏差检测是非常有必要的。输入和输出的长度或特定格式要求(例如,JSON 或 XML)等指标是跟踪变化最直接的方式。对于更“高级”的漂移检测,可以采用更高级的方法,如聚类输入 / 输出对的嵌入向量可用于检测语义漂移:如果用户讨论的主题发生变化,这可能表明他们正在探索模型以前没有接触过的领域。 在测试变更时,例如提示词工程,确保保留数据集是最新的,并且能够反映用户交互的最新类型。例如,如果错别字在生产环境的输入中很常见,那么它们也应该出现在保留数据中。除了进行数值偏差检查之外,对输出进行定性评估也很有用的。定期检查模型输出——俗称“氛围检查”——可以确保结果符合预期并满足用户需求。最后,将非确定性纳入偏差检查中——通过多次运行测试数据集中的每个输入并分析所有输出,可以增加捕捉那些可能仅偶尔发生异常情况的可能性。 每天检查 LLM 的输入和输出样本 LLM 是动态且持续进化的。尽管它们具有令人印象深刻的零样本学习能力,并且经常能够生成令人满意的输出,但它们的失败模式却非常难以预测。对于自定义任务,定期审查数据样本有助于培养对 LLM 性能的直观理解。 生产环境的输入输出对是 LLM 应用程序的“现场证据”,它们不会被替换。最近的研究表明,开发者对什么构成“好”和“坏”输出的看法会随着他们与更多数据的交互而发生变化(即所谓的标准漂移)。虽然开发者可以预先设定一些标准来评估 LLM 输出,但这些预定义的标准通常不够全面。例如,在开发过程中,我们可能会更新提示词,以增加获得良好响应的概率,并降低获得不良响应的概率。这种评估、重新评估和标准更新的迭代过程是必不可少的,因为在没有直接观察输出的情况下,很难预测 LLM 的行为或人类的偏好。 为了有效地管理大型语言模型,我们需要记录 LLM 的输入和输出。通过每天检查这些日志样本,我们能够及时识别并适应新的模式或故障模式。在发现新问题时,我们可以立即编写断言或制定评估策略来应对这些问题。同样,对故障模式定义的更新都应实时反映在评估标准中。这些“氛围检查”可以帮助我们捕捉到不良输出的信号,而通过编写代码和断言,我们能够将这些检查操作化,使之成为可执行的过程。最后,这种态度需要在团队中得到普及,例如通过在值班轮换中加入对输入和输出的审查或注释环节。 调用模型 在使用 LLM API 时,我们确实可以依靠少数几家技术供应商的智能成果。虽然这为我们提供了便利,但同时也带来了一些权衡,包括性能、延迟、吞吐量和成本等方面。此外,随着更新、更好的模型(在过去一年中几乎每个月都会有新模型发布)的发布,我们需要随时准备好更新我们的产品,以弃用旧模型并迁移到新模型。在这一章节,我们将分享在使用这些我们不能完全控制的技术时的经验,特别是关于如何管理那些我们无法自托管的模型。 生成结构化输出,简化下游集成 对于大多数现实世界的场景,LLM 的输出需要通过机器可读的格式提供给下游应用程序。例如,Rechat,一个房地产 CRM 系统,需要结构化的响应来在前端显示小部件。同样,Boba,一个用于生成产品策略想法的工具,需要输出包含标题、摘要、可信度得分和时间范围字段的结构化信息。LinkedIn 通过限制 LLM 生成 YAML 格式的数据,用于决定使用哪种”技能“,并提供调用这些技能所需的参数。 这种应用模式体现了 Postel 定律的极致:在接收时宽容(接受任意自然语言),在发送时保守(输出类型化、机器可读的对象)。因此,我们期望这种方法具有很高的稳定性和可靠性。 目前,Instructor 和 Outlines 是从 LLM 中提取结构化输出的实际标准。如果你在使用 LLM API(比如 Anthropic 或 OpenAI),请优先选择 Instructor;而如果你在使用自托管的模型(例如 Hugging Face),则推荐使用 Outlines。 为不同模型修改提示词是一种痛苦 有时,我们精心编写的提示词在一种模型上表现出色,但在另一种模型上却表现平平。这种情况可能在我们更换不同模型供应商时发生,也可能出现在同一模型的不同版本升级过程中。 例如,Voiceflow 在从 gpt-3.5-turbo-0301 迁移到 gpt-3.5-turbo-1106 时,他们的意图分类任务性能下降了 10%。(幸运的是,他们进行了评估!)同样,GoDaddy 注意到了一个积极的变化,升级到 1106 版本缩小了 gpt-3.5-turbo 和 gpt-4 之间的性能差距。(或者,如果你是一个乐观的人,可能会对 gpt-4 的领先优势在这次升级中有所减少感到失望。) 因此,如果我们不得不在模型之间迁移提示词,预计这将是一个比简单更换 API 端点更耗时的过程。不要想当然地认为使用相同的提示词能够得到相似或更好的结果。此外,拥有一个可靠的自动化评估系统,可以在迁移前后有效地衡量任务性能,并显著减少所需的手动验证工作。 版本控制和固定你的模型 在机器学习管道中,“改变一点,影响全局”是一个普遍现象。这一点在我们依赖自己未参与训练的组件,例如大型语言模型(LLM)时,显得尤为突出,因为这些模型可能会在不被我们察觉的情况下发生变化。 幸运的是,许多模型供应商提供“锁定”特定模型版本(例如,gpt-4-turbo-1106)的选项。这样,我们可以使用特定版本的模型权重,确保它们保持不变。在生产环境中锁定模型版本有助于防止模型行为发生意外变化,从而减少因模型更新可能导致的问题(例如过于冗长的输出或其他不可预见的故障模式)。 此外,可以考虑维护一个影子管道,这个管道镜像了生成环境的设置,但使用的是最新的模型版本。这为实验和测试新版本提供了一个安全的环境。一旦确认这些新模型的输出在稳定性和质量上符合标准,就可以自信地升级生产环境中的模型版本。 选择能够完成任务的最小模型 在开发新应用程序时,使用最强大的模型往往具有极大的吸引力。然而,一旦我们确认了技术可行性,就很有必要尝试一下使用更小的模型是否能够产生同样优质的结果。 小模型的优势是较低的延迟和成本。虽然在性能上可能略显逊色,但通过诸如思维链、n-shot 提示词和上下文学习等先进技术的应用,它们完全有可能超越自身的限制。除了调用 LLM API,针对特定任务进行微调也能够显著提升性能。 综合考虑,一个精心设计的工作流,即使使用较小的模型,通常也能匹敌甚至超越单个大型模型的输出质量,同时还具备更快的处理速度和更低的成本。例如,这个推文分享了 Haiku 结合 10-shot 提示词的表现优于零样本的 Opus 和 GPT-4。从长远来看,我们期望看到更多流程工程的案例,使用较小的模型实现输出质量、响应时间和成本之间的最佳平衡。 作为另一个典型案例,我们来看一下那些看似简单的分类任务。轻量级的 DistilBERT(6700 万参数)模型居然是一个出人意料的强大基线。在开源数据上进行微调后,拥有 4 亿参数的 DistilBART 更是一个不错的选择——它在识别幻觉方面的 ROC-AUC 值达到了 0.84,在延迟和成本方面增加不到 5%,超越了大多数大型语言模型。 重点是,我们不要轻视那些模较小的模型。尽管人们往往倾向于对各种问题都应用庞大的模型,但通过一些创新思维和实验探索,我们常常能够发现更为高效的解决方案。 产品 虽然新技术为我们带来了新的可能性,但构建卓越产品的核心原则始终不变。因此,即使是在第一次面临新挑战时,我们也无需在产品设计方面重新发明轮子。将我们的 LLM 应用程序开发建立在坚实的产品理念之上,这将使我们能够为用户带来真正的价值。。 及早并频繁地进行设计 设计师的参与有助于推动你深入思考如何构建和向用户展示产品。我们有时会将设计师简单定义为美化事物的人。然而,除了用户界面之外,他们还会全面思考如何改进用户体验,甚至是打破现有的规则和范式。 设计师擅长将用户需求转化为各种各样的形式。这些形式有些更容易实现,而有些则为 AI 技术提供了更多或更少的施展空间。与许多其他产品一样,构建 AI 产品应该以要完成的任务为中心,而不是驱动这些任务的技术。 问问自己:“用户期望这个产品为他们完成哪些任务?这些任务是聊天机器人擅长的吗?能够使用自动完成功能?也许可以尝试一些不同的方案!”审视现有的设计模式,思考它们与要完成的任务之间的联系。这些是设计师为团队能力带来的宝贵贡献。 以 HITL 为导向设计用户体验 一种提升注释质量的方式是将 Human-in-the-Loop(HITL)融入到用户体验(UX)设计中。通过让用户轻松地提供反馈和更正,我们不仅能即时优化输出,还能收集有洞察力的数据来改进我们的模型。 设想一个电子商务平台,用户需要上传并分类他们的商品。我们可以从多个角度来设计用户体验: 用户手动选择产品类别;LLM 定期检查新产品并在后端更正分类错误。 用户不选择产品类别;LLM 定期在后端对产品进行分类(可能存在错误)。 LLM 提供实时产品类别建议,用户可以根据自己的判断进行验证和更新。 虽然这三种方法都利用了 LLM,但它们提供了非常不同的 UX。第一种方法将初始责任放在用户身上,并将 LLM 作为后续的辅助。第二种方法减少了用户的负担,但不提供透明度或控制权。第三种方法找到了二者之间的平衡点。LLM 提前建议类别,减少了用户的认知负担,他们无需深入了解复杂的分类体系。同时,用户可以审查和修改这些建议,他们对如何分类产品有最终的决定权,将控制权牢牢掌握在手中。作为一个额外的好处,第三种方法为模型改进创建了一个自然反馈循环。好的建议会被接受(正反馈标签),不好的建议会被更新(负反馈标签转成正反馈标签)。 这种建议、用户验证和数据收集的模式在多个应用领域中都得到了广泛应用: 编码助手:用户可以接受建议(强烈正反馈)、接受并调整建议(正反馈)或忽略建议(负反馈)。 Midjourney:用户可以选择放大并下载图像(强烈正反馈)、修改图像(正反馈)或生成一组新图像(负反馈)。 聊天机器人:用户可以对响应点赞(正反馈)或不点赞(负反馈),如果响应真的很差,选择重新生成响应(强烈负反馈)。 反馈可以是显式或隐式的。显式反馈是用户对产品提出的意见或评价,隐式反馈是我们需要从用户交互中捕捉的信息,无需用户有意提供。编码助手和 Midjourney 是隐式反馈的例子,而点赞和不点赞是显式反馈。如果我们能够像编码助手和 Midjourney 那样设计 UX,就可以收集到大量的隐式反馈来改进我们的产品和模型。 调整需求层次的优先级 在准备将演示转化为实际应用时,我们需要仔细考虑以下几个关键要素: 可靠性:确保 99.9% 的正常运行时间,同时遵循结构化输出标准; 无害性:避免生成攻击性、NSFW 或其他有害的内容; 事实一致性:忠实于提供的上下文,不虚构信息; 实用性:与用户的需求和请求相关; 可扩展性:延迟 SLA,支持高吞吐量; 成本效益:需要考虑预算限制; 其他:安全性、隐私保护、公平性、GDPR 合规性、DMA 合规性等。 如果我们试图同时解决所有这些要求,我们将永远无法完成产品交付。因此,我们必须进行优先级排序,并且要果断。这意味着我们要清楚哪些是没有商量余地的(例如,可靠性、无害性),没有这些我们的产品就是不可行的。关键在于识别出最基本的产品功能。我们必须接受第一个版本不会完美的事实,并通过不断迭代来改进。 根据用例校准风险承受能力 在选择语言模型及其审查标准时,我们需要根据应用场景和目标受众来做出判断。对于那些提供医疗或财务咨询的聊天机器人,我们必须设定极高的安全和准确性标准。因为任何错误或不当的输出都可能造成严重的后果,并且会严重损害用户对我们的信任。然而,对于不那么关键的应用,比如推荐系统,或者那些仅供内部使用的应用程序,如内容分类或摘要,过分严格的要求可能会拖慢开发进度,却不会为提升价值带来太大帮助。 这与最近发布的 a16z 报告中的观点相吻合,许多公司在内部 LLM 应用方面比外部应用进展得更快。通过在内部生产力工具中引入 AI,组织可以在更加受控的环境中实现价值,同时学习如何有效地管理风险。然后,随着他们信心的增强,可以逐步扩展到面向客户的应用场景。 团队与角色 定义工作职能不是件容易的事,而在这个新兴领域编写工作描述比其他领域更具挑战性。我们决定不再使用交叉工作职能的文氏图或工作描述的建议。相反,我们将引入一个新的职位——AI 工程师——并探讨其在组织中的位置。同时,我们也将讨论团队其他成员的角色以及如何合理分配责任,这至关重要。 专注于流程,而不是工具 面对新兴的范式,例如大型语言模型,软件工程师们往往更倾向于采用各种工具。这种偏好有时会导致我们忽视了这些工具本应解决的问题和优化的流程。结果,许多工程师不得不应对由此产生的偶然的复杂性,对团队的长期生产力构成了负面影响。 例如,这篇文章讨论了某些工具如何为大型语言模型自动生成提示词。文章认为(在我看来是正确的),那些在没有先理解问题解决方法或流程的情况下使用这些工具的工程师最终会累积不必要的技术债务。 除了偶然的复杂性,许多工具还常常存在规格不足的问题。以不断壮大的 LLM 评估工具行业为例,它们提供所谓的“即插即用”的 LLM 评估服务,涵盖毒性、简洁性、语调等通用评估指标。我们发现许多团队在没有深入分析其领域特有的失败模式的情况下,就盲目采纳了这些工具。与此形成鲜明对比的是 EvalGen,它通过深度参与用户的每一个环节——从定义标准到标注数据,再到评估检查——引导用户构建适合特定领域的评估体系。 Shankar, S. 等人(2024)“谁来验证验证器?将 LLM 辅助评估 LLM 输出与人类偏好对齐”。来源:https://arxiv.org/abs/2404.12272 EvalGen 引导用户通过遵循最佳实践来制定 LLM 评估标准,即: 定义特定领域的测试(通过提示词自动引导)。它们可以是带有代码的断言,或者是采用“LLM 即评委”的形式。 强调将测试与人类判断对齐的重要性,使用户能够验证测试是否确实捕捉到了既定的标准。 随着系统(如提示词内容等)的变化不断迭代和优化测试标准。 EvalGen 为开发人员提供了评估构建过程的框架性理解,而不是将他们限制在特定工具的使用上。我们发现,一旦 AI 工程师获得了这种宏观视角,他们往往会选择采用更简洁的工具,或者根据自己的需求自行开发解决方案。 LLM 的组成部分远不止提示词编写和评估,其复杂性无法在此一一列举。关键在于 AI 工程师在采用工具之前要深入理解其背后的流程和原理。 持续地实验 机器学习产品与实验密切相关。不仅涉及 A/B 测试、随机对照试验,还包括频繁尝试修改系统的最小组件并进行离线评估。人们热衷于评估的真正原因并非仅仅为了可靠性和信心——而是为了让实验成为可能。你的评估越精确,就能越迅速地进行实验,进而更快地发现系统的最佳配置。 尝试采用不同的方法解决同一个问题是一种很常见的做法,因为现在的实验成本很低。收集数据和训练模型的高昂成本已经得到有效控制——提示词工程的成本仅略高于人力投入。确保你的团队成员都掌握了提示词工程的基础知识。这不仅能激发他们进行实验的热情,还能促进组织内部不同观点的交流与碰撞。 此外,实验不仅仅是为了探索,而是要学会利用它们。如果你手头有一个新的任务,可以考虑让团队的其他成员从不同的视角来处理它。尝试寻找更高效的方法,探索如思维链或 few-shot 提示词等技术,以提高工作质量。不要让工具限制了你的实验;如果是这样,那就重新构建它们,或者购买新的工具。 最后,在产品或项目规划阶段,务必留出足够的时间来构建评估机制并进行多项实验。在考虑工程产品的规格时,为评估过程设定明确的标准。在制定路线图时,不要低估了实验所需的时间。要预见到在生产交付之前,可能需要进行多轮的开发和评估迭代。 让每个人都能使用新的 AI 技术 随着生成式 AI 采用率的增加,我们希望整个团队——不仅仅是专家——都能理解并自信地使用这项新技术。没有比亲自实践更好的方式去培养对大型语言模型工作原理的直观理解了,比如它们的响应延迟、故障模式和用户体验。LLM 相对容易使用:你无需编码技能就可以为流程管道提升性能,每个人都可以通过提示词工程和评估做出实质性的贡献。 教育是关键环节,可以从提示词工程的基础开始,如利用 n-shot 和思维链等技术,引导模型生成期望的输出。拥有这方面知识的人还可以教授更技术性的内容,例如大型语言模型本质上是自回归的。换句话说,虽然输入可以并行处理,但输出是顺序的。因此,生成延迟更多地取决于输出的长度而非输入的长度——这是在设计用户体验和设定性能预期时需要考虑的一个关键因素。 我们还可以提供更多实践和探索的机会,比如举办一次黑客马拉松。虽然让整个团队投入数日时间在探索性项目上看起来成本较高,但最终的成果可能会超出你的预期。我们见证了一个团队通过黑客马拉松,在短短一年内就实现了他们原本计划三年完成的路线图。另一个团队则通过黑客马拉松,引领了一场用户体验的范式转变,这种转变现在因为大型语言模型的加入而成为可能。 不要掉入“AI 工程就是一切”的陷阱 随着新职位名称的出现,人们往往容易过分夸大这些角色的能力。这通常会导致在实际工作职责变得逐渐明确时,人们不得不去做一些痛苦的调整。新入行的人和负责招聘的经理可能会夸大声明或抱有不切实际的期望。在过去的十年里,这类显著的例子包括: 数据科学家:“在统计学方面比任何软件工程师都强,在软件工程方面比任何统计学家都强的人” 机器学习工程师(MLE):以软件工程为中心的机器学习视角 最初,许多人认为数据科学家单枪匹马就能驾驭数据驱动的项目。然而,现实情况已经清晰地表明,为了有效地开发和部署数据产品,数据科学家必须与软件工程师和数据工程师紧密合作。 这种误解在 AI 工程师这一新兴角色上再次出现,一些团队误以为 AI 工程师就是他们需要的一切。实际上,构建机器学习或 AI 产品需要一个由多种专业角色 组成的团队。我们与十多家公司就 AI 产品进行了深入咨询,发现他们普遍都陷入了认为“AI 工程就是一切”的陷阱。这种认知导致产品往往难以越过演示阶段,因为公司忽视了构建产品所涉及的关键方面。 例如,评估和度量对于将产品从单一的领域检查阶段扩展到广泛应用阶段来说至关重要。有效的评估能力与机器学习工程师通常所具备的优势相辅相成——一个完全由 AI 工程师组成的团队可能缺乏这些技能。Hamel Husain 在他最近的研究中强调了这些技能的重要性,包括监测数据漂移和制定针对特定领域的评估标准。 以下是在构建 AI 产品的过程中你需要的不同类型角色,以及他们在项目各个阶段大致的参与时机: 首先,专注于构建产品。这个阶段可能涉及 AI 工程师,但并非必须。AI 工程师在快速原型设计和迭代产品方面具有显著的价值(用户体验、数据处理管道等)。 随后,通过系统化地收集和分析数据,为产品打下坚实的基础。根据数据的性质和体量,你可能需要平台工程师或数据工程师。你还需要建立查询和分析数据的系统,以便快速定位问题。 最后,你将致力于优化 AI 系统。这并不一定涉及训练模型,包括设计评估指标、构建评估系统、执行实验、优化 RAG 检索、调试随机性问题等。机器学习工程师非常擅长这些工作(尽管 AI 工程师也可以通过学习掌握这些技能)。但如果你没有完成前面的基础步骤,招聘机器学习工程师可能并不明智。 除此之外,你始终需要一个领域专家。在小型企业,这通常是创始团队的成员;而在大型企业,产品经理也可以担任这一角色。角色的介入时机至关重要。在不恰当的时间(例如,过早让机器学习工程师介入)招聘人员或介入顺序不对,不仅浪费时间和金钱,还会导致频繁的人员更替。此外,在前面两个阶段定期与机器学习工程师沟通(但不全职让他们介入)将有助于公司为未来的成功打下坚实的基础。 原文链接: https://www.oreilly.com/radar/what-we-learned-from-a-year-of-building-with-llms-part-ii/ 声明:本文由 InfoQ 翻译,未经许可禁止转载。  内容推荐 在这个智能时代,AI 技术如潮水般涌入千行百业,深度重塑生产与生活方式。大模型技术引领创新,精准提升行业效率,从教育个性化教学到零售精准营销,从通信稳定高效到金融智能风控,AI 无处不在。它不仅是技术革新的先锋,更是社会经济发展的强大驱动力。在 AI 的赋能下,我们正迈向一个更加智能、便捷、高效的新未来,体验前所未有的生活变革与行业飞跃。 今日荐文 两天内,Meta 和 Mistral 两款主流大模型打擂台!已经不仅卷性能了,谁更便宜就用谁? Llama 3.1 源模型泄露背后:失手的 GitHub,破碎的 Meta,好在最小参数都能打脸GPT-4o! Claude Sonnet 3.5 口碑爆棚!10 倍速开发,“2 个月内用 Rust 从零构建完一款产品” 没投简历却被陌生HR随机辱骂,HR道歉称压力大;OPPO 回应“大量裁撤华为系员工”;传百度新任公关一号位或为蒋昕捷|AI 周报 开源独角兽 GitLab 走上“卖身”路!前工程师拆台:赚钱的业务不好好运营,开发了一堆没用的功能