光年AI - Page 99 of 101 - AI驱动流量增长 - AI资讯，AI营销，AI大模型，AI知识库

构建大模型一年多，我们总结了关于 LLM 应用的运营经验

作者丨 Eugene Yan et al. 译者丨明知山策划丨褚杏娟常有人错误地将这样一句话归因于一些领导者，尽管它可能完全是虚构的：“外行谈论战略和战术，内行关注运营。”从战术的角度看，我们面对的是一系列独特的问题，从运营角度，我们看到的是需要解决的组织功能失调模式。在战略视角看到的是机会，在运营视角看到的是需要应对的挑战。在本系列文章的第一部分，我们介绍了 LLM 的战术性操作。接下来，我们将拓宽视野，深入探讨长期的战略规划。在这一部分，我们将讨论构建 LLM 应用程序的运营层面，这些应用程序是战略与战术的桥梁，将理论与实际应用紧密结合。在运营 LLM 应用程序过程中，我们遇到了一些似曾相识的问题，这些问题在传统软件系统的运营中也常常出现，不同的是它们也带来了一些新的挑战，使得探索过程充满了趣味。此外，运营 LLM 应用程序还带来了一些全新的问题。我们将这些问题及其答案归纳为四个部分：数据、模型、产品和人。对于数据，我们将探讨这几个问题：如何以及多久需要重新审视一次 LLM 的输入和输出？如何测量并有效减少测试环境与生产环境之间的偏差？对于模型，我们将探讨这几个问题：如何将语言模型集成到现有的技术栈中？如何看待模型的版本控制以及如何在不同模型和版本之间进行平滑迁移？对于产品，我们将探讨这几个问题：设计应该在何时介入应用程序的开发过程，为什么要“尽早介入”？如何设计能够充分吸纳人类反馈的用户体验？在面对相互冲突的需求时如何安排优先级？如何校准产品风险？最后，对于人，我们将探讨这几个问题：选择哪些人才来构建成功的 LLM 应用程序，以及何时招募他们？如何培养正确的实验性文化？如何利用现有的 LLM 应用程序来辅助开发自己的 LLM 解决方案？哪一个更关键：流程还是工具？运营：LLM 应用程序的构建和开发团队数据正如精选的食材能够成就一道佳肴，高质量的输入数据同样对机器学习系统的表现起着决定性作用。此外，系统的输出是评估其是否正常工作的唯一方式。所有人都紧密关注数据，他们每周都会花几个小时细致地分析输入和输出，以便更好地理解数据分布：模式、边缘情况以及模型的局限性。检查开发与生产偏差在传统机器学习流程中存在的一个普遍问题是训练与服务之间的偏差。这种情况通常发生在模型训练时使用的数据与模型在实际应用中遇到的数据不一致时。尽管我们可以无需训练或微调就能够使用 LLM，从而避免了训练集的问题，但开发与生产环境之间的数据偏差问题依然存在。关键在于，在开发阶段测试系统时所用的数据应与系统在生产环境中实际面对的数据相一致。如果不是这样的话，我们可能会发现生产环境中的模型准确性会受影响。 LLM 开发与生产偏差可以分为两种类型：结构性偏差和基于内容的偏差。结构性偏差包括格式不一致，比如 JSON 字典与 JSON 列表之间的差异、不一致的大小写以及错误，如错别字或不完整的句子片段。这些错误可能导致模型性能不可预测，因为不同的 LLM 是基于特定的数据格式训练的，而提示词对微小变化都非常敏感。基于内容的偏差（或“语义”偏差）指的是数据的含义或上下文的差异。正如传统的机器学习一样，对 LLM 的输入和输出进行定期的偏差检测是非常有必要的。输入和输出的长度或特定格式要求（例如，JSON 或 XML）等指标是跟踪变化最直接的方式。对于更“高级”的漂移检测，可以采用更高级的方法，如聚类输入 / 输出对的嵌入向量可用于检测语义漂移：如果用户讨论的主题发生变化，这可能表明他们正在探索模型以前没有接触过的领域。在测试变更时，例如提示词工程，确保保留数据集是最新的，并且能够反映用户交互的最新类型。例如，如果错别字在生产环境的输入中很常见，那么它们也应该出现在保留数据中。除了进行数值偏差检查之外，对输出进行定性评估也很有用的。定期检查模型输出——俗称“氛围检查”——可以确保结果符合预期并满足用户需求。最后，将非确定性纳入偏差检查中——通过多次运行测试数据集中的每个输入并分析所有输出，可以增加捕捉那些可能仅偶尔发生异常情况的可能性。每天检查 LLM 的输入和输出样本 LLM 是动态且持续进化的。尽管它们具有令人印象深刻的零样本学习能力，并且经常能够生成令人满意的输出，但它们的失败模式却非常难以预测。对于自定义任务，定期审查数据样本有助于培养对 LLM 性能的直观理解。生产环境的输入输出对是 LLM 应用程序的“现场证据”，它们不会被替换。最近的研究表明，开发者对什么构成“好”和“坏”输出的看法会随着他们与更多数据的交互而发生变化（即所谓的标准漂移）。虽然开发者可以预先设定一些标准来评估 LLM 输出，但这些预定义的标准通常不够全面。例如，在开发过程中，我们可能会更新提示词，以增加获得良好响应的概率，并降低获得不良响应的概率。这种评估、重新评估和标准更新的迭代过程是必不可少的，因为在没有直接观察输出的情况下，很难预测 LLM 的行为或人类的偏好。为了有效地管理大型语言模型，我们需要记录 LLM 的输入和输出。通过每天检查这些日志样本，我们能够及时识别并适应新的模式或故障模式。在发现新问题时，我们可以立即编写断言或制定评估策略来应对这些问题。同样，对故障模式定义的更新都应实时反映在评估标准中。这些“氛围检查”可以帮助我们捕捉到不良输出的信号，而通过编写代码和断言，我们能够将这些检查操作化，使之成为可执行的过程。最后，这种态度需要在团队中得到普及，例如通过在值班轮换中加入对输入和输出的审查或注释环节。调用模型在使用 LLM API 时，我们确实可以依靠少数几家技术供应商的智能成果。虽然这为我们提供了便利，但同时也带来了一些权衡，包括性能、延迟、吞吐量和成本等方面。此外，随着更新、更好的模型（在过去一年中几乎每个月都会有新模型发布）的发布，我们需要随时准备好更新我们的产品，以弃用旧模型并迁移到新模型。在这一章节，我们将分享在使用这些我们不能完全控制的技术时的经验，特别是关于如何管理那些我们无法自托管的模型。生成结构化输出，简化下游集成对于大多数现实世界的场景，LLM 的输出需要通过机器可读的格式提供给下游应用程序。例如，Rechat，一个房地产 CRM 系统，需要结构化的响应来在前端显示小部件。同样，Boba，一个用于生成产品策略想法的工具，需要输出包含标题、摘要、可信度得分和时间范围字段的结构化信息。LinkedIn 通过限制 LLM 生成 YAML 格式的数据，用于决定使用哪种”技能“，并提供调用这些技能所需的参数。这种应用模式体现了 Postel 定律的极致：在接收时宽容（接受任意自然语言），在发送时保守（输出类型化、机器可读的对象）。因此，我们期望这种方法具有很高的稳定性和可靠性。目前，Instructor 和 Outlines 是从 LLM 中提取结构化输出的实际标准。如果你在使用 LLM API（比如 Anthropic 或 OpenAI），请优先选择 Instructor；而如果你在使用自托管的模型（例如 Hugging Face），则推荐使用 Outlines。为不同模型修改提示词是一种痛苦有时，我们精心编写的提示词在一种模型上表现出色，但在另一种模型上却表现平平。这种情况可能在我们更换不同模型供应商时发生，也可能出现在同一模型的不同版本升级过程中。例如，Voiceflow 在从 gpt-3.5-turbo-0301 迁移到 gpt-3.5-turbo-1106 时，他们的意图分类任务性能下降了 10%。（幸运的是，他们进行了评估！）同样，GoDaddy 注意到了一个积极的变化，升级到 1106 版本缩小了 gpt-3.5-turbo 和 gpt-4 之间的性能差距。（或者，如果你是一个乐观的人，可能会对 gpt-4 的领先优势在这次升级中有所减少感到失望。）因此，如果我们不得不在模型之间迁移提示词，预计这将是一个比简单更换 API 端点更耗时的过程。不要想当然地认为使用相同的提示词能够得到相似或更好的结果。此外，拥有一个可靠的自动化评估系统，可以在迁移前后有效地衡量任务性能，并显著减少所需的手动验证工作。版本控制和固定你的模型在机器学习管道中，“改变一点，影响全局”是一个普遍现象。这一点在我们依赖自己未参与训练的组件，例如大型语言模型（LLM）时，显得尤为突出，因为这些模型可能会在不被我们察觉的情况下发生变化。幸运的是，许多模型供应商提供“锁定”特定模型版本（例如，gpt-4-turbo-1106）的选项。这样，我们可以使用特定版本的模型权重，确保它们保持不变。在生产环境中锁定模型版本有助于防止模型行为发生意外变化，从而减少因模型更新可能导致的问题（例如过于冗长的输出或其他不可预见的故障模式）。此外，可以考虑维护一个影子管道，这个管道镜像了生成环境的设置，但使用的是最新的模型版本。这为实验和测试新版本提供了一个安全的环境。一旦确认这些新模型的输出在稳定性和质量上符合标准，就可以自信地升级生产环境中的模型版本。选择能够完成任务的最小模型在开发新应用程序时，使用最强大的模型往往具有极大的吸引力。然而，一旦我们确认了技术可行性，就很有必要尝试一下使用更小的模型是否能够产生同样优质的结果。小模型的优势是较低的延迟和成本。虽然在性能上可能略显逊色，但通过诸如思维链、n-shot 提示词和上下文学习等先进技术的应用，它们完全有可能超越自身的限制。除了调用 LLM API，针对特定任务进行微调也能够显著提升性能。综合考虑，一个精心设计的工作流，即使使用较小的模型，通常也能匹敌甚至超越单个大型模型的输出质量，同时还具备更快的处理速度和更低的成本。例如，这个推文分享了 Haiku 结合 10-shot 提示词的表现优于零样本的 Opus 和 GPT-4。从长远来看，我们期望看到更多流程工程的案例，使用较小的模型实现输出质量、响应时间和成本之间的最佳平衡。作为另一个典型案例，我们来看一下那些看似简单的分类任务。轻量级的 DistilBERT（6700 万参数）模型居然是一个出人意料的强大基线。在开源数据上进行微调后，拥有 4 亿参数的 DistilBART 更是一个不错的选择——它在识别幻觉方面的 ROC-AUC 值达到了 0.84，在延迟和成本方面增加不到 5%，超越了大多数大型语言模型。重点是，我们不要轻视那些模较小的模型。尽管人们往往倾向于对各种问题都应用庞大的模型，但通过一些创新思维和实验探索，我们常常能够发现更为高效的解决方案。产品虽然新技术为我们带来了新的可能性，但构建卓越产品的核心原则始终不变。因此，即使是在第一次面临新挑战时，我们也无需在产品设计方面重新发明轮子。将我们的 LLM 应用程序开发建立在坚实的产品理念之上，这将使我们能够为用户带来真正的价值。。及早并频繁地进行设计设计师的参与有助于推动你深入思考如何构建和向用户展示产品。我们有时会将设计师简单定义为美化事物的人。然而，除了用户界面之外，他们还会全面思考如何改进用户体验，甚至是打破现有的规则和范式。设计师擅长将用户需求转化为各种各样的形式。这些形式有些更容易实现，而有些则为 AI 技术提供了更多或更少的施展空间。与许多其他产品一样，构建 AI 产品应该以要完成的任务为中心，而不是驱动这些任务的技术。问问自己：“用户期望这个产品为他们完成哪些任务？这些任务是聊天机器人擅长的吗？能够使用自动完成功能？也许可以尝试一些不同的方案！”审视现有的设计模式，思考它们与要完成的任务之间的联系。这些是设计师为团队能力带来的宝贵贡献。以 HITL 为导向设计用户体验一种提升注释质量的方式是将 Human-in-the-Loop（HITL）融入到用户体验（UX）设计中。通过让用户轻松地提供反馈和更正，我们不仅能即时优化输出，还能收集有洞察力的数据来改进我们的模型。设想一个电子商务平台，用户需要上传并分类他们的商品。我们可以从多个角度来设计用户体验：用户手动选择产品类别；LLM 定期检查新产品并在后端更正分类错误。用户不选择产品类别；LLM 定期在后端对产品进行分类（可能存在错误）。 LLM 提供实时产品类别建议，用户可以根据自己的判断进行验证和更新。虽然这三种方法都利用了 LLM，但它们提供了非常不同的 UX。第一种方法将初始责任放在用户身上，并将 LLM 作为后续的辅助。第二种方法减少了用户的负担，但不提供透明度或控制权。第三种方法找到了二者之间的平衡点。LLM 提前建议类别，减少了用户的认知负担，他们无需深入了解复杂的分类体系。同时，用户可以审查和修改这些建议，他们对如何分类产品有最终的决定权，将控制权牢牢掌握在手中。作为一个额外的好处，第三种方法为模型改进创建了一个自然反馈循环。好的建议会被接受（正反馈标签），不好的建议会被更新（负反馈标签转成正反馈标签）。这种建议、用户验证和数据收集的模式在多个应用领域中都得到了广泛应用：编码助手：用户可以接受建议（强烈正反馈）、接受并调整建议（正反馈）或忽略建议（负反馈）。 Midjourney：用户可以选择放大并下载图像（强烈正反馈）、修改图像（正反馈）或生成一组新图像（负反馈）。聊天机器人：用户可以对响应点赞（正反馈）或不点赞（负反馈），如果响应真的很差，选择重新生成响应（强烈负反馈）。反馈可以是显式或隐式的。显式反馈是用户对产品提出的意见或评价，隐式反馈是我们需要从用户交互中捕捉的信息，无需用户有意提供。编码助手和 Midjourney 是隐式反馈的例子，而点赞和不点赞是显式反馈。如果我们能够像编码助手和 Midjourney 那样设计 UX，就可以收集到大量的隐式反馈来改进我们的产品和模型。调整需求层次的优先级在准备将演示转化为实际应用时，我们需要仔细考虑以下几个关键要素：可靠性：确保 99.9% 的正常运行时间，同时遵循结构化输出标准；无害性：避免生成攻击性、NSFW 或其他有害的内容；事实一致性：忠实于提供的上下文，不虚构信息；实用性：与用户的需求和请求相关；可扩展性：延迟 SLA，支持高吞吐量；成本效益：需要考虑预算限制；其他：安全性、隐私保护、公平性、GDPR 合规性、DMA 合规性等。如果我们试图同时解决所有这些要求，我们将永远无法完成产品交付。因此，我们必须进行优先级排序，并且要果断。这意味着我们要清楚哪些是没有商量余地的（例如，可靠性、无害性），没有这些我们的产品就是不可行的。关键在于识别出最基本的产品功能。我们必须接受第一个版本不会完美的事实，并通过不断迭代来改进。根据用例校准风险承受能力在选择语言模型及其审查标准时，我们需要根据应用场景和目标受众来做出判断。对于那些提供医疗或财务咨询的聊天机器人，我们必须设定极高的安全和准确性标准。因为任何错误或不当的输出都可能造成严重的后果，并且会严重损害用户对我们的信任。然而，对于不那么关键的应用，比如推荐系统，或者那些仅供内部使用的应用程序，如内容分类或摘要，过分严格的要求可能会拖慢开发进度，却不会为提升价值带来太大帮助。这与最近发布的 a16z 报告中的观点相吻合，许多公司在内部 LLM 应用方面比外部应用进展得更快。通过在内部生产力工具中引入 AI，组织可以在更加受控的环境中实现价值，同时学习如何有效地管理风险。然后，随着他们信心的增强，可以逐步扩展到面向客户的应用场景。团队与角色定义工作职能不是件容易的事，而在这个新兴领域编写工作描述比其他领域更具挑战性。我们决定不再使用交叉工作职能的文氏图或工作描述的建议。相反，我们将引入一个新的职位——AI 工程师——并探讨其在组织中的位置。同时，我们也将讨论团队其他成员的角色以及如何合理分配责任，这至关重要。专注于流程，而不是工具面对新兴的范式，例如大型语言模型，软件工程师们往往更倾向于采用各种工具。这种偏好有时会导致我们忽视了这些工具本应解决的问题和优化的流程。结果，许多工程师不得不应对由此产生的偶然的复杂性，对团队的长期生产力构成了负面影响。例如，这篇文章讨论了某些工具如何为大型语言模型自动生成提示词。文章认为（在我看来是正确的），那些在没有先理解问题解决方法或流程的情况下使用这些工具的工程师最终会累积不必要的技术债务。除了偶然的复杂性，许多工具还常常存在规格不足的问题。以不断壮大的 LLM 评估工具行业为例，它们提供所谓的“即插即用”的 LLM 评估服务，涵盖毒性、简洁性、语调等通用评估指标。我们发现许多团队在没有深入分析其领域特有的失败模式的情况下，就盲目采纳了这些工具。与此形成鲜明对比的是 EvalGen，它通过深度参与用户的每一个环节——从定义标准到标注数据，再到评估检查——引导用户构建适合特定领域的评估体系。 Shankar, S. 等人（2024）“谁来验证验证器？将 LLM 辅助评估 LLM 输出与人类偏好对齐”。来源：https://arxiv.org/abs/2404.12272 EvalGen 引导用户通过遵循最佳实践来制定 LLM 评估标准，即：定义特定领域的测试（通过提示词自动引导）。它们可以是带有代码的断言，或者是采用“LLM 即评委”的形式。强调将测试与人类判断对齐的重要性，使用户能够验证测试是否确实捕捉到了既定的标准。随着系统（如提示词内容等）的变化不断迭代和优化测试标准。 EvalGen 为开发人员提供了评估构建过程的框架性理解，而不是将他们限制在特定工具的使用上。我们发现，一旦 AI 工程师获得了这种宏观视角，他们往往会选择采用更简洁的工具，或者根据自己的需求自行开发解决方案。 LLM 的组成部分远不止提示词编写和评估，其复杂性无法在此一一列举。关键在于 AI 工程师在采用工具之前要深入理解其背后的流程和原理。持续地实验机器学习产品与实验密切相关。不仅涉及 A/B 测试、随机对照试验，还包括频繁尝试修改系统的最小组件并进行离线评估。人们热衷于评估的真正原因并非仅仅为了可靠性和信心——而是为了让实验成为可能。你的评估越精确，就能越迅速地进行实验，进而更快地发现系统的最佳配置。尝试采用不同的方法解决同一个问题是一种很常见的做法，因为现在的实验成本很低。收集数据和训练模型的高昂成本已经得到有效控制——提示词工程的成本仅略高于人力投入。确保你的团队成员都掌握了提示词工程的基础知识。这不仅能激发他们进行实验的热情，还能促进组织内部不同观点的交流与碰撞。此外，实验不仅仅是为了探索，而是要学会利用它们。如果你手头有一个新的任务，可以考虑让团队的其他成员从不同的视角来处理它。尝试寻找更高效的方法，探索如思维链或 few-shot 提示词等技术，以提高工作质量。不要让工具限制了你的实验；如果是这样，那就重新构建它们，或者购买新的工具。最后，在产品或项目规划阶段，务必留出足够的时间来构建评估机制并进行多项实验。在考虑工程产品的规格时，为评估过程设定明确的标准。在制定路线图时，不要低估了实验所需的时间。要预见到在生产交付之前，可能需要进行多轮的开发和评估迭代。让每个人都能使用新的 AI 技术随着生成式 AI 采用率的增加，我们希望整个团队——不仅仅是专家——都能理解并自信地使用这项新技术。没有比亲自实践更好的方式去培养对大型语言模型工作原理的直观理解了，比如它们的响应延迟、故障模式和用户体验。LLM 相对容易使用：你无需编码技能就可以为流程管道提升性能，每个人都可以通过提示词工程和评估做出实质性的贡献。教育是关键环节，可以从提示词工程的基础开始，如利用 n-shot 和思维链等技术，引导模型生成期望的输出。拥有这方面知识的人还可以教授更技术性的内容，例如大型语言模型本质上是自回归的。换句话说，虽然输入可以并行处理，但输出是顺序的。因此，生成延迟更多地取决于输出的长度而非输入的长度——这是在设计用户体验和设定性能预期时需要考虑的一个关键因素。我们还可以提供更多实践和探索的机会，比如举办一次黑客马拉松。虽然让整个团队投入数日时间在探索性项目上看起来成本较高，但最终的成果可能会超出你的预期。我们见证了一个团队通过黑客马拉松，在短短一年内就实现了他们原本计划三年完成的路线图。另一个团队则通过黑客马拉松，引领了一场用户体验的范式转变，这种转变现在因为大型语言模型的加入而成为可能。不要掉入“AI 工程就是一切”的陷阱随着新职位名称的出现，人们往往容易过分夸大这些角色的能力。这通常会导致在实际工作职责变得逐渐明确时，人们不得不去做一些痛苦的调整。新入行的人和负责招聘的经理可能会夸大声明或抱有不切实际的期望。在过去的十年里，这类显著的例子包括：数据科学家：“在统计学方面比任何软件工程师都强，在软件工程方面比任何统计学家都强的人” 机器学习工程师（MLE）：以软件工程为中心的机器学习视角最初，许多人认为数据科学家单枪匹马就能驾驭数据驱动的项目。然而，现实情况已经清晰地表明，为了有效地开发和部署数据产品，数据科学家必须与软件工程师和数据工程师紧密合作。这种误解在 AI 工程师这一新兴角色上再次出现，一些团队误以为 AI 工程师就是他们需要的一切。实际上，构建机器学习或 AI 产品需要一个由多种专业角色组成的团队。我们与十多家公司就 AI 产品进行了深入咨询，发现他们普遍都陷入了认为“AI 工程就是一切”的陷阱。这种认知导致产品往往难以越过演示阶段，因为公司忽视了构建产品所涉及的关键方面。例如，评估和度量对于将产品从单一的领域检查阶段扩展到广泛应用阶段来说至关重要。有效的评估能力与机器学习工程师通常所具备的优势相辅相成——一个完全由 AI 工程师组成的团队可能缺乏这些技能。Hamel Husain 在他最近的研究中强调了这些技能的重要性，包括监测数据漂移和制定针对特定领域的评估标准。以下是在构建 AI 产品的过程中你需要的不同类型角色，以及他们在项目各个阶段大致的参与时机：首先，专注于构建产品。这个阶段可能涉及 AI 工程师，但并非必须。AI 工程师在快速原型设计和迭代产品方面具有显著的价值（用户体验、数据处理管道等）。随后，通过系统化地收集和分析数据，为产品打下坚实的基础。根据数据的性质和体量，你可能需要平台工程师或数据工程师。你还需要建立查询和分析数据的系统，以便快速定位问题。最后，你将致力于优化 AI 系统。这并不一定涉及训练模型，包括设计评估指标、构建评估系统、执行实验、优化 RAG 检索、调试随机性问题等。机器学习工程师非常擅长这些工作（尽管 AI 工程师也可以通过学习掌握这些技能）。但如果你没有完成前面的基础步骤，招聘机器学习工程师可能并不明智。除此之外，你始终需要一个领域专家。在小型企业，这通常是创始团队的成员；而在大型企业，产品经理也可以担任这一角色。角色的介入时机至关重要。在不恰当的时间（例如，过早让机器学习工程师介入）招聘人员或介入顺序不对，不仅浪费时间和金钱，还会导致频繁的人员更替。此外，在前面两个阶段定期与机器学习工程师沟通（但不全职让他们介入）将有助于公司为未来的成功打下坚实的基础。原文链接： https://www.oreilly.com/radar/what-we-learned-from-a-year-of-building-with-llms-part-ii/ 声明：本文由 InfoQ 翻译，未经许可禁止转载。内容推荐在这个智能时代，AI 技术如潮水般涌入千行百业，深度重塑生产与生活方式。大模型技术引领创新，精准提升行业效率，从教育个性化教学到零售精准营销，从通信稳定高效到金融智能风控，AI 无处不在。它不仅是技术革新的先锋，更是社会经济发展的强大驱动力。在 AI 的赋能下，我们正迈向一个更加智能、便捷、高效的新未来，体验前所未有的生活变革与行业飞跃。今日荐文两天内，Meta 和 Mistral 两款主流大模型打擂台！已经不仅卷性能了，谁更便宜就用谁？ Llama 3.1 源模型泄露背后：失手的 GitHub，破碎的 Meta，好在最小参数都能打脸GPT-4o！ Claude Sonnet 3.5 口碑爆棚！10 倍速开发，“2 个月内用 Rust 从零构建完一款产品” 没投简历却被陌生HR随机辱骂，HR道歉称压力大；OPPO 回应“大量裁撤华为系员工”；传百度新任公关一号位或为蒋昕捷｜AI 周报开源独角兽 GitLab 走上“卖身”路！前工程师拆台：赚钱的业务不好好运营，开发了一堆没用的功能

大模型时代的操作系统：融合 Rust 和大模型，vivo 打造 AI 操作系统

采访嘉宾｜袁东每次技术革命，无论是个人电脑、互联网还是移动设备，总是从硬件开始，然后演化到软件层。而操作系统是计算机系统的核心，没有它，计算机就只是一堆硬件，无法运行任何程序。微软 CEO 萨蒂亚·纳德拉曾将生成式 AI 带来的转变比作从蒸汽机到电力的转变。“你不能简单地把电动机放在蒸汽机的位置，而其他一切都保持不变，你必须重新布线整个工厂。”这一两年，“围绕大模型重建操作系统”一直是一个热门话题，产生了各种将大模型作为操作系统或引入操作系统的想法，进而又出现了各种场景下的 AI OS。不管是手机还是全新的 AI 终端，操作系统都是贯穿其中的灵魂，如今手机厂商的“AI OS”角逐也正在上演。苹果在 WWDC 上宣布了“Apple Intelligence”，为 iPhone、Mac 等设备提供一系列 AI 功能。随着苹果正式进军“AI 战场”，生成式能力加持的 AI 手机显然有加速发展的趋势。实际上，国内 AI 手机起风更早，vivo 去年发布了自研 AI 大模型矩阵“蓝心大模型”，以及面向通用人工智能时代自主研发的蓝河操作系统 BlueOS。BlueOS 的系统架构选择了用 Rust 语言编写，减少安全漏洞，并引入大模型的能力，支持复杂的意图识别和声音、图片、手势等多模态交互方式，还并为开发者提供了自动编码等应用开发新范式。大模型会给操作系统带来什么变化？7 月 27 日，vivo 在北京举办了首场蓝河操作系统技术沙龙，我们在会后也邀请到了 vivo 技术规划专家袁东参加 InfoQ 的“极客有约”直播，为我们详细解读了蓝河操作系统的设计理念和技术细节，以下是采访整理。大模型时代，我们到底需要一个什么样的操作系统 InfoQ：最近一两年，我们有了各种关于大模型操作系统的说法，举例来说，传统意义上的 OS、AI-powerd OS，还有 Andrej Karpathy 提出的 AIOS/LLM OS 等各种定义。与传统操作系统相比， AI-powerd OS 和 AIOS 各呈现出哪些新的架构特征？蓝河操作系统比较接近哪一种？袁东：从最近大模型代表的 GenAI 的火爆，到最近 WWDC 和 Google IO 对公众越来越多的披露，从业者意识到，每天我们朝夕相处的操作系统在这个时代将会有非常大的革新。目前业界对 AI OS 或者 AI-powered OS 没有明确的概念或者界限，但可以确定的是，技术架构层面，端侧模型原生入驻操作系统提供系统级别的智能能力，这将在人机交互、技术架构和生态方面会有很大影响。在技术架构方面，端侧模型原生入驻操作系统，提供系统级别的智能生成能力。蓝河操作系统原生集成蓝心大模型，意味着 App 可以基于大模型进行内容构建，后续随着 AI 系统的进一步强化，除了架构的革新外，会有更多的符合 AI 时代的特性推出。例如，普通人可以利用系统创造出符合自己风格的内容。 InfoQ：大模型热了后，“围绕大模型重建操作系统”就成了一个热门的话题，可能大家一开始希望大模型更具颠覆性，希望能给底层也带来革命。这让我想起了不久前 Rabbit R1 翻车事件，我认为其中一个关键原因是它的宣传策略。Rabbit R1 宣称其操作系统与之前的安卓系统不同，它是一个全新的系统，能够运行大模型。这种宣传可能给消费者带来了误解或过高的期望，因为实际上它可能并没有达到所宣称的创新水平。那么您认为大模型时代，我们是否有必要重建一个跟安卓不同的操作系统？另外，您认为大模型到来后对操作系统的发展产生了什么样的影响？袁东：Rabbit R1、Ai pin 等在我看来是行业对于 AI 时代大胆的尝试，希望探索出更适合 AI 时代的消费电子产品。目前来看，手机依然是最重要，AI 受益最多的个人产品之一。操作系统在 AI 时代需要明显的升级，借助 AI 智慧化提升用户体验。我认为操作系统会因为大模型在人机交互、架构、生态，三个方面会有很大影响与改变。大模型产的智能涌现，类比移动互联网之于手机。操作系统会围绕着交互范式、生态范式的改变，相应的做出很多调整。例如，为了打造个性化的系统，需要尽可能获取用户关乎自身的数据，相应的会有系统级别的方式（比如通过系统 App，用户操作）来获取这些私人数据，同时基于这些来给出更贴近用户的行动建议。交互范式的变化，意味着服务类 App-Agent 之间的关系与形态慢慢发生变化。Agent 成为一个系统级别的超级 App，随之而来的是生态发生变化。架构方面，AI 大模型入驻操作系统，其提供了智能的能力，除了自身生成的内容要保证安全，同时我们需要在操作系统中原生地集成安全检测机制，以防止用户遭受不必要的损失。 InfoQ：在面向大模型的发展过程中，操作系统面临的挑战和机遇是什么？袁东：从用户角度来看，需要考虑如何设计好交互入口（智能助手）：即交互方式，多模态智能化交互；用户的意图理解，用户主动发起 – 系统主动发起对用户意图的理解；用户需求拆分后的任务分发，系统级 App 的 AI 升级到第三方 App 都可以被智能调度。从开发者生态角度来看，需要考虑如何建造一个共赢的 AI 时代的开发者生态。AI 时代新的 AI 生态架构策略，即围绕智能助手展开的智能生态：三方程序向系统级别的智能助手提供 App 的能力描述、App 的应用数据；这类改变类比于 2008 年，App Store 的提出，再次改变了 App 的分发策略，与商业策略。从架构角度来看：软件系统架构：持续迭代 AI 系统的设计硬件架构：个人觉得不同时代的硬件也会有相应的革新，图形的兴盛带动了 GPU 的产生，神经网络的计算如果越来越重要 NPU 的发展也会有很大需求。从原生 AI 硬件角度来看：人类的五感——听觉、视觉、味觉、触觉和嗅觉——是我们与自然界交互的主要方式。在这些感官中，视觉和听觉是获取信息的主要途径。随着 AI 技术的发展，未来可能会出现原生的 AI 硬件，这些硬件将根据新的交互逻辑和形态进行设计。 InfoQ：刚您提到了交互方式的改变，之前也有一个“No App”的概念，但有人认为“No App”是不现实的，对此老师您对此有什么看法？袁东：我个人的观点是，从满足用户需求来看，用户更多可能希望与系统级别的智能助手交互来满足譬如点外卖、打车等服务类需求。这对于 App – Agent 助手来说，清晰的调用架构 +App 直达服务可能是未来用户更期望的组合形态。但是，对于像游戏、视频和企业级办公这样的应用，它们各自有着特殊的需求，比如对隐私的严格保护、对高性能显卡的依赖，或是对特定功能的高度专业化。这些应用很可能会继续以独立的形式存在，但同时，它们与智能助手之间的互动也将成为增强用户体验的关键。通过智能助手与这些应用的智能联动，我们能够为用户提供一种更加完整和连贯的操作体验。而这种整合不仅对用户来说是一个体验的增强，对于整个技术生态系统和系统发展同样积极的影响。 InfoQ：谷歌和苹果开发者大会也提到了它们已经打通了一些 App，这个难度主要在哪里？袁东：这个问题的核心在于 Agent 与应用程序之间的协同。Agent 需要与两类应用程序进行交互：一类是自有生态的应用程序，另一类是第三方应用程序。自有生态的应用程序可能包括办公、系统管理、用户行程安排和出行服务等。而第三方应用程序，尤其是长尾应用，在移动互联网时代积累了大量关键用户数据，这些数据可以被用来产生商业价值并提供服务。以苹果和谷歌为例，谷歌的 Gemini 在演示时主要展示了其与自有生态应用程序的整合，如 YouTube 和日历应用。Gemini 内部使用了类似于 Web 应用的 Firebase 扩展，通过自有生态来实现 Agent 与应用程序之间的跨域交流。苹果则更为激进，它通过意图理解和 APP Intents（应用程序增强）的概念，允许 Agent 与第三方应用程序进行交互。在发布会上，苹果展示了如何通过捷径（Shortcuts）和桌面小组件与第三方应用程序进行整合，基本上就是将应用程序的行为能力描述注册到苹果的意图系统中。Siri 会根据用户需求，调用不同的第三方应用程序功能来完成用户的需求，类似于 OpenAI 之前提出的函数调用能力。无论是苹果、谷歌还是国内的厂商，他们都希望未来的服务能够更加便捷。最关键的是充分理解用户的意图和需求。生态建设比技术本身更需要长远发展。技术方面相对清晰，但生态建设，尤其是服务类需求与智能代理之间的交互和交流会很快推进。对于一些社交类或更长尾的应用程序，可能还需要更多的时间来实现整合。 InfoQ：有人认为未来操作系统会朝着用 LLM 替换所有或部分 Linux 内核的方向发展，您认同这个观点吗？能否完全取代 Linux 内核？我们应该如何将 LLM 的能力有效融入或嫁接到操作系统内核中？vivo 的操作系统，融入了哪些大模型能力？袁东：操作系统内核的核心作用是，管理和协调计算机硬件资源，为应用程序提供一个统一的抽象接口，实现硬件与软件之间的高效交互。行业有人提出 LLM Kernel 但其架构与内核是并存的。首先我觉得，在短期内还是一个并存的状态，因为对于现在我们做产品开发，更多需要的是一个通用的操作系统。对于通用的操作系统，由于要满足用户不同的场景需求，LLM Kernel 不太可能替代操作系统内核。特别是有人提出来 LLM kernel 不光是包括这个 LLM，它甚至也会有一些 Agent 的调度，还有内存管理、Tool Management 等等，但它还是把它放在了跟 OS kernel 并列的一个状态，它甚至不属于 OS kernel 层的一个 kernel，所以这个 kernel 不是真正的 OS kernel，而是一个抽象的 kernel。然而，在某些垂类产品中，主要通过 Agent 来满足用户的需求的情况下，如果它仅仅是通过 Agent 来满足用户需求，比如说我们看到有一些很有意思的视频分享，展示了有一两个桌面级的小机器人，或者一个小的机器宠物。它其实只要一个生成式的能力就可以满足，背后 OS Kernel 可以只服务与之对应的 LLM，或者 LLM 与 OS Kernel 融合也是有可能的。 vivo 的蓝心大模型支持多模态，云 + 端服务于用户。比如用户可以在手表上基于语音交互生成表盘。 InfoQ：面向未来发展，哪些 OS 组件需要 AI 化？您们心目中的智慧 OS 应该是怎么样的？袁东：操作系统正在经历一个明显的 AI 化趋势，个人观点，这在服务卡片等组件中表现得尤为明显，它们正朝着智能化方向发展。在我看来，有两个主要的发展方向： AI 能力的提升：AI 的加入使得操作系统的组件具备了生成能力，比如能够提取和翻译文本、图像的二次生成等。这种 AI 化的能力提升，使得组件不仅仅能够执行基本任务，还能够进行更复杂的处理和创造性工作。系统级别的 AI 调度：AI 技术开放给系统级别，可以被 Agent 进行调度，成为智慧调度的一部分，以满足用户需求。这意味着操作系统能够更主动地与用户交互，理解他们的意图，并提供个性化的服务。智慧 OS 的特点主要体现在以下几个方面：主动交互：智慧 OS 能够理解用户的意图，并主动与用户进行交互，这种交互方式更加人性化和主动。拟人特性：与以往的多模态和自然交互相比，智慧 OS 通过大模型和 Agent，展现出更加智能和拟人的特性。需求化解：智慧 OS 能够帮助用户将复杂需求简化，例如，通过智能代理帮助用户完成一系列相关任务，如打车、订餐厅、导航等，而不需要用户逐一打开不同的应用程序。将大型模型整合到手机中需要考虑的改进包括：安全：保证端侧模型生成内容的安全，还要时刻兼顾用户使用手机的场景安全。例如，监测 – 抵御外来通过不法手段对用户的诈骗。存储：存储也需要改进，尤其是在容量方面。未来操作系统可能会将更多用户数据存储在本地而非云端，出于安全性和隐私性的考虑。用户的数据可能会被持续记录，关键信息如微软的“Recall”和苹果的“On Screen Awareness”（屏幕理解能力）可能会将用户在应用程序级别的操作数据进行拆解和存储。长期来看，这些数据将占用大量内存空间，未来可能会考虑将这些数据存储在特殊的内存位置，类似于苹果发布 Touch ID 时存储用户指纹数据的方式。计算：模型的能力依赖神经网络计算的能力，神经网络计算能力的发展是一个新需求。如何在端侧保证模型能力越来越强的同时，还能兼顾内存、耗电等资源的占用是需要取舍。大模型生成能力与操作系统的融合方面，我们之前有推出一个智能表盘，我们发现大家使用智能手表很喜欢按照自己的喜好去自定义表盘，所以根据这个需求，我们开发了一款可以通过对话自动生成壁纸的智能表盘，用户只需要描述自己想要什么壁纸，就能直接生成。未来我们还会有更多更令人兴奋的功能和产品持续推出，敬请关注。 InfoQ：大模型对开发者会带来什么样的变化？对 App 开发会产生什么样的影响？袁东：大模型背后代表的是一种智能的产生，这种智能元素可以类比于开发中的新基础元素，就像水和电一样是基础设施的一部分。这种变化首先会改变开发范式。传统的开发方式是程序员通过输入、存储、计算数据，然后输出确定的数据，使用计算机语言进行编程和运算。未来，编程可能会转变为使用自然语言进行交互，计算将变成一种概率性的计算。开发流程将包括数据的收集和整理、学习、预训练后的模型校验，直至模型能够满足用户需求并生成内容。开发者将利用这一流程，对程序进行相应的变化。其中最关键的是如何提高准确度。有许多方法可以提高准确度，包括结构化输入输出和优化提示工程等技术手段。生态系统也在发生变化。开发者不仅开发满足用户需求的功能，还需要考虑如何获取商业价值。比如开发 AI 原生应用，例如 ChatGPT 就是一个 AI 原生应用的例子。尽管 AI 原生应用具有一定的风险，因为模型或智能能力尚未完全成熟，存在很大的不确定性，但短期内在特定垂直领域开发 AI 应用仍有其价值。例如，某些专注于短期内开发垂直领域的黏土图片生成的 AI 应用，通过精准定位用户需求，短期内可以获得收益。长期来看，Agent 应用可能成为更超级的应用程序。如果行业内有 Agent 的规范，开发者可以在生态系统中遵循相应的规范，结合各种 Agent，从而满足用户需求。例如，苹果的 Siri 提出了一些生态系统规范，开发者可以在这些规范下进行开发，既能满足用户需求，也能实现商业变现。 InfoQ：我个人对当前应用开发的趋势还有一些疑问。例如，我们观察到一些应用，比如之前提到的黏土风格图片生成应用，它们实际上可能并不需要开发成一个完整的应用程序。这引发了一个问题：在大模型时代，是否意味着我们之前讨论的快应用以及小程序等轻量级应用形式会具有更广阔的发展前景？袁东：在 AI 时代，应用程序的形态，Web App 可能会更加适应 AI 技术的发展。Web App 的优势在于它不需要用户进行安装和升级，始终能够保持最新状态。这种即时更新的特性意味着 Web App 能够与 AI 模型保持天然的兼容性，因为 AI 模型可以不断地进行训练和优化，而 Web App 可以即时利用这些最新的模型。随着 AI 技术的发展，Web App 甚至可能与 Agent 进行更多的交互，逐渐演变成插件形态，不再需要传统的图形用户界面。这种形态的应用程序在 AI 时代将有很大的发展空间。更多的内容请关注 8 月 8 号，快应用大会。 vivo 蓝河操作系统的演进和迭代 InfoQ：蓝河应该是在 ChatGPT 热起来之前就已经开始规划的项目？是否能分阶段介绍下它的发展历史？另外，蓝河操作系统在发展过程中遇到的最大挑战是什么？袁东：2018 年伊始， vivo 建立了 AI 研究院，自研操作系统团队，并且在当时我们就认为 AI 时代 Web App 是天生适合 AI 时代的 App 形态。历经 6 年我们研发并发布了蓝河操作系统。 ChatGPT 代表的大模型带来了智能涌现，我们在 2023 年顺势而为发布了蓝河 OS。天生更智慧，天生更安全，天生更流畅。智慧是核心，安全、流畅是基石。它从一开始就融入了大模型技术，而且在安全性和流畅性方面也进行了全面的重新架构。特别是在架构方面，我们采用了 Rust 语言来实现系统架构，这种语言不仅能够确保用户操作的流畅度，还能在内存安全方面提供强有力的保障。埃隆·马斯克（Elon Musk）也曾提出：“Rust 是实现 AGI 的最佳语言”。目前，Rust 也被尝试用于实现模型推理等任务，例如可以在模型分布式推理中使用。我们认为在这个 AI 技术迅速发展的时期推出蓝河 OS 是非常正确的决定，它具有重大的意义，不仅代表了技术的前沿，也预示着操作系统未来发展的方向。 InfoQ：在大模型技术流行之前，你们就已经决定使用 Rust 语言进行开发，这个决定背后的逻辑是什么呢？有没有一些明确的数据可以证明 Rust 对用户体验带来的正影响呢？袁东：Rust 语言的开发与大模型技术并没有直接的硬性关联。Rust 最初由 Mozilla 提出，旨在解决操作系统中的内存安全问题。C 和 C++ 虽然在实现操作系统内核方面非常高效，但它们在内存管理上存在一些挑战，一旦出现问题，排查成本和时间都非常高。相比之下，Rust 语言在保持与 C++ 相当的运行效率的同时，其编译器能够在编译时就避免很多内存错误，从而减少运行时的内存问题。我们选择使用 Rust 开发操作系统，是出于提供更流畅、更安全系统的考虑。 Rust 的优势方面，更多还是处于对安全性的考虑，比如像最近的 Windows 蓝屏事件，可能我们看到的一个原因是它的内存在 unsafe 状态下指向了一个别的地址，导致它崩溃，最终对行业造成了非常巨大的损失，内存安全的重要性不言而喻而这块也是 Rust 的优势。 InfoQ：蓝河操作系统的技术迭代的规划是怎样的（包括 AI 能力，以及编译器、编程框架、编程语言、IDE 等工具）？袁东：蓝河操作系统主要从智慧、安全、流畅等三个方向持续保证技术迭代。智慧：蓝河操作系统做了智慧的架构设计，重点架设了 AI 能力，实现了更复杂的意图识别和推理决策能力。蓝河操作系统带来了多模态输入输出，模拟人与人的交互方式。它打破了应用和设备边界，让用户不用在各个 APP 和设备中来回切换。同时，AI 的多模态能力将拓宽输入和输出方式，语音、文字、图片、音乐、视频等 AI 都能理解和生成。蓝河操作系统，从系统、应用、到工具链全面突破，通过 VCAP 能力实现对推理决策的支持，基于大模型能力实现了 AI 服务引擎和多模输入子系统。同时，基于 AI 能力打造了诸多智慧操作系统的新型应用。Copilot 提供代码生成、图文生成等能力，带来应用开发的全新生产力工具。蓝河操作系统结合 AI 大模型的能力，探索出了应用开发的全新范式——它可以理解你的需求，自动编写代码，生成专属于你的应用、主题或壁纸，满足你对个性化的需求。安全：安全与隐私是操作系统的基石，行业数据中操作系统大约 70% 的严重安全漏洞都和内存使用不当相关，修复安全漏洞治标不治本，难以彻底解决。蓝河操作系统从性能和安全两个维度选择了 Rust 语言作为系统开发语言，Rust 语言的所有权模型、生命周期等一系列安全特性，保障了代码在编译阶段就可以发现内存使用不当导致的安全问题，进而保障系统安全。流畅：蓝河操作系统从全栈技术视角出发，对多个技术方向进行探索，例如编程语言、运行时 Runtime、系统调度、显示和内存。充分发挥软硬件资源的利用效率，高性能系统架构实现了一系列关键技术，虚拟显卡框架、超级协程机制、Runtime 等，提升了计算、存储、显示的资源效率。系统框架的编写我们创新性的采用了兼具高性能和高安全的 Rust 语言；应用开发还要考虑开发效率和生态兼容，目前采用了 js。Runtime 执行引擎，将前端框架下沉，针对应用使用场景，没有采用传统虚拟机机制，而是直通调用接口，一步直达内核，进一步降低运行时的开销、提升性能。在线程和进程之下，实现了超级协程机制，无论是滑动屏幕还是打开应用，都可以优先响应当前操作，实现丝滑流畅的使用体验。蓝河实现了虚拟显卡框架，在虚拟显卡框架上，创新实现了超级渲染树、并行渲染、异构渲染，解决了丢帧、掉帧、帧同步的问题，保障蓝河操作系统的显示天生更流畅。对于内存管理，设计了全新的内存管理双向动态调整算法，按照算法来分配不同的内存，减少应用启动时间。 InfoQ：您能否详细介绍一下蓝河在构建开发者生态系统方面的具体策略和计划？对于蓝河的开发者来说，您认为他们的机遇在哪里？袁东：蓝河在构建开发者生态系统方面的策略和计划是多方面的，旨在创造一个智能应用生态解决方案，同时为开发者提供丰富的机遇。我们认识到每个生态系统都有其特色，蓝河生态中用户的场景与其他生态不同，特别是在阅读和服务类应用方面。蓝河寻求在这些场景中进行智慧升级，以提升用户体验，使他们更加喜爱这些场景。长期目标是将蓝河操作系统打造成这个时代的智能应用生态解决方案，更加智能地满足用户的各种需求场景。为了鼓励开发者，蓝河的运营团队持续进行各种活动。例如，去年蓝河 OS 举办了一场比赛，吸引了 300 多支队伍参加，奖金池达到 75 万。赛题包括利用 AI 技术将操作系统内核从 C 语言转换为 Rust 语言，以及生成智慧应用。比赛中涌现出许多有潜力和创意的 App 和系统级解决方案。今年，蓝河将继续举办符合这个时代特征的创新比赛，并进行线上和线下推广，同时邀请专业团队为开发者提供指导。不论比赛结果如何，蓝河都会发掘有潜力的选手，他们有可能成为蓝河团队的一员。总的来说，未来蓝河的大模型和操作系统将持续朝智慧化方向迭代。传统应用服务的生态将得到重塑，包括原子化服务、个性化定制、智能分发、跨设备协同以及更拟人化的多模态交互等新设计。对于开发者而言，蓝河生态中的机遇在于 AI、大模型和操作系统的升级。开发者应关注 AI 和大模型能力的提升，以及新操作系统变革带来的影响。我们一方面会从开发效率上帮开发者去减负，包括提供更智能的代码生成、校验、单元测试等能力；另一方面，我们也在探索未来 AI、Agent 跟 APP 之间的新交互方式，去满足 AI 时代的用户的需求，从而获得更大的商业变现机会，这是我们持续在做的一些事情。内容推荐在这个智能时代，AI 技术如潮水般涌入千行百业，深度重塑生产与生活方式。大模型技术引领创新，精准提升行业效率，从教育个性化教学到零售精准营销，从通信稳定高效到金融智能风控，AI 无处不在。它不仅是技术革新的先锋，更是社会经济发展的强大驱动力。在 AI 的赋能下，我们正迈向一个更加智能、便捷、高效的新未来，体验前所未有的生活变革与行业飞跃。关注「AI 前线」公众号，回复「千行百业」获取免费案例资料。今日荐文曝英伟达紧急推迟Blackwell AI芯片发货：有设计缺陷；任天堂员工平均年龄首破40岁；比亚迪成清华毕业生最爱之一 | AI周报全球外包之王易主？每月 1200元工资还天天 996，印度程序员 AI 加持下还是集体失业了！英特尔裁员 1.5 万人，股价暴跌 20 %！CEO：我们将提高退休员工待遇，鼓励自动离职拜登又要出芯片新规！六家中国头部厂商遭禁，新增 120 家实体，美国的盟友却先拍桌子了！缺卡、缺电、缺组网技术！谁能为马斯克构建出全球最强大的 10 万卡超级集群？

Diffusion 反馈强势助力 CLIP 秒变火眼金睛：北京智源研究院、中科院自动化所联合推出 DIVA

本文分享论文Diffusion Feedback Helps CLIP See Better，专注于通过自监督学习范式解决CLIP无法区分细粒度视觉细节的问题。作者：王文轩（中科院自动化所-智源研究院联培博一研究生），孙泉（智源研究院视觉模型研究中心算法研究员），张帆（智源研究院视觉模型研究中心算法研究员），唐业鹏（北交博一研究生），刘静（中科院自动化所研究员），王鑫龙（智源研究院视觉模型研究中心负责人）单位：中科院自动化所，中国科学院大学，北京智源人工智能研究院，北京交通大学论文链接：https://arxiv.org/abs/2407.20171 项目主页：https://rubics-xuan.github.io/DIVA/ 相关代码链接：https://github.com/baaivision/DIVA 动机何在？——CLIP视觉缺陷对比语言-图像预训练（CLIP）在跨领域和跨模态的开放世界表示方面表现出色，已成为各种视觉和多模态任务的基础。自从CLIP被提出以来，近年来涌现了许多关于CLIP模型的后续研究。这些研究通过预训练和微调CLIP模型，取得了性能提升并开发了新的能力。然而，这些方法仍然存在不可避免的局限性，因为它们高度依赖于图像-文本数据对，无法仅在图像数据上实现预期效果。此外，最近的不少研究指出，尽管CLIP在零样本任务中表现出色，但由于对比学习范式和训练中使用的噪声图像-文本对，其在感知理解方面存在一些局限性。这些局限性包括难以准确理解长文本和难以辨别相似图像中的细微差异。虽然一些研究试图解决长文本理解问题，但改善CLIP的细粒度视觉感知能力的研究仍然不足。感知视觉细节的能力对于基础模型至关重要，而CLIP在这方面的不足直接影响了以CLIP作为视觉编码器的视觉和多模态模型的表现。因此，在这项工作中，我们专注于通过自监督学习范式解决CLIP无法区分细粒度视觉细节的问题。基于文本到图像的扩散模型能够生成具有丰富细节逼真图像的先验，我们探索了利用扩散模型的生成反馈来优化CLIP表征的潜力。如何解决？ Diffusion Feedback来优化CLIP视觉细节表征我们提出了一种简单的CLIP模型后训练方法，通过自监督扩散过程在很大程度上克服了其视觉缺陷。通过使用CLIP的密集视觉特征对扩散模型进行条件化，并将重建损失应用于CLIP优化，我们将扩散模型作为CLIP的视觉助手，因此我们将该框架命名为DIVA。具体而言，如图2所示，DIVA主要由两个部分组成：一是需要增强视觉感知能力的CLIP模型，二是提供生成反馈的预训练扩散模型。输入原始图像和空文本（图2中标记为’Null’）后，CLIP模型会编码相应的视觉特征，这些特征将与来自扩散模型文本编码器的空文本嵌入结合，为扩散过程提供条件。对于添加了噪声的图像，扩散模型尝试在上述条件下预测从前一步到当前步骤中添加的噪声。在训练过程中，除了CLIP模型外，所有部分的权重都保持不变，训练目标只是最小化重建损失（即扩散反馈指导）。通过这种方式，通过约束扩散模型更准确地预测添加的噪声，CLIP的原始语义丰富的判别表示将通过扩散反馈逐渐优化为包含更多视觉细节的表示。此外更有意思的是，DIVA不需要额外的文本标注数据，只需可轻易获取的纯图片数据就能大幅使得CLIP弥补其视觉感知短板，这一点相比之前方法收集大量图文数据对的高昂成本是非常难得的！效果如何？立竿见影！为了评估DIVA的有效性并展示其增强CLIP表示的潜力，我们在多模态理解和视觉感知任务上进行了全面的实验。视觉细粒度感知方面为了验证DIVA能够有效缓解CLIP模型固有的视觉能力不足，我们首先在各种现有的CLIP模型上进行了实验。DIVA在评估视觉-语言模型视觉能力的MMVP-VLM基准测试中使得现有的多个CLIP模型的性能取得了显著的提升（提高了3-7%）。作为更强的视觉骨干网络为多模态大模型和视觉模型带来的收益评估接下来，在DIVA的帮助下，我们进一步评估了增强后的CLIP骨干网络在多模态理解和视觉感知任务中带来的性能提升。DIVA的优势在于它不仅仅能让CLIP变聪明，还能让那些基于CLIP的大型多模态语言模型以及视觉模型变得更加厉害。在这些多模态和纯视觉的基准测试上准确率的显著提升，得益于我们DIVA范式通过生成反馈大幅增强了CLIP的视觉感知能力。 CLIP泛化能力评估在全面验证了我们的方法提升CLIP模型细粒度视觉感知能力的效果后，我们进行了CLIP模型原始泛化能力的全面评估。在只由纯图片数据驱动整个框架的前提上，DIVA能够保持CLIP原本优秀的泛化性能。29个图片分类和图文检索的基准测试上无论是看图识物还是找图配字的实验结果都能证明，经过DIVA优化视觉表征之后的CLIP模型能够保留CLIP原本优秀的泛化能力。未来展望？大有可为！当前局限 1.数据和模型规模可进一步扩展。 2.由于这篇工作只是该方向的一个开始，目前仅展示了生成扩散模型用于提升CLIP模型表示的潜力，当前主要关注设计一个简单但有效的框架。未来可探讨的方向 1.可以结合更细粒度的监督方案进一步提升CLIP模型的能力。 2.扩展超越图像-文本数据的其他模态，如视频和音频。 3.发展基于扩散模型的更通用、更强大的框架，以增强视觉-语言基础模型。

谷歌 Gemma 2 2B 发布火爆，小模型如何撑起大格局？

作者丨陈鹭伊编辑丨岑峰语言模型的“小时代”正式到来？北京时间8月1日凌晨（当地时间7月31日下午），Google深夜放出大招，发布了其Gemma系列开源语言模型的更新，在AI领域引发了巨大的震动。Google Developer的官方博客宣布，与6月发布的27B和9B参数版本相比，新的2B参数模型在保持卓越性能的同时，实现了“更小、更安全、更透明”的三大突破。小，但更好 Gemma 2 2B版本，这一通过蒸馏学习技术精心打磨的成果，不仅优化了NVIDIA TensorRT-LLM库，更在边缘设备到云端的多种硬件上展现出了卓越的运行能力。更重要的是，较小的参数量大大降低了研究和开发的门槛，使得Gemma 2 2B能够在Google Colab的免费T4 GPU服务上流畅运行，为用户带来了灵活且成本效益高的解决方案。大模型竞技场LMsys上，Gemma 2 2B的发布也迅速引起了广泛关注。LMsys第一时间转发了Google Deepmind的推文，对超越了参数量10倍于Gemma 2 2B版本的“老前辈”GPT-3.5-Tubro表示祝贺。 Google在与OpenAI的LLM竞争中虽然未能胜出，但其SLM的发展势头却愈发强劲。今年二月，Google 推出了 Gemma 系列模型，这些模型设计更为高效和用户友好。Gemma 模型可以轻松运行在各种日常设备上，如智能手机、平板电脑和笔记本电脑，无需特殊硬件或复杂优化。 Gemma 2模型的技术创新点在于引入了Gemma Scope功能，这是一套开放的稀疏自编码器（Sparse AutoeEncoders, SAEs），新模型包含400多个SAEs，用于分析 Gemma 2 2B 和 9B 模型的每一层和子层，为研究人员提供了理解语言模型内部工作原理的强大工具。 Google Deepmind 语言模型可解释性团队则是通过官方博客对 Gemma Scope 进行了更多的技术分析。该团队称，Gemma Scope旨在帮助研究人员理解Gemma 2语言模型的内部工作原理，推动可解释性研究，构建更强大的系统，开发模型幻觉保护措施，防范自主AI代理的风险。稀疏自动编码器（SAE）将作为“显微镜”，帮助研究人员观察语言模型内部。值得注意的是，尽管Gemma 2 2B为开发者提供了一种灵活且成本效益高的解决方案，但在训练阶段仍然需要投入大量的计算资源。根据Deepmind博客，Gemma Scope的训练使用了约相当于15%的Gemma 2 9B训练计算资源（或GPT3的22%训练计算资源）。 SLM与开源的“逆袭” 在Gemma 2 2B发布后，业界反响热烈。雷峰网GAIR硅谷自动驾驶峰会（2018）嘉宾、UC Berkeley教授Anca Dragan （推特：@ancadianadragan ）第一时间发表多条推文对Gemma 2的SAE机制进行了解读。她表示，如此大的计算资源使得纯粹的学术研究机构难以参与其中，但之后学术界会进一步关注如何利用Gemma Scope的SAE机制来提高模型的解释性和AI的安全性。计算语言学家、DAIR.AI的联合创始人Elvis Saravia （推特：@omarsar0 ）也在第一时间对Gemma 2 2B进行了测试，对Gemma 2的SAE机制给予了高度评价。随着2024年的到来，大模型的光环似乎正在逐渐褪去，而如何将模型做小，正成为今年语言模型发展的重要趋势。2023年的“百模大战”虽然激烈，但大模型的商业价值有限；相比之下，小模型在成本和效率上展现出了更大的优势。甚至“暴力美学”的倡导者、OpenAI CEO Sam Altman也早早承认，“大模型”时代可能走向结束，未来我们会通过其他方式来改进它们。在技术上，通过如蒸馏压缩和参数共享等手段，可以显著降低模型规模同时保持性能。Gemma 2 2B版本的亮眼表现，无疑为下一步的大模型研究提供了重要方向。 Google的另一系列语言模型Gemini，以其不公开源代码的特性，专为Google自家产品及开发者使用，与Gemma系列形成鲜明对比。而META的Llama系列则高举“开源”大旗，向OpenAI的GPT系列发起了强有力的挑战。在过去一年中，OpenAI的GPT系列一直是这个领域无可争议的“王者”，在LMsys的“大模型竞技场”，GPT-4及其后续版本GPT4-o在大多数时间一直牢牢占据第一的位置，仅有一次被Claude 3.5 Sonnet短暂超越。但在2024，开始有越来越多的模型向GPT系列发起了冲击。除了Google的Gemini和Gemma系列外，另一有力竞争者是META的Llama系列。与OpenAI的闭源（OpenAI也因此称为”Close AI”)路径不同，META的Llama系列则是高举开源大旗的代表。就在数天前，Meta CEO马克·扎克伯格(Mark Zuckerberg)在“史上最强开源模型”Llama 3.1发布之际，发表了题为“Open Source AI is the Path Forward”的公开信，强调了开源AI在推动AI发展中的重要性。在Llama 3.1发布后，META AI首席人工智能学家、2018年图灵奖得主Yann Lecun（推特：@ylecun）除了发布了多篇技术角度的推文外，昨天还转发了科技网站Arstechnica的一篇关于“人工智能安全”法案SB1047看法的文章，为“开源AI”争取空间。值得注意的是，虽然Llama系列在以大众评分为依据的LMsys“大模型竞技场”上不敌GPT-4系列，但在另一个以专家评分的竞技场“Scale Leadboard”上却在多个项目中超越了GPT-4系列。目前在Scale Leadboard的6个评测项目上，GPT-4系列仅在Spanish（西班牙语）和Methodology（方法论）上领先。 “Scale Leadboard”是由AI数据标注创企业Scale.ai所创立的排行榜。其创始人、95后华裔天才Alexanda Wang是当前硅谷最受关注的创业新星之一，目前Scale.ai为几乎所有领先的AI模型提供数据支持，并与OpenAI、Meta、微软等组织保持良好关系。目前Scale.ai的估值为138亿美元。 Gemma 2的发布，不仅是Google在AI领域的一次自我超越，更是对整个行业的一次挑战。无论是“小型化”还是“开源”，都预示着2024年将是语言模型研究的又一个春天。让我们拭目以待，Gemma 2代表的“小模型”将如何重塑AI的未来。让大模型的暴风雨来得更猛烈些吧。

苹果大模型最新论文：AFM 模型多维度评测「出炉」

不久前，苹果在全球开发者大会（WWDC）上推出了最新个人智能系统 Apple Intelligence，可以深度集成到 iOS 18、iPadOS 18 和 macOS Sequoia 中，引起了 AI 业内人士、尤其是端侧智能领域的讨论。苹果在 2024 年的一系列技术动作，被戏称为苹果为端侧 AI 所设计的“开卷考试”，即：大模型时代，AI 技术应如何在手机、平板等端侧设备上运营，让手机变得更智能？近日，苹果团队又在 arXiv 上更新了关于 Apple Intelligence 的最新论文，其中介绍了苹果用在 Apple Intelligence 上的两个基础语言模型，包括：一个在设备端运行的大约 30 亿参数的语言模型 AFM-on-device，以及一个在私有云计算上运行的大规模服务器语言模型 AFM-server。论文链接：https://arxiv.org/pdf/2407.21075 根据该论文，苹果开发的端侧大模型在语言理解、指令跟随、推理、写作与工具使用等多个任务上都有出色表现。同时，在保护用户数据隐私与安全上，苹果强调在后训练阶段不会使用用户的个人数据进行训练。结果显示，苹果的 AFM 模型在指令遵循层面皆优于其他大模型，同时，从写作写作能力来看，在摘要总结方面，AFM 模型无论是端侧还是私有云也均要好于其他。而在安全性评估时，AFM 模型也比其他模型要更为负责。但是值得一提的是，AFM 模型的数学能力整体上来看较为一般。人类评估在人类评估中，在端侧，AFM 仅输于 Llama-3-8B ，而与其他模型相比显然更优。据论文介绍，AFM 与 Phi-3-mini 相比，模型尺寸小了 25%，而胜率达47.7% ，甚至超出开源强基线 Gemma-7B 和 Mistral-7B。而在私有云上，与GPT-3.5相比时，AFM 也具有一定竞争力，胜率超 50%。指令遵循在指令级（Instruction-level）与提示级（Prompt-level）的评估中，无论是端侧还是私有云上，均为 AFM 模型表现最好。其指令级的得分分别为 85.7% 和 88.5%，而提示级的得分则分别为 79.3% 和 83.0%。此外，苹果还使用了 AlpacaEval 2.0 LC 和 Arena Hard 作为基准进行评估。在私有云上，这两项测试中均为 GPT-4 的表现最优，其中，在 Arena Hard 测试中，GPT-4 的得分甚至倍超 AFM。在端侧的 AlpacaEval 2.0 LC 测试中，则为 Gemma-7B 评分最优，AFM 模型紧随其后。工具使用苹果还测试了在调用工具使用基准测试中 AFM 模型的表现，分别从简单（Simple）、多重（Multiple）、并行（Parallel）、并行多重（Parallel Multiple）、相关性（Relevance）和平均（Average）几个纬度展开。整体来看，AFM-server 表现较优，从测试结果上来看，在简单、多重、相关性、平均性维度中，AFM-server 均得分最高，分别为91.0、95.5、91.3、89.5。在并行多重维度中，AFM-server 得分 85.0，仅次于 Gemini-1.5-Pro-0514 的 88.0，且领先于 GPT-4 与 GPT-3.5。但 AFM-on-device 表现则较为一般，在多重、并行多重、相关性及平均维度中，均要稍逊于 GPT-4 和 Gemini-1.5-Pro-0514。除此之外，在并行维度中，AFM-server 和 AFM-on-device 的表现情况则都较为一般。写作能力分两块，一块是摘要总结，一块是长作文。其中，AFM 模型主要在摘要总结上表现较好，在端侧的表现优于 Mistral-7B、Gemma-7B、Phi-3-mini 与 Gemma-2B，在私有云上则优于 GPT-4、Mixtral-8x22B、DBRX Instruct 与 GPT-3.5：数学能力上，苹果 AFM 模型的表现则一般，仅在端侧 MATH 基准上高于 Llama-3-8B、Phi-3 mini、Gemma-7B 与 Mistral-7B，GSM8k 是 8-shot、MATH 是 4-shot：负责任的 AI 在文本摘要总结功能中，苹果团队将 AFM 模型在邮件、信息与通知这三个应用上作了测试，分别从 5 个维度（仇恨言论、歧视、违法、色情、暴力）来评估模型的“好”与“差”。研究显示，苹果的 AFM 模型在“好”维度的表现均高于 Gemma-7B、Phi-3-8B 与 Llama-3-8B：安全性评测在有害输出上，苹果 AFM-on-device 的得分为 7.5%、AFM-server 的得分为 6.3%，得分越低、效果越好，远远高于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 与 Mistral-7B（其余得分均在 10% 以上）：在安全提示词上，人类评估，苹果的 AFM-on-device 模型表现优于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 与 Mistral-7B，AFM-server 模型的表现也要远超 GPT-3.5、GPT-4 和 Llama-3-70B：

星尘智能获数千万美元融资，专注 AI 机器人商业化；OpenAI 部分开放 GPT-4o 语音，今秋扩至所有付费用户

01 今日融资快报人形机器人星尘智能获数千万美元 Pre-A 轮融资，专注 AI 机器人商业化 AI机器人公司星尘智能（Astribot）宣布完成数千万美元Pre-A轮融资，由经纬创投领投，道彤投资及清辉投资等产业资本跟投，老股东云启资本跟投。华兴资本担任独家财务顾问。星尘智能于2022年12月在深圳成立，致力于让数十亿人拥有AI机器人助理。公司专注研发“新一代最强AI机器人助理”，能像人一样学习、思考和劳动，与人流畅智能交互，会使用人的工具和设备、帮人完成枯燥、困难或危险的任务。（Z Potentials） Figma 完成 F 轮融资，多家知名投资方参与投资界面设计工具提供商Figma宣布完成F轮融资。本轮融资由a16z、Alkeon Capital、Atlassian、Coatue、Durable Capital Partners、Fidelity Management and Research Company、Franklin Venture Partners、General Catalyst、Iconiq Capital、KPCB、SurgoCap、Thrive Capital、XN和红杉资本（海外）等多家知名投资方共同参与。供应链可视化初创公司 Altana 在 C 轮融资中筹集了 2 亿美元这家总部位于纽约的初创公司提供了所谓的“价值链管理系统”，该系统使企业能够通过人工智能洞察其供应链。本轮融资使 Altana 的估值达到 10 亿美元。此轮融资由美国创新技术基金领投，该基金是由前传奇娱乐首席执行官、后来成为科技投资者和企业家的Thomas Tull创立的风险基金。其他投资者包括 Salesforce Ventures、Google Ventures、March Capital、Omers Ventures、Friends and Family Capital 和 Activate Capital。保险业 AI 解决方案提供商 Gradient AI 获 5600 万美元 C 轮融资 Gradient AI是一家保险业AI解决方案提供商，主要利用高级数据分析和机器智能来解决保险业和医疗保健行业中的问题。本轮投资由Centana Growth Partners牵头，现有投资者MassMutual Ventures、Sandbox Insurtech Ventures和Forte Ventures参与了此次投资。医疗软件服务提供商 VitalHub 以 3400 万美元收购 MedCurrent 医疗保健软件和服务提供商VitalHub Corp.宣布收购临床决策支持公司MedCurrent Corporation。该交易价值3400万加元。此次收购将整合MedCurrent的人工智能驱动的OrderWise平台，该平台优化诊断测试并减少不必要的测试，以及VitalHub的患者流程软件。 AI 和物联网解决方案提供商 Trio Mobil 获 2650 万美元种子轮融资 Trio Mobil是一家人工智能和物联网解决方案提供商，致力于提高工作场所的安全性和效率，提供一套强大的解决方案，可满足设施和仓库内部物流以及高速公路运营的安全和效率要求。公司通过其专门的增长股权战略NewSpring growth获得了由NewSpring领投的2650万美元增长融资，现有投资者212和TIBAS Ventures也参与了本轮融资。 AI 治理软件 Credo AI 获 2100 万美元融资 Credo AI 的使命是让组织能够负责任地大规模构建、采用、采购和使用人工智能。Credo AI 的开创性人工智能治理、风险管理和合规平台可帮助组织衡量、监控和管理人工智能风险，同时确保遵守新兴的全球法规和标准，例如欧盟人工智能法案、NIST 和 ISO。本轮融资来自 CrimsoNox Capital、Mozilla Ventures 和 FPV Ventures，现有投资者 Sands Capital、Decibel VC、Booz Allen Hamilton 和 AI Fund 也参与其中。这使得该公司的融资总额达到 4130 万美元。软件供应链管理初创公司 Lineaje 筹集 2000 万美元软件供应链管理初创公司 Lineaje 今天宣布，它已经筹集了 2000 万美元的新资金，用于提升其人工智能能力、提供安全的开源软件、降低企业软件维护成本并扩大其全球业务。 Prosperity7 Ventures、Neotribe Ventures 和 Hitachi Ltd. 领投了 A 轮融资，Tenable Ventures Inc.、Carahsoft Technology Corp.、Wipro Ventures、SecureOctane、Alumni Ventures Group 以及 ZScaler Inc.、CrowdStrike Holdings Inc. 和 Trellix Inc. 的高管也参与了本轮融资。企业 AI 平台 Intelmatix 获 2000 万美元融资 Intelmatix是一家深度科技 B2B 初创公司，其目标客户是 MENA（中东和北非）地区希望帮助利用人工智能力量进行决策的企业，该公司已完成 2000 万美元的 A 轮融资。Intelmatix在 2024 年 3 月推出了其企业 AI 平台 EDIX，并已获得了 10 家企业客户。该公司的 A 轮融资由 Shorooq Partners 领投，其他投资者包括 Olayan Financing Company、Rua Growth Fund 等。金融科技公司 Aveni 获 1400 万美元的资金 Aveni已获得1400万美元的资金，用于推进AI在金融服务行业的使用。这笔融资将使Aveni与投资者劳埃德银行集团和全国合作开发FinLLM，这是一种金融服务特定的大型语言模型。专为 ERP 设计的 AI 连接器 Monto 获得 900 万美元种子融资 Monto 是首款专为任何 ERP 设计的 AI 连接器，使 B2B 财务团队能够从企业客户使用的任何 AP 门户无缝获取报酬。该平台将 Monto 客户的 ERP 系统连接到客户的支付平台，并将这些企业带入 B2B 支付的未来，实现一键式付款流程。此轮融资由 Scale Venture Partners 领投，Verissimo Ventures、F2 Venture Capital、Firsthand Alliance 和 Room40 Ventures 跟投。连续创业者 Ariel Maislos 以及来自 Intuit、Plaid、Salesforce 等公司高管的金融科技天使也参与其中。 AI 基础设施初创公司 Hyperbolic Labs 融资 700 万美元人工智能基础设施初创公司 Hyperbolic Labs Inc. 表示，该公司已完成 700 万美元的种子轮融资，以改变人工智能开发人员获取计算和推理资源的方式。本轮融资由 Polychain Capital 和 Lightspeed Faction 领投，Chapter One、LongHash、Bankless Ventures、Republic Digital、Nomad Capital、CoinSummer Labs 和 Third Earth Capital 等其他投资者以及 Balaji Srinivasan、Illia Polosukhin、Sandeep Nailwal、Casey Caruso、Tekin Salimi 和 Santiago Santos 等天使投资人也参与了本轮融资。 AI 驱动的金融科技初创公司 Powder 获 500 万美元种子融资在首席执行官 Kanishk Parashar 的领导下，Powder 创建了用于精确文档分析的 AI 代理，以快速构建提案、汇总外部资产、了解财产并按账户类型、号码、实体、税务状况和资产分类自动组织投资组合。融资支持者包括 YCombinator、General Catalyst、Funder’s Club、Elefund、Litquidity Ventures 和 Script Capital，以及 Jon Xu 和 Bryant Chou。 AI 语音公司 Gnani AI 获 400 万美元 A 轮融资由 Ganesh Gopalan 和 Ananth Nagaraj 创立，是一家语音优先的生成式人工智能初创公司。在其 A 轮融资中从 Info Edge Ventures 筹集了 400 万美元。Gnani 提供无代码语音优先平台，具有多种产品功能，例如全渠道会话自动化、代理辅助、语音生物识别、全渠道分析等。 AI 解决方案提供商 Axle Automation 获得 250 万美元种子轮融资 Axle Automation是一家合规团队人工智能解决方案提供商，专注于利用生成式人工智能来自动化和增强AML合规流程，该公司专注于简化运营，例如加强尽职调查，从而使金融机构能够有效地扩大其合规工作，通过自动化这些传统上手动且效率低下的流程，旨在减少欺诈、合规风险和运营成本，同时增加收入。Axle Automation宣布其种子轮融资成功结束。本轮融资由 Diagram Ventures 领投，Mistral Ventures、Uphonest Capital、StreamingFast 和其他战略天使投资者参投。 AI 驱动的法律公司 DecoverAI 筹集 200 万美元种子资金 DecoverAI 成立于 2024 年，由首席执行官 Ravi Tandon、首席技术官 Janar Ramalingam 和首席运营官兼首席风险官 Kevin J. Van Horn 领导，是一家法律技术公司，专注于提供人工智能驱动的解决方案，以提高法律专业人士的效率和效果。其目标是建立一个智能人工智能系统，包含现实世界法律工作流程所需的功能，包括发现证据、将其与研究相结合，甚至生成不同的叙述策略来协助法律专业人士。此轮融资由利奥资本领投，其他知名投资者跟投。 AI 伴侣设备 Friend 获 250 万美元融资 Friend由哈佛大学辍学生、曾因创建COVID-19追踪网站获得威比奖的Avi Schiffmann开发。这款项链不用于提高生产力，而是作为一种情感玩具，通过连接到手机并持续监听用户的声音，来提供伴侣式的交流。 Schiffmann 已以 5000 万美元估值筹集了 250 万美元资金，投资者包括 Caffeulated Capital 的 Raymond Tonsing、Z Fellows 创始人 Cory Levy、Perplexity 首席执行官 Aravind Srinivas、Solana 创始人 Anatoly Yakovenko 和 Raj Gokal、Morning Brew 首席执行官兼联合创始人 Austin Rief（约旦）在 Figma 从事人工智能工作的 Singer 和 Google 高级产品经理 Logan Kilpatrick。Friend计划以99美元的价格接受预订，预计于2025年1月发货。机器人公司洛必德获得 B+ 轮投资洛必德是一家机器人研发与运营商，核心产品为服务机器人，公司致力于构建机器人工程师文化, 研发机器人，提供机器人有关的服务。盈科资本投资成员企业洛必德科技宣布完成B+轮融资。此轮融资将进一步推动公司在自动驾驶和人形机器人的技术研发和产业化进程。 AI 数据提供商 Deepnote 收购 Hyperquery Deepnote 是一家位于加利福尼亚州旧金山的人工智能数据工作区提供商，收购了位于加利福尼亚州旧金山的数据科学和分析领域竞争对手 Hyperquery。交易金额并未披露。Deepnote 正在将 Hyperquery 的功能和客户集成到其人工智能驱动的数据笔记本中。 Airtable 收购 AI 人才入职初创公司 Dopt Airtable 收购 Dopt，后者专注于帮助初创公司为新用户提供产品入门体验。Dopt 近期推出了多项功能，使得用户能够将人工智能辅助工具集成到服务中，这也是 Airtable 收购的主要原因。Dopt 团队将加入 Airtable 的 AI 组。Airtable 正专注于人工智能，并推出了 Airtable Cobuilder，允许用户通过描述创建应用程序（欢迎添加微信AIyanxishe2，了解更多AIGC、融资情况，与志同道合的朋友一同畅聊时新AI产品） 02 今日大厂风闻 OpenAI向部分用户开放GPT-4o语音模式，今秋将扩大至所有付费用户 OpenAI宣布开始向部分ChatGPT Plus用户推出GPT-4o的语音模式。据OpenAI介绍，高级语音模式能提供更自然的实时对话，允许用户随时打断，并能感知和响应用户的情绪。实时响应和可打断对话是目前语音助手公认的技术难点。语音模式将于今年秋季向所有ChatGPT Plus用户开放，初期的功能将比较有限。阿里通义免费开放奥运AI大模型阿里通义宣布免费开放奥运AI大模型。据了解，此模型具备奥运专业知识与翻译功能。即日起用户可以在通义App免费使用。今年，巴黎奥运会是AI应用最广泛的一届奥运会。阿里巴巴的云计算和AI技术，正在全面支撑奥运转播和赛事运营。周鸿祎宣布 360 安全大模型免费周鸿祎称 360“要把大模型拉下神坛”，不希望大模型成为少数厂商奇货可居赚钱的工具，让每个企业都“用得起、用得好”。当前，360 全线安全产品已集成安全大模型的能力，对所有购买 360 标准产品的用户免费提供大模型标准能力，产品加量不加价。快手可灵AI官方打假：目前没有APP 7月31日，快手官方发布“可灵AI打假声明”称，可灵AI目前没有App，更未在任何一家应用商店和网站上线可供下载的App，凡是标着“可灵AI”、暗示为可灵AI官方或得到官方授权的App都是假的。百度飞桨 PaddleX 3.0-beta 昇腾版发布，支持多场景、低代码开发 PaddleX3.0-beta昇腾版是由飞桨推出的端云协同低代码开发工具，旨在帮助开发者以低成本和零门槛的方式解决产业中的实际问题。PaddleX3.0-beta昇腾版提供了便捷的开发范式，开发者无需深入了解底层原理，通过统一的命令和配置即可完成数据校验、训练、评估、推理等不同任务。此外，PaddleX还支持快速模型优化，暴露了关键超参数供开发者调整。训练好的模型可以通过简单的Python API集成到项目中。国内首个亿级参数地震波大模型”谛听”在成都发布谛听地震波大模型由国家超级计算成都中心、中国地震局地球物理研究所和清华大学共同开发，它拥有亿级参数，是国内首个、国内外最大规模的地震学专业 AI 训练数据集之一。该模型经过半年多的研究，已经可以投入使用，并且预计将于 2024 年 8 月完成十亿参数量级的版本预训练。此外，该模型已显著提升了地震信号的识别准确率和速度，对于突破中小地震波模型性能瓶颈、提高地震大数据智能处理能力具有重要意义。此芯科技发布异构AI PC芯片，布局端侧AI生态此芯 P1 采用 6nm 制造工艺，具备 AI 异构计算资源、全方位的安全引擎、多样化的外设接口以及多操作系统支持等特性。此芯科技的 “一芯多用” 战略旨在构建端侧 AI 生态，面向全球与本土双市场，打造新一代 AI PC 算力底座，支持混合人工智能部署。 03 今日产品动态 GitStart AI Ticket Studio 旨在通过AI来简化和优化软件开发过程中的 Bug 报告和功能请求。它能够自动化地生成详细、清晰的工程票据，减少沟通成本，提高开发效率。该工具集成了自然语言处理和机器学习技术，可以理解开发者和项目经理的描述，然后转化为标准化的、易于理解的任务描述。用户可以通过简单的描述来启动这个过程，AI 将自动填充必要的细节，包括问题的重现步骤、相关截图和日志，以及可能的解决方案。这样的工具对于提升团队协作和加速软件迭代至关重要。 🔗 https://gitstart.com/?ref=producthunt 1.Midjourney V6.1版本上线，优化远景人脸，细节更丰富 Midjourney V6.1 版本的上线带来了多项重要更新，包括图像连贯性的突破、画质的全面提升、微观细节的精准把控等。在处理复杂结构如人体和动植物时，表现出色，尤其是在细节如手臂、腿部和手掌的自然流畅表现上。新版本在减少像素伪影、增强纹理表现力方面取得了显著进展，特别是在皮肤质感和 8bit 复古风格的呈现上。标准图像任务的处理速度提升约 25%，能更准确地生成文字，可以调用旧任务中的个性化模型和数据。 🔗 discord.gg/midjourney 2.RenderNet推出自动配音功能 Narrator RenderNet推出新的 Narrator 功能。用户上传自己的视频，并添加相应的脚本，系统将自动帮助角色与脚本中的话语进行口型同步。 🔗 https://rendernet.ai/ 04 特别关注苹果公布一篇 47 页的论文，详细介绍了自家开发的两个基础语言模型 AFM-on-device，参数约 30 亿，以及更大的服务器端模型 AFM-server。论文中详细描述了模型的基于 Transformer 的密集解码器架构，以及进行的多项优化设计，旨在提高效率。训练过程包括核心预训练、持续训练和长上下文训练三个阶段，使用了多样化的高质量数据。后训练优化则采用了监督微调和基于人类反馈的强化学习来提升模型能力。此外，论文还提供了评估结果，展示了模型的性能。 🔗https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

奥特曼所投 AI 芯片公司 Cerebras Systems 即将上市；AI 大牛周志华任南京大学副校长

01 今日融资快报 Sam Altman 所投 AI 芯片公司 Cerebras Systems 即将上市明星AI芯片独角兽 Cerebras Systems 今日宣布，已向美国证券交易委员会秘密提交了一份有关其普通股首次公开发行的表格 S-1 登记声明草案。此次拟议发行的规模和价格范围尚未确定，首次公开募股取决于市场和其他条件以及美国证券交易委员会审查程序的完成。此前，Cerebras 以研发出世界上最大的芯片，并在人工智能和高性能计算（HPC）市场上与英伟达竞争而闻名。今年3月，Cerebras 推出了最新的Wafer Scale Engine 3芯片（又称”WSE-3芯片”）。目前，该公司已累计融资 7.2 亿美元，估值约为 42 亿到 50 亿美元。6月，OpenAI 首席执行官 Sam Altman 参与了 Cerebras 的 8000 万美元 D 轮融资，他也成为该公司最大的投资人之一。埃斯顿：拟4.5亿元对全资子公司埃斯顿机器人增资埃斯顿公告，公司拟使用自有资金4.5亿元对全资子公司南京埃斯顿机器人工程有限公司进行增资，其中3亿元计入注册资本，1.5亿元计入资本公积。此次增资完成后，埃斯顿机器人的注册资本将由1.5亿元增加至4.5亿元，公司仍持有埃斯顿机器人100%的股权。埃斯顿于 1993 年在南京注册设立，2015 年在深交所上市，是国产智能工业机器人“四小龙”之一。生成式 AI 公司 Ema 获 5000 万美元 A 轮融资 Ema 是一家致力于创造未来通用员工的生成型人工智能公司，在获得由 Accel 和 Section 32 领投的 3600 万美元资金后，宣布其 A 轮融资总额为 5000 万美元。Prosus Ventures、Sozo Ventures、Hitachi Ventures、 Wipro Ventures、SCB 10X、Colle Capital 和 Frontier Ventures。迄今为止，该公司已筹集 6100 万美元。自 3 月份揭晓以来，Ema 的客户群已经增加了两倍多。开发者可观察性平台 Lightrun 融资 1800 万美元 Lightrun 成立于 2019 年，提供以开发人员为中心的可观察性平台，允许开发人员实时调试代码，而无需进行大量的预测试或重新部署。该公司声称其服务可以为各种环境（包括开发、登台和生产）中的应用程序行为提供无与伦比的可见性。其产品 Runtime Autonomous AI Debugger是一种基于生成AI的运行时自主调试器。 GTM Capital 领投了 B 轮融资，之前的投资者 Insight Partners LP 和 Glilot Capital Partners Ltd. 也参与其中。算上新一轮融资，Lightrun 迄今已筹集 4800 万美元。 AI 销售助手 Sybill 融资 1100 万美元 Sybill是一家专门为销售代表打造人工智能助手的初创公司，已在 Greycroft 领投的 A 轮融资中筹集了 1100 万美元。Sybill 成立于 2020 年，在 2023 年的 9 个月内将其 ARR 从 10 万美元扩大到了 100 万美元，其中大部分显然是由推荐推动的。自 2020 年成立以来，A 轮融资使该公司的融资总额达到 1450 万美元。现有投资者 Neotribe Ventures、Powerhouse Ventures 和 Uncorlated Ventures 也参与了此轮融资。招聘 AI Agent 平台 Tezi 获 900 万美元种子融资 Tezi 是一家初创公司，正在开发一款 AI 代理，用于协助人力资源团队在大量求职者中找到最佳人选。Tezi 的 AI 代理不仅能够筛选简历，还能在招聘人员的日历中安排面试时间，并自动发送面试邀请邮件。他们的模型已经通过了 2.5 亿份个人资料的训练，并且正在与 OpenAI 和 Anthropic 的模型进行优化，以适应招聘要求。这轮 900 万美元的种子轮由 8VC 和 Audacious Ventures 领投，Liquid 2、Afore、PrimeSet、South Park Commons 和行业天使参投。 Not Diamond 筹集 230 万美元资金 Not Diamond 在首席执行官兼联合创始人 Tomás Hernando Kofman 的领导下，帮助开发人员将查询路由到最佳的 AI 模型。对于任何给定的输入，系统自动确定哪个模型最适合回答它，从而根据每个开发人员的数据和用例有效地个性化路由决策。本轮融资由 defy.vc 领投，世界领先的人工智能科学家、工程师和高管参与其中，包括 Jeff Dean (Google)、Julien Chaumond (Hugging Face)、Zack Kass (OpenAI)、Ion Stoica (Anyscale、Databricks)、Tom Preston-Werner (Github)、Scott Belsky (Adobe)、Jeff Weiner (LinkedIn) 等等。 AI驱动的教育平台 Masterplace 融资 200 万美元 Masterplace已筹集 200 万美元种子轮资金，用于推出人工智能驱动的教育平台。该平台为学生提供内容，并使导师能够轻松创建课程和内容，同时简化学生跟踪和评估。这笔资金由一群商业天使和创始人 Ilya Rouss 支持。法律公司 Definely 获 58.5万英镑，用于AI法律技术开发英国法律科技Definely获得了 Innovate UK 的 58.5 英镑拨款，以推进其为法律行业开发人工智能驱动的解决方案。Definely 于 2020 年推出，让律师更轻松地阅读、编辑和理解法律文件。该公司提供基于订阅的生产力解决方案套件，旨在在合同生命周期的执行前阶段为律师提供帮助。安捷伦 Agilent 收购 AI 实验室技术服务商 Sigsense Tech 安捷伦科技Agilent Technologies致力于满足分析科学家和临床研究人员的科学和实验室管理需求。Sigsense Tech是一家AI实验室技术服务商，使用人工智能和电源监控来帮助优化实验室操作。近日，安捷伦Agilent官网宣布，已成功收购位于Sigsense Tech。此次收购旨在通过整合Sigsense的人工智能与电力监控技术，进一步优化和提升实验室的运营效率。具体财务细节尚未对外公布。（欢迎添加微信AIyanxishe2，了解更多AIGC、融资情况，与志同道合的朋友一同畅聊时新AI产品） 02 今日大厂风闻 AI大牛周志华任南京大学副校长 AI大牛周志华上任南京大学副校长，南京大学官网更新现任领导名单，新增两名副校长。其中就有南京大学人工智能学院院长周志华。他在人工智能、机器学习和数据挖掘领域有着深厚的研究成果，拥有超过 96000 次的 Google Scholar 引用，并且是少数获得 Fellow “大满贯” 的学者。周志华曾在南京大学获得本硕博学位，随后在校任教，并迅速晋升为副教授、教授和博士生导师。他还担任过欧洲科学院院士、南京大学人工智能学院院长等职位，并在IJCAI担任理事会主席。他所著《机器学习》被广泛用作教材。最近，他的研究团队发表了关于 “学件范式” 的论文，并构建了首个学件基座系统 “北冥坞”。此外，南京大学党委书记谭铁牛也是 AI 领域的专家，两人共同组成了强大的 AI 领域领导力量。（量子位）谷歌发布 Gemma 2 2B模型，引入 Gemma Scope 可视化功能谷歌最新发布的 Gemma 2 2B 语言模型，通过蒸馏学习技术，在保持性能的同时实现了 “更小、更安全、更透明” 的特性。该模型在多种硬件上展现出了卓越的运行能力，并且能够在 Google Colab 的免费 T4 GPU 服务上流畅运行，降低了研发门槛。 Gemma 2 模型还引入了 Gemma Scope 功能，提供了一套开放的稀疏自编码器，帮助研究人员理解语言模型的内部工作原理，推动可解释性研究，并开发模型幻觉保护措施。尽管 Gemma 2 2B 提供了成本效益高的解决方案，但其训练阶段仍需大量计算资源 Meta元宇宙第二季度再亏45亿美元，AI助力广告业务增长今年第二季度，马克·扎克伯格的Meta Platforms在其元宇宙业务Reality Labs上又损失了45亿美元，自2019年以来，其元宇宙资金损失已增至近600亿美元。Meta表示，对于Reality Labs部门，预计2024年仍将出现亏损。此外，在第二季度财报电话会议上，Meta报告称其营收高于预期，人工智能助力广告业务增长，达到490亿美元，较去年同期增长22%，是有史以来第二大季度营收。英伟达推下一代机器人整套平台型产品 NVIDIA 宣布为全球机器人制造商、AI 模型开发者和软件制造商提供一套服务、模型以及计算平台，以开发、训练和构建下一代人形机器人。整套产品包括用于机器人仿真和学习的全新 NVIDIA NIM 微服务和框架、用于运行多阶段机器人工作负载的 NVIDIA OSMO 编排服务，以及支持 AI 和仿真的远程操作工作流，该工作流允许开发者使用少量人类演示数据来训练机器人。 NVIDIA 介绍，首批加入早期访问计划的企业有 1x、波士顿动力公司、字节跳动 ByteDance Research、Field AI、Figure、傅利叶、银河通用、逐际动力、Mentee、Neura Robotics、星动纪元和 Skild AI。（亿欧）马斯克：xAI并未考虑收购Character.AI 埃隆·马斯克表示，其人工智能初创公司 xAI 不考虑收购聊天机器人初创公司 Character.AI。此前The Information报道， xAI 正在考虑购买 Character.AI，以求更多方法来测试其 Grok AI 模型。阿里将推出AI采购引擎，服务全球商家阿里巴巴计划于9月推出AI对话式采购引擎。该引擎旨在改变中小企业的全球采购流程，使其更加直观和高效。新服务将整合所有电商平台，并专注于理解自然语言并转化为专业采购请求。此外，它还可以预测采购需求并提供建议。阿里巴巴的人工智能对话式采购引擎将首次亮相B2B电商领域。科大讯飞在江苏成立两家人工智能新公司天眼查App显示，讯飞星原（南京）科技有限公司、江苏讯智未来信息科技有限公司成立，法定代表人分别为刘江、黄飞云，注册资本分别为1亿人民币、3000万人民币，经营范围均含人工智能应用软件开发、人工智能理论与算法软件开发、人工智能通用应用系统、互联网数据服务、信息系统集成服务等。股东信息显示，两公司均由科大讯飞全资持股。山姆·奥特曼：OpenAI正与美国人工智能安全研究所合作 OpenAI 首席执行官Sam Altman宣布，OpenAI 将与美国人工智能安全研究所合作，该研究所是一个联邦政府机构，旨在评估和解决人工智能平台的风险。尽管细节不多，但这一举动似乎旨在反驳 OpenAI 放弃了人工智能安全研究以追求更强大的生成 AI 技术的说法。 TikTok通过微软以每月约2000万美元的价格购买OpenAI的模型微软通过云服务销售 OpenAI 的人工智能技术， TikTok 是这一业务的主要客户之一，每月支付约 2000 万美元，接近微软从该业务中获得的总收入的 25%。微软的这一业务预计年收入将达到 10 亿美元。然而，随着字节跳动在开发自己的人工智能技术上取得进展，TikTok 在 OpenAI 技术上的支出可能会停止。亚马逊推出新的人工智能模型，提升无需结账的 “Just Walk Out” 技术亚马逊为其 “Just Walk Out” 无需结账技术引入了新的人工智能模型。使得系统在处理实体店铺中的摄像头、货架传感器和其他信息时更加准确。消费者则可以在进入店铺时提供支付信息，随后在离开时自动完成支付并获得收据。该技术已在全球超过 170 个地点应用，包括美国、英国和加拿大的机场、体育场、大学和医院。该技术还能够减少盗窃行为，并保证不会收集或使用任何生物识别信息。 TytoCare的AI肺部裂纹检测获得FDA批准 TytoCare的新型AI诊断工具Tyto Insights for Crackle Detection已获得FDA批准，该工具加入了TytoCare现有的诊断解决方案套件，旨在提高临床医生的效率和诊断速度。可以检测成人和两岁以上儿童的肺部裂纹，有助于指导患者进行适当的随访治疗。该工具将集成到TytoCare的家庭智能诊所和专业智能诊所解决方案中，于9月推出。 360悬浮球将换成集成15家最强大模型的AI助手周鸿祎宣布360悬浮球将换成AI助手，并新增AI助手悬浮按钮。AI助手与15家顶尖大模型公司合作，全面整合到360的国民级入口产品中，用户无需安装插件即可使用。另外周鸿祎还透露，360AI搜索月活已经过千万。 03 今日产品动态 Toby 是一个在任何视频通话中提供实时语音翻译的工具，它能够在几乎没有延迟的情况下工作，旨在打破语言障碍，使跨国沟通更加流畅。只需下载应用程序，在任何视频通话平台（zoom、teams、google meet 等）上进行设置，就可使用 toby。目前支持全球最常用的 7 种语言，英语、中文、日语、西班牙语、法语、德语和葡萄牙语，并且正在添加更多语言。还包含一些很酷的功能，如双向音频翻译、个性化词汇表、文字记录和音频比例调整等。 🔗https://www.trytoby.com/?ref=producthunt 1.斯坦福 AI 实验室推出 AlphaXiv 论文讨论平台，可进行实时讨论 AlphaXiv 由斯坦福 AI 实验室的学生 Rehaan Ahmad 和 Raj Palleti 打造，他们都曾在吴恩达实验室工作。该平台允许用户注册账号后对 arXiv 上的论文进行评论和讨论，支持不同类型的评论，如一般性问题、研究性见解、资源分享和私人笔记。用户可以申请成为 reviewer，参与论文评审和讨论主持。 AlphaXiv 最初是作为 web 开发课的期末作业启动，后来在斯坦福内部得到了实验室的使用和优化。该平台支持与 ORCID 系统的集成，实现了身份识别和学术成果链接。目前，AlphaXiv 已经吸引了多个实验室的合作，并且获得了业内专家的关注和支持。 🔗 https://chromewebstore.google.com/detail/alphaxiv-open-research-di/liihfcjialakefgidmaadhajjikbjjab 2.上海 AI Lab 开源 AI 搜索工具 MindSearch ，媲美 Perplexity Pro 上海 AI Lab 开源了名为 MindSearch 的 AI 搜索工具，能力与 Perplexity Pro 相当，提供了在线演示和代码，支持深入理解问题并构建动态搜索思维图谱，基于 MultiAgent 架构提升可信度和可用性。 MindSearch 能够浏览数百个网页来深入理解和回答问题，动态构建搜索思维图谱。该工具基于 MultiAgent 架构，旨在提高可信度和可用性。MindSearch 的核心功能包括动态构建思考图谱，通过 MultiAgent 反思机制来提高可信度，以及支持解决生活中的任何问题，进行深入问题解决，并优化用户界面。在超过 100 个人工设计的现实问题上，MindSearch 在深度、广度和真实性上均超越了 ChatGPT-Web 和 Perplexity.ai (Pro)。 🔗github.com/InternLM/MindSearch 🔗https://mindsearch.netlify.app 3.字节海绵音乐：更适合中国宝宝体质的suno 字节跳动的海绵音乐是一款AI驱动的音乐生成工具，在中文支持上更加优秀，吐字更加清晰。产品在 6 月 5 日开始内测，现在已经对所有用户开放。用户可以选择生成多样化的音乐风格，并根据个人喜好选择曲风、心情和音色。每次生成可以得到 3 首歌曲，最长可以生成 1 分钟的音乐。直接登录，输入歌词就能生成。（以下音乐直接由该条资讯生成）体验🔗https://www.haimian.com/featured 4.竞争加速！Runway 宣布推出 Gen-3 Alpha Turbo 版本 Runway 宣布推出 Gen-3 Alpha Turbo 版本，该版本在视频生成速度上比原版快7倍，并且在许多用例中表现效果与原版相当。Turbo 版本将在未来的几天内推出图像到视频模型，并且会大幅降低价格，同时向免费用户开放。 🔗https://runwayml.com/product 04 特别关注该视频是李沐发布的关于 Llama 3.1 论文的精读系列视频的第一部分“导言”。目前点赞数 7000+。视频主要内容围绕 Llama 3.1 展开，Llama 3 系列模型具有较大的模型参数（405B），在多语言处理能力、工具使用等方面表现出色。在与其他模型的比较中，Llama 3 有其独特之处，同时也存在与其他团队（如 Mistral）的竞争关系。视频中提到了 Llama 3 的训练数据、评估数据的情况，以及它在各种任务上的性能表现。还展示了一些关于 Llama 3.1 的应用演示，如在问答、文本生成等方面的实际效果。此外，李沐表示后续视频会深入分享 Llama 3.1 的更多技术细节。 🔗 https://www.bilibili.com/video/BV1WM4m1y7Uh/?vd_source=7184a0d70c4988ce7cdac52eec6d058b

代码生成三问：如何打造 24 小时在线的 AI 程序员？

作者丨张进编辑丨陈彩娴 2024 年年初，拥有编程全栈技能的 Devin 惊艳全球，让外界看到了 AI 改变一个行业——替代程序员的可能性。 Devin 发布数周后，其背后的公司 Cognition 也随即获得 1.75 亿美元融资，估值从 3.5 亿美元一跃升至 20 亿美元。紧接着，4 月，一家 AI 编码辅助创业公司 Augment 宣布完成 2.52 亿美元的融资，投后估值接近独角兽，代码生成赛道的多米诺骨牌效应开始出现…… 到上半年，硅谷代码生成类的公司估值起步价已经高达 2 亿美金，头部公司甚至 20 亿美金。而据一位行业人士分析，代码生成的概念之所以受到追捧，其中一个重要原因是“人类的数据不够用了”。 AGI 时代的一个重要组成是人类必须依靠机器生成的数据，而代码生成的数据被部分从业者认为是“人类通往 AGI 过程中最有逻辑性与严谨的数据”。与此同时，网络上为大模型代码生成提效欢呼的声音越来越多。例如，一位中国开发者就提出，Claude 3.5 Sonnet 只要 500+ 行的 html 就能实现一个不错的功能；还有开发者称，其借助 GPT-4o 辅助代码写作，以前开发小程序需要一个月，现在只需要七天…… 根据开发者的反馈，大模型的代码生成能力正在真切地提升每位开发者的工作效率。事实上，程序员对于“AI 代码生成”的想象早有年头。在这波生成式 AI 浪潮之前，市场上就已出现一系列的 AI 编程工具，例如 Tabnine、Kite 等，但受限于它们的技术路径，过去的产品对于上下文逻辑的理解和代码生成的质量不尽人意。清流资本合伙人刘博告诉 AI 科技评论，AI 编码工具的其中一个效果评估指标是代码文件中由模型生成的代码占比，上一代工具只能做到 10-20%，而新一代的 AI 编程工具最高可以做到 40-50%——这是质的飞跃，同时新一代工具对编程上下文的理解也显著更好。微软 CEO 称，两年前上线的 AI 编程工具 GitHub Copilot（后接入 GPT-4 模型后更名为“Copilot X”）已经开始获利、并拥有 180 万付费订阅用户。迄今大模型狂飙一年半，在所有基于大模型的新 AI 工具中，coding 场景的 PMF 和付费意愿最先被验证，GitHub Copilot 仅用 14 个月便达到了 1 亿美元 ARR，是历史上增长最快的 SaaS 产品——这与其他场景里昙花一现的 AI 产品形成鲜明对比。几乎所有的通用大模型公司都推出了代码大模型和 AI 编程助手，如 OpenAI codex、Meta Code Llama、智谱 CodeGeeX、百度的 comate、腾讯云的 AI 代码助手、DeepSeek Coder…… 国内创业公司也开始增多：一站式 DevOps 研发管理平台 Coding 创始人张海龙创立了 AI Agent 公司 Babel，企业智能化软件开发解决方案提供商 aiXcoder 也因此受到资本关注、并在2023年迅速完成了 A+ 轮融资。多方势力角逐，创业公司在混乱中争取生机，而创业公司、通用大模型公司、科技大厂各方仍然面临 AI 领域发展的通用问题：To C 还是To B，技术路径选择通用大模型还是垂直模型，要不要自研模型，以及如何在 GitHub Copilot 的笼罩下突围。值得注意的是，受限于底层技术大模型的能力，目前各种 AI 编程产品仍然集中于 coding 阶段，在代码补全和代码生成两个场景 PK，所以本质上，现在的 AI 编程产品依然是 AI coding。但尽管如此，“24 小时 AI 程序员”的生产力仍然让所有人着迷。为什么对 coding 情有独钟？当前大多数 AI coding 产品主攻代码补全和代码生成两个高频场景。软件开发的智能化最开始就是从代码生成和代码补全开始的。因为技术容易实现，不会颠覆程序员的开发模型，代码补全是整个行业做的比较成熟的功能，不管是大厂还是初创公司，产品都能用起来，且正确率较高。在一个已有的项目中根据上下文去增加新功能叫代码补全，即开发者用自然语言表达一个需求，用代码生成。代码生成现在正处于从文件级代码到项目级代码的突破。代码生成还处于初级阶段，简单的函数能生成得比较好，但并不是完全靠大模型，需要外挂一些知识库配合，不能达到100%准确，若再想扩展到一个文件级的代码生成，难度则会增高，往仓级别的难度会更高，而 Devin 展示的就是往仓级别去实现。一位研究代码智能的专家告诉 AI 科技评论，代码补全现在是兵家必争之地，是已经真正落地、也是程序员使用最多的场景。相对来说，代码生成功能的使用频率相对少一些，目前要真正融入到日常的开发成为高频选项还有一些距离，原因是代码生成需要改变程序员的开发模式、开发习惯。代码生成目前依然是通过跟一个对话机器人对话，用自然语言表达需求来让大模型生成一段代码，在这个过程中不断交互、表达需求，需求表达地越清晰、生成的代码越准确。这过程中涉及到需求拆解。将一个大的需求拆解成一个个的小任务，再去生成，需求拆解对于当前大模型来说还有难度。同时，由于编程思维跟自然语言表达是两回事，对于开发者来说，一个人代码写的好，并不意味着用自然语言表达业务逻辑好，它需要具备两方面的能力。一是要熟悉业务，二是要扎实的计算机理论知识，包括算法，操作系统，软件工程，计算机安全等，这其实对开发者的个人素养提出了很高的要求。除了代码补全和代码生成两个高频场景，其他产品寻求差异化的出口是提供代码注释、代码解读、代码 bug 修复、代码优化、漏洞检测等能力。例如国内智谱 CodeGeeX 便开发了独有的功能，例如去年年底推出的工具箱，就是基于模型具备Code Interpreter代码解释器能力，可以批量处理多种格式的文件、批量实现数据可视化、绘制数学函数图等。 CodeGeeX 负责人郑勤锴认为，在这些事情上为开发者节省了时间，开发者就能将工作更多放在顶层设计上——怎么把代码的架构设计地更好、功能考虑地更完善，从而提高软件的质量。智谱在2022年就完成了CodeGeeX代码大模型的训练，并同时推出了 CodeGeeX插件产品。跟GitHub Copilot 一样，CodeGeeX定位是智能辅助编程，但辅助也分为不同层级，目前已经从单个文件辅助拓展到了项目级辅助编程，因为实际开发场景中不可能只有单文件，大多都是多文件。 CodeGeeX负责人郑勤锴称，往项目级拓展的挑战在于项目生成的成功率，因为代码项目往往不只是一小段代码或者一个文件的代码组成，而是同时需要完成项目中跨文件的代码理解和生成补全。让模型能充分理解更长的信息，并提取到关键部分，这对模型的要求很高。对于参数量10B以下的代码大模型，从海量的代码中准确提取信息是一个关键性的挑战。CodeGeeX4支持128K上下文，能够处理和利用更长代码文件、包括项目代码中的信息，是模型更深入理解复杂和细节丰富的代码的关键点。如何跟 GitHub Copilot 竞争？一位投资人认为，做 AI 编程助手没人能拼得过 GitHub Copilot。 GitHub Copilot 主要 To C，面向个人开发者定价每月 10 美元（约 66.9 元人民币）或每年 100 美元（约 669 元人民币）。 To B 企业用户月费 39 美元，企业用户可以将代码部署到云端，而不必在本地反复克隆；企业用户可以内建知识库，形成个性化的Copilot Chat（在原有Copilot的基础之上，开发者可以直接用自然语言和Copilot对话来解决遇到的问题），甚至是对底层模型进行微调。除了占据时间上的先发优势，GitHub Copilot 拥有两大先天优势，一是背靠拥有上亿开发者的代码托管平台 GitHub，二是底层接入的是 OpenAI 最强的模型。站在今天来看，微软对开发者市场的战略一直很清晰：2015 年推出跨平台代码编辑器 VScode，从用户侧统一IDE；2018 年收购 GitHub，拥有大量代码数据（包括商用的未公开的数据）；2019 年，微软向 OpenAI 投资了 10 亿美金，并获得了 OpenAI 技术的商业化授权。于是，在 2020 年 OpenAI 推出了 GPT-3 后，拿着最多的代码数据去训练模型，隔年 AI 编程工具 GitHub Copilot被推出，成为全球最早一款大模型 AI 编程工具，抢占了先发优势。今年 4 月微软 CEO 称 GitHub Copilot 已经拥有 180 万付费订阅用户。但也有多位从业者认为 GitHub Copilot 并非能一统天下。 “对于国内市场而言，商业化机会在 B 端。”清流资本合伙人刘博告诉 AI 科技评论。首先，AI 编程产品面向的中大型企业 B 端市场大概是几十亿人民币的规模，用户付费意愿非常明确，这一市场规模和客单价在软件服务市场上已经比较客观。对于国内 B 端用户而言，他们有两个需求是 GitHub Copilot 无法满足的：1）模型本地部署，如果云端调用 GitHub Copilot 会有代码泄露的风险同时本地部署后可以根据客户的私有代码进一步训练，显著提升代码生成的效果；2）大客户需要选择国内的产品作为供应商，避免数据外流。照着以上标准来找标的，清流资本在去年 9 月参与了国内面向企业的智能化软件开发解决方案提供商 aiXcoder A+ 轮投资。跟 GitHub copilot 不同，aiXcoder 聚焦 To B，为企业提供基于代码大模型的智能化软件开发解决方案，包含私有化部署、企业领域知识与大模型融合、定制化开发等服务。清流资本合伙人刘博告诉 AI 科技评论，B 端市场的打法是当公司在一个行业里已经渗透了足够多的客户后，就能成为 AI Coding工具实质上的行业标准，成为行业里其他企业采购 AI Coding 工具时必须邀请参与竞标的供应商。因此从国内的商业化角度出发，先发优势和聚焦很重要。 aiXcoder孵化自北京大学软件工程研究所，在2013年就开始研究深度学习跟代码结合，早在 2022 年 6 月便发布了中国首个百亿级参数的代码大模型 aiXcoder-13B，能够支持方法级（函数级）的代码补全。 aiXcoder COO 李力行认为，代码大模型落地时，如何跟企业的领域知识或者私域知识相结合非常关键，从而保证生成的代码更准确，因为代码生成要用到很多上下文信息，以及一些外部的领域知识，领域知识是指企业的业务逻辑、业务知识等等。一位资深从业者认为，高质量的数据才是模型能力的区隔。公开的数据可能有一天终会达到瓶颈，但世界上还有大量的私有数据可能永远不会被公开，它们存在于各个 B 端企业内部，与企业业务逻辑强耦合。aiXcoder 在为客户做本地部署的时候会基于这些私有化数据进行再训练，给每个企业打造专属的代码大模型。通用大模型还是垂直模型？ GitHub Copilot 占据了 C 端优势地位，国内玩家不约而同选择了 C 端免费策略，如智谱 CodeGeeX、百度Comate、腾讯云 AI 代码助手都推出了面向个人开发者的免费工具，这几家厂商跟 aiXcoder 一样、将商业化看向 B 端。它们共同的思路是拿代码数据在各自的基座大模型上进行预训练或者微调，相同的代码数据来自GitHub和其他可公开访问的源代码，百度、阿里、腾讯这些大厂还有一部分内部代码的积累。收集数据的方式、选取数据的类型、训练的方法……整个训练过程多个环节的差异导致各个代码模型效果各异。例如智谱 CodeGeeX 推出一体机的模式，开箱即用，提供完善的软硬件和使用方式，特点是可以结合企业内部的代码仓库、知识库来加强代码能力，优势是代码是私有化安全的。企业更关注怎么跟企业内部的代码、数据文档做结合，在模型训练阶段对这些代码并不了解，包括企业内部自己定义的 API 接口等等。为了让模型更懂企业的代码，CodeGeeX 提供了几个方向：定制化的微调方案，在企业内部去用它们自己的代码去对模型进行强化，还包括 RAG 检索增强方案，即把企业代码和文档作为知识库来辅助预测。有投资人并不看好创业公司做代码大模型，他们认为 AI Coding 这块未来依然是通用大模型公司的事情，大模型公司更擅长做这件事，创业公司很难产生差异化，而且竞争对手太多了。而且，软件 To B 一直面临的问题是国内 B 端客户用不起，这是国内 SaaS 一直没做起来的原因之一。的确，根据开发者的反馈，如 GPT-4o、Claude 3.5 Sonnet 这样的通用大模型现在也能保持不错的代码效果。一位从业者认为，未来可能会有一个在所有模态上都很强的六边形战士模型，但真正从B端商业化落地来看，不太有太多公司有能力本地部署这样一个参数量巨大的六边形战士模型，市场仍然需要一个代码垂直模型。那么创业公司如何跟大厂竞争？大厂在理论上可以做所有的事情，但：首先，大厂需要在所有能做的事情里去选择以及决定对应的资源调配，对于大厂而言，有太多方向可以得到比单个 B 端 coding 场景更多的资源，比如通用大模型、AGI 等，而创业公司 100% 聚焦在一件事上；其次，在垂直场景里，大厂的认知不一定比创业公司更深。B 端 AI coding是一个非常垂直且专业的场景，在大模型的基础上仍然需要大量进阶的代码 knowhow 和对客户需求的深度洞察。 aiXcoder COO李力行认为，首先需要通过全流程的数据治理和个性化训练，使大模型能够深刻理解并掌握企业领域知识，落地企业专属代码大模型；随后，利用多 agent 等方式结合传统软件开发工具和方法，高效地解决企业复杂的软件开发任务。 Agent 是趋势软件开发是一个复杂的系统工程，coding只占其中很少的部分，还涉及到需求理解、debugging、优化、部署等多个环节。而以 GitHub Copilot 为首的 AI 编程辅助产品现在只能写点“函数砖头”，砌墙的事还得程序员亲自来。但 Devin 的出现满足了外界对 AI 软件开发的想象力，不止于 coding 阶段。在 3 月初创公司 Cognition 的 demo 演示中，Devin 化身为一个拥有“全栈技能”的AI程序员，一个能够独立完成任务的自助系统，在快速原型设计、修复bug和复杂数据的可视化上表现优秀。从交互上，Devin 带来了一种新的AI软件开发形态，包括命令行、浏览器等组件，是第一个脱离 IDE 的软件开发形态。从实际任务上，Devin 愿景是完成整个软件开发的需求任务，这种能完成更复杂开发任务的 Agent 已经成为业内确定的产品趋势。而 Devin 则被称为 Agent 的“ChatGPT 时刻”。一位 AI Agent 创业者赵聪认为，issue level 的 coding 都需要用 Agent 来实现，解决的是更复杂的问题，自动解 issue。issue 等同于文件级的代码，而现在的代码生成、补全都是在单文件上，解 issue 往往是针对整个项目，拥有多个文件。 aiXcoder COO 李力行看好 Agent 在软件开发领域的应用，他认为多 Agent 协作也让全流程代码生成等更加复杂的开发任务成为可能。在2024年， aiXcoder 推出基于Agent技术的智能化软件开发系统2.0，通过大模型+软件开发工具调用解决企业项目级代码生成问题，确保复杂开发场景下代码生成的高效性、准确性和可靠性。 Devin 想要去解决一个问题，或者说修改一个仓密度的代码，大家都在朝着 Devin 的方向做探索，但大模型能力现在几乎还达不到。目前 Agent 还处于探索、实验阶段。距离 Devin 发布已经过去五个月，依然没有任何更进一步的消息。其 CEO Scott 也透露，他们尚无明确的公开预览（public preview）时间表，目前仍在内测阶段，即无确定的产品形态。 CodeGeeX 负责人郑勤锴则认为，Agent 只是实现某个功能的路径，现在的 Agent 很多只是简单的工具调用。重要的还是看最终实现的功能，能达到多高的可用性。赵聪认为未来的创业机会在 AI Agent，因为 AI 编程赛道上 Copilot 微软已经做了，很难再与之竞争，所以只能往前走，即直接替代人。开发者平时很多工作都类似于拿着螺丝刀拧螺丝，Copilot 就是把螺丝刀换成了电钻，而 AI 程序员则是给开发者配个小弟，所以 Copilot 依然是个好工具，但 AI 程序员就是生产力，这是完全不同的两件事。但做 AI 程序员不是科学问题，而是个工程问题。这里涉及路径选择的问题，在做 AI 程序员时有公司是自己做模型，赵聪认为这是错误的路径，他不相信所谓的小模型/垂直模型，觉得模型就只有大模型，因为只有大模型能带来智力。未来面临的挑战是，所有人都要往 project level coding 走，要依赖底层模型的进化，但模型太贵。赵聪认为GPT-4 至少得再降价 10 倍，才具有真正的可能性。在软件工程中，AI 难以解决的两大问题是：1）复杂项目的业务上下文理解。2）每家公司独特的工程架构、逻辑和实践。在解决这两个问题之前，AI Agent 还无法完全替代人类程序员。但多位从业者一致认为，随着 AI 不断进化，未来高级程序员不会被替代，拧螺丝的初级程序员被替代已经能看到，未来程序员的培养路径也跟现在不一样，就像高科技种地，不需要真的从种地开始学，而是先从学习使用工具开始。未来 C 端应该更好地服务普通人，而不仅仅是开发者，如果普通人也能通过 AI 实现编程，那么 C 端有可能完成一次爆发，而这需要更强的模型能力，端到端仍然需要 Agent 来实现。但可以肯定的是，未来程序员逐渐都会离不开 AI 编程工具。

新王登基，Gemini 1.5 Pro 再度更新，超越 GPT 4o 和 Claude-3.5

作者丨刘洁编辑丨岑峰 lmsys官方在推特发布一则消息，恭喜DeepMind研发的Gemini 1.5 Pro 实验版（0801）在Chatbot Arena排名登顶，超越GPT 4o和Claude-3.5夺得第一。这是继今年3月Claude 3 “超大杯”Opus版本短暂超越GPT-4以来，OpenAI第二次让出Chatbot Arena的Overall ranking宝座。（正如我们前天说的，越来越多的大模型向OpenAI发起了冲击） Gemini 1.5 Pro 实验版（0801）在Chatbot Arena测试一周后。获得了超过12，000个社区投票，在Chatbot Arena和Vision Leaderboard排名上均取得了第一名的好成绩。之前说GPT-4o有刷分技巧，现在看起来Gemini 1.5 Pro可能也学到了这个技巧呢。 Gemini 1.5 Pro 实验版（0801）不仅在综合表现上极为突出，在各个细分领域上也有着出色的表现。它在数学方面排名前三，指令遵循排名前二，编码排名前五，硬提示（英语）排名前五。 Gemini 1.5 Pro 实验版（0801）具有强大的多语言能力，在中文、日语、德语、俄语方面均表现第一。从总体胜率图上，也能看出Gemini 1.5 Pro 实验版（0801）实力强劲，对阵 GPT-4o 的胜率为 54%，对阵 Claude-3.5-Sonnet 的胜率为 59%。前OpenAI的开发者，现Google AI Studio的产品负责人Logan Kilpatrick火速转发，向大家宣布Gemini 1.5 Pro 实验版（0801）目前在 LMSYS 的文本和多模式排名中均位居第一的好消息。 DeepMind的CEO Demis Hassabis也转发了这条消息，祝贺Gemini 1.5 Pro 实验版（0801）能够在极具竞争力的榜单中拿下第一，并且宣布这一版本的已经可以在 AI Studio上进行试用。带领研发Gemini的Jeff Dean也随后转发，对此次实验版本的Gemini 1.5 Pro突破1300+elo分数拿下排名第一的好消息感到非常自豪，也很期待未来能看到其他更好的模型。听闻这则消息，其他从业人员也纷纷发来祝贺。也有不少人分享自己的试用体验。大神elvis对在聊天机器人领域超越了 GPT-4o 和 Claude 3.5 Sonnet的Gemini 1.5 Pro非常感兴趣。elvis分享了自己的测试全过程视频，并总结道，Gemini 1.5 Pro强大的图像和PDF提取能力给他留下了深刻的印象，Gemini 1.5 Pro有着和GPT-4o不相上下的视觉能力，也有Claude 3.5 Sonnet接近的代码生成及PDF理解/推理能力。有人认为Gemini 1.5 Pro在解决高级数学难题方面表现相当不错。也有人说Gemini 1.5 Pro在图像识别植物和动物方面做得确实要比GPT 4o更好。也有更多的人在期待Gemini 1.5 Pro这一版本的正式上线，希望能够API实现Gemini 1.5 Pro的实际运用。参考材料: https://x.com/lmsysorg/status/1819048821294547441 https://x.com/OfficialLoganK/status/1819049322295533684 https://x.com/demishassabis/status/1819085274917622198 https://x.com/JeffDean/status/1819121162578022849 https://x.com/omarsar0/status/1819162249593840110

X（推特）因用户数据自动用于训练xAI面临欧洲监管机构质询；GPT-4o mini 表现优异引关注

🌐 X（推特）因用户数据自动用于训练xAI面临欧洲监管机构质询欧洲数据保护监管机构正在对X（推特）决定允许用户数据自动输入其人工智能初创公司xAI的行为进行质询。这一决定在未事先获得用户明确同意的情况下进行了数据共享，引发了新的监管审查。爱尔兰数据保护委员会表示，已与X就其使用用户数据创建AI系统的计划交涉了几个月，并在上周四发送了关于用户透明度等问题的提问。隐私专家质疑这一举动可能违反欧盟的《通用数据保护条例》（GDPR），X可能面临罚款或其他处罚。 🔎 Llama3.1训练频繁故障，H100万卡集群稳定性受质疑 Llama 3.1在为期54天的预训练期间，共经历了466次任务中断，其中419次为意外中断，78%确认或怀疑由硬件问题导致，GPU问题占比高达58.7%。该模型在含16384块Nvidia H100 80GB GPU的集群上进行训练，尽管团队采取了减少任务启动时间、开发快速诊断工具等措施，但仍无法完全避免故障。此外，环境因素如气温波动也会影响训练吞吐量。这一系列问题引发了对大规模AI集群稳定性的担忧，特别是在未来更大规模的Llama模型训练中。 💡 GPT-4o mini 登顶大模型竞技场的秘密 GPT-4o mini 在大模型竞技场上的优异表现引起了广泛关注。它与满血版 GPT-4o 并列第一，超越了 Claude 3.5 Sonnet。这一成就的背后，是 OpenAI 对模型进行了针对性的优化，使其在拒绝回答次数、回答的详细程度和格式清晰度上都有所提升。这些优化使得 GPT-4o mini 在日常问题的解答上更加出色，从而在竞技场上获得了更高的评分。 🌟 英伟达分享 Llama 3.1 合成数据技术英伟达最近发布了一篇技术博客，介绍了如何使用 Llama 3.1 生成合成数据。合成数据的生成对于改善语言模型和其他 AI 系统至关重要。英伟达提供了详细的步骤和代码，展示了如何利用 Llama 3.1 生成多样化的合成数据，以提高模型在特定领域的应用性能。 📰 百川智能成立信息服务公司，注册资本 5000 万近日，北京百川智能信息服务有限公司成立，注册资本为 5000 万元。该公司由王小川控股的北京百川智能科技有限公司全资持股。新公司的成立，标志着百川智能在信息服务领域的进一步布局，预计将为客户提供更加全面和专业的服务。 📱 Apple Intelligence 主要 AI 功能推迟至 10 月公布据 Mark Gurman 报道，苹果公司计划将 Apple Intelligence 的大部分 AI 功能推迟至 iOS / iPadOS 18.1，预计将在 10 月向公众发布。这一决定是为了确保系统的稳定性和性能，同时为用户提供更加完善的 AI 功能体验。iOS 18.0 和 18.1 的测试版将同时推出，其中 18.0 版本将侧重于 UI 更新和少量 AI 功能，而 18.1 版本将包含更多的 AI 功能，如 “Image Playground 文生图” 和 “Genmoji 表情包”。 🤖 Anthropic 爬虫机器人引发争议 Anthropic 公司的 ClaudeBot 爬虫机器人在短时间内对多个网站进行了高频访问，违反了这些网站的使用条款。这一行为引起了网站所有者的不满，他们认为 ClaudeBot 的行为不仅侵犯了版权，还占用了宝贵的服务器资源。这一事件凸显了 AI 抓取技术在使用时需要更加尊重版权和网站政策的重要性。 🌐 AI图像生成平台「LiblibAI」融资总额达数亿元 AI图像生成平台「LiblibAI哩布哩布AI」在成立一年内完成了三轮融资，总金额达数亿元人民币。天使轮投资方为源码资本、高榕创投和金沙江创投，第二轮由战略投资方领投，第三轮由明势资本领投，老股东持续多轮加持。融资金额将主要用于构建大规模算力中台、研发基于图像模型的插件和微调模型，以及支持开发者生态和原创模型作者。LiblibAI已积累了近1000万专业AI图像创作者和超过10万个原创模型，生产并分享超过2.3亿张AI图片。 🚀 Meta科学家揭秘Llama 3.1研发思路，展望Llama 4 Meta的AI科学家Thomas Scialom在最近的播客节目中，揭秘了Llama 3.1的研发思路，并透露了Llama 4的更新方向。Scialom指出，Llama 3.1的参数规模选择考虑了多种因素，包括scaling law、训练时间、GPU和硬件的约束等。他强调，模型规模的选择是一个极具挑战性的问题，需要在现有算力和Scaling Law的限制内找到合适的平衡点。Scialom还提到，Llama 3.1在训练过程中平均每3小时就会出现一次故障，主要由硬件问题引起，但团队通过一系列工具和策略保持了超90%的有效训练时间。对于Llama 4，Scialom表示Meta已经开始训练，并可能围绕agent技术展开，致力于构建一个复杂的agent系统。