光年AI - Page 92 of 101 - AI驱动流量增长 - AI资讯，AI营销，AI大模型，AI知识库

AI编码无需人类插手！Claude工程师摔断右手，竟一周狂干3000行代码

一次意外右手骨折，Claude工程师的工作竟被AI挽救了。近两个月的时间，他们一起结对编程，甚至在一周内干出3000行代码。他疯狂暗示，未来1-3年，就是「AI工程师」的天下。原来，摔断胳膊也是一件幸事…… 当事人表示，「我再也不想回到过去了」。这是为何？事情是这样的，几个月前，Claude工程师Erik Schluntz骑车上班的路上，意外摔断右手，打上了石膏。为了生计，他不得已用左手打字。即便如此，Schluntz依旧在Anthropic旧金山的办公室里，一周狂肝了3000行代码。为AI编码点赞谁也不曾想，这背后竟是AI立了大功。他通过结合语音转文字技术，与Claude AI结队，整整写了2个月的代码。不过，必须承认的是，其中有许多是「样板代码」。为此，Schluntz还撰写了一篇长文，题为——AI替代了我的右手。文章中，他表示，「通过这件事，体验到了人类几乎不再需要自己编写代码的未来」。老实说，我爱上了这种感觉。另一位Anthropic工程师表示，通过从这件事，我们可以获得软件工程未来几年的关键一瞥。即使右手不能使，AI是完全可以让你成为一个10倍程序猿。那么，Erik Schluntz如何在受伤期间，能够让AI为他高效编码呢？初始设置首先，文章开篇他最先介绍了，自己如何对AI进行设置，最终决定使用了Claude AI。 Schluntz在摔断手之前，也曾使用类似Copilot等AI代码生成工具，但主要还是「手写」。 2015年哈佛硕士毕业，Cobalt机器人公司创始人、Anthropic AI技术研究员此外，他也使用过「语音转文字」，但也主要在手机上发短信，并未在电脑中尝试过这一功能。好在，Mac内置语音控制在NLP处理上非常出色。唯一不足的是，在听写任何与代码相关的内容时，Siri表现得很糟糕。毕竟，一些符号和词汇，大大超出其识别范围。就比如： Schluntz：Eval Siri：Eval？你想说的是Evil吗？当然，目前有一些专门针对代码的优秀语音转文字系统，比如Talon。但由于Schluntz对AI代码生成非常感兴趣，于是决定尝试，用自家AI去完成这项艰巨的任务。这里没有使用Copilot，是因为其自动补全功能，对作者来说异常慢，需要开发者先写出半行代码，才能实现。毕竟摔伤了一只手，「动嘴」还是比「动手」快。这时，只需将大块代码库内容一键复制粘贴到Claude AI中，然后通过语音命令进行转换。举个栗子，Schluntz会说「重构ABC函数以接受输入XYZ」或「为这些新函数ABC编写单元测试，并查看XYZ的示例测试」。虽然Claude并不总是能在第一次尝试时成功，但它能很好地接受后续指令和调整—— 「我感觉就像是，和AI进行『结对编程』，而由另一个人操作键盘」！调教Claude 「被迫」这样写代码后，Schluntz很快就弄清楚了，什么样提示会生成有效代码，什么会是无效。有时候，它非常神奇，但有时候，就连作者本人恨不得把电脑扔出窗外。他不得不在IDE和Claude之间频繁地复制粘贴，并手动拼接被Claude输出长度限制截断的代码片段。甚至，有几次他对Claude「提高了嗓门」，只因AI「忘记了」Schluntz之前的指令。接下来，就看看Schluntz如何调教的Claude。要具体，并举例说明如果你只给出一个基本请求，LLM可能会给出一个中规中矩的通用答案，可能并不适用于你的特定代码库。这时，就需要给出「非常明确的指令」，来获得更优的结果。比如，详细说明你期望的输入和输出，使用哪些库等。 Schluntz发现，将指令放在输入的开头和结尾效果最好，可以确保AI不会「遗忘」重要的上下文。最好是，能够提供代码库示例，供AI参考。特别是，在编写单元测试、处理样板代码时，AI表现特别好。通过示例，AI还可以学习如何使用代码库中的内部工具函数。这当中，迁移和重构，是最完美的应用场景。 Schluntz会手动迁移一个实例，然后用它作为示例让Claude转换其余的输入。通过这种方式，他可以快速重构大约3,000行代码。让Claude掌舵大多数人把LLM当作StackOverflow的替代品：他们虽是在询问方向，但仍然自己在驾驶。 Schluntz则反其道而行之。「如果你能够给Claude正确的基础构建模块，它往往可以一次性完成整个任务」。在周末的机器人项目中，Schluntz和朋友Survy给Claude提供了一段控制单个电机和读取蓝牙游戏手柄的代码。通过这些构建模块，Claude能够一气呵成地编写出所有远程控制机器人的代码，节省了大量时间和繁琐的数据处理！令人惊讶的是，这与常见的建议完全相反，即一次只向LLM提出一个问题。尤其是，在Schluntz不熟悉的领域，Claude往往在任务分解方面表现得尤为出色。过于具体的请求也能奏效，但有时会导致失去整体视角，类似于在没有整体背景的情况下，给出狭隘的建议。 RTFM == Read This For Me 电机控制器，有一份100页的说明书，内容繁琐且复杂。但Schluntz和Survy将其上传到Claude，然后提问，迅速解决了其中一个问题。在以前，这可能需要一个小时的仔细阅读，并查找相关术语和教程。机械同理心「你不需要成为工程师才能成为赛车手，但你必须拥有机械同理心。」 ——三届F1世界冠军Jackie Stewart 渐渐地，Schluntz开始建立起一种非常好的直觉，Claude能正确处理哪些事情，以及哪些事情仍需要人类做。了解这种区别，让他在两个方向上都避免了很多挫败感。 Schluntz学会了哪些地方可以进行简化处理： – 「我正在使用一个名为pygame的Python库……」简化为「在pygame中……」 – 「当我运行你的代码时，我收到了这个错误信息……你认为我现在应该怎么做」简化为直接复制堆栈追踪（stack trace）。他甚至还学会了，转换或重构大块代码可以带来显著效果。例如，在每一行之间添加计时器（timing instrumentation）。另一方面，Schluntz学到如果一个LLM在两次尝试中，无法修复一个错误，那么它永远也不能修复。这时就需要自己动手了。他还对Claude可能会犯的错误，有了很好的直觉。有一次，Claude给了一段代码，它循环遍历motor1, motor2, motor2, motor4，遗漏了motor3。作者的朋友注意到这一点，并说「这一定是幻觉」！但Schluntz能感觉到，「Claude绝不会犯这种错误」。果然，当他们检查输入时，发现这个错误确实存在于最初放入Claude的原始代码中。为自己构建临时工具当Schluntz带着机器人绕着后院转了一圈后，它输出了一份包含GPS坐标和其他数据的CSV文件。他想检查这些数据与实际情况的准确性，但并没有很高效的方法，要弄清楚如何查看和分析这些GPS坐标可能需要一个小时。甚至，他可能会手动在手机上检查GPS坐标，用眼睛死死盯着这些数字，害怕漏掉其中一行。这次，Schluntz将CSV文件的前两行提供给Claude。它立即生成了一个网页APP，可以在卫星图像上渲染上传的GPS坐标CSV文件！拥有恰好符合我需求的完美调试工具，而不用依赖print语句或预先构建的可视化工具，彻底改变了局面。 AI让软件开发变得如此便宜，以至于它可以为特定任务创建一次性工具！总的来说，这些经验和教训让Schluntz在使用AI写代码时，变得更高效！没有AI工具，这就像是放弃编译器，改为手写汇编语言一样。未来会怎样？在文章的最后，Schluntz将AI编程划分为三个阶段：过去1-2年过去的几年里，AI在软件工程中的最大用途是，在IDE中使用Copilot自动补代码，或是通过ChatGPT查询代码知识（以往需要去StackOverflow寻找答案）。以及，通过一些智能体，在没有人类监督情况下辅助编程，执行多个步骤，但这些并不实用。今年 2024年，这三个领域都在发生变革。诸如Zed、Cursor和各种VSCode扩展这样的IDE，深入地整合了大模型，拥有更完美的上下文，还能处理更大块的代码生成。 Claude Artifacts、ChatGPT的Data Analyst取代了Jupyter Notebook。它们已经成为作者的原型开发工具，和一次性代码的首选解决方案。最后，一批如Cognition、Factory、CodeGen等智能体初创公司，正在端到端地自动化某些工作流程。未来1-3年 Schluntz认为，未来1-3年，会出现真正的「AI工程师」。也就是说，这三个领域可能会融合成一个产品——「AI工程师」，一个可以在自主模式和同步模式之间连续工作的系统： 1. 自主模式适用于范围明确的任务 AI将完全独立工作，具备编写和运行代码、使用外部工具、搜索网络信息、访问内部文档以及从过去错误中学习的能力。它会不断迭代任务，直到完成或遇到瓶颈。这将占据80%的工作量。 2. 配对编程模式适用于最难的任务人类将在高层次上指导AI，而AI负责处理低层次的实现细节。互动将是高度多模态的，人类和AI将在文本描述、视觉图表、口头讨论和直接操作彼此代码之间无缝切换。你可能会共享屏幕，让AI跟随并给出建议和意见，或者AI共享它的屏幕，而你在它操作时给予指导。除此之外： – AI工程师将拥有与你作为员工时相同的所有背景信息和知识 AI将连接到公司的知识库，访问你的设计文件和客户访谈记录。无论是自主操作还是与人类配对，AI都能在需要时无缝地提取这些信息以做出决策。 – AI工程师将是主动的而不是阿谀奉承的如果你提出一个设计建议，AI会提供用户访谈记录，并提出更好的建议。 AI工程师将为其工作中的简单和可预测部分派遣更便宜的子智能体，从而降低计算成本和延迟。就像你可以浏览日志文件而不必逐字阅读一样。在Schluntz看来，AI工程师在特定方面将比大多数人类工程师更聪明，但有时会缺乏常识或者需要重新集中注意力并接受指导。实际上，这与今天经理和产品经理与工程师合作的方式并没有太大区别。我们还需要工程师吗？正如计算器的发明并没有让会计师失业，而是提升了他们的工作，使他们能够在更高的抽象层次上进行思考。会计师仍然需要知道如何做数学运算和理解计算，但像计算器和电子表格这样的工具使他们能够创造比以前更多的价值。类似的，AI也会降低创建软件的门槛，就像任何人都可以使用Excel做个人会计一样。学生们可以在宿舍里启动完整的应用程序和业务，小型工作室也可以为自己创建量身定制的软件工具。这时，创造力将会是唯一的瓶颈。人类工程师不会消失。我们仍然需要在高层次上进行优先级排序，理解问题的整体架构和范围，并审查AI的工作，尤其是在系统变得更大时。不同的是，我们将会把更多的时间花在思考构建什么上，而不是重复性地考虑「如何」构建。如今，Schluntz已经摆脱了石膏的「束缚」，但他依然会将大部分代码交给Claude去写。软件工程的未来巧合的是，Cognition AI的总裁Russell Kaplan昨天也发表了长推，预测在AI越来越擅长写代码的时代，软件工程行业将如何发展。 Congnition AI正是第一个AI软件工程师Devin的开发商。在Kaplan看来，研究实验室将对下一代模型的编码和推理进行更多改进。很快，模型在编程上就会变得非常出色。为什么呢？除了通用人工智能的进步外，编程还有一个独特的优势：通过「自我对弈」实现超越人类的数据扩展潜力。模型可以编写代码，然后运行它；或者编写代码，编写测试，并检查一致性。这种类型的自动监督在大多数领域是不可能实现的，因为我们在接近人类专业知识极限时，面临着后训练的数据壁垒。而代码不同——它可以通过经验和自动化进行测试。因此，软件工程在几年内将会发生根本性的变化。真正的编码智能体将能够完成端到端的任务，并与今天的AI Copilot相辅相成。在这个新世界中，每个工程师都将成为工程经理，并配有一支由智能体组成的实习生大军。工程师只需将把基本任务委派给编码智能体，然后就能把更多的时间花在解决更高层次的问题上：理解需求、架构系统以及决定构建什么。这将引领我们进入一个前所未有的软件繁荣时代。很快，曾经难以开发且成本高昂的软件将变得更加易于获取（提高10倍），「一次性软件」也将会大量涌现。未来的软件工程师将比现在多得多，只是工作方式会有很大不同：更多的自然语言，以及更少的样板代码。当然，对于这种变化，工程师们很快就能够适应，就像他们从汇编语言过渡到Python时一样。除了直接的生产力提升之外，这还会对初创公司产生实质性的「二阶效应」。首先，面向开发者的公司也将针对编码智能体进行「营销」。毕竟，你的智能体会决定使用哪个云服务和选择哪个数据库。曾经作为优先考虑的用户友好CLI，将转变为智能体友好的UI/UX界面。产品质量的门槛也将提高。在开发者能够更快交付的世界中，半成品或功能不完整的MVP将不再被接受。随着编码智能体的兴起，测试基础设施将变得更加重要和普及。因为编码智能体会编写更多的测试，同时也会依赖这些测试来检查他们的工作。随着智能体使代码迁移变得更容易，转换成本将不再是科技公司的护城河。公司甚至将智能迁移助手与产品进行捆绑销售，来简化使用流程。无论具体情况如何，总体趋势是明确的：现在是成为开发者的最佳和最高效的时代。参考资料： https://x.com/ErikSchluntz/status/1820501663998001160 https://x.com/alexalbert__/status/1820503813180280964 https://erikschluntz.com/software/2024/07/30/code-with-ai.html https://x.com/russelljkaplan/status/1820460524460802256

AI模型提早5年预警乳腺癌，MIT研究登Science获LeCun转发

科学家正在通过AI的力量，改变乳腺癌的现状。在全球范围内，每年有超过60万名女性因乳腺癌而无法存活。美国有八分之一的女性一生中会被诊断出患有乳腺癌。这些数字听起来很可怕，但并非毫无希望。当处于最早的局部阶段时， 5年相对生存率为 99%。近年来，早期检测和治疗方法的进步显著提高了乳腺癌的生存率，目前美国有超过400万乳腺癌幸存者。AI，就是这项进步背后的一个重要推动性力量。近日，Science在X上连发多篇帖子，展现了AI在乳腺癌检测方面的应用潜力。「人工智能提前5年检测出乳腺癌」。这条推文不仅得到了Lecun的转发，也引发了大量网友的讨论。AI对人类社会的影响，绝不只有当下大热的生成式AI，更可能「going to save lives」，为人类减少病痛，带来福祉。MIT CSAIL实验室和Jameel Clinic的科学家创建了一个深度学习系统「Mirai」，可以根据传统的乳房X光检查来预测乳腺癌风险。论文地址：https://www.science.org/doi/10.1126/scitranslmed.aba4373 「Mirai」标志着向个性化癌症筛查和更好的患者治疗结果迈出了重要一步。 Mirai：更早发现乳腺癌减少筛查伤害乳房X光检查（Mammogram）用于检测没有乳腺癌体征或症状的女性的乳房变化。世界各地的卫生组织支持Mammogram筛查以实现早期癌症检测，并且它已经证明了其价值，可将死亡率降低 20-40%。虽然这是一个用于早期检测的最佳工具，但有很多亟待改进的地方：假阳性、假阴性、图像解读中的人为差异以及缺乏专业放射科医生……而Mirai作为一个深度学习系统，可以借助人工智能的力量来预测乳腺癌的形成，它包括三项关键创新：- 时间点联合建模- 非图像风险因素的选择性使用- 确保跨临床环境中性能一致性这使得Mirai能够提供准确的风险评估，并适应不同的临床环境。Mirai不仅可预测患者在未来不同时间点的风险，还可纳入年龄和家族史等临床风险因素（如果有的话）。此外，它还能在微小的临床差异（如不同的乳腺X射线照相设备）情况下保持稳定的预测结果。该模型很有前途的一点在于，它能够适用于不同人种。Mirai对白人和黑人女性的准确率相当，鉴于黑人女性的乳腺癌死亡率比白人妇女高出43%，这是一项重大进步。大规模验证为了将基于图像的风险模型整合到临床护理中，研究人员需要对算法进行改进，并在多家医院进行大规模验证。研究小组利用麻省总医院（MGH）的20万多份检查结果对Mirai进行了训练，并利用麻省总医院、瑞典卡罗林斯卡研究所和台湾长庚纪念医院的数据对其进行了验证。现在安装在MGH的Mirai在预测癌症风险和识别高危人群方面的准确性明显高于以前的方法。它的表现优于Tyrer-Cuzick模型，识别出的未来癌症诊断数量几乎是Tyrer-Cuzick模型的两倍。而且，在不同种族、年龄组、乳房密度类别和癌症亚型中，Mirai 都能保持准确性。CSAIL博士生、论文的第一作者Adam Yala说，「改进后的乳腺癌风险模型能够实现有针对性的筛查策略，与现有指南提供的方法相比，可以更早发现乳腺癌并减少筛查伤害。」该团队正与来自全球不同机构的临床医生合作，在不同人群中进一步验证该模型，并研究其临床实施情况。目前，研究人员正在改进Mirai，利用患者的完整影像病史，并结合断层合成等先进筛查技术。这些改进措施可以完善风险筛查指南，为高风险人群提供更敏感的筛查，同时减少其他不必要的程序。将AI应用于乳腺癌检测的更多研究不止Mirai，Science还推荐了有关AI检测乳腺癌的更多研究。为了提高乳腺癌的生存率，研究人员设计了一种可穿戴超声波设备，可以让患者在早期阶段检测到肿瘤，这项研究同样来自MIT。麻省理工学院工程学院院长Anantha Chandrakasan、电子工程和计算机科学教授Vannevar Bush，以及一位该研究作者说道：「这项工作将利用材料、低功耗电路、人工智能算法和生物医学系统方面的进步，极大地推动超声波研究和医疗设备设计。」「并且为乳腺癌的检测和早期诊断提供了一项基本能力，而这是取得积极疗效的关键。」除此之外，此前《纽约时报》有过一则「AI检测出了医生遗漏的乳腺癌」的相关报道。报道称，匈牙利已成为人工智能软件发现癌症的主要试验场，医生们正在争论这项技术是否会取代他们的医疗工作。2016 年，世界领先的人工智能研究人员之一Geoffrey Hinton认为，该技术将在五年内超越放射科医生的技能。「我认为，如果你是一名放射科医生，你就像动画片里的Wile E. Coyote」，他在2017年对《纽约客》说。「你已经在悬崖边上了，但你还没有往下看，下面是看不到地面的深渊。」Hinton所言非虚，在Science发布的推特中，就有一篇研究发现，使用人工智能的医生比不使用人工智能的医生更容易发现乳腺癌。这项研究表明，人工智能还能自动处理一半以上的扫描，大大减轻放射科医生的工作量。将研究推向市场 Science在X上还特别提到了一个人——Dr. Connie Lehman。 Connie Lehman是哈佛医学院放射学教授兼马萨诸塞州总医院放射专家，也是本文开头具有奠基性作用的论文的合著者。她早在1998年开始从事计算机辅助设计 (CAD) 工作时，就对其改善乳腺癌检测的潜力感到兴奋。她坚信CAD技术将帮助放射科医生发现更多癌症、实现早期诊断，并有可能产生更高的治愈率。但故事并没有像她想象的那样结束。「虽然实验室的研究发现CAD可以发挥作用，但它并没有在临床上产生我们所希望的影响。」Lehman回忆道，「但我谨慎乐观地认为，新的人工智能模型将更成功地利用计算机的力量来增强成像的影响。」如今的Lehman正在将Mirai背后的技术推向市场，创办了Clairity。Clairity致力于利用人工智能的进步让医学图像释放出新的见解，准确地识别出那些患癌症风险最高的人。值得一提的是，Dr.Lehman对自己的研究成果相当低调，这个消息还是Lehman的儿子透露给Science的。后来又获得了Science的转发。并写下了「AI CAN BE GOOD!」这样令人充满期冀的文字。参考资料：https://news.mit.edu/2021/robust-artificial-intelligence-tools-predict-future-cancer-0128 https://www.cnn.com/videos/health/2023/03/07/artificial-intelligence-breast-cancer-detection-mammogram-cnntm-vpx.cnn https://news.mit.edu/2023/wearable-ultrasound-scanner-breast-cancer-0728

跨平台多模态智能体基准测试来了！但全班第一只考了35.26分

近日，来自CAMEL AI、KAUST、CMU、斯坦福、清华等高校和机构的研究人员推出了一个跨平台的多模态智能体基准测试，全面覆盖了Agent系统的真实工作场景。生成式人工智能取得更快进展的一个障碍是评估。 ——吴恩达假如你目前正在使用和研究类似CAMEL的多智能体系统，现在已经有了扮演研究者的Agent和负责写论文的Agent，再添加一个事实核查Agent会改善结果吗？如果无法有效评估这种更改的影响，就很难确定前进的方向。当然，从另一个角度来说，有一个令人信服的基准测试用来给大家刷分也是很重要的（狗头）。近日，来自CAMEL AI、KAUST、清华等高校和机构的研究人员推出了一个跨平台的多模态智能体基准测试——CRAB。值得一提的是，CAMEL AI团队最早做出了基于大语言模型的多智能体开源项目：https://www.camel-ai.org/、https://github.com/camel-ai/camel。论文地址：https://arxiv.org/abs/2407.01511 这个Benchmark涉及当前AI应用的几个重点：多模态、多智能体和跨平台。多模态能力就不用说了，毕竟是现实需求。而多智能体系统则能够更好的为人类服务，解决更佳复杂的任务。对于跨平台，可以举个例子：比如用手机拍完照片，然后发到电脑上P图，这就需要跨越了两种操作系统（平台）。所以，多模态、多智能体和跨平台，是当下AI打工人能够完成真实场景下的复杂任务所必备的能力。上图展示了CRAB的总体架构，同时也是多智能体系统基准测试的工作流程。通过将指令分配给基准测试系统内的主Agent和图评估器，来初始化任务。工作流是一个循环：主Agent观察、计划和指示子Agent，子Agent在各自的平台中执行操作。图评估器监控平台中任务的状态，在整个工作流中不断更新和输出任务完成指标。总的来说，CRAB是一个与现实世界情况密切相关的基准测试，能够更准确地反映多智能体系统在复杂任务中的表现。那么，在这种要求甚高的测试中，最强大的一些模型能考多少分呢？ ——答：全班第一考了35.26分（CR指的是完成率）。其实还行，毕竟是突击考试。而现在靶子已经画好了，可以期待今后的模型或者AI系统进化出更贴近现实的能力。跨平台多模态智能体评估 Crab提供了一个全面的交互式的任务评估框架，Agent需要在各种设备和平台上同时运行，满足在不同系统中高效完成任务的条件。作者提出了一种称为图评估器的新型评估方法，与传统的基于目标或者轨迹的方法不同，图评估器通过检查完成任务的中间过程将任务分解为多个子目标。每个子目标都被分配了一个判断函数来验证其完整性，并且每个节点都被视为图评估器中的一个节点。图结构描述了子目标之间的顺序和并行关系，因此提供了细粒度的指标，同时又适应多种解决方案。上表将Crab与现有框架进行了比较，包括测试涉及的几项关键能力： Interactive Environment区分是使用交互式平台还是静态数据集； Multimodal Observation指定了基于视觉的观察（例如屏幕截图）的可用性； Cross-platform表示支持多个操作系统或平台； Evaluation描述了评估指标，分为基于目标（仅根据最终目标检查平台状态）、基于轨迹（将Agent操作轨迹与标准操作序列进行比较）、多重（因任务而异）或基于图（每个节点作为中间检查点的 DAG）； Task Construction展示了任务构建方法，包括人工制作、LLM启发（比如LLM生成任务草稿，但由人工验证和注释）、模板（填写任务模板中的空白）或子任务组合（组成多个子任务以构建任务和评估器）。基于Crab框架，作者开发了一个基准测试Crab Benchmark-v0，支持Android环境和Ubuntu环境。基准测试总共包含100个真实世界的任务，包括跨平台和单平台跨多个难度级别的任务。任务涉及各种常见问题，以及实际应用程序和工具，包括但不限于日历、电子邮件、地图、网络浏览器、和终端，以及智能手机和台式机之间的常见交互。框架假设Agent在数字设备（比如台式机）上自主执行任务。这种设备通常有输入设备（鼠标和键盘）用于人机交互，以及输出设备（屏幕）来允许人类观察其状态。作者将这种类型的设备表示为一个平台。在形式上可以定义为一个无奖励的部分可观测马尔可夫决策过程（POMDP），用元组M:=（S，A，T，O）表示。其中S表示状态空间，A表示动作空间，T:S×A→S是转移函数，O是观测空间。考虑到现实场景中多个设备的协作性质，可以将多个平台组合成一个集合M=M1，M2，…，Mn，其中n是平台的数量，每个平台Mj=（Sj，Aj，Tj，Oj）。定义一个需要跨多个平台操作的任务，该任务被形式化为一个元组（M，I，R），其中M是平台集合，I是以自然语言指令的形式表示的任务目标，R是任务的奖励函数。系统中的Agent使用预定义的系统提示、并保留其对话历史记录。 Agent系统由负责规划、推理和执行操作的单个Agent组成，或者由多个Agent进行协作。把复杂任务分解为多个更简单的子任务，是让Agent系统能够更加精准的完成复杂任务的方法之一。研究人员将这一概念引入基准测试领域，将复杂任务分解为具有顺序和并行连接的子任务，也就是上图中的分解任务图（GDT）。 GDT提供了一种新的任务分解方法：用DAG结构表示分解后的子任务。在GDT中，每个节点都是一个子任务，形式化为一个元组（m，i，r），其中m指定了执行子任务的平台，i提供了自然语言指令，r表示奖励函数。这个函数评估m的状态并输出一个布尔值，以确定子任务是否完成。GDT中的边表示子任务之间的顺序关系。跨平台与单一平台任务相比，跨平台任务有三个主要优势：首先，跨平台任务反映了现实世界场景，人类同时使用多个设备来完成任务。其次，这些任务需要在平台之间进行复杂的消息处理和信息传递，要求Agent规划行动、为每个平台构建输出，并记住需要传递的内容，从而展示出对现实世界的高层次理解，和解决复杂任务的能力。最后，多Agent系统被证明在执行复杂任务时更加有效，而跨平台任务非常适合多Agent系统，因为它们可以通过每个平台中不同的观测空间、行动空间和专门知识进行划分。 Crab使用统一接口允许Agent在所有平台中操作。作者通过名称、所属平台、功能的具体描述和参数来定义一个动作。 Agent必须在每个回合提供动作名称、参数和目标平台。Crab将动作转换为相应的功能，并通过网络将其路由到物理或虚拟设备。图评估器为了评估大语言模型作为Agent的能力，大多数基准测试仅基于Agent操作后平台的最终状态来评估Agent。只判断最终目标是成功还是失败，显然不够公平，就像大题不会做，但写个解是应该给分的。另一种方法是基于轨迹匹配，将Agent的操作与每个任务的预定义标准操作序列进行比较。然而，在现实世界系统中，任务可能有多条有效的执行路径，比如复制文件可以使用文件管理器，也可以使用命令行。评估指标所以本文采用了与平台状态同步的图评估器，通过子任务完成的当前状态来跟踪Agent的进度。除了传统的成功率（SR），只有在所有子任务都完成时才将任务标记为成功，作者还引入了三个指标，衡量Agent的性能和效率：完成率（CR）测量完成子任务节点数的比例，计算方式为C/N，其中C是已完成节点的数量，N是总节点数。该指标直观地反映了Agent在给定任务上的进展情况。执行效率（EE）计算为CR/A，其中A表示执行的动作次数，反映了Agent的任务执行效率。成本效率（CE）计算为CR/T，其中T是Agent使用的总token数，评估了Agent消耗资源的效率。实验要在Crab Benchmark-v0中运行，多模态模型需要支持：（1）接受多模态混合输入，系统同时提供屏幕截图和文本指令作为提示；（2）处理多轮对话，大多数任务需要Agent执行多个操作，必须在上下文中存储历史消息；（3）通过函数调用生成结构化输出。实验选择了四种满足这些标准的多模态模型：GPT-4o、GPT-4 Turbo、Gemini 1.5 Pro和Claude 3 Opus，下表给出了其中一部分结果：参考资料：https://github.com/camel-ai/crabhttps://arxiv.org/abs/2407.01511https://github.com/camel-aiwww.camel-ai.org

精准0误差，输入价格打骨折！OpenAI官宣API支持结构化输出，JSON准确率100％

吴恩达弟子打造arXiv弹幕版，每篇论文都能自由讨论了！

现在，arXiv的每篇论文，都能直接提问讨论了！只需把URL中的 arXiv 替换成 AlphaXiv，就能对任意一篇论文发布提问或讨论。或者是下载插件，网页上就会多出一个 Discuss 的入口，点开是一样的效果。这就是由斯坦福AI实验室学生构建的论文开放讨论论坛“ AlphaXiv”。任何人注册ID后就能发布评论。刚刚全面上线，立马在学术圈引发轰动。 LeCun看了连连称好。学者们激动围观：这才是学术圈应该有的样子！开放而且积极讨论。有人觉得这将改写学术论文的交流形式。它真正意义上实现了作者和读者之间的双向讨论。 AlphaXiv由来自斯坦福大学计算机系的学生一手打造。值得一提的是，两位联创都曾在/正在吴恩达实验室学习工作。人人可公开提问想要在AlphaXiv中发表评论，需要先注册账号。一开始，AlphaXiv论坛会确认你的研究领域和方向。这里延续了arXiv的风格，arXiv作为最大的开放获取预印本存储库，拥有近240万篇学术论文，涵盖人工智能、医学、计算机科学、物理学、密码学、数字健康等。用户可以申请当 reviewer（所在领域论文评审员），就像顶会那样，评审员能够主持讨论、投票选出特色论文，以及留下与ORCID账户关联的评论。想要申请当reviewer，需要填写相应的表格。如果只是想当普通用户，现在已经可以开始自由讨论提问了。比如打开AI领域经典之作《Attention is All You Need》，可以看到有很多人已经留下了评论。可以选取论文中任意一行进行评论，评论有四类可以选择： General：用于澄清、解释较小的问题。 Research：详细的见解、批评、替代方法、发现错误，基于本文的方法等。 Resources：论文的相关链接和信息，比如GitHub、博客文章、视频等。 Private：仅私人可见的评论，可用来记笔记或想法等。由此读者们就能针对很多细节提问，比如，“如何决定层数和每层的尺寸？”、“这篇论文直接跳到键、查询和值矩阵，这让我有点困惑”…… 针对这些提问，围观群众可以任意回复，以及顶帖或表示反对（最右侧）。为了防止滥用，论坛限制了“表示反对”这项功能的每日使用次数。（貌似点了两三下就出现不可用提醒了）关于回复评论，这里还有一个比较有意思的论坛规则。论坛设置了一项名为“每周论文”的新举措，当特色论文公开展示时，论文作者一周内需回复所有评论。这不，我们刚好捉住了某研究团队最新上榜的论文，真有点打擂台那味儿了~ 插一嘴，论文作者身份需要申请认证，认证完成后可随时查看新留言并及时回复。不仅限于论文作者，一些留言还能得到斯坦福和哈佛大学的既定研究团队回复。除了上述，由于论坛逐渐走向公开，一些规则也在不断演进。比如关于是否匿名评论，由于一开始论坛只在一些高校内部使用，因此不太care这点~ 而现在论坛加上了身份识别功能（ORCID认证），相当于可以选择实名认证。认证完成后，用户的学校、单位都可以进一步公开。（以下为认证前后区别）据说还有一个群组模式，可以把同实验室/同小组的人拉到一个分组里，评论仅能组成员看到。值得一提的是，在AlphaXiv正式官宣前，它已经吸引了不少人的注意，还有人发帖安利。这次算是正式官宣。围观网友觉得，这种模式一定会让学者们从中受益。有人提问，为啥不直接在arXiv中这么做？团队回复：希望之后能试试。还有人建议结合一些奖励机制，这样之后就能演变成一种同行评审的新形式了。以及还有人好奇，AlphaXiv应该怎么发音呢？以及注意，AlphaXiv中没有“r”，别打错了（doge）主创来自吴恩达实验室 Alphaxiv项目最初在去年5月提出。两位主创分别是 Rehaan Ahmad 和 Raj Palleti，他们都是斯坦福大学计算机系。 Ahmad马上本科毕业。他在2021年上半年在吴恩达实验室担任研究助理，负责AI医学方面的探索开发。现在是斯坦福AI实验室中IRIS实验室的本科研究员。 Palleti正在本硕连读ing。他现在是斯坦福AI实验室的深度学习研究员，正在吴恩达实验室工作，负责开发可计算患者心肌损伤概率的深度学习模型。 Alphaxiv最初是他们web开发课的期末作业。项目完成后，斯坦福内部的几个实验室开始使用。过程中自然遇到了很多问题，比如允许匿名、没有审核功能等。在过去几个月里，他们一直在不断优化这个项目。今年4月，主创在回复网友帖子的时候透露，当时他们正在做ORCID集成，也就是将ORCID系统与其他科研管理系统、出版平台、学术数据库等集成在一起，实现数据的互通和自动化更新。ORCID提供了一个唯一且持久的数字标识符，用于识别学术研究者，并链接他们的研究成果和活动。除了主创之外，项目还有多名业内大佬作为顾问，比如曾创立了谷歌X实验室和自动驾驶团队的Sebastian Thrun教授。项目创立后，陆续还有几位学生一同加入。 △ 最左为Ahmad，蓝色T恤为Palleti 目前，已经有不少实验室宣布与AlphaXiv合作，促进学术研究进步。 One More Thing 值得一提的是，让学术研究讨论更公开化是近几年圈内重点关注的问题。 2013年LeCun和Bengio等创办ICLR会议并推广OpenReview，优化同行评审过程。到现在，OpenReview已经成为很多学术会议的通用标准。最近一段时间，学术评审“玄学”的问题也总是引发业界讨论。很多人觉得一些评审过程有缺陷，“论文是否被接收和论文质量本身关系不大”。 LeCun就提到过自己一篇从未被接收、ArXiv独占的论文，现在被引用次数已超过1880次。如今，随着AlphaXiv正式上线，公开讨论的范围又能进一步扩大了。插件地址： https://chromewebstore.google.com/detail/alphaxiv-open-research-di/liihfcjialakefgidmaadhajjikbjjab 参考链接： [1]https://x.com/StanfordAILab/status/1818669016325800216 [2]https://telescoper.blog/2024/03/09/introducing-alphaxiv/ [3]https://www.linkedin.com/pulse/stanford-students-launch-alphaxiv-new-frontier-margaretta-colangelo-jh0qf/

开放域检测新SOTA！中山大学美团出品，开源性能最强

开放域检测领域，迎来新进展—— 中山大学联合美团提出新模型OV-DINO，实现开放域检测开源新SOTA！比Grounding DINO高12.7% AP，比YOLO-World 高4.7% AP。目标检测技术一直是研究的热点。但传统的目标检测方法往往受限于预定义的类别集合，难以应对现实世界中种类繁多的物体。为了突破这一限制，开放词汇检测（Open-Vocabulary Detection, OVD）应运而生。换言之，它能在模型在没有预先定义类别的情况下，通过文本描述来识别和检测物体。 OV-DINO是基于语言感知选择性融合、统一的开放域检测方法。作为最强开放域检测开源模型，目前项目已公开论文和代码，在线Demo也可体验。什么是OV-DINO？本文提出了一种名为OV-DINO的开放域检测方法。整体框架包括一个文本编码器、一个图像编码器和一个检测头。模型接收图像和提示文本作为输入，通过特定模板创建统一的文本嵌入表示。图像和文本嵌入经过编码器处理后，图像嵌入通过Transformer编码器生成精细化的图像嵌入。语言感知查询选择模块选择与文本嵌入相关的对象嵌入，并在解码器中与可学习的内容查询融合，最终输出分类分数和回归边界框。统一数据集成（UniDI）在预训练阶段，OV-DINO将检测数据、定位数据和图像-文本数据转换为统一的检测数据格式，从而简化模型优化过程并提高性能。检测数据和定位数据的集成相对简单，而图像-文本数据的转换则通过将图像描述视为图像的唯一类别来实现。所有文本输入都通过简单模板进行统一处理，确保一致的文本嵌入表示。语言感知选择性融合（LASF）该模块包括语言感知查询选择和语言感知查询融合两个关键组件。查询选择组件通过评估图像嵌入和文本嵌入的相似性来选择对象嵌入。查询融合组件逐步融合语言感知对象嵌入，同时保留内容查询的原始语义。语言感知查询选择通过计算图像嵌入和文本嵌入的相似性矩阵，并选择最相关的嵌入。查询融合则在解码器层中动态更新内容查询，逐步引入语言感知上下文。预训练 OV-DINO采用检测中心的数据格式，将不同类型的数据（检测数据、定位数据和图像-文本数据）转化为适合检测的格式，允许在统一的框架内进行预训练。模型的前向传播过程包括图像编码器提取图像嵌入、文本编码器提取文本嵌入、Transformer编码器生成精细化图像嵌入、语言感知查询选择模块选择对象嵌入，以及Transformer解码器通过选择性融合模块进行查询分类和边界框回归。模型通过统一的分类损失函数和目标框损失函数进行优化。通过上述设计，OV-DINO实现了开放域检测的高效预训练和性能提升。实验结果 OV-DINO使用Swin Transformer作为图像编码器和BERT-base作为文本编码器的模型架构，通过统一数据集成（UniDI）流程整合了多样化的数据源，如Objects365、GoldG grounding和Conceptual Captions图像-文本数据集，进行端到端的预训练。在此基础上，引入了语言感知选择性融合（LASF）模块来优化跨模态的语义对齐。在预训练阶段，批量大小为128，训练周期为24个epoch，使用了AdamW优化器，学习率调度采用多步衰减策略。在COCO数据集进行了额外的微调，批量大小为32，设置了更小的学习率。在COCO和LVIS基准数据集上进行评估，采用平均精度（AP）和固定平均精度（Fixed AP）作为主要指标。 COCO Benchmark 在零样本评估设置中，OV-DINO在COCO 2017验证集上取得了50.6%的平均精度（AP），这在同类方法中表现突出。该结果显著优于先前的方法，GLIP和G-DINO，显示了OV-DINO在处理未见类别时的强大泛化能力。在COCO数据集上进行微调后，OV-DINO进一步提升了性能，达到了58.4%的AP，刷新了该领域的记录。这一结果证明了OV-DINO不仅在零样本情况下表现出色，通过进一步的微调也能在封闭词汇集上实现卓越的检测性能。 LVIS Benchmark 在零样本评估设置中，OV-DINO在LVIS MiniVal数据集上取得了40.1%的AP，显著优于其他现有方法，如GLIP和G-DINO。在LVIS Val数据集上，OV-DINO也展现了强大的性能，取得了32.9%的AP。OV-DINO在处理LVIS数据集中的长尾类别时表现出色，能够检测到稀有（rare）、常见（common）和频繁（frequent）类别的物体。在LVIS MiniVal数据集上，OV-DINO在稀有类别上取得了34.5%的AP，在常见类别上取得了39.5%的AP，在频繁类别上取得了41.5%的AP。可视化结果可视化结果显示，OV-DINO能够准确地检测出图像中定义的所有对象，并且置信度分数较高。与GLIP和G-DINO等其他方法相比，OV-DINO的预测更加精确，并且能够检测到标签中未标记的额外对象。 LVIS数据集包含超过1000个类别，OV-DINO在零样本推断中展现了其检测多样化实例的能力。可视化结果突出了OV-DINO在长尾类别上的性能，显示出在图像中检测到丰富多样的物体类别，并且预测结果具有高准确性。通过在COCO和LVIS数据集上的可视化结果，OV-DINO证明了其强大的零样本泛化能力，即使是在面对训练期间未遇到的类别时也能进行有效的检测。最后小小总结一下，OV-DINO是一个统一的开放域检测方法，通过语言感知的选择性融合和统一数据集成（UniDI）显著提高了检测性能。在COCO和LVIS基准测试中，OV-DINO实现了超越现有最先进方法的性能，在零样本和微调评估中均展现出卓越的结果。通过引入语言感知的跨模态融合和对齐，OV-DINO为开放域检测（OVD）提供了一种新颖的视角，与传统的区域-概念对齐方法不同。尽管OV-DINO在性能上取得了显著成果，但仍存在一些挑战和局限性，如模型扩展性、计算资源需求等。论文地址： https://arxiv.org/abs/2407.07844 代码地址： https://github.com/wanghao9610/OV-DINO Demo： http://47.115.200.157:7860/

21岁天才少年创业AI硬件一夜爆火：710元换一个挂在脖子上的AI朋友

99美元（约710人民币），就能和AI“交个朋友”？一条叫做Friend的“AI项链”在推特上爆火，浏览量已超过2000万。在Rabbit、Humane接连翻车，人们对AI硬件大失所望的背景下，Friend却异军突起，赢来了网友们的接连好评。就像视频中展示的那样，你可以带着它去爬山、聚会或者约会，也可以在独处的时候跟它交流。总之，它可以随时保持在线，倾听你的倾诉，成为最亲密的 AI聊天搭子。背后的公司创始人兼CEO是21岁天才少年 Avi Schiffmann，哈佛大学辍学本科生，17岁读高中时曾因开发疫情追踪网站而名名声大噪。为了推广Friend，Avi不惜借款，花费180万美元（约1300万人民币）重金购买了friend.com的域名。在介绍Friend的推文中，Avi特意强调，Friend“并非是想象”。换言之，或许人们的脑海中有一个想象的朋友，但Friend 把这种想象变成了现实，而这句话也是Friend的slogan。知名科技博主Marques Brownlee看了后很是惊讶，连忙问这真的不是个玩笑吗？ CEO Avi则回复说会给他寄一个过去，期待着他的好评。还有人想到了OpenAI近期的动作—— 谷歌AI获得IMO银牌的同时，OpenAI推出了AI搜索工具SearchGPT； Aidan McLau的初创公司Topology ai推出连续学习模型CLM时，OpenAI宣布模型输出长度增加到了64k； Avi的Friend上线爆火，OpenAI的《Her》式语音对话终于姗姗来迟。总之，这位网友是把Friend也看做了OpenAI的竞争对手，还说奥特曼最近是见招拆招。 Friend能否成为OpenAI的对手暂且交给时间来回答，下面先来了解一下这个“AI伴侣”。 AI伴侣“拯救孤独” 如开头的宣传视频展示的一样，Friend会像朋友一样，随时随地倾听使用者的声音。不过Friend还不是独立设备，需要通过蓝牙连接到手机才能使用，且暂时只支持iOS。当需要它对我们做出回应时，只需按动项链上的按钮，然后就会在手机端收到文本回复。宣传片中来自Emily的消息，就是由Friend发出的。 Avi介绍，Friend背后使用的大模型，是基于当今最强开源模型Llama 3.1打造的。为了保障隐私安全，Friend采用了端到端加密的方式，且除了对话窗口之外，对话信息不会被存储到任何地方，并可以随时删除。但这也意味着，一旦设备丢失或损坏，已有的记忆将彻底丢失，无法被恢复。对于这个产品的意义，创始人Avi表示，它不是AI助手，而是一个 “情感玩具”（emotional toy）。我认为始终倾听非常重要，因为这确实感觉就像（和朋友）在一起做事。因为你有一个人工智能朋友的实体化身，所以感觉就像它就在你身边。在他看来，Friend最重要的目的，是帮助人们缓解孤独。正是今年年初独自一人在酒店当中感到孤单时，Avi萌生了有关Friend的想法。当然，按照他的观点，孤独的环节，也能间接提高工作效率。如果目标是提高工作效率，那么没有什么比一个支持、鼓励并帮助稳定情绪的亲密朋友，更能提高你的工作效率了。不过，Avi也强调，Friend的出现并不是为了取代现实中的朋友，宣传片当中的女主，最终的选择也是回归到真实世界。这一场景也获得了网友的称赞。目前，Friend已面向美国和加拿大用户开启预售，价格为99美元（约710人民币），无额外订阅费用。第一批的三万台设备，计划于明年1月开始发货。 21岁天才少年创业成果 Avi的领英资料显示，他的公司于2023年5月创立。该公司已经筹集到了250万美元，估值达到了5000万美元。投资者包括Caffeulated Capital、Vercel CEO Guillermo Rauch、Perplexity创始人兼CEO Aravind Srinivas 等。创始人Avi，2021年被哈佛大学录取，后来辍学创业。 2020年，当时17岁、正在读高中的Avi搭建了COVID追踪网站，创立3个月时就获得了4千万独立访问者的数亿次访问。 Avi也因此名声大振，还被邀请参加了Lady Gaga、霉霉、碧梨等众多明星参与的线上演唱会。公司成立后，Avi开始研发Friend的上一代产品Tab，功能是随时记录语音并转成文本，然后交给ChatGPT等模型进行总结。不同于99美元且无需订阅的Friend，Tab在去年10月发布时的预售价是600美元，其中包括50美元一年的订阅费。 △ Tab概念图截至今年初，Tab的销售额达到了10万美元，Friend推出后，原先预购Tab的用户可以选择换成Friend或者全额退款。一件有意思的事情是，Avi在Friend上线之前，借了180万美元买下了friend.com的域名。对此，Avi表示自己认为很值得——在此之前，这个域名已经“沉睡”了17年而无人问津，他希望未来这个域名能够作为客户的聚集地。参考链接： [1]https://www.geekwire.com/2024/covid-era-whiz-kid-is-back-and-he-brought-a-friend-a-wearable-always-listening-99-ai-companion/ [2]https://x.com/jam3scampbell/status/1818421629254545806 [3]https://www.fastcompany.com/91007630/avi-schiffmanns-tab-ai-necklace-has-raised-1-9-million-to-replace-god

贾扬清：大模型尺寸正在重走CNN的老路；马斯克：在特斯拉也是这样

Transformer大模型尺寸变化，正在重走CNN的老路！看到大家都被LLaMA 3.1吸引了注意力，贾扬清发出如此感慨。拿大模型尺寸的发展，和CNN的发展作对比，就能发现一个明显的趋势和现象：在ImageNet时代，研究人员和技术从业者见证了参数规模的快速增长，然后又开始转向更小、更高效的模型。听起来，是不是和GPT哐哐往上卷模型参数，业界普遍认同Scaling Law，然后出现GPT-4o mini、苹果DCLM-7B、谷歌Gemma 2B如出一辙？贾扬清笑称，“这是前大模型时代的事儿，很多人可能都不咋记得了：）”。而且，贾扬清不是唯一一个感知到这一点的人，AI大神卡帕西也这么觉得：大模型尺寸的竞争正在加剧……但是卷的方向反着来了！模型必须先追求“更大”，然后才能追求“更小”，因为我们需要这个过程，帮咱把训练数据重构成理想的、合成的格式。他甚至拍着胸脯打赌，表示我们一定能看到又好、又能可靠地思考的模型。而且是参数规模很小很小的那种。连马斯克都在卡帕西的评论区连连称是：以上，大概可以称之为“大佬所见略同”。展开说说贾扬清的感慨，要从只在最强王座上短暂待了一天的LLaMA 3.1说起。那是首次实现“最强开源模型=最强模型”，不出意外，万众瞩目。 However，贾扬清在这个时候提出了一个观点： “但我认为，行业会因小型垂直模型而真正蓬勃发展。” 至于啥是小型垂直模型，贾扬清也说得很清楚，比如以Patrouns AI的Iynx（该公司的幻觉检测模型，在幻觉任务上超过GPT-4o）为代表的那些很棒的中小模型。贾扬清表示，就个人喜好而言，他本人是非常喜欢千亿参数模型的。但现实情况里，他观察留意到，7B-70B参数规模之间的大模型，大家用起来更顺手：它们更容易托管，不需要巨大的流量即可盈利；只要提出明确的问题，就能得到质量还不错的输出——与和之前的一些看法相反。与此同时，他听说OpenAI最新的、速度很快的模型也开始变得比“最先进的”大模型尺寸更小。 “如果我的理解是正确的，那么这绝对表明了行业趋势。”贾扬清直接表明了自己的观点，“即在现实世界中，使用适用的、具有成本效益、且仍然强大的模型。” 于是乎，贾扬清简单梳理了CNN的发展历程。首先，是CNN的崛起时代。以AlexNet（2012）为起点，开启了大约三年的模型规模增长时期。 2014年出现的VGGNet就是一个性能和规模都非常强大的模型。其次，是缩小规模时期。 2015年，GoogleNet把模型大小从“GB”缩小到了“MB”级别，即缩小了100倍；但模型性能并没有因此骤减，反而保持了不错的性能。遵循类似趋势的还有2015年面世的SqueezeNet模型等。然后的一段时间，发展重点在追求平衡。后续研究，如ResNet（2015）、ResNeXT（2016）等，都保持了一个适中的模型规模。值得注意的是，模型规模的控制并没有带来计算量的减少——其实，大伙儿都愿意投入更多的计算资源，寻求一种“同等参数但更高效”的状态。紧接着就是CNN在端侧起舞的一段时期。举个例子，MobileNet是谷歌在2017年推出的一项有趣的工作。有趣就有趣在它占用的资源超级少，但是性能却非常优异。就在上周，还有人跟贾扬清提到：“Wow～我们现在还在用MobileNet，因为它可以在设备上运行，而且在出色的特征嵌入泛化（Feature Embedding Generality）。” 最后，贾扬清借用了来源于Ghimire等人的《A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration》里的一张图：并再一次发出自己的疑问：大模型尺寸，会遵循与CNN时代相同的趋势来发展吗？网友怎么看？其实GPT-4o mini这样走在大模型发展道路上“不大反小”的例子不在少数。当上述几位表达出这样的观点后，立马有人点头如捣蒜，还拿出了一些别的类似例子，证明他们看到了相同的趋势。有人立马跟上：我这儿有个新的正面例子！Gemma-2就是把27B参数大小的模型知识蒸馏成更小的版本。还有网友表示，开发更大的模型，意味着能给后续几代更小、更垂直的模型的训练“上强度”。这个迭代过程最终会产生所谓的“完美训练集”。这样一来，较小的大模型在特定领域，能与现在参数巨大的大模型一样聪明，甚至更聪明。一言以蔽之，模型必须先变大，然后才能变小。大多数讨论此观点的人，还是对这个趋势比较认同，有人直言“这是一件好事，比‘我的模型比你的模型大’参数竞赛更实用和有用。” 但是，当然了！翻遍网络评论区，也有人发出不同的声音。比如下面这位朋友就在贾扬清推文底下留言： Mistral Large（背后公司Mistral AI）、LLaMA 3.1（背后公司Meta）和OpenAI，持有最强竞争力模型的公司，目前可能都正在训练更大的模型。我没发现有“更小型号模型搞定技术突破”的趋势哟。面对这个问题，贾扬清倒也及时回复了。他是这么说的：“没错！我说大模型尺寸可能在走CNN的老路，绝对不意味着号召大家停止训练更大的模型。” 他进一步解释道，这么说的本意是，随着技术（包括CNN和大模型）落地实践越来越广，大家已经开始越来越关注性价比更高的模型了。” 所以，或许更高效的小·大模型，能够重新定义AI的“智能”，挑战“越大越好”的假设。你赞同这个观点不？参考链接： [1]https://x.com/jiayq/status/1818703217263624385 [2]https://x.com/fun000001/status/1818791560697594310 [3]https://www.patronus.ai/ [4]https://twitter.com/karpathy/status/1814038096218083497

想跑千亿大模型？算力厂商放大招！CPU通用服务器成为新选择

千亿参数规模的大模型推理，服务器仅用4颗CPU就能实现！在一台CPU通用服务器上，浪潮信息成功跑通了102B大模型推理。如果推广开来，没有专用芯片的传统行业，不必更换硬件，也能用上AI了。 △ 浪潮信息通用服务器NF8260G7服务器成功运行千亿参数大模型这套方案以极低的延时，近乎实时地进行推理运算。如此之大的模型，只靠CPU运行，究竟是怎么实现的？ 4颗CPU带动千亿大模型？用CPU在单台通用服务器设备中运行大模型推理，特别是千亿参数的庞然大物，困难是可想而知的。要想高效运行千亿参数大模型，计算、内存、通信等硬件资源的需求量都非常巨大。内存方面，千亿参数大约需要200~300GB的显存空间才放得下。除了内存资源，千亿参数大模型在运行过程中，对数据计算、计算单元之间及计算单元与内存之间通信的带宽要求也非常高。按照BF16的精度计算，要想使千亿参数大模型的运行时延小于100ms，内存与计算单元之间的通信带宽至少要在每秒2TB以上。就算解决了这些硬件需求，软件的优化适配同样是一个难题。由于涉及到大量的并行运算，现有的大模型普遍针对GPU加速集群而设计，这就导致了CPU算力与大模型之间的匹配程度远不及GPU。因为并行工作环境的缺乏，AI模型需要频繁地在内存和CPU之间搬运算法权重，但通用服务器默认模型权重只能传输给一个CPU的内存。要想进一步搬运到其他CPU，就需要该CPU作为中介，这就导致了CPU与内存之间的带宽利用率较低，进一步加大了通信开销。通用AI算力的新标杆尽管困难重重，但伴随着大量的技术攻关，这些困难也被相继克服—— 在2U四路的NF8260G7服务器上，浪潮信息成功运行了千亿参数的源2.0大模型。运行过程中，服务器仅使用了4颗英特尔6448H芯片，无需GPU或其他任何额外的AI加速卡。可以说，浪潮信息这套通用服务器大模型运行方案填补了业界空白，成为了通用AI算力的新标杆。框架和算法方面，该方案支持PyTorch、TensorFlow等主流AI框架和DeepSpeed等流行开发工具，满足多样的生态需求。在这种高效的千亿大模型通用服务器运行方案背后，无疑需要软硬件系统的协同创新。在配置方面，浪潮信息NF8260G7选用了英特尔至强6448H处理器，共有32颗核心，主频为2.4GHz，L3缓存为60MB，基于32根32G的DDR5内存，内存容量1024GB，实测内存读带宽995GB/s。更重要的是，该芯片具有AMX（高级矩阵扩展，类似于GPU的Tensor core）AI加速功能，能够更好地适配大模型的运算特点。同时，为了解决带宽利用率低的问题，采用了“去中心化”的全链路UPI总线互连，允许任意两个CPU之间直接进行数据传输。这样的互联方案减少了通信延迟，并将传输速率提高到了16GT/s（Giga Transfers per second）。但仅靠硬件优化还远远不够。为了提升源2.0-102B模型在NF8260G7服务器上的推理计算效率，服务器上的CPU需要像GPU一样进行张量并行计算。为此，浪潮信息研发工程师将源2.0模型中的注意力层和前馈层的矩阵计算分别拆分到多个处理器，实现同时使用4颗CPU进行计算加速。张量并行对模型参数的切分粒度较细，要求CPU在每次张量计算后进行数据同步，增加了对CPU间通信带宽的需求。不过，UPI总线互联的通信方案，刚好能够满足CPU间通信要求。同时，对于千亿参数大模型的张量并行计算，4颗CPU与内存之间海量的通信需求达到2TB/s，远高于CPU的内存通信带宽。为降低千亿参数对CPU和内存的通信带宽门槛，浪潮信息对源2.0-102B模型采用了 NF4量化技术。 NF4（4位NormalFloat）是一种分位数量化方法，通过确保量化区间内输入张量的值数量相等，来实现对数据的最优量化。特别地，NF4量化非常适合近似正态分布的数据，这与大模型的权重分布方式十分契合，所以通过NF4量化，可以获得比传统的INT4或FP4量化更高的精度。 △ INT4数据类型与NF4数据类型对比但NF4量化也带来了新的问题——NF4量化后，会产生大量的scale参数。假如按照64个参数作为一个量化块计算，对于一个千亿参数的大模型，仅存储scale参数就需要额外的6GB内存。为了减少内存占用，浪潮信息还通过嵌套量化将这些scale参数量化到FP8精度，显著减少了所需的存储空间。通过 NF4量化和嵌套量化，模型的每个权重仅占用1/2字节空间，Yuan2.0大模型占用内存容量缩小到原来的1/4。有AI芯片，为什么还要用CPU推理？浪潮信息的这套解决方案，的确让千亿大模型在通用服务器上的运行成为了可能。但我们仍然想问，明明有很好的AI加速芯片，为什么还要执着于研究CPU推理呢？首先一点，是拥有更低的部署和推理成本—— 从传统行业用户需求看，通用服务器的成本优势显著，较AI服务器成本可降低80%。这样的成本节约不仅仅包括设备的购置部署，还包括与行业用户现有系统的融合。采用通用服务器，意味着大模型服务可以更容易地与已有的企业IT系统进行合并，免去了部署AI服务器带来的迁移适配工作。当然在技术层面，CPU方案的一些优势也是AI加速卡无法比拟的。内存方面，通用服务器的内存容量远大于现在GPU芯片能够提供的显存容量。比如在一台双路服务器上，可以很轻松地把内存做到1TB，像NF8260G7这种四路服务器还能做到更大。所以。对于一个千亿甚至数千亿的大模型，采用通用服务器进行部署，可以说在内存上完全“不受限”，完全能够放得进去。相比之下，以GPU为代表的AI芯片虽然算力强劲，但内存就显得捉襟见肘了。 AI大模型的运行不仅需要大内存，更需要高速的CPU和内存通信带宽。而基于先进的量化技术，浪潮信息的研发工程师在不影响模型精度的情况下对模型进行量化“瘦身”，大大降低了千亿参数对CPU和内存的通信带宽门槛。同时，为了满足模型需求，需要多颗芯片协同工作。这就涉及到了通用服务器芯片间的通信效率。目前一些高端AI芯片也有高速带宽（比如NV Link），但由于成本较高，这样的方案往往在一些比较高端的芯片或者说高端的服务器上才会采用。而且，这样的算力目前更多地被用于模型训练，用做推理在经济上并不划算。在通用服务器当中，CPU和CPU之间拥有高速互联通信的链路，通过并行计算环境的优化，无论是在带宽还是在延迟上，完全可以满足千亿参数大模型运行过程中多计算核心通信的需求。此外，随着新一代CPU开始加入AI加速指令集（如AMX），CPU的AI算力性能也在快速提升。以浪潮信息现在采用的6448H为例，这样的一个四路服务器的算力也到430TOPS（INT8）或215TFLOPS（BF16），完美满足运行AI大模型推理的算力需求。通用算力正在发生“智”变站在更高的层次上看，基于NF8260G7的通用服务器大模型推理方案，也是浪潮信息战略中的重要一环。包括AI技术在内，科技进步的最终目的是“落入凡间”，赋能千行百业。与此同时，AI正在从专门的计算领域扩展到所有的计算场景，逐步形成“一切计算皆AI”的格局。 AI计算从以云端、服务器为主开始向手机、PC等各类端侧设备蔓延开来。 CPU、GPU、NPU等各种PU，也都被用于了AI计算。在这样的趋势下，传统上认为非典型的AI算力也在发生“智”变，向着智能算力演变。具体到以CPU为核心的通用算力，能否运行千亿参数大模型，是衡量其能否支撑千行百业智能涌现的关键。浪潮信息此次的推出的新方案，填补了行业中千亿大模型通用服务器运行方案的空白，将作为一种更经济的千亿大模型部署方案，成为企业拥有AI的新起点。未来，浪潮信息将继续坚持在算力、算法和数据三要素上的全面发力，实现更多的系统突破，让AI更深入地走进各行各业。

MIT博士的催化材料征途：用AI4S造一枚化学工业“芯片”

追赶化学材料领域的ChatGPT时刻。 “量子离我们的生活一点都不远。” “一米是多少距离，一秒是多长时间，而一千克又是多少质量？ ” 刚一碰面，深度原理的创始人兼CEO贾皓钧便问了「甲子光年」三个问题。两千多年前，庄子曾给出答案：一尺之捶，日取其半，万世不竭。与现代物理学中的基本定律不同，庄子和许多古代哲学家都认为物质是连续的，物质可以被无限分割，任何尺度的长度都只是相对和近似的，没有有绝对精确的度量标准，所以“一米”不能用基本物理定律精准定义它长度。但物质并不是连续的。 “米、千克和秒这样耳熟能详的计量单位，都是用量子力学来标准化的。量子现象更加精准地定义了日常生活中的很多概念。” 深度原理创始人兼CTO段辰儒认为，“ 量子力学是人类近代最伟大的发现。” 数千年来，人们都以太阳定义时间。地球的自转和绕太阳公转的周期稳定性，也由此产生了天、小时、分钟等时间单位。实际上，“一秒”的定义既不是1/60分钟，也不是1/3600小时，现代科学给出了更精确的时间定义：“ 一秒”是铯-133原子基态的两个超精细能级之间发生9,192,631,770次跃迁的持续时间。这种定义与地球的自转或公转周期无关，而是基于原子物理的恒定性。 “我们日常工作等精确到分钟就足够了。”贾皓钧说，“然而社会生产、科学研究和国防建设中，需要极其精确的时间测量，精度高达千分之一秒甚至百万分之一秒。对时间极致追求的科学家们在20世纪50年代发明了永久的时间测量标准——铯原子钟。” 铯原子钟，来源：NLP 铯原子钟以原子的运动为基准。当用激光照射铯原子时，铯原子最外层的单个电子会在两个状态之间来回循环，即超精细跃迁，这个速率是恒定的。其精确度在2000万年的时间跨度内，误差仅为一秒钟。使用铯原子定义的一秒与原来的一秒时长无异，但这种新的定义涉及到铯原子内部电子的量子态变化，正是量子力学研究的核心内容。 “量子力学为我们描述和预测微观粒子的状态及其变化提供了理论框架。这些粒子状态的变化是物质相互转换的基础，深深影响着材料和化学领域。”段辰儒进而表示， “我们的研究就是通过AI for Science（简称AI4S）的方法，结合量子化学和实验解锁新的化学反应，以及发现更高效的催化剂。” AI4S并不是一个新词。它是使用AI相关的技术和思想来指导科学发现，一个典型的例子是谷歌的DeepMind团队开发的蛋白质折叠模型AlphaFold。无论是科技行业的领头羊如微软、英伟达和字节跳动等，还是化学材料制造的巨头巴斯夫和陶氏、3M等，都在斥巨资布局AI4S领域。随着AI4S技术朝着规模化和产业化发展，贾皓钧和段辰儒捕捉到了其中的应用潜力—— 如果在化学领域实现规模化和产业化，就能推动高效且成本低廉的催化材料的研发，还提高能源使用效率和温室气体的转化率。瞄准时机，两人一拍即合，共同创办深度原理科技公司，专攻化学反应和催化材料。六月回国后，他们完成了近千万美元的种子轮融资。本轮融资由线性资本领投，真知创投和Taihill Venture跟投，晶泰科技与深势科技作为科技产业方参与。在美国去工业化背景下，中国的材料化学企业正在从生产向研发转型，AI4S在这里前景更加广阔。 2022年，段辰儒获得麻省理工学院（以下称MIT）化学的博士学位，此前曾在微软担任研究科学家，主要研究生成式AI和大模型在化学方面的应用，和微软AI4S研究的产品化；贾皓钧也在今年获得了MIT物理化学博士学位，此前他曾任职陶氏化学的核心研发部门，利用人工智能技术开发催化剂配方和预测化学反应过程。段辰儒（左一）与贾皓钧（右一）在MIT校园，来源：「甲子光年」拍摄为什么是催化剂？能源是人类社会运转的基础，而催化剂则是能源效率的关键之匙，毫不夸张地讲，催化剂就是现代化学材料工业生产中的“芯片”。 “化学反应无处不在。”贾皓钧介绍，“ 其中90%以上的化学品是通过催化工艺合成制备的，催化所创造的产值约占全球GDP的30%。工业生产中，催化剂贯穿整个化学反应。为了更好地控制这些反应，我们迫切需要关于催化材料的创新。” 以合成氨的生产为例，这一过程每年消耗全球1%至2%的能源，并造成全球约3%的碳排放。通过改进催化剂，若能将合成氨的转化提升1%，那么不仅能节省数十亿美元的成本，还能大幅减少碳排放。 “当AI4S技术将合成氨效率提高5%时，便是我心中化学材料的‘ChatGPT时刻’。” 段辰儒说。但发掘新型催化材料是一个极复杂的多任务问题。过程涉及大量的衡量标准和极大的材料空间。实验设计、数据分析和理论模拟，每一步都需要精确的控制和深刻的化学理解。不仅是科学上的难题，更是工程上的挑战。基础科研不存在捷径。对于基础学科的前沿研究来说，理论知识是基础，未知问题的答案往往不会在课本上出现。而由此科研成果衍生的创业尝试，尽管困难重重，却能真正地重塑能源未来。贾皓钧略带激动地说： “化学改变了世界，现在，我们用人工智能改变化学。” 曾经在MIT化学工程系楼里，贾皓钧和段辰儒占据着实验室一角，埋头于屏幕前，键盘不断发出粗重的颤音，这是大脑与AI同频共振的声音，有时空气中还会弥漫一阵热力推动的电子元件的实验室气味。两个人经常在这里一待就是十几个小时，用字符编织算法，在与数据无声对话。现在，一个绿色且高效的未来，正在深度原理中，静静孕育。未来的图景如星空璀璨，脚下的征途依然漫长，他们正在一步一步地迈进。 1.催化剂是工业生产的“芯片” 段辰儒和贾皓钧有时觉得自己的工作就像在沙场排兵布阵，对化学结构调兵遣将，而新材料就是队伍中的主力军。他们专攻催化领域，通过催化作用来影响化学反应，控制化学键的断裂和新化学键生成的速度和方向。比如煤碳转化为石油的自然过程需要数百万到数亿年，但借助催化剂，这一过程显著加速。催化剂能在温和的条件下促使原本难以进行的反应顺利进行，从而改变物质和能源的转化方式。“我们的主要任务是寻找性能优异的新催化剂，并设计和实现新的催化反应过程。”贾皓钧解释道。从面包烘焙到火箭升天，数千年来人类一直在不知不觉中感受着催化的力量。化学产品示意图，来源：受访者提供在化学反应的历史中，每当发现新的催化剂或化学反应，人类合成新化合物的数量都会经历跳跃式增长，为科学发现和工业生产模式带来革命性变化。就像1950年代，齐格勒-纳塔催化剂（Ziegler-Natta Catalysts）的诞生时。它主要用于聚合反应，特别是聚合乙烯和丙烯这类塑料的生产。齐格勒-纳塔催化剂让塑料制品的大规模生产成为可能，极大地推动了现代塑料工业进程，影响了包装、建筑、汽车等多个行业。催化剂示意图，来源：Oil&Gas 能源是人类社会不可或缺的血液。工业革命以来，人类大规模开采化石能源。在煤炭、石油与天然气燃烧的灰烬中诞生了高楼大厦与车水马龙。然而这种对化石能源的过度依赖以及二氧化碳的大量排放，也带来了资源枯竭、生态失衡和全球气候变化等一系列问题。数据显示，自工业革命以来，全球地表平均温度已升高约1.1摄氏度，预计到21世纪中叶将超过2摄氏度。同时全球大气污染正威胁人类生存条件。按照当前消费水平推测，全球煤炭储备将维持不超过200年，石油则可能在50至100年内耗尽。能源危机兵临城下，探索新型催化材料迫在眉睫。 2017年《Nature》刊登的文章《The Drug-maker’s Guide to the Galaxy》中提到，在整个化学空间中，人类可发现材料（物质）的可能性，是10的60次方。但筛选10的60次方种材料如是现实中不可能完成的任务。 “用一个最优条件假设，我们就能充分认识到催化材料设计的困难。假设只需 1 微秒即可获得一份候选材料的所有所需信息，且我们拥有与Nvidia总销量相等的1300万台A100 GPU，同时并行、不间断地运行它们。我们每年消耗114大千瓦时的电力（占人类总用电量的 0.5%）。”段辰儒分析，“ 理想情况下，遍历这些材料需要10的36次方年，宇宙寿命大约为100亿年，这相当于宇宙寿命的10的26方倍。” 诚然科技发展早期，新材料的发现易如探囊取物，比如爱迪生通过试验找到灯丝材料钨的过程。传统化学发现过程依赖于不断的试验和错误，此过程通常涉及实验室中的化学发现，但手工操作准确性不尽人意，整个过程的时间尺度从几个月延伸到几年，费用和时间成本都很高。但这种“大海捞针”式的方法论已无法满足当前新材料研发的需求。想寻找催化材料的答案，要深入到肉眼不可见的微观世界。原子正等待着从杂乱无章逐渐走向有序，在最适合的微观结构中释放潜力。段辰儒介绍：“借助AI4S，我们能在信息大海中快速定位到最有价值的资源。” 贾皓钧和段辰儒在寻求一种 “既有当前又有未来，我们要寻找一些全新的可能”。他们将实验、计算与机器学习三成形成一个循环（Experiment-Computation-ML in a Loop），通过AI决策链结合这些“武器”，从而优化整个化学发现的过程，让“AI炼金术”成为现实。 “现在国内高校和企业越发重视AI4S了，但深入的空间还很大。我们要做的是弥补材料化学和AI结合创新的空白。”贾皓钧说道。 2.“AI计算”炼金术深度原理的核心算法有4块： ReactControl：使⽤多种⼯具进⾏即时决策，以提⾼成本准确性权衡，超过⼀半的计算和实验努⼒都因失败的尝试⽽⽩费。 ReactControl 将节省⼀半以上评估催化剂性能的时间； ReactBO：通过⻉叶斯算法的优化来发掘催化剂并优化反应条件，1000倍加速在拥有32.5M⼤⼩的材料空间中发掘可合成的发⾊团； Reactify：使⽤推荐引擎来进⾏⽅法选择和改进决策，让误差减少六倍，使⾼通量 DFT ⾸次达到实验精度。 ReactGen：⽣成式⼈⼯智能辅助对新型催化材料和反应的快速采样，采⽤反向设计，无需筛选10的60次方种材料。总而言之，就是在闭环系统中，通过高通量计算和机器学习减少实验次数和提高数据处理速度，在几秒钟内进行大量的计算和预测，而这些预测通常需要在实验室中花费数月甚至数年的时间。再利用AI进行决策支持，将机器学习、计算核试验的结果整合分析，以确定最有潜力的化学反应路径或材料设计方案。其中的关键技术是一种基于生成式人工智能技术的扩散模型，名为OA-ReactDiff。关于OA-ReactDiff论文切片，来源：受访者 OA-ReactDiff能够快速精确地从原子组分直接生成并优化过渡态（TS）结构，并有效支持化学反应的机理研究和反应网络构建，并通过机器学习替代了昂贵的传统量子化学计算。它避开了传统过渡态搜索中常见的复杂步骤，如原子顺序的调整和片段的对齐，而是直接利用反应物和产物的3D几何结构来生成过渡态。最后聚焦到了过渡态的搜索，让这个过渡态的搜索速度提高了1000倍左右，将原本需要几小时甚至超过一天的过程缩短至十秒内。在化学领域，寻找过渡态是阐明反应机制和探索反应网络的节点。过渡态是一种特殊的分子结构，它存在于反应物变为产物的那一刹那。它是化学反应中的桥梁，连接着反应物（起始物质）和产物（最终物质）。好比烘焙过程中蛋糕从液态混合物转变为固体的那个关键时刻，过渡态对于深入理解化学反应的机制至关重要，研究人员依据过渡态的结构和能垒推断反应速率，就能设计更有效的催化剂。但由于过渡态的瞬态性质，实验上难以观察到过渡态结构。加上其势能表面的复杂性，寻找准确的3D过渡态结构需要极大的量子化学计算。比如使用密度泛函理论（DFT）构建详尽的反应网络，用时从数小时到数天不等，其成本高昂又错误频发。 “复杂的反应网络是通过立即迭代枚举当前已知物种可能发生的基本反应。而传统的过渡态搜索方法，如推动弹性带方法（NEB），计算成本高又难以收敛，常常导致大量的计算资源浪费。”段辰儒解释说，近年来越来越多的研究开始探索使用机器学习技术来寻找过渡态，比如把过渡态搜索转换为一个从2D到3D结构的问题，或通过各种网络模型来解决，但此类方法的弊端也很明显——还未能完全达到使用DFT评估的精确度。对于这个化学领域盘旋已久的难题，2023年年底，段辰儒、贾皓钧和研究团队开发了一个名为OA-ReactDiff的新模型，它是一个能感知对象的SE(3)等变扩散模型，无需长时间的DFT计算，就能生成高精度的三维过渡态结构。同时他们还构建了一个基于置信度评分的推荐系统，让模型能够仅对最具挑战性的反应进行少量的DFT优化，从而接近所需精确度。而解决问题的灵感来来自于一篇“利用散模型进行小分子药物生成”的论文。 2022年在AI4S的研讨会上，段辰儒与朋友聊起了Diffusion Model在小分子合成和生物学领域的应用前景。他很快意识到，尽管这些技术已被用于生成单个分子，但在化学领域的核心应用却鲜有人涉足。之前生成式AI模型已被用在了单独的小分子药物设计。“Diffusion Model能够精确产生可以结合到特定蛋白质活性部位的药物。这让我十分好奇，除了生成单一分子或药物，是否能用这种方法生成整个化学反应？”段辰儒讲到。 “想法很新颖，但技术上的挑战也不容忽视。”与生成单一物质不同，化学反应涉及的多物体系统需要考虑更复杂的对称性，其中共涉及三种不同的物质：反应物、产物和过渡态。在设计包含多种组分的化合物（比如金属-有机框架）或者研究涉及多种不同结构的化学反应时，传统的SE(3)等变扩散模型很难进行，因为它们难以准确处理和表达多个组分协同作用时的对称性。这就不得不提到化学领域内最关键问题—— 物质之间的相互转化。稳定性的定义是物质在势能面上的极小点状态。化学反应本质上是从一个势能极小点转移到另一个极小点的过程。基于这一点，段辰儒决定利用扩散模型来生成化学反应，“过程中困难重重，尤其是之前的Diffusion Model和图神经网络不能保证化学反应中一些特有的对称性。” “抓耳挠腮”地思考了三个月后，段辰儒他们研发出了一套图神经网络确保化学反应中对称性，同时将该网络与Diffusion Model结构相结合，创建了一个能够生成完整化学反应的系统。“它能正确处理和维持反应物或产物中原子的排列，同时也能确保在处理多线程时，每部分的旋转和移动都是正确的。”贾皓钧说。 “一开始，我想到AI可以做这件事，但没有想到效果、精度会这么好。我们现在生成的过渡态已能与实验中的反应速率不相上下了，虽然反应速率仍会差一个数量级，但已经让我们看到‘计算和AI引导实验’的潜力。”段辰儒语速快了起来：“最令人激动的是，OA-ReactDiff生成的过渡态结构非常精确，与真实结构的差异极小。处理速度也非常快，在单个GPU上只需6秒。” 这一突破性成果已在《Nature Computational Science》杂志上发表，并荣获封面论文，在业内也掀起不小的“风暴”。GAMESS的开发者、哥本哈根大学的化学教授詹·哈尔博格·詹森（Jan Halborg Jensen）称赞这种新方法代表了“在预测化学反应性方面的重大进步”。该论文的《Nature Computational Science》封面，来源：受访者整个博士生涯，段辰儒与贾皓钧在Nature大子刊等顶级期刊及NeurIPS等顶级会议上合计发表超过60篇论文，并开创了多个AI for Chemistry新模型。目前，他们有多项专利正在申请流程中。 “ 我们应该是第一批将GenAI放到化学流程里面的创业团队。”段辰儒说，“当时大家已经把Generative AI，尤其是 Diffusion Model 相关的东西运用在了一些纯的小分子生成和生物里面，但这里面其实都只涉及到生成一个分子。” “「深度原理」也寓意着结合深度学习（Deep Learning）和第一性原理思考（First Principle），用人工智能重新解构分子世界的运作原则。”贾皓钧补充道，“段辰儒是也AI4S领域最早的一批研究者。” 3.创业不是“做饭” 一路从吉林大学读到MIT，贾皓钧的学术生涯还算顺利，也曾想过将学术道路已走到底，但创业的种子在一直在心中未曾泯灭。贾皓钧和段辰儒同属MIT化学工程系教授、AI化学设计领军人物Heather Kulik教授门下。不同的是，贾皓钧专注于具体的催化反应机理和材料设计，而段辰儒则擅长AI和化学算法。在实验室里，段辰儒是“大师兄”般的存在，他醉心AI4Chemistry，开创了AI决策模型在高通量计算中的整合和应用；贾皓钧更像团队里的“小太阳”，他热情、爽朗、充满能量，总是勇于尝试新的方法和思路。导师Heather Kulik教授对他们也有着截然不同的评价。她评价段辰儒有着“出色的学术领导力”，对贾皓钧则是“我最勇敢的学生”。 Kulik组的合影，其中Heather Kulik（左一）、段辰儒（左五）和贾皓钧（右一）。来源：受访者第一次见面时，段辰儒对贾皓钧的印象“不太好”。 2019年秋天，刚到MIT读博的贾皓钧写邮件给段辰儒，咨询选择导师的问题。“见面时感觉这孩子有点‘轴’，咨询得都是好不好毕业、哪个研究方向更有前景等目的性很强的问题，但我做科研是出于热爱，不太聊得来。”段辰儒回忆。但贾皓钧对段辰儒的第一印象却“好极了”。 “辰儒耐心地解答了我提出的问题，对学术很热爱也很有见解。当时就下定决心一定要抱住这条‘大腿’。”事实也证明了贾皓钧的“眼光”独到，整个博士期间，段辰儒共发表了50多篇文章，其中一作20篇。几次合作后，段辰儒对贾皓钧印象有了彻底地改观：“皓钧在博士五年间坚持做了一个组内从来没人探索过的方向，当时连导师都劝他换个方向，他却坚持下来了，并小有成绩，这种‘虽千万人吾往矣’的勇气非常人能及。” 段辰儒与贾皓钧的合作时间，基本贯穿了彼此的博士生涯，也建立了十足的默契。“我们是和而不同的创业者，我骨子里是很悲观的人，辰儒乐观的态度让我倍受鼓舞。”贾皓钧说，“但我们对AI4S的认知是相同的。” 段辰儒在微软工作期间意识到自己的研究在工业界的实用性，但现实问题也接踵而来：材料化学公司的科研方式过于保守，而采用和更新AI4S工具的门槛又太高。这些“门槛”也成了激发了他继续深耕AI4S的动力。“因为创业和我最初想做学术的初衷是一致的。我热爱的是研究和解决问题的过程，初创公司这个形式非常适合去实现它。”段辰儒坚定地表示。段辰儒在微软总部的留影，来源：受访者最初，创业的想法是由贾皓钧提出的。“不瞒你说，我从小对‘搞钱’就十分感兴趣。幼儿园学算术时，你问‘15+27’等于多少我未必能答对，但问‘15元’+‘27元’等于多少元我一定能马上答对。”贾皓钧逐渐严肃起来，“‘搞钱’一度是我的追求，但后随着对物理、化学的深入研究，我逐渐认识到有更重要的事业等着我去做：作为一名青年科学家和创业者，我们应该敢于面对国家的技术需求，探索能解决瓶颈问题的基础研究。” 对于AI4S的创业方法论，他们认为 AI4S 初创公司必须依赖技术创新才能脱颖而出。AI4S类别的创业公司虽然是技术驱动，但终极目标仍是通过创新满足市场需求。科技创业需要平衡市场与技术的不确定性。 Instagram在技术上的风险较低，但最大的不确定因素，人们是否愿意公开分享自己的照片；与之相比Commonwealth Fusion Systems，虽然在可控核聚变方面遇到了很多技术挑战，一旦成功，他们就能清楚地知道如何在有组织的市场中销售他们提供的廉价且清洁的热能和电力。市场与技术的不确定性，来源：The Engine Ventures 贾皓钧表示：“大部分硬科技公司都处于这两个极端之间，他们需要在资金有限的情况下，同时推进市场和技术的试验和探索。” 在公司发展的早期阶段，技术是核心竞争力。随着公司发展至后期，重点逐渐转向市场和产品开发，技术的直接表现可能不如之前显眼，因为目标转为满足客户需求而非单纯展示技术。虽然可乐的制作涉及复杂技术，如罐装和储存技术，消费者却只关心其基本功能——解渴。这些背后的技术虽然关键，但对消费者而言是不可见的。深度原理的目标是将技术转化为产品发动机，特别是在快速迭代的化学材料领域，这更亲环保的能源解决方案和更合理的能源分配。“我们希望通过创新来实现这一目标。虽然可以使用各种工具和方法，如AI或传统化学直觉，但我们认为使用AI4S来开发这些解决方案可能性最大。”段辰儒表示。在实现这些目标的过程中，体系化的方法非常关键。相比于依赖随机的直觉或偶然的发现，体系化的方法提供了一个更可靠的框架，能够有效地迭代和优化策略。这种方法在创业、思考问题，以及执行任何计划时都是一种强大的能力。“毕竟创业不是做饭。” 贾皓钧说。贾皓钧在MIT博士毕业典礼上，来源：受访者他认为创业的方法理论固然重要，但创业一定不是一个循规蹈矩的过程。“ 因为创业不像做饭，只有指导原则，没有固定配方，全靠探索。”从出发到现在，他们未曾忘记深藏心中的愿景：将人工智能、量子化学和高通量实验技术应用于化学材料领域，让化学材料创新的工作流程得以改善，加速研发创新的效率。段辰儒分享了自己在计算机顶级会议ICML和NeurIPS上组织AI4S社群和会议的体验，“从参加人数的急剧增加可以看出社区的兴盛和AI在科学中应用的热度上升。”段辰儒说，“AI4S是一个兴起的领域。作为最顶尖的研究者时，我们最擅长的就是重塑问题并解决它们；那在创业时，我们为什么不挖掘工业界催化材料的研发生产问题并解决他们呢？作为CTO，我最重要的使命就是找到AI4S在化学材料领域最顶尖的研究者和工程师，把他们聚集在深度原理，和他们一起在工业界真实的应用场景上‘打怪’。” “我希望深度原理不仅成为一个成功的公司，更是一个科技创新的象征，吸引全球顶尖的科学家和工程师来此大展身手。”贾皓钧憧憬着。毋庸置疑，这是最好的时机。 2020年，我国提出了“2030年全面现碳达峰”的宏伟目标，将能源效率的战略意义提升到前所未有的高度。贾皓钧表示：“ 降低碳排放的最有效的方式是提高能源效率。”催化研究的核心目标是促进能源转型，优化能源结构，实现低碳化，并为国家能源安全提供技术保障。