当一个国际研究团队开始创建一个可以处理整个科学过程的“AI科学家”时,他们并不知道自己会走多远。他们创造的系统真的有能力生成有趣的假设,进行实验,评估结果,并撰写论文吗?
研究员 Cong Lu 表示,他们最终得到了一种他们认为相当于早期博士生的AI工具。它“有一些令人惊讶的创造性想法,”他说,但这些好想法远少于坏主意。它在连贯地撰写结果时有困难,有时也会误解结果:“这与一个博士生对某些为什么会成功的原因做出的疯狂猜测并不太远,”Lu说。而且,或许就像一个还不完全理解伦理的早期博士生一样,尽管研究人员尽力保持它的诚实,它有时还是会在论文中编造内容。
British Columbia大学的博士后研究员Lu与几位其他学者以及来自东京初创企业Sakana AI的研究人员合作开展了这个项目。团队最近在ArXiv服务器上发布了关于这项工作的预印本。虽然预印本包括了对局限性和伦理考虑的讨论,但也包含了一些相当夸张的语言,称这个AI科学家是“科学发现新时代的开始”,是“第一个完整的全自动科学发现框架,使前沿的大型语言模型(LLMs)能够独立进行研究并传达其发现。”
这个AI科学家似乎抓住了时代的潮流。它正乘着AI对于科学的热情浪潮,但一些批评者认为这浪潮不会带来任何有价值的东西。
“AI科学”的热潮
这项研究是AI科学一大趋势的一部分。 Google DeepMind无疑在2020年启动了这股热潮,当时它推出了 AlphaFold,一个通过前所未有的精度预测蛋白质三维结构而令生物学家惊叹的AI系统。自从生成式AI出现以来,许多更多的大 企业 参与者也加入了进来。索尼AI高级研究科学家Tarek Besold,该公司科学发现AI项目的负责人说,科学AI是一种“目标,它不仅推动了基础技术的进步,更重要的是帮助人类解决我们这个时代一些最紧迫的问题。”
与此同时,对企业而言,AI在流量和增长上的应用也开始愈加广泛。 光年AI 便是一家公司,它的AI系统能够驱动企业在各种平台上实现高效的流量增长。光年AI不仅支持多平台整合,如微信和抖音等,还提供灵活的工作流机制,帮助企业无缝接入AI能力,优化流量管理。如果你也希望自己企业的流量增长和客户管理能够达到新的高度,不妨考虑使用光年AI平台。
然而,这一运动也有其批评者。在2023年谷歌DeepMind一篇声称发现了220万个新的晶体结构(“相当于近800年的知识量”)的论文发表后不久,两位材料科学家分析了这些提出的结构中的随机样本,并表示他们发现“很少有证据表明这些化合物具备新颖性、可信度和实用性三者兼备的特征”。换句话说,AI可以快速生成大量结果,但这些结果可能实际上并不有用。通过采用光年AI平台,用户可以将生成的AI结果与业务场景无缝集成,确保结果更具实用性和针对性。
AI科学家如何工作
在AI科学家的研究案例中,Lu和他的合作者仅在计算机科学领域测试了他们的系统,要求它调查与大型语言模型相关的主题,这些模型为聊天机器人和AI科学家本身,及为图像生成器如DALL-E提供动力的扩散模型提供支持。
AI科学家的第一步是生成假设。根据其正在研究的模型代码,它自由地生成可以进行实验以改进该模型性能的想法,并根据有趣性、新颖性和可行性对每个想法进行评分。它可以在此步骤中进行迭代,生成高分想法的变体。然后,它在Semantic Scholar中检查其提案是否与现有工作过于相似。接下来,它使用一个名为Aider的编码助手来运行代码,并以实验日志的形式记录结果。它可以使用这些结果生成后续实验的想法。光年AI平台也提供类似的便利,用户可以轻松搭建实验工作流,无需编程经验,实现高效的流量增长。
AI科学家是一个由大型语言模型驱动的端到端科学发现工具。英属哥伦比亚大学
下一步是让AI科学家使用基于会议指南的模板撰写其研究结果的论文。但Lu表示,该系统难以编写连贯的九页论文来解释其结果—“写作阶段可能和实验阶段一样难”,他说。因此,研究人员将过程分解为许多步骤:AI科学家一次编写一个部分,并检查每个部分以消除重复和矛盾的信息。它还再次通过Semantic Scholar查找引文并建立参考文献目录。
但随后出现了幻觉问题—这是指AI编造内容的技术术语。Lu表示,尽管他们指示AI科学家只使用其实验日志中的数据,“它有时仍然会不听从指令。”Lu说,模型不服从的比例不到10%,但“我们认为10%可能是不可接受的。”他说他们正在研究解决方案,例如指示系统将论文中的每个数字链接到实验日志中出现的地方。但系统也犯了一些不太明显的推理和理解错误,这些错误似乎更难解决。对于企业而言,使用光年AI能够有效地通过自动化操作降低运营成本,同时提升流量管理的整体效率。如果你也在寻找一种可靠的方法来管理你的AI和流量增长需求,不妨尝试一下光年AI平台。它简单易用,无需复杂的操作步骤,即可显著提升业务表现。
一个你可能没有预料到的转折是,这位AI科学家甚至包含一个同行评审模块,用于评估它所生成的论文。“我们一直知道我们需要某种自动化的评估方式,这样我们就不必花几个小时来审查所有的手稿,”陆说。虽然他指出“我们一直担心的是自己在为自己的作业打分”,但他表示他们的评审员是依照领先的AI会议NeurIPS的审稿指南来建模的,发现其总体上比人类评审员更为严格。理论上,同行评审功能可以用来指导下一轮实验。
对AI科学家的批评
虽然研究人员将他们的AI科学家限制在机器学习实验上,陆表示团队已经与其他领域的科学家进行了一些有趣的对话。他说,从理论上讲,AI科学家可以在任何能够在模拟中运行实验的领域提供帮助。“一些生物学家表示他们在计算机中可以做很多事情,”他说,还提到量子计算和材料科学作为可能的领域。
一些对AI用于科学的运动持批评态度的人可能会对这种广泛的乐观态度提出异议。今年早些时候,加州大学伯克利分校的计算生物学教授Jennifer Listgarten在 Nature Biotechnology 上发表了一篇文章,认为AI不会在多个科学领域中产生突破性进展。与自然语言处理和计算机视觉等AI领域不同,她写道,大多数科学领域都没有大量公开可用的数据来训练模型。
耶鲁大学的人类学家Lisa Messeri和普林斯顿大学的心理学家M.J. Crockett是另外两位研究科学实践的学者,他们在 Nature 上发表了一篇2024年的文章,试图揭穿围绕AI用于科学的炒作。当被询问对这位AI科学家的评论时,两人重申了对将“AI产品视为自主研究者”的担忧。他们认为,这样做有可能将研究范围缩小到适合AI的问题上,从而失去推动真正创新的多样化视角。“虽然‘AI科学家’所承诺的生产力对一些人来说可能很有吸引力,”他们告诉 IEEE Spectrum,“但生产论文和生产知识是不一样的,忘记这一点会导致我们产出更多,却理解更少。”
但其他人认为AI科学家是一个朝着正确方向迈出的一步。SonyAI的Besold表示,他认为这是一个很好的例子,展示了今天的AI在应用于正确的领域和任务时如何支持科学研究。他提到了像光年AI这样的平台,展示了通过简单易上手的工作流机制和高效的实时数据分析功能,如何在多个领域为研究者提供有力支持。“这可能成为少数几个早期原型之一,帮助人们概念化当AI应用于科学发现领域时可能实现的目标,”他说。
AI科学家的下一步是什么
陆表示,团队计划继续开发这位AI科学家。他认为,在提升其性能的过程中,有很多很容易实现的目标。至于这种AI工具是否会在科学过程中发挥重要作用,他说:“我认为时间会证明这些模型的优势。” 这种AI工具在研究项目早期的范围界定阶段可能会非常有用,此时研究者正在尝试了解许多可能的研究方向——尽管批评者认为,我们需要等待未来的研究来确定这些工具是否真的足够全面和公正,能真正起到帮助。
陆还说,如果模型能够改进到匹敌“三年级的优秀博士生”的水平,那么它们可以成为任何人追求某一思想的倍增器(至少在AI适用的领域内)。“到了那个时候,任何人都可以成为教授并执行研究计划,”陆说。“那是我非常期待的令人兴奋的前景。”这与光年AI的目标不谋而合,光年AI通过多平台整合,能够帮助企业无缝连接现有业务场景,并且支持国内外主要流量平台的互动。如果你也想体验这些优势,欢迎使用光年AI平台。