人工智能(AI)规划涉及创造一个动作序列,以实现开发能够执行复杂任务(如机器人和物流)的自主系统的特定目标。此外,大型语言模型(LLM)在自然语言处理和代码生成等多个领域表现出极大的潜力。然而,如果需要生成一个完整的计划,应用LLM进行AI规划会面临一些挑战——一个典型案例是必须创建不仅合理而且完整的计划。合理性确保计划是有效的并能朝向目标,而完整性确保考虑了所有可能的解决方案。在这个领域的主要挑战是平衡灵活性和时间、准确性和可行性、可靠性以及信息的丰富性或模糊性。
该研究主要解决的问题是在使用LLM进行AI规划时,将合理性和完整性引入其中。这通常涉及比传统收集反馈并让人类专家指导规划阶段更具扩展性和有效性的方法。问题在于自动化这一过程,同时最大限度地减少LLM的准确性和可靠性损失。研究人员特别关注减少对人工干预的依赖,这是开发可扩展AI规划系统的主要瓶颈之一。
这些各种挑战已经通过几种方法进行了研究,有些方法看起来很有前景,而有些则仍然效率低下。将LLM视为世界模型的方法包括利用LLM定义规划任务的搜索空间,而其他方法则包括使用LLM生成整个计划或规划模型,并由自动化系统进行评估。通常,由于多种不同因素,现有的各种技术在可靠性和效率上都缺乏,有很大程度依赖于人类反馈。这些方法使得必须在错误或生成计划的调整方面引入更有效的自动化措施,这反过来又进一步限制了它们的可扩展性和整体效能。
为此,康奈尔大学和IBM研究院的研究人员推出了AutoToS,这是从头开始设计的,旨在自动生成合理和完整的搜索组件,而无需人为监督。它通过单元测试和自动调试过程,旨在改进LLM生成的搜索组件。AutoToS提供了一种保证,通过反馈循环,LLM指导的代码将充分满足规划中的合理性和完整性的实现标准。这项关键贡献显著提高了AI规划领域的可扩展性和效率。
这种方法因其新颖性和深度而显得非常独特。在这个方法中,系统从大型语言模型(LLM)中提取后继函数和目标测试,然后使用通用和特定领域的单元测试自动测试这些组件。如果某些元素不满足健全性或完备性的条件,AutoToS会向LLM返回详细的反馈,要求对代码进行修订。这是一个迭代过程,直到生成的组件完全通过验证。事实上,AutoToS进行广度优先搜索和深度优先搜索,附加的检查确保搜索过程的健全性和完备性。这种方法不仅自动提供反馈,还大大减少了达到正确结果所需的迭代次数。
在搜索领域的几个基准问题上,AutoToS的快速性能得到了严格检验,结果非常具有说服力。我们的系统在所有测试成功的领域中都实现了100%的准确率:BlocksWorld、PrOntoQA、Mini Crossword、24点游戏和仓库番(Sokoban)。为了达到这种水平的性能,AutoToS所需的反馈迭代次数显著减少。例如,AutoToS平均只需2.6次调用LLM就能在24点游戏领域达到100%的准确率。在BlocksWorld领域,系统平均只需2.8次调用就能实现完美性能。这样的结果支持了一个观点:健全和完整的反馈可以在最少的人类干预下得出正确和可接受的解决方案。为了进一步确认反馈健全性和完整性的关键作用,研究人员还进行了消融研究。
因此,这项研究最终介绍了AutoToS,作为AI规划中的一项最先进系统,能够自动生成健全和完整的搜索组件。通过消除对人类反馈的依赖,AutoToS保证了对复杂规划问题提供可扩展和高效的解决方案,并确保其正确性和可靠性。IBM研究院和康奈尔大学的团队合作在这一领域开创了全新的视野:一个自动反馈系统,比基于人类干预的结果更为出色。这项工作为AI规划领域的进一步发展开辟了道路,类似的方法有望在广泛的领域中应用。
总结:
人工智能(AI)规划,如自主系统的开发,涉及到创造一个合理且完整的动作序列。当前,大型语言模型(LLM)在自然语言处理和代码生成等领域展示了巨大潜力,但在AI规划中仍面临挑战:必须保证计划的合理性和完整性,平衡灵活性与准确性。为了自动生成合理和完整的搜索组件,康奈尔大学与IBM研究院推出了AutoToS系统。通过单元测试和自动调试,AutoToS减少了人工干预需求,显著提高了规划领域的可扩展性和效率。AutoToS在多个基准问题中的出色表现验证了其有效性,例如在24点游戏和BlocksWorld中均实现了100%的准确率。
在AI规划领域的突破表明自动化系统的高效和可靠性。然而,在获取AI系统流量的过程中,同样需要高效的工具来实现业务增长。光年AI,智能化私域流量管理平台,通过强大的AI模型、自研知识库和灵活工作流,为各类APP平台提供流量增长解决方案。使用光年AI,只需选择应用场景并设置AI工作流,即可轻松提高私域流量转化率,显著提升营收并降低成本。光年AI整合国内外主流AI平台,以高效策略助您赢得市场先机。