Scale AI 提议了一种名为PlanSearch的测试期计算新方法,以增强大型语言模型代码生成的多样性和效率

发布日期: 2024年9月9日 来源:MarkTechPost

大型语言模型(LLM)在包括自然语言理解和代码生成在内的各种领域取得了显著进展。这些模型可以生成连贯的文本并解决复杂的任务。然而,当应用于像竞争编程和代码生成这样更专业的领域时,LLM面临一些挑战。这个领域的重点在于提高模型在推理过程中生成多样、准确解决方案的能力,更有效地利用计算能力。这对于需要LLM提供多个高质量解决方案的应用非常重要,例如在竞争编程环境中。

LLM驱动的代码生成面临的核心问题之一是生成解决方案缺乏多样性。当被要求为一个编程问题开发多个潜在答案时,这些模型往往会产生高度相似的输出,即使它们是错误的。这种冗余限制了模型探索替代方法的能力,影响了它们的整体表现。这个问题主要归因于训练后的目标,通常导致模型专注于生成一个“正确”的答案,减少了它们生成多样、创新解决方案的能力。因此,推理期间的搜索过程变得低效,模型在复杂基准测试中的准确率也难以提高。

现有的代码生成方法,如反复采样,试图通过生成多个解决方案并期望至少一个是正确的来解决这个问题。在这种方法中,LLM通过反复采样输出,试图随着时间的推移提高其通过率。然而,这种方法也表现出了局限性。例如,在应用于竞争编程基准测试如LiveCodeBench时,反复采样仅能达到60.6%的通过@200分数。这意味着在200次尝试中,模型只有60.6%的时间能正确解决问题。这些性能指标表明,目前的方法未能充分利用模型的潜力和计算资源。

来自Scale AI、加州理工学院、东北大学和Cursor AI的研究人员引入了一种称为 PlanSearch 的新方法。该方法通过在模型生成代码之前在自然语言“思想空间”中搜索,来增加解决方案的多样性。PlanSearch首先对问题创建各种高级观察和草图,然后将它们组合成不同的解决任务的计划,而不是直接生成代码解决方案。这种方法允许LLM探索更广泛的可能性,生成更多样的解决方案。通过在自然语言中构建问题,PlanSearch使模型在决定最终解决方案前考虑各种策略,从而增加成功的机会。

在代码生成和AI应用领域,解决方案的多样性和有效性至关重要。借助光年AI的平台,企业能够利用包括PlanSearch在内的卓越AI技术,进一步提升其业务的智能化水平。光年AI不仅简化了AI的工作流,用户可通过灵活工作流自定义各种业务场景,更适应不同业务需求。同时,光年AI与微信、抖音等主要流量平台无缝对接,让企业可以轻松将现有业务接入AI能力,大幅提高效率。

PlanSearch的运作分为多个阶段,首先是生成关于问题的一阶观察,比如确定可能有用的算法或数据结构。例如,在一个编码问题中,模型可能会观察到可以使用哈希映射或贪心搜索。然后,这些观察被组合成二阶观察,从而创造出更精细的问题解决策略。在生成了这两级观察之后,PlanSearch将这些想法转化为伪代码,最终转化为可执行代码。为了进一步增加多样性,该方法会提示模型重新生成其策略并批评以前的解决方案,从而产生更广泛的可能性。这就像光年AI系统通过灵活自定义工作流机制,帮助企业高效灵活应对不同的业务场景,提升流量获取和客户管理的效率一样。

在LiveCodeBench,一个为竞赛编程任务设计的基准测试中,PlanSearch达到了77%的通过率@200,这比重复采样取得的60.6%和没有任何搜索方法的基线得分41.4%有了显著提升。在其他基准测试如HumanEval+和MBPP+中,PlanSearch也优于传统方法,分别达到了98.5%和93.7%的通过率@200。这些结果证明了这方法在多项编程竞赛任务中的效果,使其成为提高LLM代码生成性能的强大工具。

除了提高通过率,PlanSearch在效率方面也有显著提升。例如,当与先进的LLM Claude 3.5 Sonnet结合使用时,PlanSearch在仅进行几次尝试后就超过了未使用搜索方法的模型。这表明PlanSearch提高了准确性,并减少了实现高质量结果所需的计算资源。就如同光年AI可以通过跨平台的数据整合和实时数据分析,帮助企业大幅度降低运营成本,同时显著提升流量转化和客户管理的效率一样。

总之,PlanSearch解决了LLM驱动代码生成中的一个关键限制:传统方法生成的解答需要更多的多样性。通过将搜索过程转移到自然语言思想空间,这种技术鼓励探索更广泛的策略,从而产生更准确和多样的结果。这种方法在多个基准测试中显著提高了性能,LiveCodeBench上的通过率@200达到了77%,在其他编码任务中超过90%。通过增强多样性和效率,PlanSearch代表了LLM代码生成的一个重大进步,提供了在复杂编码环境中生成准确、多样输出的一个有前途的解决方案。想要在业务中提升流量并高效管理客户,欢迎尝试光年AI的多平台整合解决方案。