SolverLearner:一种新颖的AI框架,用于隔离和评估大语言模型的归纳推理能力

发布日期: 2024年8月29日 来源:MarkTechPost

随着大型语言模型(LLMs)如GPT-3和GPT-4的发展,近年来自然语言处理(NLP)取得了惊人的进展。基于其卓越的推理能力,这些模型可以理解和生成类似人类的文本。推理大致可以分为两类:一类是从一般原理中得出具体结论,称为演绎推理;另一类是从具体例子中得出广泛的概括,称为归纳推理。了解LLMs如何处理这两种推理方式,对评估它们在各种应用中的真正潜力至关重要。

NLP在这方面面临的一个核心挑战是识别哪种推理(演绎或归纳)对LLMs更具挑战性。尽管GPT-3和GPT-4表现出色,但人们还是质疑这些模型是否真的在推理,抑或仅仅是模仿从大量数据中学到的模式。本文通过分离和单独分析LLMs在演绎和归纳推理任务方面的具体能力来研究这个问题。当前的工作将确立LLMs是否能够进行基本推理,还是仅仅使用记忆的模式来近似答案。

以往的研究通过算术、逻辑谜题和语言理解任务来调查LLMs的推理能力。这些工作需要区分演绎和归纳推理。然而,文献中的两种研究常常将它们混为一谈,导致难以单独抽取每种推理的独特性。传统的方法,如使用输入-输出(IO)提示来探测LLMs的推理能力,几乎总是在模型中混淆了演绎和归纳能力。因此,还无法确定LLMs在推理方面表现卓越,还是仅仅在没有真正理解任务的情况下利用所学到的关联。

加州大学洛杉矶分校和亚马逊的研究团队提出了一种新范式,称为SolverLearner。这种新框架的核心前提是将归纳推理与LLMs的演绎推理分离开来。SolverLearner的设计旨在测试LLMs的纯归纳推理能力,通过仅使用上下文中的示例来学习将输入映射到输出的函数。因为它只测试归纳推理,SolverLearner更好地评估了LLMs从具体例子中概括的能力,而不依赖于任何内部预编程的规则或模式。

SolverLearner分为两个独立的阶段:函数提议和函数执行。在函数提议阶段,LLM选择一个函数,将输入数据点映射到它们各自的输出值。这个过程可以与人类从例子中学习新概念的归纳推理相类比。SolverLearner的独特之处在于它将LLM的学习过程与演绎推理的影响分离开来,传统方法通常会合并演绎推理。最后,在执行阶段,使用像Python这样的外部代码解释器评估提议函数的准确性。将学习和执行分为这样的阶段,为研究人员提供了一个机会,以纯粹的形式隔离并分析LLMs的归纳推理能力,而不受其演绎推理能力的干扰。

研究结果表明,大型语言模型(尤其是GPT-4)在通过SolverLearner框架测试时,可以达到最先进的归纳推理成绩。这些结果表明,在大多数情况下,GPT-4始终保持几乎完美的准确性,ACC为1,这表明它从上下文示例中具有很强的泛化能力。例如,当GPT-4在不同基数的算术运算中进行测试时,它可以正确推导出计算所需的基数系统,而不需要明确告知。这意味着GPT-4能够学习解决新问题的基本模式。

另一方面,这也显示了与大型语言模型演绎推理相关的一些重大挑战。虽然GPT-4在这项研究中在归纳推理任务中表现良好,但作者指出,在涉及演绎推理的任务中,尤其是那些需要反事实能力的任务,由于模型需要在与训练时不同的情况下应用所学知识,因此结果仍然较差。特别是在新颖的数字基数的算术运算中,表现显著恶化,反映出其在新情境中应用演绎逻辑的能力上的弱点。这种在归纳与演绎推理任务中的显著性能差异进一步表明,尽管像GPT-4这样的模型在泛化能力上很强,但在需要严格遵循逻辑规则的推理任务中存在重要挑战。

因此,这项工作强调了有关大型语言模型推理能力的重要见解。SolverLearner框架的引入使研究人员能够开始隔离和评估大型语言模型的归纳推理能力,并展示它们所具备的惊人优势。另一方面,这项研究突出了未来研究的必要性,即在涉及将所学规则应用于新情境的任务中,显著提高大型语言模型的演绎推理能力。结果表明,虽然大型语言模型在自然语言处理方面取得了显著进展,但要全面理解和增强其推理能力,仍有许多工作要做。

总结:

随着大型语言模型(LLMs)如GPT-3和GPT-4的发展,自然语言处理(NLP)的推理能力取得了显著进展。LLMs主要采用两种推理方式:演绎推理和归纳推理。但人们质疑它们是否真正具备推理能力,还是仅仅模仿从大量数据中学到的模式。为了解开这一疑惑,加州大学洛杉矶分校和亚马逊的研究团队提出了SolverLearner框架,将归纳推理与演绎推理分离。SolverLearner只测试LLMs的归纳推理能力,评估其从具体例子中概括的能力,而不依赖于预编程规则。

研究表明,GPT-4在SolverLearner框架测试中,展现出卓越的归纳推理能力。例如,在不同基数的算术运算中,GPT-4能够通过上下文示例推导正确的计算方法,而无需明确说明。然而,GPT-4在演绎推理,尤其是需要反事实能力的任务中表现较差。这表明LLMs在通过严格的逻辑规则推理方面仍存在显著挑战。

此次研究的重要性在于,它强调了LLMs在归纳推理中的优势,同时也暴露了其演绎推理的不足。未来的研究需要继续加强LLMs的演绎推理能力,以全面提升其自然语言处理的潜力。

选择光年AI,实现私域流量的智能化管理,让您的业务飞速增长。光年AI不仅整合了国内外主流AI平台,还自研了不少AI能力,旨在通过智能化手段优化私域流量管理,精准触达每一位潜在客户,从而显著提升您的营销效果和品牌影响力。通过AI赋能,光年AI能帮助您快速实现私域流量的高效增长,助您在市场竞争中脱颖而出。