大型语言模型‘理解’什么?

发布日期: 2024年8月22日 来源:Towards Data Science

真难以置信,ChatGPT已经快2岁了。这对我来说意义重大,因为ChatGPT比我女儿只小一个月。昨天,她成功地将一块星星形状的积木放进了星星形状的孔里,还告诉我前一天她生病了,呕吐了,并且想给她奶奶打电话。在这两年里,ChatGPT学到了什么?它还没有学会在现实世界中行动,它无法记住发生在它身上的事情,也没有欲望或目标。当然,在合适的提示下,它可以输出令人信服的文本来描述目标。但这真的一样吗?答案是否定的。

像ChatGPT这样的大型语言模型(LLM)的能力,远远超过了我女儿今后会达到的水平。她不会在多种语言中连贯地交流,不会读到LLM训练数据中所有的书,也不能像LLM一样迅速生成文本。当我们将人类的能力归于LLM时,我们陷入了一种类人偏见,将它们的能力比作我们的能力。但我们是否因未能认知LLM一贯展示的能力,而展示了一种人类中心主义的偏见?让我们来回顾一下迄今为止的成绩单:

  • 确实,LLM没有记忆——虽然我们可以通过让它总结过去的对话并将该信息包含在提示中来模拟记忆。
  • LLM没有内在目标——但它们可以被提示生成听起来像是有目标的文本。
  • LLM不能在物理世界中行动——尽管有人可能会创建一个提示来展示这一点。

尽管它们表现出惊人的能力,但它们仍然缺乏我21个月大的女儿所具有的一些基本能力。通过正确的提示和工具,我们可以模仿其中一些能力。在生成响应这些提示的连贯文本时,LLM一致地展示了一种明显的理解我们所要的能力。但LLM到底在多大程度上真正“理解”呢?

不完整句子的假设注意力图:“Using context to predict what’s most likely to come [MASK]”。来源:作者制作的图像

我在谈论一种非常特殊类型的LLM:基于变压器的自回归大型语言模型。我不会详细介绍变压器的具体工作原理,因为已经有许多详细的文章以不同的复杂度解释了变压器。相反,让我们关注LLM的核心功能:它们是统计模型,预测在给定一些上下文的情况下,某个标记在文本片段中出现的可能性。

现在假设我创建了一个复杂的天气模型*,地球大气中的区域成为“标记”。每个标记都有湿度、温度和气压等属性。我用这个模型在时间步(time-steps)上预测这些属性。如果时间步变短,区域变小,模型就越来越接近实际世界的状态。这个模型试图捕捉到给定之前天气条件下,我们接下来看到的天气的可能性。它可能非常准确地预测,例如在空气温暖、潮湿和低压的地区随着时间的推移出现气旋的概率。但这并不是地球天气的物理模拟,就像LLM不是大脑活动的模拟一样。

如果LLM是文本的统计模型,那它到底在建模什么?我想象的天气预测模型试图捕捉大气条件产生天气的统计数据。但生成文本的统计过程是什么?生成文本的过程是人类大脑,而人类需要对世界的一些理解来生成文本。如果一个模型可以有效地预测人类可能写的文本,那么这种预测是否可能伴随着“理解”?

LLM是如何训练的

LLM通过优化一个目标来减少遇到特定标记时的意外性。如果模型在训练数据中遇到一个标记并给它分配了低概率,模型的权重会调整以赋予它更高的概率。

将其与我女儿学习使用语言的方式进行比较。当她想要某样东西时,她会用语言表达她的愿望。首先,她在某种程度上理解她想要什么。然后,她必须理解使用哪些词语才能得到她想要的东西。最近,她想让我给她的果汁瓶加满果汁,但不想让我拿走它或离开她去拿更多的果汁。虽然她的愿望是矛盾的,有点不合理,但她有几个目标:(1)更多的果汁,(2)让果汁瓶靠近她,(3)爸爸也靠近她。而且让我告诉你,她非常有效地表达了这一点。她的语言学习直接与她如何使用这些词语来获得她想要的东西的理解密切相关(即使她想要的东西是不合理的)。

如果一个LLM表现出理解,那将是其世界统计模型中的一个突现属性。论文“Climbing Towards NLU”(Bender & Koller,2020)认为,真正的自然语言理解(NLU)需要在真实世界中的基础。Bender & Koller认为,完全基于文本数据统计模式训练的LLM缺乏实现实际理解的真实世界上下文或交互。这意味着,与我的女儿不同,LLM 不能 理解某些事情,因为它的沟通并不是基于真实世界的。

维基百科页面理解将其描述为一种使用概念来模拟对象、情况或信息的认知过程。它意味着足以支持智能行为的能力和倾向。路德维希·维特根斯坦建议,理解是依赖上下文的,并通过智能行为而不是仅仅拥有知识来展示。这让人联想到Bender & Koller提出的基础要求。

一方面,理解需要一个准确的世界模型。另一方面,人们认为需要使用这个模型来在世界中采取行动才能真正理解。我认为我们只是将一个人的行为作为衡量其潜在世界模型的代理。如果我们可以直接测量世界模型,我们就不需要看到理解的表现。

理解的局限性

哲学家约翰·塞尔的“中文房间”实验挑战了我们对理解的概念(Searle,1980)。想象一个房间,里面充满了如何回应用中文写下的内容的详细说明。写有中文的纸条从门底下滑进来,房间里的人可以查找符号并按照指定的配方写回复。房间里的人不懂中文,但可以与外面的人进行一次令人信服的对话。显然,建造这个房间的人“理解”中文,但外面的人并不是在与那个人交谈;他们在与 房间 交谈。房间懂中文吗?

这与LLM的工作方式有很强的相似性,并挑战了我们对理解的哲学感知。这很有挑战性,因为我们直觉上反对认为一个房间能够理解一些东西。这到底意味着什么?如果理解是发生在信息处理系统层面的突现现象,那么为什么我们不能说房间能够理解事情?问题的一部分在于,对于我们来说,理解伴随着理解的主观意识体验。但很容易看到,这种体验可能是具有欺骗性的。

理解不需要是二元的

你知道7+7=14,但你理解它吗?如果我问你一些深究的问题,你可能会意识到你并没有真正理解这个方程在所有情况下的含义。例如,7+7=14是关于宇宙的一个明确事实吗?不一定。7个苹果加7个梨意味着你有7个苹果和7个梨。也许在某些情况下,你会算出14块水果,但是否总是可以组合两组不同的物品?或者考虑一下,晚上7点加7小时是凌晨2点(即7+7=2 mod 12)。你能给我一个强大定义,解释7+7=14在什么时候成立及其原因吗?大多数人可能不能立即做到这一点,但我们会觉得大多数人理解7+7=14。问题并不总是是否理解某些事情,而是理解到什么程度。

如果我们接受维特根斯坦的要求,即通过行为表现出理解,那么会有一个简单的测试:如果我告诉你在晚上7点后7小时到达,你是否知道在凌晨2点到达?我会认为这是 某种 理解的证据,但不一定是你理解的深度。

衡量动物的理解

衡量‘理解’并不是简单的。在心理学中,心理测量是衡量人类理解的主要方法。它不容易应用于非人类动物,是研究的一个领域,称为生物符号学。

通过各种解决问题的任务来衡量动物的理解。例如,灵长类动物、海豚和鸟类(主要是鸦科)展示了解决问题的技巧和复杂的工具使用,表明它们对环境有一定的理解(Emery & Clayton,2004)。理解不仅仅是人类的专属,我们也可以衡量非人类的理解水平。

亚历山德拉·霍洛维茨撰写的《狗的世界:狗如何看、闻和知道的》一书对我们如何理解我们最亲近的动物伙伴——驯养犬的思维和体验进行了精彩的探索。她描述了两个实验,研究模仿行为和人类婴儿与狗的理解。

(1)如果婴儿看到有人用头翻开电灯开关,他们可能会模仿这种行为。如果那个人手里拿着东西,婴儿会理解他们没有用手的原因。当婴儿模仿这种行为时,他们会用手。(2)相反,狗更喜欢用鼻子按下按钮而不是用爪子。如果一只狗看到另一只狗用爪子按下按钮以获得奖励,那么它们会模仿这种行为。但如果狗看到另一只狗不能用鼻子,因为它嘴里叼着一个大物体,那么它会理解按钮需要按下,但使用爪子是可选的。

来源:图像由作者使用Ideogram生成

构建一个实验以确定狗的理解需要对狗及其行为的理解。我们是否对LLM具有同样程度的理解来进行类似的实验?

GPT-3时代

对LLM能力的综合调查(Chang & Bergen,2023)提供了来自广泛文章的优秀总结——但所涵盖的最先进模型仅为GPT-3。他们将理解分为两个主要类别:句法和语义。他们在调查中强调,即使在句法理解的背景下,LLM也有局限性。例如:

语言模型中的主谓一致性能也取决于所涉及的具体名词和动词(Yu等,2020;Chaves & Richter,2021)。蒙面和自回归模型对动词的一致性预测准确度提高了40%以上(Newman等,2021),且对不常见动词的一致性准确度总体较差(Wei等,2021)。对于不常见动词,蒙面语言模型偏向于预训练期间看到的更常见的动词形式(例如,单数与复数)(Wei等,2021)。在虚构(语法正确但语义无意义)句子中的不常见动词的错误率超过30%(Wei等,2021),如果主语和动词之间有干扰词,错误率进一步恶化,例如示例4(Lasri,Lenci,和Poibeau,2022a)。

LLM的局限性不仅限于句法问题(在这方面,它们可以说是最强的),还包括语义问题。例如,他们指出有研究显示否定句(“请产生一个可能错误的答案”)会使LLM表现降低50%。

Chang & Bergen描述了LLM在推理能力上的许多其他局限性,包括:

  • 在推理情境时的“脆弱”反应,因为反应对措辞高度敏感
  • 在类比变得更抽象时挣扎
  • 缺乏对人们视角和心理状态的敏感度
  • 缺乏常识
  • 倾向于重复记忆的文本而不是推理

评估LLM理解的一般方法似乎是以不同方式提出问题并找到模型的失效模式。然后这些失效模式表明没有真正的“理解”发生,而只是模式匹配。

ChatGPT时代

自GPT-3以来,很多事情发生了变化——尤其是更大型的模型旨在进行指令跟随和对话。2024年的LLM表现如何?一个重大变化是评估LLM的基准的激增。2024年3月的一项调查(Chang等,2024)涵盖了新近模型在广泛基准上的表现。他们得出结论,LLM具有很强的能力,包括理解和推理,但他们仍然识别出局限性。这些局限性意味着LLM在抽象推理能力上有限,并且在复杂情境中容易混淆或出错。多模态大型语言模型(MLLMs)也出现了,至少可以统一对文本和图像的理解。2024年1月的一项调查(Wang等)涵盖了广泛的多模态基准,显示即使是最强大的模型表现平平。

拟人化与人类中心主义

拟人化是人类倾向于认为某些行为与人类相似的事物具有类似人类的属性。作为一名狗主人,我知道我已经屈服于这种偏见,认为我的狗对自己所做的事情“感到内疚”,因为“他的脸上有内疚的表情”。LLM通过以一种令人毛骨悚然的方式进行交流,时常引发我们对拟人化的倾向。

相反的偏见是人类中心主义:我们认为非人类无法拥有我们所拥有的能力。论文“人类中心主义偏见与人工认知的可能性”(Millière & Rathkopf)的一项关键论点是,我们使用了有缺陷的测试来检测人工系统的能力。他们描述了两种类型的人类中心主义偏见:

1. 类型-I人类中心论认为,假设LLM在某个任务上的表现失败总是表明系统缺乏某项能力。这种假设是有缺陷的,因为它忽略了辅助因素可能导致表现失败的可能性。

2. 类型-II人类中心论是指即使LLM表现与人类一样好或更好,对于解决问题的人类策略与LLM策略之间的任何本质区别都是其解决方案不具有普遍性的证据。简而言之,这种假设说:所有认知类型都是人类的认知类型。换句话说,如果LLM通过与人类不同的计算过程解决问题,类型-II人类中心论会导致我们认为LLM的方法不是真正有能力的,尽管它的表现很好。

考虑论文“与大型语言模型角色扮演”(Shanahan,McDonell,& Reynolds)和“20个问题游戏”:

在这个熟悉的游戏中,一个玩家想一个物体,另一个玩家通过问问题来猜这个物体是什么。如果他们在20个问题以内猜对了,他们就赢了。否则,他们就输了。假设一个人类与一个基础的LLM对话代理(未针对猜谜游戏进行微调)

本文探讨了大型语言模型(LLMs)如ChatGPT的“理解”能力及其局限性。作者指出,尽管LLM能够生成连贯的文本,但它们并不具备真实的记忆或目标,也无法在现实世界中行动。这类模型基于统计方法预测文本片段中的标记出现概率,其表现形式与人类理解有显著区别。文章深入讨论了LLM训练方式及其在语法和语义上的局限。文末强调,尽管LLM表现出某些“理解”现象,但深层次的理解仍需依赖真实世界的互动和背景。

光年AI是一家专业从事大模型开发的公司,已经帮助100多家企业实现数字化营销。借助光年AI,实现更智能的商业未来。