iPhone可跑2B小钢炮!谷歌Gemma 2来袭,最强显微镜剖解LLM大脑

谷歌DeepMind的小模型核弹来了,Gemma 2 2B直接击败了参数大几个数量级的GPT-3.5和Mixtral 8x7B!而同时发布的Gemma Scope,如显微镜一般打破LLM黑箱,让我们看清Gemma 2是如何决策的。 谷歌DeepMind的小模型,又上新了! 就在刚刚,谷歌DeepMind发布Gemma 2 2B。 它是从Gemma 2 27B中蒸馏而来。 虽然它的参数只有2.6B,但在LMSYS竞技场上的得分,已经超越了GPT-3.5和Mixtral 8x7B! 在MMLU和MBPP基准测试中,它分别取得了56.1和36.6的优异成绩;比起前代模型Gemma 1 2B,它的性能超过了10%。 小模型击败了大几个数量级的大模型,再一次印证了最近业界非常看好的小模型方向。 谷歌在今天,一共公布了Gemma 2家族的三个新成员: Gemma 2 2B: 轻量级2B模型,在性能和效率之间实现了最大的平衡 ShieldGemma: 基于Gemma 2构建的安全内容分类器模型,用于过滤AI模型的输入和输出,确保用户安全 Gemma Scope: 一种可解释性工具,提供对模型内部运行机制的无与伦比的洞察 6月,27B和9B Gemma 2模型诞生。 自发布以来,27B模型迅速成为大模型排行榜上,排名前列的开源模型之一,甚至在实际对话中表现超过了参数数量大两倍的流行模型。 Gemma 2 2B:即刻在设备上使用 轻量级小模型Gemma 2 2B,是从大模型中蒸馏而来,性能毫不逊色。 在大模型竞技场LMSYS上,新模型取得令人印象深刻的1130分,与10倍参数的模型不相上下。 GPT-3.5-Turbo-0613得分为1117,Mixtral-8x7b得分为1114。 足见,Gemma 2 2B是最好的端侧模型。 有网友在iPhone 15 Pro上,让量化后的Gemma 2 2B在MLX Swift上运行,速度快到惊人。 具体来说,它能够在各种终端设备,包括手机、笔记本,甚至是使用Vertex AI和Google Kubernetes Engine(GKE)强大的云,皆能完成部署。 为了让模型加速,它通过NVIDIA TensorRT-LLM完成了优化,在NVIDIA NIM平台也可使用。 优化后的模型适用于各种平台部署,包括数据中心、云、本地工作站、PC 和边缘设备。 它还可以支持RTX、RTX GPU、Jetson模块,完成边缘化AI部署。 此外,Gemma 2 2B无缝集成了Keras、JAX、Hugging Face、NVIDIA NeMo、Ollama、Gemma.cpp等,并很快将与MediaPipe集成,实现简化开发。 当然,与Gemma 2一样,2B模型也同样可以用来研究和商用。 甚至,由于其参数量足够下,它可以在Google Colab的免费T4 GPU层上运行,降低了开发门槛。 目前,每位开发者都可以从Kaggle、Hugging Face、Vertex AI Model Garden下载Gemma 2的模型权重,也可在Google AI Studio中试用其功能。 仓库地址:https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f ShieldGemma:最先进的安全分类器 正如其名,ShieldGemma是最先进的安全分类器,确保AI输出内容具有吸引力、安全、包容,检测和减少有害内容输出。 ShieldGemma的设计专门针对四个关键的有害领域: – 仇恨言论 – 骚扰内容 – 露骨内容 – 危险内容 这些开源分类器,是对谷歌现有的负责任AI工具包中安全分类器套件补充。 该工具包包括一种,基于有限数据点构建针对特定策略分类器的方法,以及通过API提供的现成Google Cloud分类器。 ShieldGemma基于Gemma 2构建,是行业领先的安全分类器。 它提供了各种模型参数规模,包括2B、9B、27B,都经过英伟达速度优化,在各种硬件中可以高效运行。 其中,2B非常适合在线分类任务,而9B和27B版本则为对延迟要求较低的离线应用提供更高性能。 Gemma Scope:通过开源稀疏自编码器揭示AI决策过程 此次同时发布的另一大亮点,就是开源稀疏自编码器——Gemma Scope了。 语言模型的内部,究竟发生了什么?长久以来,这个问题一直困扰着研究人员和开发者。 语言模型的内部运作方式往往是一个谜,即使对于训练它们的研究人员,也是如此。 而Gemma Scope就仿佛一个强大的显微镜,通过稀疏自编码器 (SAEs) 放大模型中的特定点,从而使模型的内部工作更易于解释。 有了Gemma Scope以后,研究人员和开发者就获得了前所未有的透明度,能够深入了解Gemma 2模型的决策过程。 Gemma Scope是数百个适用于Gemma 2 9B和Gemma 2 2B的免费开放稀疏自动编码器 (SAE) 的集合。 这些SAEs是专门设计的神经网络,可以帮助我们解读由Gemma 2处理的密集、复杂信息,将其扩展成更易于分析和理解的形式。 通过研究这些扩展视图,研究人员就可以获得宝贵的信息,了解Gemma 2如何识别模式、处理信息、做出预测。 有了Gemma Scope,AI社区就可以更容易地构建更易理解、负责任和可靠的AI系统了。 同时,谷歌DeepMind还放出了一份20页的技术报告。 技术报告:https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf 总结来说, Gemma Scope有以下3个创新点—— 开源SAEs:超过400个免费提供的SAEs,覆盖Gemma 2 2B和9B的所有层 互动演示:在Neuronpedia上无需编写代码,即可探索SAE功能,并分析模型行为 易于使用的资源库:提供与SAEs和Gemma 2交互的代码和示例 解读语言模型内部的运作机制 语言模型的可解释性问题,为什么这么难? 这要从LLM的运行原理说起。 当你向LLM提出问题时,它会将你的文本输入转换为一系列「激活」。这些激活映射了你输入的词语之间的关系,帮助模型在不同词语之间建立联系,据此生成答案。 在模型处理文本输入的过程中,模型神经网络中不同层的激活代表了多个逐步高级的概念,这些概念被称为「特征」。 例如,模型的早期层可能会学习到像乔丹打篮球这样的事实,而后期层可能会识别出更复杂的概念,例如文本的真实性。 用稀疏自编码器解读模型激活的示例——模型是如何回忆「光之城是巴黎」这一事实的。可以看到与法语相关的概念存在,而无关的概念则不存在 然而,可解释性研究人员却一直面临着一个关键问题:模型的激活,是许多不同特征的混合物。 在研究的早期,研究人员希望神经网络激活中的特征能与单个神经元(即信息节点)对齐。 但不幸的是,在实践中,神经元对许多无关特征都很活跃。 这也就意味着,没有什么明显的方法,能判断出哪些特征是激活的一部分。 而这,恰恰就是稀疏自编码器的用武之地。 要知道,一个特定的激活只会是少数特征的混合,尽管语言模型可能能够检测到数百万甚至数十亿个特征(也就是说,模型是稀疏地使用特征)。 例如,语言模型在回答关于爱因斯坦的问题时会想到相对论,而在写关于煎蛋卷时会想到鸡蛋,但在写煎蛋卷时,可能就不会想到相对论了。 稀疏自编码器就是利用了这一事实,来发现一组潜在的特征,并将每个激活分解为少数几个特征。 研究人员希望,稀疏自编码器完成这项任务的最佳方式,就是找到语言模型实际使用的基本特征。 重要的是,在这个过程中,研究人员并不会告诉稀疏自编码器要寻找哪些特征。 因此,他们就能发现此前未曾预料过的丰富结构。 然而,因为他们无法立即知道这些被发现特征的确切含义,他们就会在稀疏自编码器认为特征「触发」的文本示例中,寻找有意义的模式。 以下是一个示例,其中根据特征触发的强度,用蓝色渐变高亮显示了特征触发的 Token: 用稀疏自编码器发现特征激活的示例。每个气泡代表一个 Token(单词或词片段),可变的蓝色说明了这个特征的存在强度。在这个例子中,该特征显然与成语有关 Gemma Scope有何独特之处? 比起此前的稀疏自编码器,Gemma Scope有许多独特之处。 前者主要集中在研究小型模型的内部工作原理或大型模型的单层。 但如果要把可解释性研究做得更深,就涉及到了解码大型模型中的分层复杂算法。 这一次,谷歌DeepMind的研究者在Gemma 2 2B和9B的每一层和子层的输出上,都训练了稀疏自编码器。 这样构建出来的Gemma Scope,总共生成了超过400个稀疏自编码器,获得了超过 3000万个特征(尽管许多特征可能重叠)。 这样,研究人员就能够研究特征在整个模型中的演变方式,以及它们如何相互作用,如何组合形成更复杂的特征。 此外,Gemma Scope使用了最新的、最先进的JumpReLU SAE架构进行了训练。 原始的稀疏自编码器架构,在检测特征存在与估计强度这两个目标之间,往往难以平衡。而JumpReLU架构,就能更容易地实现二者的平衡,并且显著减少误差。 当然,训练如此多的稀疏自编码器,也是一项重大的工程挑战,需要大量的计算资源。 在这个过程中,研究者使用了Gemma 2 9B训练计算量的约15%(不包括生成蒸馏标签所需的计算),将约20 PiB的激活保存到了磁盘(大约相当于一百万份英文维基百科的内容),总共生成了数千亿个稀疏自编码器参数。 参考资料: https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/

DeepMind研究成本大起底,一篇ICML论文烧掉1290万美元

DeepMind最近被ICML 2024接收的一篇论文,完完全全暴露了他们背靠谷歌的「豪横」。一篇文章预估了这项研究所需的算力和成本,大概是Llama 3预训练的15%,耗费资金可达12.9M美元。 发一篇顶会论文,需要多少实验预算?最近,DeepMind发表了一项研究,对LLM扩大规模时各种算法和架构细节,比如参数和优化器的选择,进行了广泛的实证调查。这篇论文已被ICML 2024接收。 论文地址:https://arxiv.org/abs/2407.05872 63页的论文涵盖了数以万计的模型,备选方案包括3种优化器、4种参数化方案、几种对齐假设、十多个学习率,以及最高达26.8B的14种参数规模。 需要进行实验的4种参数化方案仅仅听到这些数字,就不难知道,这项研究必定涉及海量的模型运行实验。而有一位忠实读者,为了测试自己对论文内容的理解,统计了其中进行的所有实验,并估算出了复现论文的成本。将所需算力全部加在一起,林林总总,居然达到了惊人的1290万美元。考验基本功的时刻到了,假如你是研究团队的leader,根据实验计划对所需算力和成本进行预估是一项必不可少的技能。那就让我们跟着这篇博客文章盘一遍,这一千多万美元,究竟烧在哪里。 Transformer架构信息 论文附录C提供了关于模型算法和架构的各种细节设置,比如使用decoder-only架构、层归一化、GeLU激活函数、无dropout、T5分词器、批大小为256、用FSDP并行等等。 实验模型的参数规模统计通过架构方面的信息,我们可以大致估算出训练中每个token所需的FLOPS,记为M。由于论文没有描述到任何GQA/MQA机制,所以就假设Rkv=1,此外还有lseq=512,Dhead=128,L=8(深度),V=32101(分词器词汇量)。模型总参数量可以表示为:因此,就可以得到M的计算公式:默认情况下,每次实验处理的token数(tokens per experiment, TPE)为5k(训练步数)×256(批大小)×512(lseq),约为6.5536e9。 def M(d: int, L=8, l_seq=512, V=32101) -> int:     return 6*d * (L*(12*d + l_seq) + V) TPE = 50000 * 256 * 512 对齐实验 假设对齐实验中,直接使用了后面的学习率扫描得出的最优结果,并没有单独进行学习率扫描,因此这一步的成本计算比较简单: def alignment() -> int:     return 4 * TPE * sum(M(d) for d in [1024,2048,4096]) # >>> f'{alignment():.3E}' # '3.733E+20' # >>> cost_of_run(alignment())[0] # 888.81395400704 如果H100每运行1小时的花费以3美元计算,对齐实验的成本大致为888美元。 学习率 子问题:最佳评估损失(eval loss)实验 论文的表E1记录了6种模型规模下,所有可能的优化器×参数化方案×模型大小×实验设置的组合,分别进行基础学习率扫描,以获得最佳评估损失。总共包括如下几个实验变量:- 模型维度D∈3072,4096,6144,8192,12288,16384- 4种参数化方案- 3种优化器,其中SGD仅有5个实验设置,Adam和Adam+Param Scaling有7个实验设置假设这里的实验都是单独进行,没有从其他地方复制结果,因此如果全部运行一遍,有成本上限预估: H = [1,2,4,6,8,12,16,20,24,32,48,64,96,128] D = [h * 128 for h in H] def table_e1() -> int:   sets_x_optims = 5 + 7 + 7   return 4 * sets_x_optims * TPE * sum(M(d) for d in D[-6:]) # >>> f'{table_e1():.3E}';cost_of_run(table_e1()) # '1.634E+23' # (388955.9991064986, 16206.499962770775) 这部分的成本就接近40万美元,虽然仍属于可接受范围内,但对于大多数学术预算来说,已经算是非常昂贵了。表E1给出了最佳评估损失,但没有描述LR的扫描策略,每张图上的点数也不尽相同。由于没有得到论文作者的答复,我们也无法确定具体机制,因此假设每个最佳评估损失都经过了15次实验(目测发现,每条线的点数约为10~15)。 β参数 根据论文4.2节内容,学习率还涉及到两个超参数的选择:β和γ。如果仅有β参数,则被称为「LR+default」设置:这部分包括3×优化器,4×参数化,加上全局和单层(GlobalLR、Perlayer-fullalign)分别进行实验,以及未知的LR扫描数量: def beta_only() -> int:   return 3*4*2*PpL * TPE * sum(M(d) for d in D) # 7.988E+23 (1902022.3291813303, 79250.93038255542) 从公式就可以看出,成本和下文的epsilon实验类似,都是200万美元。 γ参数 相比β参数的实验,这部分有两个细节差异。首先,除了GlobalLR、Perlayer-fullalign两种设置外,还需要加上Perlayer-noalign设置。其次,仅针对d=1024=b,进行3D超参数搜索(γ_1,γ_h,γ_L+1),因此有额外的800次运行。两者结合后的计算公式为:这部分的预估成本与Adam的epsilon热力图实验接近,约为320万美元。 def gamma_expts() -> int:   return 36*TPE * (800*M(1024) + PpL*sum(M(d) for d in D)) # gamma_expts 1.354E+24 (3224397.534237257, 134349.8972598857) Adam优化器的Epsilon参数 论文4.3节所述的Epsilon参数实验是计算量的大头。根据上面的推断,每次找到最佳评估损失时都尝试过15个不同的学习率(points per line),那么图6所示的epsilon参数变化图耗费的计算量为:计算结果透露出一种简洁的昂贵,也就是200万美元的账单而已。 PpL = 15 # unprincipled estimate def eps_variants() -> int:   return 4 * 6 * PpL * TPE * sum(M(d) for d in D) ''' >>> f'{eps_variants():.3E}';cost_of_run(eps_variants()) '7.988E+23' (1902022.3291813303, 79250.93038255542) ''' 除了图6左侧的折线图,还有附录F热力图的结果。假设每个方块值都是经过13次学习率扫描后得到的结果,这部分计算量则为:结果发现,仅仅要得到这8张热力图,成本就是320万美元。而且,由于我们将LR扫描数量建模为常数13,这个数字可能低于实际成本。 def eps_heatmaps() -> int:   # eps-type * eps-val * parameterizations * LR range * ...   return 2 * 6 * 4 * 13 * TPE * sum(M(d) for d in D[-6:]) ''' >>> f'{eps_heatmaps():.3E}';cost_of_run(eps_heatmaps()) '1.341E+24' (3193533.466348094, 133063.89443117057) ''' 权重衰减 权重衰减实验(附录G)比较好理解,对4×参数化方案以及所有参数进行一次基本的LR扫描:比epsilon实验便宜不少,也就是湾区工程师一年的工资——31.7万美元。 def weight_decay() -> int:   return 4 * PpL * TPE * sum(M(d) for d in D) ''' >>> f'{weight_decay():.3E}'; cost_of_run(weight_decay()) '1.331E+23' (317003.7215302217, 13208.488397092571) ''' Adafactor优化器 这部分实验在附录C3中有详细描述,是为了检验Adafactor和Adam+parameter scaling是否有相似的宽度缩放机制。共有2×4张图,其中每个优化器收集11个数据点,因此计算公式为:账单上再加18.8万美元。 def adafactor() -> int:   return 2*2*4*PpL*TPE*sum(M(d) for d in D[:11]) ''' >>> f'{adafactor():.3E}'; cost_of_run(adafactor()) '7.918E+22' (188532.80765144504, 7855.533652143543) ''' 计算最优化 论文尝试改变注意力头H的数量,希望找到计算最优化的设置,但其中涉及步长和数据集的改变,因此这部分不使用公式描述,计算代码如下: def P(d: int, L=8, V=32101) -> int:     return 2 * d * (6*L*d + V) def compute_optimal():   indices_50k = (14, 14, 12)   return 4*PpL*sum([     TPE * sum(sum( M(d) for d in D[:i] ) for i in indices_50k),         20  * sum(P(d)*M(d) for d in D[:11]) *3,   ]) # compute_optim 7.518E+23 (1790104.1799513847, 74587.67416464102) 总结 将以上各部分实验的算力和成本汇总在一起: alignment       3.733E+20 (888.81395400704, 37.033914750293334) table_e1        1.634E+23 (388955.9991064986, 16206.499962770775) eps_variants    7.988E+23 (1902022.3291813303, 79250.93038255542) eps_heatmaps    1.341E+24 (3193533.466348094, 133063.89443117057) beta_only       7.988E+23 (1902022.3291813303, 79250.93038255542) gamma_expts     1.354E+24 (3224397.534237257, 134349.8972598857) weight_decay    1.331E+23 (317003.7215302217, 13208.488397092571) adafactor       7.918E+22 (188532.80765144504, 7855.533652143543) compute_optim   7.518E+23 (1790104.1799513847, 74587.67416464102) 结果发现,整篇论文的运算量为5.42e24 FLOPS。这个数字仅仅是Llama 3训练计算量的15%,如果在10万卡H100集群上运行,只需要2天时间即可完成所有实验。 total_flops=5.421E+24 rental price: US$12.9M h100 node months required: 746.9595590938408 (sanity check) D=[128, 256, 512, 768, 1024, 1536, 2048, 2560, 3072, 4096, 6144, 8192, 12288, 16384] (sanity check) model sizes: ['0.00979B', '0.0227B', '0.058B', '0.106B', '0.166B', '0.325B', '0.534B', '0.794B', '1.1B', '1.87B', '4.02B', '6.97B', '15.3B', '26.8B'] (sanity check) M/6P: ['63.4%', '68.5%', '75.3%', '79.7%', '82.8%', '86.8%', '89.3%', '91.0%', '92.2%', '93.9%', '95.7%', '96.7%', '97.7%', '98.3%'] 然而,如果不从LLM预训练的标准来衡量,仅把DeepMind的这篇论文看做一篇学术研究,这个计算量就显得相当奢侈了。如果实验室仅有10张H100,就根本不可能进行这个量级的研究。有100张H100的大型实验室,或许能用几年时间跑完以上所有实验。 参考资料: https://152334h.github.io/blog/scaling-exponents/ https://news.ycombinator.com/item?id=41107721https://arxiv.org/abs/2407.05872

三「模」联盟,谷歌DeepMind缔造终身学习智能体!

打造终身学习智能体,是研究界以来一直追求的目标。最近,帝国理工联手谷歌DeepMind打造了创新联合框架扩散增强智能体(DAAG),利用LLM+VLM+DM三大模型,让AI完成迁移学习、高效探索。 为了让AI实现终身学习,帝国理工、谷歌DeepMind竟动用了三大基础模型! 「大模型+视觉语言模型+扩散模型」三模并用,构建了全新框架——扩散增强智能体(DAAG)。DAAG的诞生,就是让具身智能体进行迁移学习、高效探索。最新框架利用了「后见之明经验增强」(Hindsight Experience Augmentation)技术,让扩散模型以时间和几何一致的方式转换视频。让其与目标指令对齐,从而对智能体过去经验进行重新标记。 论文地址:https://arxiv.org/pdf/2407.20798大模型在无需人类监督情况下,自主协调这一过程,使其非常适合终身学习场景。经过一系列实验,结果表明,DAAG改进了奖励检测器的学习、过去经验的迁移以及新任务的获取。这些都是开发高效终身学习智能体的关键能力。 ‍ 无需人类监督,AI终身强化学习 一直以来,具身AI的训练数据极其稀缺,特别是在强化学习场景中尤为突出。因为这类智能体需要与物体环境进行互动,而传感器和执行器成为了主要瓶颈。然而,克服这一挑战需要开发出,能够从有限经验中高效学习、适应的智能体。对此,研究人员假设,具身智能体可以通过利用过去经验,有效探索,并在任务之间转移知识,实现更高数据搬运效率。即便在没有外部奖励的情况下,他们希望让智能体可以自主设置、评分子目标,并能重新利用之前任务经验,加速新任务学习。因此,最新研究中,团队成员使用预训练的基础模型Gemini 1.0 Pro来解决这些问题。通过视觉、语言和扩散模型的相互作用,让智能体更有效推理任务,解释环境和过去经验,并操纵自身收集的数据,以重新用于新任务和目标。更重要的是,DAAGG可以自主运行,无需人类监督,凸显其特别适合终身强化学习的场景。如下图1,是扩散增强智能体完整框架。其中,LLM充当主要控制器/大脑,查询和指导VLM和DM,以及智能体的高级行为。通过一系列在不同环境中的实验,研究人员证明了DAAGG在改进智能体在关键能力上的表现:1)用扩散模型生成合成样本增强的数据,微调视觉语言模型,自主计算已见和未见任务的奖励;2)为给定任务设计和识别有用的子目标,通过扩散模型修改记录的观察,重新利用原失败的轨迹,从而更有效地探索和学习新任务;3)提取相关数据,使用扩散模型重新利用其他轨迹,有效地将先前收集的数据转移到新任务中。图2所示,DAAGG方法如何通过扩散增强,重新利用智能体的经验。研究人员提出了一个扩散管道,提高了几何和时间一致性,并修改了智能体收集的部分视频。 方法 DAAGG具体设计方法如下。研究人员将环境形式化为「马尔可夫决策过程」(MDP):在每个时间步t,环境和智能体处于状态s ∈ S。从该状态,智能体接收视觉观察o ∈ O,并可以执行动作a ∈ A。在每个回合中,智能体接收一个指令,这是用自然语言T描述的要执行的任务。如果任务成功执行,智能体可以在回合结束时,获得奖励r = +1。这项论文中,除了独立学习新任务外,作者还研究了DAAGG框架以终身方式连续学习任务的能力。因此,智能体将交互经验存储在两个缓冲区中:当前任务缓冲区,称之为新缓冲区:这个缓冲区在每个新任务开始时初始化。然后是离线终身缓冲区:智能体将所有任务的所有回合存储在这个缓冲区中,无论它们是否成功。因此,后者是一个不断增长的经验缓冲区,智能体随后可以用它来引导新任务的学习。以下是,作者选用的三种模型目的:- 大模型LLM:编排智能体的行为,以及指导VLM和DM。LLM接受文本指令和数据,并输出文本响应。而且,利用LLM将任务分解为子目标,比较不同任务/指令的相似性,并查询VLM和DM。- 视觉语言模型VLM:使用的是对比模型CLIP。CLIP由两个分支组成:图像分支和文本分支,它们分别以视觉观察和文本描述作为输入,最终输出相同大小的嵌入向量。- 扩散Pipeline:研究的核心是通过语言指导的扩散模型,修改视觉观察。扩散Pipeline是为了提取智能体记录的观察或一系列时间观察,并保持几何和时间一致性的同时,修改观察中的一个或多个对象。如下是,扩散Pipeline的示意图。在图5中,作者比较了ROISE和自己提出的Pipeline输出。前者不能保持对象姿势和外观,在帧之间的一致性。 扩散增强智能体框架 在扩散增强数据上,微调VLM作为奖励检测器VLM可以有效地用作奖励检测器,条件是基于语言定义的目标和视觉观察。最近的研究显示,为了提升准确性,VLM通常需要在目标环境中收集的token数据上进行微调,适应所需的任务。这是一个耗时的任务,而且每个新任务需要人类手动完成,严重阻碍了智能体以终身方式自主连续学习的多任务能力。通过DAAGG框架,作者在先前收集的观察上微调VLM来解决这一挑战。这个过程如上图2所示,通过这个过程,微调VLM作为LLM分解当前任务的所有子目标的成功检测器。通过后见之明经验增强,实现高效学习和迁移在任何任务中收集的每个回合后,智能体收集一系列观察和动作。在DAAGG中,研究人员旨在最大化智能体可以学习处理新任务的回合数量,即使它没有达到任何所需的子目标。最后,他们通过一个称为后见之明经验增强(HEA)的过程来实现这一点。 实验结果 DAAGG框架提出了LLM+VLM+DM之间的相互作用,以解决终身学习智能体面临的3个主要的挑战: 1)微调新的奖励/子目标检测模型,2)提取和转移过去经验用于新任务,3)高效探索新任务。DAAGG能否将VLM微调为新任务的奖励检测器?图7显示了,在数据集中没有示例的最左侧任务中,DAAGG如何通过综合其他任务中的示例实现大幅改进,同时在所见的任务中保持相同的性能。在RGB Stacking和Language Table环境中,物体姿势之间的精确几何关系非常重要,而DAAGG与基线的差异则更为显著,这说明需要进行扩散增强才能获得有效的奖励检测器。在「房间」环境中,CLIP接收到的观察结果虽然来自低保真模拟器和渲染器,但更接近它在网络规模数据集(水果和家具图片),上进行训练时接收到的观察结果分布。因此,CLIP「零样本」性能要强得多,而在其他任务中,CLIP零样本性能则接近于随机猜测,这表明有必要进行微调。DAAGG能否更高效地探索和学习新任务?下图8中,作者绘制了100个测试事件中,成功解决任务实例的数量与训练事件数量的函数关系图。在测试过程中,不执行任何探索策略或指导,而是让策略网络来引导智能体。可以看到,DAAGG的学习速度比基线更快,将某些不成功的事件作为学习信号的能力,有助于提高在所有测试环境中的学习效率。DAAGG能否更有效地连续学习任务,从过去的任务中转移经验?图9中,研究人员比较了每种方法在使用时,在任务上的性能,性能指标是成功率。可以看到,DAAGG超越了两个基准方法,主要归功于它能够从存储在中大部分经验中学习,通过修改和重新利用解决或其子目标之外的任务轨迹。通过场景视觉增强提高鲁棒性然后,研究人员使用pipeline对每个观察进行5次增强,查询LLM来提出增强的描述(比如,一个有红色地板和白色墙壁的房间)。作者将所有这些增强的观察添加到缓冲区,并在其上训练策略。在原始和增强数据集上,训练的策略都在5个视觉上修改的房间中进行测试,随机改变墙壁和地板的颜色以及干扰物体,在每个房间进行20次测试回合。图11展示了,视觉增强如何带来一个更加鲁棒的策略,能够在视觉上与单一训练Room中,与训练环境很不同的Room中也达到相同目标。总而言之,这项研究中,作者提出了扩散增强智能体(DAAGG)。这是一个结合了大型语言模型、视觉语言模型和扩散模型的框架,旨在解决具身AI智能体终身强化学习中的关键挑战。关键研究结果表明,DAAGG能够在新的、未见过的任务中准确检测奖励,而传统方法在这些任务上难以泛化。通过重用先前任务的经验,DAAGG能够逐步更高效地学习每个后续任务,得益于迁移学习而需要更少的回合。最后,通过将不成功的回合,扩散为相关子目标的成功轨迹,DAAGG显著提高了探索效率。参考资料:https://arxiv.org/pdf/2407.20798https://sites.google.com/view/diffusion-augmented-agents/