iPhone可跑2B小钢炮!谷歌Gemma 2来袭,最强显微镜剖解LLM大脑

谷歌DeepMind的小模型核弹来了,Gemma 2 2B直接击败了参数大几个数量级的GPT-3.5和Mixtral 8x7B!而同时发布的Gemma Scope,如显微镜一般打破LLM黑箱,让我们看清Gemma 2是如何决策的。 谷歌DeepMind的小模型,又上新了! 就在刚刚,谷歌DeepMind发布Gemma 2 2B。 它是从Gemma 2 27B中蒸馏而来。 虽然它的参数只有2.6B,但在LMSYS竞技场上的得分,已经超越了GPT-3.5和Mixtral 8x7B! 在MMLU和MBPP基准测试中,它分别取得了56.1和36.6的优异成绩;比起前代模型Gemma 1 2B,它的性能超过了10%。 小模型击败了大几个数量级的大模型,再一次印证了最近业界非常看好的小模型方向。 谷歌在今天,一共公布了Gemma 2家族的三个新成员: Gemma 2 2B: 轻量级2B模型,在性能和效率之间实现了最大的平衡 ShieldGemma: 基于Gemma 2构建的安全内容分类器模型,用于过滤AI模型的输入和输出,确保用户安全 Gemma Scope: 一种可解释性工具,提供对模型内部运行机制的无与伦比的洞察 6月,27B和9B Gemma 2模型诞生。 自发布以来,27B模型迅速成为大模型排行榜上,排名前列的开源模型之一,甚至在实际对话中表现超过了参数数量大两倍的流行模型。 Gemma 2 2B:即刻在设备上使用 轻量级小模型Gemma 2 2B,是从大模型中蒸馏而来,性能毫不逊色。 在大模型竞技场LMSYS上,新模型取得令人印象深刻的1130分,与10倍参数的模型不相上下。 GPT-3.5-Turbo-0613得分为1117,Mixtral-8x7b得分为1114。 足见,Gemma 2 2B是最好的端侧模型。 有网友在iPhone 15 Pro上,让量化后的Gemma 2 2B在MLX Swift上运行,速度快到惊人。 具体来说,它能够在各种终端设备,包括手机、笔记本,甚至是使用Vertex AI和Google Kubernetes Engine(GKE)强大的云,皆能完成部署。 为了让模型加速,它通过NVIDIA TensorRT-LLM完成了优化,在NVIDIA NIM平台也可使用。 优化后的模型适用于各种平台部署,包括数据中心、云、本地工作站、PC 和边缘设备。 它还可以支持RTX、RTX GPU、Jetson模块,完成边缘化AI部署。 此外,Gemma 2 2B无缝集成了Keras、JAX、Hugging Face、NVIDIA NeMo、Ollama、Gemma.cpp等,并很快将与MediaPipe集成,实现简化开发。 当然,与Gemma 2一样,2B模型也同样可以用来研究和商用。 甚至,由于其参数量足够下,它可以在Google Colab的免费T4 GPU层上运行,降低了开发门槛。 目前,每位开发者都可以从Kaggle、Hugging Face、Vertex AI Model Garden下载Gemma 2的模型权重,也可在Google AI Studio中试用其功能。 仓库地址:https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f ShieldGemma:最先进的安全分类器 正如其名,ShieldGemma是最先进的安全分类器,确保AI输出内容具有吸引力、安全、包容,检测和减少有害内容输出。 ShieldGemma的设计专门针对四个关键的有害领域: – 仇恨言论 – 骚扰内容 – 露骨内容 – 危险内容 这些开源分类器,是对谷歌现有的负责任AI工具包中安全分类器套件补充。 该工具包包括一种,基于有限数据点构建针对特定策略分类器的方法,以及通过API提供的现成Google Cloud分类器。 ShieldGemma基于Gemma 2构建,是行业领先的安全分类器。 它提供了各种模型参数规模,包括2B、9B、27B,都经过英伟达速度优化,在各种硬件中可以高效运行。 其中,2B非常适合在线分类任务,而9B和27B版本则为对延迟要求较低的离线应用提供更高性能。 Gemma Scope:通过开源稀疏自编码器揭示AI决策过程 此次同时发布的另一大亮点,就是开源稀疏自编码器——Gemma Scope了。 语言模型的内部,究竟发生了什么?长久以来,这个问题一直困扰着研究人员和开发者。 语言模型的内部运作方式往往是一个谜,即使对于训练它们的研究人员,也是如此。 而Gemma Scope就仿佛一个强大的显微镜,通过稀疏自编码器 (SAEs) 放大模型中的特定点,从而使模型的内部工作更易于解释。 有了Gemma Scope以后,研究人员和开发者就获得了前所未有的透明度,能够深入了解Gemma 2模型的决策过程。 Gemma Scope是数百个适用于Gemma 2 9B和Gemma 2 2B的免费开放稀疏自动编码器 (SAE) 的集合。 这些SAEs是专门设计的神经网络,可以帮助我们解读由Gemma 2处理的密集、复杂信息,将其扩展成更易于分析和理解的形式。 通过研究这些扩展视图,研究人员就可以获得宝贵的信息,了解Gemma 2如何识别模式、处理信息、做出预测。 有了Gemma Scope,AI社区就可以更容易地构建更易理解、负责任和可靠的AI系统了。 同时,谷歌DeepMind还放出了一份20页的技术报告。 技术报告:https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf 总结来说, Gemma Scope有以下3个创新点—— 开源SAEs:超过400个免费提供的SAEs,覆盖Gemma 2 2B和9B的所有层 互动演示:在Neuronpedia上无需编写代码,即可探索SAE功能,并分析模型行为 易于使用的资源库:提供与SAEs和Gemma 2交互的代码和示例 解读语言模型内部的运作机制 语言模型的可解释性问题,为什么这么难? 这要从LLM的运行原理说起。 当你向LLM提出问题时,它会将你的文本输入转换为一系列「激活」。这些激活映射了你输入的词语之间的关系,帮助模型在不同词语之间建立联系,据此生成答案。 在模型处理文本输入的过程中,模型神经网络中不同层的激活代表了多个逐步高级的概念,这些概念被称为「特征」。 例如,模型的早期层可能会学习到像乔丹打篮球这样的事实,而后期层可能会识别出更复杂的概念,例如文本的真实性。 用稀疏自编码器解读模型激活的示例——模型是如何回忆「光之城是巴黎」这一事实的。可以看到与法语相关的概念存在,而无关的概念则不存在 然而,可解释性研究人员却一直面临着一个关键问题:模型的激活,是许多不同特征的混合物。 在研究的早期,研究人员希望神经网络激活中的特征能与单个神经元(即信息节点)对齐。 但不幸的是,在实践中,神经元对许多无关特征都很活跃。 这也就意味着,没有什么明显的方法,能判断出哪些特征是激活的一部分。 而这,恰恰就是稀疏自编码器的用武之地。 要知道,一个特定的激活只会是少数特征的混合,尽管语言模型可能能够检测到数百万甚至数十亿个特征(也就是说,模型是稀疏地使用特征)。 例如,语言模型在回答关于爱因斯坦的问题时会想到相对论,而在写关于煎蛋卷时会想到鸡蛋,但在写煎蛋卷时,可能就不会想到相对论了。 稀疏自编码器就是利用了这一事实,来发现一组潜在的特征,并将每个激活分解为少数几个特征。 研究人员希望,稀疏自编码器完成这项任务的最佳方式,就是找到语言模型实际使用的基本特征。 重要的是,在这个过程中,研究人员并不会告诉稀疏自编码器要寻找哪些特征。 因此,他们就能发现此前未曾预料过的丰富结构。 然而,因为他们无法立即知道这些被发现特征的确切含义,他们就会在稀疏自编码器认为特征「触发」的文本示例中,寻找有意义的模式。 以下是一个示例,其中根据特征触发的强度,用蓝色渐变高亮显示了特征触发的 Token: 用稀疏自编码器发现特征激活的示例。每个气泡代表一个 Token(单词或词片段),可变的蓝色说明了这个特征的存在强度。在这个例子中,该特征显然与成语有关 Gemma Scope有何独特之处? 比起此前的稀疏自编码器,Gemma Scope有许多独特之处。 前者主要集中在研究小型模型的内部工作原理或大型模型的单层。 但如果要把可解释性研究做得更深,就涉及到了解码大型模型中的分层复杂算法。 这一次,谷歌DeepMind的研究者在Gemma 2 2B和9B的每一层和子层的输出上,都训练了稀疏自编码器。 这样构建出来的Gemma Scope,总共生成了超过400个稀疏自编码器,获得了超过 3000万个特征(尽管许多特征可能重叠)。 这样,研究人员就能够研究特征在整个模型中的演变方式,以及它们如何相互作用,如何组合形成更复杂的特征。 此外,Gemma Scope使用了最新的、最先进的JumpReLU SAE架构进行了训练。 原始的稀疏自编码器架构,在检测特征存在与估计强度这两个目标之间,往往难以平衡。而JumpReLU架构,就能更容易地实现二者的平衡,并且显著减少误差。 当然,训练如此多的稀疏自编码器,也是一项重大的工程挑战,需要大量的计算资源。 在这个过程中,研究者使用了Gemma 2 9B训练计算量的约15%(不包括生成蒸馏标签所需的计算),将约20 PiB的激活保存到了磁盘(大约相当于一百万份英文维基百科的内容),总共生成了数千亿个稀疏自编码器参数。 参考资料: https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/

谷歌开源最强端侧小模型:2B参数越级跑赢GPT-3.5-Turbo,苹果15Pro运行飞快

谷歌也来卷「小」模型了,一出手就是王炸,胜过了比自己参数多得多的GPT-3.5、Mixtral竞品模型。 今年 6 月底,谷歌开源了 9B、27B 版 Gemma 2 模型系列,并且自亮相以来,27B 版本迅速成为了大模型竞技场 LMSYS Chatbot Arena 中排名最高的开放模型之一,在真实对话任务中比其两倍规模以上的模型表现还要好。   如今,仅仅过去了一个多月,谷歌在追求负责任 AI 的基础上,更加地考虑该系列模型的安全性和可访问性,并有了一系列新成果。   此次,Gemma 2 不仅有了更轻量级「Gemma 2 2B」版本,还构建一个安全内容分类器模型「ShieldGemma」和一个模型可解释性工具「Gemma Scope」。具体如下: Gemma 2 2B 具有内置安全改进功能,实现了性能与效率的强大平衡; ShieldGemma 基于 Gemma 2 构建,用于过滤 AI 模型的输入和输出,确保用户安全; Gemma Scope 提供对模型内部工作原理的无与伦比的洞察力。 其中,Gemma 2 2B 无疑是「最耀眼的仔」,它在大模型竞技场 LMSYS Chatbot Arena 中的结果令人眼前一亮:仅凭 20 亿参数就跑出了 1130 分,这一数值要高于 GPT-3.5-Turbo(0613)和 Mixtral-8x7b。 这也意味着,Gemma 2 2B 将成为端侧模型的最佳选择。     苹果机器学习研究(MLR)团队研究科学家 Awni Hannun 展示了 Gemma 2 2B 跑在 iPhone 15 pro 上的情况,使用了 4bit 量化版本,结果显示速度是相当快。   视频来源:https://x.com/awnihannun/status/1818709510485389563 此外,对于前段时间很多大模型都翻了车的「9.9 和 9.11 谁大」的问题,Gemma 2 2B 也能轻松拿捏。   图源:https://x.com/tuturetom/status/1818823253634564134 与此同时,从谷歌 Gemma 2 2B 的强大性能也可以看到一种趋势,即「小」模型逐渐拥有了与更大尺寸模型匹敌的底气和效能优势。 这种趋势也引起了一些业内人士的关注,比如知名人工智能科学家、Lepton AI 创始人贾扬清提出了一种观点:大语言模型(LLM)的模型大小是否正在走 CNN 的老路呢? 在 ImageNet 时代,我们看到参数大小快速增长,然后我们转向了更小、更高效的模型。这是在 LLM 时代之前,我们中的许多人可能已经忘记了。 大型模型的曙光:我们以 AlexNet(2012)作为基线开始,然后经历了大约 3 年的模型大小增长。VGGNet(2014)在性能和尺寸方面都可称为强大的模型。 缩小模型:GoogLeNet(2015)将模型大小从 GB 级缩小到 MB 级,缩小了 100 倍,同时保持了良好的性能。类似工作如 SqueezeNet(2015)和其他工作也遵循类似的趋势。 合理的平衡:后来的工作如 ResNet(2015)、ResNeXT(2016)等,都保持了适中的模型大小。请注意,我们实际上很乐意使用更多的算力,但参数高效同样重要。 设备端学习?MobileNet(2017)是谷歌的一项特别有趣的工作,占用空间很小,但性能却非常出色。上周,我的一个朋友告诉我「哇,我们仍然在使用 MobileNet,因为它在设备端具有出色的特征嵌入通用性」。是的,嵌入式嵌入是实实在在很好用。 最后,贾扬清发出灵魂一问,「LLM 会遵循同样的趋势吗?」   图像出自 Ghimire 等人论文《A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration》。 Gemma 2 2B 越级超越 GPT-3.5 Turbo Gemma 2 家族新增 Gemma 2 2B 模型,备受大家期待。谷歌使用先进的 TPU v5e 硬件在庞大的 2 万亿个 token 上训练而成。 这个轻量级模型是从更大的模型中蒸馏而来,产生了非常好的结果。由于其占用空间小,特别适合设备应用程序,可能会对移动 AI 和边缘计算产生重大影响。 事实上,谷歌的 Gemma 2 2B 模型在 Chatbot Arena Elo Score 排名中胜过大型 AI 聊天机器人,展示了小型、更高效的语言模型的潜力。下图表显示了 Gemma 2 2B 与 GPT-3.5 和 Llama 2 等知名模型相比的卓越性能,挑战了「模型越大越好」的观念。   Gemma 2 2B 提供了: 性能卓越:在同等规模下提供同类最佳性能,超越同类其他开源模型; 部署灵活且经济高效:可在各种硬件上高效运行,从边缘设备和笔记本电脑到使用云部署如 Vertex AI 和 Google Kubernetes Engine (GKE) 。为了进一步提高速度,该模型使用了 NVIDIA TensorRT-LLM 库进行优化,并可作为 NVIDIA NIM 使用。此外,Gemma 2 2B 可与 Keras、JAX、Hugging Face、NVIDIA NeMo、Ollama、Gemma.cpp 以及即将推出的 MediaPipe 无缝集成,以简化开发; 开源且易于访问:可用于研究和商业应用,由于它足够小,甚至可以在 Google Colab 的 T4 GPU 免费层上运行,使实验和开发比以往更加简单。 从今天开始,用户可以从 Kaggle、Hugging Face、Vertex AI Model Garden 下载模型权重。用户还可以在 Google AI Studio 中试用其功能。 下载权重地址:https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f Gemma 2 2B 的出现挑战了人工智能开发领域的主流观点,即模型越大,性能自然就越好。Gemma 2 2B 的成功表明,复杂的训练技术、高效的架构和高质量的数据集可以弥补原始参数数量的不足。这一突破可能对该领域产生深远的影响,有可能将焦点从争夺越来越大的模型转移到改进更小、更高效的模型。 Gemma 2 2B 的开发也凸显了模型压缩和蒸馏技术日益增长的重要性。通过有效地将较大模型中的知识提炼成较小的模型,研究人员可以在不牺牲性能的情况下创建更易于访问的 AI 工具。这种方法不仅降低了计算要求,还解决了训练和运行大型 AI 模型对环境影响的担忧。 ShieldGemma:最先进的安全分类器 技术报告:https://storage.googleapis.com/deepmind-media/gemma/shieldgemma-report.pdf ShieldGemma 是一套先进的安全分类器,旨在检测和缓解 AI 模型输入和输出中的有害内容,帮助开发者负责任地部署模型。 ShieldGemma 专门针对四个关键危害领域进行设计: 仇恨言论 骚扰 色情内容 危险内容 这些开放分类器是对负责任 AI 工具包(Responsible AI Toolkit)中现有安全分类器套件的补充。 借助 ShieldGemma,用户可以创建更加安全、更好的 AI 应用 SOTA 性能:作为安全分类器,ShieldGemma 已经达到行业领先水平; 规模不同:ShieldGemma 提供各种型号以满足不同的需求。2B 模型非常适合在线分类任务,而 9B 和 27B 版本则为不太关心延迟的离线应用程序提供了更高的性能。 如下表所示,ShieldGemma (SG) 模型(2B、9B 和 27B)的表现均优于所有基线模型,包括 GPT-4。 Gemma Scope:让模型更加透明 Gemma Scope 旨在帮助 AI 研究界探索如何构建更易于理解、更可靠的 AI 系统。其为研究人员和开发人员提供了前所未有的透明度,让他们能够了解 Gemma 2 模型的决策过程。Gemma Scope 就像一台强大的显微镜,它使用稀疏自编码器 (SAE) 放大模型的内部工作原理,使其更易于解释。 Gemma Scope 技术报告:https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf SAE 可以帮助用户解析 Gemma 2 处理的那些复杂信息,将其扩展为更易于分析和理解的形式,因而研究人员可以获得有关 Gemma 2 如何识别模式、处理信息并最终做出预测的宝贵见解。 以下是 Gemma Scope 具有开创性的原因: 开放的 SAE:超过 400 个免费 SAE,涵盖 Gemma 2 2B 和 9B 的所有层; 交互式演示:无需在 Neuronpedia 上编写代码即可探索 SAE 功能并分析模型行为; 易于使用的存储库:提供了 SAE 和 Gemma 2 交互的代码和示例。 参考链接: https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/

谷歌狂卷小模型,20亿参数Gemma 2赶超GPT-3.5,实测iPhone上跑得飞快

每秒40 Token,谷歌开源20亿参数“小钢炮”。 编辑 |  李水青 谷歌DeepMind的开源小模型家族,又迎来新成员! 智东西8月1日消息,今日凌晨,谷歌DeepMind开源了轻量级模型Gemma 2 2B,其在大模型竞技场上的分数超越了GPT-3.5、Llama 2 70B等更大参数的模型。 ▲Gemma 2 2B 只有20亿参数使得Gemma 2 2B可以轻松在手机、PC等终端设备上快速运行。开发者实测在Google AI Studio上,其推理速度达到30~40 tokens/s。 ▲开发者测试Gemma 2 2B 与Gemma 2 2B一起推出的,还有用于增强模型可解释性的工具Gemma Scope,以及用于过滤有害内容的安全分类模型ShieldGemma。 Gemma Scope基于稀疏自动编码器(SAE)放大模型中的特定点,并采用JumpReLU架构对其进行优化,从而帮助解析模型中处理的密集复杂信息,像一个显微镜一样让研究人员能“看到”模型内部。 ShieldGemma则针对仇恨言论、骚扰、色情内容、危险内容四个危害领域构建,在响应测试中超过GPT-4等基准模型。 Gemma系列模型最初在今年2月推出,是谷歌DeepMind在Gemini模型的经验基础上构建的开源模型。6月,谷歌推出第二代开源模型Gemma 2,包括9B、27B两种参数规模,其中27B模型迅速在LMSYS大模型竞技场上跃升开源模型前沿。   01. 击败35倍参数大模型 比大小没难倒Gemma 2   Gemma 2 2B是从更大规模的模型中提炼而来的,是继27B、9B后谷歌推出的第三款Gemma 2模型。 作为一款只有20亿参数的轻量模型,Gemma 2 2B并没有牺牲性能来换轻便。在LMSYS大模型竞技场(Chatbot Arena)排行榜中,Gemma 2 2B以1126分的成绩超越了GPT-3.5,以及其数十倍参数规模的Mixtral 8x7B、Llama 2 70B模型。 ▲Gemma 2 2B在大模型竞技场的成绩 有网友测试了Gemma 2 2B在众多大模型上“翻车”的9.9和9.11比大小问题,Gemma 2 2B迅速给出了正确答案。 ▲Gemma 2 2B答题 运行速度是轻量级模型的一大优势。具体有多快呢?苹果机器学习研究员Awni Hannun在他的iPhone 15 pro上的MLX Swift测试了Gemma 2 2B,其推理速度肉眼可见的快。 ▲Gemma 2 2B运行速度 开发者Tom Huang实测后称,其在Google AI Studio上运行速度大概30~40 tokens/s,“比苹果的模型推得快”。 在部署方面,Gemma 2 2B提供灵活的部署方式,可在各种硬件上高效运行,包括边缘设备、笔记本电脑,或是基于Vertex AI进行云部署。 开发者可以在Hugging Face、Kaggle等平台下载Gemma 2 2B的模型权重,用于研究和商业应用,也可以在Google AI Studio中试用其功能。 开源地址: https://huggingface.co/google/gemma-2-2b   02. 针对四类内容构建分类器 响应率优于GPT-4   为了提升模型的安全性和可访问性,谷歌推出了一套基于Gemma 2构建的安全内容分类器模型ShieldGemma,用于过滤AI模型的输入和输出,是对谷歌的负责任AI工具包中现有安全分类器套件的补充。 ▲ShieldGemma工作原理 ShieldGemma针对仇恨言论、骚扰、色情内容、危险内容这四个危害领域构建,提供多种模型尺寸以满足不同的需求,包括2B、9B和27B。其中,2B参数模型适合在线分类任务,9B和27B版本则用于为离线应用程序提供更高性能。 在外部数据集上的测评结果中,ShieldGemma超越了OpenAI Mod、GPT-4等基线模型。 ▲ShieldGemma测评结果 ShieldGemma的技术报告也同步公开,其中解读了该模型的构建方法、数据来源以及有效性。在四类有害内容的响应测试上,三个规模的ShieldGemma响应率都优于GPT-4。 ▲ShieldGemma响应测试 技术报告地址: https://storage.googleapis.com/deepmind-media/gemma/shieldgemma-report.pdf   03. 大模型内部“显微镜” 零代码分析模型行为   为了研究语言模型内部的工作原理,谷歌推出一套全面、开放的稀疏自动编码器Gemma Scope。它就像一个显微镜,能帮助研究人员“看到”模型内部,从而更好地理解工作原理。 Gemma Scope使用稀疏自动编码器(SAE)放大模型中的特定点,这些SAE可帮助解析模型中处理的密集复杂信息,将其扩展为更易于分析和理解的形式。 ▲使用SAE解释模型激活的程式化表示 通过研究这些扩展的视图,研究人员可以了解Gemma 2如何识别模式、处理信息,并最终做出预测,从而探索如何构建更易于理解、更可靠、更可靠的AI系统。 此前,对SAE的研究主要集中于研究微型模型或大型模型中,单层的内部工作原理。而Gemma Scope的突破之处在于,它在Gemma 2模型的每个层和子层输出上训练SAE。其共生成了400多个SAE,学习了3000多万个特征。 ▲Gemma Scope的SAE发现特征的示例激活 Gemma Scope 还采用了全新的JumpReLU SAE架构进行训练。原始的SAE架构很难平衡检测哪些特征存在,和估计其强度这两个目标。JumpReLU架构可以更轻松地实现这种平衡,从而显著减少错误。 Gemma Scope共开放了超过400个免费SAE,涵盖Gemma 2 2B和9B的所有层,并提供交互式演示,研究人员不需要编写代码即可研究SAE特性并分析模型行为。 ▲Gemma Scope交互式演示 演示地址: https://www.neuronpedia.org/gemma-scope 技术报告地址: https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf   04. 结语:生成式AI的风 刮向小模型和AI安全   生成式AI发展至今,模型从“卷”参数“卷”规模,到现在“卷”轻便“卷”安全,体现了在技术落地的过程中,离用户更近、成本更低、更能满足特定需求的重要性。 AI PC、AI手机逐渐进入消费者的生活,在这个过程中,如何将大模型“塞进”小巧的终端设备,并且保障用户的隐私安全,是各大AI厂商亟待解决的问题。