Gemma 2 Archives

iPhone可跑2B小钢炮！谷歌Gemma 2来袭，最强显微镜剖解LLM大脑

谷歌DeepMind的小模型核弹来了，Gemma 2 2B直接击败了参数大几个数量级的GPT-3.5和Mixtral 8x7B！而同时发布的Gemma Scope，如显微镜一般打破LLM黑箱，让我们看清Gemma 2是如何决策的。谷歌DeepMind的小模型，又上新了！就在刚刚，谷歌DeepMind发布Gemma 2 2B。它是从Gemma 2 27B中蒸馏而来。虽然它的参数只有2.6B，但在LMSYS竞技场上的得分，已经超越了GPT-3.5和Mixtral 8x7B！在MMLU和MBPP基准测试中，它分别取得了56.1和36.6的优异成绩；比起前代模型Gemma 1 2B，它的性能超过了10%。小模型击败了大几个数量级的大模型，再一次印证了最近业界非常看好的小模型方向。谷歌在今天，一共公布了Gemma 2家族的三个新成员： Gemma 2 2B：轻量级2B模型，在性能和效率之间实现了最大的平衡 ShieldGemma：基于Gemma 2构建的安全内容分类器模型，用于过滤AI模型的输入和输出，确保用户安全 Gemma Scope：一种可解释性工具，提供对模型内部运行机制的无与伦比的洞察 6月，27B和9B Gemma 2模型诞生。自发布以来，27B模型迅速成为大模型排行榜上，排名前列的开源模型之一，甚至在实际对话中表现超过了参数数量大两倍的流行模型。 Gemma 2 2B：即刻在设备上使用轻量级小模型Gemma 2 2B，是从大模型中蒸馏而来，性能毫不逊色。在大模型竞技场LMSYS上，新模型取得令人印象深刻的1130分，与10倍参数的模型不相上下。 GPT-3.5-Turbo-0613得分为1117，Mixtral-8x7b得分为1114。足见，Gemma 2 2B是最好的端侧模型。有网友在iPhone 15 Pro上，让量化后的Gemma 2 2B在MLX Swift上运行，速度快到惊人。具体来说，它能够在各种终端设备，包括手机、笔记本，甚至是使用Vertex AI和Google Kubernetes Engine（GKE）强大的云，皆能完成部署。为了让模型加速，它通过NVIDIA TensorRT-LLM完成了优化，在NVIDIA NIM平台也可使用。优化后的模型适用于各种平台部署，包括数据中心、云、本地工作站、PC 和边缘设备。它还可以支持RTX、RTX GPU、Jetson模块，完成边缘化AI部署。此外，Gemma 2 2B无缝集成了Keras、JAX、Hugging Face、NVIDIA NeMo、Ollama、Gemma.cpp等，并很快将与MediaPipe集成，实现简化开发。当然，与Gemma 2一样，2B模型也同样可以用来研究和商用。甚至，由于其参数量足够下，它可以在Google Colab的免费T4 GPU层上运行，降低了开发门槛。目前，每位开发者都可以从Kaggle、Hugging Face、Vertex AI Model Garden下载Gemma 2的模型权重，也可在Google AI Studio中试用其功能。仓库地址：https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f ShieldGemma：最先进的安全分类器正如其名，ShieldGemma是最先进的安全分类器，确保AI输出内容具有吸引力、安全、包容，检测和减少有害内容输出。 ShieldGemma的设计专门针对四个关键的有害领域： – 仇恨言论 – 骚扰内容 – 露骨内容 – 危险内容这些开源分类器，是对谷歌现有的负责任AI工具包中安全分类器套件补充。该工具包包括一种，基于有限数据点构建针对特定策略分类器的方法，以及通过API提供的现成Google Cloud分类器。 ShieldGemma基于Gemma 2构建，是行业领先的安全分类器。它提供了各种模型参数规模，包括2B、9B、27B，都经过英伟达速度优化，在各种硬件中可以高效运行。其中，2B非常适合在线分类任务，而9B和27B版本则为对延迟要求较低的离线应用提供更高性能。 Gemma Scope：通过开源稀疏自编码器揭示AI决策过程此次同时发布的另一大亮点，就是开源稀疏自编码器——Gemma Scope了。语言模型的内部，究竟发生了什么？长久以来，这个问题一直困扰着研究人员和开发者。语言模型的内部运作方式往往是一个谜，即使对于训练它们的研究人员，也是如此。而Gemma Scope就仿佛一个强大的显微镜，通过稀疏自编码器 (SAEs) 放大模型中的特定点，从而使模型的内部工作更易于解释。有了Gemma Scope以后，研究人员和开发者就获得了前所未有的透明度，能够深入了解Gemma 2模型的决策过程。 Gemma Scope是数百个适用于Gemma 2 9B和Gemma 2 2B的免费开放稀疏自动编码器 (SAE) 的集合。这些SAEs是专门设计的神经网络，可以帮助我们解读由Gemma 2处理的密集、复杂信息，将其扩展成更易于分析和理解的形式。通过研究这些扩展视图，研究人员就可以获得宝贵的信息，了解Gemma 2如何识别模式、处理信息、做出预测。有了Gemma Scope，AI社区就可以更容易地构建更易理解、负责任和可靠的AI系统了。同时，谷歌DeepMind还放出了一份20页的技术报告。技术报告：https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf 总结来说， Gemma Scope有以下3个创新点—— 开源SAEs：超过400个免费提供的SAEs，覆盖Gemma 2 2B和9B的所有层互动演示：在Neuronpedia上无需编写代码，即可探索SAE功能，并分析模型行为易于使用的资源库：提供与SAEs和Gemma 2交互的代码和示例解读语言模型内部的运作机制语言模型的可解释性问题，为什么这么难？这要从LLM的运行原理说起。当你向LLM提出问题时，它会将你的文本输入转换为一系列「激活」。这些激活映射了你输入的词语之间的关系，帮助模型在不同词语之间建立联系，据此生成答案。在模型处理文本输入的过程中，模型神经网络中不同层的激活代表了多个逐步高级的概念，这些概念被称为「特征」。例如，模型的早期层可能会学习到像乔丹打篮球这样的事实，而后期层可能会识别出更复杂的概念，例如文本的真实性。用稀疏自编码器解读模型激活的示例——模型是如何回忆「光之城是巴黎」这一事实的。可以看到与法语相关的概念存在，而无关的概念则不存在然而，可解释性研究人员却一直面临着一个关键问题：模型的激活，是许多不同特征的混合物。在研究的早期，研究人员希望神经网络激活中的特征能与单个神经元（即信息节点）对齐。但不幸的是，在实践中，神经元对许多无关特征都很活跃。这也就意味着，没有什么明显的方法，能判断出哪些特征是激活的一部分。而这，恰恰就是稀疏自编码器的用武之地。要知道，一个特定的激活只会是少数特征的混合，尽管语言模型可能能够检测到数百万甚至数十亿个特征（也就是说，模型是稀疏地使用特征）。例如，语言模型在回答关于爱因斯坦的问题时会想到相对论，而在写关于煎蛋卷时会想到鸡蛋，但在写煎蛋卷时，可能就不会想到相对论了。稀疏自编码器就是利用了这一事实，来发现一组潜在的特征，并将每个激活分解为少数几个特征。研究人员希望，稀疏自编码器完成这项任务的最佳方式，就是找到语言模型实际使用的基本特征。重要的是，在这个过程中，研究人员并不会告诉稀疏自编码器要寻找哪些特征。因此，他们就能发现此前未曾预料过的丰富结构。然而，因为他们无法立即知道这些被发现特征的确切含义，他们就会在稀疏自编码器认为特征「触发」的文本示例中，寻找有意义的模式。以下是一个示例，其中根据特征触发的强度，用蓝色渐变高亮显示了特征触发的 Token：用稀疏自编码器发现特征激活的示例。每个气泡代表一个 Token（单词或词片段），可变的蓝色说明了这个特征的存在强度。在这个例子中，该特征显然与成语有关 Gemma Scope有何独特之处？比起此前的稀疏自编码器，Gemma Scope有许多独特之处。前者主要集中在研究小型模型的内部工作原理或大型模型的单层。但如果要把可解释性研究做得更深，就涉及到了解码大型模型中的分层复杂算法。这一次，谷歌DeepMind的研究者在Gemma 2 2B和9B的每一层和子层的输出上，都训练了稀疏自编码器。这样构建出来的Gemma Scope，总共生成了超过400个稀疏自编码器，获得了超过 3000万个特征（尽管许多特征可能重叠）。这样，研究人员就能够研究特征在整个模型中的演变方式，以及它们如何相互作用，如何组合形成更复杂的特征。此外，Gemma Scope使用了最新的、最先进的JumpReLU SAE架构进行了训练。原始的稀疏自编码器架构，在检测特征存在与估计强度这两个目标之间，往往难以平衡。而JumpReLU架构，就能更容易地实现二者的平衡，并且显著减少误差。当然，训练如此多的稀疏自编码器，也是一项重大的工程挑战，需要大量的计算资源。在这个过程中，研究者使用了Gemma 2 9B训练计算量的约15%（不包括生成蒸馏标签所需的计算），将约20 PiB的激活保存到了磁盘（大约相当于一百万份英文维基百科的内容），总共生成了数千亿个稀疏自编码器参数。参考资料： https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/

谷歌开源最强端侧小模型：2B参数越级跑赢GPT-3.5-Turbo，苹果15Pro运行飞快

谷歌也来卷「小」模型了，一出手就是王炸，胜过了比自己参数多得多的GPT-3.5、Mixtral竞品模型。今年 6 月底，谷歌开源了 9B、27B 版 Gemma 2 模型系列，并且自亮相以来，27B 版本迅速成为了大模型竞技场 LMSYS Chatbot Arena 中排名最高的开放模型之一，在真实对话任务中比其两倍规模以上的模型表现还要好。如今，仅仅过去了一个多月，谷歌在追求负责任 AI 的基础上，更加地考虑该系列模型的安全性和可访问性，并有了一系列新成果。此次，Gemma 2 不仅有了更轻量级「Gemma 2 2B」版本，还构建一个安全内容分类器模型「ShieldGemma」和一个模型可解释性工具「Gemma Scope」。具体如下： Gemma 2 2B 具有内置安全改进功能，实现了性能与效率的强大平衡； ShieldGemma 基于 Gemma 2 构建，用于过滤 AI 模型的输入和输出，确保用户安全； Gemma Scope 提供对模型内部工作原理的无与伦比的洞察力。其中，Gemma 2 2B 无疑是「最耀眼的仔」，它在大模型竞技场 LMSYS Chatbot Arena 中的结果令人眼前一亮：仅凭 20 亿参数就跑出了 1130 分，这一数值要高于 GPT-3.5-Turbo（0613）和 Mixtral-8x7b。这也意味着，Gemma 2 2B 将成为端侧模型的最佳选择。苹果机器学习研究（MLR）团队研究科学家 Awni Hannun 展示了 Gemma 2 2B 跑在 iPhone 15 pro 上的情况，使用了 4bit 量化版本，结果显示速度是相当快。视频来源：https://x.com/awnihannun/status/1818709510485389563 此外，对于前段时间很多大模型都翻了车的「9.9 和 9.11 谁大」的问题，Gemma 2 2B 也能轻松拿捏。图源：https://x.com/tuturetom/status/1818823253634564134 与此同时，从谷歌 Gemma 2 2B 的强大性能也可以看到一种趋势，即「小」模型逐渐拥有了与更大尺寸模型匹敌的底气和效能优势。这种趋势也引起了一些业内人士的关注，比如知名人工智能科学家、Lepton AI 创始人贾扬清提出了一种观点：大语言模型（LLM）的模型大小是否正在走 CNN 的老路呢？在 ImageNet 时代，我们看到参数大小快速增长，然后我们转向了更小、更高效的模型。这是在 LLM 时代之前，我们中的许多人可能已经忘记了。大型模型的曙光：我们以 AlexNet（2012）作为基线开始，然后经历了大约 3 年的模型大小增长。VGGNet（2014）在性能和尺寸方面都可称为强大的模型。缩小模型：GoogLeNet（2015）将模型大小从 GB 级缩小到 MB 级，缩小了 100 倍，同时保持了良好的性能。类似工作如 SqueezeNet（2015）和其他工作也遵循类似的趋势。合理的平衡：后来的工作如 ResNet（2015）、ResNeXT（2016）等，都保持了适中的模型大小。请注意，我们实际上很乐意使用更多的算力，但参数高效同样重要。设备端学习？MobileNet（2017）是谷歌的一项特别有趣的工作，占用空间很小，但性能却非常出色。上周，我的一个朋友告诉我「哇，我们仍然在使用 MobileNet，因为它在设备端具有出色的特征嵌入通用性」。是的，嵌入式嵌入是实实在在很好用。最后，贾扬清发出灵魂一问，「LLM 会遵循同样的趋势吗？」图像出自 Ghimire 等人论文《A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration》。 Gemma 2 2B 越级超越 GPT-3.5 Turbo Gemma 2 家族新增 Gemma 2 2B 模型，备受大家期待。谷歌使用先进的 TPU v5e 硬件在庞大的 2 万亿个 token 上训练而成。这个轻量级模型是从更大的模型中蒸馏而来，产生了非常好的结果。由于其占用空间小，特别适合设备应用程序，可能会对移动 AI 和边缘计算产生重大影响。事实上，谷歌的 Gemma 2 2B 模型在 Chatbot Arena Elo Score 排名中胜过大型 AI 聊天机器人，展示了小型、更高效的语言模型的潜力。下图表显示了 Gemma 2 2B 与 GPT-3.5 和 Llama 2 等知名模型相比的卓越性能，挑战了「模型越大越好」的观念。 Gemma 2 2B 提供了：性能卓越：在同等规模下提供同类最佳性能，超越同类其他开源模型；部署灵活且经济高效：可在各种硬件上高效运行，从边缘设备和笔记本电脑到使用云部署如 Vertex AI 和 Google Kubernetes Engine (GKE) 。为了进一步提高速度，该模型使用了 NVIDIA TensorRT-LLM 库进行优化，并可作为 NVIDIA NIM 使用。此外，Gemma 2 2B 可与 Keras、JAX、Hugging Face、NVIDIA NeMo、Ollama、Gemma.cpp 以及即将推出的 MediaPipe 无缝集成，以简化开发；开源且易于访问：可用于研究和商业应用，由于它足够小，甚至可以在 Google Colab 的 T4 GPU 免费层上运行，使实验和开发比以往更加简单。从今天开始，用户可以从 Kaggle、Hugging Face、Vertex AI Model Garden 下载模型权重。用户还可以在 Google AI Studio 中试用其功能。下载权重地址：https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f Gemma 2 2B 的出现挑战了人工智能开发领域的主流观点，即模型越大，性能自然就越好。Gemma 2 2B 的成功表明，复杂的训练技术、高效的架构和高质量的数据集可以弥补原始参数数量的不足。这一突破可能对该领域产生深远的影响，有可能将焦点从争夺越来越大的模型转移到改进更小、更高效的模型。 Gemma 2 2B 的开发也凸显了模型压缩和蒸馏技术日益增长的重要性。通过有效地将较大模型中的知识提炼成较小的模型，研究人员可以在不牺牲性能的情况下创建更易于访问的 AI 工具。这种方法不仅降低了计算要求，还解决了训练和运行大型 AI 模型对环境影响的担忧。 ShieldGemma：最先进的安全分类器技术报告：https://storage.googleapis.com/deepmind-media/gemma/shieldgemma-report.pdf ShieldGemma 是一套先进的安全分类器，旨在检测和缓解 AI 模型输入和输出中的有害内容，帮助开发者负责任地部署模型。 ShieldGemma 专门针对四个关键危害领域进行设计：仇恨言论骚扰色情内容危险内容这些开放分类器是对负责任 AI 工具包（Responsible AI Toolkit）中现有安全分类器套件的补充。借助 ShieldGemma，用户可以创建更加安全、更好的 AI 应用 SOTA 性能：作为安全分类器，ShieldGemma 已经达到行业领先水平；规模不同：ShieldGemma 提供各种型号以满足不同的需求。2B 模型非常适合在线分类任务，而 9B 和 27B 版本则为不太关心延迟的离线应用程序提供了更高的性能。如下表所示，ShieldGemma (SG) 模型（2B、9B 和 27B）的表现均优于所有基线模型，包括 GPT-4。 Gemma Scope：让模型更加透明 Gemma Scope 旨在帮助 AI 研究界探索如何构建更易于理解、更可靠的 AI 系统。其为研究人员和开发人员提供了前所未有的透明度，让他们能够了解 Gemma 2 模型的决策过程。Gemma Scope 就像一台强大的显微镜，它使用稀疏自编码器 (SAE) 放大模型的内部工作原理，使其更易于解释。 Gemma Scope 技术报告：https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf SAE 可以帮助用户解析 Gemma 2 处理的那些复杂信息，将其扩展为更易于分析和理解的形式，因而研究人员可以获得有关 Gemma 2 如何识别模式、处理信息并最终做出预测的宝贵见解。以下是 Gemma Scope 具有开创性的原因：开放的 SAE：超过 400 个免费 SAE，涵盖 Gemma 2 2B 和 9B 的所有层；交互式演示：无需在 Neuronpedia 上编写代码即可探索 SAE 功能并分析模型行为；易于使用的存储库：提供了 SAE 和 Gemma 2 交互的代码和示例。参考链接： https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/

谷歌狂卷小模型，20亿参数Gemma 2赶超GPT-3.5，实测iPhone上跑得飞快

每秒40 Token，谷歌开源20亿参数“小钢炮”。编辑 | 李水青谷歌DeepMind的开源小模型家族，又迎来新成员！智东西8月1日消息，今日凌晨，谷歌DeepMind开源了轻量级模型Gemma 2 2B，其在大模型竞技场上的分数超越了GPT-3.5、Llama 2 70B等更大参数的模型。 ▲Gemma 2 2B 只有20亿参数使得Gemma 2 2B可以轻松在手机、PC等终端设备上快速运行。开发者实测在Google AI Studio上，其推理速度达到30~40 tokens/s。 ▲开发者测试Gemma 2 2B 与Gemma 2 2B一起推出的，还有用于增强模型可解释性的工具Gemma Scope，以及用于过滤有害内容的安全分类模型ShieldGemma。 Gemma Scope基于稀疏自动编码器（SAE）放大模型中的特定点，并采用JumpReLU架构对其进行优化，从而帮助解析模型中处理的密集复杂信息，像一个显微镜一样让研究人员能“看到”模型内部。 ShieldGemma则针对仇恨言论、骚扰、色情内容、危险内容四个危害领域构建，在响应测试中超过GPT-4等基准模型。 Gemma系列模型最初在今年2月推出，是谷歌DeepMind在Gemini模型的经验基础上构建的开源模型。6月，谷歌推出第二代开源模型Gemma 2，包括9B、27B两种参数规模，其中27B模型迅速在LMSYS大模型竞技场上跃升开源模型前沿。 01. 击败35倍参数大模型比大小没难倒Gemma 2 Gemma 2 2B是从更大规模的模型中提炼而来的，是继27B、9B后谷歌推出的第三款Gemma 2模型。作为一款只有20亿参数的轻量模型，Gemma 2 2B并没有牺牲性能来换轻便。在LMSYS大模型竞技场（Chatbot Arena）排行榜中，Gemma 2 2B以1126分的成绩超越了GPT-3.5，以及其数十倍参数规模的Mixtral 8x7B、Llama 2 70B模型。 ▲Gemma 2 2B在大模型竞技场的成绩有网友测试了Gemma 2 2B在众多大模型上“翻车”的9.9和9.11比大小问题，Gemma 2 2B迅速给出了正确答案。 ▲Gemma 2 2B答题运行速度是轻量级模型的一大优势。具体有多快呢？苹果机器学习研究员Awni Hannun在他的iPhone 15 pro上的MLX Swift测试了Gemma 2 2B，其推理速度肉眼可见的快。 ▲Gemma 2 2B运行速度开发者Tom Huang实测后称，其在Google AI Studio上运行速度大概30~40 tokens/s，“比苹果的模型推得快”。在部署方面，Gemma 2 2B提供灵活的部署方式，可在各种硬件上高效运行，包括边缘设备、笔记本电脑，或是基于Vertex AI进行云部署。开发者可以在Hugging Face、Kaggle等平台下载Gemma 2 2B的模型权重，用于研究和商业应用，也可以在Google AI Studio中试用其功能。开源地址： https://huggingface.co/google/gemma-2-2b 02. 针对四类内容构建分类器响应率优于GPT-4 为了提升模型的安全性和可访问性，谷歌推出了一套基于Gemma 2构建的安全内容分类器模型ShieldGemma，用于过滤AI模型的输入和输出，是对谷歌的负责任AI工具包中现有安全分类器套件的补充。 ▲ShieldGemma工作原理 ShieldGemma针对仇恨言论、骚扰、色情内容、危险内容这四个危害领域构建，提供多种模型尺寸以满足不同的需求，包括2B、9B和27B。其中，2B参数模型适合在线分类任务，9B和27B版本则用于为离线应用程序提供更高性能。在外部数据集上的测评结果中，ShieldGemma超越了OpenAI Mod、GPT-4等基线模型。 ▲ShieldGemma测评结果 ShieldGemma的技术报告也同步公开，其中解读了该模型的构建方法、数据来源以及有效性。在四类有害内容的响应测试上，三个规模的ShieldGemma响应率都优于GPT-4。 ▲ShieldGemma响应测试技术报告地址： https://storage.googleapis.com/deepmind-media/gemma/shieldgemma-report.pdf 03. 大模型内部“显微镜” 零代码分析模型行为为了研究语言模型内部的工作原理，谷歌推出一套全面、开放的稀疏自动编码器Gemma Scope。它就像一个显微镜，能帮助研究人员“看到”模型内部，从而更好地理解工作原理。 Gemma Scope使用稀疏自动编码器（SAE）放大模型中的特定点，这些SAE可帮助解析模型中处理的密集复杂信息，将其扩展为更易于分析和理解的形式。 ▲使用SAE解释模型激活的程式化表示通过研究这些扩展的视图，研究人员可以了解Gemma 2如何识别模式、处理信息，并最终做出预测，从而探索如何构建更易于理解、更可靠、更可靠的AI系统。此前，对SAE的研究主要集中于研究微型模型或大型模型中，单层的内部工作原理。而Gemma Scope的突破之处在于，它在Gemma 2模型的每个层和子层输出上训练SAE。其共生成了400多个SAE，学习了3000多万个特征。 ▲Gemma Scope的SAE发现特征的示例激活 Gemma Scope 还采用了全新的JumpReLU SAE架构进行训练。原始的SAE架构很难平衡检测哪些特征存在，和估计其强度这两个目标。JumpReLU架构可以更轻松地实现这种平衡，从而显著减少错误。 Gemma Scope共开放了超过400个免费SAE，涵盖Gemma 2 2B和9B的所有层，并提供交互式演示，研究人员不需要编写代码即可研究SAE特性并分析模型行为。 ▲Gemma Scope交互式演示演示地址： https://www.neuronpedia.org/gemma-scope 技术报告地址： https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf 04. 结语：生成式AI的风刮向小模型和AI安全生成式AI发展至今，模型从“卷”参数“卷”规模，到现在“卷”轻便“卷”安全，体现了在技术落地的过程中，离用户更近、成本更低、更能满足特定需求的重要性。 AI PC、AI手机逐渐进入消费者的生活，在这个过程中，如何将大模型“塞进”小巧的终端设备，并且保障用户的隐私安全，是各大AI厂商亟待解决的问题。