小模型 Archives

iPhone可跑2B小钢炮！谷歌Gemma 2来袭，最强显微镜剖解LLM大脑

谷歌DeepMind的小模型核弹来了，Gemma 2 2B直接击败了参数大几个数量级的GPT-3.5和Mixtral 8x7B！而同时发布的Gemma Scope，如显微镜一般打破LLM黑箱，让我们看清Gemma 2是如何决策的。谷歌DeepMind的小模型，又上新了！就在刚刚，谷歌DeepMind发布Gemma 2 2B。它是从Gemma 2 27B中蒸馏而来。虽然它的参数只有2.6B，但在LMSYS竞技场上的得分，已经超越了GPT-3.5和Mixtral 8x7B！在MMLU和MBPP基准测试中，它分别取得了56.1和36.6的优异成绩；比起前代模型Gemma 1 2B，它的性能超过了10%。小模型击败了大几个数量级的大模型，再一次印证了最近业界非常看好的小模型方向。谷歌在今天，一共公布了Gemma 2家族的三个新成员： Gemma 2 2B：轻量级2B模型，在性能和效率之间实现了最大的平衡 ShieldGemma：基于Gemma 2构建的安全内容分类器模型，用于过滤AI模型的输入和输出，确保用户安全 Gemma Scope：一种可解释性工具，提供对模型内部运行机制的无与伦比的洞察 6月，27B和9B Gemma 2模型诞生。自发布以来，27B模型迅速成为大模型排行榜上，排名前列的开源模型之一，甚至在实际对话中表现超过了参数数量大两倍的流行模型。 Gemma 2 2B：即刻在设备上使用轻量级小模型Gemma 2 2B，是从大模型中蒸馏而来，性能毫不逊色。在大模型竞技场LMSYS上，新模型取得令人印象深刻的1130分，与10倍参数的模型不相上下。 GPT-3.5-Turbo-0613得分为1117，Mixtral-8x7b得分为1114。足见，Gemma 2 2B是最好的端侧模型。有网友在iPhone 15 Pro上，让量化后的Gemma 2 2B在MLX Swift上运行，速度快到惊人。具体来说，它能够在各种终端设备，包括手机、笔记本，甚至是使用Vertex AI和Google Kubernetes Engine（GKE）强大的云，皆能完成部署。为了让模型加速，它通过NVIDIA TensorRT-LLM完成了优化，在NVIDIA NIM平台也可使用。优化后的模型适用于各种平台部署，包括数据中心、云、本地工作站、PC 和边缘设备。它还可以支持RTX、RTX GPU、Jetson模块，完成边缘化AI部署。此外，Gemma 2 2B无缝集成了Keras、JAX、Hugging Face、NVIDIA NeMo、Ollama、Gemma.cpp等，并很快将与MediaPipe集成，实现简化开发。当然，与Gemma 2一样，2B模型也同样可以用来研究和商用。甚至，由于其参数量足够下，它可以在Google Colab的免费T4 GPU层上运行，降低了开发门槛。目前，每位开发者都可以从Kaggle、Hugging Face、Vertex AI Model Garden下载Gemma 2的模型权重，也可在Google AI Studio中试用其功能。仓库地址：https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f ShieldGemma：最先进的安全分类器正如其名，ShieldGemma是最先进的安全分类器，确保AI输出内容具有吸引力、安全、包容，检测和减少有害内容输出。 ShieldGemma的设计专门针对四个关键的有害领域： – 仇恨言论 – 骚扰内容 – 露骨内容 – 危险内容这些开源分类器，是对谷歌现有的负责任AI工具包中安全分类器套件补充。该工具包包括一种，基于有限数据点构建针对特定策略分类器的方法，以及通过API提供的现成Google Cloud分类器。 ShieldGemma基于Gemma 2构建，是行业领先的安全分类器。它提供了各种模型参数规模，包括2B、9B、27B，都经过英伟达速度优化，在各种硬件中可以高效运行。其中，2B非常适合在线分类任务，而9B和27B版本则为对延迟要求较低的离线应用提供更高性能。 Gemma Scope：通过开源稀疏自编码器揭示AI决策过程此次同时发布的另一大亮点，就是开源稀疏自编码器——Gemma Scope了。语言模型的内部，究竟发生了什么？长久以来，这个问题一直困扰着研究人员和开发者。语言模型的内部运作方式往往是一个谜，即使对于训练它们的研究人员，也是如此。而Gemma Scope就仿佛一个强大的显微镜，通过稀疏自编码器 (SAEs) 放大模型中的特定点，从而使模型的内部工作更易于解释。有了Gemma Scope以后，研究人员和开发者就获得了前所未有的透明度，能够深入了解Gemma 2模型的决策过程。 Gemma Scope是数百个适用于Gemma 2 9B和Gemma 2 2B的免费开放稀疏自动编码器 (SAE) 的集合。这些SAEs是专门设计的神经网络，可以帮助我们解读由Gemma 2处理的密集、复杂信息，将其扩展成更易于分析和理解的形式。通过研究这些扩展视图，研究人员就可以获得宝贵的信息，了解Gemma 2如何识别模式、处理信息、做出预测。有了Gemma Scope，AI社区就可以更容易地构建更易理解、负责任和可靠的AI系统了。同时，谷歌DeepMind还放出了一份20页的技术报告。技术报告：https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf 总结来说， Gemma Scope有以下3个创新点—— 开源SAEs：超过400个免费提供的SAEs，覆盖Gemma 2 2B和9B的所有层互动演示：在Neuronpedia上无需编写代码，即可探索SAE功能，并分析模型行为易于使用的资源库：提供与SAEs和Gemma 2交互的代码和示例解读语言模型内部的运作机制语言模型的可解释性问题，为什么这么难？这要从LLM的运行原理说起。当你向LLM提出问题时，它会将你的文本输入转换为一系列「激活」。这些激活映射了你输入的词语之间的关系，帮助模型在不同词语之间建立联系，据此生成答案。在模型处理文本输入的过程中，模型神经网络中不同层的激活代表了多个逐步高级的概念，这些概念被称为「特征」。例如，模型的早期层可能会学习到像乔丹打篮球这样的事实，而后期层可能会识别出更复杂的概念，例如文本的真实性。用稀疏自编码器解读模型激活的示例——模型是如何回忆「光之城是巴黎」这一事实的。可以看到与法语相关的概念存在，而无关的概念则不存在然而，可解释性研究人员却一直面临着一个关键问题：模型的激活，是许多不同特征的混合物。在研究的早期，研究人员希望神经网络激活中的特征能与单个神经元（即信息节点）对齐。但不幸的是，在实践中，神经元对许多无关特征都很活跃。这也就意味着，没有什么明显的方法，能判断出哪些特征是激活的一部分。而这，恰恰就是稀疏自编码器的用武之地。要知道，一个特定的激活只会是少数特征的混合，尽管语言模型可能能够检测到数百万甚至数十亿个特征（也就是说，模型是稀疏地使用特征）。例如，语言模型在回答关于爱因斯坦的问题时会想到相对论，而在写关于煎蛋卷时会想到鸡蛋，但在写煎蛋卷时，可能就不会想到相对论了。稀疏自编码器就是利用了这一事实，来发现一组潜在的特征，并将每个激活分解为少数几个特征。研究人员希望，稀疏自编码器完成这项任务的最佳方式，就是找到语言模型实际使用的基本特征。重要的是，在这个过程中，研究人员并不会告诉稀疏自编码器要寻找哪些特征。因此，他们就能发现此前未曾预料过的丰富结构。然而，因为他们无法立即知道这些被发现特征的确切含义，他们就会在稀疏自编码器认为特征「触发」的文本示例中，寻找有意义的模式。以下是一个示例，其中根据特征触发的强度，用蓝色渐变高亮显示了特征触发的 Token：用稀疏自编码器发现特征激活的示例。每个气泡代表一个 Token（单词或词片段），可变的蓝色说明了这个特征的存在强度。在这个例子中，该特征显然与成语有关 Gemma Scope有何独特之处？比起此前的稀疏自编码器，Gemma Scope有许多独特之处。前者主要集中在研究小型模型的内部工作原理或大型模型的单层。但如果要把可解释性研究做得更深，就涉及到了解码大型模型中的分层复杂算法。这一次，谷歌DeepMind的研究者在Gemma 2 2B和9B的每一层和子层的输出上，都训练了稀疏自编码器。这样构建出来的Gemma Scope，总共生成了超过400个稀疏自编码器，获得了超过 3000万个特征（尽管许多特征可能重叠）。这样，研究人员就能够研究特征在整个模型中的演变方式，以及它们如何相互作用，如何组合形成更复杂的特征。此外，Gemma Scope使用了最新的、最先进的JumpReLU SAE架构进行了训练。原始的稀疏自编码器架构，在检测特征存在与估计强度这两个目标之间，往往难以平衡。而JumpReLU架构，就能更容易地实现二者的平衡，并且显著减少误差。当然，训练如此多的稀疏自编码器，也是一项重大的工程挑战，需要大量的计算资源。在这个过程中，研究者使用了Gemma 2 9B训练计算量的约15%（不包括生成蒸馏标签所需的计算），将约20 PiB的激活保存到了磁盘（大约相当于一百万份英文维基百科的内容），总共生成了数千亿个稀疏自编码器参数。参考资料： https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/

谷歌开源最强端侧小模型：2B参数越级跑赢GPT-3.5-Turbo，苹果15Pro运行飞快

谷歌也来卷「小」模型了，一出手就是王炸，胜过了比自己参数多得多的GPT-3.5、Mixtral竞品模型。今年 6 月底，谷歌开源了 9B、27B 版 Gemma 2 模型系列，并且自亮相以来，27B 版本迅速成为了大模型竞技场 LMSYS Chatbot Arena 中排名最高的开放模型之一，在真实对话任务中比其两倍规模以上的模型表现还要好。如今，仅仅过去了一个多月，谷歌在追求负责任 AI 的基础上，更加地考虑该系列模型的安全性和可访问性，并有了一系列新成果。此次，Gemma 2 不仅有了更轻量级「Gemma 2 2B」版本，还构建一个安全内容分类器模型「ShieldGemma」和一个模型可解释性工具「Gemma Scope」。具体如下： Gemma 2 2B 具有内置安全改进功能，实现了性能与效率的强大平衡； ShieldGemma 基于 Gemma 2 构建，用于过滤 AI 模型的输入和输出，确保用户安全； Gemma Scope 提供对模型内部工作原理的无与伦比的洞察力。其中，Gemma 2 2B 无疑是「最耀眼的仔」，它在大模型竞技场 LMSYS Chatbot Arena 中的结果令人眼前一亮：仅凭 20 亿参数就跑出了 1130 分，这一数值要高于 GPT-3.5-Turbo（0613）和 Mixtral-8x7b。这也意味着，Gemma 2 2B 将成为端侧模型的最佳选择。苹果机器学习研究（MLR）团队研究科学家 Awni Hannun 展示了 Gemma 2 2B 跑在 iPhone 15 pro 上的情况，使用了 4bit 量化版本，结果显示速度是相当快。视频来源：https://x.com/awnihannun/status/1818709510485389563 此外，对于前段时间很多大模型都翻了车的「9.9 和 9.11 谁大」的问题，Gemma 2 2B 也能轻松拿捏。图源：https://x.com/tuturetom/status/1818823253634564134 与此同时，从谷歌 Gemma 2 2B 的强大性能也可以看到一种趋势，即「小」模型逐渐拥有了与更大尺寸模型匹敌的底气和效能优势。这种趋势也引起了一些业内人士的关注，比如知名人工智能科学家、Lepton AI 创始人贾扬清提出了一种观点：大语言模型（LLM）的模型大小是否正在走 CNN 的老路呢？在 ImageNet 时代，我们看到参数大小快速增长，然后我们转向了更小、更高效的模型。这是在 LLM 时代之前，我们中的许多人可能已经忘记了。大型模型的曙光：我们以 AlexNet（2012）作为基线开始，然后经历了大约 3 年的模型大小增长。VGGNet（2014）在性能和尺寸方面都可称为强大的模型。缩小模型：GoogLeNet（2015）将模型大小从 GB 级缩小到 MB 级，缩小了 100 倍，同时保持了良好的性能。类似工作如 SqueezeNet（2015）和其他工作也遵循类似的趋势。合理的平衡：后来的工作如 ResNet（2015）、ResNeXT（2016）等，都保持了适中的模型大小。请注意，我们实际上很乐意使用更多的算力，但参数高效同样重要。设备端学习？MobileNet（2017）是谷歌的一项特别有趣的工作，占用空间很小，但性能却非常出色。上周，我的一个朋友告诉我「哇，我们仍然在使用 MobileNet，因为它在设备端具有出色的特征嵌入通用性」。是的，嵌入式嵌入是实实在在很好用。最后，贾扬清发出灵魂一问，「LLM 会遵循同样的趋势吗？」图像出自 Ghimire 等人论文《A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration》。 Gemma 2 2B 越级超越 GPT-3.5 Turbo Gemma 2 家族新增 Gemma 2 2B 模型，备受大家期待。谷歌使用先进的 TPU v5e 硬件在庞大的 2 万亿个 token 上训练而成。这个轻量级模型是从更大的模型中蒸馏而来，产生了非常好的结果。由于其占用空间小，特别适合设备应用程序，可能会对移动 AI 和边缘计算产生重大影响。事实上，谷歌的 Gemma 2 2B 模型在 Chatbot Arena Elo Score 排名中胜过大型 AI 聊天机器人，展示了小型、更高效的语言模型的潜力。下图表显示了 Gemma 2 2B 与 GPT-3.5 和 Llama 2 等知名模型相比的卓越性能，挑战了「模型越大越好」的观念。 Gemma 2 2B 提供了：性能卓越：在同等规模下提供同类最佳性能，超越同类其他开源模型；部署灵活且经济高效：可在各种硬件上高效运行，从边缘设备和笔记本电脑到使用云部署如 Vertex AI 和 Google Kubernetes Engine (GKE) 。为了进一步提高速度，该模型使用了 NVIDIA TensorRT-LLM 库进行优化，并可作为 NVIDIA NIM 使用。此外，Gemma 2 2B 可与 Keras、JAX、Hugging Face、NVIDIA NeMo、Ollama、Gemma.cpp 以及即将推出的 MediaPipe 无缝集成，以简化开发；开源且易于访问：可用于研究和商业应用，由于它足够小，甚至可以在 Google Colab 的 T4 GPU 免费层上运行，使实验和开发比以往更加简单。从今天开始，用户可以从 Kaggle、Hugging Face、Vertex AI Model Garden 下载模型权重。用户还可以在 Google AI Studio 中试用其功能。下载权重地址：https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f Gemma 2 2B 的出现挑战了人工智能开发领域的主流观点，即模型越大，性能自然就越好。Gemma 2 2B 的成功表明，复杂的训练技术、高效的架构和高质量的数据集可以弥补原始参数数量的不足。这一突破可能对该领域产生深远的影响，有可能将焦点从争夺越来越大的模型转移到改进更小、更高效的模型。 Gemma 2 2B 的开发也凸显了模型压缩和蒸馏技术日益增长的重要性。通过有效地将较大模型中的知识提炼成较小的模型，研究人员可以在不牺牲性能的情况下创建更易于访问的 AI 工具。这种方法不仅降低了计算要求，还解决了训练和运行大型 AI 模型对环境影响的担忧。 ShieldGemma：最先进的安全分类器技术报告：https://storage.googleapis.com/deepmind-media/gemma/shieldgemma-report.pdf ShieldGemma 是一套先进的安全分类器，旨在检测和缓解 AI 模型输入和输出中的有害内容，帮助开发者负责任地部署模型。 ShieldGemma 专门针对四个关键危害领域进行设计：仇恨言论骚扰色情内容危险内容这些开放分类器是对负责任 AI 工具包（Responsible AI Toolkit）中现有安全分类器套件的补充。借助 ShieldGemma，用户可以创建更加安全、更好的 AI 应用 SOTA 性能：作为安全分类器，ShieldGemma 已经达到行业领先水平；规模不同：ShieldGemma 提供各种型号以满足不同的需求。2B 模型非常适合在线分类任务，而 9B 和 27B 版本则为不太关心延迟的离线应用程序提供了更高的性能。如下表所示，ShieldGemma (SG) 模型（2B、9B 和 27B）的表现均优于所有基线模型，包括 GPT-4。 Gemma Scope：让模型更加透明 Gemma Scope 旨在帮助 AI 研究界探索如何构建更易于理解、更可靠的 AI 系统。其为研究人员和开发人员提供了前所未有的透明度，让他们能够了解 Gemma 2 模型的决策过程。Gemma Scope 就像一台强大的显微镜，它使用稀疏自编码器 (SAE) 放大模型的内部工作原理，使其更易于解释。 Gemma Scope 技术报告：https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf SAE 可以帮助用户解析 Gemma 2 处理的那些复杂信息，将其扩展为更易于分析和理解的形式，因而研究人员可以获得有关 Gemma 2 如何识别模式、处理信息并最终做出预测的宝贵见解。以下是 Gemma Scope 具有开创性的原因：开放的 SAE：超过 400 个免费 SAE，涵盖 Gemma 2 2B 和 9B 的所有层；交互式演示：无需在 Neuronpedia 上编写代码即可探索 SAE 功能并分析模型行为；易于使用的存储库：提供了 SAE 和 Gemma 2 交互的代码和示例。参考链接： https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/

谷歌狂卷小模型，20亿参数Gemma 2赶超GPT-3.5，实测iPhone上跑得飞快

每秒40 Token，谷歌开源20亿参数“小钢炮”。编辑 | 李水青谷歌DeepMind的开源小模型家族，又迎来新成员！智东西8月1日消息，今日凌晨，谷歌DeepMind开源了轻量级模型Gemma 2 2B，其在大模型竞技场上的分数超越了GPT-3.5、Llama 2 70B等更大参数的模型。 ▲Gemma 2 2B 只有20亿参数使得Gemma 2 2B可以轻松在手机、PC等终端设备上快速运行。开发者实测在Google AI Studio上，其推理速度达到30~40 tokens/s。 ▲开发者测试Gemma 2 2B 与Gemma 2 2B一起推出的，还有用于增强模型可解释性的工具Gemma Scope，以及用于过滤有害内容的安全分类模型ShieldGemma。 Gemma Scope基于稀疏自动编码器（SAE）放大模型中的特定点，并采用JumpReLU架构对其进行优化，从而帮助解析模型中处理的密集复杂信息，像一个显微镜一样让研究人员能“看到”模型内部。 ShieldGemma则针对仇恨言论、骚扰、色情内容、危险内容四个危害领域构建，在响应测试中超过GPT-4等基准模型。 Gemma系列模型最初在今年2月推出，是谷歌DeepMind在Gemini模型的经验基础上构建的开源模型。6月，谷歌推出第二代开源模型Gemma 2，包括9B、27B两种参数规模，其中27B模型迅速在LMSYS大模型竞技场上跃升开源模型前沿。 01. 击败35倍参数大模型比大小没难倒Gemma 2 Gemma 2 2B是从更大规模的模型中提炼而来的，是继27B、9B后谷歌推出的第三款Gemma 2模型。作为一款只有20亿参数的轻量模型，Gemma 2 2B并没有牺牲性能来换轻便。在LMSYS大模型竞技场（Chatbot Arena）排行榜中，Gemma 2 2B以1126分的成绩超越了GPT-3.5，以及其数十倍参数规模的Mixtral 8x7B、Llama 2 70B模型。 ▲Gemma 2 2B在大模型竞技场的成绩有网友测试了Gemma 2 2B在众多大模型上“翻车”的9.9和9.11比大小问题，Gemma 2 2B迅速给出了正确答案。 ▲Gemma 2 2B答题运行速度是轻量级模型的一大优势。具体有多快呢？苹果机器学习研究员Awni Hannun在他的iPhone 15 pro上的MLX Swift测试了Gemma 2 2B，其推理速度肉眼可见的快。 ▲Gemma 2 2B运行速度开发者Tom Huang实测后称，其在Google AI Studio上运行速度大概30~40 tokens/s，“比苹果的模型推得快”。在部署方面，Gemma 2 2B提供灵活的部署方式，可在各种硬件上高效运行，包括边缘设备、笔记本电脑，或是基于Vertex AI进行云部署。开发者可以在Hugging Face、Kaggle等平台下载Gemma 2 2B的模型权重，用于研究和商业应用，也可以在Google AI Studio中试用其功能。开源地址： https://huggingface.co/google/gemma-2-2b 02. 针对四类内容构建分类器响应率优于GPT-4 为了提升模型的安全性和可访问性，谷歌推出了一套基于Gemma 2构建的安全内容分类器模型ShieldGemma，用于过滤AI模型的输入和输出，是对谷歌的负责任AI工具包中现有安全分类器套件的补充。 ▲ShieldGemma工作原理 ShieldGemma针对仇恨言论、骚扰、色情内容、危险内容这四个危害领域构建，提供多种模型尺寸以满足不同的需求，包括2B、9B和27B。其中，2B参数模型适合在线分类任务，9B和27B版本则用于为离线应用程序提供更高性能。在外部数据集上的测评结果中，ShieldGemma超越了OpenAI Mod、GPT-4等基线模型。 ▲ShieldGemma测评结果 ShieldGemma的技术报告也同步公开，其中解读了该模型的构建方法、数据来源以及有效性。在四类有害内容的响应测试上，三个规模的ShieldGemma响应率都优于GPT-4。 ▲ShieldGemma响应测试技术报告地址： https://storage.googleapis.com/deepmind-media/gemma/shieldgemma-report.pdf 03. 大模型内部“显微镜” 零代码分析模型行为为了研究语言模型内部的工作原理，谷歌推出一套全面、开放的稀疏自动编码器Gemma Scope。它就像一个显微镜，能帮助研究人员“看到”模型内部，从而更好地理解工作原理。 Gemma Scope使用稀疏自动编码器（SAE）放大模型中的特定点，这些SAE可帮助解析模型中处理的密集复杂信息，将其扩展为更易于分析和理解的形式。 ▲使用SAE解释模型激活的程式化表示通过研究这些扩展的视图，研究人员可以了解Gemma 2如何识别模式、处理信息，并最终做出预测，从而探索如何构建更易于理解、更可靠、更可靠的AI系统。此前，对SAE的研究主要集中于研究微型模型或大型模型中，单层的内部工作原理。而Gemma Scope的突破之处在于，它在Gemma 2模型的每个层和子层输出上训练SAE。其共生成了400多个SAE，学习了3000多万个特征。 ▲Gemma Scope的SAE发现特征的示例激活 Gemma Scope 还采用了全新的JumpReLU SAE架构进行训练。原始的SAE架构很难平衡检测哪些特征存在，和估计其强度这两个目标。JumpReLU架构可以更轻松地实现这种平衡，从而显著减少错误。 Gemma Scope共开放了超过400个免费SAE，涵盖Gemma 2 2B和9B的所有层，并提供交互式演示，研究人员不需要编写代码即可研究SAE特性并分析模型行为。 ▲Gemma Scope交互式演示演示地址： https://www.neuronpedia.org/gemma-scope 技术报告地址： https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf 04. 结语：生成式AI的风刮向小模型和AI安全生成式AI发展至今，模型从“卷”参数“卷”规模，到现在“卷”轻便“卷”安全，体现了在技术落地的过程中，离用户更近、成本更低、更能满足特定需求的重要性。 AI PC、AI手机逐渐进入消费者的生活，在这个过程中，如何将大模型“塞进”小巧的终端设备，并且保障用户的隐私安全，是各大AI厂商亟待解决的问题。

谷歌 Gemma 2 2B 发布火爆，小模型如何撑起大格局？

作者丨陈鹭伊编辑丨岑峰语言模型的“小时代”正式到来？北京时间8月1日凌晨（当地时间7月31日下午），Google深夜放出大招，发布了其Gemma系列开源语言模型的更新，在AI领域引发了巨大的震动。Google Developer的官方博客宣布，与6月发布的27B和9B参数版本相比，新的2B参数模型在保持卓越性能的同时，实现了“更小、更安全、更透明”的三大突破。小，但更好 Gemma 2 2B版本，这一通过蒸馏学习技术精心打磨的成果，不仅优化了NVIDIA TensorRT-LLM库，更在边缘设备到云端的多种硬件上展现出了卓越的运行能力。更重要的是，较小的参数量大大降低了研究和开发的门槛，使得Gemma 2 2B能够在Google Colab的免费T4 GPU服务上流畅运行，为用户带来了灵活且成本效益高的解决方案。大模型竞技场LMsys上，Gemma 2 2B的发布也迅速引起了广泛关注。LMsys第一时间转发了Google Deepmind的推文，对超越了参数量10倍于Gemma 2 2B版本的“老前辈”GPT-3.5-Tubro表示祝贺。 Google在与OpenAI的LLM竞争中虽然未能胜出，但其SLM的发展势头却愈发强劲。今年二月，Google 推出了 Gemma 系列模型，这些模型设计更为高效和用户友好。Gemma 模型可以轻松运行在各种日常设备上，如智能手机、平板电脑和笔记本电脑，无需特殊硬件或复杂优化。 Gemma 2模型的技术创新点在于引入了Gemma Scope功能，这是一套开放的稀疏自编码器（Sparse AutoeEncoders, SAEs），新模型包含400多个SAEs，用于分析 Gemma 2 2B 和 9B 模型的每一层和子层，为研究人员提供了理解语言模型内部工作原理的强大工具。 Google Deepmind 语言模型可解释性团队则是通过官方博客对 Gemma Scope 进行了更多的技术分析。该团队称，Gemma Scope旨在帮助研究人员理解Gemma 2语言模型的内部工作原理，推动可解释性研究，构建更强大的系统，开发模型幻觉保护措施，防范自主AI代理的风险。稀疏自动编码器（SAE）将作为“显微镜”，帮助研究人员观察语言模型内部。值得注意的是，尽管Gemma 2 2B为开发者提供了一种灵活且成本效益高的解决方案，但在训练阶段仍然需要投入大量的计算资源。根据Deepmind博客，Gemma Scope的训练使用了约相当于15%的Gemma 2 9B训练计算资源（或GPT3的22%训练计算资源）。 SLM与开源的“逆袭” 在Gemma 2 2B发布后，业界反响热烈。雷峰网GAIR硅谷自动驾驶峰会（2018）嘉宾、UC Berkeley教授Anca Dragan （推特：@ancadianadragan ）第一时间发表多条推文对Gemma 2的SAE机制进行了解读。她表示，如此大的计算资源使得纯粹的学术研究机构难以参与其中，但之后学术界会进一步关注如何利用Gemma Scope的SAE机制来提高模型的解释性和AI的安全性。计算语言学家、DAIR.AI的联合创始人Elvis Saravia （推特：@omarsar0 ）也在第一时间对Gemma 2 2B进行了测试，对Gemma 2的SAE机制给予了高度评价。随着2024年的到来，大模型的光环似乎正在逐渐褪去，而如何将模型做小，正成为今年语言模型发展的重要趋势。2023年的“百模大战”虽然激烈，但大模型的商业价值有限；相比之下，小模型在成本和效率上展现出了更大的优势。甚至“暴力美学”的倡导者、OpenAI CEO Sam Altman也早早承认，“大模型”时代可能走向结束，未来我们会通过其他方式来改进它们。在技术上，通过如蒸馏压缩和参数共享等手段，可以显著降低模型规模同时保持性能。Gemma 2 2B版本的亮眼表现，无疑为下一步的大模型研究提供了重要方向。 Google的另一系列语言模型Gemini，以其不公开源代码的特性，专为Google自家产品及开发者使用，与Gemma系列形成鲜明对比。而META的Llama系列则高举“开源”大旗，向OpenAI的GPT系列发起了强有力的挑战。在过去一年中，OpenAI的GPT系列一直是这个领域无可争议的“王者”，在LMsys的“大模型竞技场”，GPT-4及其后续版本GPT4-o在大多数时间一直牢牢占据第一的位置，仅有一次被Claude 3.5 Sonnet短暂超越。但在2024，开始有越来越多的模型向GPT系列发起了冲击。除了Google的Gemini和Gemma系列外，另一有力竞争者是META的Llama系列。与OpenAI的闭源（OpenAI也因此称为”Close AI”)路径不同，META的Llama系列则是高举开源大旗的代表。就在数天前，Meta CEO马克·扎克伯格(Mark Zuckerberg)在“史上最强开源模型”Llama 3.1发布之际，发表了题为“Open Source AI is the Path Forward”的公开信，强调了开源AI在推动AI发展中的重要性。在Llama 3.1发布后，META AI首席人工智能学家、2018年图灵奖得主Yann Lecun（推特：@ylecun）除了发布了多篇技术角度的推文外，昨天还转发了科技网站Arstechnica的一篇关于“人工智能安全”法案SB1047看法的文章，为“开源AI”争取空间。值得注意的是，虽然Llama系列在以大众评分为依据的LMsys“大模型竞技场”上不敌GPT-4系列，但在另一个以专家评分的竞技场“Scale Leadboard”上却在多个项目中超越了GPT-4系列。目前在Scale Leadboard的6个评测项目上，GPT-4系列仅在Spanish（西班牙语）和Methodology（方法论）上领先。 “Scale Leadboard”是由AI数据标注创企业Scale.ai所创立的排行榜。其创始人、95后华裔天才Alexanda Wang是当前硅谷最受关注的创业新星之一，目前Scale.ai为几乎所有领先的AI模型提供数据支持，并与OpenAI、Meta、微软等组织保持良好关系。目前Scale.ai的估值为138亿美元。 Gemma 2的发布，不仅是Google在AI领域的一次自我超越，更是对整个行业的一次挑战。无论是“小型化”还是“开源”，都预示着2024年将是语言模型研究的又一个春天。让我们拭目以待，Gemma 2代表的“小模型”将如何重塑AI的未来。让大模型的暴风雨来得更猛烈些吧。

截至今年 6 月底，中央企业智能算力规模翻倍增长；谷歌Gemma 2小模型：iPhone也能运行的AI小钢炮

📊 OpenAI 测试长输出版 GPT-4o：单次 64K tokens，每百万 tokens 输入 6 美元、输出 18 美元 OpenAI正在测试长输出版GPT-4o，该版本每次请求最多可输出64K tokens，为用户提供更长的连续文本生成能力。然而，由于长输出版本的推理成本较高，OpenAI对其定价也相应增加，每百万 tokens输入价格为6美元，输出价格为18美元。这一变化可能会对依赖GPT-4o进行大规模文本生成的用户产生影响。 📰 微软将OpenAI列为人工智能及搜索竞争对手微软在最新提交的10-K文件中，将OpenAI正式列为竞争对手，这标志着两者在人工智能领域的合作关系出现微妙变化。尽管OpenAI发言人表示双方关系未变，微软仍是其良好合作伙伴，但这一变动无疑反映了人工智能领域竞争格局的新动态。同时，OpenAI近期发布的SearchGPT搜索引擎原型也显示了其在搜索市场的雄心，预示着未来可能与微软在搜索广告领域展开竞争。 🌐 OpenAI与美国人工智能安全研究所合作 OpenAI创始人Sam Altman宣布，公司正在与美国人工智能安全研究所进行合作，这一举措旨在加强人工智能的安全性和可靠性。随着人工智能技术的快速发展，确保其安全性已成为业界关注的重点。OpenAI此举不仅展示了其对人工智能安全性的重视，也为整个行业树立了积极的典范，推动了人工智能安全研究的发展。 📍 欧盟《人工智能法案》正式生效，罚款最高达全球年营业额 7% 全球首部全面监管人工智能的法规——欧盟《人工智能法案》已于8月1日正式生效。该法案旨在确保在欧盟开发和使用的人工智能是值得信赖的，并有保障措施保护人们的基本权利。法案对违反规定的公司设定了高额罚款，最高可达全球年营业额的7%。此外，法案还对不同风险等级的人工智能应用提出了具体要求，包括最小风险、特定透明度风险、高风险和不可接受风险四类。 📰 截至今年 6 月底，中央企业智能算力规模翻倍增长据央视网报道，截至今年6月底，中央企业智能算力规模实现了翻倍增长。工信部的数据显示，智能算力在全国算力总规模中的比重已经超过30%，显示出中国算力结构的不断优化。上海、呼和浩特等地已建成万卡集群，初步实现多元异构算力调度，为大规模应用落地提供了有力支撑。多地也在加快布局人工智能产业新赛道，如北京市计划到2025年底形成3-5个基础大模型产品、100个行业大模型产品和1000个行业成功案例。 📊 我国生成式AI服务大模型超180个，注册用户突破5.64亿在第十二届互联网安全大会上，中央网络安全和信息化委员会办公室副主任王京涛透露，我国生成式人工智能服务大模型数量已达180多个，注册用户超过5.64亿，显示出我国在该领域的快速发展和广泛应用。王京涛还提出了推进国家网络安全体系现代化的三点建议，强调要加强协调联动、突出重点防护，并夯实工作基础，以构建教育、技术、产业融合发展的良性生态。 🪙 谷歌Gemma 2小模型：iPhone也能运行的AI小钢炮谷歌DeepMind近日发布了Gemma 2 2B，一款轻量级的小模型，其参数仅为2.6B，却在LMSYS竞技场上超越了GPT-3.5和Mixtral 8x7B。这款模型在MMLU和MBPP基准测试中分别取得了56.1和36.6的优异成绩，相比前代模型性能提升超过10%。Gemma 2 2B不仅能在手机、笔记本等终端设备上运行，还能在云端的强大支持下完成部署。此外，谷歌还推出了基于Gemma 2的安全内容分类器ShieldGemma和可解释性工具Gemma Scope，进一步推动了负责任AI的发展。 🌟 Midjourney新版本上线即爆火！网友已玩疯：和摄影几乎没区别 Midjourney v6.1的发布引发了热烈反响，其生成的图像在真实性、细节和一致性上都有显著提升。新版本在人像处理上的表现尤为出色，几乎无可挑剔。然而，在多人场景的生成上仍存在挑战，如群像生成时的人物扭曲问题。尽管如此，Midjourney的这一重大更新无疑推动了AI绘画技术的发展，使其更接近于传统摄影艺术。 🚀 AI销售助手Sybill融资1100万美元，帮助销售每周节省5小时以上 Sybill，一家专注于为销售代表提供AI助理的初创公司，近日宣布在A轮融资中成功筹集了1100万美元。Sybill的AI助手通过分析通话和电子邮件记录，提供基于上下文的见解和总结，从而减轻销售人员的行政负担。这一策略帮助Sybill迅速打入市场，并获得了500多个付费客户的青睐。随着科技行业整体放缓，Sybill的业务反而因企业寻求成本削减和效率提升而增长。 🔍 Omdia：人形机器人今年迎来突破之年，2027 年全球出货将破万台市场研究机构Omdia预测，到2027年全球人形机器人出货量将超过1万台，到2030年将达到3.8万台，复合年增长率高达83%。人形机器人被视为下一个重大技术飞跃的代表，其发展受到生成式AI的推动。尽管目前大多数产品仍处于试验或概念验证阶段，但特斯拉、蔚来等公司已在汽车制造领域率先采用。人形机器人在制造业、物流、零售等多个领域展现出巨大潜力。