iPhone可跑2B小钢炮!谷歌Gemma 2来袭,最强显微镜剖解LLM大脑

谷歌DeepMind的小模型核弹来了,Gemma 2 2B直接击败了参数大几个数量级的GPT-3.5和Mixtral 8x7B!而同时发布的Gemma Scope,如显微镜一般打破LLM黑箱,让我们看清Gemma 2是如何决策的。 谷歌DeepMind的小模型,又上新了! 就在刚刚,谷歌DeepMind发布Gemma 2 2B。 它是从Gemma 2 27B中蒸馏而来。 虽然它的参数只有2.6B,但在LMSYS竞技场上的得分,已经超越了GPT-3.5和Mixtral 8x7B! 在MMLU和MBPP基准测试中,它分别取得了56.1和36.6的优异成绩;比起前代模型Gemma 1 2B,它的性能超过了10%。 小模型击败了大几个数量级的大模型,再一次印证了最近业界非常看好的小模型方向。 谷歌在今天,一共公布了Gemma 2家族的三个新成员: Gemma 2 2B: 轻量级2B模型,在性能和效率之间实现了最大的平衡 ShieldGemma: 基于Gemma 2构建的安全内容分类器模型,用于过滤AI模型的输入和输出,确保用户安全 Gemma Scope: 一种可解释性工具,提供对模型内部运行机制的无与伦比的洞察 6月,27B和9B Gemma 2模型诞生。 自发布以来,27B模型迅速成为大模型排行榜上,排名前列的开源模型之一,甚至在实际对话中表现超过了参数数量大两倍的流行模型。 Gemma 2 2B:即刻在设备上使用 轻量级小模型Gemma 2 2B,是从大模型中蒸馏而来,性能毫不逊色。 在大模型竞技场LMSYS上,新模型取得令人印象深刻的1130分,与10倍参数的模型不相上下。 GPT-3.5-Turbo-0613得分为1117,Mixtral-8x7b得分为1114。 足见,Gemma 2 2B是最好的端侧模型。 有网友在iPhone 15 Pro上,让量化后的Gemma 2 2B在MLX Swift上运行,速度快到惊人。 具体来说,它能够在各种终端设备,包括手机、笔记本,甚至是使用Vertex AI和Google Kubernetes Engine(GKE)强大的云,皆能完成部署。 为了让模型加速,它通过NVIDIA TensorRT-LLM完成了优化,在NVIDIA NIM平台也可使用。 优化后的模型适用于各种平台部署,包括数据中心、云、本地工作站、PC 和边缘设备。 它还可以支持RTX、RTX GPU、Jetson模块,完成边缘化AI部署。 此外,Gemma 2 2B无缝集成了Keras、JAX、Hugging Face、NVIDIA NeMo、Ollama、Gemma.cpp等,并很快将与MediaPipe集成,实现简化开发。 当然,与Gemma 2一样,2B模型也同样可以用来研究和商用。 甚至,由于其参数量足够下,它可以在Google Colab的免费T4 GPU层上运行,降低了开发门槛。 目前,每位开发者都可以从Kaggle、Hugging Face、Vertex AI Model Garden下载Gemma 2的模型权重,也可在Google AI Studio中试用其功能。 仓库地址:https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f ShieldGemma:最先进的安全分类器 正如其名,ShieldGemma是最先进的安全分类器,确保AI输出内容具有吸引力、安全、包容,检测和减少有害内容输出。 ShieldGemma的设计专门针对四个关键的有害领域: – 仇恨言论 – 骚扰内容 – 露骨内容 – 危险内容 这些开源分类器,是对谷歌现有的负责任AI工具包中安全分类器套件补充。 该工具包包括一种,基于有限数据点构建针对特定策略分类器的方法,以及通过API提供的现成Google Cloud分类器。 ShieldGemma基于Gemma 2构建,是行业领先的安全分类器。 它提供了各种模型参数规模,包括2B、9B、27B,都经过英伟达速度优化,在各种硬件中可以高效运行。 其中,2B非常适合在线分类任务,而9B和27B版本则为对延迟要求较低的离线应用提供更高性能。 Gemma Scope:通过开源稀疏自编码器揭示AI决策过程 此次同时发布的另一大亮点,就是开源稀疏自编码器——Gemma Scope了。 语言模型的内部,究竟发生了什么?长久以来,这个问题一直困扰着研究人员和开发者。 语言模型的内部运作方式往往是一个谜,即使对于训练它们的研究人员,也是如此。 而Gemma Scope就仿佛一个强大的显微镜,通过稀疏自编码器 (SAEs) 放大模型中的特定点,从而使模型的内部工作更易于解释。 有了Gemma Scope以后,研究人员和开发者就获得了前所未有的透明度,能够深入了解Gemma 2模型的决策过程。 Gemma Scope是数百个适用于Gemma 2 9B和Gemma 2 2B的免费开放稀疏自动编码器 (SAE) 的集合。 这些SAEs是专门设计的神经网络,可以帮助我们解读由Gemma 2处理的密集、复杂信息,将其扩展成更易于分析和理解的形式。 通过研究这些扩展视图,研究人员就可以获得宝贵的信息,了解Gemma 2如何识别模式、处理信息、做出预测。 有了Gemma Scope,AI社区就可以更容易地构建更易理解、负责任和可靠的AI系统了。 同时,谷歌DeepMind还放出了一份20页的技术报告。 技术报告:https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf 总结来说, Gemma Scope有以下3个创新点—— 开源SAEs:超过400个免费提供的SAEs,覆盖Gemma 2 2B和9B的所有层 互动演示:在Neuronpedia上无需编写代码,即可探索SAE功能,并分析模型行为 易于使用的资源库:提供与SAEs和Gemma 2交互的代码和示例 解读语言模型内部的运作机制 语言模型的可解释性问题,为什么这么难? 这要从LLM的运行原理说起。 当你向LLM提出问题时,它会将你的文本输入转换为一系列「激活」。这些激活映射了你输入的词语之间的关系,帮助模型在不同词语之间建立联系,据此生成答案。 在模型处理文本输入的过程中,模型神经网络中不同层的激活代表了多个逐步高级的概念,这些概念被称为「特征」。 例如,模型的早期层可能会学习到像乔丹打篮球这样的事实,而后期层可能会识别出更复杂的概念,例如文本的真实性。 用稀疏自编码器解读模型激活的示例——模型是如何回忆「光之城是巴黎」这一事实的。可以看到与法语相关的概念存在,而无关的概念则不存在 然而,可解释性研究人员却一直面临着一个关键问题:模型的激活,是许多不同特征的混合物。 在研究的早期,研究人员希望神经网络激活中的特征能与单个神经元(即信息节点)对齐。 但不幸的是,在实践中,神经元对许多无关特征都很活跃。 这也就意味着,没有什么明显的方法,能判断出哪些特征是激活的一部分。 而这,恰恰就是稀疏自编码器的用武之地。 要知道,一个特定的激活只会是少数特征的混合,尽管语言模型可能能够检测到数百万甚至数十亿个特征(也就是说,模型是稀疏地使用特征)。 例如,语言模型在回答关于爱因斯坦的问题时会想到相对论,而在写关于煎蛋卷时会想到鸡蛋,但在写煎蛋卷时,可能就不会想到相对论了。 稀疏自编码器就是利用了这一事实,来发现一组潜在的特征,并将每个激活分解为少数几个特征。 研究人员希望,稀疏自编码器完成这项任务的最佳方式,就是找到语言模型实际使用的基本特征。 重要的是,在这个过程中,研究人员并不会告诉稀疏自编码器要寻找哪些特征。 因此,他们就能发现此前未曾预料过的丰富结构。 然而,因为他们无法立即知道这些被发现特征的确切含义,他们就会在稀疏自编码器认为特征「触发」的文本示例中,寻找有意义的模式。 以下是一个示例,其中根据特征触发的强度,用蓝色渐变高亮显示了特征触发的 Token: 用稀疏自编码器发现特征激活的示例。每个气泡代表一个 Token(单词或词片段),可变的蓝色说明了这个特征的存在强度。在这个例子中,该特征显然与成语有关 Gemma Scope有何独特之处? 比起此前的稀疏自编码器,Gemma Scope有许多独特之处。 前者主要集中在研究小型模型的内部工作原理或大型模型的单层。 但如果要把可解释性研究做得更深,就涉及到了解码大型模型中的分层复杂算法。 这一次,谷歌DeepMind的研究者在Gemma 2 2B和9B的每一层和子层的输出上,都训练了稀疏自编码器。 这样构建出来的Gemma Scope,总共生成了超过400个稀疏自编码器,获得了超过 3000万个特征(尽管许多特征可能重叠)。 这样,研究人员就能够研究特征在整个模型中的演变方式,以及它们如何相互作用,如何组合形成更复杂的特征。 此外,Gemma Scope使用了最新的、最先进的JumpReLU SAE架构进行了训练。 原始的稀疏自编码器架构,在检测特征存在与估计强度这两个目标之间,往往难以平衡。而JumpReLU架构,就能更容易地实现二者的平衡,并且显著减少误差。 当然,训练如此多的稀疏自编码器,也是一项重大的工程挑战,需要大量的计算资源。 在这个过程中,研究者使用了Gemma 2 9B训练计算量的约15%(不包括生成蒸馏标签所需的计算),将约20 PiB的激活保存到了磁盘(大约相当于一百万份英文维基百科的内容),总共生成了数千亿个稀疏自编码器参数。 参考资料: https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/

谷歌开源最强端侧小模型:2B参数越级跑赢GPT-3.5-Turbo,苹果15Pro运行飞快

谷歌也来卷「小」模型了,一出手就是王炸,胜过了比自己参数多得多的GPT-3.5、Mixtral竞品模型。 今年 6 月底,谷歌开源了 9B、27B 版 Gemma 2 模型系列,并且自亮相以来,27B 版本迅速成为了大模型竞技场 LMSYS Chatbot Arena 中排名最高的开放模型之一,在真实对话任务中比其两倍规模以上的模型表现还要好。   如今,仅仅过去了一个多月,谷歌在追求负责任 AI 的基础上,更加地考虑该系列模型的安全性和可访问性,并有了一系列新成果。   此次,Gemma 2 不仅有了更轻量级「Gemma 2 2B」版本,还构建一个安全内容分类器模型「ShieldGemma」和一个模型可解释性工具「Gemma Scope」。具体如下: Gemma 2 2B 具有内置安全改进功能,实现了性能与效率的强大平衡; ShieldGemma 基于 Gemma 2 构建,用于过滤 AI 模型的输入和输出,确保用户安全; Gemma Scope 提供对模型内部工作原理的无与伦比的洞察力。 其中,Gemma 2 2B 无疑是「最耀眼的仔」,它在大模型竞技场 LMSYS Chatbot Arena 中的结果令人眼前一亮:仅凭 20 亿参数就跑出了 1130 分,这一数值要高于 GPT-3.5-Turbo(0613)和 Mixtral-8x7b。 这也意味着,Gemma 2 2B 将成为端侧模型的最佳选择。     苹果机器学习研究(MLR)团队研究科学家 Awni Hannun 展示了 Gemma 2 2B 跑在 iPhone 15 pro 上的情况,使用了 4bit 量化版本,结果显示速度是相当快。   视频来源:https://x.com/awnihannun/status/1818709510485389563 此外,对于前段时间很多大模型都翻了车的「9.9 和 9.11 谁大」的问题,Gemma 2 2B 也能轻松拿捏。   图源:https://x.com/tuturetom/status/1818823253634564134 与此同时,从谷歌 Gemma 2 2B 的强大性能也可以看到一种趋势,即「小」模型逐渐拥有了与更大尺寸模型匹敌的底气和效能优势。 这种趋势也引起了一些业内人士的关注,比如知名人工智能科学家、Lepton AI 创始人贾扬清提出了一种观点:大语言模型(LLM)的模型大小是否正在走 CNN 的老路呢? 在 ImageNet 时代,我们看到参数大小快速增长,然后我们转向了更小、更高效的模型。这是在 LLM 时代之前,我们中的许多人可能已经忘记了。 大型模型的曙光:我们以 AlexNet(2012)作为基线开始,然后经历了大约 3 年的模型大小增长。VGGNet(2014)在性能和尺寸方面都可称为强大的模型。 缩小模型:GoogLeNet(2015)将模型大小从 GB 级缩小到 MB 级,缩小了 100 倍,同时保持了良好的性能。类似工作如 SqueezeNet(2015)和其他工作也遵循类似的趋势。 合理的平衡:后来的工作如 ResNet(2015)、ResNeXT(2016)等,都保持了适中的模型大小。请注意,我们实际上很乐意使用更多的算力,但参数高效同样重要。 设备端学习?MobileNet(2017)是谷歌的一项特别有趣的工作,占用空间很小,但性能却非常出色。上周,我的一个朋友告诉我「哇,我们仍然在使用 MobileNet,因为它在设备端具有出色的特征嵌入通用性」。是的,嵌入式嵌入是实实在在很好用。 最后,贾扬清发出灵魂一问,「LLM 会遵循同样的趋势吗?」   图像出自 Ghimire 等人论文《A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration》。 Gemma 2 2B 越级超越 GPT-3.5 Turbo Gemma 2 家族新增 Gemma 2 2B 模型,备受大家期待。谷歌使用先进的 TPU v5e 硬件在庞大的 2 万亿个 token 上训练而成。 这个轻量级模型是从更大的模型中蒸馏而来,产生了非常好的结果。由于其占用空间小,特别适合设备应用程序,可能会对移动 AI 和边缘计算产生重大影响。 事实上,谷歌的 Gemma 2 2B 模型在 Chatbot Arena Elo Score 排名中胜过大型 AI 聊天机器人,展示了小型、更高效的语言模型的潜力。下图表显示了 Gemma 2 2B 与 GPT-3.5 和 Llama 2 等知名模型相比的卓越性能,挑战了「模型越大越好」的观念。   Gemma 2 2B 提供了: 性能卓越:在同等规模下提供同类最佳性能,超越同类其他开源模型; 部署灵活且经济高效:可在各种硬件上高效运行,从边缘设备和笔记本电脑到使用云部署如 Vertex AI 和 Google Kubernetes Engine (GKE) 。为了进一步提高速度,该模型使用了 NVIDIA TensorRT-LLM 库进行优化,并可作为 NVIDIA NIM 使用。此外,Gemma 2 2B 可与 Keras、JAX、Hugging Face、NVIDIA NeMo、Ollama、Gemma.cpp 以及即将推出的 MediaPipe 无缝集成,以简化开发; 开源且易于访问:可用于研究和商业应用,由于它足够小,甚至可以在 Google Colab 的 T4 GPU 免费层上运行,使实验和开发比以往更加简单。 从今天开始,用户可以从 Kaggle、Hugging Face、Vertex AI Model Garden 下载模型权重。用户还可以在 Google AI Studio 中试用其功能。 下载权重地址:https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f Gemma 2 2B 的出现挑战了人工智能开发领域的主流观点,即模型越大,性能自然就越好。Gemma 2 2B 的成功表明,复杂的训练技术、高效的架构和高质量的数据集可以弥补原始参数数量的不足。这一突破可能对该领域产生深远的影响,有可能将焦点从争夺越来越大的模型转移到改进更小、更高效的模型。 Gemma 2 2B 的开发也凸显了模型压缩和蒸馏技术日益增长的重要性。通过有效地将较大模型中的知识提炼成较小的模型,研究人员可以在不牺牲性能的情况下创建更易于访问的 AI 工具。这种方法不仅降低了计算要求,还解决了训练和运行大型 AI 模型对环境影响的担忧。 ShieldGemma:最先进的安全分类器 技术报告:https://storage.googleapis.com/deepmind-media/gemma/shieldgemma-report.pdf ShieldGemma 是一套先进的安全分类器,旨在检测和缓解 AI 模型输入和输出中的有害内容,帮助开发者负责任地部署模型。 ShieldGemma 专门针对四个关键危害领域进行设计: 仇恨言论 骚扰 色情内容 危险内容 这些开放分类器是对负责任 AI 工具包(Responsible AI Toolkit)中现有安全分类器套件的补充。 借助 ShieldGemma,用户可以创建更加安全、更好的 AI 应用 SOTA 性能:作为安全分类器,ShieldGemma 已经达到行业领先水平; 规模不同:ShieldGemma 提供各种型号以满足不同的需求。2B 模型非常适合在线分类任务,而 9B 和 27B 版本则为不太关心延迟的离线应用程序提供了更高的性能。 如下表所示,ShieldGemma (SG) 模型(2B、9B 和 27B)的表现均优于所有基线模型,包括 GPT-4。 Gemma Scope:让模型更加透明 Gemma Scope 旨在帮助 AI 研究界探索如何构建更易于理解、更可靠的 AI 系统。其为研究人员和开发人员提供了前所未有的透明度,让他们能够了解 Gemma 2 模型的决策过程。Gemma Scope 就像一台强大的显微镜,它使用稀疏自编码器 (SAE) 放大模型的内部工作原理,使其更易于解释。 Gemma Scope 技术报告:https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf SAE 可以帮助用户解析 Gemma 2 处理的那些复杂信息,将其扩展为更易于分析和理解的形式,因而研究人员可以获得有关 Gemma 2 如何识别模式、处理信息并最终做出预测的宝贵见解。 以下是 Gemma Scope 具有开创性的原因: 开放的 SAE:超过 400 个免费 SAE,涵盖 Gemma 2 2B 和 9B 的所有层; 交互式演示:无需在 Neuronpedia 上编写代码即可探索 SAE 功能并分析模型行为; 易于使用的存储库:提供了 SAE 和 Gemma 2 交互的代码和示例。 参考链接: https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/

谷歌狂卷小模型,20亿参数Gemma 2赶超GPT-3.5,实测iPhone上跑得飞快

每秒40 Token,谷歌开源20亿参数“小钢炮”。 编辑 |  李水青 谷歌DeepMind的开源小模型家族,又迎来新成员! 智东西8月1日消息,今日凌晨,谷歌DeepMind开源了轻量级模型Gemma 2 2B,其在大模型竞技场上的分数超越了GPT-3.5、Llama 2 70B等更大参数的模型。 ▲Gemma 2 2B 只有20亿参数使得Gemma 2 2B可以轻松在手机、PC等终端设备上快速运行。开发者实测在Google AI Studio上,其推理速度达到30~40 tokens/s。 ▲开发者测试Gemma 2 2B 与Gemma 2 2B一起推出的,还有用于增强模型可解释性的工具Gemma Scope,以及用于过滤有害内容的安全分类模型ShieldGemma。 Gemma Scope基于稀疏自动编码器(SAE)放大模型中的特定点,并采用JumpReLU架构对其进行优化,从而帮助解析模型中处理的密集复杂信息,像一个显微镜一样让研究人员能“看到”模型内部。 ShieldGemma则针对仇恨言论、骚扰、色情内容、危险内容四个危害领域构建,在响应测试中超过GPT-4等基准模型。 Gemma系列模型最初在今年2月推出,是谷歌DeepMind在Gemini模型的经验基础上构建的开源模型。6月,谷歌推出第二代开源模型Gemma 2,包括9B、27B两种参数规模,其中27B模型迅速在LMSYS大模型竞技场上跃升开源模型前沿。   01. 击败35倍参数大模型 比大小没难倒Gemma 2   Gemma 2 2B是从更大规模的模型中提炼而来的,是继27B、9B后谷歌推出的第三款Gemma 2模型。 作为一款只有20亿参数的轻量模型,Gemma 2 2B并没有牺牲性能来换轻便。在LMSYS大模型竞技场(Chatbot Arena)排行榜中,Gemma 2 2B以1126分的成绩超越了GPT-3.5,以及其数十倍参数规模的Mixtral 8x7B、Llama 2 70B模型。 ▲Gemma 2 2B在大模型竞技场的成绩 有网友测试了Gemma 2 2B在众多大模型上“翻车”的9.9和9.11比大小问题,Gemma 2 2B迅速给出了正确答案。 ▲Gemma 2 2B答题 运行速度是轻量级模型的一大优势。具体有多快呢?苹果机器学习研究员Awni Hannun在他的iPhone 15 pro上的MLX Swift测试了Gemma 2 2B,其推理速度肉眼可见的快。 ▲Gemma 2 2B运行速度 开发者Tom Huang实测后称,其在Google AI Studio上运行速度大概30~40 tokens/s,“比苹果的模型推得快”。 在部署方面,Gemma 2 2B提供灵活的部署方式,可在各种硬件上高效运行,包括边缘设备、笔记本电脑,或是基于Vertex AI进行云部署。 开发者可以在Hugging Face、Kaggle等平台下载Gemma 2 2B的模型权重,用于研究和商业应用,也可以在Google AI Studio中试用其功能。 开源地址: https://huggingface.co/google/gemma-2-2b   02. 针对四类内容构建分类器 响应率优于GPT-4   为了提升模型的安全性和可访问性,谷歌推出了一套基于Gemma 2构建的安全内容分类器模型ShieldGemma,用于过滤AI模型的输入和输出,是对谷歌的负责任AI工具包中现有安全分类器套件的补充。 ▲ShieldGemma工作原理 ShieldGemma针对仇恨言论、骚扰、色情内容、危险内容这四个危害领域构建,提供多种模型尺寸以满足不同的需求,包括2B、9B和27B。其中,2B参数模型适合在线分类任务,9B和27B版本则用于为离线应用程序提供更高性能。 在外部数据集上的测评结果中,ShieldGemma超越了OpenAI Mod、GPT-4等基线模型。 ▲ShieldGemma测评结果 ShieldGemma的技术报告也同步公开,其中解读了该模型的构建方法、数据来源以及有效性。在四类有害内容的响应测试上,三个规模的ShieldGemma响应率都优于GPT-4。 ▲ShieldGemma响应测试 技术报告地址: https://storage.googleapis.com/deepmind-media/gemma/shieldgemma-report.pdf   03. 大模型内部“显微镜” 零代码分析模型行为   为了研究语言模型内部的工作原理,谷歌推出一套全面、开放的稀疏自动编码器Gemma Scope。它就像一个显微镜,能帮助研究人员“看到”模型内部,从而更好地理解工作原理。 Gemma Scope使用稀疏自动编码器(SAE)放大模型中的特定点,这些SAE可帮助解析模型中处理的密集复杂信息,将其扩展为更易于分析和理解的形式。 ▲使用SAE解释模型激活的程式化表示 通过研究这些扩展的视图,研究人员可以了解Gemma 2如何识别模式、处理信息,并最终做出预测,从而探索如何构建更易于理解、更可靠、更可靠的AI系统。 此前,对SAE的研究主要集中于研究微型模型或大型模型中,单层的内部工作原理。而Gemma Scope的突破之处在于,它在Gemma 2模型的每个层和子层输出上训练SAE。其共生成了400多个SAE,学习了3000多万个特征。 ▲Gemma Scope的SAE发现特征的示例激活 Gemma Scope 还采用了全新的JumpReLU SAE架构进行训练。原始的SAE架构很难平衡检测哪些特征存在,和估计其强度这两个目标。JumpReLU架构可以更轻松地实现这种平衡,从而显著减少错误。 Gemma Scope共开放了超过400个免费SAE,涵盖Gemma 2 2B和9B的所有层,并提供交互式演示,研究人员不需要编写代码即可研究SAE特性并分析模型行为。 ▲Gemma Scope交互式演示 演示地址: https://www.neuronpedia.org/gemma-scope 技术报告地址: https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf   04. 结语:生成式AI的风 刮向小模型和AI安全   生成式AI发展至今,模型从“卷”参数“卷”规模,到现在“卷”轻便“卷”安全,体现了在技术落地的过程中,离用户更近、成本更低、更能满足特定需求的重要性。 AI PC、AI手机逐渐进入消费者的生活,在这个过程中,如何将大模型“塞进”小巧的终端设备,并且保障用户的隐私安全,是各大AI厂商亟待解决的问题。

谷歌 Gemma 2 2B 发布火爆,小模型如何撑起大格局?

作者丨陈鹭伊 编辑丨岑峰 语言模型的“小时代”正式到来? 北京时间8月1日凌晨(当地时间7月31日下午),Google深夜放出大招,发布了其Gemma系列开源语言模型的更新,在AI领域引发了巨大的震动。Google Developer的官方博客宣布,与6月发布的27B和9B参数版本相比,新的2B参数模型在保持卓越性能的同时,实现了“更小、更安全、更透明”的三大突破。 小,但更好 Gemma 2 2B版本,这一通过蒸馏学习技术精心打磨的成果,不仅优化了NVIDIA TensorRT-LLM库,更在边缘设备到云端的多种硬件上展现出了卓越的运行能力。 更重要的是,较小的参数量大大降低了研究和开发的门槛,使得Gemma 2 2B能够在Google Colab的免费T4 GPU服务上流畅运行,为用户带来了灵活且成本效益高的解决方案。 大模型竞技场LMsys上,Gemma 2 2B的发布也迅速引起了广泛关注。LMsys第一时间转发了Google Deepmind的推文,对超越了参数量10倍于Gemma 2 2B版本的“老前辈”GPT-3.5-Tubro表示祝贺。 Google在与OpenAI的LLM竞争中虽然未能胜出,但其SLM的发展势头却愈发强劲。今年二月,Google 推出了 Gemma 系列模型,这些模型设计更为高效和用户友好。Gemma 模型可以轻松运行在各种日常设备上,如智能手机、平板电脑和笔记本电脑,无需特殊硬件或复杂优化。 Gemma 2模型的技术创新点在于引入了Gemma Scope功能,这是一套开放的稀疏自编码器(Sparse AutoeEncoders, SAEs),新模型包含400多个SAEs,用于分析 Gemma 2 2B 和 9B 模型的每一层和子层,为研究人员提供了理解语言模型内部工作原理的强大工具。 Google Deepmind 语言模型可解释性团队则是通过官方博客对 Gemma Scope 进行了更多的技术分析。该团队称,Gemma Scope旨在帮助研究人员理解Gemma 2语言模型的内部工作原理,推动可解释性研究,构建更强大的系统,开发模型幻觉保护措施,防范自主AI代理的风险。稀疏自动编码器(SAE)将作为“显微镜”,帮助研究人员观察语言模型内部。 值得注意的是,尽管Gemma 2 2B为开发者提供了一种灵活且成本效益高的解决方案,但在训练阶段仍然需要投入大量的计算资源。根据Deepmind博客,Gemma Scope的训练使用了约相当于15%的Gemma 2 9B训练计算资源(或GPT3的22%训练计算资源)。 SLM与开源的“逆袭” 在Gemma 2 2B发布后,业界反响热烈。雷峰网GAIR硅谷自动驾驶峰会(2018)嘉宾、UC Berkeley教授Anca Dragan (推特:@ancadianadragan )第一时间发表多条推文对Gemma 2的SAE机制进行了解读。她表示,如此大的计算资源使得纯粹的学术研究机构难以参与其中,但之后学术界会进一步关注如何利用Gemma Scope的SAE机制来提高模型的解释性和AI的安全性。 计算语言学家、DAIR.AI的联合创始人Elvis Saravia (推特:@omarsar0 )也在第一时间对Gemma 2 2B进行了测试,对Gemma 2的SAE机制给予了高度评价。 随着2024年的到来,大模型的光环似乎正在逐渐褪去,而如何将模型做小,正成为今年语言模型发展的重要趋势。2023年的“百模大战”虽然激烈,但大模型的商业价值有限;相比之下,小模型在成本和效率上展现出了更大的优势。 甚至“暴力美学”的倡导者、OpenAI CEO Sam Altman也早早承认,“大模型”时代可能走向结束,未来我们会通过其他方式来改进它们。 在技术上,通过如蒸馏压缩和参数共享等手段,可以显著降低模型规模同时保持性能。Gemma 2 2B版本的亮眼表现,无疑为下一步的大模型研究提供了重要方向。 Google的另一系列语言模型Gemini,以其不公开源代码的特性,专为Google自家产品及开发者使用,与Gemma系列形成鲜明对比。而META的Llama系列则高举“开源”大旗,向OpenAI的GPT系列发起了强有力的挑战。 在过去一年中,OpenAI的GPT系列一直是这个领域无可争议的“王者”,在LMsys的“大模型竞技场”,GPT-4及其后续版本GPT4-o在大多数时间一直牢牢占据第一的位置,仅有一次被Claude 3.5 Sonnet短暂超越。 但在2024,开始有越来越多的模型向GPT系列发起了冲击。除了Google的Gemini和Gemma系列外,另一有力竞争者是META的Llama系列。与OpenAI的闭源(OpenAI也因此称为”Close AI”)路径不同,META的Llama系列则是高举开源大旗的代表。 就在数天前,Meta CEO马克·扎克伯格(Mark Zuckerberg)在“史上最强开源模型”Llama 3.1发布之际,发表了题为“Open Source AI is the Path Forward”的公开信,强调了开源AI在推动AI发展中的重要性。 在Llama 3.1发布后,META AI首席人工智能学家、2018年图灵奖得主Yann Lecun(推特:@ylecun)除了发布了多篇技术角度的推文外,昨天还转发了科技网站Arstechnica的一篇关于“人工智能安全”法案SB1047看法的文章,为“开源AI”争取空间。 值得注意的是,虽然Llama系列在以大众评分为依据的LMsys“大模型竞技场”上不敌GPT-4系列,但在另一个以专家评分的竞技场“Scale Leadboard”上却在多个项目中超越了GPT-4系列。目前在Scale Leadboard的6个评测项目上,GPT-4系列仅在Spanish(西班牙语)和Methodology(方法论)上领先。 “Scale Leadboard”是由AI数据标注创企业Scale.ai所创立的排行榜。其创始人、95后华裔天才Alexanda Wang是当前硅谷最受关注的创业新星之一,目前Scale.ai为几乎所有领先的AI模型提供数据支持,并与OpenAI、Meta、微软等组织保持良好关系。目前Scale.ai的估值为138亿美元。 Gemma 2的发布,不仅是Google在AI领域的一次自我超越,更是对整个行业的一次挑战。无论是“小型化”还是“开源”,都预示着2024年将是语言模型研究的又一个春天。让我们拭目以待,Gemma 2代表的“小模型”将如何重塑AI的未来。 让大模型的暴风雨来得更猛烈些吧。

截至今年 6 月底,中央企业智能算力规模翻倍增长;谷歌Gemma 2小模型:iPhone也能运行的AI小钢炮

📊 OpenAI 测试长输出版 GPT-4o:单次 64K tokens,每百万 tokens 输入 6 美元、输出 18 美元 OpenAI正在测试长输出版GPT-4o,该版本每次请求最多可输出64K tokens,为用户提供更长的连续文本生成能力。然而,由于长输出版本的推理成本较高,OpenAI对其定价也相应增加,每百万 tokens输入价格为6美元,输出价格为18美元。这一变化可能会对依赖GPT-4o进行大规模文本生成的用户产生影响。 📰 微软将OpenAI列为人工智能及搜索竞争对手 微软在最新提交的10-K文件中,将OpenAI正式列为竞争对手,这标志着两者在人工智能领域的合作关系出现微妙变化。尽管OpenAI发言人表示双方关系未变,微软仍是其良好合作伙伴,但这一变动无疑反映了人工智能领域竞争格局的新动态。同时,OpenAI近期发布的SearchGPT搜索引擎原型也显示了其在搜索市场的雄心,预示着未来可能与微软在搜索广告领域展开竞争。 🌐 OpenAI与美国人工智能安全研究所合作 OpenAI创始人Sam Altman宣布,公司正在与美国人工智能安全研究所进行合作,这一举措旨在加强人工智能的安全性和可靠性。随着人工智能技术的快速发展,确保其安全性已成为业界关注的重点。OpenAI此举不仅展示了其对人工智能安全性的重视,也为整个行业树立了积极的典范,推动了人工智能安全研究的发展。   📍 欧盟《人工智能法案》正式生效,罚款最高达全球年营业额 7% 全球首部全面监管人工智能的法规——欧盟《人工智能法案》已于8月1日正式生效。该法案旨在确保在欧盟开发和使用的人工智能是值得信赖的,并有保障措施保护人们的基本权利。法案对违反规定的公司设定了高额罚款,最高可达全球年营业额的7%。此外,法案还对不同风险等级的人工智能应用提出了具体要求,包括最小风险、特定透明度风险、高风险和不可接受风险四类。 📰 截至今年 6 月底,中央企业智能算力规模翻倍增长 据央视网报道,截至今年6月底,中央企业智能算力规模实现了翻倍增长。工信部的数据显示,智能算力在全国算力总规模中的比重已经超过30%,显示出中国算力结构的不断优化。上海、呼和浩特等地已建成万卡集群,初步实现多元异构算力调度,为大规模应用落地提供了有力支撑。多地也在加快布局人工智能产业新赛道,如北京市计划到2025年底形成3-5个基础大模型产品、100个行业大模型产品和1000个行业成功案例。 📊 我国生成式AI服务大模型超180个,注册用户突破5.64亿 在第十二届互联网安全大会上,中央网络安全和信息化委员会办公室副主任王京涛透露,我国生成式人工智能服务大模型数量已达180多个,注册用户超过5.64亿,显示出我国在该领域的快速发展和广泛应用。王京涛还提出了推进国家网络安全体系现代化的三点建议,强调要加强协调联动、突出重点防护,并夯实工作基础,以构建教育、技术、产业融合发展的良性生态。   🪙 谷歌Gemma 2小模型:iPhone也能运行的AI小钢炮 谷歌DeepMind近日发布了Gemma 2 2B,一款轻量级的小模型,其参数仅为2.6B,却在LMSYS竞技场上超越了GPT-3.5和Mixtral 8x7B。这款模型在MMLU和MBPP基准测试中分别取得了56.1和36.6的优异成绩,相比前代模型性能提升超过10%。Gemma 2 2B不仅能在手机、笔记本等终端设备上运行,还能在云端的强大支持下完成部署。此外,谷歌还推出了基于Gemma 2的安全内容分类器ShieldGemma和可解释性工具Gemma Scope,进一步推动了负责任AI的发展。   🌟 Midjourney新版本上线即爆火!网友已玩疯:和摄影几乎没区别 Midjourney v6.1的发布引发了热烈反响,其生成的图像在真实性、细节和一致性上都有显著提升。新版本在人像处理上的表现尤为出色,几乎无可挑剔。然而,在多人场景的生成上仍存在挑战,如群像生成时的人物扭曲问题。尽管如此,Midjourney的这一重大更新无疑推动了AI绘画技术的发展,使其更接近于传统摄影艺术。 🚀 AI销售助手Sybill融资1100万美元,帮助销售每周节省5小时以上 Sybill,一家专注于为销售代表提供AI助理的初创公司,近日宣布在A轮融资中成功筹集了1100万美元。Sybill的AI助手通过分析通话和电子邮件记录,提供基于上下文的见解和总结,从而减轻销售人员的行政负担。这一策略帮助Sybill迅速打入市场,并获得了500多个付费客户的青睐。随着科技行业整体放缓,Sybill的业务反而因企业寻求成本削减和效率提升而增长。 🔍 Omdia:人形机器人今年迎来突破之年,2027 年全球出货将破万台 市场研究机构Omdia预测,到2027年全球人形机器人出货量将超过1万台,到2030年将达到3.8万台,复合年增长率高达83%。人形机器人被视为下一个重大技术飞跃的代表,其发展受到生成式AI的推动。尽管目前大多数产品仍处于试验或概念验证阶段,但特斯拉、蔚来等公司已在汽车制造领域率先采用。人形机器人在制造业、物流、零售等多个领域展现出巨大潜力。