大模型时代的操作系统:融合 Rust 和大模型,vivo 打造 AI 操作系统

采访嘉宾 |袁东 每次技术革命,无论是个人电脑、互联网还是移动设备,总是从硬件开始,然后演化到软件层。而操作系统是计算机系统的核心,没有它,计算机就只是一堆硬件,无法运行任何程序。 微软 CEO 萨蒂亚·纳德拉曾将生成式 AI 带来的转变比作从蒸汽机到电力的转变。“你不能简单地把电动机放在蒸汽机的位置,而其他一切都保持不变,你必须重新布线整个工厂。”这一两年,“围绕大模型重建操作系统”一直是一个热门话题,产生了各种将大模型作为操作系统或引入操作系统的想法,进而又出现了各种场景下的 AI OS。 不管是手机还是全新的 AI 终端,操作系统都是贯穿其中的灵魂,如今手机厂商的“AI OS”角逐也正在上演。苹果在 WWDC 上宣布了“Apple Intelligence”,为 iPhone、Mac 等设备提供一系列 AI 功能。随着苹果正式进军“AI 战场”,生成式能力加持的 AI 手机显然有加速发展的趋势。 实际上,国内 AI 手机起风更早,vivo 去年发布了自研 AI 大模型矩阵“蓝心大模型”,以及面向通用人工智能时代自主研发的蓝河操作系统 BlueOS。BlueOS 的系统架构选择了用 Rust 语言编写,减少安全漏洞,并引入大模型的能力,支持复杂的意图识别和声音、图片、手势等多模态交互方式,还并为开发者提供了自动编码等应用开发新范式。 大模型会给操作系统带来什么变化?7 月 27 日,vivo 在北京举办了首场蓝河操作系统技术沙龙,我们在会后也邀请到了 vivo 技术规划专家袁东参加 InfoQ 的“极客有约”直播,为我们详细解读了蓝河操作系统的设计理念和技术细节,以下是采访整理。 大模型时代,我们到底需要 一个什么样的操作系统 InfoQ:最近一两年,我们有了各种关于大模型操作系统的说法,举例来说,传统意义上的 OS、AI-powerd OS,还有 Andrej Karpathy 提出的 AIOS/LLM OS 等各种定义。与传统操作系统相比, AI-powerd OS 和 AIOS 各呈现出哪些新的架构特征?蓝河操作系统比较接近哪一种? 袁东: 从最近大模型代表的 GenAI 的火爆,到最近 WWDC 和 Google IO 对公众越来越多的披露,从业者意识到,每天我们朝夕相处的操作系统在这个时代将会有非常大的革新。 目前业界对 AI OS 或者 AI-powered OS 没有明确的概念或者界限,但可以确定的是,技术架构层面,端侧模型原生入驻操作系统提供系统级别的智能能力,这将在人机交互、技术架构和生态方面会有很大影响。 在技术架构方面,端侧模型原生入驻操作系统,提供系统级别的智能生成能力。 蓝河操作系统原生集成蓝心大模型,意味着 App 可以基于大模型进行内容构建,后续随着 AI 系统的进一步强化,除了架构的革新外,会有更多的符合 AI 时代的特性推出。例如,普通人可以利用系统创造出符合自己风格的内容。 InfoQ:大模型热了后,“围绕大模型重建操作系统”就成了一个热门的话题,可能大家一开始希望大模型更具颠覆性,希望能给底层也带来革命。这让我想起了不久前 Rabbit R1 翻车事件,我认为其中一个关键原因是它的宣传策略。Rabbit R1 宣称其操作系统与之前的安卓系统不同,它是一个全新的系统,能够运行大模型。这种宣传可能给消费者带来了误解或过高的期望,因为实际上它可能并没有达到所宣称的创新水平。那么您认为大模型时代,我们是否有必要重建一个跟安卓不同的操作系统?另外,您认为大模型到来后对操作系统的发展产生了什么样的影响? 袁东:Rabbit R1、Ai pin 等在我看来是行业对于 AI 时代大胆的尝试,希望探索出更适合 AI 时代的消费电子产品。目前来看,手机依然是最重要,AI 受益最多的个人产品之一。操作系统在 AI 时代需要明显的升级,借助 AI 智慧化提升用户体验。 我认为操作系统会因为大模型在人机交互、架构、生态,三个方面会有很大影响与改变。大模型产的智能涌现,类比移动互联网之于手机。 操作系统会围绕着交互范式、生态范式的改变,相应的做出很多调整。例如,为了打造个性化的系统,需要尽可能获取用户关乎自身的数据,相应的会有系统级别的方式(比如通过系统 App,用户操作)来获取这些私人数据,同时基于这些来给出更贴近用户的行动建议。 交互范式的变化,意味着服务类 App-Agent 之间的关系与形态慢慢发生变化。Agent 成为一个系统级别的超级 App,随之而来的是 生态发生变化。 架构方面,AI 大模型入驻操作系统,其提供了智能的能力,除了自身生成的内容要保证安全,同时我们 需要在操作系统中原生地集成安全检测机制,以防止用户遭受不必要的损失。 InfoQ:在面向大模型的发展过程中,操作系统面临的挑战和机遇是什么? 袁东: 从用户角度来看,需要考虑如何设计好交互入口(智能助手): 即交互方式,多模态智能化交互; 用户的意图理解,用户主动发起 – 系统主动发起对用户意图的理解; 用户需求拆分后的任务分发,系统级 App 的 AI 升级 到 第三方 App 都可以被智能调度。 从开发者生态角度来看,需要考虑如何建造一个共赢的 AI 时代的开发者生态。AI 时代新的 AI 生态架构策略,即围绕智能助手展开的智能生态: 三方程序向系统级别的智能助手提供 App 的能力描述、App 的应用数据; 这类改变类比于 2008 年,App Store 的提出,再次改变了 App 的分发策略,与商业策略。 从架构角度来看: 软件系统架构:持续迭代 AI 系统的设计 硬件架构:个人觉得不同时代的硬件也会有相应的革新,图形的兴盛带动了 GPU 的产生,神经网络的计算如果越来越重要 NPU 的发展也会有很大需求。 从原生 AI 硬件角度来看: 人类的五感——听觉、视觉、味觉、触觉和嗅觉——是我们与自然界交互的主要方式。在这些感官中,视觉和听觉是获取信息的主要途径。随着 AI 技术的发展,未来可能会出现原生的 AI 硬件,这些硬件将根据新的交互逻辑和形态进行设计。 InfoQ:刚您提到了交互方式的改变,之前也有一个“No App”的概念,但有人认为“No App”是不现实的,对此老师您对此有什么看法? 袁东: 我个人的观点是,从满足用户需求来看,用户更多可能希望与系统级别的智能助手交互来满足譬如点外卖、打车等服务类需求。这对于 App – Agent 助手来说,清晰的调用架构 +App 直达服务可能是未来用户更期望的组合形态。 但是,对于像游戏、视频和企业级办公这样的应用,它们各自有着特殊的需求,比如对隐私的严格保护、对高性能显卡的依赖,或是对特定功能的高度专业化。这些应用很可能会继续以独立的形式存在,但同时,它们与智能助手之间的互动也将成为增强用户体验的关键。通过智能助手与这些应用的智能联动,我们能够为用户提供一种更加完整和连贯的操作体验。而这种整合不仅对用户来说是一个体验的增强,对于整个技术生态系统和系统发展同样积极的影响。 InfoQ:谷歌和苹果开发者大会也提到了它们已经打通了一些 App,这个难度主要在哪里? 袁东: 这个问题的核心在于 Agent 与应用程序之间的协同。Agent 需要与两类应用程序进行交互:一类是自有生态的应用程序,另一类是第三方应用程序。 自有生态的应用程序可能包括办公、系统管理、用户行程安排和出行服务等。而第三方应用程序,尤其是长尾应用,在移动互联网时代积累了大量关键用户数据,这些数据可以被用来产生商业价值并提供服务。 以苹果和谷歌为例,谷歌的 Gemini 在演示时主要展示了其与自有生态应用程序的整合,如 YouTube 和日历应用。Gemini 内部使用了类似于 Web 应用的 Firebase 扩展,通过自有生态来实现 Agent 与应用程序之间的跨域交流。苹果则更为激进,它通过意图理解和 APP Intents(应用程序增强)的概念,允许 Agent 与第三方应用程序进行交互。在发布会上,苹果展示了如何通过捷径(Shortcuts)和桌面小组件与第三方应用程序进行整合,基本上就是将应用程序的行为能力描述注册到苹果的意图系统中。Siri 会根据用户需求,调用不同的第三方应用程序功能来完成用户的需求,类似于 OpenAI 之前提出的函数调用能力。 无论是苹果、谷歌还是国内的厂商,他们都希望未来的服务能够更加便捷。最关键的是充分理解用户的意图和需求。生态建设比技术本身更需要长远发展。技术方面相对清晰,但生态建设,尤其是服务类需求与智能代理之间的交互和交流会很快推进。对于一些社交类或更长尾的应用程序,可能还需要更多的时间来实现整合。 InfoQ:有人认为未来操作系统会朝着用 LLM 替换所有或部分 Linux 内核的方向发展,您认同这个观点吗?能否完全取代 Linux 内核?我们应该如何将 LLM 的能力有效融入或嫁接到操作系统内核中?vivo 的操作系统,融入了哪些大模型能力? 袁东: 操作系统内核的核心作用是,管理和协调计算机硬件资源,为应用程序提供一个统一的抽象接口,实现硬件与软件之间的高效交互。 行业有人提出 LLM Kernel 但其架构与内核是并存的。 首先我觉得,在短期内还是一个并存的状态,因为对于现在我们做产品开发,更多需要的是一个通用的操作系统。 对于通用的操作系统,由于要满足用户不同的场景需求,LLM Kernel 不太可能替代操作系统内核。 特别是有人提出来 LLM kernel 不光是包括这个 LLM,它甚至也会有一些 Agent 的调度,还有内存管理、Tool Management 等等,但它还是把它放在了跟 OS kernel 并列的一个状态,它甚至不属于 OS kernel 层的一个 kernel,所以这个 kernel 不是真正的 OS kernel,而是一个抽象的 kernel。 然而,在某些垂类产品中,主要通过 Agent 来满足用户的需求的情况下,如果它仅仅是通过 Agent 来满足用户需求,比如说我们看到有一些很有意思的视频分享,展示了有一两个桌面级的小机器人,或者一个小的机器宠物。它其实只要一个生成式的能力就可以满足,背后 OS Kernel 可以只服务与之对应的 LLM,或者 LLM 与 OS Kernel 融合也是有可能的。 vivo 的蓝心大模型支持多模态,云 + 端服务于用户。比如用户可以在手表上基于语音交互生成表盘。 InfoQ:面向未来发展,哪些 OS 组件需要 AI 化?您们心目中的智慧 OS 应该是怎么样的? 袁东: 操作系统正在经历一个明显的 AI 化趋势,个人观点, 这在服务卡片等组件中表现得尤为明显,它们正朝着智能化方向发展。在我看来,有两个主要的发展方向: AI 能力的提升:AI 的加入使得操作系统的组件具备了生成能力,比如能够提取和翻译文本、图像的二次生成等。这种 AI 化的能力提升,使得组件不仅仅能够执行基本任务,还能够进行更复杂的处理和创造性工作。 系统级别的 AI 调度:AI 技术开放给系统级别,可以被 Agent 进行调度,成为智慧调度的一部分,以满足用户需求。这意味着操作系统能够更主动地与用户交互,理解他们的意图,并提供个性化的服务。 智慧 OS 的特点主要体现在以下几个方面: 主动交互:智慧 OS 能够理解用户的意图,并主动与用户进行交互,这种交互方式更加人性化和主动。 拟人特性:与以往的多模态和自然交互相比,智慧 OS 通过大模型和 Agent,展现出更加智能和拟人的特性。 需求化解:智慧 OS 能够帮助用户将复杂需求简化,例如,通过智能代理帮助用户完成一系列相关任务,如打车、订餐厅、导航等,而不需要用户逐一打开不同的应用程序。 将大型模型整合到手机中需要考虑的改进包括: 安全:保证端侧模型生成内容的安全,还要时刻兼顾用户使用手机的场景安全。例如,监测 – 抵御外来通过不法手段对用户的诈骗。 存储:存储也需要改进,尤其是在容量方面。未来操作系统可能会将更多用户数据存储在本地而非云端,出于安全性和隐私性的考虑。用户的数据可能会被持续记录,关键信息如微软的“Recall”和苹果的“On Screen Awareness”(屏幕理解能力)可能会将用户在应用程序级别的操作数据进行拆解和存储。长期来看,这些数据将占用大量内存空间,未来可能会考虑将这些数据存储在特殊的内存位置,类似于苹果发布 Touch ID 时存储用户指纹数据的方式。 计算:模型的能力依赖神经网络计算的能力,神经网络计算能力的发展是一个新需求。如何在端侧保证模型能力越来越强的同时,还能兼顾内存、耗电等资源的占用是需要取舍。 大模型生成能力与操作系统的融合方面,我们之前有推出一个智能表盘,我们发现大家使用智能手表很喜欢按照自己的喜好去自定义表盘,所以根据这个需求,我们开发了一款可以通过对话自动生成壁纸的智能表盘,用户只需要描述自己想要什么壁纸,就能直接生成。未来我们还会有更多更令人兴奋的功能和产品持续推出,敬请关注。 InfoQ:大模型对开发者会带来什么样的变化?对 App 开发会产生什么样的影响? 袁东: 大模型背后代表的是一种智能的产生,这种智能元素可以类比于开发中的新基础元素,就像水和电一样是基础设施的一部分。这种变化首先会 改变开发范式。传统的开发方式是程序员通过输入、存储、计算数据,然后输出确定的数据,使用计算机语言进行编程和运算。未来,编程可能会转变为使用自然语言进行交互,计算将变成一种概率性的计算。开发流程将包括数据的收集和整理、学习、预训练后的模型校验,直至模型能够满足用户需求并生成内容。开发者将利用这一流程,对程序进行相应的变化。其中最关键的是如何提高准确度。有许多方法可以提高准确度,包括结构化输入输出和优化提示工程等技术手段。 生态系统也在发生变化。开发者不仅开发满足用户需求的功能,还需要考虑如何获取商业价值。比如开发 AI 原生应用,例如 ChatGPT 就是一个 AI 原生应用的例子。尽管 AI 原生应用具有一定的风险,因为模型或智能能力尚未完全成熟,存在很大的不确定性,但短期内在特定垂直领域开发 AI 应用仍有其价值。例如,某些专注于短期内开发垂直领域的黏土图片生成的 AI 应用,通过精准定位用户需求,短期内可以获得收益。 长期来看,Agent 应用可能成为更超级的应用程序。如果行业内有 Agent 的规范,开发者可以在生态系统中遵循相应的规范,结合各种 Agent,从而满足用户需求。例如,苹果的 Siri 提出了一些生态系统规范,开发者可以在这些规范下进行开发,既能满足用户需求,也能实现商业变现。 InfoQ:我个人对当前应用开发的趋势还有一些疑问。例如,我们观察到一些应用,比如之前提到的黏土风格图片生成应用,它们实际上可能并不需要开发成一个完整的应用程序。这引发了一个问题:在大模型时代,是否意味着我们之前讨论的快应用以及小程序等轻量级应用形式会具有更广阔的发展前景? 袁东: 在 AI 时代,应用程序的形态,Web App 可能会更加适应 AI 技术的发展。Web App 的优势在于它不需要用户进行安装和升级,始终能够保持最新状态。这种即时更新的特性意味着 Web App 能够与 AI 模型保持天然的兼容性,因为 AI 模型可以不断地进行训练和优化,而 Web App 可以即时利用这些最新的模型。 随着 AI 技术的发展,Web App 甚至可能与 Agent 进行更多的交互,逐渐演变成插件形态,不再需要传统的图形用户界面。这种形态的应用程序在 AI 时代将有很大的发展空间。更多的内容请关注 8 月 8 号,快应用大会。 vivo 蓝河操作系统的演进和迭代 InfoQ:蓝河应该是在 ChatGPT 热起来之前就已经开始规划的项目?是否能分阶段介绍下它的发展历史?另外,蓝河操作系统在发展过程中遇到的最大挑战是什么? 袁东:2018 年伊始, vivo 建立了 AI 研究院,自研操作系统团队,并且在当时我们就认为 AI 时代 Web App 是天生适合 AI 时代的 App 形态。历经 6 年我们研发并发布了蓝河操作系统。 ChatGPT 代表的大模型带来了智能涌现,我们在 2023 年顺势而为发布了蓝河 OS。天生更智慧,天生更安全,天生更流畅。智慧是核心,安全、流畅是基石。 它从一开始就融入了大模型技术,而且在安全性和流畅性方面也进行了全面的重新架构。特别是在架构方面,我们采用了 Rust 语言来实现系统架构,这种语言不仅能够确保用户操作的流畅度,还能在内存安全方面提供强有力的保障。埃隆·马斯克(Elon Musk)也曾提出:“Rust 是实现 AGI 的最佳语言”。目前,Rust 也被尝试用于实现模型推理等任务,例如可以在模型分布式推理中使用。 我们认为在这个 AI 技术迅速发展的时期推出蓝河 OS 是非常正确的决定,它具有重大的意义,不仅代表了技术的前沿,也预示着操作系统未来发展的方向。 InfoQ:在大模型技术流行之前,你们就已经决定使用 Rust 语言进行开发,这个决定背后的逻辑是什么呢?有没有一些明确的数据可以证明 Rust 对用户体验带来的正影响呢? 袁东:Rust 语言的开发与大模型技术并没有直接的硬性关联。Rust 最初由 Mozilla 提出,旨在解决操作系统中的内存安全问题。C 和 C++ 虽然在实现操作系统内核方面非常高效,但它们在内存管理上存在一些挑战,一旦出现问题,排查成本和时间都非常高。相比之下,Rust 语言在保持与 C++ 相当的运行效率的同时,其编译器能够在编译时就避免很多内存错误,从而减少运行时的内存问题。我们选择使用 Rust 开发操作系统,是出于提供更流畅、更安全系统的考虑。 Rust 的优势方面,更多还是处于对安全性的考虑,比如像最近的 Windows 蓝屏事件,可能我们看到的一个原因是它的内存在 unsafe 状态下指向了一个别的地址,导致它崩溃,最终对行业造成了非常巨大的损失,内存安全的重要性不言而喻而这块也是 Rust 的优势。 InfoQ:蓝河操作系统的技术迭代的规划是怎样的(包括 AI 能力,以及编译器、编程框架、编程语言、IDE 等工具)? 袁东: 蓝河操作系统主要从智慧、安全、流畅等三个方向持续保证技术迭代。 智慧:蓝河操作系统做了智慧的架构设计,重点架设了 AI 能力,实现了更复杂的意图识别和推理决策能力。蓝河操作系统带来了多模态输入输出,模拟人与人的交互方式。它打破了应用和设备边界,让用户不用在各个 APP 和设备中来回切换。同时,AI 的多模态能力将拓宽输入和输出方式,语音、文字、图片、音乐、视频等 AI 都能理解和生成。蓝河操作系统,从系统、应用、到工具链全面突破,通过 VCAP 能力实现对推理决策的支持,基于大模型能力实现了 AI 服务引擎和多模输入子系统。同时,基于 AI 能力打造了诸多智慧操作系统的新型应用。Copilot 提供代码生成、图文生成等能力,带来应用开发的全新生产力工具。蓝河操作系统结合 AI 大模型的能力,探索出了应用开发的全新范式——它可以理解你的需求,自动编写代码,生成专属于你的应用、主题或壁纸,满足你对个性化的需求。 安全:安全与隐私是操作系统的基石,行业数据中操作系统大约 70% 的严重安全漏洞都和内存使用不当相关,修复安全漏洞治标不治本,难以彻底解决。蓝河操作系统从性能和安全两个维度选择了 Rust 语言作为系统开发语言,Rust 语言的所有权模型、生命周期等一系列安全特性,保障了代码在编译阶段就可以发现内存使用不当导致的安全问题,进而保障系统安全。 流畅:蓝河操作系统从全栈技术视角出发,对多个技术方向进行探索,例如编程语言、运行时 Runtime、系统调度、显示和内存。充分发挥软硬件资源的利用效率,高性能系统架构实现了一系列关键技术,虚拟显卡框架、超级协程机制、Runtime 等,提升了计算、存储、显示的资源效率。系统框架的编写我们创新性的采用了兼具高性能和高安全的 Rust 语言;应用开发还要考虑开发效率和生态兼容,目前采用了 js。Runtime 执行引擎,将前端框架下沉,针对应用使用场景,没有采用传统虚拟机机制,而是直通调用接口,一步直达内核,进一步降低运行时的开销、提升性能。在线程和进程之下,实现了超级协程机制,无论是滑动屏幕还是打开应用,都可以优先响应当前操作,实现丝滑流畅的使用体验。蓝河实现了虚拟显卡框架,在虚拟显卡框架上,创新实现了超级渲染树、并行渲染、异构渲染,解决了丢帧、掉帧、帧同步的问题,保障蓝河操作系统的显示天生更流畅。对于内存管理,设计了全新的内存管理双向动态调整算法,按照算法来分配不同的内存,减少应用启动时间。 InfoQ:您能否详细介绍一下蓝河在构建开发者生态系统方面的具体策略和计划?对于蓝河的开发者来说,您认为他们的机遇在哪里? 袁东: 蓝河在构建开发者生态系统方面的策略和计划是多方面的,旨在创造一个智能应用生态解决方案,同时为开发者提供丰富的机遇。 我们认识到每个生态系统都有其特色,蓝河生态中用户的场景与其他生态不同,特别是在阅读和服务类应用方面。蓝河寻求在这些场景中进行智慧升级,以提升用户体验,使他们更加喜爱这些场景。长期目标是将蓝河操作系统打造成这个时代的智能应用生态解决方案,更加智能地满足用户的各种需求场景。 为了鼓励开发者,蓝河的运营团队持续进行各种活动。例如,去年蓝河 OS 举办了一场比赛,吸引了 300 多支队伍参加,奖金池达到 75 万。赛题包括利用 AI 技术将操作系统内核从 C 语言转换为 Rust 语言,以及生成智慧应用。比赛中涌现出许多有潜力和创意的 App 和系统级解决方案。今年,蓝河将继续举办符合这个时代特征的创新比赛,并进行线上和线下推广,同时邀请专业团队为开发者提供指导。不论比赛结果如何,蓝河都会发掘有潜力的选手,他们有可能成为蓝河团队的一员。 总的来说,未来蓝河的大模型和操作系统将持续朝智慧化方向迭代。传统应用服务的生态将得到重塑,包括原子化服务、个性化定制、智能分发、跨设备协同以及更拟人化的多模态交互等新设计。 对于开发者而言,蓝河生态中的机遇在于 AI、大模型和操作系统的升级。开发者应关注 AI 和大模型能力的提升,以及新操作系统变革带来的影响。我们一方面会从开发效率上帮开发者去减负,包括提供更智能的代码生成、校验、单元测试等能力;另一方面,我们也在探索未来 AI、Agent 跟 APP 之间的新交互方式,去满足 AI 时代的用户的需求,从而获得更大的商业变现机会,这是我们持续在做的一些事情。  内容推荐 在这个智能时代,AI 技术如潮水般涌入千行百业,深度重塑生产与生活方式。大模型技术引领创新,精准提升行业效率,从教育个性化教学到零售精准营销,从通信稳定高效到金融智能风控,AI 无处不在。它不仅是技术革新的先锋,更是社会经济发展的强大驱动力。在 AI 的赋能下,我们正迈向一个更加智能、便捷、高效的新未来,体验前所未有的生活变革与行业飞跃。关注「AI 前线」公众号,回复「千行百业」获取免费案例资料。 今日荐文 曝英伟达紧急推迟Blackwell AI芯片发货:有设计缺陷;任天堂员工平均年龄首破40岁;比亚迪成清华毕业生最爱之一 | AI周报 全球外包之王易主?每月 1200元工资还天天 996,印度程序员 AI 加持下还是集体失业了! 英特尔裁员 1.5 万人,股价暴跌 20 %!CEO:我们将提高退休员工待遇,鼓励自动离职 拜登又要出芯片新规!六家中国头部厂商遭禁,新增 120 家实体,美国的盟友却先拍桌子了! 缺卡、缺电、缺组网技术!谁能为马斯克构建出全球最强大的 10 万卡超级集群?

谷歌 Gemma 2 2B 发布火爆,小模型如何撑起大格局?

作者丨陈鹭伊 编辑丨岑峰 语言模型的“小时代”正式到来? 北京时间8月1日凌晨(当地时间7月31日下午),Google深夜放出大招,发布了其Gemma系列开源语言模型的更新,在AI领域引发了巨大的震动。Google Developer的官方博客宣布,与6月发布的27B和9B参数版本相比,新的2B参数模型在保持卓越性能的同时,实现了“更小、更安全、更透明”的三大突破。 小,但更好 Gemma 2 2B版本,这一通过蒸馏学习技术精心打磨的成果,不仅优化了NVIDIA TensorRT-LLM库,更在边缘设备到云端的多种硬件上展现出了卓越的运行能力。 更重要的是,较小的参数量大大降低了研究和开发的门槛,使得Gemma 2 2B能够在Google Colab的免费T4 GPU服务上流畅运行,为用户带来了灵活且成本效益高的解决方案。 大模型竞技场LMsys上,Gemma 2 2B的发布也迅速引起了广泛关注。LMsys第一时间转发了Google Deepmind的推文,对超越了参数量10倍于Gemma 2 2B版本的“老前辈”GPT-3.5-Tubro表示祝贺。 Google在与OpenAI的LLM竞争中虽然未能胜出,但其SLM的发展势头却愈发强劲。今年二月,Google 推出了 Gemma 系列模型,这些模型设计更为高效和用户友好。Gemma 模型可以轻松运行在各种日常设备上,如智能手机、平板电脑和笔记本电脑,无需特殊硬件或复杂优化。 Gemma 2模型的技术创新点在于引入了Gemma Scope功能,这是一套开放的稀疏自编码器(Sparse AutoeEncoders, SAEs),新模型包含400多个SAEs,用于分析 Gemma 2 2B 和 9B 模型的每一层和子层,为研究人员提供了理解语言模型内部工作原理的强大工具。 Google Deepmind 语言模型可解释性团队则是通过官方博客对 Gemma Scope 进行了更多的技术分析。该团队称,Gemma Scope旨在帮助研究人员理解Gemma 2语言模型的内部工作原理,推动可解释性研究,构建更强大的系统,开发模型幻觉保护措施,防范自主AI代理的风险。稀疏自动编码器(SAE)将作为“显微镜”,帮助研究人员观察语言模型内部。 值得注意的是,尽管Gemma 2 2B为开发者提供了一种灵活且成本效益高的解决方案,但在训练阶段仍然需要投入大量的计算资源。根据Deepmind博客,Gemma Scope的训练使用了约相当于15%的Gemma 2 9B训练计算资源(或GPT3的22%训练计算资源)。 SLM与开源的“逆袭” 在Gemma 2 2B发布后,业界反响热烈。雷峰网GAIR硅谷自动驾驶峰会(2018)嘉宾、UC Berkeley教授Anca Dragan (推特:@ancadianadragan )第一时间发表多条推文对Gemma 2的SAE机制进行了解读。她表示,如此大的计算资源使得纯粹的学术研究机构难以参与其中,但之后学术界会进一步关注如何利用Gemma Scope的SAE机制来提高模型的解释性和AI的安全性。 计算语言学家、DAIR.AI的联合创始人Elvis Saravia (推特:@omarsar0 )也在第一时间对Gemma 2 2B进行了测试,对Gemma 2的SAE机制给予了高度评价。 随着2024年的到来,大模型的光环似乎正在逐渐褪去,而如何将模型做小,正成为今年语言模型发展的重要趋势。2023年的“百模大战”虽然激烈,但大模型的商业价值有限;相比之下,小模型在成本和效率上展现出了更大的优势。 甚至“暴力美学”的倡导者、OpenAI CEO Sam Altman也早早承认,“大模型”时代可能走向结束,未来我们会通过其他方式来改进它们。 在技术上,通过如蒸馏压缩和参数共享等手段,可以显著降低模型规模同时保持性能。Gemma 2 2B版本的亮眼表现,无疑为下一步的大模型研究提供了重要方向。 Google的另一系列语言模型Gemini,以其不公开源代码的特性,专为Google自家产品及开发者使用,与Gemma系列形成鲜明对比。而META的Llama系列则高举“开源”大旗,向OpenAI的GPT系列发起了强有力的挑战。 在过去一年中,OpenAI的GPT系列一直是这个领域无可争议的“王者”,在LMsys的“大模型竞技场”,GPT-4及其后续版本GPT4-o在大多数时间一直牢牢占据第一的位置,仅有一次被Claude 3.5 Sonnet短暂超越。 但在2024,开始有越来越多的模型向GPT系列发起了冲击。除了Google的Gemini和Gemma系列外,另一有力竞争者是META的Llama系列。与OpenAI的闭源(OpenAI也因此称为”Close AI”)路径不同,META的Llama系列则是高举开源大旗的代表。 就在数天前,Meta CEO马克·扎克伯格(Mark Zuckerberg)在“史上最强开源模型”Llama 3.1发布之际,发表了题为“Open Source AI is the Path Forward”的公开信,强调了开源AI在推动AI发展中的重要性。 在Llama 3.1发布后,META AI首席人工智能学家、2018年图灵奖得主Yann Lecun(推特:@ylecun)除了发布了多篇技术角度的推文外,昨天还转发了科技网站Arstechnica的一篇关于“人工智能安全”法案SB1047看法的文章,为“开源AI”争取空间。 值得注意的是,虽然Llama系列在以大众评分为依据的LMsys“大模型竞技场”上不敌GPT-4系列,但在另一个以专家评分的竞技场“Scale Leadboard”上却在多个项目中超越了GPT-4系列。目前在Scale Leadboard的6个评测项目上,GPT-4系列仅在Spanish(西班牙语)和Methodology(方法论)上领先。 “Scale Leadboard”是由AI数据标注创企业Scale.ai所创立的排行榜。其创始人、95后华裔天才Alexanda Wang是当前硅谷最受关注的创业新星之一,目前Scale.ai为几乎所有领先的AI模型提供数据支持,并与OpenAI、Meta、微软等组织保持良好关系。目前Scale.ai的估值为138亿美元。 Gemma 2的发布,不仅是Google在AI领域的一次自我超越,更是对整个行业的一次挑战。无论是“小型化”还是“开源”,都预示着2024年将是语言模型研究的又一个春天。让我们拭目以待,Gemma 2代表的“小模型”将如何重塑AI的未来。 让大模型的暴风雨来得更猛烈些吧。

苹果大模型最新论文:AFM 模型多维度评测「出炉」

不久前,苹果在全球开发者大会(WWDC)上推出了最新个人智能系统 Apple Intelligence,可以深度集成到 iOS 18、iPadOS 18 和 macOS Sequoia 中,引起了 AI 业内人士、尤其是端侧智能领域的讨论。 苹果在 2024 年的一系列技术动作,被戏称为苹果为端侧 AI 所设计的“开卷考试”,即:大模型时代,AI 技术应如何在手机、平板等端侧设备上运营,让手机变得更智能? 近日,苹果团队又在 arXiv 上更新了关于 Apple Intelligence 的最新论文,其中介绍了苹果用在 Apple Intelligence 上的两个基础语言模型,包括:一个在设备端运行的大约 30 亿参数的语言模型 AFM-on-device,以及一个在私有云计算上运行的大规模服务器语言模型 AFM-server。 论文链接:https://arxiv.org/pdf/2407.21075 根据该论文,苹果开发的端侧大模型在语言理解、指令跟随、推理、写作与工具使用等多个任务上都有出色表现。同时,在保护用户数据隐私与安全上,苹果强调在后训练阶段不会使用用户的个人数据进行训练。 结果显示,苹果的 AFM 模型在指令遵循层面皆优于其他大模型,同时,从写作写作能力来看,在摘要总结方面,AFM 模型无论是端侧还是私有云也均要好于其他。而在安全性评估时,AFM 模型也比其他模型要更为负责。但是值得一提的是,AFM 模型的数学能力整体上来看较为一般。 人类评估 在人类评估中,在端侧,AFM 仅输于 Llama-3-8B ,而与其他模型相比显然更优。据论文介绍,AFM 与 Phi-3-mini 相比,模型尺寸小了 25%,而胜率达47.7% ,甚至超出开源强基线 Gemma-7B 和 Mistral-7B。而在私有云上,与GPT-3.5相比时,AFM 也具有一定竞争力,胜率超 50%。 指令遵循 在指令级(Instruction-level)与提示级(Prompt-level)的评估中,无论是端侧还是私有云上,均为 AFM 模型表现最好。其指令级的得分分别为 85.7% 和 88.5%,而提示级的得分则分别为 79.3% 和 83.0%。 此外,苹果还使用了 AlpacaEval 2.0 LC 和 Arena Hard 作为基准进行评估。在私有云上,这两项测试中均为 GPT-4 的表现最优,其中,在 Arena Hard 测试中,GPT-4 的得分甚至倍超 AFM。在端侧的 AlpacaEval 2.0 LC 测试中,则为 Gemma-7B 评分最优,AFM 模型紧随其后。 工具使用 苹果还测试了在调用工具使用基准测试中 AFM 模型的表现,分别从简单(Simple)、多重(Multiple)、并行(Parallel)、并行多重(Parallel Multiple)、相关性(Relevance)和平均(Average)几个纬度展开。 整体来看,AFM-server 表现较优,从测试结果上来看,在简单、多重、相关性、平均性维度中,AFM-server 均得分最高,分别为91.0、95.5、91.3、89.5。在并行多重维度中,AFM-server 得分 85.0,仅次于 Gemini-1.5-Pro-0514 的 88.0,且领先于 GPT-4 与 GPT-3.5。 但 AFM-on-device 表现则较为一般,在多重、并行多重、相关性及平均维度中,均要稍逊于 GPT-4 和 Gemini-1.5-Pro-0514。除此之外,在并行维度中,AFM-server 和 AFM-on-device 的表现情况则都较为一般。 写作能力分两块,一块是摘要总结,一块是长作文。其中,AFM 模型主要在摘要总结上表现较好,在端侧的表现优于 Mistral-7B、Gemma-7B、Phi-3-mini 与 Gemma-2B,在私有云上则优于 GPT-4、Mixtral-8x22B、DBRX Instruct 与 GPT-3.5: 数学能力上,苹果 AFM 模型的表现则一般,仅在端侧 MATH 基准上高于 Llama-3-8B、Phi-3 mini、Gemma-7B 与 Mistral-7B,GSM8k 是 8-shot、MATH 是 4-shot: 负责任的 AI 在文本摘要总结功能中,苹果团队将 AFM 模型在邮件、信息与通知这三个应用上作了测试,分别从 5 个维度(仇恨言论、歧视、违法、色情、暴力)来评估模型的“好”与“差”。研究显示,苹果的 AFM 模型在“好”维度的表现均高于 Gemma-7B、Phi-3-8B 与 Llama-3-8B: 安全性评测 在有害输出上,苹果 AFM-on-device 的得分为 7.5%、AFM-server 的得分为 6.3%,得分越低、效果越好,远远高于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 与 Mistral-7B(其余得分均在 10% 以上): 在安全提示词上,人类评估,苹果的 AFM-on-device 模型表现优于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 与 Mistral-7B,AFM-server 模型的表现也要远超 GPT-3.5、GPT-4 和 Llama-3-70B:

巴黎奥运会展现中国科技创新力量;Runway Gen 3 Alpha 模型图生视频功能上线,11秒视频让脑洞大开

🚀 京东云八大AI产品发布,助力企业数字化转型 在2024京东云峰会上,京东云展示了其在人工智能领域的最新进展,并发布了包括企业大模型服务、智能编程助手JoyCoder在内的八大AI产品。这些产品旨在帮助企业提升效率,降低成本,并在数字化转型的道路上迈出坚实的步伐。其中,言犀数字人3.0平台支持100+个性化角色,50多个行业特定属性场景,展现了AI在模拟人类行为上的巨大潜力。 🇨🇳 巴黎奥运会展现中国科技创新力量 2024年巴黎奥运会不仅是体育盛事,也是中国科技创新的展示窗口。本届奥运会预计将有三分之二的远程服务通过云计算实现,奥运转播云基于阿里云部署,支撑奥运直播信号传至全球200多个国家和地区。此外,AI技术在赛事解说、360度直播、视觉搜索等领域得到应用,如阿里巴巴的通义大模型成为奥运首个AI大模型应用的技术提供方,提升了观众的观赛体验。   🌟 豆包大模型日均tokens使用量超5000亿, 豆包大模型越来越「香」了 豆包大模型,作为字节跳动旗下的AI图像生成平台,近期在图像生成领域取得了显著的进步。在2024年7月的火山引擎AI创新巡展成都站活动中,豆包大模型团队展示了其在图像生成方面的最新进展,包括文生图模型和图生图模型的升级。豆包大模型的日均tokens使用量已经超过5000亿,显示出其在图像生成领域的广泛应用和影响力。 📂 苹果公司推出Apple Intelligence隐私报告功能 苹果公司在iOS 18.1和macOS Sequoia 15.1的首个测试版中推出了名为“Apple Intelligence”的新AI功能预览。该功能允许用户查看一份详细的隐私报告,了解Apple Intelligence如何处理他们的请求。报告中会显示用户的请求是通过设备还是苹果的PCC(Private Computing Core)处理的,以确保用户隐私。此外,苹果还开发了专门的芯片,即“私人计算模块”,用于在线处理请求,全程加密,处理完成后所有数据会被永久删除。 🌟 Runway Gen 3 Alpha 模型图生视频功能上线,11秒视频让脑洞大开 在人工智能领域,视频生成技术正迎来新的突破。近日,Runway Gen 3 Alpha 模型的图生视频功能正式上线,用户只需上传一张图片,即可生成长达11秒的逼真视频。这一功能的推出,不仅极大地提升了艺术控制和视频的一致性,也让人们对AI的创造力有了新的期待。Runway 联合创始人兼CEO Cristóbal Valenzuela 也在社交媒体上分享了一系列令人惊叹的图生视频示例,引发了网友的热烈讨论和高度评价。 💡 惠普AI PC全场景AI解决方案发布,惠小微智能助手4.0升级 在”AI 用起来 —— 惠普 AI PC 全场景 AI 生态大会”上,惠普推出了全新的AI PC全场景AI解决方案,并对惠小微智能助手进行了4.0版本的升级。新版本的惠小微智能助手整合了”文心一言 AI”和”WPS AI”等生成式AI工具,提供了包括智能会议、电脑管家、生活助理等一系列智能化服务,显著提升了用户体验。 🪙 Meta发布AI Studio,零编程创建AI角色 Meta公司发布了AI Studio,这是一个允许用户无需编程即可创建、分享和定制AI角色的平台。AI Studio基于Llama 3.1模型,使得每个人都能轻松地扩展自己的影响力,通过AI角色与更多受众互动。Meta的目标是构建一个所有人都能利用AI创意能力的世界,而AI Studio正是这一愿景的起点。 📰 Meta SAM 2登场,首个能在图片和视频中实时分割对象的AI模型 Meta公司发布了Meta Segment Anything Model 2(SAM 2),这是首个能够在图片和视频中实时分割对象的统一开源AI模型。SAM 2在图像分割准确性上超越了以往的能力,在视频分割性能上也优于现有成果,同时所需的交互时间减少了三倍。这一突破性的技术将为视频编辑和混合现实体验带来革命性的变化。 📍 亚马逊云科技发布Amazon Q Apps,开启AI应用新纪元 亚马逊云科技近日宣布推出Amazon Q Apps服务,这项革命性服务允许用户通过简单的描述创建应用程序,无需深厚的技术背景。Amazon Q Apps隶属于Amazon Q Business,旨在简化软件开发、数据分析和内容创作等任务。此外,Amazon Q Developer服务现已集成到Amazon SageMaker Studio中,通过聊天式交互为机器学习模型的开发提供便利,显著节省了数据科学家的时间。 🪙 Meta推出AI Studio,让用户创建、分享和发现AI Meta推出了AI Studio,这是一个让用户无需技术背景即可创建、分享和发现AI的平台。用户可以通过AI Studio创建基于自己兴趣的AI角色,如烹饪教学、旅行建议等。此外,创作者还可以创建一个AI角色作为自己的延伸,快速回答粉丝的常见问题,帮助他们触及更多人。AI Studio目前在美国开始推广,用户可以在ai.meta.com/ai-studio或Instagram应用中创建AI角色。 📊 Vidu:生数科技与清华大学联合发布的视频大模型 Vidu是中国首个长时长、高一致性、高动态性视频大模型,由生数科技与清华大学联合发布。Vidu基于原创U-ViT架构,支持一键生成长达16秒、1080P分辨率的高清视频。Vidu能模拟真实物理世界,具有丰富想象力,可创作逼真或超现实内容,广泛应用于影视、广告、游戏等行业。 🚀 李飞飞AI新公司World Labs成为全球最快独角兽 著名计算机科学家李飞飞创办的AI公司World Labs,仅成立3个月便完成了两轮融资,最新估值达10亿美元,成为全球最快独角兽。World Labs致力于发展AI的空间智能,解决AI在三维空间感知和理解的难题。李飞飞坚信数据对AI的重要性,她的ImageNet项目为AI技术的底层设施提供了支持,包括ChatGPT在内的众多AI技术都受益于此。World Labs的快速发展,展现了李飞飞在AI领域的深厚影响力。 🔍 黄仁勋、扎克伯格支持AI大模型开源,两人互换外套 在第51届SIGGRAPH图形大会上,英伟达创始人CEO黄仁勋与Meta创始人CEO马克·扎克伯格进行了一场别开生面的对话。两人不仅讨论了人工智能和仿真模拟的未来,还就AI大模型的开源达成共识。在对话的高潮部分,他们甚至互换了外套,展现出两位科技巨头之间的友好关系。 📰 AI创业热潮催生独角兽,警惕泡沫风险 AI领域正经历新一轮创业热潮,以ChatGPT为代表的技术引发了全球范围内的AI创业浪潮。近期,多家AI初创公司如Cohere、Skild AI和Cognition Labs等在短时间内获得了高额融资,估值飙升。然而,这股热潮背后也隐藏着投资泡沫的风险。PitchBook数据显示,过去三个月内,投资机构向美国AI初创企业投入了超过270亿美元,全球投资额约为500亿美元。业内人士警告,AI行业的高投入可能短期内难以看到实质性的回报,提醒投资者需谨慎对待这场AI创业潮。

大模型重塑软件研发,从辅助编程到多 Agent 协同还有多远?

【导读】当编程成为最高频的 AI 应用场景,代码大模型的技术与产品发展之路该怎么走?本文作者从大模型软件研发的三大阶段和四大技术难点出发,分析了 AI 如何提升编程效率,并预测了未来软件研发工具的形态,终极目标是实现 AI 程序员,通过多智能体协同工作,大幅提升研发效率。 本文整理自阿里云云效、通义灵码产品技术负责人陈鑫在 2024 全球软件研发技术大会中的演讲,同时收录于《新程序员 008》。《新程序员 008》聚焦于大模型对软件开发的全面支撑,囊括 Daniel Jackson 和 Daniel Povey 等研发专家的真知灼见与“AGI 技术 50 人”栏目的深度访谈内容, 出品丨新程序员编辑部 大模型带来了前所未有机遇,突破传统软件工程和研发效能工具的局限,让 AI 成为软件研发必选项。 据统计,当前大模型技术近 30 %的应用需求来自于软件研发,在软件研发领域的应用也已经从简单的代码辅助生成,演进到能够实现自主处理和开发,市场上丰富的代码辅助工具也验证了这一点。 这些工具借助大语言模型来提高生成代码的准确性和性能,同时强调数据个性化的重要性,以满足不同企业和个人的编码习惯。我一直在思考,怎么才能进一步挖掘大语言模型的强大推理能力、理解能力和分析能力,给研发提供更强的辅助?代码大模型以及相关产品和技术发展之路该怎么走? 接下来,我将从大模型软件研发的三大阶段,四大难点等角度深入剖析。   大模型软件研发演进三步走 自AI技术浪潮再度袭来,大模型在编程领域的普及是个不可忽视的趋势。据统计数据显示,大模型技术近 30 %的应用需求来自于软件研发,编程成为最高频的 AI 应用场景。编程领域代码生成也是大模型擅长的方向,它可显著提升内部工作效率,让开发者协同的方式变得更加优雅、高效、流畅。AI已成为软件开发行业提升效率的关键要素。 据 CSDN、《新程序员》发起的《2024 中国开发者调查报告》显示,专门为开发而打造的 AI 辅助编码工具上,通义灵码使用率位居第一,占比 19 %。生成代码、解释 Bug 并提供修正、生成代码注释或者代码文档是开发者常用 AI 辅助编码工具来实现的事情,分别占比 41 %、29 %和 28 %。而我们正努力通过大模型与软件研发工具链的融合,逐步优化这些任务。 大模型正从两大方向影响着软件研发: 图 1  大模型对软件领域的影响 1、编程事务性工作的普遍替代 开发者的工作中存在大量重复性任务,例如编写胶水代码、框架代码和简单的业务逻辑。这些任务并非开发者核心关注点,如果大模型可以有效替代这些重复性工作,将显著提高个体效率。 此外,编程过程中通常涉及大量角色的协同工作,如产品经理、架构师、开发、测试和运维等。沟通往往耗时费力、协作成本高。如果能引入智能体,打造“超级个体”,将部分编码任务交由 AI 完成,就可以减少复杂的协同工作,提高整体协作效率。 2、知识传递模式的革新 传统的知识传递方式主要依赖于口口相传,如 code review、培训和代码规范的宣导等,这些方式往往滞后且效率低。智能化的研发工具链可以直接赋能一线开发者,提升团队整体水平。未来,每个团队可能会有专门擅长知识沉淀和梳理的成员,通过不断训练和优化大模型,使整个团队受益。 纵观整体趋势,大模型软件研发相关技术将分三步演进: 第一阶段:代码辅助生成 如 GitHub Copilot、通义灵码这类工具作为 IDE 插件,安装后可以显著提升编码效率,但并没有改变现有的编程习惯和研发工作流。AI 只是生成代码、编写测试或解释问题,最终的校验和确认依然由人完成,这个阶段,依然以人类为主导。 第二阶段:任务自主处理 AI 可以通过智能体技术自主校验生成的结果,例如,AI 编写测试用例后,能够自主判断测试是否通过、能否解决程序遇到的问题或发现新的问题。当我们进入智能体阶段,开发者可以减少对 AI 生成结果的人工校验。在此阶段,虽然仍以人类为主导,但AI已展现出独立完成特定任务的能力。此时将出现一条明显的产品分界线。 第三阶段:多智能体协同工作 多个智能体协同工作,并由大模型进行规划,完成复杂任务,如编写测试、写代码、撰写文档和需求分解等,而人类主要负责创意、纠偏和确认。这一阶段,AI 不只是 IDE 插件,而是可以实现功能的自主开发。代表性的产品有 GitHub Workspace 和今年 6 月阿里云刚推出的 AI 程序员,这些都标志着我们正在迎来 AI 自主化编程的时代。 以上前两个阶段,软件效率的提升大约在 10 %至 30 %之间,包括编码效率的提升 和 DevOps 流程的优化。那么,在第三阶段,我们可以通过打破现有的软件研发流程框架,面向 AI 设计新的编码框架和编程模式,效率提升有望突破 30 %,达到 50 %甚至 70 %。 死磕 Copilot 模式四大核心技术难点   接下来,当我们聚焦每个阶段,现有产品、技术发展的现状以及技术细节,就会发现未来还需攻坚的技术难点。以第一阶段最常见的 Copilot 模式为例,它主要分为以下几层:表现层、本地服务端、服务端、模型层、数据处理层、基础设施层。 图 2  Copilot 阶段通义灵码的核心功能架构 当我们聚焦现有代码助手产品技术发展的现状,以及技术细节,就会发现未来需要攻坚的难点主要有四点: 生成的准确度:准确率是决定产品能否应用于生产的关键因素; 推理性能:代码生成速度和整体性能的提升; 数据个性化:适应不同企业和个人的编程习惯; 代码安全与隐私:确保代码生成过程中数据的安全和隐私。 其中准确度包含生成准确度和补全信息准确度两方面。 1、加强生成准确度 根据内部调研报告显示,准确率才是产品的核心,开发者可以接受慢一点,也可以接受有瑕疵,但准确率才是决定能否应用于生产、会不会持续使用的最关键因素,而过硬的基础模型能力是准确度的基础。我们通常认为模型是产品能力的上限,一个靠谱的基础模型是首要的。 通义灵码的靠谱模型主要依赖以下两个: 通义灵码补全模型。它专做代码补全,被称为“ CodeQwen2 ”技术模型,是目前世界范围内非常强大的模型,在基础模型中排名第一,主要通过持续训练,提升其跨文件感知能力、生成代码能力及各个语言的细节优化,纠正其基础模型上的一些缺点,最终训练而成。 通义灵码问答模型。要想模型不仅基础能力强,还能很好地处理专项代码任务,就需要构造大量数据用于训练。单元测试、代码解释和代码优化等复杂任务,都需要构造大量数据进行训练,让模型遵循固定范式,从而持续输出稳定的结果。阿里目前基于 Qwen2 模型进行训练,它支持最大 128K 的上下文,不论是处理具体代码任务、Agent 任务,还是 RAG 优化,都表现出色。 除此之外,还需补全信息准确度。开发者在写代码时,不仅关注当前文件,还有查看引用、工程框架及编码习惯等。因此我们在端侧还设置了复杂的代码分析功能,专门构建整个工程的引用链及相关数据,将其转化为全面的上下文传给大模型进行推理。在代码补全方面,我们进行插件与模型的联合优化,每增加一种上下文都需要构造大量数据训练模型,使其能感知到输入上下文与预测结果的关联关系。通过一系列处理,可大幅降低模型生成的幻觉,使其更好地遵循当前工程开发者的习惯,模仿人类编写相应代码,从而提升生成代码的质量。 图 3  通义灵码补全准确度的方式   2、解决性能问题 如何解决代码生成既快又好的问题,还是得在性能方面下功夫。各种代任务通常不是由单一模型完成的,而是多个模型组合完成。因此,在代码补全方面,我们使用了 CodeQwen2 这个 7B 参数的小模型能保证在 500 到 800 毫秒内完成推理,做到快;在代码任务训练方面,使用千亿参数模型成本高且不划算,用中等参数模型训练,性价比高且更擅长;对于问答任务,通过大参数模型 Qwen-Max 和互联网实时检索技术,可以快速且准确地回答这些问题。 通常,采用多个模型组合来保证时延的优化是比较靠谱的做法。大参数的模型,具有广泛的知识面和强大的编程能力,能够获取实时支持;各种加速和缓存技术,包括在端侧使用流式补全也可以降低延时;使用本地缓存、服务端缓存,再加上推理加速等多种技术,可以兼顾实现速度和准确性。这些措施共同作用,能让通义灵码能提供高效、准确的编程辅助。 图 4  通义灵码提升推理性能的方式   3、攻克数据个性化 数据个性化依然针对两个典型场景:代码补全和研发问答。 图 5  在代码补全、研发问答两方面提升推理性能   在代码补全中,对于相似逻辑的编写,可以用企业已写过的优质逻辑代码来生成,避免重复造轮子。在自研框架的使用中,尤其是在前端开发,每个企业的前端框架往往不尽相同,如果直接使用基于开源数据训练的模型,生成的结果可能会有瑕疵,可以通过 RAG 技术,使员工在代码补全过程中实时获取所需的参考范例,从而生成符合企业规范的代码。 而研发问答这一领域相对成熟,文档问答、API 生成代码规范、代码校验等比较简单就能做到,假设开发者选中一段代码并请求模型根据团队规范进行修正,其背后的原理是通过 RAG 技术,模型能够检索团队当前语言的规范,并据此对代码进行校验和生成,这些都属于数据个性化场景应用。 代码补全场景更加关注时延,力求将检索时间降低到 100 毫秒以内,技术实现有一定难度。而研发问答场景更注重精准度,目标是召回率达到 70 %以上甚至 90 %以上,以提高回答效率。尽管优化目标不同,两者在基础设施上都涉及知识库管理、 RAG 流程、推理引擎和向量服务,这也是通义灵码重点优化的方向。 4、代码安全与隐私 为解决代码的安全隐私问题,我们设计了全链路安全防护策略,让企业可以以较低的成本享受到 AI 的能力,每月仅需一两杯咖啡钱。 图 6  通义灵码的全链路安全防护 加密端侧代码,确保即使请求被拦截也无法复原代码; 制定本地向量存储和推理全部在本地完成的策略,除非是主动上传的企业级数据,否则代码不会上传到云端,保证了云端没有代码残留,即使黑客攻破了通义灵码集群,也无法获取用户数据,确保了安全性; 设置敏感信息过滤器,确保所有企业上传的代码都合规,能够放心使用公共云的推理服务,实现极高的性价比。 从简单走向复杂的代码生成,并非一蹴而就 通义灵码在以 Copilot 为代表的代码助手方面已经比较成熟,从满意度调查和替代率两个重要方向来评估它在企业中的满意度。基于 1124 份有效样本,超过 72.5 %的受访者在编码工作效率提高方面给予了四分以上的评分(总分为五分)。针对后端语言,通义灵码生成代码的替代率在 30 %以上,而前端由于存在大量的复制粘贴操作,生成率略低,约为 20 %左右。 那么,在大模型软件研发相关技术演进的第二阶段,我们如何从简单的代码任务逐步走向复杂的代码生成? 2024 年 3 月,Devin 发布,只需一句指令,它可以端到端地进行软件开发和维护。虽然只是一个预览版,但它让我们看到 Multi Agent 方向的可行性。这是从 0 到 1 的突破,Devin 显著提升了 AI 在实际编码任务中的应用能力。同年 4 月,GitHub  发布了 Workspace,它是编码自动化的初步尝试。 以上再次证明了 AI 在代码生成领域的潜力巨大,尽管还有很长的路要走,但这表明我们正在朝着实现更高效、更智能的编程环境迈进。在技术路线上,我认为需要分为四个阶段逐步发展,而非一次性跃迁。 图 7  从单一 Agent,走向多 Agent 架构的四大阶段 第一阶段:单工程问答 Agent 要解决基于单工程的问答需求。典型的功能如代码查询、逻辑查询、工程解释,基于工程上下文的增删改查接口、编写算法,在 MyBatis 文件中增加 SQL 语句等,都属于简单任务,已经充分利用了单库的 RAG 技术以及简单的Agent来实现。这为更复杂的多 Agent 协同系统打下了基础。 第二阶段:编码 Agent 进入能够自主完成编码的阶段。Agent 将具备一定自主任务规划能力,以及使用工具能力,可自主完成单库范围内的编码任务。例如,在集成开发环境(IDE)中遇到编译错误或缺陷报告时,用户可以一键让 AI 生成相应的补丁。 第三阶段:测试 Agent 到达具备自主测试能力的 Agent 阶段,它不仅能够编写单元测试,还能理解任务需求、阅读代码并生成测试。不管是单元测试还是黑盒测试方法。而另一些 Agent 可以用于架构分解、文档编写、辅助阅读等功能。 第四阶段:Multi-Agent 接下来,多 Agent 基于 AI 调度共同完成任务,就可以实现更复杂的任务管理和协作实现,从需求->代码->测试的全流程自主化。我们的终极目标是 AI 程序员的水平,类似于 Devin 项目。这一阶段将涵盖更复杂的编程任务,需要更高级的 AI 调度和协同能力。     Code Agent 落地门槛:问题解决率至少 50 %以上   从整个技术路线图来看,前三步通义灵码已覆盖。它展示了整体工作流,以本地库内检索增强服务为核心,提高了代码和文档的准确检索及重排效率,并结合企业知识库,增强了系统的综合问题解决能力。 这一过程需要不断优化,其过程涉及几个关键点:首先,深入理解需求,这是整个优化流程的基石;其次,提升需求在库内检索的成功率,它直接影响到后续步骤的效率与效果;再者,模型本身的性能提升,将检索到的信息整合并解决问题的能力至关重要,这是 Code Agent 的前身。 接下来要重点攻克的是 Code Agent 技术。SWE-bench-Lite 测试集是业界公认的Code Agent 测试标准,在测试集上,通义灵码 Agent 实现了 33 %的问题解决率,领先业界。然而,要推动这一技术走向实际应用,仍面临诸多挑战。 图 8  灵码 Agent 在 SWE-bench-Lite SOTA 测试集的表现 难点一:当前 Code Agent 的效果高度依赖 GPT-4 等先进基础模型,基础模型的能力可能是整个领域往前走的一大阻碍,这限制了技术的普及与自主可控性。 难点二:上述方案在调优上比较困难,容易牵一发动全身,难以快速迭代; 难点三:长上下文依赖和多轮次复杂 Action 处理仍是技术瓶颈; 难点四:模型调优问题,这是当前的一个重要挑战,即便是使用 GPT-4,我们在SWE-bench-Lite SOTA 测试集上的表现也仅为 30 %以上的问题解决率,这与生产级可落地的标准仍存在较大差距。因为测试集中不仅包含了相对简单的单文件修改任务,还涉及到了更为复杂的多文件和多任务修复场景,这对模型的上下文理解、逻辑推断及代码生成能力提出了更高的要求。要达到生产级可落地的标准,需要至少将问题解决率提升至 50 %以上,继续加大技术研发投入是必要的。 未来的软件研发工具形态   对于通义灵码仍有差距的第四阶段——Multi-Agent 阶段,我们也已经有了清晰的概念架构,其工作流程大概是:用户输入指令后,一个复杂的多 Agent 协同系统随即启动。该系统核心解决三大问题: 首先,通过结构化的任务管理,模拟人类团队分解大型任务的行为,实现高效协作; 其次,简化工作流程,将复杂任务细化为小任务,并借助 Agent 特性逐一执行; 最后,高效执行任务,让每个智能体专注自身任务并协同工作,共同完成复杂任务。 未来的软件研发工具链也将呈现三层架构: 图 9  未来的软件研发工具链架构 底层为 AI 基建层,为中层的通义灵码与AI程序员等提供基础支持,涵盖运行环境、模型推理服务、模型微调 SFT、检索增强 RAG、企业管理功能及核心模型。在 AI 基建层,工具共享、不同模型各司其职,这进一步验证了我们的技术演进路线。 通义灵码与中层的 AI 程序员之间存在递进的技术演进关系,虽然共享同一 AI 基建,但在产品交互及与开发者的连接方式上,两者差异显著。AI 程序员拥有自主化工作区,采用问答式交互方式,这种非传统 IDE 形态却能无缝连接最上层的 IDE 端、开发者门户及 IM 工具,成为开发者主要入口的延伸。 右侧,与现有 DevOps 工具链紧密链接,在不颠覆现有 DevOps 或 CICD 流程的基础上,极大地简化和优化了这些流程。 AI 程序员边界明确,专注于从任务输入到文档编写、测试用例测试完成的全过程,未涉及 CICD 或复杂运维操作,作为现有工具链的有效补充,它将大幅简化工具链交互,优化流程协作,对组织结构和开发者技能产生深远影响,甚至可能引领未来编程软件向 AI+Serverless 的架构转型。 当前的 Serverless 主要由各类 function 构成,并通过 workflow 紧密相连。AI 擅长独立完成单一的 function,但面对庞大、复杂的代码工程,尤其是质量欠佳的代码时,修复能力尚显不足。未来,Serverless 与 AI 融合的编程架构有望成为主流趋势,这并非无稽之谈。我们坚信,随着技术和基础模型的不断演进,预计在未来 3-6 个月内,将有相应产品推出,并有望在部分生产级场景中实现落地应用。 阿里云内部代码助手落地实况   阿里云已经全员推行 AI 辅助编码,同时充分考虑各部门的差异。面对不同部门的框架差异,主要采取两种策略。一种是通过 RAG 来实现,即根据每个部门自身需求建立知识库,用于补全和问答优化。每个部门都能梳理并优化其常用代码样例、框架示例及 API 示例,尽量保持其独特性。这种方式让一个工具能够灵活覆盖所有部门的需求。 另一种是进行模型微调,已在一些企业中尝试过。利用小规模数据集对模型进行微调,结果显示,这种基于个性化业务代码的微调能够显著提升模型的准确率,虽然有效,但其成本较高且过程复杂。 从采纳率和 AI 代码生成占比来看。目前,阿里云内部的 AI 代码生成占比已达到 31%,后端语言如 Java 的占比更高,达到 30 %以上。这些数字表明,基于开源代码训练的模型已经能够在实际应用中发挥重要作用,未来通过 RAG 的进一步优化,我们有信心进一步提升这些指标。 关于前文提到的通过前端工具将上下文学习与后端大模型结合,以在代码补全方面取得更好效果,我们主要根据不同语言的特性来解析代码的依赖关系,以构建整个工程的依赖树。当我们需要为某个文件进行代码补全时,会找到该文件所处的上下文,类似于人类编写代码时的行为。为确保代码补全的准确性,需要将当前文件的所有依赖项都纳入上下文考虑范围,否则模型可能会产生“幻觉”,即生成与上下文不符的代码。 此外,我们还会寻找与当前编写位置相似的代码片段,帮助模型理解工程内部的编写风格,为代码补全提供有价值的参考。以 Spring Boot 等框架为例,许多内部扩展或“胶水层”代码都具有一定的相似性。通过找到这些相似代码,模型能够生成更贴近实际需求的代码,从而提高采纳率。 同时我们会收集跨页面的相似组件信息,以供模型参考。判断哪些上下文对当前位置的代码生成具有更高的采纳概率,再通过算法调优来确保模型能够优先利用最重要的上下文信息,包括优先级排序、筛选和压缩等一系列操作。 一般情况下业务研发部门无需直接参与前端上下文知识的处理工作,这取决于具体的业务需求和项目复杂度。 为了进一步提升效果,我们还需要收集和处理业务单位的反馈。在实际应用中,开发者们可能会遇到一些“ bad case ”,即插件生成的代码不符合他们的期望或需求。为了优化插件的性能和准确性,我们需要基于具体场景进行调优。我们会不断优化通义灵码并持续发布先进的产品,向着大模型赋能软件开发的终极形态坚定地走下去。

Gemma 2-2B 端侧模型正式发布;扎克伯格:Llama 4 需要十倍以上的算力

一分钟速览新闻点! Gemma 2-2B 开源端侧模型正式发布 马斯克 xAI 欲收购角色扮演聊天机器人开发商 Character.AI 上海人工智能实验室开源 AI 搜索框架 MindSearch Salesforce AI 开源大型多模态交织数据集 MINT-1T 苹果发布 Apple Intelligence 开发者预览版 Meta AI 推出视频/图像分割模型 Segment Anything Model (SAM) 2 Meta AI 推出个性化 Agent 平台 AI Studio 扎克伯格:训练 Llama 4 所需算力几乎是 Llama 3.1 的 10 倍 Meta 因未经用户许可使用面部识别技术向德州支付 14 亿美元 每月花费近 2000 万美元,消息称 TikTok 成为微软 AI 服务最大客户之一 Reddit CEO:微软等公司必须付费才能抓取数据,“封锁这些公司真是一件痛苦的事情” 国内外 AI 要闻 Gemma 2-2B 开源端侧模型正式发布 近日,Google DeepMind 正式发布 Gemma 2-2B 模型并开源。该模型具有更小、更安全的特点,性能出色,能与规模大 10 倍的模型相匹敌,超越了 GPT-3.5-Turbo 和 Mistral-8x7b。它基于 NVIDIA TensorRT-LLM 库优化,在 lmsys 榜单中获得第 47 名,超过了 GPT-3.5-Turbo 的第 51 名和 Mistral-8x7b 的第 56 名。 项目链接:https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f 马斯克 xAI 欲收购角色扮演聊天机器人开发商 Character.AI 据悉,埃隆·马斯克的 xAI 已与人工智能初创公司 Character.AI 就收购展开讨论。Character.AI 去年曾进行估值超 50 亿美元的融资谈判,马斯克为 xAI 筹集约 60 亿美元,其估值达 240 亿美元。Character.AI 由谷歌校友创立于 2021 年,服务特色是允许用户创建定制聊天机器人。目前双方谈判进展不明。 上海人工智能实验室开源 AI 搜索框架 MindSearch 近日,上海人工智能实验室开源了性能匹敌 Perplexity Pro 付费级别的 AI 搜索框架 MindSearch,并提供了 Demo 和代码。MindSearch 能够浏览数百个网页来深入理解和回答问题,动态构建思考图谱,还会将用户查询分解为原子子问题并逐步扩展图。它支持解决生活中的各类问题,在深度、广度、真实性上超越 ChatGPT-Web 和 Perplexity.ai (Pro)。MindSearch 拥有优化的 UI 体验,提供多种接口,能基于多代理反思机制提高可信度和可用性。 代码链接:https://github.com/InternLM/MindSearch 论文链接:https://arxiv.org/abs/2407.20183 Salesforce AI 开源大型多模态交织数据集 MINT-1T Salesforce AI 开源了名为 MINT-1T 的多模态交织数据集。它规模庞大,包含一万亿个文本标记和 34 亿张图像,比现有开源数据集大 10 倍。其数据来源广泛,涵盖多种文档。在构建中遵循规模和多样性原则,收集处理精细,过滤全面。使用该数据集预训练的模型在评估中表现出色,对其的深入分析也显示出显著优势,有望为相关研究和应用带来重要价值。 代码链接:https://huggingface.co/collections/mlfoundations/mint-1t-6690216ca4d0df7e518dde1c 论文链接:https://arxiv.org/abs/2406.11271 苹果发布 Apple Intelligence 开发者预览版 近日,苹果发布了 Apple Intelligence 的开发者预览版,iPhone 15 Pro、iPhone 15 Pro Max 及部分 Mac 和 iPad 设备可使用,但部分功能暂不可用,欧洲和中国用户设备暂不支持。苹果发布技术报告,称基础模型在 Google 定制 Tensor 处理单元预训练,租用云服务提供商服务器计算。该系统在全球开发者大会发布,深度集成多种系统,有多任务处理等特性,核心模型包括两种主要类型。 Meta AI 推出视频/图像分割模型 Segment Anything Model (SAM) 2 Meta AI 推出新一代的 Segment Anything Model (SAM) 2,在视频和图像对象分割上功能强大。它能实时精确分割,在多个领域有广泛应用,性能卓越,在多数据集上优于以往。其架构先进,引入内存机制保持分割的一致性和准确性。开源代码和权重,提供丰富数据集。在公平性和人机交互效率方面表现出色,大幅减少视频分割的交互时间。 模型下载:https://github.com/facebookresearch/segment-anything-2 论文链接:https://ai.meta.com/research/publications/sam-2-segment-anything-in-images-and-videos/ Meta AI 推出个性化 Agent 平台 AI Studio 近日,Meta AI 推出了基于 Llama 3.1 的 AI Studio 平台。该平台让任何人无需技术技能就能轻松创建定制的 AI 角色,包括创作者 AI 和基于兴趣的角色。用户可创建、自定义,从模板开始或从零设计,设置名字、性格等,还能选择训练内容。创建的角色能分享,也能发现他人的角色并互动。此平台可用于教学、社交管理等领域,有自动回复和个性化互动功能,帮助创作者扩大影响力,相关链接也已给出。 扎克伯格:训练 Llama 4 所需算力几乎是 Llama 3.1 的 10 倍 Meta 第二季度盈利延续良好态势,上季度营收超 390 亿美元,利润约 135 亿美元,用户使用活跃。CFO 表示 AI 投资回报需长期等待,扎克伯格愿提前投资基础设施。Meta AI 助手有望年底成为全球使用最多的助手,未来真正收入将来自商业应用。 值得关注的是,Meta AI 近期已在准备训练 Llama 4,扎克伯格希望其明年推出时成为业内“最先进”模型,但他同时表示,训练 Llama 4 所需计算量几乎是 Llama 3.1 的 10 倍。此外,Quest 3 销售超预期,Threads 即将拥有 2 亿月活用户,Facebook 在年轻人群体中重新增长。 Meta 因未经用户许可使用面部识别技术向德州支付 14 亿美元  Meta(前 Facebook)同意支付 14 亿美元与德克萨斯州和解,此为该州与单一公司达成的最大和解协议,用以解决未授权使用用户生物特征数据的隐私诉讼。此前,该公司已根据类似指控在伊利诺伊州达成 6.5 亿美元和解。德克萨斯州共和党总检察长肯・帕克斯顿表示,这一和解体现了对科技公司违法行为的严肃处理。Meta 表示问题已得到解决,并希望在未来加深在德克萨斯州的投资,包括开发数据中心。诉讼指控 Meta 违反了禁止未经同意获取或出售生物特征信息的州法律。此外,Meta 在 2021 年关闭了人脸识别系统并删除了超过 10 亿人的脸部指纹数据,当时有超过三分之一的使用者选择了面部识别功能。  每月花费近 2000 万美元,消息称 TikTok 成为微软 AI 服务最大客户之一  有消息称,截至今年 3 月份,TikTok 每月向微软支付近 2000 万美元,以通过微软购买 OpenAI 的模型。这笔金额几乎占据了微软 AI 收入的四分之一,也使 TikTok 成为微软 AI 服务的最大客户之一。在全球云计算市场的竞争中,微软通过整合 OpenAI 的人工智能技术,成功地将其云服务转化为一项利润丰厚的业务。微软的云 AI 业务有望实现年收入 10 亿美元(当前约 72.48 亿元人民币),但该报道指出,如果 TikTok 开发出自己的大型语言模型,它可能不再需要如此大量地依赖这些(来自微软的)能力。(The Information) Reddit CEO:微软等公司必须付费才能抓取数据,“封锁这些公司真是一件痛苦的事情”  Reddit CEO 史蒂夫・霍夫曼近日表示,如果微软等公司希望继续抓取该网站的数据,就必须付费。此前,Reddit 已经与谷歌和 OpenAI 达成协议。霍夫曼指出,如果没有这些协议,Reddit 无法控制或了解其数据的使用方式,这迫使他们不得不屏蔽那些不愿意接受数据使用条件的公司。他特别点名了微软、Anthropic 和 Perplexity 三家公司,称他们拒绝谈判,并称封锁这些公司“非常麻烦”。

要想赚钱,AI模型该大该小?贾扬清:论AI模型经济学的技巧

作者丨刘洁 编辑丨岑峰 最近的AI社区,关于模型规模的讨论有些活跃。 一方面,此前在大模型开发奉为“圣经”的Scaling Law,似乎正在褪去光环。去年大家还在猜测GPT-5的规模“可能会大到想不到”,现在这种讨论几乎绝迹。大神Andrej Karpathy,则是在感慨大模型规模正在“倒退”。 另一方面,近期市场上性能优秀的小型模型层出不穷,参数规模、任务处理、反应速度、安全性能,各公司在不同方面卷了又卷。 究竟是往大做探索极限,还是往小做迎合市场? 这最终汇总成一个问题:在这样模型快速更迭的市场中,要怎么才能把LLM模型的商业价值最大化? 唯快不破的模型业态 最近发起讨论的是X.ai创始成员之一的Toby Pohlen。他认为如果模型以指数级速度改进,那么训练模型的价值也会以指数级速度折旧。这也导致人们需要赶在模型更迭前就迅速采取行动获取商业价值,一旦模型产生更新,上一代模型就基本一文不值了。 Toby的这番言论深得老板Elon Musk之心,大笔一挥打了一个“100分”。 贾扬清也参与到了这场讨论中来,他用感恩节火鸡做了一个有趣的比喻。他提出,售卖模型就像是感恩节火鸡促销,必须在感恩节前夕抓紧时间售卖,避免在感恩节到来后的贬值。新模型的技术更新就是一个又一个感恩节,只有销售得更快才能赚到更多的利润。 (emmm…如果对火鸡不好了解,换成中秋节前抢月饼的故事大家或许应该容易理解一些?) 评论区也有不少人表达了对此观点的赞同。 有人说只要不断地开发新产品和迭代新模型,就能从中持续获得商业价值。 还有人说,模型改进的频率将直接决定模型本身的商业价值。 但是,模型的商业价值由什么决定,又该如何实现? 模型发展在走CNN老路吗? 模型必须做小,用起来才顺手。 比起大型模型,小型模型成本低应用便利,更能收获商业市场的青睐。贾扬清就发现,行业趋势在于研发和使用尺寸更小性能强大的模型,人们也更愿意把规模参数在7B-70B之间的中小型模型作为商业使用的选择。 作为前大模型时代的亲历者,贾扬清在当下LLM模型市场上嗅到了熟悉的味道,先变大再变小变高效,这和CNN时期的模型发展简直一模一样。 贾扬清还对CNN的发展历程做了一个简单的介绍。 贾扬清还介绍了CNN的一个有趣的应用,Google的MobileNet(2017),占用空间小性能优越,还具有出色的特征嵌入泛化。 最后,贾扬清引用了Ghimire 等人在《高效卷积神经网络和硬件加速调查》里的一张图: 他还进一步发问,LLM模型未来会遵循和CNN一样的发展趋势吗? 大型模型的盈利思考 不过贾扬清也补充道,虽然行业趋势是模型小型化,但并不意味着号召大家放弃尺寸更大的模型。 但这随之而来的是另一个问题:大型模型的成本会更高。 此前也有人提出质疑,对大型模型服务商的运营成本和营运收益做了简单的计算,每天8张H100显卡运营节点的成本约为1000美元,每天可以提供2600万token的服务,但按Llama 405B每一百万token 3美元的价格,怎么算都是亏本的,无法盈利的大型模型不会被市场抛弃吗? 贾扬清表示,哎你说这个我就不困了,我熟我来说:) 贾扬清认为,虽然每个请求大约每秒输出30个token,但通过批量处理(同时处理多个请求)可以显著提高总吞吐量,可以达到比单个请求高出10倍或更高的吞吐量。 同时他还指出,每秒大约30个token指的是输出token,大模型对于输入token的处理速度更快,这也增加了处理的总token数,大模型通常对输入和输出分别计费,也正是这个道理。 在后续的另一个回复,贾扬清做了更详细的量化计算: 收入798.34美元,成本670.08美元,因此通过整合多种技术方法,在合理流量下(像Lepton这样的大模型技术服务商)是可能盈利的。 当然,这只是一个简单的推算,实际的盈利还会受到流量稳定性、计费方式、按需使用GPU的机器成本控制、解码、提示缓存以及其他因素的影响。 但某种程度上说,类似深度学习时代对CNN的不断优化,在大模型时代,也需要技术人员对于模型进行种种优化,来保证性能提高的同时不断降低成本,这正是贾扬清看好的创业路线。 One  more thing 我们不妨再多讨论一下,对于贾扬清这样的AI Infra创业者,模型大小的潮流变化对他的商业模式有什么影响? 这个问题,要分不同情况分析。 如果模型参数量越大,提供模型服务的门槛越高(参考Llama 405B),其客单价自然也就越大; 另一方面,由于很多小模型实际是在大模型的基础上蒸馏而得到,模型小了,所需的计算资源并没有等幅度减少; 由于较小的模型更容易部署在不同的设备和平台上,这可能会带来应用场景的增加,虽然客单价可能降低,但在需求数量上的增加反而可能使得总收入增加; 对于贾扬清来说,META的开源路线使得贾扬清的服务对象扩大,因此开源对他来说更有利。 看来不管未来模型规模怎么不变化,贾扬清都有机会凭借技术升级稳坐钓鱼台。这有点像之前的中国股市,不管什么消息,都是“利好茅台”啊。 这恐怕就是贾扬清最近在推特上为什么这么活跃发表看法的原因?你看好贾扬清这种AI Infra的创业路线吗? 参考资料: https://x.com/jiayq/status/1818902164938670206 https://x.com/TobyPhln/status/1818686287475282260 https://x.com/elonmusk/status/1818686692905435406 https://x.com/jiayq/status/1818703217263624385 https://x.com/jiayq/status/1818699120049311883 https://x.com/jiayq/status/1818704837745557912 https://x.com/jiayq/status/1817092427750269348 头图/封面来源于贾扬清X(https://x.com/jiayq/status/1818907312851169748)