87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe

谷歌DeepMind推出LLM自动评估模型FLAMe系列,FLAMe-RM-24B模型在RewardBench上表现卓越,以87.8%准确率领先GPT-4o。 大语言模型都卷起来了,模型越做越大,token越来越多,输出越来越长。 那么问题来了,如何有效地评估大语言模型的长篇大论呢?要是输出长度长了但胡言乱语输出质量差,又臭又长,岂不是白搭? 首先能想到的方法就是人工评估。人工评估虽然对于评价模型性能至关重要,但受到主观性、评估者之间的差异性以及广泛评估的高成本的限制。 考虑到这些因素,谷歌DeepMind研究团队提出了自动评估解决方案FLAMe。 论文地址:https://arxiv.org/abs/2407.10817 模型本身在经历多轮大规模指令任务调整后,可以遵循一套新的指令,使它们适合用作模型输出的自动评估器。 一方面,为了使LLM自动评分更加合理、准确并与人类偏好保持一致,对人类判断的数据收集极其重要。 然而,获得这些判断数据既昂贵又耗时。从以前的研究中收集现有的人类评估貌似可行,但面临着缺乏标准、文档数据不充分、数据隐私和专有权等问题。 另一方面,直接使用模型输出进行自动评分器训练可提供一致性,但也存在风险,包括强化偏见和幻觉。 此外,它可能违反专有LLM服务的使用条款,条款禁止使用其模型的输出来开发竞争模型。 为了解决这些限制和显著降低成本,谷歌引入了一个用于自动评分的大型基础模型系列—-FLAMe。 FLAMe模型的主要优势和贡献是: – 数据收集:仅使用获得许可的数据集,并对人类评估结果进行标准化。共包含102个评估任务、530万条人类评估意见。为了促进未来的研究,论文公开了所有数据集来源。 – LLM自动评分器:既包括使用多任务组合来训练通用 LLM自动评分器 (FLAMe) ,也包括针对下游应用程序优化过的LLM 自动评分器 ( FLAMe-RM 和 FLAMe-Opt-RM)。 在12个自动评分器评估基准中的8个基准上,FLAMe及其变体的自动评分性能优于用专有数据训练的GPT-4o、Gemini-1.5-Pro等模型。 – 计算高效的多任务训练:引入了一种计算更为高效的方法,使用创新的微调策略来优化目标分布的多个任务,显著减少计算量来实现更佳的性能。 自动评估方法 为了将人工评估的流程自动化,作者对LLM任务和评估标准进行了细致的定义。 数据收集 和领域内很多科技巨头的做法形成鲜明对比的是,DeepMind这篇论文不仅披露了使用的数据集列表,而且从数据收集步骤开始,就坚持了几个公认正确但很难做到的原则。 首先,为了论文的透明度和可复现,作者仅使用HuggingFace、TensorFlow这些平台上的公共开源数据集,以及得到原作者许可的GitHub库。 为了避免GPT-4等模型生成数据带来的不准确性和潜在法律问题,作者只使用了带有人工标注的数据集,并涵盖了各种任务类型(图3)和LLM能力(图4)。 最终用于训练的数据集含有102项评估任务、共530万条经过标准化处理的人类评估意见。 任务类型主要包含以下四种: – 成对评估(pairwise evaluation):比较两个响应结果并确定偏好 – 逐点评估(pointwise evaluation):对单个响应结果的指定属性进行打分 – 分类:将单个响应划分为某个预定义类别,例如:模型输出是否遵循说明?(是/否) -开放式评估:自由形式、不受限制的评估结果 按照评估的LLM能力划分数据集,则大致有6类能力: – 一般响应质量:包括有用性、连贯性、流畅性、创造力、复杂性和冗长性等多个属性,以及指令跟随能力 – 事实性/内容出处:针对LLM应用中日益重要的幻觉问题,几个数据集都用于评估响应输出的事实准确性及其基础,看模型提出的声明是否有源文档作为依据 – 数学推理:区分LLM生成数学解题方案的正确或错误 – 编码:涵盖Python、JavaScript、Java、C++、Go和Rus等流行编程语言,训练FLAMe从备选答案中选出正确程序或修复程序 – 安全性:为了使FLAMe能够识别出更有帮助且无害的模型响应 – 指令微调:结合数据集中的指令微调数据和人类编写的响应,帮助保留模型的指令微调能力 统一任务格式 精心选择好合适的数据集后,作者受到T5统一任务格式的启发,将所有数据都标准化为统一的「文本到文本」格式。这种灵活的格式可以轻松适应上述各种评估任务。 任务定义、评估指令和所需的输出字段被列在输入的INSTRUCTION部分,具体的输入内容和目标输出分别放在CONTEXT和EVALUATION部分(图2)。 其中任务定义和评估指令都经过精心设计,确保一致性和标准化,并忠实于原始数据集。 模型训练 为了训练出通用LLM自动评估器,能够在推理过程中提示它们执行各种任务。实验训练了三种模型变体: FLAMe,通用评分器; FLAMe-RM,用FLAMe初始化,并均匀混合了四个成对评估数据集进行微调,性能评估标准包括聊天对话、推理和安全性; FLAMe-Opt-RM,使用奖励模型优化的混合权重进行训练,并使用尾部补丁微调策略(tail-patch fine-tuning)。 FLAMe 从基准训练方法开始,使用监督多任务训练的方式,对PaLM-2-24B模型进行指令微调,进行固定数量的30K训练步骤。 采用示例比例混合权重(examples-proportiaonal mixture weights),每个任务采样上限为为2^16,以避免对大型数据集进行过采样。 FLAMe模型显著提高了对各种held-out任务的泛化能力,在许多任务上优于GPT-4、Claude-3和Llama-3等模型。 以上数据能够证明FLAMe具有的的基础功能,即进行大规模多任务指令微调,可以让模型发展出通用的质量评估能力。 然而,FLAMe对于奖励模型评估等专门的下游应用来说并不是最佳的,因此论文进一步提出针对特定下游分布的模型变体。 FLAMe-RM 受FLAMe研究结果的启发,作者更加深入地研究了FLAMe的拓展,将其作为进一步微调特定下游应用的起点。 作者采用了大量奖励模型评估作为案例研究。通过在四个成对评估数据集的混合上微调FLAMe来创建FLAMe-RM。 数据集包括:HelpSteer、PRM800K、CommitPack和HH-RLHF Harmless。 由于FLAMe已经在这些数据集上进行了训练,因此仅对其进行50个步骤的微调。 由此产生的FLAMe-RM模型将原始FLAMe的RewardBench总体得分从86.0%准确率提高到87.8%。 值得注意的是,FLAMe-RM-24B是专门在许可数据上训练的性能最佳的生成模型,超过了GPT-4(85.9%) 和GPT-4o (84.7%)。 FLAMe-Opt-RM 虽然FLAM在许多任务中表现良好,但它需要大量的训练才能在某些专门的下游应用程序(例如RewardBench)上获得强大的性能。 为了解决这个问题,研究引入了一种尾部补丁消融策略(tail-patch ablation),该策略分析每个数据集对目标分布的影响。 这能够帮助找到多任务混合中各个数据集的最佳比例,从而有效地优化混合权重超参数。 通过这种优化过的混合数据微调PaLM-2-24B仅需要5000步,相比RewardBench上的基线模型(86.0%)实现了有竞争力的性能 (87.0%),而且所用的训练数据也减少了约25倍。 研究直接根据RewardBench性能变化(由于缺乏开发集)优化了多任务混合。 值得注意的是,研究的目标不是实现最佳的RewardBench结果,而是展示如何针对目标分布进行多任务混合的优化方法。 通过测试发现,和FLAMe-RM 一样,微调进一步提高了RewardBench性能。 此外,FLAMe-Opt-RM在其他held-out任务中的优秀表现表明,moxing 并没有过度拟合RewardBench,这证实了FLAMe-Opt-RM在不同任务中的广泛适用性。 训练细节 研究使用了PaLM-2-24B模型对FLAMe和 FLAMe-Opt-RM进行初始化,并在Flan集合上进行指令调整,分别训练30000步和5000步,然后将FLAMe进一步微调50步以创建 FLAMe-RM。 模型使用T5X和Adam优化器进行训练,学习率为 0.0001,dropout为 0.05。 FLAMe在256个PU芯片上进行训练,批大小为32,而FLAMe-RM和FLAMe-Opt-RM使用128个TPU芯片,批大小为8。 评估实验 讨论过FLAMe系列模型的构建方法后,作者使用了包含12个自动评分器基准的评估套件,将FLAMe与几个流行的LLM-as-a-Judge自动评分器进行对比。 12个基准中,只有HelpSteer作为held-in验证,其余的RewardBench、LLM-AggreFact等11个作为held-out测试。 评估数据同样涵盖了53个任务,但为了降低模型API成本,每个测试集(除RewardBench)仅随机抽取256个样本。 对比的基线包括Llama-3-70B-Instruct、Mixtral8×7B、Claude-3-Opus等流行的LLM-as-a-Judge模型,以及RewardBench官方排行榜上列出的Gemini-1.5-Pro、Nemotron-4-340B-Reward等。 FLAMe的3种模型变体都参与了评估,而且还包括了进行指令微调前的PaLM-2-24B,以更好说明FLAMe训练的效果。 表1列举了FLAMe系列在12个基准上与流行基线模型的对比。 其中8个都取得了最优性能,尤其是Contr Search和HelpSteer上相比次优模型有大幅度提升,让我们看到了「许可数据」超越「专有数据」的希望。 在RewardBench排行榜上,截止7月15日,FLAMe-RM-24B在所有生成模型中排名第2(仅次于Gemini-1.5-Pro),在所有模型中排名第6,在4个类别中都取得了强劲表现。 虽然RewardBench是评估奖励模型时被广泛使用的基准,但作者也在实验时发现了其中的评估偏差问题,比如有对输出答案的长度偏好,以及偏爱「sorry」、「I’m sorry」等短语。 RewardBench4个类别任务对响应长度的不同偏好 在AggreFact基准的结果中(表3),FLAMe-24B获得了整体最佳性能,比GPT-4o高出将近1分。 在总共4个类别的用例中,FLAMe系列变体在其中3个取得了最优性能,仅在Long-formQA上表现不佳,与表1中LFQA Eval的结果相一致。 此外,上述3个表格中都能发现,相比原有的PALM-2-24B,经过训练后的FLAMe-24B性能有大幅度的提升,证明了FLAMe训练方法的有效性。 分析 模型大小、数据集大小和数据质量等因素在最近的多任务学习和指令调优工作中已经得到了广泛的研究。 论文更加着重探索LLM自动评分器固有的潜在偏见,这也是影响评估准确性的一个重要方面。 另外,FLAMe对于AI开发还有许多潜在用途,例如对高质量响应数据进行采样。 自动评分器偏差分析 对LLM自动评估器(LLM-as-a-Judge autorater)的常见批评主要涉及他们对某些判断的偏见。 通过在自动评估器偏见基准CoBBLEr上评估 FLAMe及其变体,论文发现FLAMe模型比其他流行的LLM自动评估器的偏见要小得多。 CoBBLEr主要测量LLM自动评估器中的6种偏见: 顺序:自动评估器对回复顺序是否有偏好? 同情心:当使用生成响应的LLM的实际名称(例如「GPT-4」)而不是「Model A」等别名时,自动评估者的判断会改变吗? 长度:自动评估器是否会偏好较长或较短的输出? 以自我为中心:自动评估器是否偏爱自己生成的输出? 见风使舵:自动评估器是否会被「90% 的人更喜欢回答 A」这样的句子所左右? 注意力:自动评估器是否被不相关的上下文信息干扰 评估结果如表4所示,可以看到,相比其他基线模型,FLAMe系列在大部分维度都表现出明显较低的偏见,而且总体偏见值最低。 使用FLAMe对解码输出重新排序 最后,研究还探索了LLM自动评估器在从多个响应中选择最佳输出方面的应用,这种方法称为「Best-of-N」采样。 实验中使用了OpenAI的3个代码生成模型,并通过循环机制(round-robin)让FLAMe分别对它们生成的10个代码样本进行重新排名,然后使用排名靠前的代码示例,在HumanEval Python基准中测试其性能。 结果表明,FLAMe在所有三个模型中都显著提高了pass@1准确率。 值得注意的是,FLAMe将CodeGen16B的pass@1准确率从21.2提高到31.1,与Oracle排名器 (46.9) 的差距缩小了近40%。 结论与讨论 FLAMe是一系列基础自动评估器模型,可以执行各种质量评估任务。训练所用的数据不仅大规模而且多样化, 仅来自许可数据集,包含标准化的人类评估意见且经过精心设计。 研究展示了FLAMe强大的零样本泛化能力,在许多悬而未决的任务中,其性能优于使用GPT-4和Claude-3等专有数据训练的模型。 FLAMe还可以有效地作为进一步下游微调的强大起点。FLAMe-RM变体针对奖励模型评估进行了微调,尽管仅在许可数据上进行训练,但仍是RewardBench上表现最好的生成模型之一,其性能优于GPT-4-0125和GPT-4o。 此外,论文提出了一种计算效率更高的方法,使用新颖的尾部补丁微调策略来优化目标分布的多任务混合FLAMe模型,以显著减少的计算量提供有竞争力的性能。 FLAMe变体在12个自动评估基准中的8个优于流行的专有LLM-as-aJudge模型,涵盖53项质量评估任务,包括RewardBench和LLM-AggreFact。 最后,分析表明,与CoBBLEr自动评分器偏差基准上流行的LLM-as-a-Judge模型相比,FLAMe表现出明显较低的偏见,同时能够有效地识别代码生成的高质量响应。 局限性和未来工作 由于评估标准不断变化以及评估新的LLM功能的需要,评估LLM具有挑战性,通过开源贡献扩大我们的数据收集范围可以解决这个问题。 此外,模型主要在上下文长度为2048个token的英语数据上进行训练,可能在多语言或长上下文上表现不佳。 在未来的版本中,作者计划包括对更多具有更长上下文的多语言数据集的训练。 最后,这项工作一直以有监督的多任务方式训练FLAMe模型。探索RLHF和DPO等其他训练方法是未来工作的一个有希望的方向。 道德考虑和道德风险 针对预训练和指令微调的LLMs工作概述的所有注意事项和风险也都适用于LLM自动评估器,研究也都遵循标准实践来负责任地开发FLAMe模型。 此外,由于评估能力和评估质量的增强,LLM自动评估器也带来了新的风险。 首先,模型可能会继承并放大人类评估的偏见,导致不公平或歧视性的结果。 例如,该模型可能会复制训练数据中与种族、性别或其他敏感属性相关的偏见,这可能会损害某些群体利益。 其次,过度依赖LLM自动评估器可能会导致需要人类理解和同理心的决策不经思考而只根据LLM判定。 为了减轻这些风险,模型开发和使用的透明度,以及偏见处理、数据匿名化和纳入不同观点等强有力的措施,对于促进公平、问责和可信度至关重要。 参考资料: https://x.com/tuvllms/status/1813249272474968315

Nature:谷歌AI研究引用量登全球榜首,中国企业表现亮眼

Nature最近报道了一个新发布的AI行业数据库PARAT,分析显示,在论文引用、专利申请等方面,美国和中国企业占据了主导地位。 在AI领域,硅谷巨头Alphabet(谷歌母公司)和微软的论文引用量最高,远超其他公司。 不过,中国企业百度和腾讯在专利方面领先。 这些结果来自新兴技术观察站(ETO)发布的PARAT数据库,该工具跟踪私营部门的AI相关活动,包括研究和专利的发表,以及人才指标,帮助我们洞见AI发展趋势。 https://parat.eto.tech/?sort=highly_cited_ai_pubs-desc&zz_columns=name,country,ai_pubs,highly_cited_ai_pubs,ai_pubs_top_conf,ai_patents,ai_jobs,tt1_jobs ETO是隶属于安全与新兴技术中心(CSET),后者的总部设在乔治城大学外交学院,是致力于AI领域政策分析的智库。 CSET高级分析师Ngor Luong表示,由于AI领域的尖端研究在工业界和大学中同样频繁,因此监控商业活动是很重要的。 AI巨头 观察站的首席分析师Zachary Arnold表示,PARAT数据可以证明,中国的大型企业在AI领域非常具有竞争力。 按高被引AI论文和预印本数量排序时,三家中国科技巨头——腾讯、阿里巴巴和华为都位列前十。 Arnold说,「很多人仍然存在一种偏见,认为中国规模大,可以产出很多结果,但不是真正的一流。」 然而,ETO计算了多种质量调整指标,中国公司在这些指标上「表现出色」。 根据PARAT数据,所有AI研究中被引用次数最多的论文是2017年发表的《Attention Is All You Need》。 根据谷歌学术,这篇论文的引用量已经超过12.7w 这篇论文的作者团队主要来自谷歌,提出了实现「大一统」的Transformer架构。 中国机构同样产出了很多高质量研究,比如这篇由港中文、腾讯、商汤等机构共同撰写的论文,提出了一种实时的语义分割方法ICNet,引用量超过1.7k。 论文地址:https://arxiv.org/pdf/1704.08545 过去十年中,提交AI专利最多top10公司中仅有三家位于美国,其余则分布在在中国、德国和韩国。 顶级雇主 数据还突显了AI行业的多样性。 除了五大巨头——Alphabet、亚马逊、苹果、Meta、微软之外,还有许多公司位于「长尾」部分,引用量同样很高。 其中比较知名的公司包括OpenAI和苹果,以及不太以AI创新闻名的迪士尼和日本三菱。 Luong指出,数据库收集的论文和专利数据仅截至2023年底,因此错过了最近的发展。 Arnold表示,PARAT中的其他指标揭示了有时被忽视的AI活动。 比如,PARAT涵盖了各公司AI岗位的数量,从社交媒体平台LinkedIn进行收集。 这些数据对美国公司最为准确,从中我们可以看到哪些公司吸引到了最多的AI人才。 按这一指标,亚马逊以1.4w个AI岗位成为榜首,但紧随其后的是跨国咨询公司埃森哲。按照Arnold的形容,大型咨询公司现在是其他公司和政府AI项目的「雇佣兵」。 这些数据能让我们通过多种视角审视公司的在AI领域的动态。 「我们看到很多关于『谁在AI领域领先』的讨论。我们是数据迷,我们知道有许多不同类型的数据可以用来回答这个问题,而且它们并不总是指向完全相同的方向。」 参考资料: https://www.nature.com/articles/d41586-024-02515-1

英特尔「芯」痛!全球裁员1.5万人,利润暴跌85%

裁员1.5万人,就是计划的一部分。还没有在AI PC热潮中分得太大好处的英特尔,该如何东山再起? 就在刚刚,英特尔正式官宣裁员15000人! 据悉,这次裁员15%的决定,本就是2025年「节约100亿美元成本」计划的一部分。 裁员行动,将于第四季度开始执行。 The Verge称,英特尔目前有超过125,000名员工,也就是说,此次裁员人数可能多达19,000人 紧接着的盘后交易,股价就像坐过山车一样,直接暴跌近20%。 到2026年,英特尔每年将削减数十亿美元的研发和营销支出;今年,它将减少20%以上的资本支出。 公司将进行重组,以停止「非必要的工作」,并且所有正在进行的项目和设备都将接受审查,以避免过高的花费。 英特尔CEO Gelsinger,在跟全员的备忘录里说—— 对我来说,这是一个痛苦的消息。我知道,这对你们来说只会更难。 公司还在亏损,AI还没赚钱 英特尔刚刚公布:2024年第二季度的亏损达到了16亿美元,远高于上季度亏损的4.37亿美元。 Gelsinger承认:即使我们已经达到了关键产品和工艺技术的里程碑,第二季度的财务业绩仍然令人失望。 我们的收入没有按预期增长,我们也还未能受益于AI。 在第二季度,英特尔的营收为128亿美元,与去年同期相比下降1%。净收入暴跌85%,仅为8300万美元。 处于绝对亏损状态的,是英特尔的芯片制造代工业务,也即它对新工厂和极紫外(EUV)光刻技术的投资。 仅在2023年,这一项的运营亏损就高达70亿美元,并且在本季度还将进一步亏损28亿美元。 但英特尔本身的产品并没有亏损。 可以说,本季度和上季度的几乎所有亏损,都来自Foundry,但后者的销售额一直持续保持稳定,PC和服务器的业务都在盈利状态。 本来,英特尔的状况是一路向好的:个人电脑销售下滑的情况,已经于今年早些时候结束;并且,CHIPS法案还能让它从美国政府那里,获得高达85亿美元的资金。 俄亥俄州副州长Jon Husted对英特尔表示赞赏,并表示俄亥俄州的其他公司也将从中受益 但是,投资者已经没有耐心再等了。 过去两年里,英特尔一直在亏损和盈利之间摇摆,这似乎让华尔街失去了信心。 外媒CNBC在此之前就曾评论称:「英特尔是今年标普500指数中,表现最差的一支科技股」。 前有英伟达,后有AMD 从技术领先的角度看,英特尔既没有达到英伟达这种芯片大玩家的高度,也没有追赶上AMD。 进入较新的图形领域以来,它还未给人留下深刻印象。 为了解决来自高通和苹果的Arm芯片威胁,它必须彻底改造自己的旗舰笔记本电脑芯片。 要知道,前者的待机,要比英特尔长得多得多。 微软选择高通,放弃英特尔 但时间并不等人。 如今,微软已经在最新的消费硬件(Surface Laptop和Surface Pro)中放弃了英特尔,并且推出了完全采用高通芯片的Copilot+ PC计划。 这可谓是给了英特尔一重暴击。 除了在新品上受挫之外,英特尔最近还在焦头烂额地处理13/14这两代有缺陷的CPU。 然而,他们并不打算召回,而是想试图通过微码的更新来解决问题。 英特尔第13代和第14代CPU崩溃的问题无法修复,任何损坏都是永久性的 AI PC很好,但不足以翻身 现在,AI是最热门的大趋势,英特尔也少不了打造一款AI PC。 不过,在今天的公司财报会议上,Gelsinger表示,公司的AI PC芯片Lunar Lake并不足以扭转局面。 虽然,明年英特尔计划大幅提升这款芯片的产量,但在Gelsinger看来,Lunar Lake依然是一个需要依赖于「外部晶圆」(由台积电制造)的「目标明确的产品」。 而且,英特尔还得购买每个芯片上的内存,因为Lunar Lake笔记本电脑没有独立的内存条。 英特尔执行副总裁Michelle Johnston Holthaus展示英特尔全新Lunar Lake处理器 也就是说,Lunar Lake在2025年,只能小幅改善公司状况,巨大的销量优势,还要等到2026年才显现。 而在服务器芯片方面,英特尔必须努力从其他AI芯片制造商那里抢夺市场,依然前路漫漫。 十年沉疴 虽然英特尔仍然是PC和笔记本处理器的最大制造商,但这家公司的问题已经积累了数十年。 在CEO Gelsinger2021年回归公司之前,英特尔曾经是「硅谷」的象征,但在半导体制造领域已经输给了台积电等对手。 目前英特尔的市值约为1212亿,和芯片巨头英伟达的2.38万亿相比有将近二十倍的差距,也少于高通、博通、AMD、台积电等同行。 Gelsinger对投资者表示,「首要任务是加速我们的努力,缩小由于十多年投资不足而造成的技术差距」。 在这场高风险的追赶中,英特尔试图通过每季度投入数十亿美元来重新夺回市场。Gelsinger认为,公司仍然有望在2026年前跟上市场的步伐。 领先多年,一朝跌落神坛,根本原因在于英特尔多年来积累的各种失误,不止一次错过了技术变革的机遇。 它错过了2007年iPhone发布引发的移动芯片热潮,在近年来AI热潮中也基本处于边缘,Meta、微软和谷歌等公司都在抢购英伟达,昔日风头无两的英特尔无人问津。 英特尔联合创始人、前CEO Andy Grove在《只有偏执狂才能生存》一书中提出,「战略拐点」是所有公司管理者的噩梦。在这种10倍速的变革中,企业可能上升到全新的高度,但也可能是命运终结的伏笔。 这本书出版于互联网刚刚兴起的1996年,彼时英特尔刚刚凭借PC浪潮跻身硅谷头部企业。 然而,二十多年后,自家CEO曾经预警的教训,成为了英特尔正在面对的惨淡现实。 晶体管制程推进迟缓 英特尔处理器的辉煌,还要从晶体管开始说起。 每一个晶体管都使处理器能进行更多的计算,晶体管数量的增加,可以提升处理器的性能。 1971年,英特尔的第一款微处理器4004大约有2000个晶体管。现在,英特尔的芯片拥有数十亿个晶体管。 半导体公司通过缩小晶体管的尺寸来在芯片上容纳更多的晶体管。晶体管的尺寸代表「工艺节点」,数字越小越好。 最初的4004使用的是10微米工艺。现在,台积电最好的芯片是3纳米工艺(比微米小1000倍),英特尔则是7纳米。 工程师们,尤其是英特尔的工程师们,以定期交付更小的晶体管为荣。 Celesta Capital执行合伙人Nicholas Brathwaite在1980年代曾在英特尔工作,他说,英特尔的工艺工程师是公司的「皇冠上的明珠」。 著名的「摩尔定律」就是由英特尔联合创始人Gordon Moore提出的,他在1965年预测单块硅芯片的计算能力大概每两年翻一番,并且变得更便宜。 摩尔定律意味着英特尔的软件合作伙伴,比如微软,能始终指望下一代PC或服务器有更强大的性能。 英特尔对持续改进的期望非常强烈,以至于它甚至有一个昵称:「tick-tock开发」。每两年,英特尔都会在新工艺上发布一款芯片(tick),随后的一年会改进其设计和技术(tock)。 然而,2015年,在CEO Brian Krzanich的领导下,英特尔的10nm工艺被明显推迟。 英特尔官员表示,最主要的原因是投资不足,尤其是ASML生产的EUV光刻机,而这正是台积电热情拥抱的技术。 从这时开始,英特尔越来越难以赶上「tick-tock开发」的节奏,延误情况愈加严重。 2019年左右,他们又错过了交付7nm工艺的最后期限——导致股价暴跌,并为前英特尔工程师Gelsinger接管铺平了道路。 当英特尔步履迟缓时,老对手AMD却迅速抓住了机会。 AMD是一家「无晶圆厂」的芯片设计公司,只负责在加州设计芯片,再交由台积电或GlobalFoundries制造。 台积电在10nm或7nm工艺上没有遇到英特尔的问题,这给了AMD技术和速度方面的竞争优势。 十年前在服务器CPU市场几乎没有份额的AMD,开始抢占英特尔的业务。 根据Counterpoint Research去年的估计,2022年售出的服务器CPU中超过20%由AMD生产,他们当年出货量增长了62%。同年,AMD的市值超过了英特尔。 错失iPhone芯片 英特尔原本有将芯片部署在iPhone上的机会,却与这次技术变革的机会擦肩而过。 《乔布斯传》一书中提到,苹果在开发首款iPhone时,时任CEO乔布斯拜访了时任英特尔CEO Paul Otellini。 他们坐在一起,讨论了英特尔是否应该为尚未发布的iPhone提供芯片。 最初,iPhone被构想为一款运行苹果Mac操作系统的手机。 恰在当时,英特尔的芯片被广泛用于台式机,包括苹果Mac。 因此,iPhone使用英特尔芯片,似乎是一个很合乎逻辑的选择。 然而,这笔交易从未实现。 乔布斯解释道,苹果放弃英特尔芯片,是因为该公司「反应太慢」,而且苹果不希望同样的芯片被卖给其竞争对手。 2007年,苹果推出第一代iPhone,使用了三星的芯片。 随后一年,苹果收购了PA Semi,并在2010年推出了首款自家设计的iPhone芯片。 五年内,苹果开始出货数亿部iPhone。iPhone的成功刺激了其他公司开发竞品,安卓智能手机市场大爆发。 2010年成为了一个转折点,因为在这一年,智能手机的总出货量超过了PC的出货量。 而这些智能手机,几乎全都在用基于Arm的芯片(功耗更低,更适合小型设备),而不是英特尔在1981年为PC打造的x86技术。 由于行业对每年更快性能和新功能的需求,基于Arm的芯片,也迅速得到了改进。 苹果从2014年的A8芯片开始,向台积电下达巨额生产订单生产其iPhone芯片。 这就促成了,科技巨头的订单为台积电提供了资金,每年升级其制造设备,最终超过了英特尔。 2010年代的基准测试显示,最快的手机处理器在某些任务上能与英特尔的PC芯片相媲美,同时功耗却要低得多。 大约在2017年,苹果和高通开始在移动芯片中添加名为神经处理单元(NPU)的AI部件,这是对英特尔PC处理器的又一项改进。 然而,直到去年年底,首款带有NPU的英特尔笔记本电脑才开始出货。 自那以后,英特尔在其核心PC芯片业务上的市场份额,被从移动革命中成长起来的芯片夺走了。 再加上,苹果自2020年起不再在PC中使用英特尔芯片。越来越多的低成本运行Google ChromeOS的笔记本电脑也在使用Arm。 英特尔也对此挣扎过。 它曾试图打入智能手机市场,发布了一款名为Atom的基于x86的移动芯片,用于2012年的华硕ZenFone。 但这款手机销量并不好,因此这条产品线也就在2015年终止了。 错失AI热潮 英特尔错失的不仅是智能手机芯片的市场,还有GPU席卷而来的AI热潮。 GPU最初的诞生,是为运行复杂的电脑游戏而设计的。 随后,深度学习引发了神经网络的变革,计算机科学家突然发现,GPU非常适合运行AI算法所需的并行计算。 2022年ChatGPT横空出世之后,全世界都看到了GPU对于AI革命的关键,纷纷斥资获取高端芯片。 这助使英伟达销售额,在过去的一年里翻了三倍。 此前,在传统的通用服务器中,英特尔CPU是绝对的主角。而在基于GPU的服务器中,最重要的是英伟达芯片——一台AI GPU服务器,可能会配置8个英伟达GPU,和1个英特尔CPU。 今年GTC大会上,英伟达官宣的Blackwell B200,则已经完全摆脱了英特尔CPU——将两个B100 GPU与一个基于Arm架构的Grace CPU相结合。 几乎所有英伟达AI GPU都是由台积电制造的,采用最先进技术生产最顶尖的芯片。 英特尔虽没有能与英伟达的AI加速器竞争的GPU,但它有一款名为Gaudi 3的AI芯片。 2018年,英特尔收购了Habana Labs后,开始专注于服务器AI,将其技术融入打造新一代Gaudi芯片。 该芯片采用了5nm工艺,但由外部晶圆厂制造,因为英特尔还没有实现这种工艺。 英特尔表示,今年预计Gaudi 3的销售额为5亿美元,主要集中在下半年。相较之下,AMD预计其AI芯片年度收入约为35亿美元。 同时,FactSet调查的分析师预计英伟达的数据中心业务——其AI GPU——将在今年下半年实现570亿美元的销售额。 如此可见,它们之间销售额的悬殊之差。 尽管如此,英特尔依旧看到了机会。 最近,它一直在讲述一个不同的AI故事——它最终可能成为美国AI芯片的头部生产商,甚至可能成为英伟达的代工厂。 英特尔的「死亡行军」 自2021年Gelsinger上任以来,英特尔一直在面对过去的失败,并积极推进一个称为「四年五节点」的计划,试图赶上台积电。 这一目标的实现,并非容易。 2022年,Gelsinger将其重新夺回领导地位的目标称为「死亡之旅」。 现在,这场「行军」愈加接近终点。英特尔曾在4月表示,到2026年它仍然有望赶上台积电。 届时,台积电将出货2nm芯片。英特尔表示,它将在2025年开始生产相当于2nm的「18A」工艺。 但代价是高昂的,英特尔称,其晶圆厂部门主要内部销售额达44亿美元,而运营亏损25亿美元。 这恰恰反映了英特尔在设施和工具方面的大量投资,以生产更先进的芯片。 Counterpoint分析师表示,「配置成本很高,这就是为什么英特尔现金消耗如此之大」。 「运行晶圆厂是一个资金密集型业务。这就是为什么大多数竞争对手非常乐意将其外包给台积电。」 英特尔上个月报告称,其晶圆厂在2023年运营亏损70亿美元。 而更可悲的是,目前没有多少公司正式签约使用英特尔的晶圆厂。不过,微软表示将使用其制造服务器芯片。 英特尔表示,已与外部公司签订了价值150亿美元的合同。 如果英特尔重新夺回制造最小晶体管的领先地位,将有助于其自身业务发展,并提升产品的性能。 如果真是如此,正如Gelsinger常说的那样,英特尔将会卷土重来! 全员信 以下是从CEO全员信中,截取的部分内容: 这是英特尔历史上最艰难的一天之一,因为我们正在进行一些最具影响力的变革。 我们计划在2025年节省100亿美元的成本,包括削减大约15,000个职位,约占员工总数的15%,大部分措施将在今年年底前完成。 这么做的原因是,我们的收入没有达到预期,成本太高,利润率太低。 我们必须将成本结构与新的运营模式对接,并从根本上改变我们的运营方式。 关键优先事项 我们正在采取的行动,将让英特尔成为一个更精简、更简洁、更敏捷的公司。 降低运营成本:推动全公司范围内的运营和成本效率,包括前面提到的成本节约和人员削减。 简化产品组合:每个业务部门都要进行产品组合审查,并找出表现不佳的产品;将关键的软件资产整合到业务部门中,加快向基于系统的解决方案的转变;把项目孵化重点缩小到更少但更有影响力的项目上。简化业务的措施将于本月内完成。 消除复杂性:减少管理层级,消除职责重叠区域,停止「非必要」工作,培养更大的责任感和问责文化。比如,将客户成功部门整合到销售、市场和通信集团中,简化市场推广流程。 减少资本和其他支出:随着「四年五节点」路线图即将完成,我们将审查所有活跃项目和设备,以便开始将重点转向资本效率和更正常化的支出水平。这将使得2024年资本支出减少超过20%,并计划在2025年将非变动销售成本减少约10亿美元。 暂停分红:将从下个季度开始暂停股息分红,优先投资业务并推动更持久的盈利能力。(自1992年以来,英特尔一直向股东分红) 维持增长投资:IDM2.0战略保持不变,继续保持对工艺技术和核心产品领导力的关键投资,以重新确立自身的创新引擎。 Gelsinger在全员信收尾中再一次表示,我从不幻想我们前面的道路会很轻松。今天对我们所有人来说都是艰难的一天,未来还会有更多艰难的日子。 但尽管这一切都很困难,我们正在进行必要的变革,以在我们的进步基础上继续前行,并迎来一个新的增长时代。 英特尔巨量裁员,在国内社交媒体上也吵成了一锅。 有网友表示,自己先后供职几家公司,都充斥着英特尔前员工,多到可以在各家公司形成自己的小圈子。他们有主动跳槽的、有被裁的,甚至还有「被」退休的。 而现在,英特尔的市值仅有AMD市值一半。网友表示,这次真的要AMD YES了! 13/14代酷睿处理器不稳定情况,曾有人测试后发现故障率高达50%,饱受诟病。 参考资料: https://www.cnbc.com/2024/04/26/intel-dominated-us-chip-industry-now-struggling-to-stay-relevant.html https://www.theverge.com/2024/8/1/24210656/intel-is-laying-off-over-10000-employees-and-will-cut-10-billion-in-costs https://www.tomshardware.com/pc-components/cpus/intel-to-layoff-more-than-15-of-workforce-almost-20000-employees-encountered-meteor-lake-yield-issues-suspends-dividend

英伟达最强AI芯片曝重大设计缺陷,中国特供版意外曝光!

因设计缺陷,英伟达最强AI芯片Blackwell,真的要延期发货了。金主爸爸们哀声一片,所有预定计划预计要拖延至少三个月。 英伟达GPU,一直是OpenAI等大模型公司研发AI的命脉。而现在,由于Blackwell GPU的设计缺陷,英伟达发货时间不得不推迟3个月,甚至更长的时间。Information独家报道称,最近几周,台积电工程师在为Blackwell芯片量产做准备时,才发现了缺陷。就在上周,老黄曾在SIGGRAPH上表示,英伟达已经向世界各地客户递交Blackwell工程样本。 他满脸轻松的样子,根本没有暗示任何意想不到的延误。 那么,芯片设计究竟哪里出现了缺陷? GB200包含了2个Blackwell GPU和1个Grace CPU。问题所在,就是连接2个Blackwell GPU的关键电路上。正是这一问题,才导致台积电生产GB200良率下降。最新芯片推迟发货,意味着对于Meta、谷歌、微软等科技大厂来说,AI训练进程将会受到影响。而且,他们数据中心建设也将不可避免地延期。据称,Blackwell芯片大量出货,预计要到明年第一季度。在SemiAnalysis最新报告中,同样详细阐述了英伟达面临的技术挑战,推迟发货后的时间表,以及新系统MGX GB200A Ultra NVL36。 Blackwell推迟三月,哀声一片 还记得GTC 2024大会上,老黄手捧最强Blackwell架构GPU,向世界宣告了最强的性能野兽。5月,他曾公开表示,「计划在今年晚些时候,将大量出货Blackwell架构的芯片」。甚至,他还在财报会议上信心满满地表示,「今年我们会看到大量的Blackwell收入」。英伟达股东们更是对Blackwell GPU寄予厚望。来自Keybanc Capital Markets的分析师估算,Blackwell芯片将为英伟达数据中心带来,将从2024年的475亿美元,提升到2025年超2000亿美元的收入。也就是说,Blackwell系列GPU,对于英伟达未来的销量和收入起着决定性作用。却没想到,设计缺陷直接影响了英伟达在今年下半年,以及明年上半年的生产目标。参与Blackwell芯片设计内部人士透露,英伟达正与台积电进行测试芯片生产运行,来尽快解决难题。不过目前,英伟达的弥补措施是,继续延长Hopper系列芯片发货量,尽可能按计划在今年下半年加速生产Blackwell GPU。 豪掷数百亿美金,AI训练延期 不仅如此,这个链式效应,将对大模型开发商、数据中心云服务提供商,造成了致命的打击。为了训AI,Meta、微软、谷歌等金主爸爸们,不惜重金斥资数百亿美元,订购了大量Blackwell芯片。谷歌已经订购了超40万个GB200,外加服务器硬件,谷歌订单成本远超100亿美元。今年,这家巨头已经在芯片和其他设备财产上,支出预计约为500亿美元,比去年增长了超过50%。另外,Meta也下了至少100亿美元的订单,而微软订单规模近几周增加了20%。不过,这两家公司的具体订单规模,尚未得知。知情人士透露,微软计划到2025年第一季度,要为OpenAI准备5.5万-6.5万个GB200芯片。而且,微软管理层原计划在25年1月,向OpenAI提供Blackwell驱动的服务器。现在看来,原计划需要推迟到3月,或者来年春天。按原本预定的时间,他们将在2025年第一季度开始运行新超算集群。包括OpenAI在内AI公司,都在等着使用新芯片开发开发下一代LLM。因为大模型的训练还需要多倍的算力,从而能够更好回答复杂问题、自动化多步任务,生成更逼真的视频。可以说,下一代超强AI,就指望着英伟达最新的AI芯片了。 史上罕见的延迟 不过,这次大规模芯片订单延迟,不仅在所有人意料之外,更是罕见的。台积电最初计划在第三季度,开始量产Blackwell芯片,并从第四季度开始大规模向英伟达客户发货。内部人士透露,Blackwell芯片现在预计将在第四季度进入量产阶段,如果没有进一步的问题,服务器将在随后的季度内大规模出货。其实,早在2020年,英伟达旗舰GPU早期版本,也因为一些问题不得不延迟。但当时英伟达所面临的风险较低,客户们并不急于订单到货,而且从数据中心中实现盈利也相对较少。而这次,在量产前发现重大设计缺陷,确实非常罕见。芯片设计师通常会与台积电晶圆厂合作,进行多次生产测试和模拟,以确保产品的可行性和顺利的制造过程,然后才会接受客户的大量订单。对于台积电来说,停止生产线,并重新设计一个即将量产的产品,也并不多见。他们专为GB200量产做了充分准备,包括分配专门的机器产能。而现在,在问题解决之前,这些机器人不得不暂时闲置。设计缺陷还将影响英伟达NVLink服务器机架的生产和交付,因为负责服务器的公司必须等待新的芯片样品,才能最终确定服务器机架设计。 被迫推出重制版 技术挑战也让英伟达不得不紧急开发一套全新的系统及组件架构,比如MGX GB200A Ultra NVL36。而这种全新的设计,也将对数十家上下游供应商产生了重大影响。作为Blackwell系列中技术最先进的芯片,英伟达在系统层面上对GB200做出了大胆的技术选择。这个72 GPU机架的功率密度达到了前所未有的每机架125kW。相比之下,数据中心大多数架只有12kW到20kW。如此复杂的系统,也导致了许多与电力传输问题、过热、水冷供应链增长、快速断开的水冷系统泄漏以及各种电路板复杂性问题相关的问题,并让一些供应商和设计师措手不及。不过,这并不是导致英伟达减少产量或重大路线图调整的原因。真正影响出货的核心问题是——英伟达Blackwell架构的设计本身。Blackwell封装是第一个使用台积电的CoWoS-L技术进行大规模量产设计的封装。CoWoS-L需要使用带有局部硅互连(LSI)和嵌入桥接芯片的RDL中介层,来桥接封装内各种计算和存储之间的通信。相比起目前采用的CoWoS-S技术,CoWoS-L要复杂得多,但它是未来。英伟达和台积电制定了一个非常激进的增长计划,每季度超过一百万颗芯片的目标。但各种各样的问题,也因此出现了。其中一个问题是将多个细间距凸点桥嵌入有机中介层和硅中介层中,可能会导致硅芯片、桥、有机中介层和基板之间的热膨胀系数(CTE)不匹配,导致翘曲。桥接芯片的布局需要非常高的精度,特别是涉及到2个主要计算芯片之间的桥接时,因为这些桥接对于支持10 TB/s的芯片间互连至关重要。据传,一个主要的设计问题与桥接芯片有关。同时,顶部几层全局布线金属层和芯片的凸点也需要重新设计。这是导致多个月延迟的主要原因之一。另一个问题是,台积电没有足够的CoWoS-L产能。过去几年中,台积电建立了大量的CoWoS-S产能,其中英伟达占了大部分份额。现在,随着英伟达迅速将需求转向CoWoS-L,台积电正在为CoWoS-L建造一个新的工厂AP6,并在AP3改造现有的CoWoS-S产能。为此,台积电需要改造旧的CoWoS-S产能,否则这些产能将被闲置,而CoWoS-L的增长速度将会更慢。而这个改造过程将使得增长变得非常不均匀。结合这两个问题,台积电显然是无法按照英伟达的需求供应足够的Blackwell芯片。因此,英伟达几乎将所有产能都集中在GB200 NVL 36×2和NVL72机架规模系统上。并取消了搭载B100和B200的HGX计算模组。作为替代,英伟达将推出一款基于B102芯片并配有4层HBM显存的Blackwell GPU——B200A,用以满足中低端AI系统的需求。有趣的是,这款B102芯片也将用于中国「特供版」的B20上。由于B102是一个单片计算芯片,因此英伟达不仅可以将其封装在CoWoS-S上,而且还能让除台积电以外的其他供应商进行2.5D封装,如Amkor、ASE SPIL和三星。B200A将以700W和1000W的HGX形态出现,配备高达144GB的HBM3E显存和高达4 TB/s的带宽。值得注意的是,这比H200的显存带宽要少。接下来是中级增强版——Blackwell Ultra。标准的CoWoS-L Blackwell Ultra,即B210或B200 Ultra,不仅在显存刷新方面达到高达288GB的12层HBM3E,还在FLOPS性能方面提升了高达50%。B200A Ultra则会有更高的FLOPS,但在显存上不会进行升级。除了有和原版B200A一样的HGX配置外,B200A Ultra还引入了一个全新的MGX NVL 36形态。在训练少于5000个GPU的工作负载时,HGX Blackwell的性能/TCO非常出色。尽管如此,由于基础设施更加灵活,MGX NVL36仍是许多下一代模型的理想选择。由于Llama 3 405B已经接近H200 HGX服务器的极限,下一代MoE LLAMA 4肯定无法适应单个Blackwell HGX服务器节点。再结合上对于MGX B200A Ultra NVL36价格的估计,SemiAnalysis认为HGX B200A卖得不会太好。 MGX GB200A Ultra NVL36架构 MGX GB200A NVL36 SKU是一款风冷40kW/机架服务器,配备36个通过NVLink完全互连的GPU。其中,每个机架将配备9个计算托盘和9个NVSwitch托盘。每个计算托盘为2U,包含1个Grace CPU和4个700W的B200A Blackwell GPU。每个1U NVSwitch托盘则只有1个交换机ASIC,每个交换机ASIC的带宽为28.8 Tbit/s。相比之下,GB200 NVL72 / 36×2包含2个Grace CPU和4个1200W的Blackwell GPU。由于每个机架仅为40kW并可采用空气冷却,因此现有的数据中心运营商可以在不重新调整基础设施的情况下轻松部署MGX NVL36。与GB200 NVL72 / 36×2不同的是,4个GPU对1个CPU的比例,意味着每个GPU只能获得一半的C2C带宽。因此,MGX NVL36无法使用C2C互连,而是需要采用集成的ConnectX-8 PCIe交换机来完成GPU与CPU的通信。此外,与所有其他现有的AI服务器(HGX H100/B100/B200, GB200 NVL72 / 36×2, MI300)不同,每个后端NIC现在将负责2个GPU。这意味着尽管ConnectX-8 NIC设计可以提供800G的后端网络,但每个GPU只能访问400G的后端InfiniBand/RoCE带宽。(同样也是在GB200 NVL72 / 36×2的一半)GB200 NVL72/NVL36x2计算托盘的核心是Bianca板,其包含2个Blackwell B200 GPU和1个Grace CPU。由于每个计算托盘配有2个Bianca板,因此总共会搭载2个Grace CPU和4个1200W的Blackwell GPU。相比之下,MGX GB200A NVL36的CPU和GPU将会位于不同的PCB上,类似于HGX服务器的设计。但与HGX服务器不同的是,每个计算托盘的4个GPU将被细分为2个2-GPU板。每个2-GPU板则搭载了类似Bianca板的Mirror Mezz连接器。然后,这些Mirror Mezz连接器将用于连接到ConnectX-8中间板,并将ConnectX-8 ASIC与其集成的PCIe交换机连接到GPU、本地NVMe存储和Grace CPU。由于ConnectX-8 ASIC距离GPU非常近,因此GPU和ConnectX-8 NIC之间并不需要重新定时器。而HGX H100/B100/B200需要。此外,由于Grace CPU和Blackwell GPU之间没有C2C互连,因此Grace CPU会位于一个完全独立的PCB上,即CPU主板。该主板将包含BMC连接器、CMOS电池、MCIO连接器等。每个GPU的NVLink带宽将为每个方向900GB/s,这与GB200 NVL72 / 36×2相同。按每FLOP计算,这显著增加了GPU到GPU的带宽,使MGX NVL36在某些工作负载中更具优势。由于只有一层交换机连接36个GPU,因此仅需9个NVSwitch ASIC即可提供无阻塞网络。此外,由于每个1U交换托盘只有1个28.8Tbit/s的ASIC,因此非常容易进行空气冷却。比如Quantum-2 QM9700这样的25.6Tbit/s 1U交换机就可以。在后端网络上,由于每个计算托盘只有2个800G端口,因此它将使用2轨优化的行尾网络。对于每8个GB200A NVL36机架,将有2个Quantum-X800 QM3400交换机。在每个GPU 700W的情况下,GB200A NVL36每个机架的功耗可能在40kW左右,即2U空间散热4kW。如此一来,将需要专门设计的散热片和高速风扇来进行空气冷却。 部署MGX GB200A NVL 36的挑战 由于GB200A NVL36完全依靠风冷,而且在2U机箱前端除了PCIe形态的NIC外,还要有一个专用的PCIe交换机,这将显著增加热管理的挑战。因此,在GB200A NVL36上进行定制后端NIC基本上是不可能的。由于许多机器学习依赖项是为x86 CPU编译和优化的,且Grace CPU和Blackwell GPU位于单独的PCB上,因此很可能还会有一个x86 + B200A NVL36版本。不过,x86 CPU虽然可以提供更高的峰值性能,但功耗也会相应高出100W,从而极大增加了OEM的热管理挑战。此外,考虑到Grace CPU的销量问题,即便英伟达推出了x86 B200A NVL36解决方案,他们也会push客户去选择GB200A NVL36。当然,GB200A NVL36也有自己的卖点——每机架40kW的风冷系统。毕竟,很多客户并不能负担得起每机架约125 kW的GB200 NVL72(或总功耗超过130kW的36×2)所需的液冷和电力基础设施。H100的TDP为700W,目前使用的是4U高的3DVC,而1000W的H200使用的是6U高的3DVC。相比之下,MGX B200A NVL36的TDP也是700W但机箱只有2U,空间相当受限。因此将需要一个水平扩展的阳台状散热片来增加散热片的表面积。除了需要更大的散热片外,风扇还需要提供比GB200 NVL72 / 36×2 2U计算托盘或HGX 8 GPU设计更强的气流。根据估计,在40kW机架中,15%到17%的总系统功率将用于内部机箱风扇。相比之下,HGX H100的风扇也只消耗总系统功率的6%到8%。由于需要大量的风扇功率来使 MGX GB200A NVL36 正常工作,这是一种效率极低的设计。 为什么取消GB200A NVL64 在英伟达最终确定MGX GB200A NVL36之前,他们也在尝试设计一个空气冷却的NVL64机架——功耗60kW,搭载64个通过NVLink完全互连的GPU。然而,在经过广泛的工程分析之后,SemiAnalysis认为这个产品并不可行,且不会上市。在提议的NVL64 SKU中,有16个计算托盘和4个NVSwitch托盘。每个计算托盘是2U,包含1个Grace CPU和4个700W的Blackwell GPU,就像MGX GB200A NVL36一样。主要的修改在于NVSwitch托盘——英伟达没有将GB200每个托盘的2个NVSwitch减少到1个,而是尝试将其增加到4个ASIC交换机。显然,仅靠空气冷却功耗如此之高的庞然大物几乎是不可能的。(英伟达提出的是60kW,SemiAnalysis估算是70kW)这通常需要使用后门热交换器,但这破坏了空气冷却机架架构的意义,因为仍然依赖于液冷供应链。此外,这种解决方案仍然需要大多数数据中心进行设施级别的改造,以便将冷却水输送到后门热交换器。另一个非常棘手的热问题是NVSwitch托盘将在1个1U机箱中包含4个28.8Tbit/s的ASIC交换机,需要近1500W的散热功率。单独来看,1U机箱实现1500W并不困难。但是,当考虑到从ASIC交换机到背板连接器的Ultrapass飞线会阻挡大量气流,冷却挑战就变得非常大了。鉴于空气冷却的MGX NVL机架需要以极快的速度推向市场,英伟达试图在设计开始后6个月内就交付产品。然而,对于一个已经资源紧张的行业来说,设计新的交换托盘和供应链是非常困难的。GB200A NVL64的另一个主要问题是每个机架有64个800G后端端口,但每个XDR Quantum-X800 Q3400交换机搭载的是72个800G下游端口。也就是说,每个交换机将有16个800G端口空置。在昂贵的后端交换机上有空置端口会显著影响网络性能和总拥有成本,因为交换机非常昂贵,尤其是像Quantum-X800这样高端口密度的模块化交换机。此外,在同一个NVLink域中使用64个GPU并不理想。表面上看,64是一个很好的数字,因为它有2、4、8、16和32作为公因数,这对于不同的并行配置来说非常合适。例如,张量并行TP=8,专家并行EP=8,或TP=4,完全分片数据并行FSDP=16。不幸的是,由于硬件的不可靠性,英伟达建议每个NVL机架至少保留1个计算托盘作为备用,以便在维护时将GPU下线并作为热备份使用。如果每个机架没有至少1个计算托盘处于热备用状态,即使是1个GPU故障也会导致整个机架被迫停用相当长的时间。这类似于在8-GPU的HGX H100服务器上,只要有1个GPU故障,就会迫使所有8个H100停用。如果保留至少一个计算托盘作为热备份,意味着每个机架只有60个GPU能够处理工作负载。这样一来,刚刚提到的那些优势就不复存在了。而NVL36×2或NVL72则搭载了72个GPU,也就是说,用户不仅可以把2个计算托盘作为热备用,而且每个机架上仍有64个GPU可供使用。GB200A NVL36则可以有1个计算托盘作为热备用,此时有2、4、8、16作为并行方案的公因数。 对供应链的影响 根据SemiAnalysis的推测,GB200 NVL72 / 36×2的出货量会减少或推迟,B100和B200 HGX的出货量则会大幅减少。同时,Hopper的出货量将在2024年第四季度至2025年第一季度有所增加。此外,GPU的订单将在下半年从HGX Blackwell和GB200 NVL36x2转移到MGX GB200A NVL36上。这将影响所有的ODM和组件供应商,因为出货和收入计划将在2024年第三季度至2025年第二季度发生显著变化。 参考资料:https://www.theinformation.com/articles/nvidias-new-ai-chip-is-delayed-impacting-microsoft-google-meta?rc=epv9gi https://www.semianalysis.com/p/nvidias-blackwell-reworked-shipment

四分钟四十亿年!国外小哥在GPU上模拟世界

一位国外小哥,在GPU上模拟出了四十亿年里地球是如何变换的。看到最后一幕,让人不禁沉默了…… 四十亿年里的地球,是什么样子?最近,一位外国小哥写了一个程序,在几分钟内,就模拟了一颗类地行星的完整历史。这个实现是完全用GLSL片段着色器编写的,模拟的更新速度为每秒60帧。 1 原行星 这个故事始于四亿五亿年前,有一块熔岩…… 早期的地球是一颗原行星,温度炽热,且因小行星撞击而布满陨石坑。由于这个地球模拟完全是按程序生成的,没有预先渲染的纹理,因此第一个任务,就是生成该地形的地图。要计算给定经度和纬度处的地形高度,首先要转换为3D笛卡尔坐标: vec3 p = 1.5 * vec3( sin(lon*PI/180.) * cos(lat*PI/180.), sin(lat*PI/180.), cos(lon*PI/180.) * cos(lat*PI/180.)); 现在,小行星的大小各不相同,因此产生的陨石坑也不尽相同。 为了适应这种情况,着色器迭代了五级细节,将大小逐渐减小的陨石坑层层叠加。fBM() 用于生成地形、云、树木分布、它们的颜色变化以及顶篷细节为了使陨石坑具有逼真的凹凸不平的外观,小哥在陨石坑中混入了一些分数布朗运动噪音,并按比例调整,使最大的陨石坑对地形的影响最大。 float height = 0.;for (float i = 0.; i < 5.; i++) {float c = craters(0.4 * pow(2.2, i) * p);float noise = 0.4 * exp(-3.c) * FBM(10.p);float w = clamp(3. * pow(0.4, i), 0., 1.); height += w * (c + noise);}height = pow(height, 3.); 陨石坑本身是在3D网格上生成的,而地表地形则是从网格中划分出来的一个球体。 为避免明显的规律性,陨石坑中心使用哈希函数从网格点中随机生成。要计算给定位置上陨石坑的影响,就可以对属于附近网格点的陨石坑进行加权平均,权重随距离中心的距离呈指数递减。而坑的边缘,由一条简单的正弦曲线生成。 float craters(vec3 x) { vec3 p = floor(x); vec3 f = fract(x); float va = 0.; float wt = 0.; for (int i = -2; i <= 2; i++) for (int j = -2; j <= 2; j++) for (int k = -2; k <= 2; k++) { vec3 g = vec3(i,j,k); vec3 o = 0.8 * hash33(p + g); float d = distance(f - g, o); float w = exp(-4. * d); va += w * sin(2.*PI * sqrt(d)); wt += w; }    return abs(va / wt);} 最终,程序生成的高度图如下——虽然相对简单,但在低洼地区注满水后,这个程序地形类似于科学家认为的早期地球的实际样子:NASA提供的对早期地球的艺术印象 其中所含的水被热量蒸发,逸出并开始在地球周围形成的早期大气中循环。随着时间的推移和岩石的冷却,水蒸气开始凝结成海洋。液态水在地表流动,在地形上刻画出一道道沟壑,留下了大量沉积物。 2 构造板块 山脉、海沟和我们熟悉的大陆地貌的形成,需要一个构造运动模型。 我们让模拟随机生成板块的种子位置,并设定初始速度。随着时间的推移,这些板块的大小会随着一个简单的聚集模型而增长,该模型会随机选择相邻的点,如果这些点还没有被分配到另一个板块中,就会被添加到一个板块中。板块内的所有像素都会存储板块的移动速度。这种聚合模型类似于扩散限制聚合(但实际并没有扩散):板块的连续移动是很困难的,因为这需要板块边界来解释以像素为单位的移动。为避免出现这种情况,板以离散的时间步长移动,横向或纵向均以一个像素为单位。每个板块的移动时间都是随机的,这样就可以使平均速度保持在设定的速度和方向上,而且相邻板块不太可能同时移动。当一个板块的一些边界像素移动到以前被另一个板块的像素占据的位置时,就会发生板块碰撞。这会导致俯冲,只要稍微增加碰撞位置的地形海拔,即可对这种情况进行建模。虽然这种情况只发生在板块边界的像素点上,但通过简单的热侵蚀模型,这种影响会逐渐扩散到邻近的像素点上,从而将像素点的海拔高度推向其邻近像素点的平均海拔高度方向。总之,这就形成了对有山脉的大陆很好地模拟(在下一节中,我们会引入水力侵蚀,对模拟进一步改进)—— 3 水力侵蚀 自然地形的崎岖外观,很大程度上是由河流流域形成的,它们会以我们熟悉的分支模式,来侵蚀着地貌景观。 想要模拟出这种景观,有很多水流模拟的方法。然而有一个难题:对于整个地球来说,地形图的分辨率相当低。因此,模型必须能够模拟出宽度不超过一个像素的河流。好在,Barnes提出的一个简单模型,就能实现这一目标。简单来说,每个像素都会检查与它相邻的八个像素,以确定哪个方向的海拔降低幅度最大(由于对角线上的相邻像素距离较远,因此需要进行调整)。这个坡度最大的方向,就是水流出这个像素点的方向。水流最初通过降雨在各单元之间分配,然后会在每个时间步长内,在相邻像素之间传输。侵蚀是由水流幂律驱动的: elevation -= 0.05 * pow(water, 0.8) * pow(slope, 2.); 在这里,我们有当前单元的海拔高度和水量,以及水流方向的坡度。 海拔的降低是有上限的,这样就不会低于水流方向的位置。水流和侵蚀之间的相互作用,会导致地形中河谷的自然形成:通过给相连的水道着色(颜色由河口位置决定),就可以制作出令人印象深刻的可视化效果,直接能让人联想到真实的流域图——模拟河流流域来自《蚱蜢地理》的美国河流流域 4 全球气候 模拟整个星球的气候系统是一项艰巨的任务,但幸运的是,它可以相对容易地被近似模拟出来。 在我的气候模拟中,程序生成的平均海平面气压(MSLP)地图,就是一切背后的驱动力。根据《气候食谱》,生成MSLP图的主要因素,就是地貌在海洋中的位置以及纬度的影响。事实上,如果从真实的地球MSLP地图中提取数据,根据陆地或海洋的位置将其分开,并绘制 MSLP与纬度的关系图,就会得出陆地和海洋的两条正弦曲线,二者的形状略有不同。通过适当调整参数,就可以得出了一个粗略的年平均气压模型(此处纬度以度为单位): if (land) { mslp = 1012.5 - 6. * cos(lat*PI/45.);} else { // ocean mslp = 1014.5 - 20. * cos(lat*PI/30.);} 当然,这还不足以生成真实的MSLP地图,因为分别生成陆地和海洋的数值,会导致它们之间的边界出现明显的不连续性。实际上,MSLP会在从海洋到陆地的过渡过程中,发生平稳变化,这是由于气体压力的局部扩散造成的。只需对MSLP地图(标准偏差为10-15度)进行高斯模糊处理,就能很好地近似这种气体扩散过程。考虑到气候会随季节变化而变化,有必要对1月和7月之间的MSLP差异进行建模。陆地数据再次表明,这种差异呈正弦模式。通过调整参数和应用高斯模糊,可以将其与年度MSLP地图相结合,生成全年变化的动态气候模式。 if (land) { delta = 15. * sin(lat*PI/90.);} else { // ocean delta = 20. * sin(lat*PI/35.) * abs(lat)/90.;} 现在,有了MSLP,就可以生成风流和温度。实际上,是气温产生了气压,但相关性就是相关性。这就需要更多的处理,才能生成真实的数值(season全年在-1和1之间波动)。 float temp = 40. * tanh(2.2 * exp(-0.5 * pow((lat + 5.season)/30., 2.)))             - 15.(mslp - 1012.) / 1.8 + 1.5 * land - 4. * elevation; 风往往从高压流向低压,但在全球范围内,我们还需要考虑科里奥利力,它是导致风在气压带周围环流的原因(grad是MSLP梯度矢量)。 vec2 coriolis = 15. * sin(lat*PI/180.) * vec2(-grad.y, grad.x);vec2 velocity = coriolis - grad; 虽然这是一种相对粗糙的模拟,但它生成的风环流模式,却非常逼真。如果仔细观察,你口会发现许多自然现象都被复制了,包括季风季节印度上空的风向逆转:作为一个细节,降水可以通过水蒸气从海洋通过风矢量场平移到陆地来模拟。平流的实现方式与流体模拟类似。 5 生命 气候影响着地球上的生命分布。降雨模式和温度变化决定了植物的生长速度。 随着季节的变化,食草动物会迁移到有足够植被的地区。随着植被的迁移,食肉动物也跟着迁移。所有这些动态都可以通过Lotka–Volterra扩散模型来捕获 float dx = plant_growth - c.y;float dy = reproduction * c.x - predation * c.z - 1.;float dz = predation * c.y - 1.;float dt = 0.1;c.xyz += dt * c.xyz * vec3(dx, dy, dz); c的xyz元素,分别代表植被、食草动物和食肉动物的种群。 在大范围内,动物种群的动态会产生有趣的模式:在现实生活中,这些模式最容易在培养皿中的微生物种群中看到,但同样的规律,也适用于全球的大型动物种群。 霉菌菌落中的螺旋波纹 6 人类 早期地球的序幕结束了。 影片的节奏放慢到昼夜循环,地形变得固定,构造运动变得难以察觉。很快,随着人类开始在地球表面殖民,夜晚就会呈现出前所未有的光影模式。随着人类开始燃烧大量化石燃料,为自己的生活提供动力,这种快速扩张带来了一系列变化。沉睡了数百万年的碳,被释放到了大气中,并且散布到了地球的各个角落。几百年来,人类烧尽了所有可用的化石燃料资源,向大气释放了五万亿吨碳。这加剧了温室效应,使全球的平均气温上升了近10摄氏度。赤道附近的大片土地因为极端温度而变得不适合居住,导致人类从地球上很大一部分地区消失了。 参考资料:https://davidar.io/post/sim-glsl

买不到GPU,马斯克自曝AI巨兽Dojo!自研超算挑战英伟达,约等于8千块H100

多年来,马斯克一直在公开谈论Dojo——这台超算将成为特斯拉人工智能雄心的基石。他最近表示,随着特斯拉准备在10月推出Robotaxi,AI团队将「加倍投入」Dojo。 ‍ 为了训出最强Grok 3,xAI耗时19天,打造了由10万块H100组成的世界最大超算集群。 而在训练FSD、擎天柱机器人方面,马斯克同样不惜重金,投入了大量的计算资源。 超算Dojo,是特斯拉AI的基石,专为训练FSD神经网络而打造。 就在今天,他在德州超级工厂(Cortex)参观了特斯拉的超级计算机集群。 马斯克称,「这将是一个拥有约10万个H100/H200 GPU,并配备大规模存储的系统,用于全自动驾驶(FSD)和Optimus机器人的视频训练」。 不仅如此,除了英伟达GPU,这个超算集群中还配备了特斯拉HW4、AI5、Dojo系统。 它们将由一个高达500兆瓦的大型系统提供电力和冷却。 2021年特斯拉AI Day上,马斯克首次对外宣布Dojo。 如今三年过去了,Dojo建得怎样了? 8000块H100等价算力,加倍下注 半个月前,网友称2024年年底,特斯拉拥有AI训练算力,等价于9万块H100的性能。 马斯克对此做了一些补充: 我们在AI训练系统中不仅使用英伟达的GPU,还使用自己的AI计算机——Tesla HW4 AI(更名为AI4),比例大约为1:2。 这意味着相当于有大约9万个H100,加上大约4万个AI4计算机。 他还提到,到今年年底,Dojo 1将拥有大约8000个相当于H100算力。这个规模不算庞大,但也不算小。 Dojo D1超算集群 其实在去年6月,马斯克曾透露Dojo已经在线并运行了几个月的有用任务。 这已经暗示着,Dojo已经投入到一些任务的训练中。 最近,在特斯拉财报会议上,马斯克表示特斯拉准备在10月推出自动驾驶出租车,AI团队将「加倍投入」Dojo。 预计Dojo的总计算能力,将在2024年10月达到100 exaflops。 假设一个D1芯片可以实现362 teraflops,要达到100 exaflops,特斯拉将需要超过27.6万个D1芯片,或者超过32万英伟达A100 GPU。 500亿晶体管,D1已投产 2021年特斯拉AI Day上,D1芯片初次亮相,拥有500亿晶体管,只有巴掌大小。 它具备了强大和高效的性能,能够快速处理各种复杂的任务。 今年5月,D1芯片开始投产,采用台积电7nm工艺节点。 Autopilot前硬件高级总监Ganesh Venkataramanan曾表示,「D1可以同时进行计算和数据传输,采用定制ISA指令集架构,并针对机器学习工作负载进行了充分优化」。 这是一台纯粹的机器学习的芯片。 尽管如此,D1仍没有英伟达A100强大,后者同样采用了台积电7nm工艺制造。 D1在645平方毫米的芯片上放置了500亿个晶体管,而A100包含540亿个晶体管,芯片尺寸为826平方毫米,性能领先于D1。 为了获得更高的带宽和算力,特斯拉AI团队将25个D1芯片融合到一个tile中,将其作为一个统一的计算机系统运作。 每个tile拥有9 petaflops的算力,以及每秒36 TB的带宽,并包含电力源、冷却和数据传输硬件。 我们可以将单个tile视为,由25台小型计算机组成的一台自给自足的计算机。 通过使用晶圆级互连技术InFO_SoW(Integrated Fan-Out,System-on-Wafer),在同一块晶圆上的25块D1芯片可以实现高性能连接,像单个处理器一样工作。 6个这样的tile构成一个机架(rack),两个机架构成一个机柜(cabinet)。 十个机柜构成一个ExaPOD。 在2022年AI Day中,特斯拉表示,Dojo将通过部署多个ExaPOD进行扩展。所有这些加在一起构成了超级计算机。 晶圆级处理器(wafer-scale processor),比如特斯拉的Dojo和Cerebras的晶圆级引擎WSE,比多处理器(multi-processor)的性能效率要高得多。 前者的主要优点包括内核之间的高带宽和低延迟通信、较低的电网阻抗以及更高的能源效率。 目前,只有特斯拉和Cerebras拥有晶圆上系统设计。 然而,将25个芯片放在一起对电压挑战和冷却系统也是不小的挑战。 网友拍到特斯拉在德州建设巨型冷却系统 晶圆级芯片的固有挑战还在于,必须使用片上内存(on-chip memory),这不够灵活,可能无法满足所有类型的应用。 Tom’s Hardware预测, 下一代使用的技术可能是CoW_SoW(Chip-on-Wafer),在tile上进行3D堆叠并集成HBM4内存。 此外,特斯拉还在研发下一代D2芯片,为了破解信息流难题。 与连接单个芯片不同,D2将整个Dojo tile放在了单个硅晶圆上。 到2027年,台积电预计将提供更复杂的晶圆级系统,计算能力预计将提升超过40倍。 自D1发布以来,特斯拉既没有公开已订购、预期接收的D1芯片订单情况,也没有公开Dojo超算的具体部署时间表。 不过在今年6月份的时候,马斯克曾表示,在未来18个月,一半部署特斯拉AI硬件,一半是英伟达/其他硬件。 其他硬件,也可能是AMD。 为什么需要Dojo 自动驾驶耗算力 在我们的印象中,特斯拉的主业仅限于生产电动汽车,再附带一些太阳能电池板和储能系统的业务。 但马斯克对特斯拉的期望远远不止于此。 大多数自动驾驶系统,比如谷歌母公司Alphabet旗下的Waymo,仍旧依靠传统的感知器作为输入,比如雷达、激光雷达和摄像头等。 但特斯拉采取的是「全视觉」路径,他们仅依靠摄像头捕捉视觉数据,辅以高清地图进行定位,再使用神经网络处理数据以进行自动驾驶的快速决策。 直观来看,显然前者是一种更简单快捷的路径,事实也的确如此。 Waymo已经实现了L4级自动驾驶的商业化,即SAE所定义的,在一定条件下下无需人工干预即可自行驾驶的系统。但特斯拉的FSD(Full Self-Driving)神经网络仍无法脱离人类操作。 Andrej Karpathy曾在特斯拉担任AI负责人,他表示,实现FSD基本是在「从头开始构建一种人造动物」。 我们可以将其理解为人类视觉皮层和大脑功能的数字复制。FSD不仅需要连续收集和处理视觉数据,识别、分类车辆周围的物体,还需要有与人类相当的决策速度。 由此可见,马斯克想要的绝不只是能盈利的自动驾驶系统而已。他的目标,是打造一种新智能。 但幸运的是,他几乎不太需要担心数据不够的问题。目前大约有180万人为FSD支付了8000美元的订阅费(之前可达1.5万美元),这意味着特斯拉能收集到数百万英里的驾驶视频用于训练。 而算力方面,Dojo超算就是FSD的训练场。它的中文名字可以翻译为「道场」,是对武术练习空间的致敬。 英伟达不给力 英伟达GPU有多抢手?看看各大科技巨头的CEO有多想跟老黄套近乎就知道了。 即便财大气粗如马斯克,也会在7月的财报电话会上承认,自己对特斯拉可能没法用上足够的英伟达GPU感到「非常担忧」。 「我们看到的是,对英伟达硬件的需求如此之高,以至于通常很难获得GPU。」 目前,特斯拉似乎依旧使用英伟达的硬件为Dojo提供算力,但马斯克似乎不想把鸡蛋都放在一个篮子里。 尤其是考虑到,英伟达芯片的溢价如此之高,而且性能还不能让马斯克完全满意。 在硬件与软件协同这方面,特斯拉与苹果的观点类似,即应该实现两者的高度协同,尤其是FSD这种高度专门化的系统,更应该摆脱高度标准化的GPU,使用定制硬件。 这个愿景的核心,是特斯拉专有的D1芯片,于2021年发布,今年5月开始由台积电量产。 此外,特斯拉还在研发下一代D2芯片,希望将整个Dojo块放在单个硅片上,解决信息流瓶颈。 在第二季度财报中,马斯克指出,他看到了「通过Dojo与英伟达竞争的另一条途径」。 Dojo能成功吗 即便自信如马斯克,在谈到Dojo时,也会支支吾吾地表示,特斯拉可能不会成功。 从长远来看,开发自己的超算硬件可以为AI部门开拓新的商业模式。 马斯克曾表示,Dojo的第一个版本将为特斯拉的视觉数据标注和训练量身定制,这对FSD和训练特斯拉的人形机器人Optimus来说非常有用。 而未来版本将更适合通用的AI训练,但这不可避免地要踏入英伟达的护城河——软件。 几乎所有的AI软件都是为了与英伟达GPU配合使用,使用Dojo就意味着要重写整个AI生态系统,包括CUDA和PyTorch。 这意味着,Dojo几乎只有一条出路——出租算力,建立类似于AWS和Azure一样的云计算平台。 摩根士丹利在去年9月的报告中预测,Dojo可以通过robotaxi和软件服务等形式释放新的收入来源,为特斯拉的市值增加5000亿美元。 简言之,从目前马斯克对硬件的谨慎配比来看,Dojo并非「孤注一掷」而更像是一种双重保险。但一旦成功,也可以释放巨大红利。 参考资料: https://techcrunch.com/2024/08/03/tesla-dojo-elon-musks-big-plan-to-build-an-ai-supercomputer-explained/ https://www.tomshardware.com/tech-industry/teslas-dojo-system-on-wafer-is-in-production-a-serious-processor-for-serious-ai-workloads

25亿独角兽CEO带头跑路,携30员工卖身谷歌!AI大佬:AGI泡沫几周就要破

不好了,CEO和总裁刚刚跑路了?Character.AI的CEO,带着30名员工出走谷歌,这已经是短短5个月内的第三起「CEO」跑路事件了。大佬点评:AI泡沫,几周内就要戳破了。 又一位AI明星初创的CEO,跑!路!了!就在刚刚,AI圈被这个消息震惊了——出走谷歌、自立门户的Character.AI CEO Naom Shazeer,携总裁Daniel De Freitas以及研究团队的大波成员离开公司,重返老东家谷歌! Character.AI将授权自家的LLM给谷歌来换取更多资金公司的总法律顾问Dominic Perella将出任临时CEO。而出走CEO一并带走的,还有Character.AI负责模型训练和语音AI的员工,也就是130名员工中的30人。他们将加入谷歌,参与Gemini AI项目。剩下的100人,内心be like——据报道,此次交易对CharacterAI的估值达到了25亿美元,跟去年与投资者讨论的50亿美元相比,近乎腰斩。继上次Inflection CEO离开公司、转投微软后,这是又一家华丽丽跑路的初创CEO。咱就是说,现在不流行收购公司,而是直接收购创始人了?其实,早在一个月前,Character.AI经营状况的风雨飘摇,就已经初现端倪。虽然在巅峰期,Character.AI的战绩耀眼(移动端的用户达到400万,网站月访客达到1480万,一度达到谷歌搜索查询量的1/5)。但资金链的断裂,还是让公司不得不考虑「卖身」。如今果然,出走半生,归来依旧回谷歌。 叛逃员工,谷歌张开怀抱大方欢迎 对于自己的「卖身」决定,Character.AI官方这样解释的—— 当Noam和Daniel创立Character.AI时,我们的目标是实现个性化超级智能,这需要全栈方法。我们必须预训练模型,并进行后续训练,以支持Character.AI的独特体验,同时构建一个能够全球覆盖用户的产品平台。然而,过去两年来,形势发生了变化;现在有更多的预训练模型可用了。鉴于这些变化,我们认为更大程度地利用第三方LLMs与我们自己的模型结合使用是一种优势。这使我们能够投入更多资源进行后续训练,并为不断增长的用户群创建新的产品体验。 在2021年11月,谷歌员工Noam Shazeer和Daniel De Freitas因为不满谷歌的官僚作风,离开了老东家。此前,Shazeer曾带队构建了LaMDA,为此闹出的事件一度引起了轰动。离开后,二人创办了Character.AI,一个当CEO,一个当总裁。三年后,老东家张开了怀抱,大方欢迎「叛逃」前员工回归。谷歌同意,会向Character.AI支付其模型的许可费用,并且高价聘请CEO及多位研究人员。CEO表示,自己非常激动能重返谷歌,成为谷歌DeepMind团队的一员。而自己留下的Character.AI这一摊,在未来也会越来越好。 我为我们在Character.AI过去三年的成就感到自豪。我相信,来自谷歌非独家许可协议的资金,加上出色的Character.AI团队,将使Character.AI在未来继续取得成功。 而谷歌表示,Shazeer会加入DeepMind研究团队,但未具体说明他或De Freitas的确切角色。 对于Noam的回归,我们非常开心,他是机器学习领域的杰出研究人员,将与少数同事一起加入谷歌DeepMind的研究团队。 当然,Shazeer也会从Character.AI的董事会辞职,而a16z合伙人Sarah Wang,将继续担任独立董事。 得到大笔资金,Character.AI续命了 而且,Character.AI的领导者还告知员工,之前的投资人,会按每股88美元获得回购。这大约是Character.AI 2023年A轮融资中每股价值的2.5倍,当时,公司估值10亿美元。(此前共获得1.93亿美元的融资)同时谷歌也拍胸脯保证,会为Character.AI提供更多资金,帮助其继续增长,继续为全球用户构建个性化的AI产品。据悉,Character.AI将转向使用开源模型,比如Meta的Llama 3.1来支持其产品,而并非其内部模型。过去五个月,硅谷让我们见识了「收购创始人」的热潮。无论是Character.AI、Adept,还是Inflection,他们的这些交易都可以让投资者迅速回笼资金。然而,The Information表示,这远非风险投资者当初在资助它们时,所期望的大额回报。至于未归属的员工股票期权,将继续以每股88美元的价格归属,直到2026年7月底。Character.AI保证,通过一个由许可协议资金支付的基金,投资者会继续获得报酬。期权将在两年后继续归属,但不再有基金的保证支付。虽然严格来说,这次交易并不视为收购,但这种操作已经引起了反垄断监管机构的注意。现在,联邦贸易委员会已经开始着手调查微软与Inflection的交易,以确定是否应将其视为微软应向政府报告的收购。 AI聊天机器人,前路渺茫? 在鼎盛时期,Character.AI一度风头无两。但如今,繁华背后回归沉寂,大家都注意到了这个事实:训练对话AI模型,成本极其高昂,然而愿意为之付费的用户,却远远不够回本。危难之际的Character.AI,已经和数个大型科技公司进行了长达几个月的谈判。谈判对象还包括小扎的Meta Platforms,和马斯克的xAI。而此前,谷歌就曾向Character.AI提供云计算服务和其先进芯片的使用权限,并通过可转换票据提供融资。 而除了成本问题,AI聊天机器人营收的另一大理由,也被迫受阻。因为允许用户和个性化的聊天机器人进行交流,包括动漫角色、电视名人和历史人物,Character.AI立马风靡全美年轻人。当然,聊天机器人的最大产能是什么,咱们都明白。此前,Character.AI已经从包括a16z和Greycroft在内的风投者那里,筹集了超过1.5亿美元。然而,既然拿了金主爸爸的钱,业务都发展也就没那么自由了——Chacracter AI用户最爱的互动浪漫cosplay,可能会让商业伙伴或潜在广告商感到不满。Character.AI已经表示,自己对内容的监管会更严格,所有露骨内容都会被屏蔽和删除。被迫阉割自己的模型后,付费的用户也就更少了。 发现模型被阉割后,愤怒的美国年轻人直接在reddit上的「CharacterAI」社区掀起「七月革命」这些AI被「阉割」得如此严重,以至于已经变成了一群「废人」而就在前几天,也刚刚有消息曝出,Meta将停止名人AI聊天机器人。这也证明了,对于火爆的AI大模型来说,聊天机器人目前并不是一个很好的落地方向。 NYU教授:AI泡沫,几周就要破! 对此,NYU教授、畅销书作家马库斯表示自己早就预见到了。在他看来,生成式AI这个泡沫,是时候戳破了。Inflection CEO离开公司,转投微软;Character.AI的CEO和总裁集体跑路,转投谷歌;如今,就剩下Stability AI在苦苦挣扎了。而且,微软CFO刚刚表示,公司可能需要15年才能收回投资。这难道不是在走下坡路?如果说2023年,是AI承诺的一年内,那么2024年,就是AI该面对现实的一年了。然后,马库斯继续补刀说,短短五个月,这已经是第三起CEO跑路事件了,前不久Adept的CEO也刚刚跳槽到了亚马逊。如果这都不算资金充裕的大型AI初创正在挣扎,那什么还算?这也是一个明显信号:内部人士仿佛都悄悄意识到了,LLM已经遇到了瓶颈。如果AGI真的只差一两年,那谁会跳槽呢?马库斯表示,自己早在一年之前就预言了如今的一切。最后,马库斯语气肯定地表示:AI泡沫,可能在几周内就要破裂了。 为AI烧掉1万亿美元,但需求够吗? 无独有偶,Business Insider最近也写了篇报道称,一位制药公司的CIO在让员工试用了6个月的Office 365 Copilot后,选择了取消。原因很简单——他认为这些所谓的AI能力,完全不值得付费,这个轶事触及了生成式AI热潮的核心——以及它是否能继续下去。据预测,科技巨头们将花费1万亿美元在数据中心、房产、芯片以及其他配套设备上,来构建AI模型、工具和产品。但只有当产品和服务有实际需求,尤其是企业客户的需求时,这些投入才会有回报。而刚刚那位CIO的故事,显然不是一个好兆头——如果一家制药公司不能在这些AI工具上多花18万美元,那就是整个科技行业的问题了。一年多来,大家一直认为生成式AI将引发一波巨大的新需求。同时,各家公司和风投也在追逐这一趋势时消耗了大量现金储备。然而,如果这种需求比预期的要弱怎么办? 过度投资的风险 最为明显的一点,就是数据中心的建设。成本很高,而且大多是固定的。毕竟,当你发现自己实际上用不了这么多的基础设施,并不能让它们「原地消失」。亚马逊CEO Andy Jassy在公司财报电话会议上很好地阐述了这一点: 如果你的容量不足,那么服务就可能会出现中断。显然,没有人会这样做。但如果容量过多,经济效益又会非常糟糕。 谷歌CEO Sundar Pichai则表示,公司会选择过度投资,而不是错失潜在的AI收入机会: 对我们来说,投资不足的风险远远大于过度投资的风险,即使在最终证明我们过度投资的情况下。 纳德拉和他的365 Copilot 不过,相比起一片唱衰的声音,微软CEO Satya Nadella可能是所有人中最乐观的了。他表示,这家软件巨头正从客户那里看到强劲的需求信号—— Microsoft 365 Copilot是我们最好的Office 365或M365套件,很多客户在使用之后都回来购买了更多席位。 显然,纳德拉口中的故事,与BI报道里那位不满意的制药公司CIO,截然相反。 问题来了,AI到底是不是泡沫? 投资正在加速 根据The Information最新的统计数据,GenAI的热潮还远未消退。今年,GenAI初创公司在第二季度筹集了创纪录的122亿美元,超过了2023年的第一季度。Lightspeed是最活跃的公司之一,领投了至少五家公司的投资,从开发机器人控制软件的Skild,到使用AI生成歌曲的Suno。Accel也领投了至少五个项目,包括Scale AI的10亿美元,模型开发公司H的2.2亿美元,以及图像生成公司Synthesia的9000万美元。此前的纪录主要归功于微软向OpenAI投资的100亿美元,而这次则是马斯克的xAI在5月筹集的60亿美元。但即便排除了xAI,GenAI初创公司的融资也比去年同期增长了超过85%。与此同时,获得融资的公司数量,也超过了The Information自2021年开始记录以来的任何一个季度——共有多达55家。在这之中,融资最多的公司基本都在训练基础模型。比如刚刚提到的xAI,筹集了6.4亿美元的开源模型开发公司Mistral AI,以及筹集了5亿美元的Cohere。类似的,那些致力于让模型训练和使用变得更加容易的初创,也是风投关注的重点。比如,训练数据标注公司Scale AI,就在5月筹集了10亿美元。相比之下,消费类AI应用领域就要少得了。Lux Capital的合伙人Grace Isford表示,「AI应用仍处于早期阶段,而基础设施层则相对更为成熟。同时,那些运行大规模模型的公司也需要更多的资本。」Lightspeed Venture Partners的合伙人Guru Chahal也表示,「投资者更愿意向开发模型和相关软件的企业投入巨资,因为他们所追求的机会规模也更大。」不过,在这些做AI应用的公司中,越来越多的都开始开发更适合自身业务需求的自有模型。比如,用AI生成视频的Pika Labs(6月融资1.35亿美元),用AI生成歌曲的Suno(5月1.25 亿美元),以及开发机器人控制软件的Skild(7月融资3亿美元)。当然,这些公司并不是完全独自进行的。诸如Meta和Mistral等公司推出的开源模型,都是构建自有模型的热门起点。据统计,目前有超过100家公司正在构建自己的AI模型。第二受欢迎的则是OpenAI的模型,有68家初创都在使用。此外,也有几家选择了来自多个供应商的模型。 投资者也在反思 但问题是,这项技术何时才能真正为企业带来收益。过去两周,科技巨头逐一向股东汇报了他们在AI上的巨额投资,这些投资导致资本支出飙升。根据S&P Global Market Intelligence的数据,微软和亚马逊在第二季度的资本支出相比去年同期增长了50%以上;谷歌增长了90%以上;Meta增长了30%以上。与这些支出相比,这些投资带来的收入仍然相对微薄。 截至2024年Q1AI初创公司似乎也迅速认识到,在短期内产生足够的收入来支付账单是多么困难。正如上文提到的,这是我们第三次看到AI初创公司的创始人为了更大的科技公司而放弃创业。刚刚「卖身」谷歌的Character.AI,虽然给到投资者的回报还不算太糟,但却远未达到最初的预期。如果这些「远走高飞」的创始人没有看到重大的商业挑战,很难理解他们为何会跳船。当然,有些公司开始看到AI支出带来的回报。例如,ServiceNow上周因其AI产品的显著进展,而提高了其财年收入预期。但鉴于这些公司在过去一年中的残酷表现,对投资者来说,这可能是一次过山车般的体验。 参考资料: https://www.theinformation.com/articles/google-hires-character-ai-cofounders-and-licenses-its-models?rc=epv9gi https://www.theinformation.com/articles/ai-investors-are-soul-searching https://www.theinformation.com/articles/pro-weekly-investments-in-generative-ai-accelerate https://www.businessinsider.com/genai-jitters-is-there-enough-demand-1-trillion-ai-spending-2024-8

Neuralink二号患者已植入,数亿人将实现心灵感应?马斯克惊人计划曝光

马斯克激动宣告,Neuralink已为第二位人类成功植入脑机接口,400根电极一切顺利。最新播客采访中,马斯克带着核心团队揭秘了Neuralink团队工作,以及与人类未来的畅想。他表示,今年还将完成8次植入。 首位植入Neuralink芯片患者,已实现意念操控,机械飞升。 马斯克再次兴奋地表示,Neuralink已成功为第二位患者装上了脑机接口,用400个电极工作,一切非常顺利。 首位患者Noland仅靠思想控制电脑下国际象棋 这是上周五(当地时间),马斯克带着自家核心团队以及首位患者Noland Arbaugh,在著名科技主播Lex Fridman的播客中,发表的言论。 全程8.5个小时的对谈,信息密度极高,充满了马斯克一贯集天才与疯子于一身式的「狂想」。 据介绍,与首位患者(潜水事故导致瘫痪,不到100根电极)情况类似,第二位患者同样受到了脊髓损伤。不过,具体细节暂未透露。 短期内,Neuralink的首要任务是,解决脊髓、颈部或大脑中的基本神经损伤问题。 我们都知道,Neuralink的首个产品是「Telepathy」,帮助神经元受损的人重新恢复身体功能。 目前, 他们开发的第二个产品名为「Blindsight」,是为了让盲人能够看见。 起初,视觉分辨率较低,这取决于能植入多少神经元。 随着时间推移,马斯克认为Neuralink患者将会拥有比人眼更高的分辨率,甚至可以看到不同波长。就像《星际迷航》中Geordi La Forge一样。 访谈中,马斯克更是对Neuralink和人类未来的关系,给予了最高的期望和评价——改善AI与人共生。 他表示,在一两年内,植入Neuralink的人反应更快更灵敏,将超越职业游戏玩家。 首位患者Noland玩马里奥赛车 Neuralink已经能够以8比特/秒速度进行通信,未来5年,可能达到1M比特/秒,比任何人打字、说话可能达到的速度都要快。 「除非我们用Neuralink升级自己,否则AI思考速度如此之快,与人类交流都会感到无聊,就像是在和一棵树说话」。 马斯克表示,希望在年底之前,能够再为8位患者植入芯片。 除此之外,马斯克和Neuralink团队成员们访谈中,还带来了哪些亮点? 400个电极插入大脑,第二例Neuralink患者 马斯克:「我不想太早下断言,但第二个植入物似乎进展得非常顺利。信号很强,电极也很多,工作得非常好。」 第二次芯片成功植入,对于Neuralink来说,无疑是又取得了一个新的重大进展。 今年1月,马斯克的脑机接口公司Neuralink成功将第一颗脑机接口芯片植入了人类患者体内。 正如开头所述,第二位受试者已在大脑植入了400个电极。 首位患者Noland Arbaugh,以及三名Neuralink成员详细介绍了植入物和机器人主导手术的工作原理。 Arbaugh在一月份接受植入物之前,只能通过用嘴控制一根棍子,敲击平板电脑的方式来使用设备。 在大脑植入芯片以后,他现在只需在电脑屏幕前想一想,就能实现光标移动、上网冲浪、玩游戏、发帖。 可以说,脑机接口让Arbaugh整个人生都改变了。 他再次拥有了一定程度的独立性,减少了对护理人员的依赖。 在手术后最初那段时间,Arbaugh的设备也曾遇到了一些问题——植入物的细线缩回,导致可测量大脑信号的电极急剧减少。 Neuralink表示,现在已经恢复了植入物监测Arbaugh大脑信号的能力,并且通过修改算法以使其更加敏感。 Arbaugh在他之前的世界纪录上取得了进步,能够仅用意念控制光标,「只需要大约10%到15%的电极工作」,马斯克在播客中说道。 长期愿景:从10个到数亿个 Lex Fridman:「您认为未来几十年内世界上会有数亿人拥有Neuralink吗?」 马斯克:「是的」 很多年前,马斯克就在思考这样一个问题:「什么会阻碍人类集体意志与人工智能的结合?」 他为这个问题找到了一个答案——人类的低数据速率。 如果人工智能以1Mb/s的速率说话,而人类只能以1bit/s的速度回应,这幅场景就像是对着一棵树讲话那样荒诞,我们需要在生物性上也让人类跟上人工智能的步伐。 因此,我们提高人类的输入和输出速率越多,就意味着我们将会在一个充满AGI的世界里拥有更多的机会。 马斯克认为有可能将人类的输出速率提高3或6个,甚至是更多个数量级,总之要比现在的情况要好。 而输出速率的提高将通过增加电极数量、通道数量以及植入多个Neuralink来实现。 这也是Neuralink的长期愿景,即扩增人类的通信带宽,并推动人工智能和人类共生。 通过Neuralink交谈的人类,将有机会颠覆现有语言的表达效率,就像人们听这期播客,可能都会用1.5倍速甚至2倍速,因为1倍速太慢了,信息消费的效率远高于信息创造,这是低带宽社会的缺点。 但是如果我们可以不通过口舌,而是直接在大脑之间进行桥接,那么信息就可以像rar文件那样交换,得到无损压缩的过程。 为了实现这一伟大愿景,Neuralink还有很长的路要走,脑机接口的人类受试者缺口依然很大。 当被问及「人类参与者的数量会以多快的速度扩展」时,马斯克表示,这在一定程度上取决于监管部门批准的速度。 他们希望今年可以实现10个受试者的目标,所以,还有8个。 而马斯克相信,在未来,这个数字会变成数亿个。 芯片上的电极数量会越来越多,并达到1Mb/s的传输速度(也许5年后),比现在任何人通过打字或说话进行交流的速度都要快。 彼时,人类将通过Neuralink实现「心灵感应」。 对谈DJ Seo DJ Seo:「可以这么说,一旦穿透了大脑,你就进入了竞技场。」 与马斯克进行对谈后,Fridman也采访了Neuralink的三位高管,包括联合创始人、总裁兼首席运营官DongJin Seo。 Seo从加州理工学院取得了电气工程专业的学士学位,之后在UC伯克利获得电气工程、计算机科学和神经科学的博士学位,2017年加入了马斯克的Neuralink创始人团队。 当今的脑机接口(BCI)领域存在两种主流路径——侵入性和非侵入性,主要区别在于是否将电极通过手术植入到大脑皮层以下。Seo也对Neuralink采取侵入式BCI方式的原因做出了解释。 选择侵入式或非侵入式,从根本上还是取决于用途。我个人比较感兴趣的是真正理解并利用高分辨率、高保真度的数据,理解大脑中某个位置的活动。 在这里可能需要使用类比,因为我们处理的是由带电粒子介导的电记录,这对大多数人来说很难想象。 事实证明,大脑中发生的许多活动及其频率带宽,与声波和正常对话的可听范围非常相似。可以想象一个正在比赛的足球场,你站在体育场外。 你也许可以根据球迷的欢呼声和嘘声来了解比赛进展,知道哪支球队获胜,但是无法得知更多细节,比如比分多少、下一场比赛或下一个目标是什么、某个球员或观众的交谈内容。 BCI要做的,就是把麦克风扔进体育场以接近声源,比如靠近某个人的谈话声,或者靠近某个拥挤的地方。 所以,侵入式和非侵入式的区别,可以理解为你把麦克风放在哪里,以及如何处理、运用这些信息。 从BCI获得的信息中,我们可以一窥生物体对信息进行存储、计算的机制,其中不仅包含电信号,还有生物和化学成分,以及振动、移动或扩散物理学等多种机制。 更有趣的是,如物理学家Roger Penrose所说,这其中的一切量子力学效应都存在一些「美丽的怪异之处」,意识很有可能就诞生于此。 作为Neuralink的工程负责人之一,Seo也对脑机接口的技术安全性做出了回应——如何确保每个过程都是安全的? 他表示,插入电极的0~3个月以及3个月以上的任何时间点都存在急性的安全威胁。 黄金标准是查看组织是否存在创伤,以及是否与可见的任何行为异常相关。Neuralink设立了一个完整的病理学部门负责检查相关标本的病理切片,FDA也对此进行监督。 总的来说,包括手术在内的各方面都有极高的标准,也在一个高度监管的环境中进行,管理机构会审查每一个上市的医疗设备。 对谈马斯克 算力、数据与大模型 Musk:「Play to win, or don’t play at all.」 进入大模型时代后,马斯克在算力方面也是频频发力,不断花重金买芯片、建超算。前有为Grok打造10万卡H100集群,后有Dojo即将横空出世。 Dojo D1 超算集群 在他看来,不仅算力的储备量重要,提升训练算力的速率同样重要。 播客中,马斯克被问到了这样一个问题——哪方面因素决定了什么是一个好的模型,算力、数据、post-training?还是包装产品的能力? 他的回答是,很多因素都很重要。 就像是一场F1比赛,你要如何回答「赛车和车手哪个重要」? 熟悉F1的人都明白,二者都很重要。 如果只有对手一半马力的赛车,即使是最优秀的车手也依然会输得很惨;但如果马力是对手的两倍,那么一个平庸的车手也可能胜出。 对AI模型而言,训练算力类似于汽车引擎的马力;如何有效地使用训练算力、进行高效的推理,这取决于人才。当然,数据量也有重要作用。 Grok的优势在于能实时访问推特数据,但实际上,大多数领先的AI公司已经抓取了所有的推特数据。 即便如此,我们需要意识到的是,人类到目前为止积攒的数据非常之少,加起来不过数万亿个token,去重、过滤低质量信息后所剩不多,AI模型会很快耗尽。 但和文本不同,特斯拉和Optimus有潜力积累大量的数据。 数百万辆有摄像头的特斯拉,以及数亿个(甚至数十亿个)Optimus机器人将成为数据的最大来源。 尤其是Optimus,因为特斯拉只能在路上行驶,但Optimus可以去任何地方,并与现实进行交互、完成动作。 比如,Optimus可以拿起杯子,然后得到反馈,看方式是否正确;或者往容器里倒水,然后看水有没有进杯子,或者有没有洒出来。 诸如此类的简单动作可以在十亿倍规模上重复,从现实中生成有用的数据,以及因果关系。 比如拿起杯子(是否以正确的方式),倒水(水有没有进杯子,洒没洒),诸如此类的简单事情可以在十亿倍规模上重复,从现实中生成海量数据,以及因果关系。 关于现实数据的积累,马斯克说了这样一句话:「现实是可伸缩的,这与我们看到的现实尺度成正比。」(Reality scales to the scale of reality.) 也许,所谓的「训练数据耗尽」在马斯克眼中是一个伪命题。我们没有找到足够多的数据,是因为看待现实的尺度或粒度依旧过于粗糙。 卓越工程的「五步咒语」 Musk:「最聪明的工程师最常犯的错误,就是优化了一个本不应该存在的东西。」 工程师出身的马斯克先后创办了Tesla、SpaceX等公司,如今又在领导超算集群的建设,很多人都会好奇,他如何领导这么多不同领域的工程团队,并一次又一次在极短时间内取得佳绩。 主持人Fridman表示,他在Memphis的超算集群中看到了一种简化流程的强烈动力,即理解流程后不断改进、不断迭代。 马斯克对此表示赞同:「简化(simplify)说起来容易,做起来却很难。」 作为第一性原理的忠实信徒,他有一个基本的「咒语」。 首先,质疑需求。需求在某种程度上总是愚蠢的,无论提出需求的人有多么聪明,所以先从减少需求的数量入手。 你完全可能得到一个错误问题的正确答案,所以要试着让「问题」本身尽量少出错。 然后,第二件事是尝试删除任何步骤,无论是零件还是工作流程。 这听起来很显而易见,但人们经常忘记。如果你没有被迫恢复至少10%的删除内容,证明你删除的还不够多。 这有点违反直觉,因为大多数时候,人们会觉得,没有被迫恢复删除内容就算是成功了。 这种矫枉过正是必要的,如果你过于保守、永远不需要恢复任何删除内容,那就意味着,系统中会存在很多不必要的东西。 比如,在超算集群上运行算法时出现了一个问题,我的第一反应是首先尝试删除它。 第三件事,才是尝试简化或优化。 这些事情听起来都非常简单且明显,但我自己犯这些错误的次数多得都记不清了,所以才会有这个咒语。 事实上,最聪明的工程师最常犯的错误,就是优化了一个本不应该存在的东西。 第四件事是加速,无论你的预设或者现在的速度如何,即使你认为已经接近极限了,它都可以变得更快。但在尝试删除或者优化之前,不要进行这一步。 最后一步,就是实现自动化。 马斯克的「科幻情节」 Musk:「我经常声称自己是外星人,但没有人相信我。我的绿卡上确实写着『外星人登记卡』」。 众所周知,马斯克的火星移民计划最初的灵感即来自于他小时候看的《银河系漫游指南》。 是否见过外星人,则是他常常被问起,也乐于谈论的话题。 这次与Lex Fridman的对谈也没能例外,马斯克先后提到了库布里克的电影《发条橙》、《星际迷航》、道格拉斯·亚当斯、阿瑟·克拉克与《2001太空漫游》。 马斯克用了很长时间谈论「外星人和好奇心」,并援引了道格拉斯·亚当斯的观点—— 「有时给出答案是容易的,提出正确的问题才是真正困难的,一旦你能提出正确的问题,答案就会近在咫尺。」 「SpaceX的目标就是让生命在多行星上存在,这是充分考虑到费米悖论的」。 「费米悖论」由物理学家Enrico Feimi提出,表明了关于外星生命存在性的冲突。一方面,宇宙的规模和概率似乎能够支持「智慧生命在宇宙中普遍存在」的论点;另一方面,完全缺乏证据表明智慧生命在地球以外的任何地方出现过 在马斯克看来,为什么我们还没有见到外星人的理由里,最主要的障碍之一就是我们还不是一个多行星物种。 除此之外,马斯克又重申了「生育率下降是文明崩溃的根源」的论断,并倾情推荐了Will and Ariel Durant的著作The Lessons of History。 试图通过Neuralink减轻人类的痛苦并扩展人类思维的能力、试图在火星上建立一个殖民地、试图探索人工智能在这个世界上的可能性并创造出数十亿个机器人…… 这是马斯克正在做的事情:建立未来,同时激励更多人继续建设和创造很酷的东西,包括孩子们。 正如他在播客最后说的那句话—— 「Go forth and multiply!」(继续前进并繁衍!) 参考资料: https://x.com/foxshuo/status/1819939215549051029 https://lexfridman.com/elon-musk-and-neuralink-team/ https://lexfridman.com/elon-musk-and-neuralink-team-transcript

DeepMind研究成本大起底,一篇ICML论文烧掉1290万美元

DeepMind最近被ICML 2024接收的一篇论文,完完全全暴露了他们背靠谷歌的「豪横」。一篇文章预估了这项研究所需的算力和成本,大概是Llama 3预训练的15%,耗费资金可达12.9M美元。 发一篇顶会论文,需要多少实验预算?最近,DeepMind发表了一项研究,对LLM扩大规模时各种算法和架构细节,比如参数和优化器的选择,进行了广泛的实证调查。这篇论文已被ICML 2024接收。 论文地址:https://arxiv.org/abs/2407.05872 63页的论文涵盖了数以万计的模型,备选方案包括3种优化器、4种参数化方案、几种对齐假设、十多个学习率,以及最高达26.8B的14种参数规模。 需要进行实验的4种参数化方案仅仅听到这些数字,就不难知道,这项研究必定涉及海量的模型运行实验。而有一位忠实读者,为了测试自己对论文内容的理解,统计了其中进行的所有实验,并估算出了复现论文的成本。将所需算力全部加在一起,林林总总,居然达到了惊人的1290万美元。考验基本功的时刻到了,假如你是研究团队的leader,根据实验计划对所需算力和成本进行预估是一项必不可少的技能。那就让我们跟着这篇博客文章盘一遍,这一千多万美元,究竟烧在哪里。 Transformer架构信息 论文附录C提供了关于模型算法和架构的各种细节设置,比如使用decoder-only架构、层归一化、GeLU激活函数、无dropout、T5分词器、批大小为256、用FSDP并行等等。 实验模型的参数规模统计通过架构方面的信息,我们可以大致估算出训练中每个token所需的FLOPS,记为M。由于论文没有描述到任何GQA/MQA机制,所以就假设Rkv=1,此外还有lseq=512,Dhead=128,L=8(深度),V=32101(分词器词汇量)。模型总参数量可以表示为:因此,就可以得到M的计算公式:默认情况下,每次实验处理的token数(tokens per experiment, TPE)为5k(训练步数)×256(批大小)×512(lseq),约为6.5536e9。 def M(d: int, L=8, l_seq=512, V=32101) -> int:     return 6*d * (L*(12*d + l_seq) + V) TPE = 50000 * 256 * 512 对齐实验 假设对齐实验中,直接使用了后面的学习率扫描得出的最优结果,并没有单独进行学习率扫描,因此这一步的成本计算比较简单: def alignment() -> int:     return 4 * TPE * sum(M(d) for d in [1024,2048,4096]) # >>> f'{alignment():.3E}' # '3.733E+20' # >>> cost_of_run(alignment())[0] # 888.81395400704 如果H100每运行1小时的花费以3美元计算,对齐实验的成本大致为888美元。 学习率 子问题:最佳评估损失(eval loss)实验 论文的表E1记录了6种模型规模下,所有可能的优化器×参数化方案×模型大小×实验设置的组合,分别进行基础学习率扫描,以获得最佳评估损失。总共包括如下几个实验变量:- 模型维度D∈3072,4096,6144,8192,12288,16384- 4种参数化方案- 3种优化器,其中SGD仅有5个实验设置,Adam和Adam+Param Scaling有7个实验设置假设这里的实验都是单独进行,没有从其他地方复制结果,因此如果全部运行一遍,有成本上限预估: H = [1,2,4,6,8,12,16,20,24,32,48,64,96,128] D = [h * 128 for h in H] def table_e1() -> int:   sets_x_optims = 5 + 7 + 7   return 4 * sets_x_optims * TPE * sum(M(d) for d in D[-6:]) # >>> f'{table_e1():.3E}';cost_of_run(table_e1()) # '1.634E+23' # (388955.9991064986, 16206.499962770775) 这部分的成本就接近40万美元,虽然仍属于可接受范围内,但对于大多数学术预算来说,已经算是非常昂贵了。表E1给出了最佳评估损失,但没有描述LR的扫描策略,每张图上的点数也不尽相同。由于没有得到论文作者的答复,我们也无法确定具体机制,因此假设每个最佳评估损失都经过了15次实验(目测发现,每条线的点数约为10~15)。 β参数 根据论文4.2节内容,学习率还涉及到两个超参数的选择:β和γ。如果仅有β参数,则被称为「LR+default」设置:这部分包括3×优化器,4×参数化,加上全局和单层(GlobalLR、Perlayer-fullalign)分别进行实验,以及未知的LR扫描数量: def beta_only() -> int:   return 3*4*2*PpL * TPE * sum(M(d) for d in D) # 7.988E+23 (1902022.3291813303, 79250.93038255542) 从公式就可以看出,成本和下文的epsilon实验类似,都是200万美元。 γ参数 相比β参数的实验,这部分有两个细节差异。首先,除了GlobalLR、Perlayer-fullalign两种设置外,还需要加上Perlayer-noalign设置。其次,仅针对d=1024=b,进行3D超参数搜索(γ_1,γ_h,γ_L+1),因此有额外的800次运行。两者结合后的计算公式为:这部分的预估成本与Adam的epsilon热力图实验接近,约为320万美元。 def gamma_expts() -> int:   return 36*TPE * (800*M(1024) + PpL*sum(M(d) for d in D)) # gamma_expts 1.354E+24 (3224397.534237257, 134349.8972598857) Adam优化器的Epsilon参数 论文4.3节所述的Epsilon参数实验是计算量的大头。根据上面的推断,每次找到最佳评估损失时都尝试过15个不同的学习率(points per line),那么图6所示的epsilon参数变化图耗费的计算量为:计算结果透露出一种简洁的昂贵,也就是200万美元的账单而已。 PpL = 15 # unprincipled estimate def eps_variants() -> int:   return 4 * 6 * PpL * TPE * sum(M(d) for d in D) ''' >>> f'{eps_variants():.3E}';cost_of_run(eps_variants()) '7.988E+23' (1902022.3291813303, 79250.93038255542) ''' 除了图6左侧的折线图,还有附录F热力图的结果。假设每个方块值都是经过13次学习率扫描后得到的结果,这部分计算量则为:结果发现,仅仅要得到这8张热力图,成本就是320万美元。而且,由于我们将LR扫描数量建模为常数13,这个数字可能低于实际成本。 def eps_heatmaps() -> int:   # eps-type * eps-val * parameterizations * LR range * ...   return 2 * 6 * 4 * 13 * TPE * sum(M(d) for d in D[-6:]) ''' >>> f'{eps_heatmaps():.3E}';cost_of_run(eps_heatmaps()) '1.341E+24' (3193533.466348094, 133063.89443117057) ''' 权重衰减 权重衰减实验(附录G)比较好理解,对4×参数化方案以及所有参数进行一次基本的LR扫描:比epsilon实验便宜不少,也就是湾区工程师一年的工资——31.7万美元。 def weight_decay() -> int:   return 4 * PpL * TPE * sum(M(d) for d in D) ''' >>> f'{weight_decay():.3E}'; cost_of_run(weight_decay()) '1.331E+23' (317003.7215302217, 13208.488397092571) ''' Adafactor优化器 这部分实验在附录C3中有详细描述,是为了检验Adafactor和Adam+parameter scaling是否有相似的宽度缩放机制。共有2×4张图,其中每个优化器收集11个数据点,因此计算公式为:账单上再加18.8万美元。 def adafactor() -> int:   return 2*2*4*PpL*TPE*sum(M(d) for d in D[:11]) ''' >>> f'{adafactor():.3E}'; cost_of_run(adafactor()) '7.918E+22' (188532.80765144504, 7855.533652143543) ''' 计算最优化 论文尝试改变注意力头H的数量,希望找到计算最优化的设置,但其中涉及步长和数据集的改变,因此这部分不使用公式描述,计算代码如下: def P(d: int, L=8, V=32101) -> int:     return 2 * d * (6*L*d + V) def compute_optimal():   indices_50k = (14, 14, 12)   return 4*PpL*sum([     TPE * sum(sum( M(d) for d in D[:i] ) for i in indices_50k),         20  * sum(P(d)*M(d) for d in D[:11]) *3,   ]) # compute_optim 7.518E+23 (1790104.1799513847, 74587.67416464102) 总结 将以上各部分实验的算力和成本汇总在一起: alignment       3.733E+20 (888.81395400704, 37.033914750293334) table_e1        1.634E+23 (388955.9991064986, 16206.499962770775) eps_variants    7.988E+23 (1902022.3291813303, 79250.93038255542) eps_heatmaps    1.341E+24 (3193533.466348094, 133063.89443117057) beta_only       7.988E+23 (1902022.3291813303, 79250.93038255542) gamma_expts     1.354E+24 (3224397.534237257, 134349.8972598857) weight_decay    1.331E+23 (317003.7215302217, 13208.488397092571) adafactor       7.918E+22 (188532.80765144504, 7855.533652143543) compute_optim   7.518E+23 (1790104.1799513847, 74587.67416464102) 结果发现,整篇论文的运算量为5.42e24 FLOPS。这个数字仅仅是Llama 3训练计算量的15%,如果在10万卡H100集群上运行,只需要2天时间即可完成所有实验。 total_flops=5.421E+24 rental price: US$12.9M h100 node months required: 746.9595590938408 (sanity check) D=[128, 256, 512, 768, 1024, 1536, 2048, 2560, 3072, 4096, 6144, 8192, 12288, 16384] (sanity check) model sizes: ['0.00979B', '0.0227B', '0.058B', '0.106B', '0.166B', '0.325B', '0.534B', '0.794B', '1.1B', '1.87B', '4.02B', '6.97B', '15.3B', '26.8B'] (sanity check) M/6P: ['63.4%', '68.5%', '75.3%', '79.7%', '82.8%', '86.8%', '89.3%', '91.0%', '92.2%', '93.9%', '95.7%', '96.7%', '97.7%', '98.3%'] 然而,如果不从LLM预训练的标准来衡量,仅把DeepMind的这篇论文看做一篇学术研究,这个计算量就显得相当奢侈了。如果实验室仅有10张H100,就根本不可能进行这个量级的研究。有100张H100的大型实验室,或许能用几年时间跑完以上所有实验。 参考资料: https://152334h.github.io/blog/scaling-exponents/ https://news.ycombinator.com/item?id=41107721https://arxiv.org/abs/2407.05872

我在谷歌上已经死了二十年?

几十年来,任何想要了解一切的人都会询问谷歌,——但这个平台是否正在失去优势?我们还能相信它会告诉我们真相吗? 在谷歌上搜自己的时候发现自己死了? 近日,自由撰稿人Tom Faber在《卫报》上发文表示,谷歌搜索把自己的照片和另一个同名的人的传记混淆了。 「一张我笑脸的照片,旁边写着:Tom Faber是一位物理学家和出版商,他在剑桥大学担任了35年的大学讲师,于2004年7月27日去世,享年77岁。」 「直到我在谷歌上看到自己去世的消息,我才知道自己已经去世了。」 Tom Faber并不是唯一一个对谷歌感到苦恼的人。 曾以创新算法和简洁界面获得巨大成功的谷歌搜索,如今却面临诸多问题。 比如算法将用户信息混淆,搜索结果质量下降,充斥垃圾邮件和错误信息,界面混乱影响用户寻找答案,还因广告业务被指损害用户体验。 另一方面,ChatGPT的崛起,被许多人称为搜索引擎杀手。比尔·盖茨在去年表示,一旦有公司完善了人工智能助手,用户就再也不会去搜索网站了。 屠龙少年与PageRank 很难想象有任何东西能取代谷歌。 去年,谷歌成立25周年,其母公司Alphabet市值超过2万亿美元,而谷歌在全球搜索市场占有高达90%的份额。 谷歌已经远远超越了本身作为工具的范畴,成为了一种基础设施,因为任何事物都依赖互联网的眼球来运作。 谷歌于是拥有了巨大的权力,可以左右政治、社会态度和无数企业的命运。 起源神话 20世纪90年代末,一对计算机极客谢尔盖·布林(Sergey Brin)和拉里·佩奇(Larry Page)在车库里创办了谷歌。 当时,网络发展迅速,搜索引擎的竞争初现。佩奇和布林的想法是不仅根据网页与搜索查询的相关性对网页进行排序,还要考虑网页信息的质量。 他们建立了大名鼎鼎的PageRank系统,根据链接过来的其他网页数量对网页进行优先排序,——如果许多人链接到某个特定来源,那么该来源的信息质量一定很高。 有效的方法,加上简洁干净的界面,每个人都能看出谷歌搜索的结果比其他公司好得多。 谷歌很快就赢得了大量信任和好感,其「整合全球信息」的使命更是令人鼓舞。 如果你想知道什么,「谷歌一下」,大多数时候,它都会给你想要的答案。于是其他搜索引擎渐渐消亡,搜索成为谷歌的代名词,而「谷歌」成为了一个动词。 忘记初心 凭借自己的成功,谷歌收集了大量用户数据,并利用这些数据改进搜索算法。 同时,谷歌也意识到用户的数据可能很有商业价值,因为它们捕捉到了用户的想法、愿望和内心深处的问题。谷歌利用这些信息重塑了广告业。 从YouTube到地图,谷歌的许多产品都会收集用户数据,从而实现广告的个性化。广告是谷歌的支柱业务,去年,其母公司Alphabet 77%的收入来自广告(2378.5亿美元)。 在这种情况下,谷歌的搜索也悄然发生着变化。 如果把谷歌比作图书馆,那么以前你想借一本书时,图书馆会立即拿出来;而现在,图书管理员会试图向你推销杂志订阅,向你展示一些其他人喜欢的不同书籍,最后拿出一大堆大部头的书,而你想要的书尴尬地夹在中间。 事实上,谷歌的创始人很早就意识到,商业激励可能会损害搜索结果的完整性。 在1998年的一篇学生论文中,布林和佩奇写道,广告资助的搜索引擎「本质上偏向广告商,远离消费者的需求」。 然而,谷歌还是义无反顾地开始展示广告,正如一位学者所言,这是将搜索货币化的唯一好方法。 于是,在成功的道路上,谷歌逐渐失去了早期赢得的公众好感,那句「不作恶」的座右铭也变得讽刺。 争渡争渡,垃圾无数 批评者称谷歌最新的搜索结果为「辣鸡」。 除了谷歌自身的问题,另外两个毒瘤就是垃圾邮件和搜索引擎优化 (SEO) 。 SEO公司的目标是让网站在谷歌搜索排名中更靠前,所以网页的内容只是为了取悦谷歌的算法而量身定制的。 以搜索食谱为例,用户可能希望看到它们简洁地显示在页面顶部,但大多数美食博客会将食谱埋在长篇轶事之下,因为谷歌算法偏爱这种格式,尽管读者可能很反感。 而所谓的「黑帽」SEO,更是通过技术手段生产互联网垃圾,例如「域名抢注」、「声誉滥用」、「讣告垃圾邮件」、「关键词群发」或「寄生虫托管」。 垃圾页面通常没有什么有意义的内容,只是为了登上谷歌搜索结果的顶部,通过托管侵入性广告从每次访问者的点击中获利。 另一方面,垃圾邮件发送者也与时俱进,让谷歌陷入了一场永无休止的战斗。 每当垃圾邮件发送者想出一种新技术,谷歌就调整算法使其失效,然后发送者又想出了别的办法。 而在如今这个AI的时代,互联网正面临着新一波人工智能垃圾邮件的威胁,这可能会成为压垮搜索引擎的最后一根稻草。 垄断市场 如果谷歌的搜索结果不好,为什么人们还要用它呢? 美国司法部认为,谷歌利用其财富以非法垄断的方式进行反竞争运营,主要是向其他科技公司付费,让其成为其设备上的默认搜索引擎(比如在2022年向苹果支付200亿美元)。 谷歌最大的竞争对手微软的必应(Bing)仅占全球搜索市场的3%左右。许多其他初创公司的份额仅为1%,只能存活在自己的赛道上:Perplexity提供书面形式的问题答案,Kagi采用无广告的付费订阅模式,DuckDuckGo专注于保护数据隐私。 Perplexity首席执行官Aravind Srinivas表示:「与谷歌竞争是禁区。他们可以免费提供你提供的一切,让你吃不消。」 平台衰亡理论 谷歌搜索引擎是否存在竞争真的很重要吗? 作家Cory Doctorow创造了术语「enshittification」来解释现代大型科技公司的现状。 「平台的灭亡方式如下:首先,它们对用户很好;然后它们滥用用户来为商业客户提供更好的服务;最后,它们滥用这些商业客户来为自己收回所有价值。然后,它们就灭亡了。」 Doctorow表示,算法系统尤其容易受到这种影响,因为它们的工作原理对用户来说是不透明的,很容易被悄悄调整。 谁知道为什么你会在谷歌搜索结果、Instagram信息流或TikTok For You页面的顶部看到这些内容?是因为它被认为是最适合你的内容,还是因为平台认为它能带来最多的收入? 末日预测,也是互联网的衰落 多年来,人们一直在热情预测谷歌的消亡——甚至有一个名为「谷歌末日预测」的维基百科页面,其中的例子可以追溯到2007年。 也许真正困扰人们的是,在2024年,互联网给人的感觉更糟糕了。 那些90年代末和00年代初在网络上长大的人,可能还记得开放、社区和自由思想。而今天,我们可能更倾向于将互联网与焦虑、孤独和压力联系起来。 也许我们怀念互联网更人性化的时代,就像Reddit这样的庞大而混乱的论坛。在那里你可以得到别人诚实的意见,尽管它很奇怪,但不受模糊的品牌联想或附属链接的影响。 进击的OpenAI 如果搜索问题还不够棘手的话,今天许多人预测,新AI技术的出现将改变一切。 自OpenAI推出ChatGPT以来,技术专家们一直在想,AI助手是否有一天会取代搜索引擎。到了去年,微软宣布将把ChatGPT整合到其搜索引擎结果中。 谷歌慌了。 尽管在大模型的战争中处于下风,也不得不把多年来一直在背后使用的AI搬到了台面上。 只是今天的LLM仍然在靠谱与不靠谱之间徘徊。 我应该吃多少石头? 谷歌表示,LLM与搜索的结合很有用,尤其非常适合需要大量特定变量的查询。 比如,你正在巴黎寻找一家可以供家人就餐的素食餐厅,条件是早上7点营业,步行即可到达地铁站。这些问题以前可能需要花10分钟点击大量搜索,而现在AI只需几秒钟即可完成。 不过深得人类抽象精髓的AI,可不会一开始就乖乖给你打工。 如果你问「我应该吃多少块石头?」,谷歌的AI可能会告诉你「根据加州大学伯克利分校地质学家的说法,建议每天至少吃一块小石头,因为石头中含有对消化健康很重要的矿物质和维生素。」 还有「怎么把奶酪粘在披萨上」,AI建议「在酱汁中加入约1/8杯无毒胶水,使其更粘稠」。 这些错误信息都是AI从浩瀚网络中学到的。吃石头来自讽刺网站洋葱报的一篇文章,而胶水披萨的想法是11年前Reddit上的一篇帖子。 对于全网的嘲讽,谷歌表示,「这些都是成长的烦恼」。 搜索引擎会消失吗? ChatGPT和AI Overviews预示的新方向是,我们不再自己寻找答案,而是得到一个单一的、据称是平衡的答案,这个答案已经被算法预先咀嚼过。 「总结或搜索的简化,对整个社会来说是一件坏事,重要的是从搜索、从你自己信任的或新的来源获得一系列不同的观点,练习批判性思维并形成自己的观点。」 参考资料: https://www.theguardian.com/technology/article/2024/jul/20/google-is-the-worlds-biggest-search-engine-broken