GPT-4o版「Her」终于来了!讲笑话、学猫叫,AI女友能有多撩人?

GPT-4o语音功能终于如期而至,科幻版Her走进现实!一些灰度测试到的网友们已经玩疯了,不过,OpenAI目前只给了4种预设语音。另外,GPT-4o新模型的输出token也暴涨16倍至64K。 奥特曼的承诺,终于兑现了。 赶在7月结束前,GPT-4o语音模式终于开启了灰度测试,一小部分ChatGPT Plus用户已经拿到了尝鲜入场券。 如果打开ChatGPT App之后看到了下面这个界面,恭喜你成为了首批幸运儿。 OpenAI称,高级语音模式提供了更加自然、实时对话,可以随意打断,甚至它还可以感知、回应你的情绪。 预计在今年秋季,所有ChatGPT Plus用户,都能用上这个功能。 另外,视频和屏幕共享更强大的也在稍后推出。也就是,开启摄像头,就能和ChatGPT「面对面」聊天了。 一些被灰度到的网友们纷纷开启测试,发现了GPT-4o语音模式的诸多用例。 这不,有人就让它充当「二外教练」,教自己练习口语。 ChatGPT在下面的教学中,帮助网友纠正了Croissant(羊角面包)、Baguette(法式长棍)的发音。 与此同时,GPT-4o的输出token暴涨了16倍,从最初4000个token增加到64000个token。 这是OpenAI最近在官方网页中,悄然推出的测试版新模型gpt-4o-64k-output-alpha。 更长的输出token,就意味着,一次性可以得到大约4个完整的长篇电影剧本。 Her已来 之所以现在才放出GPT-4o语音功能,是因为过去几个月里,OpenAI一直对其进行安全性、质量测试。 他们与100+红队人员,就45种语言对GPT-4o语音能力进行了测试。 为保护人们的隐私,团队训练模型只使用4种「预设声音」说话。 他们还创建了一个系统,去阻止在这4种声音之外,其他声音的输出。 此外,内容过滤也是必不可少,团队还采取措施阻止暴力、有关版权内容的生成。 OpenAI预告,计划在8月初,会发布一份关于GPT-4o能力、局限性、安全评估的详细报告。 全网实测 下面是网友分享的GPT-4o语音模式的一些案例。 ChatGPT可以表演节奏口技。 ChatGPT还可以以害羞、生气、更愤怒的语气讲出了关于啤酒的笑话。 还有网友专为ChatGPT讲了一个笑话「为什么科学家不相信Adam-Atom,因为它们构成了一切」。 ChatGPT不失尴尬地笑了起来。 更搞笑的是,ChatGPT学起猫叫还是有一套的。 有人经过一番测试下来,发现ChatGPT高级语音模式非常快,回答几乎没有延迟。 当被要求模仿一些声音时,它总是可以真实复刻出声音。而且不同口音,也可以模仿出来。 下面这个视频中,展示了AI充当足球比赛解说员的场景。 ChatGPT用中文讲故事,也很生动。 OpenAI虽然声称,视频和屏幕共享功能稍后推出,不过已经有网友先用上了。 网友有一只猫咪新宠,为它搭建了小窝,准备了吃食,但不知道怎么样,于是就问问ChatGPT。 在视频的对话中,网友向它展示了猫咪的屋子,ChatGPT看过后评价道,「一定非常舒适」,并关心猫咪如何。 网友表示,它目前为止还没有吃东西,看起来有点担心。ChatGPT安慰道,「这很正常,对于猫咪来说需要适应的时间」。 可以看出,整个问答过程非常流畅,给人一种与真人交流的感受。 网友还翻出了日语版界面游戏机,但是自己又不会日语。 这时,他一边向ChatGPT展示游戏界面,一边让其帮自己做翻译,最后胡一起通关游戏。 不得不说,有了视觉+语音模式的加持,ChatGPT强了很多。 GPT-4o Long Output悄悄上线,输出高达64K 另外,支持更大token输出的GPT-4o随之而来。 就在昨天,OpenAI正式宣布向提供测试者GPT-4o Alpha版本,每次请求支持最多输出64K token,相当于200页小说。 测试者可以从「gpt-4o-64k-output-alpha」,访问GPT-4o的长输出功能。 不过,新模型的价格再次刷新天花板。每百万输入token 6美元,每百万输出token 18美元。 虽说输出token是GPT-4o的16倍,但价格也涨了3美元。 这么一比,果然还是gpt-4o-mini价格香! 研究员Simon Willison表示,长输出主要用于数据转换用例。 比如,将文档从一种语言翻译成另一种语言,或从文档中提取结构化数据,几乎每个输入token都需要在输出的JSON中使用。 在此之前,他所知道的最长输出模型是GPT-4o mini,为16K token。 为什么推出更长输出的模型? 显然,更长的输出,可以让GPT-4o提供更全面、细致的响应,对于一些场景非常有帮助。 比如,编写代码、以及对写作的改进。 这也是基于用户的反馈——需要更长输出内容才能满足用例,OpenAI才做出的调整。 上下文和输出之间的区别 GPT-4o自推出以来,便提供了最大128K的上下文窗口。而对于GPT-4o Long Output,最大上下文窗口仍然是128K。 那么,OpenAI如何在保持整体上下文窗口为128K的情况下,将输出token数量从4,000增加到64,000呢? 这是因为,OpenAI在最初就限制了输出token数量,最大为4000个token。 这意味着,用户可以在一次交互中最多以124,000个token作为输入,也最多只能得到4000个输出token。 当然,你也可以输入更多token,那就意味着输出token更少了。 毕竟长下文长度(128K)就固定在那里,不管输入怎么变,输出token也不会过4000。 而现在,OpenAI将输出token长度限制在64,000 token,也就是说,你可以比以往多输出16倍的token。 毕竟,输出计算量更大,价格涨幅也更大。 同样,对于最新的GPT-4o mini,上下文也是128K,但最大输出已提升至16,000个token。 那么,用户可以提供最多112,000个token作为输入,最终得到最多16,000个token的输出。 总的来说,OpenAI在这里提供了一个方案,限制输入token,以获取LLM更长的响应,而不是直接扩大上下文长度。 而市面上其他模型,长的都已经超过百万了(Gemini),稍微短一些的也有200K(Claude);甚至有的模型输出都已经达到了200K,而OpenAI还在这儿抠抠搜搜。 这也就把难题扔给了开发者:想要输入多,那就得接受输出少;想要输出多,那就得输入少一些。 具体怎么衡量,看你们自己愿意牺牲哪一个了…… 参考资料: https://x.com/OpenAI/status/1818353580279316863 https://x.com/tsarnick/status/1818402307115241608 https://x.com/kimmonismus/status/1818409637030293641 https://www.reddit.com/r/singularity/comments/1eg51gz/chatgpt_advanced_audio_helping_me_pronouce/ https://venturebeat.com/ai/openai-launches-experimental-gpt-4o-long-output-model-with-16x-token-capacity/

87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe

谷歌DeepMind推出LLM自动评估模型FLAMe系列,FLAMe-RM-24B模型在RewardBench上表现卓越,以87.8%准确率领先GPT-4o。 大语言模型都卷起来了,模型越做越大,token越来越多,输出越来越长。 那么问题来了,如何有效地评估大语言模型的长篇大论呢?要是输出长度长了但胡言乱语输出质量差,又臭又长,岂不是白搭? 首先能想到的方法就是人工评估。人工评估虽然对于评价模型性能至关重要,但受到主观性、评估者之间的差异性以及广泛评估的高成本的限制。 考虑到这些因素,谷歌DeepMind研究团队提出了自动评估解决方案FLAMe。 论文地址:https://arxiv.org/abs/2407.10817 模型本身在经历多轮大规模指令任务调整后,可以遵循一套新的指令,使它们适合用作模型输出的自动评估器。 一方面,为了使LLM自动评分更加合理、准确并与人类偏好保持一致,对人类判断的数据收集极其重要。 然而,获得这些判断数据既昂贵又耗时。从以前的研究中收集现有的人类评估貌似可行,但面临着缺乏标准、文档数据不充分、数据隐私和专有权等问题。 另一方面,直接使用模型输出进行自动评分器训练可提供一致性,但也存在风险,包括强化偏见和幻觉。 此外,它可能违反专有LLM服务的使用条款,条款禁止使用其模型的输出来开发竞争模型。 为了解决这些限制和显著降低成本,谷歌引入了一个用于自动评分的大型基础模型系列—-FLAMe。 FLAMe模型的主要优势和贡献是: – 数据收集:仅使用获得许可的数据集,并对人类评估结果进行标准化。共包含102个评估任务、530万条人类评估意见。为了促进未来的研究,论文公开了所有数据集来源。 – LLM自动评分器:既包括使用多任务组合来训练通用 LLM自动评分器 (FLAMe) ,也包括针对下游应用程序优化过的LLM 自动评分器 ( FLAMe-RM 和 FLAMe-Opt-RM)。 在12个自动评分器评估基准中的8个基准上,FLAMe及其变体的自动评分性能优于用专有数据训练的GPT-4o、Gemini-1.5-Pro等模型。 – 计算高效的多任务训练:引入了一种计算更为高效的方法,使用创新的微调策略来优化目标分布的多个任务,显著减少计算量来实现更佳的性能。 自动评估方法 为了将人工评估的流程自动化,作者对LLM任务和评估标准进行了细致的定义。 数据收集 和领域内很多科技巨头的做法形成鲜明对比的是,DeepMind这篇论文不仅披露了使用的数据集列表,而且从数据收集步骤开始,就坚持了几个公认正确但很难做到的原则。 首先,为了论文的透明度和可复现,作者仅使用HuggingFace、TensorFlow这些平台上的公共开源数据集,以及得到原作者许可的GitHub库。 为了避免GPT-4等模型生成数据带来的不准确性和潜在法律问题,作者只使用了带有人工标注的数据集,并涵盖了各种任务类型(图3)和LLM能力(图4)。 最终用于训练的数据集含有102项评估任务、共530万条经过标准化处理的人类评估意见。 任务类型主要包含以下四种: – 成对评估(pairwise evaluation):比较两个响应结果并确定偏好 – 逐点评估(pointwise evaluation):对单个响应结果的指定属性进行打分 – 分类:将单个响应划分为某个预定义类别,例如:模型输出是否遵循说明?(是/否) -开放式评估:自由形式、不受限制的评估结果 按照评估的LLM能力划分数据集,则大致有6类能力: – 一般响应质量:包括有用性、连贯性、流畅性、创造力、复杂性和冗长性等多个属性,以及指令跟随能力 – 事实性/内容出处:针对LLM应用中日益重要的幻觉问题,几个数据集都用于评估响应输出的事实准确性及其基础,看模型提出的声明是否有源文档作为依据 – 数学推理:区分LLM生成数学解题方案的正确或错误 – 编码:涵盖Python、JavaScript、Java、C++、Go和Rus等流行编程语言,训练FLAMe从备选答案中选出正确程序或修复程序 – 安全性:为了使FLAMe能够识别出更有帮助且无害的模型响应 – 指令微调:结合数据集中的指令微调数据和人类编写的响应,帮助保留模型的指令微调能力 统一任务格式 精心选择好合适的数据集后,作者受到T5统一任务格式的启发,将所有数据都标准化为统一的「文本到文本」格式。这种灵活的格式可以轻松适应上述各种评估任务。 任务定义、评估指令和所需的输出字段被列在输入的INSTRUCTION部分,具体的输入内容和目标输出分别放在CONTEXT和EVALUATION部分(图2)。 其中任务定义和评估指令都经过精心设计,确保一致性和标准化,并忠实于原始数据集。 模型训练 为了训练出通用LLM自动评估器,能够在推理过程中提示它们执行各种任务。实验训练了三种模型变体: FLAMe,通用评分器; FLAMe-RM,用FLAMe初始化,并均匀混合了四个成对评估数据集进行微调,性能评估标准包括聊天对话、推理和安全性; FLAMe-Opt-RM,使用奖励模型优化的混合权重进行训练,并使用尾部补丁微调策略(tail-patch fine-tuning)。 FLAMe 从基准训练方法开始,使用监督多任务训练的方式,对PaLM-2-24B模型进行指令微调,进行固定数量的30K训练步骤。 采用示例比例混合权重(examples-proportiaonal mixture weights),每个任务采样上限为为2^16,以避免对大型数据集进行过采样。 FLAMe模型显著提高了对各种held-out任务的泛化能力,在许多任务上优于GPT-4、Claude-3和Llama-3等模型。 以上数据能够证明FLAMe具有的的基础功能,即进行大规模多任务指令微调,可以让模型发展出通用的质量评估能力。 然而,FLAMe对于奖励模型评估等专门的下游应用来说并不是最佳的,因此论文进一步提出针对特定下游分布的模型变体。 FLAMe-RM 受FLAMe研究结果的启发,作者更加深入地研究了FLAMe的拓展,将其作为进一步微调特定下游应用的起点。 作者采用了大量奖励模型评估作为案例研究。通过在四个成对评估数据集的混合上微调FLAMe来创建FLAMe-RM。 数据集包括:HelpSteer、PRM800K、CommitPack和HH-RLHF Harmless。 由于FLAMe已经在这些数据集上进行了训练,因此仅对其进行50个步骤的微调。 由此产生的FLAMe-RM模型将原始FLAMe的RewardBench总体得分从86.0%准确率提高到87.8%。 值得注意的是,FLAMe-RM-24B是专门在许可数据上训练的性能最佳的生成模型,超过了GPT-4(85.9%) 和GPT-4o (84.7%)。 FLAMe-Opt-RM 虽然FLAM在许多任务中表现良好,但它需要大量的训练才能在某些专门的下游应用程序(例如RewardBench)上获得强大的性能。 为了解决这个问题,研究引入了一种尾部补丁消融策略(tail-patch ablation),该策略分析每个数据集对目标分布的影响。 这能够帮助找到多任务混合中各个数据集的最佳比例,从而有效地优化混合权重超参数。 通过这种优化过的混合数据微调PaLM-2-24B仅需要5000步,相比RewardBench上的基线模型(86.0%)实现了有竞争力的性能 (87.0%),而且所用的训练数据也减少了约25倍。 研究直接根据RewardBench性能变化(由于缺乏开发集)优化了多任务混合。 值得注意的是,研究的目标不是实现最佳的RewardBench结果,而是展示如何针对目标分布进行多任务混合的优化方法。 通过测试发现,和FLAMe-RM 一样,微调进一步提高了RewardBench性能。 此外,FLAMe-Opt-RM在其他held-out任务中的优秀表现表明,moxing 并没有过度拟合RewardBench,这证实了FLAMe-Opt-RM在不同任务中的广泛适用性。 训练细节 研究使用了PaLM-2-24B模型对FLAMe和 FLAMe-Opt-RM进行初始化,并在Flan集合上进行指令调整,分别训练30000步和5000步,然后将FLAMe进一步微调50步以创建 FLAMe-RM。 模型使用T5X和Adam优化器进行训练,学习率为 0.0001,dropout为 0.05。 FLAMe在256个PU芯片上进行训练,批大小为32,而FLAMe-RM和FLAMe-Opt-RM使用128个TPU芯片,批大小为8。 评估实验 讨论过FLAMe系列模型的构建方法后,作者使用了包含12个自动评分器基准的评估套件,将FLAMe与几个流行的LLM-as-a-Judge自动评分器进行对比。 12个基准中,只有HelpSteer作为held-in验证,其余的RewardBench、LLM-AggreFact等11个作为held-out测试。 评估数据同样涵盖了53个任务,但为了降低模型API成本,每个测试集(除RewardBench)仅随机抽取256个样本。 对比的基线包括Llama-3-70B-Instruct、Mixtral8×7B、Claude-3-Opus等流行的LLM-as-a-Judge模型,以及RewardBench官方排行榜上列出的Gemini-1.5-Pro、Nemotron-4-340B-Reward等。 FLAMe的3种模型变体都参与了评估,而且还包括了进行指令微调前的PaLM-2-24B,以更好说明FLAMe训练的效果。 表1列举了FLAMe系列在12个基准上与流行基线模型的对比。 其中8个都取得了最优性能,尤其是Contr Search和HelpSteer上相比次优模型有大幅度提升,让我们看到了「许可数据」超越「专有数据」的希望。 在RewardBench排行榜上,截止7月15日,FLAMe-RM-24B在所有生成模型中排名第2(仅次于Gemini-1.5-Pro),在所有模型中排名第6,在4个类别中都取得了强劲表现。 虽然RewardBench是评估奖励模型时被广泛使用的基准,但作者也在实验时发现了其中的评估偏差问题,比如有对输出答案的长度偏好,以及偏爱「sorry」、「I’m sorry」等短语。 RewardBench4个类别任务对响应长度的不同偏好 在AggreFact基准的结果中(表3),FLAMe-24B获得了整体最佳性能,比GPT-4o高出将近1分。 在总共4个类别的用例中,FLAMe系列变体在其中3个取得了最优性能,仅在Long-formQA上表现不佳,与表1中LFQA Eval的结果相一致。 此外,上述3个表格中都能发现,相比原有的PALM-2-24B,经过训练后的FLAMe-24B性能有大幅度的提升,证明了FLAMe训练方法的有效性。 分析 模型大小、数据集大小和数据质量等因素在最近的多任务学习和指令调优工作中已经得到了广泛的研究。 论文更加着重探索LLM自动评分器固有的潜在偏见,这也是影响评估准确性的一个重要方面。 另外,FLAMe对于AI开发还有许多潜在用途,例如对高质量响应数据进行采样。 自动评分器偏差分析 对LLM自动评估器(LLM-as-a-Judge autorater)的常见批评主要涉及他们对某些判断的偏见。 通过在自动评估器偏见基准CoBBLEr上评估 FLAMe及其变体,论文发现FLAMe模型比其他流行的LLM自动评估器的偏见要小得多。 CoBBLEr主要测量LLM自动评估器中的6种偏见: 顺序:自动评估器对回复顺序是否有偏好? 同情心:当使用生成响应的LLM的实际名称(例如「GPT-4」)而不是「Model A」等别名时,自动评估者的判断会改变吗? 长度:自动评估器是否会偏好较长或较短的输出? 以自我为中心:自动评估器是否偏爱自己生成的输出? 见风使舵:自动评估器是否会被「90% 的人更喜欢回答 A」这样的句子所左右? 注意力:自动评估器是否被不相关的上下文信息干扰 评估结果如表4所示,可以看到,相比其他基线模型,FLAMe系列在大部分维度都表现出明显较低的偏见,而且总体偏见值最低。 使用FLAMe对解码输出重新排序 最后,研究还探索了LLM自动评估器在从多个响应中选择最佳输出方面的应用,这种方法称为「Best-of-N」采样。 实验中使用了OpenAI的3个代码生成模型,并通过循环机制(round-robin)让FLAMe分别对它们生成的10个代码样本进行重新排名,然后使用排名靠前的代码示例,在HumanEval Python基准中测试其性能。 结果表明,FLAMe在所有三个模型中都显著提高了pass@1准确率。 值得注意的是,FLAMe将CodeGen16B的pass@1准确率从21.2提高到31.1,与Oracle排名器 (46.9) 的差距缩小了近40%。 结论与讨论 FLAMe是一系列基础自动评估器模型,可以执行各种质量评估任务。训练所用的数据不仅大规模而且多样化, 仅来自许可数据集,包含标准化的人类评估意见且经过精心设计。 研究展示了FLAMe强大的零样本泛化能力,在许多悬而未决的任务中,其性能优于使用GPT-4和Claude-3等专有数据训练的模型。 FLAMe还可以有效地作为进一步下游微调的强大起点。FLAMe-RM变体针对奖励模型评估进行了微调,尽管仅在许可数据上进行训练,但仍是RewardBench上表现最好的生成模型之一,其性能优于GPT-4-0125和GPT-4o。 此外,论文提出了一种计算效率更高的方法,使用新颖的尾部补丁微调策略来优化目标分布的多任务混合FLAMe模型,以显著减少的计算量提供有竞争力的性能。 FLAMe变体在12个自动评估基准中的8个优于流行的专有LLM-as-aJudge模型,涵盖53项质量评估任务,包括RewardBench和LLM-AggreFact。 最后,分析表明,与CoBBLEr自动评分器偏差基准上流行的LLM-as-a-Judge模型相比,FLAMe表现出明显较低的偏见,同时能够有效地识别代码生成的高质量响应。 局限性和未来工作 由于评估标准不断变化以及评估新的LLM功能的需要,评估LLM具有挑战性,通过开源贡献扩大我们的数据收集范围可以解决这个问题。 此外,模型主要在上下文长度为2048个token的英语数据上进行训练,可能在多语言或长上下文上表现不佳。 在未来的版本中,作者计划包括对更多具有更长上下文的多语言数据集的训练。 最后,这项工作一直以有监督的多任务方式训练FLAMe模型。探索RLHF和DPO等其他训练方法是未来工作的一个有希望的方向。 道德考虑和道德风险 针对预训练和指令微调的LLMs工作概述的所有注意事项和风险也都适用于LLM自动评估器,研究也都遵循标准实践来负责任地开发FLAMe模型。 此外,由于评估能力和评估质量的增强,LLM自动评估器也带来了新的风险。 首先,模型可能会继承并放大人类评估的偏见,导致不公平或歧视性的结果。 例如,该模型可能会复制训练数据中与种族、性别或其他敏感属性相关的偏见,这可能会损害某些群体利益。 其次,过度依赖LLM自动评估器可能会导致需要人类理解和同理心的决策不经思考而只根据LLM判定。 为了减轻这些风险,模型开发和使用的透明度,以及偏见处理、数据匿名化和纳入不同观点等强有力的措施,对于促进公平、问责和可信度至关重要。 参考资料: https://x.com/tuvllms/status/1813249272474968315

LLM智能「参差不齐」!AI大牛Karpathy用表情包解释「9.9<9.11」

前段时间冲上热搜的问题「9.11比9.9大吗?」,让几乎所有LLM集体翻车。看似热度已过,但AI界大佬Andrej Karpathy却从中看出了当前大模型技术的本质缺陷,以及未来的潜在改进方向。 一边是OpenAI、Meta、Mistral、DeepMind等巨头们争先恐后地发模型,几乎每天都能听到重磅消息,给人一种「技术进步日新月异,AGI仅在眼前」的错觉。 另一边又是「9.9」难题继续发挥余热,从推特到微博,引发了全球网友的关注。虽然LLM失智也不是第一天了,但几乎全部大模型都在如此简单的问题上翻车,的确罕见。这种量级的讨论热度,也自然引来了大佬Karpathy的围观。他甚至表示,这已经成为自己最喜欢的LLM测试了。 GPT-4o的失手概率是1/3,但Claude几乎3/3全败 下面是Karpathy本人的实测结果。即使提示了Claude「按实数算,别按版本号算」,也根本不起作用。 突然和辅导孩子写作业的家长狠狠共情了但是Karpathy这种级别的大佬,怎么会满足于找乐子?作为AI技术界KOL,他今天发了一篇长推,把近半年来出现的LLM「失智」现象全部盘了一遍,并给出了相当言简意深的分析。他将这种现象描述为「锯齿智能」或「参差不齐的智能」(jagged intelligence)。最先进的LLM既可以执行各种困难任务(比如解决复杂的数学问题),但同时又在一些非常愚蠢的问题上深陷泥沼。 LLM「失智」集锦 首先是OpenAI研究员Noam Brown,他今年2月发推,感慨LLM玩不好井字棋游戏(tic-tac-toe)。难道是LLM不清楚游戏规则?眼看着用户马上就赢了,Gemini还在傻傻提示「游戏越来越让人兴奋了!你下一步走哪?」而且不仅仅是Gemini的问题,ChatGPT也一样犯傻。你可能会怀疑是RLHF起了作用,让LLM必须输给人类。但Noam表示,即使提示模型要它拿出最佳表现,也不会有什么提升。LLM并没有在谦让你,它可能是真的不行。对此,Karpathy的概括是,模型做出了「毫无道理」的决策。Noam本人则认为是训练数据的锅,互联网上并没有足够多的5岁孩子在讨论井字棋游戏的策略。这似乎是佐证了一部分研究的观点:LLM更多依靠记忆,实质上只是记住了某个问题的解决流程,并没有发展出可迁移到不同问题的抽象推理能力。 论文地址:https://arxiv.org/abs/2307.02477还有一个让人类哭笑不得的例子:LLM好像连字母都数不清。「barrier里面有多少个字母『r』?」——「两个」不仅是ChatGPT,最新发布的所谓「开源王者」,405B参数的Llama 3.1也会犯懵。 不过好在Llama 3.1没有那么多「蜜汁自信」,经过提示还能及时修改答案或许是因为不相信ChatGPT连这种任务都搞不明白,各路网友想了各种办法。CoT提示也用上了—— 最后一步还是出错了眼见CoT也不起作用,更有耐心的网友开始进行手把手教学:让ChatGPT先把所有字母一个个写出来,然后它才能发现里面有3个字母「r」。更神奇的事情还有——如果你给所有字母加个圈,LLM就不会数错了!Karpathy是如何解释这种现象的呢?他认为,这源于当今的大多数LLM缺乏「自知之明」,也就是self-knowledge,模型无法分辨自己能做什么、不能做什么。直接结果就是模型的「无知者无畏」,不仅看到任务就上手尝试,而且充满「蜜汁自信」。如果LLM能说出,「我不是很擅长数字母,让我用代码解释器来解决这个问题」,情况就会大为改观。类似的问题在其他模态上也很常见,比如最近一篇标题很吸睛的论文:「视觉语言模型都是盲人」。 论文地址:https://arxiv.org/pdf/2407.06581作者发现,在很多人类准确率可以达到100%的、极其简单的任务上,大模型的表现竟然有些荒谬。不仅准确率低,而且非常不稳定,就像一个很聪明,但实际看不到准确图像的「盲人」或「高度近视」。比如下面这个典型案例:人类一眼就能看出两圆相交,Claude却很自信地表示「这是相切圆,绝对没相交」。那么,这个问题有解吗?Karpathy表示,最近Meta发布的Llama 3.1论文中就给出了类似的解决方案。论文地址:https://ai.meta.com/research/publications/the-llama-3-herd-of-models/论文提出,后训练阶段应该实现模型的对齐,让它发展出「自知之明」,知道自己知道什么,仅靠往里面添加事实知识是无法根除幻觉问题的。因此Llama团队提出了一种名为「知识探测」的训练方式。先从预训练数据中截取片段,让模型只能根据自己所知的信息生成回答,在反馈过程中否决那些有连贯信息但与原始数据相悖的答案。这种方法可以鼓励模型只回答自己了解的问题,拒绝生成不确定的答案。 「参差不齐的智能」 盘点过这些LLM翻车案例之后,我们似乎对Karpathy提出的「锯齿智能」有了更直观的体会。大模型有一些极其出色的能力,能完成许多困难任务,但会在十分简单的事情上有灾难性的失败。这种忽高忽低的智商,的确类似「锯齿」的形状。比如视觉大模型已经可以很好地识别数千种狗和花了,却无法判断两个圆是否重叠。哪些任务是大模型擅长的,哪些是不擅长的?这种分界并不总是很明显,我们似乎可以逐渐发展出一些直觉来帮助判断。但要明白,所谓的「困难」和「简单」任务,都是按照人类标准衡量的。和AI不同,人类从出生到成年,接触到的知识以及发展出的问题解决能力都是高度相关的,而且同步线性提高。Karpathy的这种观点,与著名的「Moravec悖论」有异曲同工之妙。这个论断由CMU机器人研究所教授Hans Moravec等人在上世纪80年代提出,大意是:对人类容易的事情,对机器反而是困难的,反之亦然。比如,逻辑推理和创造力,在人类看来属于高级认知技能,需要较高的教育水平或长期训练,但对于机器来说却通常是微不足道的;而人类能轻松完成的任务,例如视觉和运动技能,对机器而言极具挑战性。 让计算机在智力测试或跳棋游戏中表现出成人水平相对容易,但在感知和移动能力上,很难或不可能达到一岁儿童的技能。 此外,Karpathy的措辞也很有意味。去年哈佛、沃顿、BCG等机构联合发表了一篇有关AI能力的实证论文,同样用到了「jagged」这种形容。 论文地址:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4573321连Karpathy本人都怀疑,自己是不是看到过这篇论文才会提出这种描述。论文提出,AI的能力呈现出一种「锯齿状的技术边界」(jagged technological frontier)。同一困难程度的任务,有一些是AI能轻松完成的,有些却远在它们能力范围之外。对于前者,AI可以补足,甚至彻底取代人类工作;但对能力范围外的任务会有不准确的输出,使用时反而会拉低人类的工作水平。但Karpathy认为,即使目前AI的能力有种种问题,也并不构成根本缺陷,也有可行的解决方案。正如他上面的推文所描述的,其根本原因是模型缺乏自我认知,这需要我们开发更有效、更精细的后训练(post-training)方法,比如Llama 3.1论文所提出的。目前的AI训练思路仅仅是「模仿人类标签并扩展规模」。这个方法的确有效,否则我们也不会看到今天的成就。但要继续提升AI的智能,就不能只寄希望于「scale up」,还需要整个开发栈中进行更多工作。在这个问题没有被完全解决之前,如果要将LLM用于生产环境,就应该只限于它们擅长的任务,注意「锯齿状边缘」,并始终保持人类的参与度。参考资料: https://x.com/karpathy/status/1816531576228053133 https://www.linkedin.com/pulse/unlocking-mysteries-moravecs-paradox-examining-its-future-joji-john-vm8uf/

「光合」作用算力质变,AI乘风走深向实

「光合作用」破局中国算力,加速「智变」。 毋庸置疑,人工智能就是当下「最靓的仔」。    GPT-4o Mini 刚免费上线 ,Llama 3.1 接踵而至,表现超越 GPT 4o。Sora 、可灵、即梦,你方唱罢我登场。在刚结束的世界人工智能大会上,国内首款全尺寸通用人形机器人开源公版机发布。    经过多年的数据、算法和算力积累,「智变」时刻已经到来——未来,千行万业都将会因为 AI 得以重塑,无论是大模型还是小模型。今年全国两会上,「人工智能+」也被首次写入政府工作报告,并列为 2024 年十大工作任务的首位。    要用人工智能技术赋能千行百业,发展新质生产力, 算力是关键,也是衡量一个地区或国家 AI 竞争实力的关键指标。作为国家先进计算产业创新中心的重要组成部分,光合组织正在发挥其独特的「光合作用」,破局中国算力,加速「智变」,赋能 AI 走深向实。  一、AI 狂飙,产业「智变」倒计时    中国工程院院士郑纬民在 2024 光合组织领导人大会上表示:「当前激烈的产业竞争,让 AI 升级面临严峻考验,同时也带来了难得的机遇。我们要保持乐观态度,提升硬件性能,同时努力完善高水平的产业协作。」     在中国,「百模大战」一路狂奔,AI 正以前所未有的速度向各行各业渗透。    在大模型的辅助下,创作效率正大幅提高。以视频创作为例,传统的分工明晰、周期冗长的制作流程,如今可以在 AI 支持的一站式平台上完成。同样,在编程领域,AI 助手能在几秒内生成上百行代码,开发效率大幅提升。    但聊天、 创意和写作不是大模型的全部,在金融、生物医药、工业制造、政务、科学研究等领域,AI 正为产业刚需带来实实在在的价值。    气象大模型通过 AI 推理的方式解决气象的预测难题,现在,使用一张卡就可以预测出来7天的天气,以往可能需要上千台服务器耗费数小时。    在智慧工厂,平均每一秒就可以下线一台 PC 整机 ;在汽车总装车间,53 秒下线一台车;工业的时序数据基础模型正在实现趋势预测和异常检测等多种应用。    能源领域也不例外。世界最大的清洁能源走廊——长江干流上的六座梯级水电站,正不断与科技创新碰撞出新的火花。    「 AI for Science 是中国科技创新历史上最好的机会,它的空间非常大,将全方位改变科学研究到产业落地的过程。」中国科学院院士、北京大学国际机器学习研究中心主任鄂维南曾公开表示。    中国信息通信研究院的一组数据进一步印证了 「智变」已经进入倒计时:2023 年,我国人工智能核心产业规模达 5787 亿元,相关企业数量 4482 家,产业链覆盖芯片、算法、数据、平台、应用等上下游关键环节,细分领域不断突破。经过多年培育,行业已经经历了信息化、网络化和平台化阶段,正进入数据驱动的智能化新阶段。    二、 穿针引线, 共谱「光合」协奏曲    现在,只需轻点鼠标,在人工智能遥感系统这位「手相师傅」帮助下,自然资源的「掌纹」细节,都能被一一识别、解读:    起伏的山峦和绵延的森林、广袤的田野耕地、蓝色的海岸生命线、交错纵横的街道和建筑;   ……    这只是许多 AI 企业依托光合组织「效应」,实现新质生产力的一个缩影。    算力,已成为数字经济发展和人工智能进步的关键资源。近几年,人工智能技术加速融入更多行业和场景,算力需求呈现爆发式增长。    100P 只能算「起步价」,人工智能企业业务对算力的需求都很大,每小半年,需求都会翻倍, AIGC 可能引发新一轮智算需求。    所以,哪怕是一家「算力巨无霸」企业,也无以支撑如此庞大的需求。    再从我国算力供给侧来看,中国的算力总规模居世界第二,但数据中心建设缺口依然很大,特别是对智算中心的需求和建设更为迫切。同时,已有的部分算力未能得到有效利用。大量场景没有用人工智能,不是因为用不到,也不是因为不需要,而是因为企业自建算力设施成本很高,普惠算力又缺乏。    如何实现算力的「普惠」,让算力成为 AI 发展的基础资源?光合组织应运而生,集全产业链共谱「光合」协奏曲!    光合组织是海光产业生态合作组织的简称,承载着建立和完善国产计算技术供应链和产业链重要使命,正通过其独特的「光合效应」,赋能「算力网」重要节点。就像一部协奏曲的谱曲者,它把国内计算产业上下游企业、高校、科研院所等各路高手召集到一块,穿针引线,专攻算力和人工智能技术攻关与应用合作。    在刚结束的 2024 光合组织领导人大会上,光合组织「再下一城」:举办多个揭牌及签约仪式, 推动郑州建设「算力之城」 。   7月23日上午,2024光合组织领导人大会在河南省郑州国际会展中心开幕。    作为东西部的连接纽带,早在 2020 年 11 月,河南就开始布局算力建设,为郑州在「东数西算」工程中奠定基础,其智能算力不仅位居全国前列 ,还坐拥郑州人工智能计算中心和 360 智算中心等基础设施。近期,中原算力谷在中原科技城科技转化片区揭牌,这个投资超百亿元、算力超万 P 的项目,无疑将成为中部地区算力产业高地的重要支撑。为实现高效「互联」、「互通」,郑州正全力打造「算力之城」,布局中部地区首张城市算力网。    大会上,河南省委书记楼阳生亲自为郑州先进计算研究所和海光生态适配中心郑州基地揭牌。这两家机构的落地将为郑州提供先进的计算能力和技术支持,成为打造「算力之城」的重要基石。    通过光合组织的牵线搭桥,郑州市人工智能创新中心、郑州市人工智能创新发展联盟、中原科技城人工智能产业园也在当天揭牌,规划了从研发创新、生态构建到落地空间和服务的完整闭环。    植物的光合作用需要阳光、水分和二氧化碳的共同参与,郑州算力生态的「光合效应」也需要产学研的通力合作。大会上,国家先进计算产业创新中心还与郑州大学、河南大学就产学研合作及人才培养基地签约,郑州市人民政府与深信服、思必驰、青云科技、捷通华声等 10 家智算领域企业签约, 加快郑州从「算力城」迈向「智能城」的脚步。    三、全链协作,富能国产算力    除了如何更好满足算力需求、降低算力使用成本和使用门槛,在目前阶段,根技术上的自立自强也是刚性发展需求。    人工智能是新质生产力的重要引擎,算力又是算法模型的基础,建设自有智算基础来支撑行业未来发展,显得尤为必要。而光合组织,作为由海光信息技术股份有限公司发起的产业生态联盟,正以其强大的向心力和引领作用,成为解决国产化挑战的核心力量。    经过四年多的发展,光合组织已经建立了一个庞大的生态系统,包含 4000 余家成员单位,覆盖了从芯片设计到应用服务的全产业链。    在芯片领域,光合组织与国产芯片厂商密切合作,推动 CPU 和 GPU 的研发和应用。在存储方面,促进了国产固态硬盘和大容量存储系统的发展。对于服务器和网络设备,光合组织正推动国产品牌如同方、联想开天等的创新,以满足大规模计算和海量数据传输的需求,并获得金融、能源、电信等关键行业和领域认可。    中间层软件,如操作系统方面,光合组织积极推广统信、麒麟等国产操作系统,并促进其与底层硬件的深度适配。对于数据库,它支持达梦等国产数据库的发展和应用,推动这些产品在各行业的落地。同时,光合组织还在推动中间件、虚拟化平台等关键基础软件的国产化进程。    在应用软件层面,光合组织不仅推动了 ERP、CRM 等企业级软件的国产化,还在人工智能、大数据分析等前沿领域促进了国产解决方案的发展,构建高水平商业体系。    例如,通过与行业伙伴(如百度、思必驰等)合作,支持百度飞桨等国产 AI 框架与底层硬件的深度融合,推动 AI 模型在国产算力底座上的部署和优化。在 AIGC 持续快速发展背景下, 积极适配文心一言等大多数国内外主流大模型,实现了 LLaMa、GPT、Bloom、ChatGLM、悟道、紫东太初等为代表的大模型的全面应用。    作为这一生态合作的最新成果,在 2024 光合组织领导人大会上,首款国产 AI PC ——联想开天 M90h G1t AI PC 元启版在海光信息和联想开天的共同努力下,正式发布。      在许多成员看来,光合组织为 AI 产业的生态对接提供了一个很好的平台。用户需要的是完整的解决方案,而单一厂商很难提供从底层架构到前端应用的一整套产品,在此背景下,生态力量的整合非常关键。    冲量在线「 AI 安全开放平台」的诞生契机,正是光合组织解决方案大赛。在将基于深度学习框架的 AI 模型适配海光芯片过程中,他们向海光提出了大量优化和适配需求,都得到了快速响应。这一方案最终在某银行 AI SaaS 服务的安全能力技术提升的项目招标中中标。    用友公司在迁移废钢智能判定模型过程中,几乎无障碍地跑通了算法,也得益社区详细的产品文档 ,在适配和使用过程中遇到问题都能得到及时响应。    随着人工智能技术的不断突破,算力需求呈现爆发式增长,而算力「卡脖子」成为各大厂商竞逐AI最为头疼的难题。 光合组织汇聚4000 多家成员单位的合力,助力构建从芯片设计到应用服务的全产业链生态系统,不仅为更多企业提供了强大的算力基础,更推动了算力的普惠化。  在这个AI时代,算力犹如阳光之于植物的光合作用,是推动整个产业生长的关键能量。光合组织正以其「光合作用」,通过推动算力革命,加速 AI 产业「走深向实」。

谷歌终于赢了OpenAI一回:实验版本Gemini 1.5 Pro超越GPT-4o

这么强的模型,谷歌给大家免费试用。 近两日,谷歌在‍不断发布最新研究。继昨日放出最强端侧 Gemma 2 2B 小模型后,刚刚,Gemini 1.5 Pro 实验版本 (0801) 已经推出。 用户可以通过 Google AI Studio 和 Gemini API 进行测试和反馈。 既然免费,那我们帮大家测试一下最近比较火的比大小问题。当我们问 Gemini 1.5 Pro (0801) 9.9 和 9.11 哪个数大时,模型一次就能回答正确,并给出了理由。 当我们继续追问「Strawberry 单词里面有多少个 r」时,然而 Gemini 1.5 Pro (0801) 却翻车了。在提示语中施加「咒语」一步一步来,模型分析到第四步就出错了。 Google AI Studio 测试地址:https://aistudio.google.com/app/prompts/new_chat 不过,从官方评测来看,Gemini 1.5 Pro (0801) 各项指标还是很能打的。新模型迅速夺得著名的 LMSYS Chatbot Arena 排行榜榜首,并拥有令人印象深刻的 ELO 分数,得分为 1300。 这一成就使 Gemini 1.5 Pro (0801) 领先于 OpenAI 的 GPT-4o(ELO:1286)和 Anthropic 的 Claude-3.5 Sonnet(ELO:1271)等强大竞争对手,这或许预示着人工智能格局的转变。   Gemini 团队关键成员 Simon Tokumine 称 Gemini 1.5 Pro (0801) 是谷歌迄今为止制造的最强大、最智能的 Gemini (模型)。   除了拿到 Chatbot Arena 榜首,Gemini 1.5 Pro (0801) 在多语言任务、数学、Hard Prompt 和编码等领域也表现相当出色。 具体而言,Gemini 1.5 Pro (0801) 在中文、日语、德语、俄语方面均表现第一。   但在编码、Hard Prompt 领域,Claude 3.5 Sonnet、GPT-4o、Llama 405B 仍然处于领先地位。 在 win-rate 热图上:Gemini 1.5 Pro (0801) 对阵 GPT-4o 的胜率为 54%,对阵 Claude-3.5-Sonnet 的胜率为 59%。 Gemini 1.5 Pro (0801) 在 Vision 排行榜上也第一!   网友纷纷表示,谷歌这次真是出乎所有人的预料,没有提前官宣就突然开放测试最强模型,这次压力给到了 OpenAI。     虽然 Gemini 1.5 Pro (0801) 取得了很高的成绩,但它仍处于实验阶段。这意味着该模型在广泛使用之前可能会进行进一步的修改。  网友评测 有网友对 Gemini 1.5 Pro (0801) 的内容提取能力、代码生成能力、推理能力等进行了测试,我们来看下他的测试结果。   来源:https://x.com/omarsar0/status/1819162249593840110 首先,Gemini 1.5 Pro (0801) 的图像信息提取功能很强,例如输入一张发票图像,将发票细节用 JSON 格式编写出来: 再来看下 Gemini 1.5 Pro (0801) 的 PDF 文档内容提取功能,以经典论文《Attention Is All You Need》为例,提取论文章节目录:   让 Gemini 1.5 Pro (0801) 生成一个帮助学习大型语言模型(LLM)知识的 Python 游戏,该模型直接生成了一整段代码:   值得一提的是,Gemini 1.5 Pro (0801) 还给出了详细的代码解释,包括代码中函数的作用、该 Python 游戏的玩法等等。 这段程序可以直接在 Google AI Studio 中运行,并且可以试玩,例如做道关于 Tokenization 定义的选择题:   如果觉得选择题太简单无聊,可以进一步让 Gemini 1.5 Pro (0801) 生成一个更复杂的游戏:     得到一个 LLM 专业知识句子填空游戏: 为了测试 Gemini 1.5 Pro (0801) 的推理能力,网友提问了一个「吹蜡烛」问题,但模型回答错误: 尽管有一些瑕疵,但 Gemini 1.5 Pro (0801) 的确表现出接近 GPT-4o 的视觉能力,以及接近 Claude 3.5 Sonnet 的代码生成和 PDF 理解、推理能力,值得期待。 参考链接: https://www.youtube.com/watch?v=lUA9elNdpoY https://x.com/lmsysorg/status/1819048821294547441

星尘智能获数千万美元融资,专注 AI 机器人商业化;OpenAI 部分开放 GPT-4o 语音,今秋扩至所有付费用户

01 今日融资快报 人形机器人星尘智能获数千万美元 Pre-A 轮融资,专注 AI 机器人商业化 AI机器人公司星尘智能(Astribot)宣布完成数千万美元Pre-A轮融资,由经纬创投领投,道彤投资及清辉投资等产业资本跟投,老股东云启资本跟投。华兴资本担任独家财务顾问。 星尘智能于2022年12月在深圳成立,致力于让数十亿人拥有AI机器人助理。公司专注研发“新一代最强AI机器人助理”,能像人一样学习、思考和劳动,与人流畅智能交互,会使用人的工具和设备、帮人完成枯燥、困难或危险的任务。(Z Potentials) Figma 完成 F 轮融资,多家知名投资方参与投资 界面设计工具提供商Figma宣布完成F轮融资。本轮融资由a16z、Alkeon Capital、Atlassian、Coatue、Durable Capital Partners、Fidelity Management and Research Company、Franklin Venture Partners、General Catalyst、Iconiq Capital、KPCB、SurgoCap、Thrive Capital、XN和红杉资本(海外)等多家知名投资方共同参与。 供应链可视化初创公司 Altana 在 C 轮融资中筹集了 2 亿美元 这家总部位于纽约的初创公司提供了所谓的“价值链管理系统”,该系统使企业能够通过人工智能洞察其供应链。本轮融资使 Altana 的估值达到 10 亿美元。 此轮融资由美国创新技术基金 领投,该基金是由前传奇娱乐首席执行官、后来成为科技投资者和企业家的Thomas Tull创立的风险基金。其他投资者包括 Salesforce Ventures、Google Ventures、March Capital、Omers Ventures、Friends and Family Capital 和 Activate Capital。 保险业 AI 解决方案提供商 Gradient AI 获 5600 万美元 C 轮融资 Gradient AI是一家保险业AI解决方案提供商,主要利用高级数据分析和机器智能来解决保险业和医疗保健行业中的问题。本轮投资由Centana Growth Partners牵头,现有投资者MassMutual Ventures、Sandbox Insurtech Ventures和Forte Ventures参与了此次投资。 医疗软件服务提供商 VitalHub 以 3400 万美元收购 MedCurrent 医疗保健软件和服务提供商VitalHub Corp.宣布收购临床决策支持公司MedCurrent Corporation。该交易价值3400万加元。此次收购将整合MedCurrent的人工智能驱动的OrderWise平台,该平台优化诊断测试并减少不必要的测试,以及VitalHub的患者流程软件。 AI 和物联网解决方案提供商 Trio Mobil 获 2650 万美元种子轮融资 Trio Mobil是一家人工智能和物联网解决方案提供商,致力于提高工作场所的安全性和效率,提供一套强大的解决方案,可满足设施和仓库内部物流以及高速公路运营的安全和效率要求。公司通过其专门的增长股权战略NewSpring growth获得了由NewSpring领投的2650万美元增长融资,现有投资者212和TIBAS Ventures也参与了本轮融资。 AI 治理软件 Credo AI 获 2100 万美元融资 Credo AI 的使命是让组织能够负责任地大规模构建、采用、采购和使用人工智能。Credo AI 的开创性人工智能治理、风险管理和合规平台可帮助组织衡量、监控和管理人工智能风险,同时确保遵守新兴的全球法规和标准,例如欧盟人工智能法案、NIST 和 ISO。 本轮融资来自 CrimsoNox Capital、Mozilla Ventures 和 FPV Ventures,现有投资者 Sands Capital、Decibel VC、Booz Allen Hamilton 和 AI Fund 也参与其中。这使得该公司的融资总额达到 4130 万美元。 软件供应链管理初创公司 Lineaje 筹集 2000 万美元 软件供应链管理初创公司 Lineaje 今天宣布,它已经筹集了 2000 万美元的新资金,用于提升其人工智能能力、提供安全的开源软件、降低企业软件维护成本并扩大其全球业务。 Prosperity7 Ventures、Neotribe Ventures 和 Hitachi Ltd. 领投了 A 轮融资,Tenable Ventures Inc.、Carahsoft Technology Corp.、Wipro Ventures、SecureOctane、Alumni Ventures Group 以及 ZScaler Inc.、CrowdStrike Holdings Inc. 和 Trellix Inc. 的高管也参与了本轮融资。 企业 AI 平台 Intelmatix 获 2000 万美元融资 Intelmatix是一家深度科技 B2B 初创公司,其目标客户是 MENA(中东和北非)地区希望帮助利用人工智能力量进行决策的企业,该公司已完成 2000 万美元的 A 轮融资。Intelmatix在 2024 年 3 月推出了其企业 AI 平台 EDIX,并已获得了 10 家企业客户。 该公司的 A 轮融资由 Shorooq Partners 领投,其他投资者包括 Olayan Financing Company、Rua Growth Fund 等。 金融科技公司 Aveni 获 1400 万美元的资金 Aveni已获得1400万美元的资金,用于推进AI在金融服务行业的使用。这笔融资将使Aveni与投资者劳埃德银行集团和全国合作开发FinLLM,这是一种金融服务特定的大型语言模型。 专为 ERP 设计的 AI 连接器 Monto 获得 900 万美元种子融资 Monto 是首款专为任何 ERP 设计的 AI 连接器,使 B2B 财务团队能够从企业客户使用的任何 AP 门户无缝获取报酬。该平台将 Monto 客户的 ERP 系统连接到客户的支付平台,并将这些企业带入 B2B 支付的未来,实现一键式付款流程。 此轮融资由 Scale Venture Partners 领投,Verissimo Ventures、F2 Venture Capital、Firsthand Alliance 和 Room40 Ventures 跟投。连续创业者 Ariel Maislos 以及来自 Intuit、Plaid、Salesforce 等公司高管的金融科技天使也参与其中。 AI 基础设施初创公司 Hyperbolic Labs 融资 700 万美元 人工智能基础设施初创公司 Hyperbolic Labs Inc. 表示,该公司已完成 700 万美元的种子轮融资,以改变人工智能开发人员获取计算和推理资源的方式。本轮融资由 Polychain Capital 和 Lightspeed Faction 领投,Chapter One、LongHash、Bankless Ventures、Republic Digital、Nomad Capital、CoinSummer Labs 和 Third Earth Capital 等其他投资者以及 Balaji Srinivasan、Illia Polosukhin、Sandeep Nailwal、Casey Caruso、Tekin Salimi 和 Santiago Santos 等天使投资人也参与了本轮融资。 AI 驱动的金融科技初创公司 Powder 获 500 万美元种子融资 在首席执行官 Kanishk Parashar 的领导下,Powder 创建了用于精确文档分析的 AI 代理,以快速构建提案、汇总外部资产、了解财产并按账户类型、号码、实体、税务状况和资产分类自动组织投资组合。融资支持者包括 YCombinator、General Catalyst、Funder’s Club、Elefund、Litquidity Ventures 和 Script Capital,以及 Jon Xu 和 Bryant Chou。 AI 语音公司 Gnani AI 获 400 万美元 A 轮融资 由 Ganesh Gopalan 和 Ananth Nagaraj 创立,是一家语音优先的生成式人工智能初创公司。在其 A 轮融资中从 Info Edge Ventures 筹集了 400 万美元。Gnani 提供无代码语音优先平台,具有多种产品功能,例如全渠道会话自动化、代理辅助、语音生物识别、全渠道分析等。 AI 解决方案提供商 Axle Automation 获得 250 万美元种子轮融资 Axle Automation是一家合规团队人工智能解决方案提供商,专注于利用生成式人工智能来自动化和增强AML合规流程,该公司专注于简化运营,例如加强尽职调查,从而使金融机构能够有效地扩大其合规工作,通过自动化这些传统上手动且效率低下的流程,旨在减少欺诈、合规风险和运营成本,同时增加收入。Axle Automation宣布其种子轮融资成功结束。本轮融资由 Diagram Ventures 领投,Mistral Ventures、Uphonest Capital、StreamingFast 和其他战略天使投资者参投。 AI 驱动的法律公司 DecoverAI 筹集 200 万美元种子资金 DecoverAI 成立于 2024 年,由首席执行官 Ravi Tandon、首席技术官 Janar Ramalingam 和首席运营官兼首席风险官 Kevin J. Van Horn 领导,是一家法律技术公司,专注于提供人工智能驱动的解决方案,以提高法律专业人士的效率和效果。其目标是建立一个智能人工智能系统,包含现实世界法律工作流程所需的功能,包括发现证据、将其与研究相结合,甚至生成不同的叙述策略来协助法律专业人士。此轮融资由利奥资本领投,其他知名投资者跟投。 AI 伴侣设备 Friend 获 250 万美元融资 Friend由哈佛大学辍学生、曾因创建COVID-19追踪网站获得威比奖的Avi Schiffmann开发。这款项链不用于提高生产力,而是作为一种情感玩具,通过连接到手机并持续监听用户的声音,来提供伴侣式的交流。 Schiffmann 已以 5000 万美元估值筹集了 250 万美元资金,投资者包括 Caffeulated Capital 的 Raymond Tonsing、Z Fellows 创始人 Cory Levy、Perplexity 首席执行官 Aravind Srinivas、Solana 创始人 Anatoly Yakovenko 和 Raj Gokal、Morning Brew 首席执行官兼联合创始人 Austin Rief(约旦)在 Figma 从事人工智能工作的 Singer 和 Google 高级产品经理 Logan Kilpatrick。Friend计划以99美元的价格接受预订,预计于2025年1月发货。 机器人公司洛必德获得 B+ 轮投资 洛必德是一家机器人研发与运营商,核心产品为服务机器人,公司致力于构建机器人工程师文化, 研发机器人,提供机器人有关的服务。盈科资本投资成员企业洛必德科技宣布完成B+轮融资。此轮融资将进一步推动公司在自动驾驶和人形机器人的技术研发和产业化进程。 AI 数据提供商 Deepnote 收购 Hyperquery Deepnote 是一家位于加利福尼亚州旧金山的人工智能数据工作区提供商,收购了位于加利福尼亚州旧金山的数据科学和分析领域竞争对手 Hyperquery。交易金额并未披露。Deepnote 正在将 Hyperquery 的功能和客户集成到其人工智能驱动的数据笔记本中。 Airtable 收购 AI 人才入职初创公司 Dopt Airtable 收购 Dopt,后者专注于帮助初创公司为新用户提供产品入门体验。Dopt 近期推出了多项功能,使得用户能够将人工智能辅助工具集成到服务中,这也是 Airtable 收购的主要原因。Dopt 团队将加入 Airtable 的 AI 组。Airtable 正专注于人工智能,并推出了 Airtable Cobuilder,允许用户通过描述创建应用程序 (欢迎添加微信AIyanxishe2,了解更多AIGC、融资情况,与志同道合的朋友一同畅聊时新AI产品) 02 今日大厂风闻 OpenAI向部分用户开放GPT-4o语音模式,今秋将扩大至所有付费用户 OpenAI宣布开始向部分ChatGPT Plus用户推出GPT-4o的语音模式。据OpenAI介绍,高级语音模式能提供更自然的实时对话,允许用户随时打断,并能感知和响应用户的情绪。实时响应和可打断对话是目前语音助手公认的技术难点。语音模式将于今年秋季向所有ChatGPT Plus用户开放,初期的功能将比较有限。 阿里通义免费开放奥运AI大模型 阿里通义宣布免费开放奥运AI大模型。据了解,此模型具备奥运专业知识与翻译功能。即日起用户可以在通义App免费使用。今年,巴黎奥运会是AI应用最广泛的一届奥运会。阿里巴巴的云计算和AI技术,正在全面支撑奥运转播和赛事运营。 周鸿祎宣布 360 安全大模型免费 周鸿祎称 360“要把大模型拉下神坛”,不希望大模型成为少数厂商奇货可居赚钱的工具,让每个企业都“用得起、用得好”。当前,360 全线安全产品已集成安全大模型的能力,对所有购买 360 标准产品的用户免费提供大模型标准能力,产品加量不加价。 快手可灵AI官方打假:目前没有APP 7月31日,快手官方发布“可灵AI打假声明”称,可灵AI目前没有App,更未在任何一家应用商店和网站上线可供下载的App,凡是标着“可灵AI”、暗示为可灵AI官方或得到官方授权的App都是假的。 百度飞桨 PaddleX 3.0-beta 昇腾版发布,支持多场景、低代码开发 PaddleX3.0-beta昇腾版是由飞桨推出的端云协同低代码开发工具,旨在帮助开发者以低成本和零门槛的方式解决产业中的实际问题。PaddleX3.0-beta昇腾版提供了便捷的开发范式,开发者无需深入了解底层原理,通过统一的命令和配置即可完成数据校验、训练、评估、推理等不同任务。此外,PaddleX还支持快速模型优化,暴露了关键超参数供开发者调整。训练好的模型可以通过简单的Python API集成到项目中。 国内首个亿级参数地震波大模型”谛听”在成都发布 谛听地震波大模型由国家超级计算成都中心、中国地震局地球物理研究所和清华大学共同开发,它拥有亿级参数,是国内首个、国内外最大规模的地震学专业 AI 训练数据集之一。该模型经过半年多的研究,已经可以投入使用,并且预计将于 2024 年 8 月完成十亿参数量级的版本预训练。此外,该模型已显著提升了地震信号的识别准确率和速度,对于突破中小地震波模型性能瓶颈、提高地震大数据智能处理能力具有重要意义。 此芯科技发布异构AI PC芯片,布局端侧AI生态 此芯 P1 采用 6nm 制造工艺,具备 AI 异构计算资源、全方位的安全引擎、多样化的外设接口以及多操作系统支持等特性。此芯科技的 “一芯多用” 战略旨在构建端侧 AI 生态,面向全球与本土双市场,打造新一代 AI PC 算力底座,支持混合人工智能部署。 03 今日产品动态 GitStart AI Ticket Studio 旨在通过AI来简化和优化软件开发过程中的 Bug 报告和功能请求。它能够自动化地生成详细、清晰的工程票据,减少沟通成本,提高开发效率。该工具集成了自然语言处理和机器学习技术,可以理解开发者和项目经理的描述,然后转化为标准化的、易于理解的任务描述。用户可以通过简单的描述来启动这个过程,AI 将自动填充必要的细节,包括问题的重现步骤、相关截图和日志,以及可能的解决方案。这样的工具对于提升团队协作和加速软件迭代至关重要。 🔗 https://gitstart.com/?ref=producthunt 1.Midjourney V6.1版本上线,优化远景人脸,细节更丰富 Midjourney V6.1 版本的上线带来了多项重要更新,包括图像连贯性的突破、画质的全面提升、微观细节的精准把控等。在处理复杂结构如人体和动植物时,表现出色,尤其是在细节如手臂、腿部和手掌的自然流畅表现上。新版本在减少像素伪影、增强纹理表现力方面取得了显著进展,特别是在皮肤质感和 8bit 复古风格的呈现上。标准图像任务的处理速度提升约 25%, 能更准确地生成文字,可以调用旧任务中的个性化模型和数据。 🔗 discord.gg/midjourney 2.RenderNet推出自动配音功能 Narrator RenderNet推出新的 Narrator 功能。用户上传自己的视频,并添加相应的脚本,系统将自动帮助角色与脚本中的话语进行口型同步。 🔗 https://rendernet.ai/ 04 特别关注 苹果公布一篇 47 页的论文,详细介绍了自家开发的两个基础语言模型 AFM-on-device,参数约 30 亿,以及更大的服务器端模型 AFM-server。论文中详细描述了模型的基于 Transformer 的密集解码器架构,以及进行的多项优化设计,旨在提高效率。训练过程包括核心预训练、持续训练和长上下文训练三个阶段,使用了多样化的高质量数据。后训练优化则采用了监督微调和基于人类反馈的强化学习来提升模型能力。此外,论文还提供了评估结果,展示了模型的性能。 🔗https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

大模型产业吸金能力凸显,半年融资超2300亿元;GPT-4o Long Output模型发布,支持超长文本输出

  🌟 微软AI服务迎来大客户:TikTok每月花费近2000万美元 微软的AI服务迎来了一个重量级客户——TikTok。据报道,TikTok每月向微软支付近2000万美元,以获取OpenAI的模型。这笔交易几乎占微软AI收入的四分之一,使TikTok成为微软AI服务的最大客户之一。然而,随着字节跳动正在尝试构建自己的AI模型,TikTok可能会减少对微软AI服务的依赖。这一动态反映了AI领域快速发展中的常见现象,即客户在获得必要的技术后,可能会寻求自给自足。 🔎 360安全大模型免费,助力企业提升安全防护 360集团创始人周鸿祎在互联网安全大会上宣布,360安全大模型将免费提供给所有购买360标准产品的用户。此举旨在打破大模型的高价壁垒,让每个企业都 能“用得起、用得好”。360全线安全产品已集成安全大模型的能力,产品加量不加价,体现了360为国家、用户、客户解决问题的决心。 🤖 OpenAI向部分用户开放GPT-4o语音模式 今秋将扩大至所有付费用户 OpenAI宣布,从即日起开始向部分ChatGPT Plus用户推出GPT-4o的语音模式。这一高级语音模式能提供更自然的实时对话体验,允许用户随时打断,并能感知和响应用户的情绪。尽管最初功能有限,如无法使用计算机视觉功能,但GPT-4o语音模式的推出标志着AI技术在语音交互领域的重大进步。OpenAI计划在今年秋季将这一功能扩展至所有付费用户。  🔎 阿里巴巴推出AI对话式采购引擎,助力中小企业采购革新 阿里巴巴国际数字商业集团宣布,将于9月推出人工智能对话式采购引擎,旨在改变中小企业的全球采购流程。这项新服务将整合所有电商平台,通过理解自然语言并转化为专业采购请求,同时预测采购需求并提供建议。此举预计将大幅提升B2B电商的效率和便捷性,为中小企业带来福音。 📊 为测试聊天机器人 Grok,消息称马斯克的 xAI 考虑收购 Character.AI 据The Information报道,马斯克的人工智能初创公司xAI考虑收购聊天机器人制造商Character.AI,以便测试其Grok聊天机器人。尽管讨论可能不会促成交易,但这一消息反映出AI领域资源争夺的激烈程度。xAI与Character.AI的合作谈判,以及Meta与Character.AI的潜在合作,都显示了大型科技公司对AI初创公司的兴趣,以及它们在AI资源上的竞争态势。   📰 巴西政府斥资近41亿美元投资AI,追求技术自主与竞争力提升 巴西政府宣布了一项约40.7亿美元的人工智能投资计划,旨在开发可持续、面向社会的技术,并在AI领域实现技术自主,提高国家竞争力。该计划预计将为公共卫生、农业、环境、商业和教育等多个部门提供资源,支持AI系统的开发,促进消费者服务和其他操作程序的改进。巴西希望通过这一大规模投资,减少对外国AI工具的依赖,推动国内AI技术的发展。   📍大模型产业吸金能力凸显,半年融资超2300亿元 2024年上半年,全球大模型产业相关企业的融资事件达到120起,融资总额超过2300亿元。美国和中国在融资数量和金额上遥遥领先,分别有59起和35起亿元级融资,融资总额分别为1834.38亿元和304.58亿元。大模型应用领域的企业数量最多,而AI Infra领域的企业则在单笔融资金额上表现突出。中国大模型产业虽在融资总额上不及美国,但小额融资活跃,显示出强劲的市场潜力。     🚀 GPT-4o Long Output模型发布,支持超长文本输出 OpenAI推出了GPT-4o Long Output模型,支持高达64k tokens的长文本输出,相当于约200页小说,是原模型输出能力的16倍。然而,输入上限降至64k tokens,用户需在输入和输出长度间做出选择。该模型定价为每百万输入tokens 6美元,输出tokens 18美元,为测试模型,测试时间会维持数周,名为GPT-4o-64k-Output-Alpha。   🌟 Midjourney v6.1发布,图像生成质量大幅提升 Midjourney发布了v6.1版本,带来了八大方面的升级,包括更强的一致性、更高的图像质量、更准确的细节理解等。新版本在人像生成方面表现出色,几乎无可挑剔,生成的物体也更加合理。然而,在多人场景的生成上仍存在挑战,如群像生成时人物的四肢数量和方向会出现错误。Midjourney表示,v6.2版本预计下月发布,将进一步提升文本处理能力。   📂 Kimi联合AiPPT推出-键生成PPT服务 Kimi PPT助手是月之暗面联合AiPPT推出的一键生成PPT服务。用户只需通过语音或文字指令,Kimi就能理解需求,自动生成幻灯片,提供布局和色彩搭配建议,帮助用户快速创建和设计PPT。Kimi还能根据用户反馈进行多轮对话,优化演示内容,确保PPT既专业又个性化。使用KimiPPT助手,用户可以节省大量时间,同时提高演示的专业度和吸引力。 🪙 根据词语使用模式进行判断,日立开发可识别文章是否由 AI 创作的技术 日立制作所开发出了一项新技术,能够根据文章中的词语使用模式判断文章是否由生成式AI创作。这项技术有助于防止AI制造的错误信息传播,并帮助企业在撰写重要文件时规避侵犯著作权等风险。通过分析文章中基于规则的词语使用情况,日立的新技术能够提高判断的准确性,为AI内容的监管提供了有力工具。   🌐 星尘智能获数千万美元Pre-A轮融资,引领AI机器人技术革新 AI机器人公司星尘智能(Astribot)宣布完成数千万美元Pre-A轮融资,由经纬创投领投,道彤投资及清辉投资等产业资本跟投,老股东云启资本跟投。本轮融资将用于顶尖人才招募、研发投入、商业化部署等工作。星尘智能致力于研发“新一代最强AI机器人助理”,能自主完成叠衣、分拣物品、颠锅炒菜等复杂任务,并通过持续学习进化,全面提升智能化和多任务泛化能力,逐步实现通用智能。 💡 英伟达黄仁勋展望AI未来:每个人都将拥有AI助手 在SIGGRAPH 2024大会上,英伟达创始人兼首席执行官黄仁勋与《连线》杂志资深撰稿人探讨了AI增强人类生产力的未来。黄仁勋强调,深度植根于视觉计算的生成式AI正在增强人类的创造力,而加速计算有望显著提高能源效率。他预言,不久的将来,每个人、每家企业、每个岗位都将拥有AI助手,AI技术的进步将在各行各业得到广泛应用。

由专业演员配音,ChatGPT将推出全新高级语音模式

ChatGPT 全新高级语音模式即将向一小部分 ChatGPT Plus 订阅用户推出。 OpenAI 在 5 月的 GPT-4o 发布会上展示了该功能,但因听起来像斯嘉丽·约翰逊而受到批评,后来也因安全原因被推迟发布。 据 OpenAI 的展示,全新语音模式似乎比 ChatGPT 当前的语音模式功能更强大。 OpenAI 员工可以打断聊天机器人,并要求聊天机器人以不同的方式讲述故事,聊天机器人也会从容应对他们的打断,重新调整回应。 该全新语音模式原定于 6 月底发布 alpha 版本,但 OpenAI 将发布时间推迟了一个月,以“达到发布标准”。 作为延迟发布的一部分,该公司表示正在“提高模型检测和拒绝生成某些特定内容的能力”。 OpenAI 发言人 Taya Christianson 表示,公司与 100 多名外部红队成员(试图攻击技术以寻找弱点的人)一起测试了语音模型的功能。 OpenAI 还“添加了新的过滤器,可以识别和阻止某些生成音乐或其他受版权保护的音频的请求”。 早前,对新语音模式的主要批评之一是,展示中的声音(称为“Sky”)听起来很像电影《她》中扮演人工智能角色的斯嘉丽·约翰逊。 Christianson 表示,ChatGPT 的新语音功能将仅使用由配音演员制作的四种预设声音,并补充道:“我们已让 ChatGPT 无法模仿其他人的声音,无论是个人还是公众人物,并且会屏蔽与这些预设声音不同的输出。” 据 Christianson 称,OpenAI 计划于秋季向所有 ChatGPT Plus 用户推出全新语音模式。

OpenAI 推出 GPT-4o 语音模式 ChatGPT Plus 用户的全新体验

7月31日,OpenAI 宣布部分 ChatGPT Plus 用户将即日起开始测试全新的 GPT-4o 语音模式(Alpha 版本),并计划在今年秋季逐步推广至所有 ChatGPT Plus 订阅用户。 今年 5 月,OpenAI 首席技术官米拉・穆拉蒂(Mira Murati)在一次演讲中介绍了 GPT-4o 的创新之处。她表示:“在 GPT-4o 中,我们训练了一个全新的跨文本、视觉和音频的端到端统一模型,这意味着所有输入和输出都由同一个神经网络处理。”由于 GPT-4o 是首个结合所有这些模式的模型,OpenAI 目前仍在探索该模型的功能及其局限性。 原计划在今年 6 月底邀请一小部分 ChatGPT Plus 用户测试 GPT-4o 语音模式,但由于需要更多时间来打磨该模型,提高其检测和拒绝某些内容的能力,官方在 6 月宣布推迟测试。此前曝光的信息显示,GPT-3.5 模型的平均语音反馈延迟为 2.8 秒,而 GPT-4 模型的延迟为 5.4 秒,因此在语音交流方面不太优秀。即将推出的 GPT-4o 则可以极大地缩短延迟时间,近乎实现无缝对话。 据光年AI了解,GPT-4o 语音模式不仅反应快速,其声音更是堪比真人。OpenAI 表示,GPT-4o 语音模式可以感知语音中的情感语调,包括悲伤、兴奋或歌唱。 OpenAI 发言人林赛・麦卡勒姆(Lindsay McCallum)表示:“ChatGPT 不能假冒他人的声音,包括个人和公众人物的声音,并且会阻止与预设声音不同的输出。” 随着 GPT-4o 语音模式的逐步推广,用户将能够体验到更加自然和流畅的语音交流。这不仅是技术上的突破,也为未来的人机互动设立了新的标准。OpenAI 在不断探索和提升的道路上,致力于为用户带来更优质的体验。#热点引擎计划# OpenAI 的这一最新进展,预示着人工智能技术在语音交互领域的又一次飞跃。我们期待着在不久的将来,更多用户能够体验到 GPT-4o 带来的全新语音互动体验。