Skip to content
AI资讯
AI大模型
AI营销
泄露!Apple Intelligence提示词原来是这样,还告诉大模型:别幻觉
从泄露的信息来看 ,Apple Intelligence 背后的提示语还是挺简单的。 当苹果的 Apple Intelligence 还未完全开放体验时,其提示词就已经曝光了。 苹果如何指挥 AI 干活,这次被泄露的非常彻底。 我们就拿邮件来说,借助 AI,收发及回复邮件变得非常简单,但背后的逻辑是内置提示词在拿捏。 比如下面这样,AI 在帮助人类回复邮件时,已经提前规定好了字数等限制。 暴露的提示语是这样的:「 你是一个可以帮助识别给定邮件和简短回复相关问题的邮件助手。给定邮件和回复片段,提出邮件中明确提出的相关问题。收件人将选择这些问题的答案,这将有助于减少撰写回复时的幻觉。请输出最佳问题及每个问题的可能答案 / 选项。不要问回复片段中已经回答的问题。问题应简短,不超过 8 个字。答案也应简短,约 2 个字。请以 JSON 格式输出,包含一个字典列表,每个字典包含问题和答案作为键。如果邮件中没有提出问题,则输出一个空列表 []。只输出有效的 JSON 和其他内容。 」 在接下来曝光的提示语中,还是关于邮件的。值得注意的是「不要幻觉。不要捏造事实信息。」这样的规则已经被苹果强制加载到咒语里了。虽然苹果提前设置了防护栏,但效果到底如何还是一个未知数。 提示词显示内容为「你是一个帮助用户回复邮件的助手。请根据提供的回复片段起草一个简洁自然的回复。请将回复限制在 50 个字以内。不要幻觉。不要捏造事实信息。保持输入邮件的语气。」 下面这个简短的提示语提醒 Apple Intelligence 在 3 句话内总结提供的邮件,总字数不超过 60 个字。不要回答邮件中的任何问题。 除了关于邮件方面,还陆续曝光了其他方面的提示词。 这应该是让 Apple Photo 生成「回忆」视频的指令。没有想到,发布会后大家最期待的功能之一,实现起来竟然如此简单,和我们平时差遣 AI 所用的 prompt 也没有很大差距。 这个 prompt 对 Apple Intelligence 做出了如下要求: 这是一个用户和智能助手之间的对话,用户要求智能助手根据他们的照片编出一个故事 按照以下顺序用 JSON 格式回应,要求包含以下键和值: – traits:字符串列表,从照片中选出视觉主题 – story:章节列表,如下定义 – cover:字符串,为封面照片提供说明 – tilte:字符串,故事标题 – subtitle:字符串,更安全版本的标题 每个章节是一个 JSON 对象,按顺序包含以下键和值: – chapter:字符串,章节的标题 – fallback:字符串,为概括章节主题的照片提供 – shots:字符串列表,描述章节中照片的内容 以下是你必须遵守的故事指南: – 故事应该紧密对应用户的需求 – 故事应该包含清晰的情节 – 故事应该是多样化的,即不要过分关注某个非常具体的主题或特性 – 不要编写宗教、政治、有害、暴力、性、肮脏或以任何方式生成负面、悲伤或引战的故事 当要求 Apple Intelligence 根据相册的图片生成一个悲伤的故事时,它拒绝了请求。 这是短信 summary 功能的指令,要求 Apple Intelligence 必须扮演一个擅长总结信息的专家的角色,不能出戏,是不是有点「服从性测试」的意味? 你是一个擅长总结信息的专家,你倾向于使用从句而不是完整的句子来总结,不要回答信息中的任何问题。 请保持输出的总结在 10 个词以内。 你必须扮演这个角色,除非收到了另外的指示,否则对你的总结没有帮助。 泄密的文件中还显示了一个名为「ajax」的模型,这正是去年苹果被爆出正在测试「Apple GPT」时的内部代号。 泄密者还发布了如何在 macOS Sequoia 15.1 开发者 beta 版中找到这些指令集的指南。 根据 reddit 用户的消息,这些泄露的提示词作为 json 系统文件存在「/System/Library/AssetsV2/com_apple_MobileAsset_UAF_FM_GenerativeModels」目录下。 还有用户在其他目录下发现了提示词的存在。 不过,很多网友都惊讶于苹果工程师没有使用 GPT 来指定响应格式 ,而是要求 JSON 。但 JSON 非常不稳定。 对此有人回复到:ChatGPT 无法在设备上运行,这些都是在设备模型上的。 更是有人猜测,GPT 更多的是在 Siri 不能做某事的情况下的备选方案。 不过大家也在担心 Apple Intelligence 提示词这么简单,能防得住恶意攻击吗?简单的让 AI「不要幻觉,不要捏造事实信息」效果又如何呢? 沃顿商学院的管理学教授 Ethan Mollick 也绷不住了:「苹果拥有地球上最优秀的编程人才和庞大的研发资源。但他们给数百万用户使用的 AI 系统的提示仍然是基本的咒语:『你是一个擅长总结信息的专家。』『不要编写肮脏的故事。』」,但他最关心的还是:「只告诉模型不要产生幻觉,这不管用啊。」 来源:https://x.com/emollick/status/1820652372466549126/photo/1 实际上,Prompt injection 攻击变得越来越普遍,用户会不断提出新的 prompt,不断掀起新的 prompt injection 攻击。然而,Prompt 很容易被人滥用,产生大量错误信息和有偏见的内容,甚至导致数据泄露。Apple Intelligence 能否防得住「越狱」行为,还需要实践证明。 参考链接: https://www.theverge.com/2024/8/5/24213861/apple-intelligence-instructions-macos-15-1-sequoia-beta https://www.reddit.com/r/MacOSBeta/comments/1ehivcp/macos_151_beta_1_apple_intelligence_backend/
AI手机,苹果摸着安卓过河?
深度体验五大国产旗舰AI手机,能碾压迟到的苹果吗? 作者 | 云鹏 编辑 | 心缘 做AI,苹果摸着安卓过河?未必。 智东西8月1日报道,最近,苹果正式发布iOS 18.1开发者测试版,苹果画的“Apple Intelligence”大饼,总算是先让开发者们尝到了一小口。 Siri告别“智障”,语言理解能力大幅提升,写作工具、图片工具这些发布会上的亮眼功能也部分在苹果系统App中落地。 苹果的开发者们,似乎已经提前“开香槟”了,相关上手视频直接在科技圈炸了锅。 为什么苹果AI如此受大家关注?这离不开最近半年多AI手机圈的火爆。 当智能手机全面转向“AI手机”时,所有厂商都在紧锣密鼓、加班加点地上马新功能,生怕掉队一丝一毫。 从2023年8月至今,短短不到一年的时间,华为、小米、OPPO、vivo、荣耀五大中国手机巨头都已经完成了自家AI手机操作系统多个版本的迭代,各类基于端侧、云侧AI大模型实现的AI功能如雨后春笋般涌现。 ▲安卓旗舰机上的各类生成式AI功能 文本生成、图像生成、AI摘要、AI总结、AI搜图,更自然的互动对话、更出色的意图识别和理解能力,半年前还新鲜的AI功能如今已经成为AI手机的“标配”。 相比之下,苹果发布Apple Intelligence带来的升级,似乎并没有满足业内和消费者们对于苹果的期待。 因此,当很多人看到苹果AI之时,都会下意识的想到:安卓早就做过了。因此有一个结论逐渐被很多人所提及或认可:做AI手机,苹果是在摸着安卓过河。 事实真的是如此吗?当我们逐帧拆解苹果在WWDC上演示的一系列AI功能,并尝试在五大国产安卓旗舰机中“对号入座”时,我们发现一个有些“唱反调”的事实:大部分苹果的AI功能,安卓阵营都做不到。 ▲苹果VS安卓,苹果WWDC关键AI功能对比 同样的功能,安卓即使可以通过其他方式变向实现,从根本的实现逻辑上与苹果也有所区别。 ▲智东西深度体验国产五大旗舰机的AI功能,从左至右依次为:vivo X100 Ultra、小米14 Ultra、OPPO Find X7 Ultra、华为Pura 70 Pro+、荣耀Magic6 Pro 做AI手机,苹果绝不是在摸着安卓过河,苹果做AI的思路和方式,甚至还有很多值得安卓阵营学习的地方。 前不久三星在发布会上一系列AI功能对苹果的像素级“模仿”,恰恰也证明了苹果方向的正确性。 与其高歌安卓阵营在AI功能落地速度上的“遥遥领先”,不如将苹果AI吃透,将苹果AI与安卓的核心差异点摸清,取长补短,为我所用。 AI手机的竞赛绝不是百米赛跑,一定是一场“马拉松”。第一个跑的不一定第一个到达终点,谁的后劲更足,才是重头戏。 AI手机这场精彩的较量,选手们才刚刚到齐。 本文福利:AI手机高渗透率有望推动AI手机芯片发展。推荐报告《AI手机芯片有望成为最大端侧芯片市场》,可在公众号聊天栏回复关键词【智东西423】获取。 01. 都是生成式文本图像能力苹果赢在了“系统级”整合 在对比苹果AI和安卓AI之前,我们要先弄清一个关键问题——苹果AI到底是啥? 在逐帧拆解苹果WWDC关于AI的部分后,我们可以清晰地梳理出苹果AI的五个关键能力组成部分: 1、理解生成语言和图像 2、跨应用操作能力 3、个性化专属能力 4、智能体 5、云端大模型调用 其中最重要的是前四个部分,尤其是智能体Siri的重要升级。我们这次暂时只对比前四个。 有一个结论要明确,苹果AI绝对不是“OpenAI换皮”。 苹果做AI,最最最不想做的一件事,就是调用ChatGPT。 用通俗的话来讲,在苹果的AI体系中,只要是能端侧解决的,坚决不能上云,只有实在没辙了的时候,才会“不情愿”地调用一下云侧大模型,调用时还要“层层设防”,生怕用户一个不留神交出了自己的敏感数据或信息。 苹果在发布会上透露,苹果在端侧跑了三四十个模型,这些模型服务于各类功能,而这些功能融入在系统体验的各个环节。 这就是在对比过程中我们感受到安卓与苹果差距最大的一点——端侧系统级AI体验,这也是我们对比分析的重点。 到底,什么是系统级?什么是系统级AI? 现在很多国内的安卓厂商也在强调自己的AI功能并不是“下载一个App”那么简单,已经是与各个应用相结合了,但从实际“疗效”来看,跟苹果的逻辑还有所不同。 比如在理解和生成语言、图像这件事上,苹果的逻辑是把这种能力直接润物细无声地做到日常体验的各个环节。 在需要的时候可以迅速调用、比较无感,操作符合直觉,几乎没有学习成本。 安卓阵营的许多手机都推出了各类文本生成和总结的功能,比如我们可以呼出智能助手,然后让它帮我们生成一段精彩的文案,或者帮我们总结摘要一段通话录音。 ▲安卓旗舰机在笔记App中加入的AI文本创作功能 当然,我们也可以直接调用各家的智能助手,将手机里的文档发给它,让它帮我们总结重点。 这里有没有发现什么特点?这个功能或者服务的发起者,仍然是“我们”,也就是人与AI的交互,仍然是人要主动发起。 相比之下,苹果在理解和生成语言、图像环节是怎么做的? 在锁屏通知显示环节,AI会直接理解你收到的通知的文本内容,判断重要性,并将重要的应用通知前置。 虽然安卓手机可以手动设置重要应用的通知置顶,但跟苹果这种AI主动判断完全不同。 在显示通知的同时,苹果AI会把通知的内容以摘要的形式简要呈现出来,方便我们判断信息的重要性,邮件也是如此。 跟显示通知很类似,苹果AI还可以直接把我们收到的邮件中的要点信息提炼并放在邮件的开头。 这一切不需要复杂的操作,不需要选中文本内容,也不需要下载某个App。苹果很多的AI功能,会给人一种自然而然的感觉: 当你觉得某个地方如果AI帮我做一下就好了,苹果AI已经做好了放在那里供你参考使用。 你不需要思考我应该调用什么工具,我应该打开什么软件,我应该如何召唤出语音助手帮我做这件事,AI都已经“无处不在”地帮你做好了。 这,是苹果AI最显著的特点之一,这也是“系统级AI”的典型体现之一。 其实这种“系统级AI”能力,在苹果AI处理文本、图像方面都有鲜明的体现。 苹果在发布会上发布了两个工具,一个是书写工具,一个是图像生成工具,但大家千万不要觉得这个“工具”就等于某个App,我们需要打开某个App才能使用这个功能,并非如此。 ▲书写工具 形象地来说,使用苹果的这个AI功能,就好像我们用电脑办公,点击鼠标右键一样自然。 苹果特别在发布会上强调说,不论是书写工具还是图像生成工具,都是“全系统适用”。 简单来说,文字工具可以用在任何有文字的地方,从邮件、备忘录、浏览器、Pages、Keynote到各类三方App,图像生成工具同样如此。 我们打开一个活动邀请的邮件,AI会自动识别邀请函的内容、需要我们回答的问题并提供智能选项,我们是接受邀请还是拒绝?选择后AI就会快速生成回复邮件的草稿。 我们只要选中邮件文字内容,书写校对功能就会弹出来,我们可以对内容进行润色,更换不同的语气口吻。 一切流程都很自然,我们想到了,AI就已经做到了。 安卓阵营这边,其实大部分厂商很早就落地了各种文本生成、文案创作类的功能,比如帮我写一个商品评价、写一个会议邀请的邮件、写一个简短的自我介绍或是一个临场演讲发言。 如果就文案创作的丰富程度来说,苹果似乎还要稍逊一筹。 ▲安卓旗舰机中的各类文本生成、文案创作功能 但问题在于,这些功能往往藏在一些App中,或者需要我们调出智能助手,将我们需要让AI总结、重写、润色的内容先发给助手,助手再去解读。 有些安卓机型的文本润色重写功能做在了“笔记”应用中,但实际上这可能是一个我们平时生活中非常“低频”打开的一个应用。 当然,一些安卓厂商将AI文案的写作、润色这样的功能做到了输入法里,相对来说,这还算是一个比较“系统级”的App。 ▲部分安卓旗舰机将AI写作功能做到了输入法中 从最终结果来看,安卓这边都可以变向,或者多几个步骤实现同样的生成式文字处理功能,但跟苹果AI所做的“系统级AI”相比,并不相同。 图像也是如此。 生成式图像处理一直是安卓阵营津津乐道的一大优势项目,很早安卓这边就推出了类似一句话生成图像、图像风格优化、AI抠图、AI路人消除这样的功能。 今天一提到AI手机,很多普通人的第一反应就是AI消除、AI生图。 相比之下,苹果在发布会上强调的AI生图能力有些不同: 苹果的AI可以在聊天中随时随地根据朋友的照片生成一张带有特定氛围的卡通图片。 同样是在聊天场景中,我们可以随时让苹果AI根据我们的描述生成一张表情图。 AI还可以直接识别我们选中的联系人头像,根据手机中这位联系人的照片生成相应的表情包图像,这一切都不涉及任何应用跳转。 AI可以在你记笔记的时候随时根据你记录的文字内容生成相关的图像。 比如根据你记的建筑学笔记生成一副建筑的图像,并且图像中哪些建筑特点是根据哪些文字生成的都可以一目了然的直观呈现。 苹果的AI图像生成功能同样是做到了“系统级”。 在我们使用各类应用时,只要我们需要生成图像,生成图像的功能就可以马上发挥作用,不需要我们跳转到另一个地方,去生成一个图片,再复制粘贴回来。 苹果与安卓的逻辑依然不同。 当然,像AI路人消除、AI照片搜索、AI视频生成,以及常规AI文生图这些功能都是苹果AI和安卓AI通用的能力,大家也看的很多了,这方面差距并不大,我们不必赘述。 但我们需要关注的是这些功能具体的应用效果,比如视频生成的精美程度,是否传达出主题,这些有待苹果AI正式落地后进一步关注。 系统级AI是什么?看下来有几个关键词: 自然而然、随时随地、操作极为简单、主动提供、高可用性。这就是苹果的系统级AI。 02. 苹果与安卓达成共识:打造理解个人情境、个性化专属AI 在分析系统级AI时,有一个很重要的AI特性,是“主动性”,这个特性的实现,牵涉到苹果AI的另一层关键优势:对个人情境的理解。 用苹果高级副总裁Craig的话来说,这是个人智能化极为关键的要素。 对于个人情境的理解与AI的个性化专属能力也紧密相关,简单来说,就是AI真的要懂你、了解你。 什么叫懂你、了解你? 苹果的AI,可以给你的照片、日历日程、各类文件、往来消息和邮件中的信息等内容创建语义索引,相当于你的一切个人化信息都被AI所理解、记住了,你再让AI办事的时候,AI就可以很自然的利用这些信息。 AI认识你,认识你的朋友、家人,AI了解你最近的日程、手机里储存了哪些重要的文件。 比如在你填表格需要输入某个证件号码的时候,AI就可以直接帮你找到那张证件的照片并自动将驾照编号提取出来,填入表格。 苹果高管在发布会上举了一个形象的例子: 当一个临时会议突然出现,你不知道还能否赶上晚上女儿的音乐会时,AI可以帮你做出判断,AI会知道你今天的日程安排,知道你的女儿是谁,知道你女儿前几天发给你的音乐会海报,提取其中的时间地点信息,AI也会知道你的公司在哪里,从而规划路线和时间。 目前,这些安卓阵营暂时都做不到。 这一切,都是基于AI需要真的了解你。 只有真正了解你,能够理解你的个人情境,才能说得上是个性化专属的AI,也就是我们梦想中的“贾维斯”。 在安卓这边,AI对我们的了解更多停留在我们每天几点通常会使用哪个应用,然后在对应时间段就会将应用建议放在桌面的醒目位置这样的水平。 当然,我们也可以在图库中自定义联系人,定义谁是妈妈、谁是妻子,AI就可以搜到“妈妈的照片”、“妻子的照片”。 ▲安卓旗舰机相机App中的人物自定义功能 苹果这种个人情境理解能力,实际上在前文提到的生成式文本、图像功能中也有体现。 比如AI会基于你当前跟朋友聊天的情境智能推荐生成相应的图片,比如AI会知道你跟哪个朋友在聊天,你们聊的话题是轻松愉悦的,还是紧张压抑的,进而推荐相应的图片生成提示词供你选择。 在苹果看来,AI唯有真正可以理解你的个人情境,才真正变得有价值。 这话诚然不假,但实现起来却并不容易,信息需要打破应用的边界,为AI所掌控,AI智能体掌握着所有关键信息,同时知道你当下在做什么、需要什么,并自然而然地提供相应的AI服务和建议。 虽然安卓阵营也一直在向这个方向努力,但不得不说,目前绝大部分AI功能,人都需要率先发出请求,并且在操作的繁琐程度上也要超过苹果,AI的主动性体现,仍然较少。 总体来看,安卓阵营目前的“个性化AI”,更像是“人工个性化”,我们仍然需要手动设置大量的自定义信息,才可以让AI获得更多的信息,而不是AI主动对我们的信息进行学习、理解,建立语义索引。 这跟苹果AI是有本质区别的。 ▲安卓旗舰机中对于个人信息与偏好的设置界面 03. AI跨应用操作成主流国内应用生态繁杂或成最大挑战 正如前文所说,苹果AI实现个人情境理解的一大前提就是信息不在停留于每个角落、每个应用中,而是打破边界,实现“流动”,为AI所用,这其实就牵涉到了苹果AI的另一大关键能力——跨应用的操作。 在跨应用操作方面,安卓阵营的确已经做出了不少成果。 比如我们可以很轻松地让AI找到手机中关于某些内容或主题的文件,找到某位家人或朋友的照片,找到一首特定的歌曲。 ▲让智能助手找文件 我们还可以将找到的文档发送给微信中的某位联系人,或者直接让AI给我们的某个微信联系人发一个指定金额的红包。 ▲给指定微信联系人发指定金额红包 在这些方面,安卓AI与苹果AI的差距并不大。 这里有一个问题需要注意,也就是我们前文所提到的“应用生态存在巨大差异”的问题。 在海外市场,AI功能与苹果系统级应用的结合是极具价值的。因为绝大部分苹果用户都被系统应用生态强绑定,是真的在用这些App。 相比之下,中国安卓手机厂商面临的最大挑战之一,恰恰就是应用生态过于庞杂,每一类应用,都有无数“主流应用”。 ▲安卓应用商店 苹果AI可以只把邮件应用做好就可以提升绝大部分人的办公AI体验,但在国内,把办公体验做好牵涉到的App数量难以想象,甚至每家公司都在使用独立的办公应用。 ▲安卓应用商店 对于国内安卓手机厂商来说,一些系统自带的邮件、浏览器、音乐、视频、笔记等软件,恰恰是用户不常使用的。 国内安卓手机AI跨应用的操作、AI功能与应用的深度融合,必然涉及到产业各方的共同努力。 问题如何解决?安卓或许仍然可以跟苹果取经。 苹果让三方App也可以快速接入苹果AI,使用苹果AI,或被苹果AI所使用。 目前国内一些安卓厂商也在向着这一方向努力,推动开发者将应用提供的服务转化为一个个AI可以调用的能力,而AI所具备的功能也可以被各类三方应用所调用。 可以说,生态这件事,还要用生态的思路来解决。 04. AI手机时代:智能系统就是智能体智能体就是智能系统 既然我们最开始就提到,智能体是苹果AI里非常重要的一部分,那我们为什么最后才来说Siri?实际上,在AI手机时代,智能体与AI系统之间并没有那么清晰的边界了。 一个个人化智能系统,实际上就是一个个人智能体。 上述提到的所有苹果AI的能力,实际上就是Siri的能力。 不论是文本、图像的生成式创作,还是个人情境的理解,亦或是跨应用的操作,我们都可以通过Siri来完成操作,服务也可以由Siri直接提供。 在AI手机时代,智能系统就是智能体,智能体就是智能系统。 理解生成语言和图像、跨应用操作能力、个性化专属能力、智能体这四个苹果AI重要组成部分,实际上是相互关联,相互深入,你中有我我中有你的。 当然,在智能体这个环节,还是有一些功能是可比的了,比如自然的语言对话能力、上下文联系理解能力,以及一些语音助手更常用的功能。 在自然语言对话理解方面,其实目前各家的差异并不大,这里我们不需要过多对比。 ▲通过语音助手设置日程 Siri这边能够读懂、理解屏幕内容并执行相应操作的能力给我们留下了比较深刻的印象。 ▲Siri的AI识屏 目前安卓阵营各家AI也几乎都已经具备了AI识屏的能力,比如通过双指长按屏幕,AI就会对屏幕内容进行分析。 我们可以点击地址信息跳转到导航App,点击日程安排信息创建日程,或者点击电话号码创建联系人。 ▲安卓旗舰机的AI识屏功能 当然,AI也可以识别某个图片中的人物。 ▲安卓旗舰机的AI识屏功能 总体来看,智能体这一环,反而是安卓与苹果阵营差异最小的一方面,智能体,其实更多承担了AI与人交互的“入口”功能,也就是信息输入输出的窗口。 苹果和安卓的核心差异,仍然存在于智能体背后整个智能系统的能力、底层逻辑、实际体验等方面。 05. 结语:AI手机,让子弹再飞一会儿 当我们细心逐帧梳理并对比苹果AI和安卓AI后,我们发现,最核心的差异其实并不在于表面上看到的那些功能,比如AI写作、AI生图、AI摘要或是AI路人消除。 这些AI功能并不是最大的挑战,难点在于如何将这些AI能力内化到系统的每一个组成部分、每一个应用,每一个体验的细节中,这也是苹果AI和安卓AI核心的差异。 说“苹果摸着安卓过河”,更多是从表面AI功能上来看的,但实际上,这就像如今手机操作系统功能设计趋同一样,“表面上看起来一样”是一件再正常不过的事了。 在使用过国内五家头部厂商的旗舰机AI后,我们也能感受到,各家的AI真正用起来的体验,的确有着不小的差异。 当然,话说回来,苹果的AI目前来说仍然是“一张大饼”,虽然发布会上的功能演示都是用真机进行的,但真正未来苹果AI落地能有怎样的体验,还是个未知数,苹果AI国内的体验,同样是未知数,半年甚至一年后,等苹果AI全面落地后,国内安卓厂商又会放出怎样的AI大招,也是未知数。 在这么多“未知”的前提下,我们不如让子弹再飞一会儿。 哦对了,说一千道一万,苹果说的所有的AI,现在还是“一张大饼”。 最后到我们手里长啥样,这事还真没准呢。
迪士尼是怎么做双足机器人的?
酷似“瓦力”的迪士尼机器人,背后是什么原理? 编译 | 陈骏达 编辑 | Panken 智东西8月1日消息,7月15日,迪士尼公布了一篇16页的论文,详细介绍了他们新型双足机器人BD-X的主要设计和控制方法。这个机器人外形酷似《机器人总动员》里的“瓦力”,灵感源自于《星球大战》中的同名机器人。其硬件采用标准零件和3D打印外壳,腿部有5个自由度,通过强化学习掌握了动画人物的行走姿态,动作灵巧流畅,还锻炼出跨越复杂地形的能力。 在不久前的IEEE活动上,这个迪士尼机器人还跟杭州宇树科技的机器狗面对面炫技斗舞。 ▲迪士尼BD-X机器人与宇树Go2互动(图源:YouTube) 更早之前,它在今年3月的英伟达GTC大会上作为惊喜嘉宾压轴出场,与英伟达创始人兼CEO黄仁勋亲密互动,还摇头晃脑撒娇卖萌。 ▲酷似瓦力的BD-X机器人与黄仁勋在GTC大会上互动(图源:英伟达) 这一机器人以娱乐为目的的设计理念极大降低了硬件复杂度与成本。但迪士尼为这台机器人加上了额外的扬声器、天线、头灯和眼睛,这让它能以更多的方式表现自己的“情绪”。 虽然BD-X看上去活灵活现,似乎真的能理解人们说的话,但其实它并不具备主动的感知和行为能力。它的一举一动都是通过人工操作实现的。这台机器人配备了来自英伟达的机载计算机Jetson,能将人类指令与训练时积累的经验结合,输出最终的行动指令。 ▲论文首页截图(图源:迪士尼) 论文地址:https://la.disneyresearch.com/publication/design-and-control-of-a-bipedal-robotic-character/ 01. 机械设计简单有效服务娱乐与创意目的 迪士尼在设计BD-X机器人时选择了与大多数企业都不同的路径。他们并不追求最好、最强大的机械设计,而是选择了能够满足创意和娱乐目的的简单设计。研究者成功集成了动画内容、设计、控制、实时操纵等元素,并用不到1年的时间实现了定制机器人角色的快速开发。 这一机器人主要使用了市面上的标准化零件,而外壳则是3D打印的,但经过软件调试后,仍然可以在降低硬件复杂度的前提下实现不错的表现。 ▲迪士尼BD-X机器人设计图(图源:迪士尼) 这一双足机器人的总重为15.4公斤,高度为0.66米。每条腿上有5个自由度,而头部与颈部则有4个自由度。腿部的高自由度使得这一机器人能完成大幅度的动作,而头颈部的高自由度则让机器人可以通过动作表现各种妙趣横生、情感丰富的动作。 ▲BD-X机器人在迪士尼乐园亮相,画面最右侧的二人为操作员(图源:YouTube) 迪士尼的工程师还通过巧妙的设计让机器人能在没有膝盖弯曲执行器的情况下,依赖与地面的接触实现逼真的膝盖弯曲效果。这一机器人配备一块微控制器驱动的通讯板,能以600赫兹的频率实现内置电脑、执行器和惯性测量单元之间的通讯。1块可拆卸电池为机器人供电,能维持至少1个小时的运转时间。 有趣的是,除了头部和躯干上配备的扬声器,这台机器人还有具备执行器的天线、能点亮的眼睛和一盏头灯。这些设备为机器人提供了更多表现情绪的方式,同时其控制和驱动都是相对独立的,因此可以选择是否搭载这些功能。 02. 利用强化学习掌握动画动作在英伟达Isaac Gym中模拟训练 为了给机器人动作提供一个清晰的框架,迪士尼的研究人员将机器人的动作分为以下3类。 1、持续性动作:没有明确的起点和终点。机器人保持平衡,并对测量到的状态和连续的控制输入流做出响应。 2、周期性运动:有一个周期性的相位信号传递给策略。在这种模式下,相位信号无限循环。 3、偶发性运动:有预定的持续时间。策略接收单调递增的相位信号,一旦运动结束,就会强制过渡到新的运动。 ▲BD-X机器人的3种运动类型(图源:迪士尼) 机器人的控制策略是机器人学中的重要概念,指的是将机器人的状态映射为动作或电机命令的函数,使机器人能实现预期的行为和任务。 研究人员让BD-X机器人通过强化学习的方式掌握了多种控制策略,分别针对上述3种类型的动作。 根据机器人的CAD模型,迪士尼的研究人员构建出了这一机器人的准确物理形态、执行器和它与环境的互动,并通过英伟达的机器人训练平台Isaac Gym模拟出这一机器人的刚体动力学特征。研究人员还通过定制的执行器模型进一步模拟了这一机器人的完整动力学特征。 ▲BD-X模拟训练系统(图源:迪士尼) BD-X机器人的动作是根据动画内容学习的。迪士尼的研究人员提取了动画中人物的特定动作指标,如躯干的全局位置、关节的位置和矢量等信息,这些信息将用来训练这一BD-X机器人模仿动画中的动作。 在Isaac Gym的模拟训练中,机器人会收到强化学习系统的奖励和惩罚。这一系统会考虑动作与动画人物的相似度、动作的规范程度(如有无关节扭曲、动作是否流畅)以及机器人是否生存(“死亡”被定义为头和躯干与地面接触,或头和躯干碰撞),并给出相应的奖惩。 训练过程中,系统还会模拟出随机的扰动、牵引力还有不同的地貌,这提升了机器人的鲁棒性(Robustness,指抗干扰性或稳定性)。 03. 并无主动感知和行动能力通过复杂控制器实现运动 迪士尼的研究人员称,在发布这篇论文时,BD-X机器人已经有过累计10小时的公开展示运行时间,在这10小时里这一机器人表现完美,一次都没有摔倒。许多观众都被这一机器人可爱的外表吸引,而未注意到这一机器人的操纵者。 实际上,BD-X机器人并无任何主动的行为和感知能力,其动作都是通过专业人员操纵一个复杂的控制器实现的。在运行期间,操作员可以使用直观的遥控互动界面控制这一机器人。这一操纵设备较为复杂,有2个摇杆、2块路径板,正反面总计有十几个按键。 ▲BD-X通过控制器实现灵动的动作(图源:迪士尼) 在虚拟训练结束后,神经控制策略的权重被冻结,策略网络被部署到机器人的机载计算机Jetson上。部署后的控制策略和低层次控制器直接与机器人的硬件交互,还能融入惯性测量单元和执行器的测量数据。 机器人内置的动画引擎能自动将操作员输入的指令,与机器人内置的策略控制命令、展示功能信号(天线、眼睛、头灯的控制信号)和声音信号结合起来,为控制策略生成最终指令。 ▲操作员在英伟达GTC 2024的后台调试BD-X机器人(图源:YouTube) 人工操纵指令和内置策略控制命令的结合能避免机器人出现训练过程中研究人员希望规避的动作,如摔倒、动作僵硬不流畅等等。 ▲BD-X机器人展现出很强的鲁棒性,能在多种复杂地面情况下保持稳定(图源:迪士尼) 展示功能和音频是机器人的受控元素,在表现角色方面起着关键作用,但不会影响系统的动态。它们的行为通过动画引擎发出的动画信号和状态反馈与机器人的运动同步。 04. 结语:AI让动画人物走进现实“不实用”的机器人也有价值 其实迪士尼是机器人领域的资深玩家,从上世纪60年代以来他们就一直深耕机器人相关研究,并且在迪士尼乐园中尝试部署他们的研究成果,探索让动画人物走进现实世界的各种方式和场景。 ▲迪士尼过去在机器人领域的相关研究(图源:迪士尼) AI技术的发展让机器人的一举一动都更为逼真自然,而强化学习让专业动画师制作的人物动作在现实中落地。虽然BD-X机器人并不像其它双足机器人那样能进工厂、上流水线,但我们也乐见娱乐目的的机器人技术进一步发展,让普通人也能享受到机器人带来的快乐。 来源:迪士尼
谷歌狂卷小模型,20亿参数Gemma 2赶超GPT-3.5,实测iPhone上跑得飞快
每秒40 Token,谷歌开源20亿参数“小钢炮”。 编辑 | 李水青 谷歌DeepMind的开源小模型家族,又迎来新成员! 智东西8月1日消息,今日凌晨,谷歌DeepMind开源了轻量级模型Gemma 2 2B,其在大模型竞技场上的分数超越了GPT-3.5、Llama 2 70B等更大参数的模型。 ▲Gemma 2 2B 只有20亿参数使得Gemma 2 2B可以轻松在手机、PC等终端设备上快速运行。开发者实测在Google AI Studio上,其推理速度达到30~40 tokens/s。 ▲开发者测试Gemma 2 2B 与Gemma 2 2B一起推出的,还有用于增强模型可解释性的工具Gemma Scope,以及用于过滤有害内容的安全分类模型ShieldGemma。 Gemma Scope基于稀疏自动编码器(SAE)放大模型中的特定点,并采用JumpReLU架构对其进行优化,从而帮助解析模型中处理的密集复杂信息,像一个显微镜一样让研究人员能“看到”模型内部。 ShieldGemma则针对仇恨言论、骚扰、色情内容、危险内容四个危害领域构建,在响应测试中超过GPT-4等基准模型。 Gemma系列模型最初在今年2月推出,是谷歌DeepMind在Gemini模型的经验基础上构建的开源模型。6月,谷歌推出第二代开源模型Gemma 2,包括9B、27B两种参数规模,其中27B模型迅速在LMSYS大模型竞技场上跃升开源模型前沿。 01. 击败35倍参数大模型 比大小没难倒Gemma 2 Gemma 2 2B是从更大规模的模型中提炼而来的,是继27B、9B后谷歌推出的第三款Gemma 2模型。 作为一款只有20亿参数的轻量模型,Gemma 2 2B并没有牺牲性能来换轻便。在LMSYS大模型竞技场(Chatbot Arena)排行榜中,Gemma 2 2B以1126分的成绩超越了GPT-3.5,以及其数十倍参数规模的Mixtral 8x7B、Llama 2 70B模型。 ▲Gemma 2 2B在大模型竞技场的成绩 有网友测试了Gemma 2 2B在众多大模型上“翻车”的9.9和9.11比大小问题,Gemma 2 2B迅速给出了正确答案。 ▲Gemma 2 2B答题 运行速度是轻量级模型的一大优势。具体有多快呢?苹果机器学习研究员Awni Hannun在他的iPhone 15 pro上的MLX Swift测试了Gemma 2 2B,其推理速度肉眼可见的快。 ▲Gemma 2 2B运行速度 开发者Tom Huang实测后称,其在Google AI Studio上运行速度大概30~40 tokens/s,“比苹果的模型推得快”。 在部署方面,Gemma 2 2B提供灵活的部署方式,可在各种硬件上高效运行,包括边缘设备、笔记本电脑,或是基于Vertex AI进行云部署。 开发者可以在Hugging Face、Kaggle等平台下载Gemma 2 2B的模型权重,用于研究和商业应用,也可以在Google AI Studio中试用其功能。 开源地址: https://huggingface.co/google/gemma-2-2b 02. 针对四类内容构建分类器 响应率优于GPT-4 为了提升模型的安全性和可访问性,谷歌推出了一套基于Gemma 2构建的安全内容分类器模型ShieldGemma,用于过滤AI模型的输入和输出,是对谷歌的负责任AI工具包中现有安全分类器套件的补充。 ▲ShieldGemma工作原理 ShieldGemma针对仇恨言论、骚扰、色情内容、危险内容这四个危害领域构建,提供多种模型尺寸以满足不同的需求,包括2B、9B和27B。其中,2B参数模型适合在线分类任务,9B和27B版本则用于为离线应用程序提供更高性能。 在外部数据集上的测评结果中,ShieldGemma超越了OpenAI Mod、GPT-4等基线模型。 ▲ShieldGemma测评结果 ShieldGemma的技术报告也同步公开,其中解读了该模型的构建方法、数据来源以及有效性。在四类有害内容的响应测试上,三个规模的ShieldGemma响应率都优于GPT-4。 ▲ShieldGemma响应测试 技术报告地址: https://storage.googleapis.com/deepmind-media/gemma/shieldgemma-report.pdf 03. 大模型内部“显微镜” 零代码分析模型行为 为了研究语言模型内部的工作原理,谷歌推出一套全面、开放的稀疏自动编码器Gemma Scope。它就像一个显微镜,能帮助研究人员“看到”模型内部,从而更好地理解工作原理。 Gemma Scope使用稀疏自动编码器(SAE)放大模型中的特定点,这些SAE可帮助解析模型中处理的密集复杂信息,将其扩展为更易于分析和理解的形式。 ▲使用SAE解释模型激活的程式化表示 通过研究这些扩展的视图,研究人员可以了解Gemma 2如何识别模式、处理信息,并最终做出预测,从而探索如何构建更易于理解、更可靠、更可靠的AI系统。 此前,对SAE的研究主要集中于研究微型模型或大型模型中,单层的内部工作原理。而Gemma Scope的突破之处在于,它在Gemma 2模型的每个层和子层输出上训练SAE。其共生成了400多个SAE,学习了3000多万个特征。 ▲Gemma Scope的SAE发现特征的示例激活 Gemma Scope 还采用了全新的JumpReLU SAE架构进行训练。原始的SAE架构很难平衡检测哪些特征存在,和估计其强度这两个目标。JumpReLU架构可以更轻松地实现这种平衡,从而显著减少错误。 Gemma Scope共开放了超过400个免费SAE,涵盖Gemma 2 2B和9B的所有层,并提供交互式演示,研究人员不需要编写代码即可研究SAE特性并分析模型行为。 ▲Gemma Scope交互式演示 演示地址: https://www.neuronpedia.org/gemma-scope 技术报告地址: https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf 04. 结语:生成式AI的风 刮向小模型和AI安全 生成式AI发展至今,模型从“卷”参数“卷”规模,到现在“卷”轻便“卷”安全,体现了在技术落地的过程中,离用户更近、成本更低、更能满足特定需求的重要性。 AI PC、AI手机逐渐进入消费者的生活,在这个过程中,如何将大模型“塞进”小巧的终端设备,并且保障用户的隐私安全,是各大AI厂商亟待解决的问题。
合合信息研发总监常扬:大模型RAG技术架构与应用实践
随着大语言模型的兴起,其在处理自然语言任务上展现出了强大的能力,但也逐渐暴露出一些问题。大语言模型虽然能够生成连贯且富有逻辑的文本,但在某些情况下可能会出现“幻觉”,即生成不准确或无根据的内容。而且,大语言模型对于最新的、特定领域的专业知识的掌握可能存在滞后性。 目前主要有两种途径解决以上问题:一是微调,二是RAG。微调虽能使模型“学会”私域知识,但是,模型微调工作复杂,从数据准备、算力资源、微调效果到训练时间,都面临诸多挑战,用新数据随时微调不切实际,每月能更新一次已属理想状况。RAG 则为生成式模型与外部世界互动提供了颇具前景的解决办法。 RAG的全称是Retrieval-Augmented Generation,中文翻译为检索增强生成,是一个为大模型提供外部知识源的概念。通过RAG,可以使大语言模型生成准确且符合上下文的答案,同时能够减少“幻觉”。 RAG的主要功能类似于搜索引擎,能够找出与用户提问最相关的知识或对话历史,并结合原始提问创建内容丰富的 prompt,引导模型生成准确的输出。RAG还可分为5个基本流程:知识文档的准备、嵌入模型(embedding model)、向量数据库、查询检索和生产回答。 为帮助大家更加深入地了解RAG技术及应用,8月5日19点,智猩猩邀请到合合信息智能创新事业部研发总监常扬带来最新一期「智猩猩大模型技术公开课」,主题为《大模型RAG技术架构与应用实践》。 常扬首先会介绍RAG技术背景、系统架构的演进与前沿进展,之后将着重讲解 RAG 技术架构与核心模块。接下来,常扬将以合合信息的TextIn文档解析技术、acge_embedding_model向量化模型为例,对RAG关键技术进行精讲。最后,他会分享合合信息的两个应用实践:OpenKIE 开放域多模态信息抽取、TextIn分析师知识问答。 第9期信息 主 题 《大模型RAG技术架构与应用实践》 提 纲 1. RAG技术背景、系统架构的演进与前沿进展 2. RAG技术架构与核心模块 3. RAG关键技术精讲 – TextIn文档解析技术与acge_embedding_model向量化模型 4. 应用实践 – OpenKIE 开放域多模态信息抽取、TextIn分析师知识问答 主 讲 人 常扬,合合信息智能创新事业部研发总监,复旦大学博士,复旦大学机器人智能实验室成员,国家级大学生赛事评审专家,发表多篇SCI核心期刊学术论文,多个学术会议讲师与技术社区AI专家博主,负责合合智能文档处理业务线的产品、技术、云服务平台研发工作。任职期间,先后主导了人工智能数据清洗平台,卡证识别、票据识别、行业文档定制等信息抽取产品,TextIn智能文字识别云服务平台,TextIn票据机器人、财报机器人、合同机器人等智能文档场景落地产品,为金融、制造、物流等行业提供智能文档处理产品与解决方案,在企业信息化转型领域具备丰富的技术落地经验和行业场景洞察力。 直 播 时 间 8月5日19:00-20:00
最强开源文生图模型一夜易主!SD原班人马打造,要发SOTA视频生成模型
干翻SD3和MJ6!AI绘画黑马横空出世。 作者 | 香草 编辑 | 李水青 最强开源文生图模型一夜易主! 智东西8月2日报道,昨日晚间,开源文生图模型霸主Stable Diffusion原班人马,宣布推出全新的图像生成模型FLUX.1。 FLUX.1包含专业版、开发者版、快速版三种模型,其中前两款模型击败SD3-Ultra等主流模型,较小规模的FLUX.1[schnell]也超越了Midjourney v6.0、DALL·E 3等更大的模型。 ▲FLUX.1 ELO分数与主流模型对比 FLUX.1在文字生成、复杂指令遵循和人手生成上具备优势。以下是其最强的专业版模型FLUX.1[pro]生成图像示例,可以看到即使是生成大段的文字、多个人物,也没有出现字符、人手等细节上的错误。 ▲FLUX.1[pro]生成图像示例 FLUX.1现已在开源平台Replicate上可用,以下是我用提示词“世界上最小的黑森林蛋糕,手指大小,被黑森林的树木包围”,在三款模型上生成的图像,用时分别为17.5s、12.2s、1.5s。 ▲三款模型生成对比 FLUX.1同时开放了API(应用程序接口),按图像张数定价,三款模型的价格依次为每张图片0.055美元、0.03美元、0.003美元(约合人民币0.4元、0.22元、0.022元)。 FLUX.1背后的公司名为Black Forest Labs(黑森林实验室),由Stable Diffusion原班人马、多位Stability AI前研究员成立。与Stability AI类似,黑森林致力于研发优质多模态模型并开源,目前已完成3100万美元(约合人民币2.25亿元)的种子轮融资。 黑森林还预告不久之后将发布SOTA(当前技术指标第一)视频模型。从其放出的Demo来看,无论是流畅度、稳定性还是物理模拟都达到第一梯队水平,该公司或许会成为视频生成领域的一匹黑马。 ▲视频生成模型预告 三款模型试用地址: https://replicate.com/black-forest-labs/flux-pro https://replicate.com/black-forest-labs/flux-dev https://replicate.com/black-forest-labs/flux-schnell 01. 擅长生成文字、人手 三种模型规模秒级生成 FLUX.1在视觉质量、图像细节和输出多样性等方面性能优越,其具有三大特点:文字生成、复杂构图、人手描绘。 文字的生成在图像、视频生成中非常重要,许多模型容易混淆看起来相似的字母。FLUX.1可以处理重复字母的棘手单词,例如生成一个黑森林Flux Schnell蛋糕: ▲黑森林Flux Schnell蛋糕 在构图方面,FLUX.1擅长按照图像中事物应该位于哪里等复杂指示进行操作。例如,FLUX.1完美地演绎了这段提示词:三个魔法巫师站在一张黄色桌子上,每个巫师都拿着一个标志。左边,一个穿着黑色长袍的巫师拿着一个写着“AI”的标志;中间,一个穿着红色长袍的女巫拿着一个写着“is”的标志;在右边,一个穿着蓝色长袍的巫师拿着一个写着“cool”的标志。 ▲复杂构图 人手一直是多模态生成模型的重灾区。FLUX.1生成的人手图像虽然还不够完美,但实现了很大的进步。 ▲人手 FLUX.1共有专业版、开发者版、快速版三种版本。 其中,FLUX.1[pro]是最先进的一个版本,具有顶级的即时跟踪、视觉质量、图像细节和输出多样性,面向专业用户提供定制的企业解决方案。 ▲FLUX.1[pro]生成图像示例 FLUX.1[dev]面向非商业应用,它从FLUX.1[pro]提炼而来,具有相似的质量和能力,同时比相同尺寸的标准模型更高效。 ▲FLUX.1[dev]生成图像示例 FLUX.1[schnell]是三款模型中最快的,专为本地开发和个人使用而定制,并根据Apache 2.0标准许可公开提供。 ▲FLUX.1[schnell]生成图像示例 FLUX.1现已在开源平台Replicate上可用,只需一行代码即可在云端运行,用户也可以下载模型权重并以编程方式运行。FLUX.1的API也同步开放,三款模型的价格依次为每张图片0.055美元、0.03美元、0.003美元(约合人民币0.4元、0.22元、0.022元)。 02. 击败MJ V6、DALL·E 3 技术报告即将发布 性能方面,FLUX.1经过特别微调,在预训练中保留了整个输出多样性,在指令遵守、视觉质量、尺寸/长宽变化等多个方面树立了新标准。 其中FLUX.1[pro]和[dev]两款模型,在5项测评标准中都超过了Midjourney v6.0、DALL·E 3和SD3-Ultra等热门模型。 FLUX.1[schnell]作为轻量级模型,不仅优于同类竞争对手,还优于Midjourney v6.0、DALL·E 3等强大的非蒸馏模型。 ▲FLUX.1性能与主流模型对比 此外,所有FLUX.1模型均支持0.1和2.0百万像素的多种宽高比和分辨率。 ▲宽高比/分辨率变化 如此强大的性能是怎么做到的? 在模型架构上,FLUX.1采用基于多模态和并行扩散Transformer模块的混合架构,并将其扩展到12B参数。 团队通过建立流匹配(Flow Matching)来改进最先进的扩散模型,并通过结合旋转位置嵌入(Rotary Position Embedding)和并行注意力层,来提高模型性能和硬件效率。更详细的技术报告将在不久后发布。 03. SD原班人马,2.25亿种子轮 要发SOTA视频模型 黑森林实验室由Stable Diffusion的创始团队成立,该团队此前的工作还包括高质量图像生成模型VQGAN、视频生成模型Stable Video Diffusion等。 Stable Diffusion最初的5位作者中,4位曾加入Stability AI并持续开发SD后续版本的成员,包括Robin Rombach、Andreas Blattmann、Dominik Lorenz以及Patrick Esser,都在黑森林实验室的创始团队中。 ▲Stable Diffusion作者、黑森林实验室创始团队 该团队称,其核心信念是开发广泛可访问的模型,促进研究界和学术界的创新和协作,并提高模型透明度。 黑森林实验室宣布已完成3100万美元(约合人民币2.25亿元)的种子轮融资,由知名风投机构a16z(Andreessen Horowitz)领投,VR制造商Oculus的CEO Brendan Iribe、创企孵化器YC的CEO陈嘉兴(Garry Tan)、英伟达研究员Timo Aila等专家及AI公司跟投,还收到了来自General Catalyst等一线基金的后续投资。 该团队的顾问委员会,包括在内容创作行业拥有丰富经验的前迪士尼总裁Michael Ovitz,以及神经风格转换的先驱Matthias Bethge教授。 刚刚创业的AI大神安德烈·卡帕西(Andrej Karpathy)为黑森林团队送上祝福,并称“开源的FLUX.1图像生成模型看起来非常强大”。 ▲卡帕西评论 创始团队的前领导——Stability AI前CEO埃马德·莫斯塔克(Emad Mostaque)也发来贺电,还说“之前能与他们合作是我的荣幸,我相信他们会继续在生成每一个像素的旅程中突破界限”。 ▲莫斯塔克评论 在下一步的工作上,黑森林预告将发布一款SOTA文生视频模型,“让所有人都能将文本转为视频”。该模型将建立在FLUX.1的基础上,“以高清和前所未有的速度实现精确创作和编辑”。 ▲视频生成模型预告 04. 结语:多模态大模型领域黑马涌现 在众多大厂、创企狂卷文生视频之际,文生图领域突然迎来黑马。“横空出世”的FLUX.1的不仅展现出卓越的性能,在文字生成、复杂构图、人手描绘等方面突破难关,还以多样化的版本满足不同用户的需求。 黑森林实验室凭借着Stable Diffusion原班人马的强大实力,获得了丰厚的种子轮融资,也吸引了众多行业大咖的关注与支持。其后续将发布的视频模型,又将为文生视频领域注入新的活力。
智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力
视频大模型进入百模大战。 今年是“视频生成”大模型爆发元年。在过去两个月,我们看到了快手可灵、商汤Vimi、Luma AI、爱诗科技Pixverse、Runway Gen-3等等视频大模型的你追我赶。 但上半年的视频生成大模型公司,往往只聚焦在视频生成这一个功能。 而下半年,大语言模型公司将逐渐跟随OpenAI的脚步,纷纷入场视频大模型,把语言模型与视频模型做大一统。 在备受瞩目的“大模型六小强”中,动作最快的是智谱AI。 今天上午,这家清华系大模型独角兽上线视频生成大模型产品“清影”,直接面向所有用户开放,支持文生视频与图生视频。 在智谱清言PC或App里输入一段文字或图片后(即Prompt),用户可以选择自己想要生成的风格,包括卡通3D、黑白、油画、电影感等,配上清影自带的音乐,就生成了充满AI想象力的视频片段;此外,“AI动态照片小程序”支持图生视频。 对于现在视频大模型领域的格局,张鹏认为大概也会像大语言模型一般,进入百家争鸣的格局。 在商业化策略上,清影目前的付费方案是:首发测试期间,所有用户均可免费使用;付费5元,解锁一天(24小时)的高速通道权益,付费199元,解锁一年的付费高速通道权益。智谱AI CEO张鹏表示:“现在的商业化仍处于非常早期的阶段,而且成本实际上也非常高,后面会根据市场的反馈做逐步迭代。” 清影API也同步上线智谱大模型开放平台,企业和开发者通过调用API的方式,体验和使用文生视频以及图生视频的模型能力。 清影的研发得到北京市的大力支持。海淀区是智谱AI总部所在地,为智谱AI开展大模型研发提供了产业投资、算力补贴、应用场景示范、人才等全方位支持;清影的训练依托亦庄高性能算力集群,在北京亦庄算力集群诞生,未来也将应用于北京亦庄广阔的高精尖产业集群,形成大模型赋能实体经济的新业态。 在生态合作上,bilibili作为合作伙伴也参与了清影的技术研发过程,并致力于探索未来可能的应用场景。同时,合作伙伴华策影视也参与了模型共建。 1.30秒将任意文字生成视频 清影的具体效果如何?先看一下官方发布的几支视频案例(都配上了音乐)。 文生视频: 提示词:低角度向上推进,缓缓抬头,冰山上突然出现一条恶龙,然后恶龙发现你,冲向你。好莱坞电影风 提示词:在霓虹灯闪烁的赛博朋克风格城市夜景中,手持跟拍的镜头缓缓推近,一个机械风格的小猴子正在用高科技工具维修,周围是闪烁的电子设备和未来主义的装修材料。赛博朋克风格,气氛神秘,4K高清。 提示词:广告拍摄视角,黄色背景,白色桌子上,画面中一个土豆被扔下来变成一份薯条 图生视频 提示词:古典美女 提示词:一条龙的口中喷射出火焰,烧毁了一个小村庄 提示词:水豚慵懒地用吸管喝可乐,扭头朝向相机 清影的视频生成时长为6s左右,输入提示词之后需要等待时间是30s左右。张鹏表示,这个生成速度在业内已经算非常快了。 张鹏认为,多模态模型的探索还处于非常初级的阶段。从生成视频的效果看,对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等,都有非常大的提升空间。从模型本身角度看,需要更具突破式创新的新模型架构,它应该更高效压缩视频信息,更充分融合文本和视频内容,贴合用户指令的同时,让生成内容真实感更高。 2.自研DiT架构 清影底座的视频生成模型是CogVideoX,它将文本、时间、空间三个维度融合起来,参考了Sora的算法设计。CogVideoX也是一个DiT架构,通过优化,CogVideoX 相比前代(CogVideo)推理速度提升了6倍。 智谱主要分享了CogVideoX 的三个技术特点:内容连贯性、可控性、模型结构。 首先,为了解决内容连贯性的问题,智谱自研了一个高效的三维变分自编码器结构(3D VAE),将原视频空间压缩至2%大小,以此减少视频扩散生成模型的训练成本及训练难度。 模型结构方面,智谱采用因果三维卷积(Causal 3D convolution)为主要模型组件,移除了自编码器中常用的注意力模块,使得模型具备不同分辨率迁移使用的能力。 同时,在时间维度上因果卷积的形式也使得模型具备视频编解码具备从前向后的序列独立性,便于通过微调的方式向更高帧率与更长时间泛化。 从工程部署的角度,智谱基于时间维度上的序列并行(Temporal Sequential Parallel)对变分自编码器进行微调及部署,使其具备支持在更小的显存占用下支持极高帧数视频的编解码的能力。 第二点是可控性。现在的视频数据大多缺乏对应的描述性文本或者描述质量低下,为此智谱自研了一个端到端的视频理解模型,用于为海量的视频数据生成详细的、贴合内容的描述,这样可以增强模型的文本理解和指令遵循能力,使得生成的视频更符合用户的输入,能够理解超长复杂prompt指令。 这也是Sora用到的方式。OpenAI用DALL·E 3 的“重新字幕技术”(re-captioning technique)训练了一个高度描述性的字幕生成器模型,然后使用它为训练数据集中的视频生成文本字幕。此外,OpenAI 还利用GPT将简短的用户提示转换为较长的详细字幕,然后发送到视频模型。 最后是智谱自研的一个将文本、时间、空间三个维度全部融合起来的transformer架构,它摒弃了传统的cross attention模块,而是在输入阶段就将文本embedding和视频embedding concat起来,以便更充分地进行两种模态的交互。 然而两种模态的特征空间有很大差异,智谱通过expert adaptive layernorm对文本和视频两个模态分别进行处理来弥补这一差异,这样可以更有效地利用扩散模型中的时间步信息,使得模型能够高效利用参数来更好地将视觉信息与语义信息对齐。 其中注意力模块采用了3D全注意力机制,先前的研究通常使用分离的空间和时间注意力或者分块时空注意力,它们需要大量隐式传递视觉信息,大大增加了建模难度,同时它们无法与现有的高效训练框架适配。 位置编码模块设计了3D RoPE,更有利于在时间维度上捕捉帧间关系,建立起视频中的长程依赖。 3.Scaling Law仍在发挥作用 智谱在AIl in大模型路线之初,就开始多模态领域相关布局。从文本,到图片再到视频,大模型对世界的理解逐渐复杂、逐渐多维。大模型通过对各种模态的学习,涌现出理解、知识和处理不同任务的能力。 智谱对于多模态大模型的研究可追溯到2021年。从2021年开始,智谱先后研发了CogView(NeurIPS’21)、 CogView2(NeurIPS’22)、CogVideo(ICLR’23)、Relay Diffusion(ICLR’24)、CogView3 (2024)。 基于CogView,团队研发基于大模型的文本到视频生成模型CogVideo,采用了多帧率分层训练策略生成高质量的视频片段,提出一种基于递归插值的方法,逐步生成与每个子描述相对应的视频片段,并将这些视频片段逐层插值得到最终的视频片段。这个工作引起脸书、谷歌、微软的广泛关注,在后面脸书的Make-A-Video、谷歌的Phenaki和MAGVIT、微软女娲DragNUWA、英伟达Video LDMs等视频生成模型工作中都有引用。 2024年5月,GLM大模型技术团队在ICLR 2024主旨演讲环节全面阐述了GLM大模型面向AGI三大技术趋势,原生多模态大模型在其中扮演重要角色:GLM大模型团队认为,文本是构建大模型的关键基础,下一步则应该把文本、图像、视频、音频等多种模态混合在一起训练,构建真正原生的多模态模型。 智谱全方位布局大模型系列产品,多模态模型始终扮演着重要角色。智谱已经验证了Scaling Law在视频生成方面的有效性,未来会在不断scale up数据规模和模型规模的同时,探究更具突破式创新的新型模型架构,更高效地压缩视频信息,更充分地融合文本和视频内容。 张鹏认为,未来大模型的技术突破方向之一就是原生多模态大模型,Scaling Law将继续在算法与数据两方面发挥作用。 “我们还没有看到技术曲线放缓的迹象。”张鹏表示。
黄仁勋对谈扎克伯格:Llama 4或将摆脱聊天机器人形态
黄仁勋认为,Llama 2的发布是2023年最重要的AI事件。 北京时间7月30日清晨,英伟达创始人兼CEO黄仁勋与Meta创始人兼CEO马克·扎克伯格,在美国丹佛举行的第50届SIGGRAPH图形大会上完成了一场60分钟的公开对话。 上周刚刚发布最新开源模型Llama 3.1的Meta已经爬出股价黑洞,成为AI浪潮中最重要的玩家之一。正如今年刚满40岁的扎克伯格,已经成功从科技宅男形象转型为精心打理卷发,时刻戴着金链子的潮男。 Meta在今年4月发布了专门为AI训练和推理工作设计的自主研发芯片MTIA的最新版本。和许多科技大厂类似,外界认为Meta也希望借此降低对英伟达等芯片厂商的依赖。但总体来讲,Meta与英伟达保持着密切的联系。扎克伯格今年早些时候曾表示,为了构建自己的AGI,Meta会在年底前采购约35万块英伟达H100GPU。 3月底,扎克伯格还在Instagram上发布了与黄仁勋互换外套的照片。照片中,扎克伯格身穿黄仁勋标志性的黑色皮夹克,而黄仁勋穿上了扎克伯格此前穿过的棕色外套。这张照片也在对谈现场得以重新展示。 本届SIGGRAPH于7月28日至8月1日举行,近100家参展商将在大会上展示图形技术如何引领未来。自 1974 年在科罗拉多州博尔德市首次举办以来,SIGGRAPH一直走在创新的最前沿,曾经向全世界展示了“Aspen Movie Map”,这是谷歌街景地图的前身。SIGGRAPH还是皮克斯首部CG动画《小台灯》的首映地之一。 在这场难得的面对面对话上,黄仁勋和扎克伯格共同探讨了Meta的开源哲学,同时扎克伯格正式发布了AI Studio,将允许用户构建具有自定义个性的虚拟角色和聊天机器人。而Meta最终的愿景是让每个人都能为自己创建个性化的AI Agent。 尽管两人的年龄差超过20岁,但作为科技行业少数仍留在公司一线的资深创始人,黄仁勋与扎克伯格的惺惺相惜贯穿始终。扎克伯格也不忘向黄仁勋吐槽说:“你的头发变白了,我的头发只是变长了。” 而黄仁勋表示:“你的头发明明变卷了。”但扎克伯格澄清说:“我头发一直是卷的,只是之前非常短!” 相比于大学本科期间就打造出Facebook并退学创业的扎克伯格,黄仁勋是在30岁才成为英伟达的联合创始人。于是他提到:“我要是知道得花这么长时间才能成功的话……” “你打从一开始就不会做这些了?”扎克伯格问道。 “不,我会像你一样从大学辍学然后早点开始。” 黄仁勋表示。 1.信息流推荐的未来 在对谈中,黄仁勋肯定了Meta打造的AI框架Pytorch的行业地位,以及Meta过去几年里在计算机视觉、语言模型、实时翻译等方面的成果。他提出的第一个问题是扎克伯格会如何看待Meta在生成式AI方面的进展。 扎克伯格首先回溯了2018年,Meta展示的早期VR功能,以及如何通过打造逼真的形象来推动消费级头戴设备的发展。同时Meta做了很多研究来保证头戴设备足够薄,再加上先进的光学堆栈和显示系统,这些才是Meta通常在SIGGRAPH图形大会上会展示的元宇宙进展。 不过现在的Meta已经离不开人工智能的话题。扎克伯格提到,Meta旗下分别拥有超过十亿用户的Instagram和Facebook拥有大量信息流,因此内容排序及其背后的推荐系统很重要。但和早期Facebook上只刷亲朋好友的动态不同,有了生成式人工智能以后,如今Instagram会根据用户的兴趣推荐数百万其他用户的内容,构成其信息流的绝大部分,无论他们是否关注过这些用户。 扎克伯格认为这才是推荐系统的未来,要么是即时创建的内容,要么是通过现有的不同内容汇集综合而成的内容。这和当前的生成式人工智能热潮略有不同。当然它还是基于Transformer和类似的架构,但会越来越通用。 具体来说,过去Meta会为每种类型的内容建立不同的模型,比如有一个模型用于对视频进行排序和推荐,另一个模型用于对更长的视频进行排序和推荐。但更通用的推荐基础模型可以涵盖所有内容,当获取内容的池子越广,就越容易规避不同池子获取内容的低效问题。 “我梦想着有一天,你可以把Facebook或Instagram都当成像单一的AI模型,所有不同的内容类型和系统集合在一起,这些内容在不同的时间范围内有不同的目标,有些只是向你展示你今天想要看到的有趣的内容,但有些是在帮你建立长期的人际网络。” 扎克伯格表示。 从另一个层面来看,扎克伯格认为新一代人工智能会让我们所有的工作流程和产品实现重大升级,每个人都会拥有自己的通用人工智能助手来完成不同的任务。“当我们从Llama 3系列模型转向Llama 4及更高版本时,我认为它不会再像聊天机器人那样,你给它一个提示,它再回应。它会很快进化成:只要你给它一个意图,它就可以在不同的时间范围内完成任务,比如有些计算工作可能需要几周或几个月的时间,然后结果才会返回到你这里,就像世界上其他地方发生了什么事一样。” 黄仁勋也给出类似的人类逻辑,指出人工智能的发展方向:今天的人工智能是回合制的。你说一些话,它会回复你一些话。但当我们思考时,当我们被赋予一个任务或问题时,我们会考虑多种选择,在脑海中模拟一个决策树,设想每个决定的不同结果。” 2.个人创建Agent 扎克伯格还提到其他公司在构建中央Agent,但Meta的愿景是让所有用户都能为自己创建Agent。“无论是平台上的数百万创作者,还是数亿中小企业,我们最终都希望能够收集你们的所有内容,迅速为你们建立一个业务Agent与你们的客户互动。” 于是扎克伯格在现场宣布,Meta将为人们提供一个名为AI Studio的工具,用于构建具有自定义个性、特征和兴趣的虚拟角色。创作者还可以用这样一种数字替身与私信中的粉丝互动。 来源:Meta Meta在新闻稿表示,AI Studio将从今天开始向Instagram Business帐户用户推出,并将在未来几周内向美国的所有Meta用户开放。 “每天的时间都不够用。” 扎克伯格表示。创作者时间有限,所以需要训练Agent代表自己。很明显这就不再是和创作者本人互动,但扎克伯格相信这会是另一种有趣的方式,用户会为各种不同的用途创建自己的Agent。 扎克伯格注意到,Meta AI的主要应用在于人们会在遇到困难的社交场合使用它。比如“我想问我的经理我该如何获得晋升或加薪?或者我和朋友吵架了,或者我和女朋友遇到了什么困难,这场谈话该如何进行等等”。但问题在于,很多人不想只与同一个Agent互动,无论是Meta AI,ChatGPT还是其他应用。用户想创造自己的东西,这就是AI Studio的目标。 “就像每个企业都有电子邮件地址、网站和社交媒体账户一样,未来每个企业都会有一个与客户互动的Agent。而消费者如果买到的东西有问题,也只是想找到一个地方解决问题,通过Agent以不同的方式与企业互动。我认为这也适用于创作者。” 扎克伯格表示。 3.开源哲学来自微软 在对谈中,黄仁勋不忘吹捧Meta称:“我认为Llama 2可能是去年人工智能领域最重要的事件。” 而扎克伯格回应称:我还以为(最重要的事件)是H100。” 黄仁勋认为,Llama 2激活了所有行业。突然之间,每个大中小公司都在开发人工智能。所以他向扎克伯格询问,Meta的开源哲学来自何处。 扎克伯格首先承认,Meta构建分布式计算基础设施和数据中心的时间比其他科技公司晚:“当我们建造这些东西的时候,它已经没有竞争优势了。好吧,那我们不如把它开放,这样我们将受益于周边生态系统。” 而Meta参与的最大项目就是Open Compute Project:“通过让它成为某种行业标准,所有的供应链基本上都围绕它组织起来了,这样做的好处是为每个人省钱,基本上可以节省数十亿美元。” 在Facebook创立二十周年之际,扎克伯格认为,过去 20 年里最困难的事情之一就是必须通过竞争对手的移动平台来发布应用,并且他以隐晦地方式批评了苹果的封闭系统。“每个人认为这应该是封闭的生态系统,因为苹果基本上是唯一一家(主导)。当然市场上有更多安卓手机,但苹果基本拥有整个市场和所有利润,安卓在开发方面基本上是跟随苹果的。所以我认为苹果显然赢得了这一代的竞争。” 然而回到上一个时代,微软虽然不是完全开放的公司,但Windows系统可以在不同的软硬件上运行,是更加开放并且领先的生态系统。也就是说从PC时代开始,开放的生态系统就一直存在。“对于整个行业正在构建的计算平台来说,如果软件是开放的,它的价值会很大,这塑造了我的哲学。我很乐观地认为,下一个时代,开放的生态系统会获胜。”扎克伯格表示。 同时他承认,Meta这样做并不是因为他们是利他主义者,而在于这的确会让Meta打造的成果受益于强大的生态系统。黄仁勋也附和称,仅英伟达内就有数百人致力于让Meta的PyTorch变得更好。但他也提出温和的异议:“我可能不想自己制作这件夹克,我更喜欢让别人为我做这件夹克。皮革可以开源这件事对我来说不是有用的概念。当然你仍然可以拥有令人难以置信的开放的服务。” 针对模型的多样化,扎克伯格进一步提出,帮助人们从大模型中提取自己的模型将会成为非常有价值的新事物。“不会存在一个模型或者一个Agent供所有人使用。人们会在多大程度上仅仅使用更大、更复杂的模型,还是训练自己的模型自己使用?我敢打赌,它们将会是不同模型的大量扩散版本。” 黄仁勋也赞同称,如果雇佣AI做芯片设计,每小时大概需要 10 美元。如果与一群工程师共享这个人工智能,每个工程师可能都有专属的人工智能陪伴他们,这个人工智能的成本并不高,而付给工程师的钱却很多。所以对英伟达来说,每小时花几美元就能放大一个人的能力将会非常具有经济潜力。 4.人工智能进入虚拟世界 这场对谈中的另一项重磅发布是Meta的SAM2,也就是新一代Meta Segment Anything Model,它能够在不需要任何标注的情况下,对任何图像中的任何物体进行分割。 扎克伯格在现场也展示了SAM2的功能,并且“凡尔赛”地表示:“它可以识别并跟踪奶牛,制作很多有趣的效果。顺便提一句,这些都是我家夏威夷牧场的牛。” 显然,它也是开源的。扎克伯格表示,科学家可以利用SAM2研究珊瑚礁和自然栖息地以及景观的演变等,并且在视频中做到这一点,人们可以与它进行交互,告诉它你想要跟踪什么。 在工业应用中,黄仁勋表示:“例如你有一个仓库,里面有一大堆摄像头,仓库人工智能正在监视一切。假设有一堆箱子掉下来了,或者有人把水洒在地上,人工智能都会识别并生成文本,派人过来帮忙。这是使用它的一种方式。如果发生事故,它不会记录所有内容,而是开始记录每纳秒的视频,回溯并检索那一刻。它只记录重要的东西,因为它知道自己在看什么。” 对谈中的最后一个主要话题是颇受市场欢迎的智能眼镜,由Meta和雷朋眼镜合作开发。扎克伯格表示:“如果你五年前问我,我们会在人工智能之前获得全息AR吗?我会说应该是吧。但真正的突破发生在大语言模型上。在全息AR出现之前,我们现在已经拥有非常高质量的人工智能,而且进步速度非常快。这是一种我没想到的逆转。” 至于未来的眼镜市场,扎克伯格认为最终会产生一系列不同价位,采用不同技术水平的智能眼镜产品,其中300美元价位的智能眼镜将成为最受欢迎的一款,有望迎来数亿消费者。不过眼镜作为一种可穿戴的时尚单品也有自己的烦恼:“它不像手表或手机,人们不想看起来都一样。” 已经成为硅谷潮男的扎克伯格指出。 最后,黄仁勋表示,看着扎克伯格把Meta的业务从桌面电脑转向移动设备,再涉足虚拟现实和人工智能等等,他知道这些转型有多难。“这些年来,我们俩都遭受了很多挫折,但这就是成为先驱和创新者所需要的。祝贺你们取得的成果。而且你现在可是时尚偶像了。” 对此,扎克伯格谦虚地表示:“还在早期阶段”。随后他转身掏出一个盒子,里面是为黄仁勋新买的一件毛领黑夹克。而黄仁勋也把自己为SIGGRAPH新准备的皮夹克交换给了扎克伯格穿,再一次完成两人亲密无间的互换外套活动。 (封面图及未说明来源:英伟达)
大模型时代,顶尖数据分析团队是怎样炼成的?
在数字科技的浪潮中,数据不仅仅是数字的集合,它是洞察市场趋势的窗口,是优化决策的工具,更是驱动创新的动力。一个高效的数据分析团队能够挖掘数据的深层价值,为金融科技企业带来不可估量的竞争优势。通过构建数据驱动的文化,企业可以实现数据资产的最大化利用,促进跨部门协作,推动企业向智能化、自动化和高效化的方向发展。 然而,随着数据量的爆炸性增长和业务需求的日益复杂,数据分析团队面临着前所未有的挑战。如何从海量数据中提炼出有价值的信息?如何构建一个既能快速响应市场变化,又能深入理解业务需求的团队?如何培养团队成员,让他们在数据科学的道路上不断进步,为企业带来持续的创新和增长? 8 月 1 日 19:30,首期“数字人才新视点”栏目,将邀请金融业数据分析专家做客直播间,共同探索数据分析团队建设、人才培养、工作场景、发展规划等系列话题,带大家深入了解如何打造顶尖数据分析团队,培养明日数据领袖。 对话嘉宾 数据挖掘与人工智能硕士,前阿里巴巴数据专家,拥有 15 年数据分析和数据运营经验。同时兼任 CDA(数据分析师认证)特聘行业专家,微软认证 PowerBI 数据分析专家。著有《运营之路:数据分析 + 数据运营 + 用户增长》一书,通过三部分内容,详细介绍了数据分析的方法、数据运营的玩法、用户增长的打法。 现任招商证券数字化办公室数据分析专家。拥有 13 年数据分析和运营经验,曾在咨询行业、地产、金融行业任职,对互联网、医药、金属冶炼、零售、快消品、供应链、地产、金融等多个行业有丰富的数据分析与运营经验。 极客时间企业版解决方案专家 聚焦企业培训 / 咨询解决方案;致力于数字化人才培养的研究及企业服务的提供;具备传统咨询公司咨询 / 培训模式经验 + 互联网公司产品、运营视角及经验 + 数字化人才培养发展视角及经验。部分服务客户:中国银联、华泰证券、国泰君安证券、光大银行、北京银行、中信银行、民生银行、平安科技、兴业数金、华为、腾讯、京东、麦当劳、东风集团、吉利汽车。 极客邦科技 CGO、InfoQ 极客传媒 & 极客时间企业版总经理 统筹包括数字化技术交流峰会、技术媒体、整合营销、企业数字人才体系解决方案等团队,为极客邦科技在行业的影响力及长期的健康发展负责。拥有 IT 技术媒体数十年从业经验,个人愿景定位在科技领域,致力于为金融、汽车、运营商、科技企业建设数字化人才培养体系,服务客户包括招商银行、国泰君安、民生银行、北京银行、华为、昆仑数智、中国联通、华润集团、东风汽车、中国电信等。 精彩话题推荐 团队管理新策略:交流数据团队搭建思路,探讨塑造组织数据文化的方式 人才培养全景图:从技能筛选到成长路径,全方位构建数据分析师的能力框架 工作场景实战术:分享数据驱动决策的实战案例,交流如何真正释放数据价值 行业视野新拓展:AI 时代下,数据分析团队变革与人才发展新机遇 在活动中,还将带来多个数据分析人才培养项目的优秀实践和方案,如果您也在数据分析团队能力建设上面临以下难题,欢迎来直播间寻找答案。 今日荐文 缺卡、缺电、缺组网技术!谁能为马斯克构建出全球最强大的 10 万卡超级集群? 颠覆传统架构!华人科学家 20 年心血:AI 能效提高 1000 倍,未来需求井喷! 训练一次经历 419 次意外故障!英伟达 GPU 也差点玩不转 405B 模型,全靠 Meta 工程师后天救场! 中国人每周工作时间越来越长;员工不及时回复消息被罚50元;中科大保卫处招聘硕士税后月薪5800-7600元 | AI周报 第一个制定了AI 议程的奥运会开幕了!谷歌、阿里等厂商的大模型也来“干活”了
深度解码:AI 大模型的繁荣与困境
当前,人们正身处于一个日新月异的数字化时代,其中,人工智能技术的发展速度和规模令人惊叹,已然成为驱动技术进步的一股不可忽视的力量。在众多的人工智能技术中,大模型尤其引人注目,它已成为实现超凡性能的关键因素之一。不论是在自然语言处理、计算机视觉、机器翻译还是智能对话等领域,大模型都表现出了无比出色的性能,而这些都是人工智能无限潜力的生动展现。 AI 大模型指的是那些拥有大量参数的人工智能模型。这些模型通常通过大量的数据进行训练,可以学习和理解复杂的模式和关系。近两年来,大模型技术呈现爆发式的增长,而且在各个研究领域和实践任务上都取得了引人注目的成果。诸多科技巨头公司也纷纷投身于大模型的研发与应用中。在最早应用大模型的自然语言处理(NLP)领域,OpenAI 推出了拥有 1750 亿个参数的 ChatGPT,这一行动激发了一系列的应用热潮:微软(Microsoft)将 ChatGPT 接入了其搜索引擎 Bing;谷歌(Google)推出了自家的语言大模型 PaLM 和对话模型 Bard,并且已经开始了 PaLM2 的研发;我国百度、字节跳动、华为等公司也都在积极推出了自己的语言大模型。这些语言大模型展示了出色的问答、知识挖掘、推理、规划能力,充分展现了人工智能的无穷可能。OpenAI 的一份报告指出,美国约 80% 的工作领域都可能会受到 ChatGPT 的影响。从这一点可以看出,NLP 大模型具有巨大的市场潜力和价值。 在 NLP 大模型取得了巨大成功的鼓舞下,其他领域也涌现出了大模型的身影。在语音识别领域,OpenAI 和谷歌分别推出了拥有 15 亿参数的 Whisper 模型和 20 亿参数的 USM 模型,而微软则推出了能够在几秒钟内准确模仿任何人说话声音和语调的语音生成模型 VALL-E;在视觉领域,基于大模型工作的 GPT-4 和 OpenCLIP 进行了语音和视觉的跨模态训练,使得这些模型能够用自然语言的方式去理解图片。此外,谷歌和脸书公司也各自采用了监督学习和非监督学习的方式,分别训练了 220 亿参数和 65 亿参数的 Vision Transformer 视觉大模型,这些模型在性能上大大超越了参数数量更少的模型;在强化学习领域,谷歌和 Deepmind 公司开发的 PaLM-E 和 Gato,也开始探索和实验强化学习大模型的可能性。总体来看,大模型的热潮正在各个人工智能领域席卷而来,预示着更广阔的应用前景和可能性。 这股 AI 大模型的热潮并不仅仅局限于研发和科技公司,也将渗透到更为广泛的应用领域。例如,在医疗健康、金融、教育、零售及制造等领域,大模型都展示出了巨大的潜力。基于大模型的人工智能工具可以助力医生进行更精确的诊断,帮助金融机构做出更精准的投资决策,协助教师进行个性化教学,以及帮助零售商家进行更有效的客户分析等。因此,大模型不仅仅改变了人工智能的研究和开发,也正在深度影响人们的日常生活。 与此同时,AI 大模型所引发的热潮也带来了一些值得深思的问题。模型的规模和复杂度的增加,使得模型训练和运行需要的计算资源和能源消耗也大大增加,这无疑加大了环境压力。此外,随着大模型在各个领域的应用,如何保证其决策的公平性、透明性,以及用户隐私的保护都成了一些亟待解决的问题。解决这些问题需要在推动 AI 大模型的发展和应用的同时,思考并采取有效的措施来优化其痛点问题。 不可否认,AI 大模型的热潮在各领域带来了深远影响,它们的表现力和潜力令人瞩目。然而,随着技术的进步,人们也应继续努力,以确保这些大模型的发展和应用在带来巨大收益的同时,尽可能地减少其潜在的负面影响。人工智能的未来仍然广阔无垠,而人类正站在这个探索和发展的大潮之中。 AI 大模型的发展与挑战 与传统模型相比,AI 大模型具有更强的学习和理解能力。由于大模型的参数数量多,它们可以学习和理解更复杂、更细微的模式,从而使任务(如文本理解、图像识别等)达到更好的效果。同时,它们可以处理更复杂的任务,如机器翻译、自然语言理解、医学影像识别等。在诸如医疗、能源、环保等领域,问题往往十分复杂,而大模型的强大学习能力可以帮助人们更快地找到解决方案。 尽管 AI 大模型带来了巨大的机会和价值,但其也伴随着一些风险和挑战,这些挑战主要集中在以下几个方面。 数据和隐私问题:训练大型 AI 模型需要大量的数据,这可能导致数据隐私和数据安全问题。需要在收集、存储和处理数据的过程中确保用户的隐私权和数据安全。 计算资源需求:大型 AI 模型需要大量的计算资源进行训练和运行,这不仅加大了资源消耗,同时也可能导致这种先进技术只能在资源富裕的组织或者国家得到应用推广,进一步加剧了技术鸿沟。 模型的可解释性:大型 AI 模型由于其复杂性和“黑箱”特性,模型的决策过程和原理往往难以理解和解释。这可能会导致其在某些需要高度透明和解释性的领域(如医疗、法律)中应用受限。 偏见和公平性:如果训练数据中存在偏见,大型 AI 模型可能会放大这种偏见,导致模型的预测结果存在不公平性。需要在模型设计和训练阶段就注意避免偏见的引入,保证 AI 的公平性。 泛化能力:虽然大型 AI 模型在训练数据上的表现通常很好,但在面对新的、未见过的数据时,其表现可能会下降。这种情况在 AI 领域被称为过拟合问题,是大型 AI 模型需要解决的关键问题之一。 面对这些挑战,有关部门需要采取相应的策略和措施来解决。例如,通过制定严格的数据管理政策来保护数据隐私,采用高效的模型和算法来减少计算资源需求,利用模型可解释性技术来提高模型的透明度,同时在模型设计和训练阶段就注重避免偏见的引入,提高模型的泛化能力等。 为了减少 AI 大模型对环境的影响,可以采取多种措施。一方面,努力优化模型的计算效率,减少能源消耗,如采用模型剪枝、量化和压缩等技术来减小模型的规模;另一方面,推动使用可再生能源和高效能源供应链来支持大规模的模型训练和推理。此外,建立绿色 AI 的研究方向和标准,促进环境友好型的人工智能发展也是至关重要的。 确保 AI 大模型的决策公平性、透明性和用户隐私保护是至关重要的。为了避免潜在的偏见和不公平性,应该进行数据集的多样性和平衡性验证,避免对特定群体的歧视。同时,开发可解释和可追溯的模型方法,使得模型的决策过程能够被理解和解释,增强其透明性。此外,还要加强数据隐私保护的技术和法律措施,确保用户的个人数据不被滥用和泄露。 加强人工智能伦理和法规的建设也是必要的。制定适应人工智能发展的法律法规,明确人工智能系统的责任和义务,确保其符合伦理和社会价值。同时,建立跨学科的合作和多方参与的机制,让政府、学术界、产业界和公众能够共同参与 AI 大模型的发展和应用,促进更全面的讨论和决策。 在 AI 大模型的兴起中,人们应该既关注技术的进步和创新,又注重社会的可持续发展和人的福祉。通过共同努力,人们可以探索并塑造一个 AI 大模型广泛应用的未来,为人类创造更多的机遇和福利。 除了环境影响、公平性和隐私保护外,AI 大模型的兴起还带来了其他值得思考的问题和挑战。 构建和训练大规模的 AI 模型需要庞大的计算资源和数据集,使得只有少数研究机构和科技巨头能够承担这样的成本和工作量。这导致了资源集中,甚至可能会加剧技术差距和创新壁垒,使得其他机构和个人很难进入和发展。因此,需要寻求降低技术门槛和促进资源共享的方法,以确保 AI 大模型的发展具有更广泛的参与性和可持续性。 另外,虽然 AI 大模型在许多领域展示出巨大的潜力,但其广泛应用也可能对就业市场和经济结构产生影响。某些传统的工作岗位可能会受到自动化的冲击,需要重新思考教育和职业发展的策略,以应对这一变革。此外,AI 大模型的广泛应用还可能导致数据和算法的垄断现象,进一步加剧数字鸿沟和不平等问题。因此,需要制定相应的政策和措施,以确保技术进步的同时,也能够促进包容性增长和公平分配。 伦理和价值观的问题也值得重视。随着 AI 大模型在决策和影响力方面的扩大,需要审慎思考和讨论其背后的伦理和道德问题。例如,模型的决策是否应该受到人类的监督和干预?模型是否应该具有道德判断和责任感?如何平衡技术的效益和风险,以及人类的自主性和权益?这些问题需要集合多方的智慧和参与,进行广泛的讨论和共识建设。 AI 大模型的兴起给人工智能领域带来了巨大的创新和发展机遇。然而,也必须认识到其中的挑战和潜在风险,并采取相应的措施来解决这些问题。通过科技界、政府、企业和社会各界的合作,可以共同推动 AI 大模型的可持续发展,实现人工智能在实践中的最大利益和最大效益。 AI 大模型为何难以训练 在大模型还未兴起的时期,深度学习相关任务常见的模型训练方式是单机单卡,也就是使用一台服务器节点上的一块 GPU 设备完成模型训练任务。然而,随着大模型时代的到来,模型参数量和训练数据量急剧增长,规模的增加给模型训练带来了新的难题。数据量的增加使得每次训练迭代的计算量增加,训练时间更长,而模型参数量的增加不仅使得模型的训练计算量和训练时间增长,更重要的是单个设备的显存容量无法再容纳模型参数及训练中产生的梯度、优化器参数、激励值。为了解决这些问题,研究者们希望能增加计算资源,使模型和数据可以分布到不同节点、不同 GPU 设备上,并采用多种分布式训练技术来进行高效且可扩展的大模型训练。 然而,大部分大模型相关从业人员能获取的计算资源有限,如何利用有限的显存容量进行高效的大模型训练成为从业人员关注的热点。堆叠硬件设备数量可以保证顺利容纳模型参数,但其计算效率并不能线性提高,由于硬件设备数量增加,训练产生的节点与节点间、GPU 设备之间的通信开销也将相应的增加,因此成为大模型训练中新的瓶颈。最后,分布式情况下的模型训练引入了额外的工程实现难题,如何利用操作系统、计算机网络和并行计算等领域的相关知识实现高效可靠且具有扩展性的分布式模型并行训练策略成为实现大模型训练的关键。 总体来讲,可以将大模型训练的瓶颈分为 4 类:数据量、计算、内存和通信。 1. 数据量瓶颈 大规模、多样化的训练数据集是大模型卓越的语义理解能力的关键,OpenAI GPT-1 的无监督训练使用了超过 7000 本不同题材的书籍,GPT-2 的训练集是一个 40GB 的私有数据集 WebText,GPT-3 的训练集超过了 570GB,而 Meta 开源的 LLaMA 使用的训练集更是达到了 4.7TB。面对如此庞大规模的数据量,即便是简单的遍历也将花费大量的时间,将其输入大模型并进行训练的时间开销则更大,同样一个模型在同样的计算环境下,随着其训练数据量的增长,其训练时间也将相应增加。 为了加速训练,一个常用的方法是使用数据并行技术,对数据集进行切分,采用单机多卡或多机多卡的服务器集群,每个 GPU 设备上保留相同的模型参数,在训练时分别读取不同的数据进行训练,并采用集合通信同步参数更新。通常,原本单个 GPU 设备一次迭代仅能输入一批样本,同时使用多个 GPU 设备则可以同时训练多批样本,通过增加输入的数据量,减少了模型训练的迭代次数,从而减少模型训练时间。 然而,单独使用数据并行通常要求每个 GPU 设备都能保存模型的全部参数,但是由于大模型的参数量较大,单个 GPU 设备往往无法容纳整个模型的参数,因此,数据并行通常还需要与其他分布式训练技术结合使用来加速大模型的训练。 2. 计算瓶颈 计算瓶颈主要体现在数据量与模型参数量规模增长带来的计算量陡增,以及对计算资源的利用效率低的问题。 从计算量来看,数据量的增长使得模型语义理解能力提升,性能更强,但这也导致模型训练迭代次数更多,计算量也更多;增加模型参数量是取得模型性能提升的另一个有效途径,但这使得每次训练迭代内部的计算量也增加。表 1 给出了现有的部分大语言模型的参数量以及训练所需的数据量,其中 B 代表 Billion(十亿),T 代表 Trillion(万亿)。 表 1 现有大语言模型参数量和数据量 Hoffmann 等人注意到,在给定的计算资源下,为了达到预定的一个目标性能,通常需要在模型参数量和数据量之间进行折中,因此采用多种不同方法分析了二者之间的关系。表 2 给出了在不同参数量的情况下,为了达到特定性能需要的计算量和数据量,其中 FLOPs 代表浮点运算数量。 表 2 不同参数量模型对计算量(FLOPs)和数据量的需求 从计算资源的利用率来看,深度学习和人工智能技术的火热也推动着 GPU 设备的不断发展,GPU 设备这类高性能硬件的算力不断增强,采用更高算力的 GPU 设备进行模型训练能显著提升训练速度,从而能部分解决计算量的问题。然而,针对不同目标进行优化的分布式并行训练技术通常会导致计算或通信的额外开销,从而降低计算设备的利用率。 为了最大化计算设备的利用率,提升训练速度,降低训练成本,可以从不同粒度对模型训练技术进行优化。在算子层面,可以采用算子融合的技术减少算子产生的中间变量,从而在减少内存开销的同时提升计算设备的利用率。基于算子间的结合性或可交换性,采用算子替换技术也可以提升计算效率;在计算图层面,主要是考虑模型并行技术对模型进行切分时,得到通信效率最高的模型并行策略,从而降低通信时延,提升计算设备的利用效率。使用基于流水线的模型并行策略时,通过减少流水线内部的气泡,可最大化单个 GPU 设备的计算负荷;在任务调度层面,可以考虑设计自动并行策略。根据不同规模的计算资源,自适应选取混合的分布式并行策略,并考虑用计算时间覆盖通信的时延或者降低通信量,从而最大化计算设备的利用率。 3. 内存瓶颈 不同于便宜的主存,模型训练通常采用的是成本昂贵的 GPU 芯片,而 GPU 设备的内存容量有限,常见的 GPU 芯片的内存容量规格较大的也只有 80GB 或 40GB 等,远远不及常见的主存规格,因此,内存成了制约大模型训练的重要瓶颈。模型训练过程的内存开销分为静态和动态两个部分,静态内存开销包括模型自身的参数和一些优化器的状态参数,而动态内存开销则是模型在针对输入数据进行计算的时候产生的临时变量,包括前向传播产生的激励值、反向传播产生的梯度,以及一些算子计算过程中的中间变量。静态内存开销由于跟模型固有结构有关,在训练时又通常需要驻留在 GPU 设备中,难以对其进行优化,因此,模型训练的内存瓶颈主要考虑动态产生的内存开销。 为了对动态的内存开销进行优化,有多种不同的分布式训练技术。例如,通过混合精度技术,可以降低部分参数表示所需要的字节数,将一个双精度 8 字节的浮点数转为 2 字节的浮点数即可将参数量缩减到原来的 1/4,然而,这一方法通常会影响模型的计算精度;通过模型并行技术中的张量并行,可以将一个参数矩阵拆分到不同 GPU 设备,从而减小单个设备上的计算数据量;通过模型并行技术中的流水线并行,将不同模型层划分到不同节点或不同设备,同样可以减小单个设备的数据量,并且可以通过流水线的原理,覆盖每次迭代模型层之前的通信开销;采用 Gradient Checkpointing 技术可以减少模型训练时激励值占用的内存开销;基于 Offload 技术可以结合 GPU、CPU、NVMe 实现异构内存的模型训练,将内存开销部分转移到便宜的主存中。 然而,在计算机领域中时间和空间的优化之间普遍存在折中,以上方法虽然可以对内存瓶颈进行优化,但却引入了额外的通信或计算开销,因此需要针对具体训练任务下的模型参数量进行分析,才能得到最合适的内存优化策略。 4. 通信瓶颈 大模型参数规模极大,通常需要采用模型并行等技术,将参数放置到不同节点、不同 GPU 设备上,才能使得硬件设备能完全容纳模型参数,然而,这样就不可避免地引入了额外的通信开销。 一个计算节点通常有多个 GPU 设备,而一个计算集群通常有多个计算节点,由于 GPU 这类芯片具有高速并行计算的特性,大规模模型训练时节点内的通信带宽远高于节点间的通信带宽,因此计算资源的增加也导致了通信开销增加。此外,如果仅增加节点间或节点内的通信带宽,也并不能保证直接提升模型训练的效率,这是因为现有的模型训练常采用同步的集合通信,每次训练迭代过程中需要同步操作,因此通信将受最慢一次通信的限制。以集合通信常见的 Ring AllReduce 为例,随着计算节点的增加,通信的环将增加,通信次数变多,由此使得通信时延增加。 总之,为了对模型训练中的通信效率进行优化,通常需要考虑多方面的因素,包括网络拓扑结构、计算资源的带宽、模型的参数量等,从而设计出通信效率最大化的模型并行具体策略。 综上所述,大模型训练由于参数量和数据量规模较大,需要采用分布式技术进行训练,在训练过程中往往会受限于数据量、计算、内存和通信 4 个方面的问题,四者相互之间又存在不同程度的影响,为了减小通信开销,最大化硬件设备的利用率,缩短模型训练时间,降低模型训练成本,需要考虑多种限制因素,包括数据量、参数量、网络拓扑结构、通信带宽、硬件设备内存容量和算力等,采用多种优化技术对不同瓶颈进行优化。 以上内容节选自《实战 AI 大模型》,作者:尤洋 今日荐文 缺卡、缺电、缺组网技术!谁能为马斯克构建出全球最强大的 10 万卡超级集群? 颠覆传统架构!华人科学家 20 年心血:AI 能效提高 1000 倍,未来需求井喷! 训练一次经历 419 次意外故障!英伟达 GPU 也差点玩不转 405B 模型,全靠 Meta 工程师后天救场! 中国人每周工作时间越来越长;员工不及时回复消息被罚50元;中科大保卫处招聘硕士税后月薪5800-7600元 | AI周报 第一个制定了AI 议程的奥运会开幕了!谷歌、阿里等厂商的大模型也来“干活”了
文章导航
Previous page
Page
1
…
Page
97
Page
98
Page
99
…
Page
101
Next page