Skip to content
揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化
在 2024 年全球开发者大会上,苹果重磅推出了 Apple Intelligence,这是一个全新的个性化智能系统, 可以提供实用的智能服务,覆盖 iPhone、iPad 和 Mac,并深度集成在 iOS 18、iPadOS 18 和 macOS Sequoia 中。
库克曾经表示,Apple Intelligence 是苹果创新的新篇章,将改变用户使用产品的方式。他强调,苹果独特的方法结合了生成式人工智能和用户的个人信息,能提供真正有用的智能服务。此外,Apple Intelligence 能够以完全私密和安全的方式访问信息,帮助用户完成对他们最重要的事情。这是苹果独有的 AI 体验。
如今,距离 Apple Intelligence 官宣一个多月过去了,这项技术终于落地智能设备,相关技术文档也终于放出。
在刚刚过去的一天,拥有 iPhone 15 Pro 或 iPhone 15 Pro Max 的用户可以下载 iOS 18.1 开发测试版,并可以体验 Apple Intelligence 的功能了。
随着这篇长达 47 页技术报告的出炉,我们可以更加深入的了解 Apple Intelligence 背后的秘密武器。
报告地址:https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf
报告详细介绍了其中两款模型 ——AFM-on-device,AFM 代表 Apple Foundation Model,是一个约 30 亿参数的语言模型,以及一个更大的基于服务器的语言模型 AFM-server,可以高效、准确和负责地执行专门的任务(图 1)。
这两个基础模型作为苹果更大的生成模型系列的一部分存在。
架构及训练
AFM 基础模型是基于 Transformer 架构构建的密集解码器模型,采用如下设计:
共享输入 / 输出嵌入矩阵,以减少用于参数的内存使用。
使用 RMSNorm 进行预归一化以提高训练稳定性。
查询 / 键归一化以提高训练稳定性。
具有 8 个键值头的分组查询注意力(GQA),以减少 KV 缓存内存占用。
SwiGLU 激活,以提高效率。
RoPE 位置嵌入,基频(base frequency)设置为 500k,以支持长上下文。
AFM 预训练过程在开发高性能语言模型,以支持一系列 Apple Intelligence 功能方面发挥着关键作用。研究团队注重效率和数据质量,以获得高质量的端到端用户体验。
在后训练方面,研究团队发现改进通用后训练可以提升 Apple Intelligence 所有功能的性能,因为模型在遵循指令、推理和写作方面会具有更强的能力。
为了确保这些模型功能符合苹果对保护用户隐私的承诺,以及苹果的 Responsible AI 原则,后训练工作包括一系列数据收集和生成、指令调整和对齐创新。后训练过程包含两个阶段:监督微调(SFT)和来自人类反馈的强化学习(RLHF)。研究团队提出了两种新的后训练算法:(1)带有 teacher committee(iTeC)的拒绝采样微调算法,以及(2)一种用于强化学习迭代的 RLHF 算法,带有镜像下降策略优化(mirror descent policy optimization)和留一法优势估计器(leave-one-out advantage estimator)(MDLOO),使得模型质量显著提高。
Apple Intelligence特性
基础模型是为 Apple Intelligence 专门设计的,这是一个支持 iPhone、iPad 和 Mac 的个人智能系统。
苹果发现,针对特定任务的微调,他们可以将小模型的性能提升到一流水平,除此以外,他们还开发了一种基于运行时可交换适配器(runtime-swappable adapters)的架构,使单一基础模型能够专门用于数十个此类任务。图 2 显示了高级概述。
适配器架构
苹果使用 LoRA 适配器来针对特定任务进行模型微调。对于每项任务,研究者会调整 AFM 自注意力层中的所有线性投影矩阵以及逐点前馈网络中的全连接层。仅通过微调适配器,基础预训练模型的原始参数保持不变,可以保留模型的一般知识,同时定制适配器以支持特定任务。
量化
为了将 AFM 纳入内存预算有限的边缘设备并降低推理成本,需要考虑量化技术。先前的研究发现,与原始的 32/16 位浮点相比,经过 4 位量化的模型损失会很小。
为了在模型容量和推理性能之间实现最佳平衡,苹果开发了最先进的量化方法和利用准确率 – 恢复适配器(accuracy-recovery adapters)的框架。使得模型在每个权重平均小于 4 位的情况下,还能实现近乎无损的量化,并提供灵活的量化方案选择。
方法
经过后训练,模型被压缩和量化,得到平均低于 4 位的权重。量化模型通常表现出中等程度的质量损失。因此,苹果不会将量化后的模型直接用于功能开发,而是附加一组参数高效的 LoRA 适配器以进行质量恢复。
值得注意的是,训练准确率 – 恢复适配器具有样本效率,可以看作是训练基础模型的迷你版本。在适配器的预训练阶段,只需要大约 100 亿个 token(约占基础模型训练的 0.15%)即可完全恢复量化模型的能力。
由于应用程序适配器将从这些准确率 – 恢复适配器微调而来,因此它们不会产生任何额外的内存使用或推理成本。关于适配器大小,苹果发现适配器秩为 16 时提供了模型容量和推理性能之间的最佳权衡。
但是,为了灵活性,苹果提供了一套具有不同秩 {8、16、32} 的准确率 – 恢复适配器供应用程序团队选择。
混合精度量化
AFM 中的每个 transformer 块和每个层都存在残差连接。因此,所有层都具有同等重要性的可能性不大。根据这一直觉,苹果通过推动某些层使用 2 位量化(默认为 4 位)来进一步减少内存使用量。平均而言,AFM-on-device 可以压缩到每个权重仅约 3.5 位 (bpw),而不会造成显著的质量损失。
评估
研究团队使用常见的开源评估工具和基准来评估 AFM 预训练模型。表 2 展示了在 HELM MMLU v1.5.0 上 AFM-on-device 和 AFM-server 的结果。
这些基准测试表明,AFM 预训练模型具有强大的语言和推理能力,为后训练和特征微调提供了坚实的基础。
AFM 与开源模型(Phi-3、Gemma-1.1、Llama-3、Mistral、DBRX-Instruct)和商业模型(GPT3.5 和 GPT-4)的比较结果如下图3所示。与其他模型相比,AFM 模型更受人类评估人员的青睐。特别是,AFM-on-device 与 Phi-3-mini 相比,尽管模型规模小了 25%,但仍获得了 47.7% 的胜率,甚至优于开源强基线 Gemma-7B 和 Mistral-7B。
为了衡量模型生成响应遵循提示中指令的能力,研究团队在 IFEval 基准上评估了 AFM-on-device 和 AFM-server,结果如下图 4 所示:
如图 5 所示,AFM-server 实现了最佳的整体准确率,优于 Gemini-1.5-Pro-Preview-0514 和 GPT-4。
苹果将 AFM 与一些最出色的模型以及规模较小的开源模型进行了比较。如图 6 所示,与 Gemma-7B 和 Mistral-7B 相比,AFM-on-device 可以实现相当或更好的性能。AFM-server 的性能明显优于 DBRX-Instruct 和 GPT3.5,并且与 GPT4 相当。
图 7 比较了经过后训练的 AFM 在数学基准上的表现。结果发现,AFM-on-device 的性能明显优于 Mistral-7B 和 Gemma-7B,即使规模不到它们的一半。
下图为人类评分员评估 AFM-on-device 适配器、Phi-3-mini、Llama-3-8B 和 Gemma-7B 在摘要任务上的质量。图 8 显示 AFM-on-device-adapter 总体上优于其他模型。
负责任的AI
Apple Intelligence 的开发和设计都注重保护用户隐私。
图 9 总结了人类评分员在不同模型上给出的违规率,越低越好。AFM-on-device 和 AFM-server 都对对抗性提示具有鲁棒性,其违规率明显低于开源和商业模型。
图 10 表明,与其他模型相比,AFM 模型更受人类评分员的青睐。
arXiv论文可以发「弹幕」了,斯坦福alphaXiv讨论平台上线,LeCun点赞
干杯!
当论文讨论细致到词句,是什么体验?
最近,斯坦福大学的学生针对 arXiv 论文创建了一个开放讨论论坛 ——alphaXiv,可以直接在任何 arXiv 论文之上发布问题和评论。
网站链接:https://alphaxiv.org/
其实不需要专门访问这个网站,只需将任何 URL 中的 arXiv 更改为 alphaXiv 就可以直接在 alphaXiv 论坛上打开相应论文:
可以精准定位到论文中的段落、句子:
右侧讨论区,用户可以发表问题询问作者论文思路、细节,例如:
也可以针对论文内容发表评论,例如:「给出至少一个数学问题及其解决方案作为示例会具有启发性。」
用户还可以回应、点赞、反对某条评论:
对此,图灵奖得主 Yann LeCun 也觉得非常 Nice。
我们发现很多论文作者纷纷称赞 alphaXiv 论坛,例如最近发表的一篇论文《KAN or MLP: A Fairer Comparison》,在 alphaXiv 上收获了一些讨论,论文一作 Runpeng Yu 发推表示将在 alphaXiv 上回答大家的问题。
如网友所说:「AlphaXiv 使研究变得易于协作」,推进了学术交流。
Transformer作者回流谷歌,Character.AI创始团队被「收购」,只要人不要公司
AI 初创者的归宿还是大厂?
一觉醒来,生成式 AI 的「吃鸡大赛」再次缩圈了。
初创公司 Character.AI 周五宣布已与谷歌签署协议,谷歌将获得 Character.AI 的大型语言模型(LLM)技术的非独家许可。
谷歌还宣布重新雇佣 Noam Shazeer 和 Daniel De Freitas。其中,Noam Shazeer 是 Character.AI 的创始人、CEO,也是 Transformer 论文作者之一,他曾在谷歌任首席软件工程师。而 Daniel De Freitas 是 Character.AI 的总裁,曾在谷歌担任高级软件工程师。
Daniel de Freitas(左)和 Noam Shazeer。图源:https://www.bizjournals.com/sanjose/inno/stories/news/2023/03/24/q-a-interview-with-characterai-founders.html
2021 年,Noam Shazeer 和 Daniel De Freitas 因对谷歌这家搜索巨头的官僚主义感到失望而离开谷歌,并在 2022 年创办了 Character.AI。而现在,他们又将与约 30 人的研究团队一起回到 Google DeepMind 工作。
谷歌发言人在一封电子邮件中表示:「我们特别高兴地欢迎 Noam 回来,他是机器学习领域的杰出研究员。」
Character.AI 剩余的大约 140 名员工将留下来,面临着下一步抉择。Character.AI 官方发布了一份公开信,内容如下:
2022 年,我们创立了 Character.AI,旨在为全球用户带来个性化的超级智能。在过去的两年里,我们在这一目标上取得了巨大进展。我们构建了越来越智能的模型,推出了与虚拟角色对话的沉浸式新功能,并迅速发展到服务数百万用户,成为他们日常生活的一部分。
当 Noam 和 Daniel 创办 Character.AI 时,我们实现个性化超级智能的目标需要全栈式方法。我们必须对模型进行预训练和后训练,以保证用户在 Character.AI 上能够获得独特的体验,并构建一个能够使全球用户共同使用的平台。然而,在过去的两年里,技术环境发生了变化 —— 现在有更多的预训练模型可用。鉴于这些变化,我们认为联合利用第三方大型语言模型(LLM)和我们自己的模型将具有优势。这使我们能够投入更多资源用于后训练和为不断增长的用户群体创造新的产品体验。
我们很高兴地宣布,我们已与谷歌达成协议,这将使我们能够加速进步。根据该协议,Character.AI 将为谷歌提供现有 LLM 技术的非独家许可。这项协议将为 Character.AI 提供更多资金,以继续增长,并专注于为全球用户构建个性化 AI 产品。
Noam、Daniel 和我们研究团队的部分成员也将加入谷歌。Character.AI 的大多数才华横溢的团队成员将继续留在公司,继续构建 Character.AI 产品并服务于我们不断增长的用户群。
Character.AI 的总法律顾问 Dominic Perella 已担任临时首席执行官一职。Perella 之前是 Snap Inc. 的长期高管,自 2023 年中期以来一直是 Character.AI 核心领导团队的一员。这些变动将立即生效。
在我们进入下一个增长阶段时,我们将继续投资于我们的后训练能力,灵活使用我们自己的或外部可用的大语言模型。我们对 Character.AI 的未来充满期待,并致力于通过创新型产品来服务我们的用户。
我们对 Noam、Daniel 和其他团队使 Character.AI 从梦想化为现实表示无比感激。我们期待在他们已有贡献的基础上,Character.AI 在下一个增长阶段继续航行。
虽然在技术层面上,公司的股份没有易手,但谷歌会以 25 亿美元的估值向 Character.AI 的投资者支付其股权价值。
据消息人士透露,Character.AI 的员工也将根据其已归属的股份按该估值获得现金,并且随着其现有股票转移归属,他们还将获得偿付。
Character.AI 此前从包括 Andreessen Horowitz 在内的投资者处筹集了 1.93 亿美元的风险资本,其最后一次已知估值为 10 亿美元。该公司也曾在谈判中表示希望从谷歌筹集数亿美元资金。
这一协议类似于微软、亚马逊等公司在过去几个月与初创公司达成的协议。这些协议正受到监管机构的审查。科技巨头正投入数十亿美元来增强其 AI 基础设施,并从初创公司中招聘最优秀的研究人员。
今年 3 月,微软支付 6.5 亿美元引入 AI 初创公司 Inflection 的联合创始人及数十名员工。前 Inflection 首席执行官 Mustafa Suleyman,已成为微软执行副总裁和新成立的微软 AI 组织的首席执行官。
前 Inflection 首席执行官 Mustafa Suleyman。
与之相似,6 月,亚马逊则从另一家 AI 初创公司 Adept 中招聘了多名联合创始人和员工。
这场从 AI 初创公司招募人才以扩展羽翼,为业务再开发赋能的战略部署已初见端倪。大型科技企业对 AI 初创公司的「蚕食」可能才刚刚开始。
参考链接:
https://www.theverge.com/2024/8/2/24212348/google-hires-character-ai-noam-shazeer
https://www.reuters.com/technology/artificial-intelligence/google-hires-characterai-cofounders-licenses-its-models-information-reports-2024-08-02/
https://blog.character.ai/our-next-phase-of-growth/
全员离开老东家,Stable Diffusion一作带团创业,出手即击败MJ v6、SD3,还开源
AI 图像和视频生成领域又加入了一个颇有实力的玩家。
还记得今年 3 月底,从 AI 初创公司 Stability AI 离职的研究科学家 Robin Rombach 吗?作为开发出文生图模型 Stable Diffusion 的两位主要作者之一,他于 2022 年加入 Stability AI。
如今,在从 Stability AI 离职近五个月后,Robin Rombach 发推宣布了自己创业的好消息!
他成立了「Black Forest Labs」,旨在推进用于图像和视频的 SOTA 高质量生成式深度学习模型,并开放给尽可能多的人使用。
团队成员由杰出的 AI 研究者和工程师组成,他们之前的代表性工作包括 VQGAN 和 Latent Diffusion、图像和视频生成领域的 Stable Diffusion 模型(包括 Stable Diffusion XL、Stable Video Diffusion 和 Rectified Flow Transformers)以及用于超快实时图像合成的 Adversarial Diffusion Distillation。
值得注意的是,除了 Robin Rombach 之外,Stable Diffusion 还有三位作者成为了创始团队成员,包括 Andreas Blattmann、 Dominik Lorenz 和 Patrick Esser。他们都在今年早些时候离开了 Stability AI,有人猜测他们当初离开就是为了自己创业。
目前,该 Labs 已经完成 3100 万美元的种子轮融资,由 Andreessen Horowitz 领投。其他投资者包括了天使投资人 Brendan Iribe、Michael Ovitz、Garry Tan、Timo Aila、Vladlen Koltun 以及一些知名 AI 研究和创业专家。此外还获得了来自 General Catalyst 和 MätchVC 的后续投资。
该 Labs 还成立了顾问委员会,成员包括在内容创作行业具有广泛经验的科技大佬 Michael Ovitz 和神经风格迁移先驱、欧洲开放 AI 研究的顶级专家 Matthias Bethge 教授。
当然,Black Forest Labs 推出了首个模型系列「FLUX.1」,包含了以下三个变体模型。
第一个变体是 FLUX.1 [pro],它是全新的 SOTA 文生图模型,具有极其丰富的图像细节、极强的 prompt 遵循能力和多样化风格。目前可以通过 API 使用。
API 地址:https://docs.bfl.ml/
第二个是 FLUX.1 [dev],它是 FLUX.1 [pro] 的开放权重、非商用变体,并直接基于后者蒸馏而成。该模型的表现优于 Midjourney 和 Stable Diffusion 3 等其他图像模型。推理代码和权重已经放在了 GitHub 上。下图是与竞品图像模型的比较。
GitHub 地址:https://github.com/black-forest-labs/flux
第三个是开源的 FLUX.1 [schnell],它是超高效的 4-step 模型,遵循了 Apache 2.0 协议。该模型在性能上与 [dev]、[pro] 非常接近,可以在 Hugging Face 上使用。
Hugging Face 地址:https://huggingface.co/black-forest-labs/FLUX.1-schnell
与此同时,Black Forest Labs 也开始宣传自己了。
下一步的目标是推出所有人可用的 SOTA 文生视频模型,大家可以期待一波了!
一出手即王炸:文生图模型系列「FLUX.1」来袭
这次 Black Forest Labs 推出的三款模型,均采用了多模态和并行扩散 Transformer 的混合架构。不同于其他家将一系列模型按参数量分为「中杯」、「大杯」、「超大杯」,FLUX.1 家族的成员统一扩展为 120 亿参数的庞大规模。
研究团队采用了流匹配(Flow Matching)框架对之前 SOTA 扩散模型进行了升级。从官方博客的注释中可以推测,研究团队沿用了还在 Stability AI 任职时(今年 3 月)提出的 Rectified flow+Transformer 方法。
论文链接:https://arxiv.org/pdf/2403.03206.pdf
他们还引入了旋转位置嵌入和并行注意力层。这些方法有效提高了模型生成图片的性能,在硬件设备上生成图片的速度也变得更快了。
这次 Black Forest Labs 并未公开模型的详细技术,不过更详细的技术报告将很快公布。
这三款模型在各自的领域都确立了新标准。无论是生成图像的美观度、图像与文本提示词的附和度、尺寸 / 宽高比可变性、还是输出格式的多样性, FLUX.1 [pro] 和 FLUX.1 [dev] 都超越了一系列当红图片生成模型,如 Midjourney v6.0、DALL・E 3 (HD) 以及老东家 SD3-Ultra。
FLUX.1 [schnell] 是迄今为止最先进的少步骤模型(few-step model),不仅超越了同类竞争对手,还超越了像 Midjourney v6.0 和 DALL・E 3 (HD) 这样的强大非蒸馏模型。
模型经过专门微调,以保留预训练阶段的全部输出多样性。与当前最先进的技术相比,FLUX.1 系列模型还保留了充分的进步空间。
所有 FLUX.1 系列的模型都支持多种纵横比和分辨率,从 0.1 到 2 百万像素,都能拿下。
已经有动作快的网友抢先体验上了,看来 Black Forest Labs 反复强调的「最强」,并不只是自卖自夸。
简单的提示词,就可以打造出这样的效果,仔细看羊驼身上垫子的花纹,也没有出现扭曲和变形。
提示词:An emerald Emu riding on top of a white llama.
如果不说这是 AI 生成的图片,也挺难分辨这是不是摄影师拍下的照片。
提示词:A horse is playing with two aligators at the river.
含有文字的图像,也能轻松拿捏,景深也处理得很符合真实的镜头感。
三款模型中,性能稍弱的 FLUX.1 [schnell],用起来也是又快又强,有网友晒出在 Mac 上运行的体验,不得不感慨,真是立等可取。
不太了解 Stable Diffusion 的作者们和 Stability AI 之间「恩怨情仇」的网友感叹道:不知道从哪里冒出来了个文生图模型,简直强到可怕。
关于 Stable Diffusion 作者和前司 Stability AI 的故事,可以看看机器之心之前的报道:价值1亿美金时,Stable Diffusion背后的团队开始互撕,谁才是真官方?
除了三款最强的文生图模型,Black Forest Labs 还憋着「大招」呢。有了如此强大的图片生成模型的能力,Black Forest Labs 为视频生成模型打下了坚实的基础,正如他们所预告的,这些计算机视觉的顶级科学家们正朝着为所有人提供的最先进文生视频技术的目标前进。
参考链接:
公司博客:https://blackforestlabs.ai/announcements/
ICML 2024演讲爆火!Meta朱泽园揭秘大模型内心世界:不同于人类的2级推理
大语言模型 (LLM) 是如何解数学题的?是通过模板记忆,还是真的学会了推理思维?模型的心算过程是怎样的?能学会怎样的推理技能?与人类相同,还是超越了人类?只学一种类型的数学题,是会对通用智能的发展产生帮助?LLM 为什么会犯推理错误?多大多深的 LLM 才能做推理?
论文地址:https://arxiv.org/abs/2407.20311
近日,来自 Meta FAIR、CMU 和 MBZUAI 的叶添、徐子诚、李远志、朱泽园四人团队最新公布 arXiv 论文《语言模型物理学 Part 2.1:小学数学与隐藏的推理过程》用可控实验,巧妙地回答上述问题。推特网友 @xlr8harder 评价,「这一结果将一劳永逸地平息关于 LLM 是否具有推理能力,或者只是随机鹦鹉的争论。」
编者注:《语言模型物理学》全系列受邀于 7 月 22 日在 ICML 2024 国际机器学习顶级大会上进行了两小时的专题报告,反响热烈,据悉现场掌声不断。这里为大家呈现系列中的 Part 2.1。
图 1
论文详解
首先,根据本系列的惯例,作者认为不应通过与 GPT-4 等大模型对话来猜测其思维方式,这类似于动物行为学,虽可行但不够严谨,无法科学地揭示 GPT-4 的内心思考过程。
此外,从数据角度看,只有完全访问模型的预训练集(pretrain data),才能明确哪些题目是模型见过的,哪些是通过推理学会的。即使模型在 GSM8k(包含 8000 道小学数学题的基准测试集)上获得高分,也难以判断它是否见过这些题目的变体(如不同语言或 GPT-4 改写后的变体)。
为此,作者创建了 iGSM,一个人工合成的、模拟小学数学级别的思维题集,并让模型从零开始在 iGSM 上预训练,以控制模型接触的问题类别。值得注意的是,iGSM 不包含常识信息,只包含 mod 23 范围内的加减乘,并且所有计算都使用 CoT 逐步进行。通过 iGSM,可进行可控实验,专门研究模型的推理能力,而忽略了其他因素(如大整数运算)。图 2 展示了一个简单的例题。
图 2
通过这个数据集,作者首先测试了 GPT2(RoPE 版)的表现。用 op 代表解题所需的数学运算步数,作者发现,当在 op≤21 的题目上进行训练时,模型不仅能达到 99% 正确率,还能在更高难度的题目(如 op=32)上保持 83% 的正确率(见图 3)。这表明模型学会了某种推理技能,毕竟它从未见过 op>21 的题。(顺带一提,GPT-4o 在该数据集上仅能应对 op=10 的题目,超过这个难度就如同盲猜,文末我们会讨论这个问题。)
那模型究竟学会了怎样的推理技能呢?解决 iGSM 的数学题至少有两种思路。一种是作者称为「0 级推理」,即「暴力计算能算则算」。由于题目中的变量可能存在复杂的依赖关系,有些可以直接计算,有些则需要先算出其他变量 —— 譬如小张比小王多 3 倍的水果,那么就要先算出小王有多少苹果、梨子并求和,才可以开始计算小张的水果数。「0 级推理」就是尽可能枚举所有变量,每次随机找到一个可计算的变量,算出结果并继续。
与之对应的是「1 级推理」:通过拓扑排序,从问题开始反推,确定哪些变量需要计算,然后从叶子节点开始向上计算,力求「最短解答」。常见的数学题解通常采用 1 级推理,不会去计算「不必要的变量」。例如小张比小王多 3 倍的水果,问小张有多少水果,那小李的苹果数就是不必要的变量,而小王的苹果、梨子数都是必要的。
如图 3 所示,作者发现,GPT-2 可以学会 1 级推理,几乎每次都给出最短解答。这非常不简单!因为在模型生成第一句话之前,必须已经在脑海中完成了整个拓扑排序 —— 否则它怎么知道哪个变量是不必要的?如果模型一开始就生成了「小李的苹果有 7 个」,那就无法回头,得不到最短解答。
图 3
那么,模型是如何学会「1 级推理」的?为此,作者对模型的内部参数进行了探针 probing 研究(见图 4)。结论显示(具体探针方法详见论文),在模型生成第一句话之前,它已经通过心算确定了哪些变量 A 是「必要的」(nece (A)=True)。同时,模型在说每句话之后,也心算出了接下来所有「可计算的」的变量 A(cannext (A)=True)。因此,模型只需对 nece 和 cannext 不断进行逻辑与(AND)运算,就能从叶子节点开始,一步步给出完整的计算过程。
值得注意的是,这些复杂的心算能力并没有显现在训练集中。模型只接触过 iGSM 数据,只见过「语言」部分(题目和答案),但它却自主学会了类似人类的思维过程(mental process),并得出了最优解!换言之,这项研究反驳了我们一周前在《语言≠思维,大模型学不了推理:一篇 Nature 让 AI 社区炸锅了》中的报道,用科学方法证明了大模型通过语言确实能学会思维。
更神奇的是,模型学到的不止如此。在图 4 中,作者还发现模型会心算许多对解题无用的信息。比如,在变量关系刚被描述完,甚至在问题尚未提出之前,模型已经知道任意两个变量 A 和 B 之间是否存在递归依赖 —— 即使这些变量与解题无关。对人类来说,我们通常会从问题开始反推,忽略不必要的变量,而 GPT-2 这样的语言模型则会将整个关系图梳理一遍,以应对将来可能被问及的任何问题。作者将这种能力称为「2 级推理」。
虽然「2 级推理」对解题不必须,但它确实是一种更通用的技能。模型利用并行能力,对信息进行大量因果梳理。这一能力是语言模型在学习解题中自行掌握的,没有人 (数据) 教过它这么做。作者猜测,这或许是通用人工智能(AGI)中「通用」一词的潜在来源,即语言模型可以超越数据集所教的技能,学会更为通用的能力。
图 4
接下来,作者研究了模型为何会犯错。总结来看,在 iGSM 数据集上,模型几乎只会犯两类错误:一是计算不必要的变量,二是计算当前不可算的变量,如图 5 所示。
对于前者,作者发现,如果模型在生成答案之前就心算出错,误认为某个变量 A 是 「必要的」(nece (A)=True),那么模型在生成答案时很可能会对 A 强行计算,从而产生非最短解答。这一发现非常有趣,它表明许多错误是系统性的,在生成第一个 token 之前,模型还没张嘴就可以确信它会犯错(通过探针的方法)。这类错误与模型生成过程中的随机性或 beam search 无关。
至于后者,作者也将其归因于心算错误,并将用一整篇的后续 Part 2.2 论文,来针对性提高模型的心算能力,以最终提高解题正确率。该论文尚未发布,我们会在公众号中继续关注并报道。
图 5
下一个结论是,作者反驳了大模型缩放定律(scaling law)中强调的「唯大独尊」,即模型的表现只与参数数量相关,而与宽度或深度无关。这一观点最早由 OpenAI 的缩放定律论文提出,并在后续几乎所有研究中得到遵循。
作者通过 iGSM 数据集进行了一个可控实验,如图 6 所示。通过对比更小更深的模型与更大更宽的模型,发现对于解决 iGSM 中的数学题,模型的深度显然比宽度更为重要。例如,一个 20 层、9 个 head 的模型,表现远好于 4 层、30 个 head 的模型,尽管后者有两倍的参数。
更进一步,作者发现对深度的依赖源于模型心算的复杂性。通过对模型不同深度的探针研究,作者发现,对于那些与问题较远的变量 A,心算 nece (A) 往往需要更多层数。具体来说,若变量 A 与问题变量的距离为 t,则需要进行 t 步心算才能知道 nece (A)=True。t 越大,模型所需的层数也越多,如图 6 所示。
作者强调,模型对深度的依赖无法通过思维链(Chain-of-Thought, CoT)来抵消。事实上,iGSM 中的数学题解已经尽可能地使用了 CoT,即所有计算都被拆解为一步一步。即便如此,模型仍需要通过心算来规划 CoT 的第一步该算什么 —— 这个心算过程可能依然需要多个步骤。这解释了模型对深度依赖的原因。
图 6
综上所述,与 99% 以上的研究 LLM 行为过程(behavior process)的论文不同,本文作者另辟蹊径,揭示了 LLM 在解决数学问题时的心理过程(mental process),为理解 LLM 的智能提供了新的视角。
文章最后作者指出,即便是 GPT-4,在 iGSM 数据集上也只能进行最多 10 步的推理。这表明,即使是当前最强的模型,利用了据称所有的互联网数据,仍无法精准地完成超过 10 步推理。这暗示现有大模型使用的预训练数据集(pretrain data)可能还有很大的改进空间。通过本文的方法,建立人工合成数据来增强模型的推理能力以及信息梳理能力,或许是一种新的可能。
首届大模型顶会COLM 高分论文:偏好搜索算法PairS,让大模型进行文本评估更高效
大模型展现出了卓越的指令跟从和任务泛化的能力,这种独特的能力源自 LLMs 在训练中使用了指令跟随数据以及人类反馈强化学习(RLHF)。在 RLHF 训练范式中,奖励模型根据排名比较数据与人类偏好对齐。这增强了 LLMs 与人类价值观的对齐,从而生成更好地帮助人类并遵守人类价值观的回应。
近日,第一届大模型顶会 COLM 刚刚公布接收结果,其中一项高分工作分析了 LLM 作为文本评估器时难以避免和纠正的分数偏见问题,并提出了将评估问题转换成偏好排序问题,从而设计了 PairS 算法,一个可以从成对偏好(pairwise preference)中搜索和排序的算法。通过利用不确定性和 LLM 传递性(transitivity)的假设,PairS 可以给出高效,准确的偏好排序,并在多个测试集上展现出和人类判断更高的一致性。
论文链接: https://arxiv.org/abs/2403.16950
论文标题:Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators
Github 地址: https://github.com/cambridgeltl/PairS
用大模型评估有什么问题?
最近大量的工作展示了 LLMs 在评估文本质量上的出色表现,形成了一种无需参考的生成任务评估新范式,避免了昂贵的人类标注成本。然而,LLM 评估器(evaluator)对提示(prompt)设计高度敏感,甚至会受到多种偏见的影响,包括位置偏见、冗长偏见和上下文偏见。这些偏见阻碍了 LLM 评估器的公平和可信,导致与人类判断的不一致和不对齐。
为了减少 LLMs 的偏见预测,之前的工作开发了校准技术(calibration)以减少 LLM 预测中的偏见。我们先对校准技术在对齐单点(pointwise) LLM 评估器的有效性进行了系统分析。如上图 2 所示,即使提供了监督数据,现有的校准方法仍然不能很好的对齐 LLM 评估器。
如公式 1 所示,我们认为评估不对齐的主要原因并非 LLM 评估分数分布的先验具有偏见(biased priors over evaluation score distribution),而是评估标准(evaluation standard)的错位,即 LLM 评估器的似然(likelihood)。我们认为做成对(pairwise)评估时,LLM 评估器会与人类有更一致的评价标准,因此,我们探索了一种新的 LLM 评估范式,以促进更对齐的判断。
RLHF 带来的启发
如下图 1 所示,受到 RLHF 中通过偏好数据对奖励模型进行对齐的启发,我们认为 LLM 评估器可以通过生成偏好排序(preference ranking)来得到更和人类对齐的预测。最近已有一些工作开始通过让 LLM 进行成对比较(pairwise comparison)来得到偏好排序。然而,评估偏好排序的复杂性和可扩展性在很大程度上被忽视了。它们忽略了传递性假设(transitivity assumption),使得比较次数的复杂度为 O (N^2),让评估过程变得昂贵而不可行。
PairS:高效偏好搜索算法
在本工作中,我们提出了两种成对偏好搜索算法(PairS-greedy 和 PairS-beam)。PairS-greedy 是基于完全的传递性假设和合并排序(merge sort)的算法,只需要通过 O (NlogN) 的复杂度就可以得到全局的偏好排序。传递性假设是指,比如对于 3 个候选项,LLM 总是有如果 A≻B 以及 B≻C,则 A≻C。在这个假设下我们可以直接用传统的排序算法从成对偏好中获得偏好排序。
但是 LLM 并不具有完美的传递性,所以我们又设计了 PairS-beam 算法。在更宽松传递性假设下,我们推导并化简了偏好排序的似然函数(likelihood function)。PairS-beam 在合并排序算法的每一次的合并操作(merge operation)中按似然值做集束搜索,并通过偏好的不确定性(uncertainty)来减枝成对比较的空间的搜索方法。PairS-beam 可以调整对比复杂度和排序质量, 高效的给出偏好排序的最大似然估计(MLE)。在下图 3 中我们展示了一个 PairS-beam 如何做合并操作的例子。
实验结果
我们在多个具有代表性的数据集上进行了测试,包括闭合式生成的缩写任务NewsRoom 和 SummEval,和开放式的故事生成任务HANNA,并对比了多个 LLM 单点评估的基线方法,包括无监督的 direct scoring, G-Eval, GPTScore 和有监督训练过的 UniEval 以及 BARTScore。如下表 1 所示,PairS 在每个任务上和他们相比都有着和人类评分更高的一致性。GPT-4-turbo 更是能达到 SOTA 的效果。
在文章中,我们还对比了两种偏好排序的基线方法,win rate 和 ELO rating。PairS 可以仅用约 30% 的对比次数就能达到他们同样质量的偏好排序。论文还提供了更多关于如何使用成对偏好来量化计算 LLM 评估器的传递性,以及成对评估器如何在校准中受益的见解。
英特尔股价暴跌 26%,40 年来最大跌幅
财报披露一系列消息:业绩不及预期、裁员、暂停派发股息。
北京时间今天凌晨,英特尔股价暴跌逾 26%,单日总市值蒸发达 323.7 亿美元(约合 2317 亿元人民币),经历了 40 年来表现最差的交易日之一。
本周四,英特尔刚刚公布了低于预期的第二季度财报,报告显示收益低于华尔街预期,公司宣布暂停派息,同时计划实施更广泛的重组计划。
在周五的交易日中,英特尔盘中跌幅曾一度接近 30%,据彭博社提供的数据,这是该股自 1982 年以来表现最差的一次。
英特尔在财报中表示,在第二季度的营收为 128 亿美元,同比下降 1%,(按美国通用会计准则统计)净利润由盈转亏,亏损 16 亿美元,去年同期净利润为盈利 15 亿美元。
预计公司的第三季度营收在 125 亿美元至 135 亿美元之间,远低于分析师预期的 143 亿美元。该公司公布的每股收益 (EPS) 为 0.02 美元,营收为 128 亿美元。
面对财务层面的挑战,英特尔 CEO 帕特・基辛格向员工发出了备忘录,宣布公司将实施一系列「重大成本削减措施」,旨在于 2025 年前节约 100 亿美元成本。该计划的核心内容包括裁减约 1.5 万个工作岗位,占公司员工总数的约 15%,预计大部分措施将在本年度内完成。
「这对我来说是一个痛苦的消息。我知道这对你们来说会更加难以接受。对英特尔来说,这是极其艰难的一天,因为我们正在进行公司历史上一些最重大的变革,」基辛格表示。「简而言之,我们必须将成本结构与新的运营模式相结合,从根本上改变我们的运营方式。我们的收入没有像预期的那样增长,我们还没有充分受益于人工智能等强大的趋势。」
由于生成式 AI 技术正走向落地,英特尔已开始大力转型,力图夺回被竞争对手 AMD 抢走的 PC 芯片市场份额。该公司还在全球各地斥资数十亿美元兴建工厂和其他设施,试图夺回其在芯片制造业的份额,而该行业目前由台积电 (TSMC) 主导。
英特尔数据中心和人工智能部门本季度收入 30.5 亿美元,低于预期的 30.7 亿美元。由于人工智能应用对 CPU 和 GPU 的需求巨大,数据中心和人工智能业务为英特尔提供了增加收入的机会。但英特尔的 GPU 显然还不像英伟达那样受欢迎。
英特尔 CEO 帕特・基辛格在今年的 ComputeX 上。
虽然数据中心和人工智能是当前最受关注的领域,但在英特尔,客户端业务(包括企业和消费电脑芯片的销售)仍然是其最大的整体业务。
本季度,英特尔的客户端收入为 74 亿美元。华尔街预计收入为 75 亿美元。该公司去年同期的客户端收入为 67 亿美元。
此外,英特尔在 PC 领域还面临着一个意想不到的潜在威胁:高通。这家在移动端芯片领域覆盖全球市场的公司于 5 月发布了其新款 Snapdragon X Elite PC 芯片,也成为了微软新款 Surface Laptop 和 Surface Pro 的一部分。
高通发布的 PC 端芯片比竞争对手英特尔和 AMD 的芯片更省电、续航时间更长,在质量上可与苹果自研的 M 系列芯片相媲美。在英特尔一方,类似的产品预计将于今年秋季推出。
还有英特尔的代工业务。该公司正在向第三方芯片设计商开放其代工厂,希望能够打造一项与台积电相媲美的业务。但到目前为止,英特尔是其最大的客户。虽然包括微软在内的客户已经准备就绪,但该公司仍需要时间才能在市场上站稳脚跟。
参考内容:
https://finance.yahoo.com/news/intel-stock-plummets-most-in-40-years-amid-massive-restructuring-201247461.html?guccounter=1&guce_referrer=aHR0cHM6Ly93d3cuZ29vZ2xlLmNvbS8&guce_referrer_sig=AQAAAGn4GAu_AsHE9vbgYGeXdI44EPG5RAB680_QzhaTiCd8H2VzYzwgULEWLG_losKwb_J-wrCOHk6f2m0ATIAHNCI0uzZdoFmnMJvern8Gi7YFqVWtoj1-KpYMPJ0JyqRzH1cd78SLZ0XBLO4T41EYrbo3cMMCYBwWhN0ZiA4CSCv8
https://economictimes.indiatimes.com/jobs/mid-career/intel-ceo-pat-gelsinger-says-15000-job-cut-is-painful-but-necessary-for-a-new-era-of-growth-read-full-letter-here/articleshow/112214781.cms?from=mdr
00后CEO杨丰瑜:耶鲁博士回国创业,五个月造出首款「可量产」人形机器人|AI Pioneer
即使年轻的学术天才已成为当下AGI公司创始人的主流背景之一,2000年出生的杨丰瑜,还是年轻得让人意外。
本科密歇根大学计算机专业,耶鲁大学计算机专业博士生,年仅23岁的杨丰瑜,在去年开始了自己的具身智能机器人事业。
2024年,由他创办的UniX AI具身智能公司,在五个月内完成了一款轮式人形机器人的研发制造,这款带有「餐后清洁」以及「洗衣服」等功能的机器人将于九月开始量产,并对外销售。
在很多具身智能机器人仍然停留在实验室的阶段,这是一个很快的商业化速度。在苏州,UniX AI公司的机器人量产工厂已经超过两千五百平。
这家在去年几乎没人听说过的公司,在大半年内网罗了多位机器人行业内的资深技术人才。「有头部服务机器人的研发总监帮我们做底盘,也有一些头部的人形机器人公司顶尖人才在负责我们的硬件」。2024年7月,上海交大著名机器人专家王贺升教授,宣布正式加入UniX AI担任首席科学家。
在UniX AI释放出的首支技术展示视频中,名为Wanda的轮式人形机器人能够完成抓起豆腐、协助分类衣物、将衣物拿到洗衣机清洗等任务。当下具身智能公司难以解决的「柔性任务」问题,UniX AI似乎已经找到解决方案。
「我不觉得年轻有什么不好,从技术层面来讲,当下很多新技术、新产品,很多是由拥有深厚学术背景的年轻人创造的」,令我们有些意外的是,作为00后,杨丰瑜本人在谈吐中表现出超越年龄的成熟,对于公司管理和具身智能的技术阶段拥有非常清晰的认知。
我们对UniX AI的好奇集中在,一个在创投圈几乎没有任何消息的具身智能公司,为何能做到如此快的发展速度;作为极少的由00后操刀建立的具身智能公司,UniX AI如何实现从0到1的发展?UniX AI的具身智能终局路线图又是什么样的?
带着这些问题,机器之心与杨丰瑜展开了他创业以来的第一次公开媒体对话。
耶鲁00后
投身具身智能创业
机器之心:你现在已经毕业了吗?
杨丰瑜:我是本科直博到的耶鲁,博士毕业的论文要求我基本都达到了,就拿今年来说吧,我中了4篇CVPR,加上其他,总共有十多篇人工智能和机器人的顶会文章。
机器之心:你的精力很旺盛。
杨丰瑜:(笑),经常熬夜到凌晨三点半,前段时间还去打吊针。主要是因为团队在一起,经常不看手表,一抬头就已经很晚了。
机器之心:是什么时候开始想到要创业的?
杨丰瑜:我一直认为创业是“天时地利人和”。
去年我们看到感知层面在技术上有很大进步,包括视觉、语言模型和触觉等多模态的一些大模型或基座模型都有了很大的发展,这让我们看到了实现目标的可能性。另外国家也有一系列的支持政策推出,为创业提供了一个良好环境。这是“天时”。
“地利”:毋庸置疑,通用人形机器人是继新能源汽车之后的下一个发展方向,中国在供应链方面有着无可比拟的优势,而且长三角这边的高科技人才也非常多。
一开始,我们做了一些调研,去弄清楚目前机器人行业的工程化水平进展到哪个阶段、市场需求在哪里、上一代机器人解决了哪些问题以及它未来的机会在哪里?
能够成事,关键还是找到对的人。今年,我们正式组建团队,快速集结了很多方面的专家,有头部扫地机器人的研发总监,也有一些头部人形机器人公司顶尖人才,负责我们的硬件。在算法层面,我在美国以及欧洲招募了一批人才,包括我的一些同学、师兄,这是“人和”。
作为创始人和CEO,最重要的是集合资源。UniX AI是一个全球化的公司,把全世界不同国家在机器人软件、硬件、供应链的优势结合起来;同时我们有国际化的规划,通过一年、三年、五年计划的不断努力,实现Robots For All的公司愿景。
机器之心:简单介绍一下你的学术经历吧
杨丰瑜:小学到高中是在国内,本科去密歇根大学读了计算机专业。一开始接触的是视觉和机器学习,后来在导师「多模态学习」的影响下,开始进行视触觉的研究。
本科期间发表了5篇机器人视触觉论文,其中“Touch and Go: Learning from Human-Collected Vision and Touch”是世界上现今最大的视触觉传感数据集,被人工智能和机器学习领域的顶级会议NuerIPS接收。
在另外一个工作里,我们第一次引入diffusion model完成了对视觉和触觉之间的相互转化,成果被ICCV接收。
对于机器人来说,触觉很重要。一件衣服,是涤纶、棉纺还是丝,靠肉眼不太能够观察得出,只有真正摸上去,才能分辨不一样的质地。另外在一些精细活动上,比如将充电线插入充电口,也需要通过触觉不断调整,单靠视觉无法完成。
机器之心:然后你就来到了耶鲁。
杨丰瑜:因为在机器人视触觉方面的一些工作,特别是视触觉的转化和在大语言模型中的泛化运用,我获得了北美计算机协会杰出本科科学家称号,是学校有史以来第一人。最终选择耶鲁大学进行博士深造。
在这期间,我陆续发表了一些论文,其中《Binding touch to everything: Learning unified multimodal tactile representations》(CVPR, 2024, pp.26340-26353),在这篇论文中,我提出了世界首个适用于多款不同触觉传感器的触觉大模型 UniTouch,适用于与视觉、语言和声音等多种模态相连的基于视觉的触觉传感器。
另外一篇论文《Tactile-Augmented Radiance Fields》(CVPR, 2024, pp.26529-26539),则建立了世界上第一个可以在场景级泛化的3D视触觉模型TARF,UniX AI人形机器人的泛化能力也是基于该模型。
机器之心:你觉得00后的身份对你来讲是更有利还是更有弊?
杨丰瑜:创业公司,创始人是灵魂。很多人会觉得我很年轻,但我觉得00后的身份不是问题。
从技术层面讲,在迎接这一轮的科技变革和赛道创新的浪潮中,年轻人具有非常强的推动作用。很多新技术、新产品是由当下的年轻人创造的,特别是高科技行业,准入门槛相对较高。Sora核心团队的成员之一也是我同学,他在密歇根大学时就展现出了很强的技术能力。
从认知和经验层面讲,我觉得快速学习、快速纠错也是一种路径。另外是个性,要肯坚持有韧性,想尽一切办法,有“逢山开路,遇水搭桥”的精神,毕竟创业最后都是拿结果说话。
当然,UniX AI团队中也有很多有经验的专家,他们在结构、电子等方面有丰富的从业经验,我们之间有效配合,才能在短时间内推出我们的产品。
视触觉+操作
提升机器人可泛化能力
机器之心:触觉的提升为什么对机器人是重要的?
杨丰瑜:人是一个多感官动物,你的行动决策通常是多个感官共同传递过来的信息综合影响,智能机器人理论上也是这样。
触觉是最重要的感官信息之一,跟视觉反馈相比,它产生在机器人与环境交互之后,而视觉反馈是在之前。当机器人抓取一个物体时,物体发生了形变,本质上,这个交互动作发生后,机器人获得的增量信息都来自于触觉——它摸起来是怎样的。
拥有触觉信息能够让机器人在一些更复杂更细腻的任务上表现得更好,大大提高抓取任务的成功率,尤其是在柔性物体的抓取中,触觉的作用更加明显,可以说是从基本不可能完成任务到能够完成任务的质的提升。
比如,我们的轮式人形机器人Wanda已经实现捏鸡蛋、抓豆腐、洗衣服等任务,纯靠视觉去做,机器人得不到反馈,是很难执行下来的。
为什么现在机器人主要依靠视觉做判断,是因为视觉方面的数据相较于其他,是最直接、容易获取且被训练起来的,有大量数据可以用。但是在机器人往具身方向更进一步去走的时候,仅仅依靠视觉是肯定不够的。
作为一种依赖交互产生的感官信息,能够将触觉信息合理运用的意义还在于,机器人能够逐步在与世界的真实交互中不断学习,变得更加可用和泛化。
机器之心:为什么加入触觉后,机器人对柔性物体的控制水平会提升,原理是什么?
杨丰瑜:原理主要在于柔性物体与刚性物体在抓取和操作时有很大的不同。刚性物体在触碰前后,其物理形状基本不会改变,因此通过视觉观察,在抓取时相对容易判断。然而,柔性物体在抓取之前或操作之前,通过观察很难确定与它接触后会发生什么情况,因为在抓取过程中会出现大量的遮挡和形变,而这些形变通过视觉是很难准确预测的。
例如,当拿一张纸巾时,一旦将纸巾握到手里面,就会完全遮挡住视线,此时视觉几乎无法提供有效的信息来判断如何抓取或操作。在这种情况下,就只能依靠触觉等物理信息来完成感知。
机器之心:为什么好像很多时候我也不需要去尝试抓一下物体,我就知道怎么抓。
杨丰瑜:那是因为你作为一个人类来说,已经融合得很好了,以至于你不知道你用了触觉信息在这里面。你已经积累了二十多年的触觉数据,所以你不知道是哪一种感官支持你让你去完成了这个任务。
机器之心:对大部分机器人任务来说,不同感官的贡献比会有什么区别?现阶段,触觉的优先级有多高?
杨丰瑜:对于大部分机器人的任务来说,不同感官在感知、推理决策和行动这三个步骤中的贡献比例有所不同。
在感知层面上,初期主要依靠视觉和点云来获取全局信息,比如知道整个家的布局、水在哪里等。目前,通过视觉大模型和3D大模型来感知全局信息的问题已基本解决。
在决策层面上,主要依靠语言引入人类的先验知识。例如,机器人接到从冰箱拿水的指令后,能进行任务拆解,知道第一步打开冰箱,第二步拿水,第三步关冰箱,这些先验知识来自大量的互联网数据。
在行动层面上,视觉可以帮助机器人确定抓取的位置,但在确定抓取力度等方面,触觉信息起着重要作用。比如在有遮挡的情况下,像拿豆腐时,视觉难以准确判断抓取方式,而触觉能提供关键信息,帮助机器人完成精确抓取。
此外,触觉在一些精细力控的场景,如捏鸡蛋、抓豆腐等,以及在一些需要判断物体形变和力的反馈的场景中,发挥着重要作用。
总的来说,不同感官的贡献比因任务而异,在一些刚性物体的抓取中,视觉可能占比较高;而在很多柔性物体的抓取中,触觉的作用更为关键,甚至可以说是从基本无法完成任务到能够完成任务的质的提升。
机器之心:触觉这块有足够高的壁垒吗?落地到机器人产品里有什么难点?
杨丰瑜:我认为相对来说是比较高的,在2023年之前,触觉一直是一个非常小众的模态,与视觉和听觉相比,从事触觉相关工作的人非常少。
在开展触觉相关工作的初期,传感器是最大的难题。当时,全世界从事数据相关工作的人并不多,如何制作传感器是一个关键问题。
其次,是如何解析触觉信息的问题,这涉及到算法和数据两个层面。数据层面,此前世界上绝大多数触觉传感的具体数据并不公开,这可能是由于许多机器人结合的特殊性或其他原因导致,使得机器人领域的数据公开程度不如视觉领域。因此,我们不断解决数据集的问题,致力于推动全世界触觉传感数据集的不断公开。
在算法层面,触觉与视觉存在差异,其中包含许多物理的先验知识。例如,通过传感器上的marker可以判断受力情况,但这些信息不像视觉信息那样易于解释和识别。
当时还进行过一个实验,结果表明生成的触觉信号让人分辨起来非常困难。因为如果人没有经过一些特定的训练,很难分辨出每一种东西的触觉传感信号。我们也在积极努力降低这一壁垒,推动学术界更多的人参与其中,以促进整个触觉域的发展与进步。
机器之心:如果说,触觉信息不仅面临现存数据量少的问题,大规模采集成本也很高,那怎么去做到Scale up?
杨丰瑜:我们之前做的工作其实就是尝试解决这个问题,如何在大规模采集难以实现的情况下做到Scale up:
第一步,我们把视觉和触觉打通,通过视觉来预测触觉,甚至在没有触觉采集的场景中,利用视觉和语言等信息来推测触觉信号。
比如,采集了同类型同材料的桌子的触觉信息后,到新的家庭或办公室场景中,即使没有实际触摸过过新的桌子,也能通过视觉和语言信息推测其触觉信号。这样的话,我们可以做到即使没有真正物理的接触,也能够扩大可用数据集。但是这种方式可能跟真实信号有一些出入,因为这是预测的。
第二,我们不断推动触觉数据集的公开。通过公开数据集,可以让更多人参与到触觉领域的研究和发展中,从而促进整个领域的进步。
第三,在算法层面上,我们努力降低触觉信息识别的门槛。例如,通过在传感器上添加标记(marker),并发现标记在受到不同力时的变化规律,从而利用这些物理的先验知识来更好地解析触觉信息。
第四,致力于将不同的信息,如视觉、触觉、语言等多模态信息结合在一起,以完成各种任务。通过多模态信息的融合,可以在一定程度上弥补触觉数据量少的不足,提高模型的泛化能力和适应性。
机器之心:大规模采集是否可以实现,需要什么条件?
杨丰瑜:我认为这其实是整个具身智能发展的瓶颈,我个人认为可以实现大规模采集,但这里有一个商业化的过程。
当机器人走进千家万户,有一定量的时候,你就能收集到足够多的数据,支持更多的场景来做一些泛化。当然你不可能永远采到每一个点,所以「大规模」这个命题会一直存在。那机器学习的本质就是通过稀疏的采样,实现稠密分布的一个模拟拟合和预测。
在数据这方面,我们并不排斥模拟,但我觉得一定量的真机数据是实现具身智能的必要条件。
机器之心:触觉大模型有哪些关键的技术指标?
杨丰瑜:触觉大模型跟任何大模型一样,在不同的下游任务里面都有一些指标。我带领团队构建的世界上现存最大的视触觉数据集Touch and go,是全世界机器人视触觉预训练模型重要通用基准之一。
具身智能机器人Wanda
九月开始量产
机器之心:决定创业之后,打算做一个怎样的具身智能公司?
杨丰瑜:创业的本质是为社会创造价值。UniX AI是世界上少数几家把C端定为第一战略的具身智能机器人公司。
TO C虽然有很长的一段路要走,但背后的潜力是巨大的。从产业层面讲,人形机器人已经进入硬件+AI的技术融合期,发展飞速,越来越具备实用性。而且我乐观估计,这个融合进程要比原先业内人士预估的要快很多。
人口老龄化,出生率低下,劳动力短缺……这些都是全世界面临的问题。企业的责任是要为社会解决问题,这是UniX AI的机会点和价值点,也是我创业的初心。现在这个赛道大致的落地路径基本上是工业——商业——家庭,我们会覆盖商业和家庭,这也是服务TO C用户的主要场景。
UniX AI的愿景是Robots For All,打造通用的人形机器人,在运动能力与智慧程度方面都做到领先,实现体力劳动和智能陪伴。
机器之心:为什么一开始选择家庭场景去做?
杨丰瑜:事实上我们不只局限于家庭场景,我们也做泛商业的场景,比如办公室等。
To B 场景从技术上来说相对难度低一些,重复率高,对泛化性要求没有那么高。但To B的场景往往是强替代逻辑,这就对机器人的速度、操作准确率要求会非常高。
家庭场景很复杂,千变万化,每个家都是一个小生态,要求机器人具备很强的泛化能力。这当然对我们的产品提出了更高的要求。同时,我们在家庭场景中也会有很多L2级别的功能,更多地提升了产品在复杂场景的适应性和可玩性。
总的来说,我们的技术栈无论是 To B 还是 To C,都能覆盖。做好了家庭场景,我觉得其他场景都能游刃有余。从最难的骨头开始啃,一方面体现了UniX AI的技术实力,一方面也是我们切入市场的战略路径。
机器之心:像类似工厂这样的To B场景也会去做吗?
杨丰瑜:我们对所有场景都不排斥,UniX AI的模块化硬件方案相对来说可以适配很多不同的场景。同时,我们有一套感知和操作解耦的运动基元算法可以最大程度地利用数据,我们对场景的迁移性会非常强。虽然每一款产品都有其边界,我们愿意在各种场景中进行尝试和拓展。我们也在跑通一些重要的商业场景,帮助到消费者。
机器之心:所谓的供应链成本优势是什么?
杨丰瑜:我们团队中有一批经验丰富的供应链管理专家,他们掌握量产级的成本控制方法,并能将其应用到机器人供应链中。虽然机器人行业目前尚未大规模卷价格,但我们从一开始就按照量产级来控制成本,以确保产品能达到消费者可接受的价格。我们有信心通过有效的成本控制,使产品在价格上具有极强竞争力,为公司发展提供有力支持。
机器之心:即将推出的产品价格在什么区间?
杨丰瑜:这个现在我不是很方便披露,但我可以保证,一定是一个很惊喜的价格。
机器之心:你们打算怎么走向终局?
杨丰瑜:我们走向终局的逻辑很简单,需要一定量的高质量真实数据。关键就在于如何获取这些数据,比如拿自动驾驶举例,特斯拉的FSD能够走到终局,是因为花了6到8年时间,不断有车子在路上跑并收集数据。
机器人行业有所不同,大家期望机器人能够自动干点事儿。我们首先开发出若干单点场景的功能,让大家觉得机器人有用或好玩,而且在消费能力承受范围内,这样大家才会愿意购买。
我们的供应链有优势,能把价格降下来,这是很关键的一点。通过用户的不断反馈,我们不断优化迭代产品,最终打造出通用的具身智能机器人。
机器之心:机器人量产的难度和意义在哪里?
杨丰瑜:做DEMO其实很容易,只要在实验室做出来一台,就是成功。量产的难度,在于不是一台,而是一百台、一千台真正进入到用户家中,考验产品的数据安全性、操作稳定性、底层控制可靠性,背后需要强大的售后团队和不断迭代的技术团队。另外工艺也很重要,这也是考验量产能力的重要指标。
它的意义当然毋庸置疑,一方面体现出供应链的竞争力,一方面展现了技术的成熟度。谁是第一个吃螃蟹的人?谁又吃得又快又好?另外,量产可以得到一定的先发优势。
机器之心:决定创业以后,初始团队构建思路和团队组建情况目前大概是怎样的?
杨丰瑜:从0-1,初创团队很重要。我做事习惯先有顶层规划,再慢慢部署到每个层级,像瀑布流一样,从上往下。先找到最核心的关键人,干起来之后,再向下延伸不断完善团队,让整个轮子转起来。
从去年年底到现在,我们的团队发展非常快,已经迭代了三代产品。目前团队规模已经初具规模,但后期我们还会根据需要,不断调整和完善,让公司的竞争力愈来愈强。
获取人才这件事,是创业公司最重要的事情之一,我们公司大部分的人才我都亲自看过面过。很多时候,CEO不仅是首席执行官,更是“首席意义官”,需要跟同行者解释我们做的事情,它的价值和意义在哪里。让他们认同,一起上路,这非常重要。
同时,这个阶段我的管理半径很大,管理的颗粒度也很细,非常辛苦但很有必要。只有当自己全盘掌握,确认公司前进方向正确和稳定之后,才能花更多时间在别的方面。
机器之心:你怎么吸引这些人才?
杨丰瑜:本质上吸引大家的,还是如何走向具身智能终局这个路径,除此之外是怎么做的问题。
我们有几个亮点,第一有非常强的供应链成本优势,其次我们团队的执行力很强,迭代速度非常快,很多候选人可能第一次知道我们时,觉得我们不过尔尔,但几周后再来,发现场景已经跑通了,进展很快。我们也有一些国内顶尖机器人公司的人才,主动要求加入进来。
机器之心:目前的资金来源是?
杨丰瑜:我们会在合适的时候统一披露。
机器之心:是否有外部融资计划?
杨丰瑜:目前投资人反馈非常踊跃,欢迎和我们有共同通用具身智能愿景的投资人,和我们长期走下去。
机器之心:再详细介绍一下你们即将推出的产品,以及未来的市场计划?
杨丰瑜:我们即将量产的机器人叫Wanda,是一款轮式人形双臂机器人。在我们发布的首支技术视频中,大家可以看到它的一些功能特点,但这不是全部,等到九月份我们面向消费者公开发售的时候,会有更多惊喜细节。
最终,UniX AI希望交付给消费者的产品,是一款通用的具身智能机器人,不仅服务于家庭,更可以陪伴人们去往更多更远的地方,提供更多的功能,这需要我们在技术上不断发展,也需要公司和用户之间的协同共创。不积跬步无以至千里,那我们先从第一步开始。
可解释性终极追问,什么才是第一性解释?20篇CCF-A+ICLR论文给你答案
本文首先简单回顾了『等效交互可解释性理论体系』(20 篇 CCF-A 及 ICLR 论文),并在此基础上,严格推导并预测出神经网络在训练过程中其概念表征及其泛化性的动力学变化,即在某种程度上,我们可以解释在训练过程中神经网络在任意时间点的泛化性及其内在根因。
一、前言
长期以来,我们团队一直在思考可解释性领域的一个终极问题,即什么才是解释性领域的第一性原理?所谓第一性原理,目前没有一个被广泛接受的框架,世上本无路,我们需要逐渐去定义这样一个路。我们需要在一个新的理论体系中,提出大量的公理性要求,得出一个可以从不同的角度全方位精确严谨解释神经网络内在机理的理论。一套理论系统能严谨解释神经网络的方方面面才叫 “第一性原理”。
如果你真的在严谨地做 “科学”,那么第一性原理一定不是想象中简单,而是一个复杂的体系,需要研究照顾到深度学习中方方面面纷繁复杂的现象。当然,如果你主观上不愿意或者不信一个理论需要足够严谨,那么研究会变得简单千万倍。就像物理学的标准模型一定比牛顿定律复杂,取决于你希望走哪条路。
沿着这个方向,我们团队独立从头构建了『等效交互可解释性理论体系』,并基于此理论,从三个角度来解释神经网络的内在机理。
1. 语义解释的理论基础:数学证明神经网络的决策逻辑是否可以被少量符号化逻辑所充分覆盖(充分解释)。『证明神经网络的决策逻辑是否可以被有限符号化逻辑解释清楚』这一命题是解释神经网络的根本命题。如果此命题被证伪,则从根本上讲,神经网络的可解释性将是无望的,所有的解释性算法只能提供近似的解读,而无法精确地覆盖所有的决策逻辑。幸运的是,我们找到了在大部分应用中神经网络都可以满足的面向遮挡鲁棒性的三个常见的条件,并且数学证明了满足这三个条件的神经网络的决策逻辑可以被写成符号化的交互概念。
参见 https://zhuanlan.zhihu.com/p/693747946
2. 寻找性能指标背后的可证明、可验证的根因:将神经网络泛化性和鲁棒性等终极性能指标的根因拆分具体少数细节逻辑。对神经网络性能(鲁棒性、泛化性)的解释是神经网络可解释性领域的另一个重大问题。然而,目前人们普遍认为神经网络性能是对神经网络整体的描述,而神经网络无法像人类一样将自己的分类判断拆解成具象化的、少量的决策逻辑。在这方面,我们给出了不一样的观点 —— 将性能指标与具象化的交互之间建立起数学关系。我们证明了 1. 等效交互的复杂度可以直接决定神经网络的对抗鲁棒性 / 迁移性,2. 交互的复杂度决定了神经网络的表征能力,3. 并解释神经网络的泛化能力 [1],和 4. 解释神经网络的表征瓶颈。
参见1:https://zhuanlan.zhihu.com/p/369883667
参见2:https://zhuanlan.zhihu.com/p/361686461
参见3:https://zhuanlan.zhihu.com/p/704760363
参见4:https://zhuanlan.zhihu.com/p/468569001
3. 统一工程性深度学习算法。由于缺少基础理论的支撑,目前深度学习算法大都是经验性的、工程性的。可解释性领域的第一性原理应该可以承担起将前人的大量工程性经验总结为科学规律的任务。在等效交互可解释性理论体系下,我们团队既证明了 14 种不同的输入重要性归因算法的计算本质在数学上都可以统一写成对交互作用的再分配形式。此外,我们还统一了 12 种提升对抗迁移性的算法,证明了所有提升对抗迁移性算法的一个公共机理是降低对抗扰动之间的交互效用,实现了对神经网络可解释性方向大部分工程性算法的理论凝练。
参见1:https://zhuanlan.zhihu.com/p/610774894
参见2:https://zhuanlan.zhihu.com/p/546433296
在等效交互可解释性理论体系下,我们的团队在之前的研究中已经成功发表了 20 篇 CCF-A 类和机器学习顶级会议 ICLR 论文,我们已经从理论和实验上充分解答了上述问题。
二、本文研究概述
沿着上述理论框架,在这篇知乎文章中,我们希望精确解释出神经网络训练过程中泛化性的变化规律,具体地涉及两篇论文。
1.Junpeng Zhang, Qing Li, Liang Lin, Quanshi Zhang,“Two-Phase Dynamics of Interactions Explains the Starting Point of a DNN Learning Over-Fitted Features”,in arXiv: 2405.10262
2.Qihan Ren, Yang Xu, Junpeng Zhang, Yue Xin, Dongrui Liu, Quanshi Zhang,“Towards the Dynamics of a DNN Learning Symbolic Interactions” in arXiv:2407.19198
图 1:两阶段现象的示意图。在第一阶段,神经网络逐渐消除中高阶交互,学习低阶交互;在第二阶段,神经网络逐渐建模阶数不断增大的交互。当神经网络训练过程中测试损失和训练损失之间的 loss gap 开始增大时,神经网络恰好也进入训练的第二阶段。
我们希望在等效交互框架里提出新的理论,精确预测出神经网络每一个时间点上神经网络所学到的交互概念的数量、复杂度,以及泛化性变化的动力学规律(如图 1 所示)。具体地,我们希望证明出两方面结论。
第一,基于前人的证明(一个神经网络的决策逻辑可以被严格解构表示为几十个交互概念效用的和的形式),进一步严格推导出在整个训练过程中,神经网络所建模的交互效用的变化动力学过程 —— 即理论需精确预测出在不同训练阶段,神经网络所建模的交互概念的分布的变化 —— 推导出哪些交互会在哪个时间点上被学习到。
第二,寻找充分的证据,证明所推导的交互复杂度的变化规律客观反映出神经网络在全训练周期中泛化性变化的规律。
综上两点,我们希望具体彻底解释清楚神经网络的泛化性变化的内在根因。
与前人的关系:当然大家可能第一反应想到神经正切核(NTK)[2],但是神经正切核只是把参数的变化曲线解了出来,而没办法进一步深入到决策逻辑层面进行解释,没有将神经网络建模的概念表征与其泛化性的关系建立起来,对泛化性的分析依然停留在特征空间分析的层面,而没有在【符号化概念逻辑】与【泛化性】之间建立起严格的关系。
三、两大研究背景
误会 1:神经网络的第一性表征是『等效交互』,而不是神经网络的参数和结构。单纯从结构层面分析神经网络是人们对神经网络泛化根本表征的误解。目前大部分神经网络泛化性研究主要着眼于神经网络的结构、特征、以及数据。人们认为不同的神经网络结构就自然对应不同的函数,并自然展现出不同的性能。
但是,事实上,如图 2 所示,结构的区别只是神经网络表征的表面形式。除去有明显缺陷的对性能有明显影响的神经网络,所有其他可以实现 SOTA 性能的具有不同结构的神经网络往往都建模了相似的等效交互表征,即不同结构的高性能神经网络在等效交互表征上往往都是殊途同归的 [3, 4]。虽然神经网络其中层特征内部是复杂的混乱的,虽然不同神经网络所建模的特征向量大相径庭,虽然神经网络中单个神经元往往建模了相对比较混乱的语义(不是严格清晰的语义),但是神经网络作为一个整体,我们从理论上证明神经网络的所建模的交互关系是稀疏的符号化的(而不是特征的稀疏性,具体见 “四、交互的定义” 章节),而且面向相同任务的完全不同的神经网络往往建模了相似的交互关系。
图 2:不同结构的神经网络所建模的等效交互往往是殊途同归的。对于一个相同的输入句子,面向两个相同任务的两个完全不同的神经网络建模往往相似的交互。
由于不同神经网络的参数和训练样本不一样,两个神经网络中没有任何一个神经元在表征上具有严格的一一对应关系,且每一个神经元往往建模着不同语义的混合模式。相比之下,正如上段分析,神经网络所建模的交互表征实际上是不同神经网络表征中的不变量。因此,我们有理由认为神经网络根本表征是等效交互,而不是其载体(参数和训练样本),符号化交互表征可能代表了知识表征的第一性原理(被交互的稀疏性定理、无限拟合性定理、以及殊途同归现象所保证,见 “四、交互的定义” 章节,具体详细研究见下面知乎文章。
参见:https://zhuanlan.zhihu.com/p/633531725
误会 2:神经网络的泛化性问题是一个混合模型问题,而不是一个高维空间的向量。如图 3 所示,传统的泛化性分析总是假设单个样本整体是高维空间的一个点,实际上神经网络对单个样本的表征是 mixture model 的形式 —— 实际上通过大量不同的交互来表达。我们发现简单交互的泛化能力比复杂交互的泛化能力更强,所以不再适合用一个简单标量来笼统表示整个神经网络在不同样本上的泛化能力。相反,同一个神经网络在不同的样本上建模了不同复杂度的交互关系,而不同复杂度的交互往往对应着不同泛化能力。通常情况下,神经网络建模的高阶(复杂)的交互往往难以泛化到测试样本上(测试样本上不会触发相同的交互),代表过拟合表征,而神经网络建模的低阶(简单)交互往往代表泛化性较强的表征,具体详细研究见 [1]。
图 3:(a)传统的泛化性分析总是假设单个样本整体是高维空间的一个点。(b)实际上神经网络对单个样本的表征是 mixture model 的形式,神经网络在单个样本会建模简单交互(可泛化的交互)和复杂交互(不可泛化的交互)。
四、交互的定义
让我们考虑一个深度神经网络和一个输入样本,它包含个输入变量,我们用集合表示这些输入变量的全集。令表示 DNN 在样本上的一个标量输出。对于一个面向分类任务的神经网络,我们可以从不同角度来定义其标量输出。例如,对于多类别分类问题,可以定义为,也可以定义为 softmax 层之前该样本真实标签所对应的标量输出。这里,表示真实标签的分类概率。这样,针对每个子集,我们可以用下面公式来定义中所有输入变量之间 “等效与交互” 和 “等效或交互”。
如图 4(a)所示,我们可以这样理解上述与或交互:我们可以认为与等效交互表示神经网络所编码的内输入变量之间的 “与关系”。例如,给定一个输入句子,神经网络可能会在之间建模一个交互,使得产生一个推动神经网络输出 “倾盆大雨” 的数值效用。如果中的任何输入变量被遮挡,则该数值效用将从神经网络的输出中移除。类似地,等效或交互表示神经网络所建模的内输入变量之间的 “或关系”。例如,给定一个输入句子,只要中的任意一个词出现,就会推动神经网络的输出负面情感分类。
神经网络所建模的等效交互满足 “理想概念” 的三条公理性准则,即无限拟合性、稀疏性、样本间迁移性。
无限拟合性:如图 4,5 所示,对于任意遮挡样本,神经网络在样本上的输出可以用不同交互概念的效用之和来拟合。即,我们可以构造出一个基于交互的 logical model,无论我们如何遮挡输入样本,这个 logical model 依然可精确拟合模型在此输入样本在任意遮挡状态下的输出值。
稀疏性:面向分类任务的神经网络往往只建模少量的显著交互概念,而大部分交互概念都是数值效用都接近于 0 的噪声。
样本间迁移性:交互在不同样本间是可迁移的,即神经网络在(同一类别的)不同样本上建模的显著交互概念往往有很大的重合。
图 4:神经网络的复杂的推理逻辑可以被基于少量交互的逻辑模型准确拟合。每个交互都是衡量神经网络建模特定输入变量集合之间非线性关系的度量指标。当且仅当集合中变量同时出现时才会触发与交互,并为输出贡献数值分数,集合中任意变量出现时会触发或交互。
图 5:神经网络在任意的遮挡样本上的输出可以用不同交互概念的效用之和来拟合,即我们可以构造出一个基于交互的 logical model,无论我们如何遮挡输入样本,哪怕穷举个输入单元上种完全不同的遮挡方式,这个 logical model 依然可精确拟合模型在此输入样本在任意遮挡状态下的输出值。
五、新的发现与证明
5.1 发现神经网络在训练过程中交互变化的两阶段现象
在这篇知乎文章中,我们关注神经网络解释性领域的一个根本问题,即如何从一个解析分析的角度去严格预测出神经网络在训练过程中泛化能力的变化情况,并且精确的分析神经网络从欠拟合到过拟合的整个动态变化过程及其背后的根本原因。
首先,我们将交互的阶数(复杂度)定义为交互中的输入变量的数量,。我们团队之前的工作发现神经网络在某个特定样本所建模的 “与或交互” 的复杂度直接决定了神经网络在这个样本的泛化能力 [1],即神经网络建模的高阶的(大量输入单元之间的)“与或交互” 往往有较差的泛化能力,而低阶的(少量输入单元之间的)“与或交互” 具有较强的泛化能力。
因此,本篇研究的第一步是去预测出神经网络在训练过程中不同时间点所建模的不同阶 “与或交互” 的复杂度的一个解析解,即我们可以通过神经网络在不同时间点所建模的不同阶 “与或交互” 的分布去解释神经网络在不同阶段的泛化能力。交互的泛化能力的定义与神经网络整体泛化能力的定义请见 “5.2 神经网络所建模交互的阶数和其泛化能力的关系” 章节。
我们提出两个指标来表示不同阶(复杂度)的交互的强度的分布。具体来说,我们用来衡量所有阶正显著交互的强度,用来衡量所有阶负显著交互的强度,其中和表示显著交互的集合,表示显著交互的阈值。
图 6:从训练不同轮次的神经网络中提取的不同阶交互强度和。在不同数据集上、不同任务上训练的不同的神经网络的训练过程都存在两阶段现象。前两个选定时间点属于第一阶段,而后两个时间点属于第二阶段。恰恰在进入神经网络训练过程的第二阶段不久,神经网络的测试损失和训练损失之间的 loss gap 开始显著上升(见最后一列)。这表明神经网络训练的两阶段现象与模型 loss gap 的变化在时间上是 “对齐” 的。更多实验结果请参见论文。
如图 6 所示,神经网络的两阶段现象具体表现为:
在神经训练训练之前,初始化的神经网络主要编码中阶交互,很少编码高阶和低阶交互,并且不同阶交互的分布看起来呈现 “纺锤形”。假设具有随机初始化参数的神经网络建模的是纯噪声,我们在 “5.4 理论证明两阶段现象” 章节证明了具有随机初始化参数的神经网络建模的不同阶的交互的分布呈现 “纺锤形”,即仅建模少量的低阶和高阶交互,大量建模中阶交互。
在神经网络训练的第一阶段,神经网络编码的高阶和中阶交互的强度逐渐减弱,而低阶交互的强度逐渐增强。最终,高阶和中阶交互逐渐被消除,神经网络只编码低阶交互。
在神经网络训练的第二阶段,神经网络在训练过程中编码的交互阶数(复杂度)逐渐增加。在逐渐学习更高复杂度的交互的过程中,神经网络过拟合的风险也在逐渐提高。
上述的两阶段现象广泛存在于不同结构的神经网络训练于不同任务上的不同数据集的训练过程中。我们在图像数据集(CIFAR-10 数据集、MNIST 数据集、CUB200-2011 数据集(使用从图片中裁剪出来的鸟类图像)和 Tiny-ImageNet 数据集)上训练了 VGG-11/13/16 和 AlexNet。我们在 SST-2 数据集上训练了用于情感语义分类 Bert-Medium/Tiny 模型,我们在 ShapeNet 数据集中训练 DGCNN 来分类的 3D 点云数据。上图显示了不同的神经网络在不同训练时期提取的不同阶的显著交互的分布。我们在这些神经网络的训练过程中都发现了两阶段现象,更多实验结果及细节请参考论文。
5.2 神经网络所建模交互的阶数和其泛化能力的关系
我们团队之前的工作已经发现了神经网络所建模交互的阶数和其泛化能力的关系,即高阶交互比低阶交互具有更差的泛化能力 [1]。某个具体交互的泛化性有清晰的定义 —— 如果一个交互同时在训练样本和测试样本中频繁的被神经网络所建模,则这个交互具有较好的泛化能力。在本篇知乎文章中,介绍了两个实验来证明高阶交互具有较差的泛化能力,低阶交互具有较强的泛化能力。
实验一:观察在不同数据集上训练的不同神经网络所建模的交互的泛化性。这里我们用被测试集所触发的交互的分布和被训练集所触发的交互的分布的 Jaccard 相似性来度量交互的泛化性。具体来说,给定一个包含个输入变量的输入样本,我们将从输入样本提取到的阶交互向量化,其中表示个阶交互。然后,我们计算分类任务中所有类别为的样本中提取到的阶的平均交互向量,表示为,其中表示类别为的样本的集合。接下来,我们计算从训练样本中提取的阶的平均交互向量与从测试样本中提取的阶的平均交互向量之间的 Jaccard 相似性,以衡量分类任务中类别为的样本的阶交互的泛化能力,即:
其中,和将两个维交互向量投影到两个维的非负向量上,以便计算 Jaccard 相似性。对于某一阶的交互,如果此阶交互普遍展现出较大的 Jaccard 相似性,则表示这一阶交互具有较强的泛化能力。
我们进行了实验计算不同阶交互。我们测试了在 MNIST 数据集上训练的 LeNet、在 CIFAR-10 数据集上训练的 VGG-11、在 CUB200-2011 数据集上训练的 VGG-13,以及在 Tiny-ImageNet 数据集上训练的 AlexNet。为了减少计算成本,我们仅计算了前 10 个类别的 Jaccard 相似性的平均值。如图 7 所示,随着交互阶数的增加,交互的 Jaccard 相似性不断下降。因此,这验证了高阶交互比低阶交互具有更差的泛化能力。
图 7:从训练样本和测试样本中提取的交互之间的 Jaccard 相似性。低阶交互具有相对较高 Jaccard 相似性表明低阶交互具有较强的泛化能力。
实验二:比较神经网络在正常样本和 OOD 样本建模的交互的分布。我们比较了从正常样本中提取的交互与从分布外 (OOD) 样本中提取的交互,以检查神经网络在 OOD 样本上是否建模更多的高阶交互。我们将少量训练样本的分类标签设置为错误标签。这样,数据集中的原始样本可以视为正常样本,而一些带有错误标签的样本则对应于 OOD 样本,这些 OOD 样本可能会导致神经网络的过拟合。我们在 MNIST 数据集和 CIFAR-10 数据集上分别训练了 VGG-11 和 VGG-13。图 8 比较了从正常样本中提取的交互的分布和从 OOD 样本中提取的交互的分布。我们发现,VGG-11 和 VGG-13 在分类 OOD 样本时建模了更多复杂的交互(高阶交互),而在分类正常样本时则使用了较低阶的交互。这验证了高阶交互的泛化能力通常弱于低阶交互。
图 8:比较从正常样本中提取的交互与从分布外 (OOD) 样本中提取的交互。神经网络通常在 OOD 样本上建模的更高阶的交互。
5.3 两阶段现象和神经网络训练过程 loss gap 的变化相对齐
我们发现上述两阶段现象可以充分表示神经网络泛化性动力学。一个很有趣的现象是神经网络训练过程中的两阶段现象和神经网络在测试集和训练集的 loss gap 的变化在时间上是对齐的。训练损失和测试损失之间的 loss gap 是衡量模型过拟合程度的最广泛使用的指标。图 6 显示了不同的神经网络在训练工程的测试损失和训练损失之间的 loss gap 的曲线,还显示了从不同训练时期的神经网络中提取的交互分布。我们发现当神经网络训练过程中测试损失和训练损失之间的 loss gap 开始增大时,神经网络恰好也进入训练的第二阶段。这表明神经网络训练的两阶段现象与模型 loss gap 的变化在时间上是 “对齐” 的。
我们可以这样理解上述现象:在训练过程开始前,初始化的神经网络所建模的交互全部表示随机噪声,并且不同阶交互的分布看起来像 “纺锤形”。在神经网络训练的第一阶段,神经网络逐渐消除中阶和高阶的交互,并学习最简单的(最低阶的)交互。然后,在神经网络训练的第二阶段,神经网络建模了阶数逐渐增大的交互。由于我们在 “5.2 神经网络所建模交互的阶数和其泛化能力的关系” 章节中的两个实验验证了高阶交互通常比低阶交互具有更差的泛化能力,因此我们可以认为在神经网络训练的第二阶段,DNN 首先学习了泛化能力最强的交互,然后逐渐转向更复杂但泛化能力较弱的交互。最终一些神经网络逐渐过拟合,并编码了大量中阶和高阶交互。
5.4 理论证明两阶段现象
理论证明神经网络训练过程的两阶段现象共分为三个部分,第一部分我们需要证明随机初始化的神经网络在训练过程开始之前建模的交互的分布呈现 “纺锤形”,即很少建模高阶和低阶交互,主要建模中阶交互。第二部分证明神经网络在训练的第二阶段在建模阶数逐渐增大的交互。第三部分证明神经网络在训练的第一阶段逐渐消除中阶和高阶交互,学习最低价的交互。
1. 证明初始化神经网络建模的 “纺锤形” 交互分布。
由于随机初始化的随机网络在训练过程开始之前建模的都是噪声,所以我们假设随机初始化的神经网络建模的交互的服从均值为,方差为的正态分布。在上述假设下,我们能够证明初始化的神经网络建模的交互的强度和的分布呈现 “纺锤形”,即很少建模高阶和低阶交互,主要建模中阶交互。
2. 证明神经网络训练的第二阶段的交互变化动态过程。
在进入正式的证明之前,我们需要做以下的预备工作。首先,我们参照 [5, 6] 的做法,将神经网络在特定样本上的 inference 改写为不同交互触发函数的加权和:
其中,为标量权重,满足。而函数为交互触发函数,在任意一个遮挡样本上都满足。函数的具体形式可以由泰勒展开推导得到,可参考论文,这里不做赘述。
根据上述改写形式,神经网络在特定样本上的学习可近似看成是对交互触发函数的权重的学习。进一步地,实验室的前期工作 [3] 发现在同一任务上充分训练的不同的神经网络往往会建模相似的交互,所以我们可以将神经网络的学习看成是对一系列潜在的 ground truth 交互的拟合。由此,神经网络在训练到收敛时建模的交互可以看成是最小化下面的目标函数时得到的解:
其中表示神经网络需要拟合的一系列潜在的 ground truth 交互。和则分别表示将所有权重拼起来得到的向量和将所有交互触发函数的值拼起来得到的向量。
可惜的是,上述建模虽然能得到神经网络训练到收敛时的交互,但是无法很好地刻画神经网络训练过程中学习交互的动态过程。这里引入我们的核心假设:我们假设初始化神经网络的参数上包含了大量噪声,而这些噪声的量级在训练过程中逐步变小。而进一步地,参数上的噪声会导致交互触发函数上的噪声,且该噪声随着交互阶数指数级增长 (在 [5] 中已有实验上的观察和验证) 。我们将有噪声下的神经网络的学习建模如下:
其中噪声满足。且随着训练进行,噪声的方差逐渐变小。
在给定的噪声量级的情况下最小化上述损失函数,可得到最优交互权重的解析解,如下图中的定理所示。
我们发现,随着训练进行(即噪声量级变小),中低阶交互强度和高阶交互强度的比值逐渐减小(如下面的定理所示)。这解释了训练的第二阶段中神经网络逐渐学到更加高阶的交互的现象。
另外,我们对上述结论进一步做了实验验证。给定一个具有 n 个输入单元的样本,指标,其中, 可以用来近似测量第 k 阶交互和第 k+1 阶交互强度的比值。在下图中,我们可以发现,在不同的输入单元个数 n 和不同的阶数 k 下,该比值都会随着的减小而逐渐减小。
图 9:在不同的输入单元个数 n 和不同的阶数 k 下,第 k 阶交互和第 k+1 阶交互强度的比值都会随着噪声量级的减小而逐渐减小。这说明随着训练进行(即逐渐变小),低阶交互强度与高阶交互强度的比值逐渐变小,神经网络逐渐学到更加高阶的交互。
最后,我们对比了在不同噪声量级下的理论交互值在各个阶数上的分布和实际训练过程中各阶交互的分布,发现理论交互分布可以很好地预测实际训练中各时间点的交互强度分布。
图 10:比较理论交互分布(蓝色直方图)和实际交互分布(橙色直方图)。在训练第二阶段的不同时间点,理论交互分布都可以很好地预测和匹配实际交互的分布。更多结果请参见论文。
3. 证明神经网络训练的第一阶段的交互变化动态过程。
如果说训练的第二阶段中交互的动态变化可以解释为权重的最优解在噪声逐渐减小时的变化,那么第一阶段就可认为是交互从初始化的随机交互逐渐收敛到最优解的过程。
路漫漫其修远兮,我们团队是做神经网络可解释性的第一性原理,我们希望在更多的方面把这个理论做扎实,能够严格证明等效交互是符号化的解释,并且能够解释神经网络的泛化性、鲁棒性,同时证明神经网络表征瓶颈,统一 12 种提升神经网络对抗迁移性的方法和解释 14 种重要性估计方法。我们后面会做出更扎实的工作,进一步完善理论体系。
[1] Huilin Zhou, Hao Zhang, Huiqi Deng, Dongrui Liu, Wen Shen, Shih-Han Chan, and Quanshi Zhang. Explaining generalization power of a dnn using interactive concepts. AAAI, 2024
[2] Arthur Jacot, Franck Gabriel, Clement Hongler. Neural tangent kernel: Convergence and generalization in neural networks. NeurIPS, 2018
[3] Mingjie Li, and Quanshi Zhang. Does a Neural Network Really Encode Symbolic Concept? ICML, 2023
[4] Wen Shen, Lei Cheng, Yuxiao Yang, Mingjie Li, and Quanshi Zhang. Can the Inference Logic of Large Language Models be Disentangled into Symbolic Concepts?
[5] Qihan Ren, Huiqi Deng, Yunuo Chen, Siyu Lou, and Quanshi Zhang. Bayesian Neural Networks Tend to Ignore Complex and Sensitive Concepts. ICML, 2023
[6] Dongrui Liu, Huiqi Deng, Xu Cheng, Qihan Ren, Kangrui Wang, and Quanshi Zhang. Towards the Difficulty for a Deep Neural Network to Learn Concepts of Different Complexities. NeurIPS, 2023
等效交互理论体系
[1] Huiqi Deng, Na Zou, Mengnan Du, Weifu Chen, Guocan Feng, Ziwei Yang, Zheyang Li, and Quanshi Zhang. Unifying Fourteen Post-Hoc Attribution Methods With Taylor Interactions. IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE T-PAMI), 2024.
[2] Xu Cheng, Lei Cheng, Zhaoran Peng, Yang Xu, Tian Han, and Quanshi Zhang. Layerwise Change of Knowledge in Neural Networks. ICML, 2024.
[3] Qihan Ren, Jiayang Gao, Wen Shen, and Quanshi Zhang. Where We Have Arrived in Proving the Emergence of Sparse Interaction Primitives in AI Models. ICLR, 2024.
[4] Lu Chen, Siyu Lou, Benhao Huang, and Quanshi Zhang. Defining and Extracting Generalizable Interaction Primitives from DNNs. ICLR, 2024.
[5] Huilin Zhou, Hao Zhang, Huiqi Deng, Dongrui Liu, Wen Shen, Shih-Han Chan, and Quanshi Zhang. Explaining Generalization Power of a DNN Using Interactive Concepts. AAAI, 2024.
[6] Dongrui Liu, Huiqi Deng, Xu Cheng, Qihan Ren, Kangrui Wang, and Quanshi Zhang. Towards the Difficulty for a Deep Neural Network to Learn Concepts of Different Complexities. NeurIPS, 2023.
[7] Quanshi Zhang, Jie Ren, Ge Huang, Ruiming Cao, Ying Nian Wu, and Song-Chun Zhu. Mining Interpretable AOG Representations from Convolutional Networks via Active Question Answering. IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE T-PAMI), 2020.
[8] Xin Wang, Jie Ren, Shuyun Lin, Xiangming Zhu, Yisen Wang, and Quanshi Zhang. A Unified Approach to Interpreting and Boosting Adversarial Transferability. ICLR, 2021.
[9] Hao Zhang, Sen Li, Yinchao Ma, Mingjie Li, Yichen Xie, and Quanshi Zhang. Interpreting and Boosting Dropout from a Game-Theoretic View. ICLR, 2021.
[10] Mingjie Li, and Quanshi Zhang. Does a Neural Network Really Encode Symbolic Concept? ICML, 2023.
[11] Lu Chen, Siyu Lou, Keyan Zhang, Jin Huang, and Quanshi Zhang. HarsanyiNet: Computing Accurate Shapley Values in a Single Forward Propagation. ICML, 2023.
[12] Qihan Ren, Huiqi Deng, Yunuo Chen, Siyu Lou, and Quanshi Zhang. Bayesian Neural Networks Avoid Encoding Perturbation-Sensitive and Complex Concepts. ICML, 2023.
[13] Jie Ren, Mingjie Li, Qirui Chen, Huiqi Deng, and Quanshi Zhang. Defining and Quantifying the Emergence of Sparse Concepts in DNNs. CVPR, 2023.
[14] Jie Ren, Mingjie Li, Meng Zhou, Shih-Han Chan, and Quanshi Zhang. Towards Theoretical Analysis of Transformation Complexity of ReLU DNNs. ICML, 2022.
[15] Jie Ren, Die Zhang, Yisen Wang, Lu Chen, Zhanpeng Zhou, Yiting Chen, Xu Cheng, Xin Wang, Meng Zhou, Jie Shi, and Quanshi Zhang. A Unified Game-Theoretic Interpretation of Adversarial Robustness. NeurIPS, 2021.
[16] Wen Shen, Qihan Ren, Dongrui Liu, and Quanshi Zhang. Interpreting Representation Quality of DNNs for 3D Point Cloud Processing. NeurIPS, 2021.
[17] Xin Wang, Shuyun Lin, Hao Zhang, Yufei Zhu, and Quanshi Zhang. Interpreting Attributions and Interactions of Adversarial Attacks. ICCV, 2021.
[18] Wen Shen, Zhihua Wei, Shikun Huang, Binbin Zhang, Panyue Chen, Ping Zhao, and Quanshi Zhang. Verifiability and Predictability: Interpreting Utilities of Network Architectures for 3D Point Cloud Processing. CVPR, 2021.
[19] Hao Zhang, Yichen Xie, Longjie Zheng, Die Zhang, and Quanshi Zhang. Interpreting Multivariate Shapley Interactions in DNNs. AAAI, 2021.
[20] Die Zhang, Huilin Zhou, Hao Zhang, Xiaoyi Bao, Da Huo, Ruizhao Chen, Xu Cheng, Mengyue Wu, and Quanshi Zhang. Building Interpretable Interaction Trees for Deep NLP Models. AAAI, 2021.
太原理工2024软件工程招60个班,近2000人,冲上热搜
这一届软件工程专业的学生占了 1/4,同班同学都是老乡。
都知道计算机专业火热,没想到竟然这么火。
刚刚,「2024 太原理工大学(211)软件工程招 60 个班,接近 2k 人」的这条消息登上知乎热榜,讨论量居高不下。
「60 个班,近 2000 人」,看到这个招生数量,各路网友们也是非常惊讶,一个专业招收这么多学生,这也太夸张了吧,别的不说,有这么多老师吗,难道学生都要上 120 人的大课?
等到写毕业论文找老师辅导,还得排号?毕竟一个老师平均要辅导超过 100 位本科生,就算是开线上讨论会,也得考虑一下腾讯会议室装这么多人会不会卡成 PPT。
更有网友用「离了个大谱」来形容。
太原理工大学(Taiyuan University of Technology)位于山西省太原市,是国家「世界一流学科建设高校」,国家「211 工程」重点建设高校。
据悉,该校 2024 年本科招生计划 8880,覆盖全国 31 个省市自治区(包括港澳台地区),其中山西省内计划占比 56%。
太原理工大学软件学院成立于 2010 年,2004 年经教育部批准设立软件工程本科专业。学院目前拥有完整的本科和硕士培养体系,设有软件工程本科专业,拥有软件工程一级学科硕士学位授予权,2021 年软件工程专业获批山西省本科一流专业。截止目前,学院教职工人数共 69 人,在校本科生 5439 人,研究生 117 人。师生比达到 1:78,可以说是非常夸张了。
据最新版报考指南介绍,太原理工大学的软件工程专业主要课程包括:面向对象程序设计、数据结构与算法、计算机系统基础、操作系统、数据库概论、软件工程导论、软件设计与体系结构、软件测试技术、软件需求工程、软件项目管理等。
根据官网查询到的准确消息,今年太原理工大学软件工程录取人数实为 1871 人(山西考区,原计划为 1795 人),最高分是 578 分,最低 534 分,平均 546 分。
当我们输入其他考区时,显示太原理工大学并未在其他地方招收学生。
作为对比,去年录取人数为 1541,今年比去年多了 300 多人。
除了招生人数,高昂的学费也是大家讨论的另一个焦点。据了解,该专业每年学费为 1.6 万,是其他专业的三倍之多。
随着这条消息的持续传播,大家讨论的也异常热烈,总结起来主要有以下几个观点。
观点 1 计算机行业已饱和,管杀不管埋?毕业即失业?
报志愿时,家长和考生们考虑的决定性因素,除了专业的未来「前景」,更是毕业时的「钱景」。
然而面对大学扩招带来的毕业生人数激增,毕业生获得 offer 的比率同时也在下降,我国今年的高校毕业生人数预计达 1179 万,同比增加 21 万。再创历史新高。大学生们,正在面临一个又一个「没有最难,只有更难」的就业季。
就业寒冬中,在张雪峰的直播间,紧紧围绕在计算机科学周边的 IT 专业无疑是推荐榜榜首的「爆款」。据麦可思研究院在今年六月发布的《2024 年中国本科生就业报告》显示,电子信息类专业领跑收入排行榜,前五位分别是信息安全(7756 元)、微电子科学与工程(7151 元)、软件工程(7061 元)、数据科学与大数据技术(7014 元)、电子科学与技术(7011 元)。
来源:http://www.mycos.com.cn/index.php/Index/response/nav/3.html
与此相对的是,这些专业对口的互联网企业却源源不断地传出裁员的消息。「广进计划」的风从硅谷袭来,无论是大厂中厂还是小厂,「35 岁喜提 N+1」,「入职 x 年,终于迎来毕业」,这些层出不穷的帖子背后,大家都收到了同一条消息:互联网各条业务线的人员确实已接近饱和。
暂且不考虑目前相对好就业的专业,在四年之后的就业难度会像「通货膨胀」一样飞速上涨。假设今年太原理工大学软件工程录取的 1800 多人同时走进就业市场,他们面临的也将是一条狭窄的通道。
因此,有网友甚至评论:
更值得担忧的是,ChatGPT 确实让「码农」的门槛越来越低。每次有大模型发布,编码能力都是 demo 展示的重要环节,各家大厂也在积极推出类似 Devin 这样具有出色编码能力的 AI 智能体员工。在今年的迪拜世界政府峰会上,英伟达 CEO 黄仁勋甚至亲自盖章「编程无用论」,他说:「在过去的 10 年、15 年里,几乎每个人都会告诉你,孩子学习计算机至关重要,每个人都应该学习编程。但如今,情况几乎完全相反。因为英伟达的目标是创造计算技术,让任何人都不需要编程。」
观点 2:师生比高达 1:80,教学质量能保证吗?
除了找不到工作的问题,最令网友们担心的还有师生比带来的教学质量问题,更何况 1800 多个学生的学费,一年下来也是一笔不小的数目,收入是否与教学质量相匹配。
对于学校而言,这种看似「不考虑后果,只顾着收割眼前利益」的做法,并非全是收益。家长们的担忧不无道理:太原理工大学其他专业的录取分数线都在 600 分以上,而软件工程的最低投档线甚至只有 505 分,已经滑至 B 段本科的水平了,也就是说,录取的生源质量大打折扣。
这种忧虑也顺延到了这批学生走进就业市场的时候,如果学校无法培养出高质量的毕业生,一旦他们进入企业,对于企业而言,增加了业务风险。而另一种可能是,那些专业技能不足的毕业生将成为残酷的就业市场首批淘汰的「炮灰」,这不仅加剧了学生的就业困境,更进一步扩大大学教育与市场需求之间的脱节,陷入一种恶性循环。
观点 3:还有很多学校有扩招现象
在这个帖子引发这么多质疑之前,关于报考太原理工大学软件工程专业的画风是这样的:
太原理工大学作为山西省唯一的一所 211 院校、唯二的双一流大学,承担着无数山西家长的希望,也肩负着山西考生的前途命运。为了保护本地考生,很多高校会把热门的好专业多留些名额给本地的学生。
除了太原理工大学,河南大学、南阳师范学院也有类似的扩招计划。
对此,也有许多山西 ip 的网友纷纷站出来力挺太原理工。
还有在读学生现身说法,相对高昂的学费放眼全国是普遍现象,教学质量有国家背书,最重要的是,对于「本省人」来说,花相对较高的学费获得了「211 title」与好专业(这两项无疑是就业简历上最重要的元素),只能说是捡到大便宜了,又怎么能认为是不划算的买卖呢?
对此,你怎么看,欢迎评论区留言。
参考链接:https://www.zhihu.com/question/663179975