AI模型 Archives

Midjourney V6.1再进化！人像逼真细节拉满，摄影级画面秒生成

Midjourney迎来最强版本v6.1，速速来体验! Midjourney几个月前画的饼终于端上来了！他们今天刚刚发布了最新版本v6.1！此次更新总结四个大字：细节狂魔。网友纷纷发推测试最新版本的Midjourney，摄影级画面先睹为快！这张图被取名为《天窗》，构图、色彩、光影、明暗，各方面都极度舒适，湖面波光粼粼细节生动，简直可以直接用来做屏保。继续看一幅风景，曙光拨开云层，远处群山连绵，积雪未消；植被茂密，松树纹理逼真，一片静谧祥和。接着看一组静物，原本需要大量人力物力财力和精力拍摄的商业图，Midjourney几十秒轻松搞定。每张图片不仅清晰，还能围绕一个配色、主题和风格展开。人像生成自然也不在话下，五官立体，妆容精致，堪比杂志图。生成人物与街景图自带复古ccd效果，落日余晖打在人脸上清晰真实，没有过度美化的假面感。甚至还能生成定制风格的图片，下图就是一个千禧风格的老式计算机。网友都上手尝鲜新版本的同时，也有人感叹Midjourney进化速度之快。有人po出一张Midjourney V2和Midjourney V6.1的对比，从画面模糊到清晰，摩托车与人的轮廓从诡异到炫酷，仅仅经过了两年时间。细节狂魔之所以把Midjourney这一版的亮点称之为「细节狂魔」，是因为V6.1着重强调了以下新功能： – 更连贯的图像（手臂、腿、手、身体、植物、动物等） – 图像质量更好（减少像素伪影、增强纹理、皮肤、8 位复古效果等） – 更精确、更详细、更正确的细节特征（眼睛、小脸、远处的手等） – 新的图像放大器具有更好的图像/纹理质量 – 标准图像作业速度提高约 25% – 提高文本准确性（在提示中通过「引号」绘制单词） – 新的个性化模型，具有令人惊喜的细微差别和准确性 – 个性化代码版本控制（将旧作业中的代码用于当前作业的个性化模型和数据）一句话总结，就是让画面整体上看起来更和谐、精致。尤其是在人像的处理方面，几乎已经无可挑剔。以图为证，左边V6生成的已经足够逼真，V6人物的眉毛纹理更加精细，眼球红血丝清晰可见。可以说将AI生成图与摄影大师作品同场竞技也丝毫不输。 V6.1对比V6 产品介绍得再天花乱坠，用户最为关注的，还是上手使用时性能是否真正提升。接下来我们直接与前一代横向对比，看看千呼万唤的V6.1在上面提到的更新升级做的怎么样了。提示词：冬天，一个金渐层小猫在壁炉前的沙发上玩毛线球，平视角度，主体形象直视镜头，写实逼真。两幅画对比可以看出，右边的小猫看上去更加毛茸茸的，毛线球的质感也更加真实不死板，背后的原因就在于V6.1版本在于对细节和纹理的处理更加真实细致。提示词：阳光明媚的日子里，经典福特野马在海岸附近的道路上行驶的高角度镜头，温暖的阳光照亮了汽车的底盘，逼真，高分辨率。 V6.1的版本清晰度就眼前一亮，画面构图更加和谐，远处山脉纹理也更加真实。提示词：JC Leyendecker 风格的插图，年轻运动员在行动中，复古足球服，大学橄榄球场的初秋午后，动态照明突出肌肉形态，光影对比，低角度，饱和色彩，程式化和流畅的笔触。 JC Leyendecker是上世纪美国著名插画师，风格偏写实风，注重线条流畅程度以及灯光质感，善于借用灯光打造人物效果，烘托出主人公。 JC非常注重用笔触打造衣物、皮肤和头发的质感，绘画线条流畅，擅长运用松节油混合颜料，创作出丰富、流畅的笔触和发光般的表面质感。可以看出，V6.1的版本更符合JC Leyendecker的绘画风格，棒球运动员的衣服和皮肤都有微微光感。再看下面这个例子，展示了V6.1最引以为傲的人像处理部分，首先画面一眼看去更加和谐且具有电影质感。提示词：电影拍摄画面，可疑的人，灯光昏暗的街道。在晚上，人物紧张地环顾四周。人工街道照明，前角，双色调，绿松石和红色，营造紧张的气氛，Cinestill 50D。 V6版本对于皱纹形态和手部细节的处理还都比较死板，V6.1版本中，人物的肌肉线条明显更加真实。深究人像细节可以发现，V6版本的人脸被遮挡且晦暗不清，V6.1中，人物打湿微卷的头发、脸部光影和皮肤的沟壑纹理都极其真实。经过以上四组动物、外景、人物和强烈绘画风格的对比例子来看，Midjourney V6.1都较上一代呈现出了高质量的画面和丰富的细节，并且还能定制生成艺术家风格的作品。自然，Midjourney依旧不会满足于V6.1的进步，在上新的同时也透露下一步消息——V6.2将会在下个月推出。参考资料： https://x.com/midjourney/status/1818342703618482265

手机上能跑的「GPT-4V」来啦！多图、视频理解首次上端！面壁小钢炮开源史上最强端侧多模态

面壁小钢炮MiniCPM-V 2.6重磅出击，再次刷新端侧多模态天花板！凭借8B参数，已经取得单图、多图、视频理解三项SOTA ，性能全面对标GPT-4V。再次刷新端侧多模态天花板，面壁「小钢炮」 MiniCPM-V 2.6 模型重磅上新！仅8B参数，取得 20B 以下单图、多图、视频理解 3 SOTA 成绩，一举将端侧AI多模态能力拉升至全面对标超越 GPT-4V 水平。更有多项功能首次上「端」：小钢炮一口气将实时视频理解、多图联合理解（还包括多图OCR、多图ICL等）能力首次搬上端侧多模态模型，更接近充斥着复杂、模糊、连续实时视觉信息的多模态真实世界，更能充分发挥端侧 AI 传感器富集、贴近用户的优势。亮点众多，延续了「小钢炮」系列一贯的以小博大与高效低成本，划重点如下：「三合一」最强端侧多模态：首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V，单图理解越级比肩多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini 。多项功能首次上端：实时视频理解、多图联合理解、多图 ICL 视觉类比学习、多图 OCR 等功能，第一次让端侧模型睁开观察、理解真实流动世界的「眼睛」，不仅看得清晰，还能有样学样、模仿学习。极致高效，最高多模态像素密度: 类比知识密度，小钢炮2.6取得了两倍于GPT-4o的单 token 编码像素密度（token density），在端侧方寸之地，一路将大模型「能效比」挖到极限。这一进展，得益于视觉 token 相比上一代下降 30% ，比同类模型低 75%。端侧友好：量化后端侧内存仅占 6 GB；端侧推理速度高达 18 tokens/s，相比上代模型快 33%。并且发布即支持 llama.cpp、ollama、vllm 推理；且支持多种语言。统一高清框架，高效能力一拖三：小钢炮的传统优势 OCR 能力延续了其 SOTA 性能水平，并进一步覆盖单图、多图、视频理解。 MiniCPM-V 2.6 开源地址： GitHub：https://github.com/OpenBMB/MiniCPM-V HuggingFace：https://huggingface.co/openbmb/MiniCPM-V-2_6 llama.cpp、ollama、vllm 部署教程地址： https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc MiniCPM 系列开源地址： https://github.com/OpenBMB/MiniCPM 单图、多图、视频理解 3 SOTA！ GPT-4V级、三合一最强端侧多模态注：指20B以下、端侧模型SOTA 以小博大，是端侧模型的核心竞争力。仅 8B 参数，新一代 MiniCPM-V 2.6 不仅再一次取得了媲美 GPT-4V 的综合性能，还首次作为端侧 AI 模型，掀开单图、多图、视频理解三项多模态核心能力全面超越 GPT-4V 之新格局，且均实现 20B 参数以下模型性能 SOTA。在 MiniCPM-V 2.6 的知识压缩率方面，我们发现，MiniCPM-V 2.6 体现出极致的高效，取得了两倍于 GPT-4o 的最高多模态大模型像素密度（Token Density）。 Token Density = 编码像素数量 / 视觉 token 数量，是指单个 token 承载的像素密度即图像信息密度，直接决定了多模态模型实际的运行效率，数值越大，模型运行效率越高。闭源模型的 Token Density 由 API 收费方式估算得到。结果表明 MiniCPM-V 2.6 是所有多模态模型中 Token Density 最高的，延续了小钢炮一贯的极致高效特点单图方面：在综合评测权威平台 OpenCompass 上，单图理解能力越级超越多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini。多图方面：在多图评测权威平台 Mantis-Eval 榜单上，MiniCPM-V 2.6 多图联合理解能力实现开源模型SOTA ，且超越 GPT-4V。视频方面：在视频评测权威平台 Video-MME 榜单上，MiniCPM-V 2.6 的视频理解能力达到端侧 SOTA，超越GPT-4V。此外，在 OCRBench上，MiniCPM-V 2.6 OCR 性能实现开源+闭源模型 SOTA，延续并加强了小钢炮系列最强端侧 OCR 能力的传统优势。在幻觉评测榜单Object HalBench上，MiniCPM-V 2.6 的幻觉水平（幻觉率越低越好）优于GPT-4o、GPT-4V、Claude 3.5 Sonnet 等众多商用模型。实时视频理解，首次上端！睁开端侧「眼睛」，打开具身广阔潜力真实世界的视觉信息是流动的！端侧视频理解具有天然优势，手机、PC、AR、机器人、智能座驾等端侧设备自带的摄像头，具有天然的多模态输入能力。相比云端，离用户更近，链路更短，效率更高，同时具有更强的信息安全优势。有了实时视频理解功能，大模型犹如拥有一双「眼睛」，能够实时看到真实世界，这是多模态大模型走向具身智能等更多实际领域，实现 AGI 的必要条件之一。此外实时视频理解功能也让人机交互也更加自然友好。 MiniCPM-V 2.6 让实时视频理解功能第一次运行在端侧。在下面对面壁智能公司实时拍摄中，室内场景的各种办公设备、墙上、会议室上的文字都能轻松被模型精准识别。此外，对于「太长不看」的视频，现在可以直接把文件拖进来，让模型为你总结重点信息，不用看完、不用倍速、也不用快进。这段 1 分钟左右的天气预报视频，MiniCPM-V 2.6 能在没有听到任何语音的情况下，发挥强大的视频 OCR 功能，识别出视频画面里密集的文字，给出不同视频段落中不同城市的详细天气描述。注：该结果为代码环境中复现多图联合理解，首次上端！流畅、聪明，一直识图一直爽钻研多模态模型能力的不竭动力，源自于它更接近真实世界的形态，充斥着画面、视频、语言等多种模态、同时并发的信息。难以想象，当我们睁开眼睛看世界，只能一个画面、一个画面，顺次机械而卡顿地识别理解；也不会事事都能得到精准的文字指示，像小孩子模仿大人行为举止般「有样学样」地揣摩学习与动作跟随，是绝大多数我们学习与尝试新事物时所发生的样子。将端侧AI的多模态能力进行极致探寻，最新发布的 MiniCPM-V 2.6 首次将多图联合理解、多图ICL（上下文少样本学习）功能集成在端侧模型，这也是此前业界多模态王者 GPT-4V 引以为傲的能力。 1. 流畅的多图多轮理解，爽！就像人们习惯把多个文件拖拽给大模型处理，在日常生活和工作中，联合处理多张图像是高频刚需。比如常令人头疼的记账或报销难题，小票上密密麻麻的数字难以辨别，更别提进行繁琐的总账计算。拍照下来，一口气甩给 MiniCPM-V 2.6，除了一一找出每张小票的金额，最后还把总账计算出来，十分方便。强大的 OCR 能力+CoT （思维链）能力加持，不仅小票金额精准抓取，解题思路与卷面呈现都清晰简洁：端侧多模态复杂推理能力也被一并刷新：比如这道 GPT-4V 官方演示经典命题：调整自行车车座。这个对人很简单的问题对模型却非常困难，它非常考验多模态模型的复杂推理能力和对物理常识的掌握能力。仅 8B 的 MiniCPM-V 2.6 展现出顺利完成这项挑战的潜力，通过和模型进行多图多轮对话，它清晰地告知完成调低自行车车座的每一个详细步骤，还能根据说明书和工具箱帮你找到合适的工具。 2. 强悍的多图复杂推理能力，竟能读懂你的梗！得益于强大的多图复杂推理能力，MiniCPM-V 2.6 不仅能联合识别多张图片的表面信息，还能「读懂」梗图背后的槽点。比如让模型解释下面两张图背后的小故事，MiniCPM-V 2.6 能够通过OCR精准识别到两张图片上的文字：「WFH Employees 8:59 AM」和「WFH Employees 9:00 AM」，推理出「WFH」居家办公状态，然后结合两张图片的视觉信息联合推理出「工作在家时，8:59还在床上睡觉，9点立马出现在视频会议上」的居家办公的「抓狂」状态，尽显梗图的槽点和幽默，可谓是多图联合理解和 OCR 能力的强强结合。多图复杂推理能力表现惊艳，单图也不在话下。MiniCPM-V 2.6 能轻松揣测出梗图中很多未明显露出的潜台词，简直是充满幽默感的大模型「梗王」。左右滑动查看多图 ICL，首次上「端」！大模型学会揣测模仿，有样学样很多时候，很多场景，难以用语言完全说清，通过明确定义的语言 prompt 来控制模型的输出行为难以奏效。这个时候，图文信息一起「看」来理解，就像我们婴童时期那样观察、模仿、学习，往往更加直接与准确。这其实就是多图 ICL（In context learning）上下文少样本学习，它能激发出模型的潜力，让模型无需fine-tune，即可快速适配到特定领域和任务，显著提高模型的输出稳定性。在下面的例子中，我们直接通过视觉 prompt 给大模型下指示：给出两组神转折画面，以及对画面中的「梗」给出示意文字描述，例如一个戴着手套、重视卫生的厨师，下一秒却用戴手套的手直接去拿实际有些肮脏的纸币；一个看似热衷环保的人，却把塑料瓶装水打开装进环保水壶…… 这时 MiniCPM-V 2.6 能够自动从前面两组图文关系，揣摩出题人的意图，并自动学会「答题模版」，给出神转折答案—— 一个人手握大量加密数字货币，可你猜怎么着，他出门购物，可是商店却只收现金！统一高清视觉架构高效多模态能力一拖三新一代小钢炮的最大亮点：单图、多图、视频理解等核心能力对 GPT-4V 的全面对标。从单一优势，到全面对标，大幅跃进从何而来？在 Qwen2-7B 基座模型的性能加持之外，要归功于采用了统一高清视觉架构。统一高清视觉架构，让传统单图的多模态优势功能得以继承，并实现了一通百通。例如，多管齐下的 OCR SOTA 能力：它将 MiniCPM-V 单图场景的「180万高清图像解析」进行能力迁移和知识共享，无缝拓展至多图场景和视频场景，并将这三种视觉理解场景统一形式化为图文交替的语义建模问题，共享底层视觉表示机制，实现相比同类型模型，视觉 token 数量节省超过 75% 。 OCR 信息提取的基础上，MiniCPM-V 2.6 还能进一步对表格信息进行类似 CoT（思维链）的复杂推理。比如让模型计算 2008 年奥运会获得金牌数最多的 3 个国家一共获得了多少枚金牌，CoT 的过程是：首先利用 OCR 能力识别并提取出奖牌榜中金牌数量的前三名国家；再将前三名国家的金牌总数相加。 8.2%的超低幻觉率，亦是发挥了小钢炮系列AI可信方面的传统优势。面壁 RLAIF-V 高效对齐技术对低幻觉贡献颇多，MiniCPM-V 2.6 的复杂推理能力和通用域多图联合理解能力亦因面壁 Ultra 对齐技术得到一并增强：在多模态复杂推理能力对齐方面，MiniCPM-V 2.6 通过复杂题目的 CoT 解答数据，构造高效对齐种子数据，并通过模型自迭代完成数据净化和知识学习。在多图联合理解方面，MiniCPM-V 2.6 从通用域自然网页中结合文本线索挖掘多图关联语义，实现多图联合理解数据的高效构造。在端侧最强多模态的道路上，小钢炮 MiniCPM-V 系列已成为标杆性的存在。自24年2月1日首次开创端侧部署多模态先河，短短半年，即接连完成了端侧模型从单一、到全面对标 GPT-4V 的重大突破，小钢炮系列下载量已破百万！为何面壁「小钢炮」系列，频出以小博大的多模态端侧佳作？可以说，MiniCPM 端侧模型系列，正是面壁长期以来「大模型科学化」路线的结晶。一方面，通过科学提升训练方法与数据质量，不断提升大模型「知识密度」，得到同等参数，性能更强、成本更低的高效模型。两倍于 GPT-4o 的巅峰级单 token 图像信息密度（Token Density），小钢炮 2.6 交出一份漂亮的多模态高效运行效率成绩单。另一方面，面壁不断钻研 OCR、多图与视频理解等核心多模态能力创新技术，并持续突破对于端侧极为关键的能耗与内存极限，把最优秀的多模态模型放在离用户最近的地方！相比上代模型快 33%，高达 18 tokens/s 的推理速度，6GB 的内存占用…… 每一点滴对模型「能效比」的锱铢必较，只为了你将 iPad 捧在手心的那一刻，实时丝滑酣畅的体验。开源地址：https://github.com/OpenBMB/MiniCPM-V https://huggingface.co/openbmb/MiniCPM-V-2_6 部署教程：https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc

AI模型提早5年预警乳腺癌，MIT研究登Science获LeCun转发

科学家正在通过AI的力量，改变乳腺癌的现状。在全球范围内，每年有超过60万名女性因乳腺癌而无法存活。美国有八分之一的女性一生中会被诊断出患有乳腺癌。这些数字听起来很可怕，但并非毫无希望。当处于最早的局部阶段时， 5年相对生存率为 99%。近年来，早期检测和治疗方法的进步显著提高了乳腺癌的生存率，目前美国有超过400万乳腺癌幸存者。AI，就是这项进步背后的一个重要推动性力量。近日，Science在X上连发多篇帖子，展现了AI在乳腺癌检测方面的应用潜力。「人工智能提前5年检测出乳腺癌」。这条推文不仅得到了Lecun的转发，也引发了大量网友的讨论。AI对人类社会的影响，绝不只有当下大热的生成式AI，更可能「going to save lives」，为人类减少病痛，带来福祉。MIT CSAIL实验室和Jameel Clinic的科学家创建了一个深度学习系统「Mirai」，可以根据传统的乳房X光检查来预测乳腺癌风险。论文地址：https://www.science.org/doi/10.1126/scitranslmed.aba4373 「Mirai」标志着向个性化癌症筛查和更好的患者治疗结果迈出了重要一步。 Mirai：更早发现乳腺癌减少筛查伤害乳房X光检查（Mammogram）用于检测没有乳腺癌体征或症状的女性的乳房变化。世界各地的卫生组织支持Mammogram筛查以实现早期癌症检测，并且它已经证明了其价值，可将死亡率降低 20-40%。虽然这是一个用于早期检测的最佳工具，但有很多亟待改进的地方：假阳性、假阴性、图像解读中的人为差异以及缺乏专业放射科医生……而Mirai作为一个深度学习系统，可以借助人工智能的力量来预测乳腺癌的形成，它包括三项关键创新：- 时间点联合建模- 非图像风险因素的选择性使用- 确保跨临床环境中性能一致性这使得Mirai能够提供准确的风险评估，并适应不同的临床环境。Mirai不仅可预测患者在未来不同时间点的风险，还可纳入年龄和家族史等临床风险因素（如果有的话）。此外，它还能在微小的临床差异（如不同的乳腺X射线照相设备）情况下保持稳定的预测结果。该模型很有前途的一点在于，它能够适用于不同人种。Mirai对白人和黑人女性的准确率相当，鉴于黑人女性的乳腺癌死亡率比白人妇女高出43%，这是一项重大进步。大规模验证为了将基于图像的风险模型整合到临床护理中，研究人员需要对算法进行改进，并在多家医院进行大规模验证。研究小组利用麻省总医院（MGH）的20万多份检查结果对Mirai进行了训练，并利用麻省总医院、瑞典卡罗林斯卡研究所和台湾长庚纪念医院的数据对其进行了验证。现在安装在MGH的Mirai在预测癌症风险和识别高危人群方面的准确性明显高于以前的方法。它的表现优于Tyrer-Cuzick模型，识别出的未来癌症诊断数量几乎是Tyrer-Cuzick模型的两倍。而且，在不同种族、年龄组、乳房密度类别和癌症亚型中，Mirai 都能保持准确性。CSAIL博士生、论文的第一作者Adam Yala说，「改进后的乳腺癌风险模型能够实现有针对性的筛查策略，与现有指南提供的方法相比，可以更早发现乳腺癌并减少筛查伤害。」该团队正与来自全球不同机构的临床医生合作，在不同人群中进一步验证该模型，并研究其临床实施情况。目前，研究人员正在改进Mirai，利用患者的完整影像病史，并结合断层合成等先进筛查技术。这些改进措施可以完善风险筛查指南，为高风险人群提供更敏感的筛查，同时减少其他不必要的程序。将AI应用于乳腺癌检测的更多研究不止Mirai，Science还推荐了有关AI检测乳腺癌的更多研究。为了提高乳腺癌的生存率，研究人员设计了一种可穿戴超声波设备，可以让患者在早期阶段检测到肿瘤，这项研究同样来自MIT。麻省理工学院工程学院院长Anantha Chandrakasan、电子工程和计算机科学教授Vannevar Bush，以及一位该研究作者说道：「这项工作将利用材料、低功耗电路、人工智能算法和生物医学系统方面的进步，极大地推动超声波研究和医疗设备设计。」「并且为乳腺癌的检测和早期诊断提供了一项基本能力，而这是取得积极疗效的关键。」除此之外，此前《纽约时报》有过一则「AI检测出了医生遗漏的乳腺癌」的相关报道。报道称，匈牙利已成为人工智能软件发现癌症的主要试验场，医生们正在争论这项技术是否会取代他们的医疗工作。2016 年，世界领先的人工智能研究人员之一Geoffrey Hinton认为，该技术将在五年内超越放射科医生的技能。「我认为，如果你是一名放射科医生，你就像动画片里的Wile E. Coyote」，他在2017年对《纽约客》说。「你已经在悬崖边上了，但你还没有往下看，下面是看不到地面的深渊。」Hinton所言非虚，在Science发布的推特中，就有一篇研究发现，使用人工智能的医生比不使用人工智能的医生更容易发现乳腺癌。这项研究表明，人工智能还能自动处理一半以上的扫描，大大减轻放射科医生的工作量。将研究推向市场 Science在X上还特别提到了一个人——Dr. Connie Lehman。 Connie Lehman是哈佛医学院放射学教授兼马萨诸塞州总医院放射专家，也是本文开头具有奠基性作用的论文的合著者。她早在1998年开始从事计算机辅助设计 (CAD) 工作时，就对其改善乳腺癌检测的潜力感到兴奋。她坚信CAD技术将帮助放射科医生发现更多癌症、实现早期诊断，并有可能产生更高的治愈率。但故事并没有像她想象的那样结束。「虽然实验室的研究发现CAD可以发挥作用，但它并没有在临床上产生我们所希望的影响。」Lehman回忆道，「但我谨慎乐观地认为，新的人工智能模型将更成功地利用计算机的力量来增强成像的影响。」如今的Lehman正在将Mirai背后的技术推向市场，创办了Clairity。Clairity致力于利用人工智能的进步让医学图像释放出新的见解，准确地识别出那些患癌症风险最高的人。值得一提的是，Dr.Lehman对自己的研究成果相当低调，这个消息还是Lehman的儿子透露给Science的。后来又获得了Science的转发。并写下了「AI CAN BE GOOD!」这样令人充满期冀的文字。参考资料：https://news.mit.edu/2021/robust-artificial-intelligence-tools-predict-future-cancer-0128 https://www.cnn.com/videos/health/2023/03/07/artificial-intelligence-breast-cancer-detection-mammogram-cnntm-vpx.cnn https://news.mit.edu/2023/wearable-ultrasound-scanner-breast-cancer-0728

别只盯着ChatGPT版「Her」，在多模态AI拟人互动上，国内玩家也支棱起来了

揭秘！47页文档拆解苹果智能，从架构、数据到训练和优化

在 2024 年全球开发者大会上，苹果重磅推出了 Apple Intelligence，这是一个全新的个性化智能系统，可以提供实用的智能服务，覆盖 iPhone、iPad 和 Mac，并深度集成在 iOS 18、iPadOS 18 和 macOS Sequoia 中。库克曾经表示，Apple Intelligence 是苹果创新的新篇章，将改变用户使用产品的方式。他强调，苹果独特的方法结合了生成式人工智能和用户的个人信息，能提供真正有用的智能服务。此外，Apple Intelligence 能够以完全私密和安全的方式访问信息，帮助用户完成对他们最重要的事情。这是苹果独有的 AI 体验。如今，距离 Apple Intelligence 官宣一个多月过去了，这项技术终于落地智能设备，相关技术文档也终于放出。在刚刚过去的一天，拥有 iPhone 15 Pro 或 iPhone 15 Pro Max 的用户可以下载 iOS 18.1 开发测试版，并可以体验 Apple Intelligence 的功能了。随着这篇长达 47 页技术报告的出炉，我们可以更加深入的了解 Apple Intelligence 背后的秘密武器。报告地址：https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf 报告详细介绍了其中两款模型 ——AFM-on-device，AFM 代表 Apple Foundation Model，是一个约 30 亿参数的语言模型，以及一个更大的基于服务器的语言模型 AFM-server，可以高效、准确和负责地执行专门的任务（图 1）。这两个基础模型作为苹果更大的生成模型系列的一部分存在。架构及训练 AFM 基础模型是基于 Transformer 架构构建的密集解码器模型，采用如下设计：共享输入 / 输出嵌入矩阵，以减少用于参数的内存使用。使用 RMSNorm 进行预归一化以提高训练稳定性。查询 / 键归一化以提高训练稳定性。具有 8 个键值头的分组查询注意力（GQA），以减少 KV 缓存内存占用。 SwiGLU 激活，以提高效率。 RoPE 位置嵌入，基频（base frequency）设置为 500k，以支持长上下文。 AFM 预训练过程在开发高性能语言模型，以支持一系列 Apple Intelligence 功能方面发挥着关键作用。研究团队注重效率和数据质量，以获得高质量的端到端用户体验。在后训练方面，研究团队发现改进通用后训练可以提升 Apple Intelligence 所有功能的性能，因为模型在遵循指令、推理和写作方面会具有更强的能力。为了确保这些模型功能符合苹果对保护用户隐私的承诺，以及苹果的 Responsible AI 原则，后训练工作包括一系列数据收集和生成、指令调整和对齐创新。后训练过程包含两个阶段：监督微调（SFT）和来自人类反馈的强化学习（RLHF）。研究团队提出了两种新的后训练算法：（1）带有 teacher committee（iTeC）的拒绝采样微调算法，以及（2）一种用于强化学习迭代的 RLHF 算法，带有镜像下降策略优化（mirror descent policy optimization）和留一法优势估计器（leave-one-out advantage estimator）（MDLOO），使得模型质量显著提高。 Apple Intelligence特性基础模型是为 Apple Intelligence 专门设计的，这是一个支持 iPhone、iPad 和 Mac 的个人智能系统。苹果发现，针对特定任务的微调，他们可以将小模型的性能提升到一流水平，除此以外，他们还开发了一种基于运行时可交换适配器（runtime-swappable adapters）的架构，使单一基础模型能够专门用于数十个此类任务。图 2 显示了高级概述。适配器架构苹果使用 LoRA 适配器来针对特定任务进行模型微调。对于每项任务，研究者会调整 AFM 自注意力层中的所有线性投影矩阵以及逐点前馈网络中的全连接层。仅通过微调适配器，基础预训练模型的原始参数保持不变，可以保留模型的一般知识，同时定制适配器以支持特定任务。量化为了将 AFM 纳入内存预算有限的边缘设备并降低推理成本，需要考虑量化技术。先前的研究发现，与原始的 32/16 位浮点相比，经过 4 位量化的模型损失会很小。为了在模型容量和推理性能之间实现最佳平衡，苹果开发了最先进的量化方法和利用准确率 – 恢复适配器（accuracy-recovery adapters）的框架。使得模型在每个权重平均小于 4 位的情况下，还能实现近乎无损的量化，并提供灵活的量化方案选择。方法经过后训练，模型被压缩和量化，得到平均低于 4 位的权重。量化模型通常表现出中等程度的质量损失。因此，苹果不会将量化后的模型直接用于功能开发，而是附加一组参数高效的 LoRA 适配器以进行质量恢复。值得注意的是，训练准确率 – 恢复适配器具有样本效率，可以看作是训练基础模型的迷你版本。在适配器的预训练阶段，只需要大约 100 亿个 token（约占基础模型训练的 0.15%）即可完全恢复量化模型的能力。由于应用程序适配器将从这些准确率 – 恢复适配器微调而来，因此它们不会产生任何额外的内存使用或推理成本。关于适配器大小，苹果发现适配器秩为 16 时提供了模型容量和推理性能之间的最佳权衡。但是，为了灵活性，苹果提供了一套具有不同秩 {8、16、32} 的准确率 – 恢复适配器供应用程序团队选择。混合精度量化 AFM 中的每个 transformer 块和每个层都存在残差连接。因此，所有层都具有同等重要性的可能性不大。根据这一直觉，苹果通过推动某些层使用 2 位量化（默认为 4 位）来进一步减少内存使用量。平均而言，AFM-on-device 可以压缩到每个权重仅约 3.5 位 (bpw)，而不会造成显著的质量损失。评估研究团队使用常见的开源评估工具和基准来评估 AFM 预训练模型。表 2 展示了在 HELM MMLU v1.5.0 上 AFM-on-device 和 AFM-server 的结果。这些基准测试表明，AFM 预训练模型具有强大的语言和推理能力，为后训练和特征微调提供了坚实的基础。 AFM 与开源模型（Phi-3、Gemma-1.1、Llama-3、Mistral、DBRX-Instruct）和商业模型（GPT3.5 和 GPT-4）的比较结果如下图3所示。与其他模型相比，AFM 模型更受人类评估人员的青睐。特别是，AFM-on-device 与 Phi-3-mini 相比，尽管模型规模小了 25%，但仍获得了 47.7% 的胜率，甚至优于开源强基线 Gemma-7B 和 Mistral-7B。为了衡量模型生成响应遵循提示中指令的能力，研究团队在 IFEval 基准上评估了 AFM-on-device 和 AFM-server，结果如下图 4 所示：如图 5 所示，AFM-server 实现了最佳的整体准确率，优于 Gemini-1.5-Pro-Preview-0514 和 GPT-4。苹果将 AFM 与一些最出色的模型以及规模较小的开源模型进行了比较。如图 6 所示，与 Gemma-7B 和 Mistral-7B 相比，AFM-on-device 可以实现相当或更好的性能。AFM-server 的性能明显优于 DBRX-Instruct 和 GPT3.5，并且与 GPT4 相当。图 7 比较了经过后训练的 AFM 在数学基准上的表现。结果发现，AFM-on-device 的性能明显优于 Mistral-7B 和 Gemma-7B，即使规模不到它们的一半。下图为人类评分员评估 AFM-on-device 适配器、Phi-3-mini、Llama-3-8B 和 Gemma-7B 在摘要任务上的质量。图 8 显示 AFM-on-device-adapter 总体上优于其他模型。负责任的AI Apple Intelligence 的开发和设计都注重保护用户隐私。图 9 总结了人类评分员在不同模型上给出的违规率，越低越好。AFM-on-device 和 AFM-server 都对对抗性提示具有鲁棒性，其违规率明显低于开源和商业模型。图 10 表明，与其他模型相比，AFM 模型更受人类评分员的青睐。

ACL 2024 Oral | 大模型也会被忽悠？揭秘AI的信念之旅

地球是平的吗？当然不是。自古希腊数学家毕达哥拉斯首次提出地圆说以来，现代科学技术已经证明了地球是圆形这一事实。但是，你有没有想过，如果 AI 被误导性信息 “忽悠” 了，会发生什么？来自清华、上海交大、斯坦福和南洋理工的研究人员在最新的论文中深入探索 LLMs 在虚假信息干扰情况下的表现，他们发现大语言模型在误导信息反复劝说下，非常自信地做出「地球是平的」这一判断。论文链接：https://arxiv.org/pdf/2312.09085 项目主页：https://llms-believe-the-earth-is-flat.github.io/ GitHub 源代码：https://github.com/LLMs-believe-the-earth-is-flat/llms-believe-the-earth-is-flat 生成式人工智能技术的快速发展，为生成虚假信息提供了便利。这些技术不仅能够创建逼真的文本、图像、音频和视频内容，还能够在社交网络上自动发布和传播这些内容。虚假信息的泛滥给社会带来了诸多挑战，但目前对这类信息的确切影响仍不十分清楚。然而，可以预见的是，随着技术的发展，虚假信息的生成和传播将会变得更加容易和普遍。另一方面，大语言模型的上下文学习能力使其受到误导性信息的影响。这种误导性信息可能会在模型的部署过程中在上下文中被接受，并在模型生成的输出中反映出来，导致其产生不准确或具有偏见的内容。因此，研究者们正在努力探索如何提高大模型对虚假信息的识别能力和抵抗能力，这是提升大模型安全和鲁棒性的重要内容之一。本篇研究就探索了这种有误信息对于大语言模型知识信念的影响，研究论文已经被 ACL 2024 接收，并选做大会报告（Oral）。实验：大模型的 “信念” 测试研究者们首先构建了一个名为 Farm（Fact to Misinform Dataset）的数据集，包含 1500 个事实性问题及其相关的误导性信息。他们在大语言模型的帮助下系统性地构造了更具有说服力的有误信息：首先，他们对原始正确的事实性 QA 进行语义取反或者构造错误答案，随后利用 “越狱” 后的大模型协助生成更具有说服力的长文本有误信息。利用这些数据，便可以测试大语言模型在多轮对话中面对虚假信息时的反应。测试过程分为三个阶段：初始信念检验、多轮对话中劝说误导、结果信念检验。模型的信念检验通过模型在闭卷 QA 中答案的信心分数反应。通过这种方式，研究者们能够观察到 LLMs 在多轮对话中信念的变化。多轮测试框架主要结果在劝说性交流阶段，研究者们使用了多种策略来误导 LLMs 改变其信念。这些策略包括晓之以理的劝说（LO）、树立权威的劝说（CR）和动之以情的劝说（EM）。结果显示，即使是最先进的模型，如 GPT-4，也有高达 20.7% 的可能性被虚假信息所影响。基于对 ChatGPT、GPT-4、Llama-2-7B-chat、Vicuna-v1.5-7B、Vicuna-v1.5-13B 五种大模型平均准确度（Average Accuracy Rate, ACC）和被误导率（Misinformed Rate, MR）的实验，研究者们有五点发现：绝大多数大模型都易被虚假信息欺骗：从最先进的 GPT-4 （注：本研究的完成时间是 2023 年 9 月，当时最先进的模型是 GPT-4）到最差的模型，所有模型在经过多轮测试之后，误导率从 20%-80% 不等。越先进的大模型抵抗虚假信息能力越强：实验表明，抵抗能力最强的是 GPT-4 模型，其能以 80% 坚持自己的事实信念。这给了我们一些宽慰：上下文理解能力越强的模型，并非更容易受到有误信息的干扰！多次重复虚假信息比单次输出虚假信息更能骗倒大模型：通过多轮引入的虚假信息，其作用要胜过单此的引入，这很符合我们对安全性对齐的常识 —— 有害内容越多，模型越容易被其影响。运用修辞的劝说性虚假信息更容易骗倒大模型：使用更复杂，更具有说服力的修辞可以增加模型改变看法的概率。这点就和人一样，越 “真实” 的假信息，你越容易相信逻辑性说服比其它说服方式更有效：模型对逻辑性强的信息特别敏感，无论是真实信息还是虚假信息，只要逻辑连贯一致，就更容易影响模型的判断。这表明，模型在处理信息时，可能过分依赖于表面的逻辑结构，而忽略了对信息来源和内容真实性的深入验证。 ChatGPT 和 GPT4 在不同劝说策略下的正确率（虚线）和误导成功率（实线）大模型面对虚假信息的五种反应在面对虚假信息时，AI 表现出了五种不同的行为：拒绝（Rejection)、奉承（sycophancy）、不确定（Uncertainty）、接受（Acceptance）和自我不一致（Self-Inconsisitancy）。这些行为揭示了 AI 在处理错误信息时的复杂性。例如，拒绝行为表明 AI 坚持正确的答案，不受错误信息影响；而奉承行为则表明 AI 在对话中表面上接受错误信息，但内心仍坚持正确答案。模型的信念和对应面对误信息的行为：拒绝，奉承和接纳研究还发现，在经过一轮虚假信息交互后，大语言模型的信心程度往往会降低。然而，对于一些问题，重复虚假信息却让大模型更加确信自己的答案，这种现象被称为 “逆火效应（Backfire Effect）”。如何提升抗虚假信息干扰能力？研究组发现，由于 RLHF（Reinforcement Learning with Human Feedback）算法，大模型在训练中会倾向于接受用户的输入，即认为外界的 context 总是友善且正确的。而且当大语言模型有足够信息支撑观点时，会对正确的回答更有信心。为了帮助大模型提升抗虚假信息干扰能力，研究者们提出了一种轻量级解决方案：在检测到虚假信息后，使用 safety system prompt 对大模型进行提醒，并在回答之前从自己的参数化知识中检索相关信息。这种方法在一定程度上减少了虚假信息对大模型的影响。加入 safety system prompt 后，模型抗干扰能力显著提升 OpenAI 的看法有趣的是，OpenAI 在 2024 年 5 月发布了最新的 AI 模型行为准则，其中特别提到了 “认知冲突” 的处理。在此部分的示例中，他们使用了 “地球是平的” 这一例子来说明模型在面对与已知事实相冲突的信息时应如何反应，与本次研究团队的标题不谋而合，也更加突显了大语言模型在处理认知冲突时的行为表现的重要性。 https://cdn.openai.com/spec/model-spec-2024-05-08.html 研究启发随着模型的智能化，大模型逐渐展现出了一些人类的特性，但它们的本质仍然是概率模型。这些模式很有可能仍然是从训练语料中的人类行为学习而来，即是一种 “模仿游戏”。以上的研究探索了针对简单事实问题，当 LLM 的内部认知和外部信息冲突的时候，LLM 当作何选择，是盲从还是坚持自己的意见？而人类在这种认知冲突的过程中所展现的 “理愈辩愈明”、“思想碰撞出火花” 等能力还是目前的 LLM 所不具备的。未来的研究可以进一步从模型的内在机理和训练数据中对大模型的行为进行溯源式的分析，提高 AI 的可解释性，并进一步提升跨学科研究，探索大模型的更多潜力。

要想赚钱，AI模型该大该小？贾扬清：论AI模型经济学的技巧

作者丨刘洁编辑丨岑峰最近的AI社区，关于模型规模的讨论有些活跃。一方面，此前在大模型开发奉为“圣经”的Scaling Law，似乎正在褪去光环。去年大家还在猜测GPT-5的规模“可能会大到想不到”，现在这种讨论几乎绝迹。大神Andrej Karpathy，则是在感慨大模型规模正在“倒退”。另一方面，近期市场上性能优秀的小型模型层出不穷，参数规模、任务处理、反应速度、安全性能，各公司在不同方面卷了又卷。究竟是往大做探索极限，还是往小做迎合市场？这最终汇总成一个问题：在这样模型快速更迭的市场中，要怎么才能把LLM模型的商业价值最大化？唯快不破的模型业态最近发起讨论的是X.ai创始成员之一的Toby Pohlen。他认为如果模型以指数级速度改进，那么训练模型的价值也会以指数级速度折旧。这也导致人们需要赶在模型更迭前就迅速采取行动获取商业价值，一旦模型产生更新，上一代模型就基本一文不值了。 Toby的这番言论深得老板Elon Musk之心，大笔一挥打了一个“100分”。贾扬清也参与到了这场讨论中来，他用感恩节火鸡做了一个有趣的比喻。他提出，售卖模型就像是感恩节火鸡促销，必须在感恩节前夕抓紧时间售卖，避免在感恩节到来后的贬值。新模型的技术更新就是一个又一个感恩节，只有销售得更快才能赚到更多的利润。（emmm…如果对火鸡不好了解，换成中秋节前抢月饼的故事大家或许应该容易理解一些？）评论区也有不少人表达了对此观点的赞同。有人说只要不断地开发新产品和迭代新模型，就能从中持续获得商业价值。还有人说，模型改进的频率将直接决定模型本身的商业价值。但是，模型的商业价值由什么决定，又该如何实现？模型发展在走CNN老路吗？模型必须做小，用起来才顺手。比起大型模型，小型模型成本低应用便利，更能收获商业市场的青睐。贾扬清就发现，行业趋势在于研发和使用尺寸更小性能强大的模型，人们也更愿意把规模参数在7B-70B之间的中小型模型作为商业使用的选择。作为前大模型时代的亲历者，贾扬清在当下LLM模型市场上嗅到了熟悉的味道，先变大再变小变高效，这和CNN时期的模型发展简直一模一样。贾扬清还对CNN的发展历程做了一个简单的介绍。贾扬清还介绍了CNN的一个有趣的应用，Google的MobileNet（2017），占用空间小性能优越，还具有出色的特征嵌入泛化。最后，贾扬清引用了Ghimire 等人在《高效卷积神经网络和硬件加速调查》里的一张图：他还进一步发问，LLM模型未来会遵循和CNN一样的发展趋势吗？大型模型的盈利思考不过贾扬清也补充道，虽然行业趋势是模型小型化，但并不意味着号召大家放弃尺寸更大的模型。但这随之而来的是另一个问题：大型模型的成本会更高。此前也有人提出质疑，对大型模型服务商的运营成本和营运收益做了简单的计算，每天8张H100显卡运营节点的成本约为1000美元，每天可以提供2600万token的服务，但按Llama 405B每一百万token 3美元的价格，怎么算都是亏本的，无法盈利的大型模型不会被市场抛弃吗？贾扬清表示，哎你说这个我就不困了，我熟我来说：）贾扬清认为，虽然每个请求大约每秒输出30个token，但通过批量处理（同时处理多个请求）可以显著提高总吞吐量，可以达到比单个请求高出10倍或更高的吞吐量。同时他还指出，每秒大约30个token指的是输出token，大模型对于输入token的处理速度更快，这也增加了处理的总token数，大模型通常对输入和输出分别计费，也正是这个道理。在后续的另一个回复，贾扬清做了更详细的量化计算：收入798.34美元，成本670.08美元，因此通过整合多种技术方法，在合理流量下（像Lepton这样的大模型技术服务商）是可能盈利的。当然，这只是一个简单的推算，实际的盈利还会受到流量稳定性、计费方式、按需使用GPU的机器成本控制、解码、提示缓存以及其他因素的影响。但某种程度上说，类似深度学习时代对CNN的不断优化，在大模型时代，也需要技术人员对于模型进行种种优化，来保证性能提高的同时不断降低成本，这正是贾扬清看好的创业路线。 One more thing 我们不妨再多讨论一下，对于贾扬清这样的AI Infra创业者，模型大小的潮流变化对他的商业模式有什么影响？这个问题，要分不同情况分析。如果模型参数量越大，提供模型服务的门槛越高（参考Llama 405B），其客单价自然也就越大；另一方面，由于很多小模型实际是在大模型的基础上蒸馏而得到，模型小了，所需的计算资源并没有等幅度减少；由于较小的模型更容易部署在不同的设备和平台上，这可能会带来应用场景的增加，虽然客单价可能降低，但在需求数量上的增加反而可能使得总收入增加；对于贾扬清来说，META的开源路线使得贾扬清的服务对象扩大，因此开源对他来说更有利。看来不管未来模型规模怎么不变化，贾扬清都有机会凭借技术升级稳坐钓鱼台。这有点像之前的中国股市，不管什么消息，都是“利好茅台”啊。这恐怕就是贾扬清最近在推特上为什么这么活跃发表看法的原因？你看好贾扬清这种AI Infra的创业路线吗？参考资料： https://x.com/jiayq/status/1818902164938670206 https://x.com/TobyPhln/status/1818686287475282260 https://x.com/elonmusk/status/1818686692905435406 https://x.com/jiayq/status/1818703217263624385 https://x.com/jiayq/status/1818699120049311883 https://x.com/jiayq/status/1818704837745557912 https://x.com/jiayq/status/1817092427750269348 头图/封面来源于贾扬清X（https://x.com/jiayq/status/1818907312851169748）

OpenAI推出AI搜索引擎SearchGPT

科技日报讯 (记者张佳欣)据英国《卫报》、美国消费者新闻与商业频道等媒体报道，当地时间7月25日，OpenAI宣布正在测试新的人工智能(AI)搜索工具SearchGPT，可以实时访问来自互联网的信息，旨在为用户提供更具时效性和更准确的信息。该搜索引擎以一个大文本框开始，询问用户“您在找什么？”客户输入搜索内容后，SearchGPT并不是返回一个简单的链接列表，而是试图对它们进行组织和理解。在OpenAI提供的一个例子中，该搜索引擎总结了它对于音乐节的相关发现，提供了活动的简短描述，并在后面附上了链接。在另一个例子中，SearchGPT先解释何时种植西红柿，然后解释了西红柿的细分品种。结果出现后，用户可以提出后续问题，或点击侧边栏打开其他相关链接。 OpenAI表示，SearchGPT将先在一小群用户和出版商中推出，然后可能在更大范围推广。该公司最终打算将这一搜索功能整合到ChatGPT中，而不是将其作为一款独立产品。报道称，这可能会对谷歌主导的引擎搜索产生影响。自2022年11月推出ChatGPT以来，谷歌母公司Alphabet投资者一直担心，OpenAI可能会通过为消费者提供在线获取信息的新方式来从谷歌手中夺取搜索市场份额。 OpenAI近期新推出的“GPT-4o mini”迷你AI模型和SearchGPT原型，都是其致力于在“多模态”领域保持领先地位的一部分。所谓“多模态”，即在一个工具(即 ChatGPT)内部，提供多种类型的AI生成媒体，包括文本、图像、音频、视频以及搜索功能。