Skip to content
AI资讯
AI大模型
AI营销
标签:
AI模型
Midjourney V6.1再进化!人像逼真细节拉满,摄影级画面秒生成
Midjourney迎来最强版本v6.1,速速来体验! Midjourney几个月前画的饼终于端上来了!他们今天刚刚发布了最新版本v6.1! 此次更新总结四个大字:细节狂魔。 网友纷纷发推测试最新版本的Midjourney,摄影级画面先睹为快! 这张图被取名为《天窗》,构图、色彩、光影、明暗,各方面都极度舒适,湖面波光粼粼细节生动,简直可以直接用来做屏保。 继续看一幅风景,曙光拨开云层,远处群山连绵,积雪未消;植被茂密,松树纹理逼真,一片静谧祥和。 接着看一组静物,原本需要大量人力物力财力和精力拍摄的商业图,Midjourney几十秒轻松搞定。 每张图片不仅清晰,还能围绕一个配色、主题和风格展开。 人像生成自然也不在话下,五官立体,妆容精致,堪比杂志图。 生成人物与街景图自带复古ccd效果,落日余晖打在人脸上清晰真实,没有过度美化的假面感。 甚至还能生成定制风格的图片,下图就是一个千禧风格的老式计算机。 网友都上手尝鲜新版本的同时,也有人感叹Midjourney进化速度之快。 有人po出一张Midjourney V2和Midjourney V6.1的对比,从画面模糊到清晰,摩托车与人的轮廓从诡异到炫酷,仅仅经过了两年时间。 细节狂魔 之所以把Midjourney这一版的亮点称之为「细节狂魔」,是因为V6.1着重强调了以下新功能: – 更连贯的图像(手臂、腿、手、身体、植物、动物等) – 图像质量更好(减少像素伪影、增强纹理、皮肤、8 位复古效果等) – 更精确、更详细、更正确的细节特征(眼睛、小脸、远处的手等) – 新的图像放大器具有更好的图像/纹理质量 – 标准图像作业速度提高约 25% – 提高文本准确性(在提示中通过「引号」绘制单词) – 新的个性化模型,具有令人惊喜的细微差别和准确性 – 个性化代码版本控制(将旧作业中的代码用于当前作业的个性化模型和数据) 一句话总结,就是让画面整体上看起来更和谐、精致。 尤其是在人像的处理方面,几乎已经无可挑剔。 以图为证,左边V6生成的已经足够逼真,V6人物的眉毛纹理更加精细,眼球红血丝清晰可见。 可以说将AI生成图与摄影大师作品同场竞技也丝毫不输。 V6.1对比V6 产品介绍得再天花乱坠,用户最为关注的,还是上手使用时性能是否真正提升。 接下来我们直接与前一代横向对比,看看千呼万唤的V6.1在上面提到的更新升级做的怎么样了。 提示词:冬天,一个金渐层小猫在壁炉前的沙发上玩毛线球,平视角度,主体形象直视镜头,写实逼真。 两幅画对比可以看出,右边的小猫看上去更加毛茸茸的,毛线球的质感也更加真实不死板,背后的原因就在于V6.1版本在于对细节和纹理的处理更加真实细致。 提示词:阳光明媚的日子里,经典福特野马在海岸附近的道路上行驶的高角度镜头,温暖的阳光照亮了汽车的底盘,逼真,高分辨率。 V6.1的版本清晰度就眼前一亮,画面构图更加和谐,远处山脉纹理也更加真实。 提示词:JC Leyendecker 风格的插图,年轻运动员在行动中,复古足球服,大学橄榄球场的初秋午后,动态照明突出肌肉形态,光影对比,低角度,饱和色彩,程式化和流畅的笔触。 JC Leyendecker是上世纪美国著名插画师,风格偏写实风,注重线条流畅程度以及灯光质感,善于借用灯光打造人物效果,烘托出主人公。 JC非常注重用笔触打造衣物、皮肤和头发的质感,绘画线条流畅,擅长运用松节油混合颜料,创作出丰富、流畅的笔触和发光般的表面质感。 可以看出,V6.1的版本更符合JC Leyendecker的绘画风格,棒球运动员的衣服和皮肤都有微微光感。 再看下面这个例子,展示了V6.1最引以为傲的人像处理部分,首先画面一眼看去更加和谐且具有电影质感。 提示词:电影拍摄画面,可疑的人,灯光昏暗的街道。在晚上,人物紧张地环顾四周。人工街道照明,前角,双色调,绿松石和红色,营造紧张的气氛,Cinestill 50D。 V6版本对于皱纹形态和手部细节的处理还都比较死板,V6.1版本中,人物的肌肉线条明显更加真实。 深究人像细节可以发现,V6版本的人脸被遮挡且晦暗不清,V6.1中,人物打湿微卷的头发、脸部光影和皮肤的沟壑纹理都极其真实。 经过以上四组动物、外景、人物和强烈绘画风格的对比例子来看,Midjourney V6.1都较上一代呈现出了高质量的画面和丰富的细节,并且还能定制生成艺术家风格的作品。 自然,Midjourney依旧不会满足于V6.1的进步,在上新的同时也透露下一步消息——V6.2将会在下个月推出。 参考资料: https://x.com/midjourney/status/1818342703618482265
手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态
面壁小钢炮MiniCPM-V 2.6重磅出击,再次刷新端侧多模态天花板!凭借8B参数,已经取得单图、多图、视频理解三项SOTA ,性能全面对标GPT-4V。 再次刷新端侧多模态天花板,面壁「小钢炮」 MiniCPM-V 2.6 模型重磅上新!仅8B参数,取得 20B 以下 单图、多图、视频理解 3 SOTA 成绩,一举将 端侧AI多模态能力拉升至全面对标超越 GPT-4V 水平。更有 多项功能首次上「端」:小钢炮一口气将 实时视频理解、多图联合理解(还包括多图OCR、多图ICL等)能力首次搬上端侧多模态模型,更接近充斥着复杂、模糊、连续实时视觉信息的多模态真实世界,更能充分发挥端侧 AI 传感器富集、贴近用户的优势。 亮点众多,延续了「小钢炮」系列一贯的以小博大与高效低成本,划重点如下: 「三合一」最强端侧多模态:首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V,单图理解越级比肩多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini 。 多项功能首次上端:实时视频理解、多图联合理解、多图 ICL 视觉类比学习、多图 OCR 等功能,第一次让端侧模型睁开观察、理解真实流动世界的「眼睛」,不仅看得清晰,还能有样学样、模仿学习。 极致高效,最高多模态像素密度: 类比知识密度,小钢炮2.6取得了两倍于GPT-4o的单 token 编码像素密度(token density),在端侧方寸之地,一路将大模型「能效比」挖到极限。这一进展,得益于视觉 token 相比上一代下降 30% ,比同类模型低 75%。 端侧友好:量化后端侧内存仅占 6 GB;端侧推理速度高达 18 tokens/s,相比上代模型快 33%。并且发布即支持 llama.cpp、ollama、vllm 推理;且支持多种语言。 统一高清框架,高效能力一拖三:小钢炮的传统优势 OCR 能力延续了其 SOTA 性能水平,并进一步覆盖单图、多图、视频理解。 MiniCPM-V 2.6 开源地址: GitHub:https://github.com/OpenBMB/MiniCPM-V HuggingFace:https://huggingface.co/openbmb/MiniCPM-V-2_6 llama.cpp、ollama、vllm 部署教程地址: https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc MiniCPM 系列开源地址: https://github.com/OpenBMB/MiniCPM 单图、多图、视频理解 3 SOTA! GPT-4V级、三合一最强端侧多模态 注:指20B以下、端侧模型SOTA 以小博大,是端侧模型的核心竞争力。 仅 8B 参数,新一代 MiniCPM-V 2.6 不仅再一次取得了媲美 GPT-4V 的综合性能, 还首次作为端侧 AI 模型,掀开单图、多图、视频理解三项多模态核心能力全面超越 GPT-4V 之新格局,且均实现 20B 参数以下模型性能 SOTA。 在 MiniCPM-V 2.6 的知识压缩率方面,我们发现,MiniCPM-V 2.6 体现出极致的高效, 取得了两倍于 GPT-4o 的最高多模态大模型像素密度(Token Density) 。 Token Density = 编码像素数量 / 视觉 token 数量,是指单个 token 承载的像素密度即图像信息密度,直接决定了多模态模型实际的运行效率,数值越大,模型运行效率越高。 闭源模型的 Token Density 由 API 收费方式估算得到。结果表明 MiniCPM-V 2.6 是所有多模态模型中 Token Density 最高的,延续了小钢炮一贯的极致高效特点单图方面:在综合评测权威平台 OpenCompass 上,单图理解能力越级超越多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini。多图方面:在多图评测权威平台 Mantis-Eval 榜单上,MiniCPM-V 2.6 多图联合理解能力实现开源模型SOTA ,且超越 GPT-4V。视频方面:在视频评测权威平台 Video-MME 榜单上,MiniCPM-V 2.6 的视频理解能力达到端侧 SOTA,超越GPT-4V。此外,在 OCRBench上,MiniCPM-V 2.6 OCR 性能实现开源+闭源模型 SOTA,延续并加强了小钢炮系列 最强端侧 OCR 能力 的传统优势。在 幻觉 评测榜单Object HalBench上,MiniCPM-V 2.6 的幻觉水平(幻觉率越低越好)优于GPT-4o、GPT-4V、Claude 3.5 Sonnet 等众多商用模型。 实时视频理解,首次上端! 睁开端侧「眼睛」,打开具身广阔潜力 真实世界的视觉信息是流动的! 端侧视频理解具有天然优势,手机、PC、AR、机器人、智能座驾等端侧设备自带的摄像头,具有天然的多模态输入能力。相比云端,离用户更近,链路更短,效率更高,同时具有更强的信息安全优势。 有了实时视频理解功能,大模型犹如拥有一双「眼睛」,能够实时看到真实世界,这是多模态大模型走向具身智能等更多实际领域,实现 AGI 的必要条件之一。此外实时视频理解功能也让人机交互也更加自然友好。 MiniCPM-V 2.6 让实时视频理解功能第一次运行在端侧。 在下面对面壁智能公司实时拍摄中,室内场景的各种办公设备、墙上、会议室上的文字都能轻松被模型精准识别。此外,对于「太长不看」的视频,现在可以直接把文件拖进来,让模型为你总结重点信息,不用看完、不用倍速、也不用快进。这段 1 分钟左右的天气预报视频,MiniCPM-V 2.6 能在没有听到任何语音的情况下,发挥强大的视频 OCR 功能,识别出视频画面里密集的文字,给出不同视频段落中不同城市的详细天气描述。 注:该结果为代码环境中复现 多图联合理解,首次上端! 流畅、聪明,一直识图一直爽 钻研多模态模型能力的不竭动力,源自于它更接近真实世界的形态,充斥着画面、视频、语言等多种模态、同时并发的信息。 难以想象,当我们睁开眼睛看世界,只能一个画面、一个画面,顺次机械而卡顿地识别理解;也不会事事都能得到精准的文字指示,像小孩子模仿大人行为举止般「有样学样」地揣摩学习与动作跟随,是绝大多数我们学习与尝试新事物时所发生的样子。 将端侧AI的多模态能力进行极致探寻,最新发布的 MiniCPM-V 2.6 首次将 多图联合理解、多图ICL(上下文少样本学习 ) 功能集成在端侧模型,这也是此前业界多模态王者 GPT-4V 引以为傲的能力。 1. 流畅的多图多轮理解,爽! 就像人们习惯把多个文件拖拽给大模型处理,在日常生活和工作中,联合处理多张图像是高频刚需。 比如常令人头疼的记账或报销难题,小票上密密麻麻的数字难以辨别,更别提进行繁琐的总账计算。拍照下来,一口气甩给 MiniCPM-V 2.6,除了一一找出每张小票的金额,最后还把总账计算出来,十分方便。 强大的 OCR 能力+CoT (思维链)能力加持,不仅小票金额精准抓取,解题思路与卷面呈现都清晰简洁:端侧多模态复杂推理能力也被一并刷新:比如这道 GPT-4V 官方演示经典命题:调整自行车车座。这个对人很简单的问题对模型却非常困难,它非常考验多模态模型的复杂推理能力和对物理常识的掌握能力。仅 8B 的 MiniCPM-V 2.6 展现出顺利完成这项挑战的潜力,通过和模型进行多图多轮对话,它清晰地告知完成调低自行车车座的每一个详细步骤,还能根据说明书和工具箱帮你找到合适的工具。 2. 强悍的多图复杂推理能力,竟能读懂你的梗! 得益于强大的多图复杂推理能力,MiniCPM-V 2.6 不仅能联合识别多张图片的表面信息,还能「读懂」梗图背后的槽点。比如让模型解释下面两张图背后的小故事,MiniCPM-V 2.6 能够通过OCR精准识别到两张图片上的文字:「WFH Employees 8:59 AM」和 「WFH Employees 9:00 AM」, 推理出「WFH」居家办公状态,然后结合两张图片的视觉信息联合推理出「工作在家时,8:59还在床上睡觉,9点立马出现在视频会议上」的居家办公的「抓狂」状态,尽显梗图的槽点和幽默, 可谓是多图联合理解和 OCR 能力的强强结合。多图复杂推理能力表现惊艳,单图也不在话下。MiniCPM-V 2.6 能轻松揣测出梗图中很多未明显露出的潜台词,简直是充满幽默感的大模型「梗王」。 左右滑动查看 多图 ICL,首次上「端」! 大模型学会揣测模仿,有样学样 很多时候,很多场景,难以用语言完全说清,通过明确定义的语言 prompt 来控制模型的输出行为难以奏效。 这个时候,图文信息一起「看」来理解,就像我们婴童时期那样观察、模仿、学习,往往更加直接与准确。 这其实就是多图 ICL(In context learning)上下文少样本学习,它能激发出模型的潜力,让模型无需fine-tune,即可快速适配到特定领域和任务,显著提高模型的输出稳定性。 在下面的例子中,我们直接通过视觉 prompt 给大模型下指示: 给出两组神转折画面,以及对画面中的「梗」给出示意文字描述,例如一个戴着手套、重视卫生的厨师,下一秒却用戴手套的手直接去拿实际有些肮脏的纸币;一个看似热衷环保的人,却把塑料瓶装水打开装进环保水壶…… 这时 MiniCPM-V 2.6 能够自动从前面两组图文关系,揣摩出题人的意图,并自动学会「答题模版」,给出神转折答案—— 一个人手握大量加密数字货币,可你猜怎么着,他出门购物,可是商店却只收现金! 统一高清视觉架构 高效多模态能力一拖三 新一代小钢炮的最大亮点: 单图、多图、视频理解 等核心能力对 GPT-4V 的全面对标。 从单一优势,到全面对标,大幅跃进从何而来?在 Qwen2-7B 基座模型的性能加持之外,要归功于采用了统一高清视觉架构。 统一高清视觉架构,让传统单图的多模态优势功能得以继承,并实现了一通百通。 例如, 多管齐下的 OCR SOTA 能力: 它将 MiniCPM-V 单图场景的「180万高清图像解析」进行能力迁移和知识共享,无缝拓展至多图场景和视频场景,并将这三种视觉理解场景统一形式化为图文交替的语义建模问题,共享底层视觉表示机制,实现相比同类型模型,视觉 token 数量节省超过 75% 。 OCR 信息提取的基础上,MiniCPM-V 2.6 还能进一步对表格信息进行 类似 CoT(思维链)的复杂推理。 比如让模型计算 2008 年奥运会获得金牌数最多的 3 个国家一共获得了多少枚金牌,CoT 的过程是: 首先利用 OCR 能力识别并提取出奖牌榜中金牌数量的前三名国家; 再将前三名国家的金牌总数相加。 8.2%的超低幻觉率,亦是发挥了小钢炮系列AI可信方面的传统优势。面壁 RLAIF-V 高效对齐技术对低幻觉贡献颇多,MiniCPM-V 2.6 的复杂推理能力和通用域多图联合理解能力亦因面壁 Ultra 对齐技术得到一并增强: 在多模态复杂推理能力对齐方面,MiniCPM-V 2.6 通过复杂题目的 CoT 解答数据,构造高效对齐种子数据,并通过模型自迭代完成数据净化和知识学习。 在多图联合理解方面,MiniCPM-V 2.6 从通用域自然网页中结合文本线索挖掘多图关联语义,实现多图联合理解数据的高效构造。 在端侧最强多模态的道路上,小钢炮 MiniCPM-V 系列已成为标杆性的存在。 自24年2月1日首次开创端侧部署多模态先河,短短半年,即接连完成了端侧模型从单一、到全面对标 GPT-4V 的重大突破,小钢炮系列下载量已破百万! 为何面壁「小钢炮」系列,频出以小博大的多模态端侧佳作? 可以说,MiniCPM 端侧模型系列,正是面壁长期以来「大模型科学化」路线的结晶。 一方面,通过科学提升训练方法与数据质量,不断提升大模型「知识密度」,得到同等参数,性能更强、成本更低的高效模型。 两倍于 GPT-4o 的巅峰级单 token 图像信息密度(Token Density),小钢炮 2.6 交出一份漂亮的多模态高效运行效率成绩单。 另一方面,面壁不断钻研 OCR、多图与视频理解等核心多模态能力创新技术,并持续突破对于端侧极为关键的能耗与内存极限,把最优秀的多模态模型放在离用户最近的地方!相比上代模型快 33%,高达 18 tokens/s 的推理速度,6GB 的内存占用…… 每一点滴对模型「能效比」的锱铢必较,只为了你将 iPad 捧在手心的那一刻,实时丝滑酣畅的体验。开源地址:https://github.com/OpenBMB/MiniCPM-V https://huggingface.co/openbmb/MiniCPM-V-2_6 部署教程:https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc
AI模型提早5年预警乳腺癌,MIT研究登Science获LeCun转发
科学家正在通过AI的力量,改变乳腺癌的现状。 在全球范围内,每年有超过60万名女性因乳腺癌而无法存活。 美国有八分之一的女性一生中会被诊断出患有乳腺癌。这些数字听起来很可怕,但并非毫无希望。当处于最早的局部阶段时, 5年相对生存率为 99%。近年来,早期检测和治疗方法的进步显著提高了乳腺癌的生存率,目前美国有超过400万乳腺癌幸存者。AI,就是这项进步背后的一个重要推动性力量。近日,Science在X上连发多篇帖子,展现了AI在乳腺癌检测方面的应用潜力。「人工智能提前5年检测出乳腺癌」。这条推文不仅得到了Lecun的转发,也引发了大量网友的讨论。AI对人类社会的影响,绝不只有当下大热的生成式AI,更可能「going to save lives」,为人类减少病痛,带来福祉。MIT CSAIL实验室和Jameel Clinic的科学家创建了一个深度学习系统「Mirai」,可以根据传统的乳房X光检查来预测乳腺癌风险。 论文地址:https://www.science.org/doi/10.1126/scitranslmed.aba4373 「Mirai」标志着向个性化癌症筛查和更好的患者治疗结果迈出了重要一步。 Mirai:更早发现乳腺癌 减少筛查伤害 乳房X光检查(Mammogram)用于检测没有乳腺癌体征或症状的女性的乳房变化。世界各地的卫生组织支持Mammogram筛查以实现早期癌症检测,并且它已经证明了其价值,可将死亡率降低 20-40%。虽然这是一个用于早期检测的最佳工具,但有很多亟待改进的地方:假阳性、假阴性、图像解读中的人为差异以及缺乏专业放射科医生……而Mirai作为一个深度学习系统,可以借助人工智能的力量来预测乳腺癌的形成,它包括三项关键创新:- 时间点联合建模- 非图像风险因素的选择性使用- 确保跨临床环境中性能一致性这使得Mirai能够提供准确的风险评估,并适应不同的临床环境。Mirai不仅可预测患者在未来不同时间点的风险,还可纳入年龄和家族史等临床风险因素(如果有的话)。此外,它还能在微小的临床差异(如不同的乳腺X射线照相设备)情况下保持稳定的预测结果。该模型很有前途的一点在于,它能够适用于不同人种。Mirai对白人和黑人女性的准确率相当,鉴于黑人女性的乳腺癌死亡率比白人妇女高出43%,这是一项重大进步。 大规模验证 为了将基于图像的风险模型整合到临床护理中,研究人员需要对算法进行改进,并在多家医院进行大规模验证。研究小组利用麻省总医院(MGH)的20万多份检查结果对Mirai进行了训练,并利用麻省总医院、瑞典卡罗林斯卡研究所和台湾长庚纪念医院的数据对其进行了验证。现在安装在MGH的Mirai在预测癌症风险和识别高危人群方面的准确性明显高于以前的方法。它的表现优于Tyrer-Cuzick模型,识别出的未来癌症诊断数量几乎是Tyrer-Cuzick模型的两倍。而且,在不同种族、年龄组、乳房密度类别和癌症亚型中,Mirai 都能保持准确性。CSAIL博士生、论文的第一作者Adam Yala说,「改进后的乳腺癌风险模型能够实现有针对性的筛查策略,与现有指南提供的方法相比,可以更早发现乳腺癌并减少筛查伤害。」该团队正与来自全球不同机构的临床医生合作,在不同人群中进一步验证该模型,并研究其临床实施情况。目前,研究人员正在改进Mirai,利用患者的完整影像病史,并结合断层合成等先进筛查技术。这些改进措施可以完善风险筛查指南,为高风险人群提供更敏感的筛查,同时减少其他不必要的程序。 将AI应用于乳腺癌检测的更多研究 不止Mirai,Science还推荐了有关AI检测乳腺癌的更多研究。为了提高乳腺癌的生存率,研究人员设计了一种可穿戴超声波设备,可以让患者在早期阶段检测到肿瘤,这项研究同样来自MIT。麻省理工学院工程学院院长Anantha Chandrakasan、电子工程和计算机科学教授Vannevar Bush,以及一位该研究作者说道:「这项工作将利用材料、低功耗电路、人工智能算法和生物医学系统方面的进步,极大地推动超声波研究和医疗设备设计。」「并且为乳腺癌的检测和早期诊断提供了一项基本能力,而这是取得积极疗效的关键。」除此之外,此前《纽约时报》有过一则「AI检测出了医生遗漏的乳腺癌」的相关报道。报道称,匈牙利已成为人工智能软件发现癌症的主要试验场,医生们正在争论这项技术是否会取代他们的医疗工作。2016 年,世界领先的人工智能研究人员之一Geoffrey Hinton认为,该技术将在五年内超越放射科医生的技能。「我认为,如果你是一名放射科医生,你就像动画片里的Wile E. Coyote」,他在2017年对《纽约客》说。「你已经在悬崖边上了,但你还没有往下看,下面是看不到地面的深渊。」Hinton所言非虚,在Science发布的推特中,就有一篇研究发现,使用人工智能的医生比不使用人工智能的医生更容易发现乳腺癌。这项研究表明,人工智能还能自动处理一半以上的扫描,大大减轻放射科医生的工作量。 将研究推向市场 Science在X上还特别提到了一个人——Dr. Connie Lehman。 Connie Lehman是哈佛医学院放射学教授兼马萨诸塞州总医院放射专家,也是本文开头具有奠基性作用的论文的合著者。她早在1998年开始从事计算机辅助设计 (CAD) 工作时,就对其改善乳腺癌检测的潜力感到兴奋。她坚信CAD技术将帮助放射科医生发现更多癌症、实现早期诊断,并有可能产生更高的治愈率。但故事并没有像她想象的那样结束。「虽然实验室的研究发现CAD可以发挥作用,但它并没有在临床上产生我们所希望的影响。」Lehman回忆道,「但我谨慎乐观地认为,新的人工智能模型将更成功地利用计算机的力量来增强成像的影响。」如今的Lehman正在将Mirai背后的技术推向市场,创办了Clairity。Clairity致力于利用人工智能的进步让医学图像释放出新的见解,准确地识别出那些患癌症风险最高的人。值得一提的是,Dr.Lehman对自己的研究成果相当低调,这个消息还是Lehman的儿子透露给Science的。后来又获得了Science的转发。并写下了「AI CAN BE GOOD!」这样令人充满期冀的文字。 参考资料:https://news.mit.edu/2021/robust-artificial-intelligence-tools-predict-future-cancer-0128 https://www.cnn.com/videos/health/2023/03/07/artificial-intelligence-breast-cancer-detection-mammogram-cnntm-vpx.cnn https://news.mit.edu/2023/wearable-ultrasound-scanner-breast-cancer-0728
别只盯着ChatGPT版「Her」,在多模态AI拟人互动上,国内玩家也支棱起来了
如今的 AI 在识别人类情感方面发展到什么程度了?本月初,一场向更具情感 AI 发起挑战的高规格赛事落下了帷幕! 这就是第二届多模态情感识别挑战赛(MER24),它由清华大学陶建华教授、中国科学院自动化研究所连政、帝国理工学院 Björn W.Schuller、奥卢大学赵国英以及南洋理工大学 Erik Cambra 联合在 AI 顶会 IJCAI2024 上发起举办,探讨如何利用文本、音视频等多模态数据来进行 AI 情感识别,并推动相关技术在真实人机交互场景中的落地应用。 大赛官网:https://zeroqiaoba.github.io/MER2024-website/#organization 本届挑战赛共设置了三个赛道,分别为 Semi(半监督学习赛道)、Noise(噪声鲁棒性赛道)和 Ov(开放式词汇情感识别赛道),其中 Semi 赛道参赛队伍最多且难度最高、竞争最激烈。 以 Semi 赛道为例,参赛队伍需要利用少量有标签和大量无标签数据视频数据来训练自己的模型,并对模型在无标签数据集上的表现和泛化能力进行评估。该赛道获胜的关键在于通过改进半监督学习技术来提高模型情感识别性能,比如预测情绪类别的准确率。 自 5 月大赛启动起,两个月时间,来自全球近百支参赛队伍展开了角逐,既不乏知名高校也有创企新势力。其中 Semi 赛道第一名由社交平台 Soul App 摘得,其语音技术团队凭借可行性创新技术方案拔得头筹。 不过,在揭秘 Soul 团队技术方案之前,我们有必要先来了解 AI 在多种模态中的情感识别能力。 人机交互下一步 要让 AI 懂情感 如今的 AI 看起来已经无所不能,对话交流、生成图片或视频、解数学题等,能够胜任感知、学习、推理、决策等不同层面的任务。得益于大模型的加持,AI 可以称得上足够聪明,但在感同身受等情感层面却有所欠缺。 在人机交互中,用户有时不单单需要 AI 遵循指令完成任务,还要它们提供足够的情绪价值,满足情感需求。从功能「基操」到情感「进阶」,AI 要掌握的技能就要升级了。 因此,多模态情感识别成为 AI 领域的活跃研究课题。能读懂情绪并传达情感的 AI 成为业界追逐的新热点,也被认为是 AI 领域下一个重大突破。近半年来,一些 AI 创业公司和行业巨头为我们揭开了人机沉浸式交互的新形态。 四月初,国外一家创业公司 Hume AI 发布了一款语音对话机器人 Empathetic Voice Interface(EVI),它通过语音交流分析和识别对话者的语气和情绪,可以检测到多达 53 种情绪。此外它还能模拟不同的情绪状态,在互动中更接近真人。在 AI 情感层面的突破也让这家初创公司快速拿到了 5000 万美元 B 轮融资。 接下来是 OpenAI 放了大招,旗舰模型 GPT-4o 展现了实时音视频通话功能,对用户情感和语气做出即时响应,被称为 ChatGPT 版「Her」,而这个语音功能在近期正式对用户开放。自此,AI 拥有了强大的能言善辩、感知情绪能力,让人直呼科幻时代的到来。 国内如微软小冰、聆心智能等也致力于打造有情感的 AI 产品。我们从中可以看到一种趋势:情感识别能力在文本、音视频等多模态 AI 应用中的参与度越来越高。不过要想在拟人化情感识别领域更进一步,仍需解决有标签数据稀缺、主观情绪识别不稳定和不准确等问题。 因此,推动学界、业界更加关注多模态情感识别领域,并加速相关技术的创新和进步,变得尤为必要。当前,ACM MM、AAAI 等 AI 学术顶会都将情感计算作为一个重要的研究主题,CVPR、ACL 等顶会也曾举办过情感计算相关挑战赛。特别是在面对大数据和大模型时代的来临,如何在多模态情感识别中利用大量无标签数据和有效处理、融合不同模态信息是目前行业面临的重大挑战,此次 MER24 挑战赛举办的原因和意义也在于此。 而 Soul 团队在 Semi 赛道获得第一名,背后是其在多模态数据理解、情感识别算法、模型优化平台工具、内部工作流建设等方面的能力积累与创新,以及技术团队的高效协作。 夺得最难赛道头名 Soul 团队都做了什么? 既然提到 Semi 赛道难度最高,难在哪些方面?Soul 团队又如何获得第一名?我们接着往下看。 数据是 AI 三大要素之一,没有充足特别是高质量的数据训练,模型就无法保证很好的性能效果。面对数据稀缺带来的种种挑战,业界既要扩增包括 AI 生成数据在内的所有类型数据,也注重提升数据稀疏场景的模型泛化能力。多模态情感识别任务也是如此,它的核心在于海量标签数据的支撑,对文本、音视频等不同类型的内容打上喜怒哀乐悲等情感标签。现实却是,互联网上带情感标签的数据非常稀缺。 此次大赛的 Semi 赛道仅提供了 5030 条有标签数据,其余 115595 条均为无标签数据。因此,有标签数据稀少成为包括 Soul 团队在内所有参赛队伍遇到的首个难题。 图源:MER24 基线论文:https://arxiv.org/pdf/2404.17113 另一方面,相较于 Noise、Ov 赛道,Semi 赛道侧重于考验核心主干技术,即更多地关注模型架构的选择以及特征提取泛化能力,对多模态大模型技术技术积累以及创新性要求比较高。 针对赛道少标签数据、高技术要求的特征,Soul 团队基于此前积累的自研大模型部分模块做好了充足的赛前准备,并确定了一套可行性创新技术方案。在整体思路上采取「先主干后微调」的策略,首先集中精力提高每一个核心特征提取模型的泛化性,然后再融合在一起;在具体实现过程中又做了以下几个方面工作。这些构成了他们的核心优势。 首先前期关注多模态特征提取。在端到端模型架构中,利用预训练模型提取文本、语音和视觉不同模态的情感表征,关注情感中的共性和差异性,从而来提升情感识别效果。后期根据多种模态的各模态特征提出有效的融合方法,将这些模块融合形成模型架构。为了提高预训练模型的泛化性能,Soul 团队专门针对视频模态在情感识别领域首次提出了 EmoVCLIP,EmoVCLIP 是一个基于大模型 CLIP 结合 prompt learning 技术在视频情感识别领域更具泛化性能的模型。 另外,为了提高文本模态情感识别能力,Soul 团队针对文本模态使用 GPT-4 来打情感伪标签,充分利用 GPT-4 的情感关注能力,提高文本模态在情感识别的准确率,为后面进一步模态融合打下了更好的基础。 其次,在多模态特征融合上,Soul 团队首次在多模态情感识别方向使用了 Modality Dropout 策略并研究了不同 dropout rate 的性能影响,为了缓解模态之间的竞争问题,在模型训练过程中随机抑制某个的模态(文本、语音或视频模态)以实现更好的鲁棒性,提升模型在提供的有标签数据之外未见过数据上的泛化能力。 最后,半监督学习技术开始发挥作用,其基本思路是使用有标签数据训练出一个模型,然后对无标签数据进行预测,根据预测结果为无标签数据生成伪标签。这些伪标签又用来训练模型,持续提升模型效果。Soul 团队利用半监督学习中这种自训练(Self-training)的策略,循环地为 Semi 赛道超 11 万条无标签数据打伪标签并加入训练集,进行模型迭代更新,得到最终的模型。 Soul 团队参赛技术方案图。 从整体思路到多模态特征融合、对比学习、无标签数据自训练,Soul 团队的技术方案为他们带来了好结果。最终在语音、视觉和文本多模态情感识别准确率上,Soul 团队提出的系统比基线系统提升了 3.7%,达到了 90%以上。同时,对于情感识别领域方向上存在易混淆边界的情感(比如忧虑和担心)识别,Soul 团队也能区分得更好。 图源:MER24 基线论文:https://arxiv.org/pdf/2404.17113 从更深层次看,此次 Soul 团队在 MER24 挑战赛的脱颖而出,是其一直以来在社交领域深耕 AI 大模型技术尤其是多模态情感化交互能力的集中体现。 创新多模态拟人互动 社交型 AI 已是 Next Level 社交领域天然需要有情感的 AI。一种主流观点认为,社交的本质是情绪价值的互换,而情绪又多种多样。这意味着,如果 AI 想要无缝融入社交场景并高效发挥作用,势必要像真人一样提供丰富的情感反馈和体验。 而实现共情 AI 的基础在于让其拥有强大的多模态情感识别能力,在功能上从单纯的「任务执行者」进化到「满足人类情感需求的陪伴者」。但 AI 做到有效地理解情绪依然非常困难,它在理解语境、感知用户情绪、给出情感反馈、进行思考等方面与人类存在本质的区别,因此相关技术与算法的持续创新很重要。 对扎根社交领域的 Soul 来说,着力构建具备情感化能力的 AI 已成为需要思考的重要命题。2016 年上线之初,Soul 首先思考如何运用创新技术和产品来更好地满足用户需求,其中引入 AI 来解决人与人连接需,成为其站稳社交领域并发展壮大的关键。较早推出的「灵犀引擎」利用智能推荐算法,挖掘分析用户兴趣图谱和站内全场景特征,让他们更容易找到聊得来的人和更需要的内容,形成高粘性用户和内容生态。至今,这种更「聪明」的算法应用的匹配场景,也是 Soul 上用户非常活跃的功能之一。 有了早期 AI 辅助社交的成功经验,在这波大模型快速发展的技术浪潮中,Soul 进一步在 AI 介入社交、辅助关系网络的基础上,探索人机互动的新可能。 自 2020 年启动 AIGC 相关算法研发工作开始,Soul 便以多模态为方向,在智能对话、图像生成、语音和音乐生成等多方面拥有了前沿能力积累。相比纯技术向的 AI 创业新势力,Soul 的一大特点在于采用了「模应一体」策略,在 C 端同步推进大模型与 AIGC 应用的过程中注重打造具备情感识别能力的 AI,在丰富拟人化交互场景中真正实现有温度的反馈。 从 Soul 近两年的动作可以看出,其加快了 AIGC 赋能社交场景的步伐。2023 年推出自研语言大模型 Soul X,成为 AIGC + 社交布局的重要基建。在该模型的 Prompt 驱动、条件可控生成、上下文理解、多模态理解等能力加持下,站内对话不仅实现了流畅自然,更具备了情感温度。 文本成为 Soul 情感识别能力落地的牛刀初试,并逐渐从单一模态延伸到了更多模态。今年,Soul 上线语音生成大模型,并正式升级自研语音大模型,覆盖了语音生成、语音识别、语音对话、音乐生成等细分领域,在支持真实音色生成、语音 DIY 等功能的同时具备了多情感拟真人实时对话能力。 当然,Soul 在模型层面持续发力更具情感 AI 之外,也已经在其平台多元化的社交场景中让它们发挥用武之地,进一步丰富和提升用户的 AI 互动体验。 以 Soul 拟人型对话机器人「AI 苟蛋」为例,它依托 Soul 自研语言大模型 Soul X,实现了拟人化交互,不仅可以精准理解用户输入的文本、图片等多模态内容,还能在多轮沟通中根据对话场景为他们主动送去关怀,仿佛对话那头真人一般。同时用户也可以定制专属苟蛋,体验独一无二的虚拟人交互。 AI 苟蛋还展现出了在拟人化、知识、多模态、时间感知等多方面的融合能力,令 Soul 站内很多用户都对它强大的拟人交互能力感叹,这也是为什么 Soul 平台有不少用户会主动发帖吐槽「苟蛋怕不是个真人吧」。 此外,Soul 同样依托 Soul X 在游戏场景「狼人魅影」中引入 AI NPC,借助先进的强化学习技术,在游戏各个阶段具备了伪装、信任、领导与对抗等拟人决策能力,可以直接与用户玩起狼人杀,发言毫无违和感。 再比如 Soul 推出了主站外首个独立新应用「异世界回响」。作为一个 AI 社交平台,用户可与其上多场景、多风格的虚拟人角色展开沉浸式即时交流,这些角色均具备了形象、声音、人设对话能力。当然,用户可以定制虚拟角色,并根据喜好自定义人设(如背景经历、性格等),可玩性很高。 同样地,自研语音大模型也在 AI 苟蛋、狼人魅影以及异世界回响等场景中发挥作用。比如在异世界回响中支持了语音通话功能,拥有类真人音色的虚拟角色与用户自然、实时地对话交流,丰富了互动体验。 “异世界回响” 实时语音通话功能。 在持续深化智能对话、游戏和语音等社交场景的 AI 拟人化互动之外,Soul 还在视觉生成领域构建符合自身审美的多样画风生成能力,打造 AI 数字分身,进一步迈向多维度的综合互动体验。 可以看到,Soul 在 AI 情感识别领域的布局已经覆盖了语言、语音和视觉多模态,在与社交紧密关联的文字、图片、音频和视频场景齐发力,让用户在立体、多感官的人机互动中体验有温度的 AI。 结语 2024 年被很多圈内人士称为 AIGC 应用元年,大家关注的焦点不再只是拼参数和基础能力了。在由模型层向应用层转移的趋势下,率先在垂类领域和场景落地 AI 才能赢得更多用户和市场。尤其是面向 C 端赛道的人机交互,更天然地需要围绕用户需求做文章。这一点在社交领域有着很好的体现。 此前 AlienChat 等多款恋爱 App 停服,「第一批和 AI 恋爱的年轻人失恋」讨论话题上了热搜。在这背后,功能同质化是一部分原因,还在于体验上没有从助手 / NPC 角色转变为真正提供情绪支持的陪伴者。这就要求在社交领域通过丰富人机互动方式和场景,让 AI 全面参与到各个社交环节,与用户深层次情感交流,为他们提供情绪价值。 这或许也将是 AI 社交方向接下来的核心竞争点之一。而这也不难理解,为什么作为应用层的 Soul 会如此看重自研技术能力积累。在过去一段时间,其一方面致力于打造个性化、拟人化、多样化的 AI 能力;另一方面,从多个维度加速 AI Native 应用落地,包括社交体验提升、AI 社交、AI 游戏等,形成完备的 AI 产品链,在多样社交场景中为用户提供 AI 互动的乐趣。 可以说,Soul 近年来基于自研语言和语音大模型孵化出了一系列产品成果,并在提升 AI 与用户情感化互动体验的过程中积累了丰富创新技术和实践经验,这些都为其在 MER24 挑战赛中夺得第一名做足了铺垫,也是其能与来自国际的高质量参赛队伍切磋交流的基础。 近年来,这类挑战赛越来越多,比如 CVPR 2024 Workshop 上的 NTIRE 2024 AIGC 质量评价挑战赛、2023 和 2024 连续两届 MER 挑战赛,国内企业凭借实践中积累的技术屡屡能取得佳绩。比如去年取得 MER23 第一的商汤和今年第一的 Soul,这些企业对 AIGC 技术和应用的重视和投入收到了显著成效。 可以预见,未来像 Soul 这样坚持技术和产品创新的平台会在释放 AI 能力的过程中持续为用户创造价值,这样一来在形成繁荣内容和社区生态的基础上才可能实现自身更持久、更多样化的商业价值。
揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化
在 2024 年全球开发者大会上,苹果重磅推出了 Apple Intelligence,这是一个全新的个性化智能系统, 可以提供实用的智能服务,覆盖 iPhone、iPad 和 Mac,并深度集成在 iOS 18、iPadOS 18 和 macOS Sequoia 中。 库克曾经表示,Apple Intelligence 是苹果创新的新篇章,将改变用户使用产品的方式。他强调,苹果独特的方法结合了生成式人工智能和用户的个人信息,能提供真正有用的智能服务。此外,Apple Intelligence 能够以完全私密和安全的方式访问信息,帮助用户完成对他们最重要的事情。这是苹果独有的 AI 体验。 如今,距离 Apple Intelligence 官宣一个多月过去了,这项技术终于落地智能设备,相关技术文档也终于放出。 在刚刚过去的一天,拥有 iPhone 15 Pro 或 iPhone 15 Pro Max 的用户可以下载 iOS 18.1 开发测试版,并可以体验 Apple Intelligence 的功能了。 随着这篇长达 47 页技术报告的出炉,我们可以更加深入的了解 Apple Intelligence 背后的秘密武器。 报告地址:https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf 报告详细介绍了其中两款模型 ——AFM-on-device,AFM 代表 Apple Foundation Model,是一个约 30 亿参数的语言模型,以及一个更大的基于服务器的语言模型 AFM-server,可以高效、准确和负责地执行专门的任务(图 1)。 这两个基础模型作为苹果更大的生成模型系列的一部分存在。 架构及训练 AFM 基础模型是基于 Transformer 架构构建的密集解码器模型,采用如下设计: 共享输入 / 输出嵌入矩阵,以减少用于参数的内存使用。 使用 RMSNorm 进行预归一化以提高训练稳定性。 查询 / 键归一化以提高训练稳定性。 具有 8 个键值头的分组查询注意力(GQA),以减少 KV 缓存内存占用。 SwiGLU 激活,以提高效率。 RoPE 位置嵌入,基频(base frequency)设置为 500k,以支持长上下文。 AFM 预训练过程在开发高性能语言模型,以支持一系列 Apple Intelligence 功能方面发挥着关键作用。研究团队注重效率和数据质量,以获得高质量的端到端用户体验。 在后训练方面,研究团队发现改进通用后训练可以提升 Apple Intelligence 所有功能的性能,因为模型在遵循指令、推理和写作方面会具有更强的能力。 为了确保这些模型功能符合苹果对保护用户隐私的承诺,以及苹果的 Responsible AI 原则,后训练工作包括一系列数据收集和生成、指令调整和对齐创新。后训练过程包含两个阶段:监督微调(SFT)和来自人类反馈的强化学习(RLHF)。研究团队提出了两种新的后训练算法:(1)带有 teacher committee(iTeC)的拒绝采样微调算法,以及(2)一种用于强化学习迭代的 RLHF 算法,带有镜像下降策略优化(mirror descent policy optimization)和留一法优势估计器(leave-one-out advantage estimator)(MDLOO),使得模型质量显著提高。 Apple Intelligence特性 基础模型是为 Apple Intelligence 专门设计的,这是一个支持 iPhone、iPad 和 Mac 的个人智能系统。 苹果发现,针对特定任务的微调,他们可以将小模型的性能提升到一流水平,除此以外,他们还开发了一种基于运行时可交换适配器(runtime-swappable adapters)的架构,使单一基础模型能够专门用于数十个此类任务。图 2 显示了高级概述。 适配器架构 苹果使用 LoRA 适配器来针对特定任务进行模型微调。对于每项任务,研究者会调整 AFM 自注意力层中的所有线性投影矩阵以及逐点前馈网络中的全连接层。仅通过微调适配器,基础预训练模型的原始参数保持不变,可以保留模型的一般知识,同时定制适配器以支持特定任务。 量化 为了将 AFM 纳入内存预算有限的边缘设备并降低推理成本,需要考虑量化技术。先前的研究发现,与原始的 32/16 位浮点相比,经过 4 位量化的模型损失会很小。 为了在模型容量和推理性能之间实现最佳平衡,苹果开发了最先进的量化方法和利用准确率 – 恢复适配器(accuracy-recovery adapters)的框架。使得模型在每个权重平均小于 4 位的情况下,还能实现近乎无损的量化,并提供灵活的量化方案选择。 方法 经过后训练,模型被压缩和量化,得到平均低于 4 位的权重。量化模型通常表现出中等程度的质量损失。因此,苹果不会将量化后的模型直接用于功能开发,而是附加一组参数高效的 LoRA 适配器以进行质量恢复。 值得注意的是,训练准确率 – 恢复适配器具有样本效率,可以看作是训练基础模型的迷你版本。在适配器的预训练阶段,只需要大约 100 亿个 token(约占基础模型训练的 0.15%)即可完全恢复量化模型的能力。 由于应用程序适配器将从这些准确率 – 恢复适配器微调而来,因此它们不会产生任何额外的内存使用或推理成本。关于适配器大小,苹果发现适配器秩为 16 时提供了模型容量和推理性能之间的最佳权衡。 但是,为了灵活性,苹果提供了一套具有不同秩 {8、16、32} 的准确率 – 恢复适配器供应用程序团队选择。 混合精度量化 AFM 中的每个 transformer 块和每个层都存在残差连接。因此,所有层都具有同等重要性的可能性不大。根据这一直觉,苹果通过推动某些层使用 2 位量化(默认为 4 位)来进一步减少内存使用量。平均而言,AFM-on-device 可以压缩到每个权重仅约 3.5 位 (bpw),而不会造成显著的质量损失。 评估 研究团队使用常见的开源评估工具和基准来评估 AFM 预训练模型。表 2 展示了在 HELM MMLU v1.5.0 上 AFM-on-device 和 AFM-server 的结果。 这些基准测试表明,AFM 预训练模型具有强大的语言和推理能力,为后训练和特征微调提供了坚实的基础。 AFM 与开源模型(Phi-3、Gemma-1.1、Llama-3、Mistral、DBRX-Instruct)和商业模型(GPT3.5 和 GPT-4)的比较结果如下图3所示。与其他模型相比,AFM 模型更受人类评估人员的青睐。特别是,AFM-on-device 与 Phi-3-mini 相比,尽管模型规模小了 25%,但仍获得了 47.7% 的胜率,甚至优于开源强基线 Gemma-7B 和 Mistral-7B。 为了衡量模型生成响应遵循提示中指令的能力,研究团队在 IFEval 基准上评估了 AFM-on-device 和 AFM-server,结果如下图 4 所示: 如图 5 所示,AFM-server 实现了最佳的整体准确率,优于 Gemini-1.5-Pro-Preview-0514 和 GPT-4。 苹果将 AFM 与一些最出色的模型以及规模较小的开源模型进行了比较。如图 6 所示,与 Gemma-7B 和 Mistral-7B 相比,AFM-on-device 可以实现相当或更好的性能。AFM-server 的性能明显优于 DBRX-Instruct 和 GPT3.5,并且与 GPT4 相当。 图 7 比较了经过后训练的 AFM 在数学基准上的表现。结果发现,AFM-on-device 的性能明显优于 Mistral-7B 和 Gemma-7B,即使规模不到它们的一半。 下图为人类评分员评估 AFM-on-device 适配器、Phi-3-mini、Llama-3-8B 和 Gemma-7B 在摘要任务上的质量。图 8 显示 AFM-on-device-adapter 总体上优于其他模型。 负责任的AI Apple Intelligence 的开发和设计都注重保护用户隐私。 图 9 总结了人类评分员在不同模型上给出的违规率,越低越好。AFM-on-device 和 AFM-server 都对对抗性提示具有鲁棒性,其违规率明显低于开源和商业模型。 图 10 表明,与其他模型相比,AFM 模型更受人类评分员的青睐。
ACL 2024 Oral | 大模型也会被忽悠?揭秘AI的信念之旅
地球是平的吗? 当然不是。自古希腊数学家毕达哥拉斯首次提出地圆说以来,现代科学技术已经证明了地球是圆形这一事实。 但是,你有没有想过,如果 AI 被误导性信息 “忽悠” 了,会发生什么? 来自清华、上海交大、斯坦福和南洋理工的研究人员在最新的论文中深入探索 LLMs 在虚假信息干扰情况下的表现,他们发现大语言模型在误导信息反复劝说下,非常自信地做出「地球是平的」这一判断。 论文链接:https://arxiv.org/pdf/2312.09085 项目主页:https://llms-believe-the-earth-is-flat.github.io/ GitHub 源代码:https://github.com/LLMs-believe-the-earth-is-flat/llms-believe-the-earth-is-flat 生成式人工智能技术的快速发展,为生成虚假信息提供了便利。这些技术不仅能够创建逼真的文本、图像、音频和视频内容,还能够在社交网络上自动发布和传播这些内容。虚假信息的泛滥给社会带来了诸多挑战,但目前对这类信息的确切影响仍不十分清楚。然而,可以预见的是,随着技术的发展,虚假信息的生成和传播将会变得更加容易和普遍。 另一方面,大语言模型的上下文学习能力使其受到误导性信息的影响。这种误导性信息可能会在模型的部署过程中在上下文中被接受,并在模型生成的输出中反映出来,导致其产生不准确或具有偏见的内容。因此,研究者们正在努力探索如何提高大模型对虚假信息的识别能力和抵抗能力,这是提升大模型安全和鲁棒性的重要内容之一。 本篇研究就探索了这种有误信息对于大语言模型知识信念的影响,研究论文已经被 ACL 2024 接收,并选做大会报告(Oral)。 实验:大模型的 “信念” 测试 研究者们首先构建了一个名为 Farm(Fact to Misinform Dataset)的数据集,包含 1500 个事实性问题及其相关的误导性信息。他们在大语言模型的帮助下系统性地构造了更具有说服力的有误信息:首先,他们对原始正确的事实性 QA 进行语义取反或者构造错误答案,随后利用 “越狱” 后的大模型协助生成更具有说服力的长文本有误信息。 利用这些数据,便可以测试大语言模型在多轮对话中面对虚假信息时的反应。测试过程分为三个阶段:初始信念检验、多轮对话中劝说误导、结果信念检验。模型的信念检验通过模型在闭卷 QA 中答案的信心分数反应。通过这种方式,研究者们能够观察到 LLMs 在多轮对话中信念的变化。 多轮测试框架 主要结果 在劝说性交流阶段,研究者们使用了多种策略来误导 LLMs 改变其信念。这些策略包括晓之以理的劝说(LO)、树立权威的劝说(CR)和动之以情的劝说(EM)。结果显示,即使是最先进的模型,如 GPT-4,也有高达 20.7% 的可能性被虚假信息所影响。基于对 ChatGPT、GPT-4、Llama-2-7B-chat、Vicuna-v1.5-7B、Vicuna-v1.5-13B 五种大模型平均准确度(Average Accuracy Rate, ACC)和被误导率(Misinformed Rate, MR)的实验,研究者们有五点发现: 绝大多数大模型都易被虚假信息欺骗:从最先进的 GPT-4 (注:本研究的完成时间是 2023 年 9 月,当时最先进的模型是 GPT-4)到最差的模型,所有模型在经过多轮测试之后,误导率从 20%-80% 不等。 越先进的大模型抵抗虚假信息能力越强:实验表明,抵抗能力最强的是 GPT-4 模型,其能以 80% 坚持自己的事实信念。这给了我们一些宽慰:上下文理解能力越强的模型,并非更容易受到有误信息的干扰! 多次重复虚假信息比单次输出虚假信息更能骗倒大模型:通过多轮引入的虚假信息,其作用要胜过单此的引入,这很符合我们对安全性对齐的常识 —— 有害内容越多,模型越容易被其影响。 运用修辞的劝说性虚假信息更容易骗倒大模型:使用更复杂,更具有说服力的修辞可以增加模型改变看法的概率。这点就和人一样,越 “真实” 的假信息,你越容易相信 逻辑性说服比其它说服方式更有效:模型对逻辑性强的信息特别敏感,无论是真实信息还是虚假信息,只要逻辑连贯一致,就更容易影响模型的判断。这表明,模型在处理信息时,可能过分依赖于表面的逻辑结构,而忽略了对信息来源和内容真实性的深入验证。 ChatGPT 和 GPT4 在不同劝说策略下的正确率(虚线)和误导成功率(实线) 大模型面对虚假信息的五种反应 在面对虚假信息时,AI 表现出了五种不同的行为:拒绝(Rejection)、奉承(sycophancy)、不确定(Uncertainty)、接受(Acceptance)和自我不一致(Self-Inconsisitancy)。这些行为揭示了 AI 在处理错误信息时的复杂性。例如,拒绝行为表明 AI 坚持正确的答案,不受错误信息影响;而奉承行为则表明 AI 在对话中表面上接受错误信息,但内心仍坚持正确答案。 模型的信念和对应面对误信息的行为:拒绝,奉承和接纳 研究还发现,在经过一轮虚假信息交互后,大语言模型的信心程度往往会降低。然而,对于一些问题,重复虚假信息却让大模型更加确信自己的答案,这种现象被称为 “逆火效应(Backfire Effect)”。 如何提升抗虚假信息干扰能力? 研究组发现,由于 RLHF(Reinforcement Learning with Human Feedback)算法,大模型在训练中会倾向于接受用户的输入,即认为外界的 context 总是友善且正确的。而且当大语言模型有足够信息支撑观点时,会对正确的回答更有信心。 为了帮助大模型提升抗虚假信息干扰能力,研究者们提出了一种轻量级解决方案:在检测到虚假信息后,使用 safety system prompt 对大模型进行提醒,并在回答之前从自己的参数化知识中检索相关信息。这种方法在一定程度上减少了虚假信息对大模型的影响。 加入 safety system prompt 后,模型抗干扰能力显著提升 OpenAI 的看法 有趣的是,OpenAI 在 2024 年 5 月发布了最新的 AI 模型行为准则,其中特别提到了 “认知冲突” 的处理。在此部分的示例中,他们使用了 “地球是平的” 这一例子来说明模型在面对与已知事实相冲突的信息时应如何反应,与本次研究团队的标题不谋而合,也更加突显了大语言模型在处理认知冲突时的行为表现的重要性。 https://cdn.openai.com/spec/model-spec-2024-05-08.html 研究启发 随着模型的智能化,大模型逐渐展现出了一些人类的特性,但它们的本质仍然是概率模型。这些模式很有可能仍然是从训练语料中的人类行为学习而来,即是一种 “模仿游戏”。 以上的研究探索了针对简单事实问题,当 LLM 的内部认知和外部信息冲突的时候,LLM 当作何选择,是盲从还是坚持自己的意见?而人类在这种认知冲突的过程中所展现的 “理愈辩愈明”、“思想碰撞出火花” 等能力还是目前的 LLM 所不具备的。 未来的研究可以进一步从模型的内在机理和训练数据中对大模型的行为进行溯源式的分析,提高 AI 的可解释性,并进一步提升跨学科研究,探索大模型的更多潜力。
要想赚钱,AI模型该大该小?贾扬清:论AI模型经济学的技巧
作者丨刘洁 编辑丨岑峰 最近的AI社区,关于模型规模的讨论有些活跃。 一方面,此前在大模型开发奉为“圣经”的Scaling Law,似乎正在褪去光环。去年大家还在猜测GPT-5的规模“可能会大到想不到”,现在这种讨论几乎绝迹。大神Andrej Karpathy,则是在感慨大模型规模正在“倒退”。 另一方面,近期市场上性能优秀的小型模型层出不穷,参数规模、任务处理、反应速度、安全性能,各公司在不同方面卷了又卷。 究竟是往大做探索极限,还是往小做迎合市场? 这最终汇总成一个问题:在这样模型快速更迭的市场中,要怎么才能把LLM模型的商业价值最大化? 唯快不破的模型业态 最近发起讨论的是X.ai创始成员之一的Toby Pohlen。他认为如果模型以指数级速度改进,那么训练模型的价值也会以指数级速度折旧。这也导致人们需要赶在模型更迭前就迅速采取行动获取商业价值,一旦模型产生更新,上一代模型就基本一文不值了。 Toby的这番言论深得老板Elon Musk之心,大笔一挥打了一个“100分”。 贾扬清也参与到了这场讨论中来,他用感恩节火鸡做了一个有趣的比喻。他提出,售卖模型就像是感恩节火鸡促销,必须在感恩节前夕抓紧时间售卖,避免在感恩节到来后的贬值。新模型的技术更新就是一个又一个感恩节,只有销售得更快才能赚到更多的利润。 (emmm…如果对火鸡不好了解,换成中秋节前抢月饼的故事大家或许应该容易理解一些?) 评论区也有不少人表达了对此观点的赞同。 有人说只要不断地开发新产品和迭代新模型,就能从中持续获得商业价值。 还有人说,模型改进的频率将直接决定模型本身的商业价值。 但是,模型的商业价值由什么决定,又该如何实现? 模型发展在走CNN老路吗? 模型必须做小,用起来才顺手。 比起大型模型,小型模型成本低应用便利,更能收获商业市场的青睐。贾扬清就发现,行业趋势在于研发和使用尺寸更小性能强大的模型,人们也更愿意把规模参数在7B-70B之间的中小型模型作为商业使用的选择。 作为前大模型时代的亲历者,贾扬清在当下LLM模型市场上嗅到了熟悉的味道,先变大再变小变高效,这和CNN时期的模型发展简直一模一样。 贾扬清还对CNN的发展历程做了一个简单的介绍。 贾扬清还介绍了CNN的一个有趣的应用,Google的MobileNet(2017),占用空间小性能优越,还具有出色的特征嵌入泛化。 最后,贾扬清引用了Ghimire 等人在《高效卷积神经网络和硬件加速调查》里的一张图: 他还进一步发问,LLM模型未来会遵循和CNN一样的发展趋势吗? 大型模型的盈利思考 不过贾扬清也补充道,虽然行业趋势是模型小型化,但并不意味着号召大家放弃尺寸更大的模型。 但这随之而来的是另一个问题:大型模型的成本会更高。 此前也有人提出质疑,对大型模型服务商的运营成本和营运收益做了简单的计算,每天8张H100显卡运营节点的成本约为1000美元,每天可以提供2600万token的服务,但按Llama 405B每一百万token 3美元的价格,怎么算都是亏本的,无法盈利的大型模型不会被市场抛弃吗? 贾扬清表示,哎你说这个我就不困了,我熟我来说:) 贾扬清认为,虽然每个请求大约每秒输出30个token,但通过批量处理(同时处理多个请求)可以显著提高总吞吐量,可以达到比单个请求高出10倍或更高的吞吐量。 同时他还指出,每秒大约30个token指的是输出token,大模型对于输入token的处理速度更快,这也增加了处理的总token数,大模型通常对输入和输出分别计费,也正是这个道理。 在后续的另一个回复,贾扬清做了更详细的量化计算: 收入798.34美元,成本670.08美元,因此通过整合多种技术方法,在合理流量下(像Lepton这样的大模型技术服务商)是可能盈利的。 当然,这只是一个简单的推算,实际的盈利还会受到流量稳定性、计费方式、按需使用GPU的机器成本控制、解码、提示缓存以及其他因素的影响。 但某种程度上说,类似深度学习时代对CNN的不断优化,在大模型时代,也需要技术人员对于模型进行种种优化,来保证性能提高的同时不断降低成本,这正是贾扬清看好的创业路线。 One more thing 我们不妨再多讨论一下,对于贾扬清这样的AI Infra创业者,模型大小的潮流变化对他的商业模式有什么影响? 这个问题,要分不同情况分析。 如果模型参数量越大,提供模型服务的门槛越高(参考Llama 405B),其客单价自然也就越大; 另一方面,由于很多小模型实际是在大模型的基础上蒸馏而得到,模型小了,所需的计算资源并没有等幅度减少; 由于较小的模型更容易部署在不同的设备和平台上,这可能会带来应用场景的增加,虽然客单价可能降低,但在需求数量上的增加反而可能使得总收入增加; 对于贾扬清来说,META的开源路线使得贾扬清的服务对象扩大,因此开源对他来说更有利。 看来不管未来模型规模怎么不变化,贾扬清都有机会凭借技术升级稳坐钓鱼台。这有点像之前的中国股市,不管什么消息,都是“利好茅台”啊。 这恐怕就是贾扬清最近在推特上为什么这么活跃发表看法的原因?你看好贾扬清这种AI Infra的创业路线吗? 参考资料: https://x.com/jiayq/status/1818902164938670206 https://x.com/TobyPhln/status/1818686287475282260 https://x.com/elonmusk/status/1818686692905435406 https://x.com/jiayq/status/1818703217263624385 https://x.com/jiayq/status/1818699120049311883 https://x.com/jiayq/status/1818704837745557912 https://x.com/jiayq/status/1817092427750269348 头图/封面来源于贾扬清X(https://x.com/jiayq/status/1818907312851169748)
OpenAI推出AI搜索引擎SearchGPT
科技日报讯 (记者张佳欣)据英国《卫报》、美国消费者新闻与商业频道等媒体报道,当地时间7月25日,OpenAI宣布正在测试新的人工智能(AI)搜索工具SearchGPT,可以实时访问来自互联网的信息,旨在为用户提供更具时效性和更准确的信息。 该搜索引擎以一个大文本框开始,询问用户“您在找什么?”客户输入搜索内容后,SearchGPT并不是返回一个简单的链接列表,而是试图对它们进行组织和理解。在OpenAI提供的一个例子中,该搜索引擎总结了它对于音乐节的相关发现,提供了活动的简短描述,并在后面附上了链接。 在另一个例子中,SearchGPT先解释何时种植西红柿,然后解释了西红柿的细分品种。结果出现后,用户可以提出后续问题,或点击侧边栏打开其他相关链接。 OpenAI表示,SearchGPT将先在一小群用户和出版商中推出,然后可能在更大范围推广。该公司最终打算将这一搜索功能整合到ChatGPT中,而不是将其作为一款独立产品。 报道称,这可能会对谷歌主导的引擎搜索产生影响。自2022年11月推出ChatGPT以来,谷歌母公司Alphabet投资者一直担心,OpenAI可能会通过为消费者提供在线获取信息的新方式来从谷歌手中夺取搜索市场份额。 OpenAI近期新推出的“GPT-4o mini”迷你AI模型和SearchGPT原型,都是其致力于在“多模态”领域保持领先地位的一部分。所谓“多模态”,即在一个工具(即 ChatGPT)内部,提供多种类型的AI生成媒体,包括文本、图像、音频、视频以及搜索功能。