Skip to content
小扎自曝砸重金训Llama 4,24万块GPU齐发力!预计2025年发布
没想到,多模态Llama 4已经紧锣密鼓地开始训练中了。小扎表示,将投入Llama 3的十倍计算量训练模型,预计2025年发布。他不惜重金购买GPU,就是害怕为时已晚。
Llama 3.1刚发布不久,Llama 4已完全投入训练中。
这几天,小扎在二季度财报会上称,Meta将用Llama 3的十倍计算量,训练下一代多模态Llama 4,预计在2025年发布。
这笔账单,老黄又成为最大赢家
十倍计算量,是什么概念?
要知道,Llama 3是在两个拥有24,000块GPU集群完成训练。也就是说,Llama 4训练要用24万块GPU。
那么,Meta存货还够不够?
还记得小扎曾在年初宣布,计划到年底要部署35万块英伟达H100。
他还透露了更多的细节,Meta内部将为训练LLM打造两个单集群,一个配备22,000块H100,另一个集群配备24,000块。
有网友曾回顾了Llama模型迭代过程中,GPU的用量如何增长的:
Llama 1:2048块GPU
Llama 2:4096块GPU
Llama 3.1:16384块GPU
或斥资400亿美金,小扎不愿为时已晚
可见,训练大模型是一项代价高昂的业务。
财报显示,Meta第二季度在服务器、数据中心和网络基础设施上,资本支出增长了近33%。
从去年同期64亿美元,增至85亿美元。
现在,预计年度支出将达到370亿-400亿美元,高于之前预估的350亿-400亿美元。
Information一份报告称,OpenAI在训练模型上花费了30亿美元,另外还花费了40亿美元以折扣价从微软那里租用服务器。
可见,训练大模型算力花费,是多么地讽刺。
不过意义在于,Llama 3.1的开源将成为AI行业的一个重要转折点,开源人工智能开始像Linux一样成为行业标准。
Meta正在规划未来几年的计算集群和数据中心,以支持未来几代AI模型。
小扎承认,很难去预测未来AI技术的发展路径,但基建不是速成的。
尽管存在不确定性,我愿意冒险提前建立,也不愿意因准备不足而落后于竞争对手。
小扎这种先见之明,曾带领公司在元宇宙浪潮中,坚挺而出。
在2022年公司股价遭遇重创之际,小扎还是铤而走险,购买了大批H100。
当年第三季度财报显示,Meta资本支出高达320亿-330亿美元。
其中一部分大多流向数据中心、服务器和网络基础设施构建,以及在元宇宙上的巨额投入。
在采访中,小扎解释道,「当时Meta正大力发展短视频工具Reels,因此需要更多的GPU来训模型」。
因为模型推理对Meta来说,是至关重要的一件大事,需要为Facebook、Ins等自家应用的用户提供服务。
用小扎的原话来说就是:
我们所需的推理计算与训练的比率,可能远高于其他从事这一领域的公司,这是因为我们所服务的社区用户量非常庞大。
人手一个AI智能体
前段时间Meta AI科学家Thomas Scialom在一次博客采访中,同样提到了,6月份已经开始训练的Llama 4。
他表示,新模型可能重点在智能体技术上,并且已经在Toolformer等agent工具上进行了一些研究。
小扎相信,AI智能体很快将成为在线企业的「标配」。
「随着时间的推移,我认为,就像每个企业都有网站、社交媒体账号和电子邮件地址一样,未来每个企业也都会有一个AI智能体,让客户可以与之互动」。
Meta的目标是,让使每个小企业,最终甚至每个大企业,都能轻松地将自身的内容和产品整合到AI智能体中。
当这项技术大规模投入到现实应用中,这将大大加速我们的商业信息收入。
尽管投资者对Meta在AI和元宇宙上的高额支出提出批评,但小扎仍旧坚持自己的战略。
虽然在Meta最近几个季度,虚拟现实似乎已经退居次要地位,但扎克伯格确实提到,Quest 3的销量超出了公司的预期。
二季度数显示,这一领域的收入增长22%至391亿美元,利润增加73%至135亿美元。
对于第三季度,Meta预计收入在385-410亿美元之间。
消息人士表示,该公司将在9月份的Connect大会上宣布推出一款更便宜的耳机。
此外,AI助手Meta AI越来越受欢迎,小扎表示,它有望在年底前成为使用最广泛的AI助手。
参考资料:
https://the-decoder.com/meta-plans-to-use-10-times-more-compute-power-to-train-its-next-generation-lama-4-ai-model/
https://www.theverge.com/2024/7/31/24210786/meta-earnings-q2-2024-ai-llama-zuckerberg
OpenAI开发ChatGPT「反作弊神器」,99.9%超高命中率!但没发布
OpenAI又左右互搏上了,给AI生成的文本打水印,高达99.9%准确率抓「AI枪手」作弊代写。
去各大高校图书馆转一圈,会发现头上一副耳机、手边一杯咖啡,电脑上一个AI工具网页几乎成了当代大学生标配。
学生热衷于在ChatGPT的帮助下完成作业,教师们却头疼于无法杜绝学生用ChatGPT作弊的行为。
人工智能可以根据一个提示,在几秒钟内免费创建整篇论文或研究论文。教师和教授表示,他们迫切需要帮助来打击滥用行为。
《每日邮报》2023年1月30报道称,UNSW的1名学生使用ChatGPT自动生成论文被抓,这也是全澳第一个使用AI技术作弊被抓的学生。
UNSW人工智能教授Toby Walsh表示,各大高校都在评估如何阻止学生使用AI技术作弊。
随后,新州、昆州和塔州都封锁了校园网络对于ChatGPT的访问,以防学生通过该技术作弊。
但Walsh教授表示,阻止校园网络访问ChatGPT是没有意义的,因为学生们可以通过代理绕过封锁。
「想要彻底阻止学生作弊,只能把他们放在一个没有网络的环境里,给他们一张纸和一支笔。」
CDT最近进行的一项调查发现,59%的中学教师确信有些学生使用了AI来帮助完成学业,比前一个学年上升了17个百分点。
要想靠老师和学校的盯梢,避开ChatGPT的诱惑很难办到,解铃还须系铃人——让AI企业亲自出马解决抓「AI枪手」。
据悉,OpenAI已经开发出一款能够高精度识别ChatGPT生成文本的工具,但迟迟未发布。
「文本水印」抓作弊,成功率99.9%
ChatGPT由人工智能系统提供支持,生成原理是根据输入内容预测句子中接下来出现的token。
OpenAI正在讨论的反作弊工具将稍微改变token的选择方式,这些变化会留下一种称为水印的图案。
这些水印肉眼无法察觉,但可以通过OpenAI的检测技术发现,检测器提供整个文档或部分文档由ChatGPT编写的可能性的分数。
根据内部文件,当ChatGPT创建足够多的新文本时,水印的有效率可以达到99.9%。
虽然准确率超高,OpenAI工作人员仍然担心,换一种方式可以轻松卡Bug,通过简单的技术来删除水印。
例如让Google将文本翻译成另一种语言,然后再翻译回来,或者让ChatGPT在文本中添加表情符号,然后手动删除它们。
另一方面,公司内部普遍认为,谁可以使用该探测器将也是一个棘手的问题。
如果拥有该工具的人太少,工具基本上就没有用处。如果太多人获得访问权限,有些人可能会尝试破译水印技术。
OpenAI员工也讨论过,直接向教育工作者或外部公司提供检测器,帮助学校识别人工智能撰写的论文和抄袭作品。
谷歌其实也开发过一种水印工具,可以检测Gemini AI生成的文本,叫做SynthID,正处于Beta测试阶段,尚未广泛使用。
OpenAI有一个工具可以确定图像是否是使用文本到图像生成器DALL-E 3创建的,该工具于去年春天发布用于测试。
该知情员工表示,该公司优先考虑音频和视频水印而不是文本,因为其危害更为严重,尤其是在美国繁忙的选举年。
AI文本分类器
早在2023年1月,OpenAI就发布了一种算法,旨在检测多个AI模型(包括其自己的模型)编写的文本。
但它的成功率仅为26%,七个月后OpenAI就将其撤回。
其他公司和研究人员还开发了一些工具来检测人工智能创建的文本,许多教师表示他们已经使用过这些工具。
但它们有时无法检测由高级大语言模型编写的文本,并且准确率很低,可能产生误报。
最近在佐治亚州一所私立高中任教的教育工作者人工智能顾问Mike Kentz表示,起初,学生们确实被震慑到,以为老师们已经完全掌握了一种方法,可以弄清楚他们是否使用了人工智能代写。
但到了年底……他们慢慢发现,等一下,我的老师好像不知道。
一些老师鼓励学生使AI来帮助研究或提供想法反馈。但问题是,当学生使用像ChatGPT这样的应用程序来完成所有工作时,学生甚至不会去检查自己交的是什么。
去年,犹他大学政治学教授Josh McCrain给学生布置了一份写作作业,作业要求插入了难以辨认的小文字,其中提到了和作业无关的蝙蝠侠。
如果他们将作业复制并粘贴到人工智能中,作业提示内容就会被合并,「蝙蝠侠」就会干扰作业内容。果然,少数学生提交了作业——一篇蝙蝠侠论文。McCrain教授正在调整写作作业,更多地关注人工智能不太熟悉的时事,并恳求学生不要将他们的工作外包给人工智能。「这就是我试图向学生们强调这一点的地方:你需要自己学习这些东西。」McCrain教授说。
争论不休
知情人士称,有关水印工具的讨论早在OpenAI于2022年11月推出ChatGPT之前就已经开始。
它是由计算机科学教授Scott Aaronson开发的,过去两年他在德克萨斯大学休假期间一直在OpenAI从事安全工作。
2023年初,OpenAI联合创始人之一John Schulman在一份共享的Google文档中概述了该工具的优缺点。
OpenAI高管随后决定,在采取进一步行动之前,他们将征求一系列人士的意见。
在接下来的一年半时间里,OpenAI高管反复讨论,并寻求新数据集优化算法,犹豫是否发布该技术。
内部文件显示,2023年4月,OpenAI委托进行了一项调查,结果显示,世界范围的人们以四比一的比例支持人工智能检测工具的想法。
同月,OpenAI对ChatGPT用户进行了调查,发现69%的人认为作弊检测技术会导致使AI技术错误指控。
近30%的人表示,如果ChatGPT部署了水印功能,而竞争对手没有部署水印,他们会减少使用。
另外,OpenAI内部还有一种反对的声音是反作弊工具可能会损害ChatGPT的写作质量。
知情人士称,OpenAI今年早些时候进行了一项测试,发现文本水印不会降低输出质量。
6月初,OpenAI高级员工和研究人员再次聚会讨论该项目。该组织一致认为水印技术效果良好,但去年的ChatGPT 用户调查结果仍然是一个头疼的问题。
内部文件显示,OpenAI需要在今年秋天之前制定一项计划,围绕AI透明度以及相关潜在新法律来左右公众舆论——
「如果做不到这一点,我们就有可能失去负责任企业的信誉。」
参考资料:https://www.wsj.com/tech/ai/openai-tool-chatgpt-cheating-writing-135b755a?mod=tech_lead_story
微软AI投资大出血引股价下跌,华尔街或将撤出AI「军备竞赛」
GenAI热潮正在演变为一场名副其实的「军备竞赛」,巨额的资本投入和漫长的回报周期,无疑是对科技巨头和投资者的双重考验。
微软最近发布的财报,再次揭露了GenAI的成本真相。
报告显示,微软本季度在现金资本支出和设备购买上,花费了足足190亿美元,同比增长78%,相当于5年前一整年的支出总额。
毫无意外,这190亿美元几乎全部与云和AI有关,其中大约一半用于建设和租赁数据中心。
在整个2024财年,微软的总资本支出约占全年收入的23%,而过去5年的平均比例仅为14%。
烧在GenAI领域的资金也迅速拉高了总体支出。整个2024财年,微软总共支出了557亿美元,比上一年增长75%。
但微软似乎对自己选择的道路比较自信,CEO纳德拉在周二的电话会议上表示,他们捕捉到了「需求信号」以证明这些投资的合理性。
而且,即使这些信号发生意料之外的变化,他们也可以随时调整计划、缩减开支,用普通的服务器配备数据中心,而非奢侈的英伟达芯片。
根据首席财务官Amy Hood的说法,这个数字在2025财年还将继续增加,而且这些投资对支持AI服务非常必要。
不仅支出井喷,微软的Azure云服务也呈现出疲软态势。
正如英伟达通过「卖铲子」赚得盆满钵满,Azure近年来也一直是微软主要的增长引擎,但这一季度的收入未能达到分析师预期。
第四季度Azure的收入增长了29%,低于上一财季的增幅31%,也低于预期的30.6%。其中AI相关的服务贡献了8个百分点。
整个2024财年,Azure的总收入为368亿美元,低于预期约2%。
同样是数据中心,英伟达就相当滋润,上一季度他们的相关收入达到了226亿美元,环比增长23%,同比增长427%。
相比Azure,微软其他业务部门的表现都超出了分析师预期,而且年营业收入达到了创纪录的1090亿美元,利润率为44.6%,是最近二十多年来从未达到的水准。
根据微软内部的分析,最近的云收入短缺主要是由几个欧洲地区的疲软导致的,预计Azure增长将在12月回升,而且计划下一年再次实现营业收入的两位数增长。
除了Azure情有可原的未达预期,微软在整个财年的表现都称得上是可圈可点、瑕不掩瑜。
但华尔街的投资者并没有这个耐心。随着财报发布,微软股价应声下跌7.8%。
科技巨头们在7月底都出现了不同程度的股价下跌
Synovus Trust高级投资经理Daniel Morgan表示,「华尔街没有太多耐心。他们看到你花费了数十亿美元,因此也希望看到相应的收入增加。」
形成鲜明对比的是,首席财务官Amy Hood认为,微软目前投资的资产将在未来15年甚至更长时间段内实现盈利。
AI有多烧钱
微软并不孤独,其他科技巨头们也在不断烧钱,并已经预料到了投资回报的漫长周期。
曾经以员工福利闻名的谷歌近一两年来也开始大刀阔斧地削减开支,唯独扩大了GenAI方面的投入。
然而,用Jefferies分析师Brent Thill的话来说,结果也「并没有令人兴奋」。谷歌在2024财年的总体收入仅比普遍预测高出0.6%,是至少过去5年的最差成绩。
Alphabet周二表示,下半年的投入将会持续下去,每季度资本支出可能达到甚至超过120亿美元,全年总支出预计超过490亿,这比过去5年的平均值高出了84%。
有趣的是,谷歌CEO桑达尔·皮查伊似乎和纳德拉「英雄所见略同」。
在财报电话会议上被问及AI投资时,他表示:「我们正处于一个极具变革性领域的早期阶段。对我们来说,投资不足的风险远远大于投资过度的风险」。
同样在烧钱的还有Meta,但他们的盈利能力显然要领先微软和谷歌一大截。
上一个季度,Meta收入略高于390亿美元,同比增长22%,其中净利润约为135亿,同比增长73%。
小扎在财报会议上表示,Meta AI助手的用户数有望在年底前超越所有同类产品。而且,GenAI的真正收入将来自商业用例,比如从头制作广告、让企业在WhatApp中创建定制化AI agent等。
同时,他也明确警告投资者:虽然有很多方式通过GenAI创建业务,但成本高昂,而且需要很长时间才能创造利润。
关于巨额投资的必要性,他的表述几乎和谷歌CEO劈柴的话一模一样:很难预测这将如何影响未来几代人,但在这一点上,我宁愿冒险构建出多余的生产能力,也不想落后。
这些硅谷的科技巨头们有雄厚的财力支持,即便不能都像Meta一样实现强劲的收入增长,但至少不会陷入现金流短缺的境地。
OpenAI和Anthropic这类初创公司的境地就不同了。
The Information上周帮OpenAI算了一笔账:按照目前的趋势发展下去,他们今年很可能达到50亿美元的亏损。
如果没有额外资金注入,可能最快在年底就要面临现金流枯竭的危险。
华尔街的脆弱神经
与科技公司的乐观坚定形成鲜明对比的是,华尔街的反应充分体现了资本的敏锐和谨慎。
越来越多的分析师和投资者开始怀疑,向AI领域投入的巨额资金最终会演变为金融泡沫。
过去几周,高盛、巴克莱以及红杉资本等机构纷纷发布报告,认为GenAI目前无法实现与投入相匹配的盈利能力。
高盛的资深分析师Jim Covello曾经对科技公司进行了30年的研究,他在报告中表示,「过度建造没有用处或我们还没准备好使用的东西,通常没有什么好下场。」
就在一年多以前,高盛也同样发表了一份报告,认为AI可以使3亿个工作岗位实现自动化,并在未来10年内让全球经济产值实现7%的增长。
AI和数据管理公司Egnyte的CEO Vineet Jain表示,随着其他公司开始与英伟达竞争,而且技术逐渐变得高效,开发和运行AI程序的成本将会下降。
目前来看,提供AI产品的成本太过昂贵。比如,OpenAI出现如此大的资金缺口,重要原因之一就是在推理算力上投入过多。
随着成本下降和需求持续上升,目前这种让投资方悲观的情况很可能发生改变。
在这个艰难的转型期中,谷歌、微软这种大公司能依靠雄厚财力继续投入,但极度依赖风险投资的小型初创公司可能很难生存。
这似乎是对整个2023年人工智能热潮的一波情绪反弹和理性反思。Jain用一个形象的比喻点出了这个趋势:
「这就像不断弹出的舒芙蕾,它必须往下降一点。」
参考资料:
https://futurism.com/the-byte/microsoft-losing-money-ai
https://www.theverge.com/2024/7/31/24210786/meta-earnings-q2-2024-ai-llama-zuckerberg
https://www.bloomberg.com/news/articles/2024-07-30/microsoft-reports-slower-azure-cloud-growth-shares-drop?srnd=phx-ai
https://www.reuters.com/technology/microsoft-beats-quarterly-revenue-estimates-2024-07-30/
https://www.washingtonpost.com/technology/2024/07/24/ai-bubble-big-tech-stocks-goldman-sachs/
世界首例!AI机器人做牙科手术,8倍速诊疗比人类医生更精准
Perceptive初创公司发明的全自动AI机器人牙医,执行了世界上首次人类临床牙科手术,诊疗速度是人类医生8倍。
如果有人向你推销机器人牙医,是挥挥手根本不信,还是会立刻有种冰冷高速钻头直戳牙龈的恐怖感?
波士顿公司Perceptive很快就让你心服口服,让人工智能控制的自主机器人,首次对人类患者进行了全过程的牙科手术,速度大约是人类牙医的8倍。
有视频为证,机器人牙医正在对牙齿进行局部精细的冲水清洗,绕牙齿一周,看起来驾轻就熟。值得注意的是,Perceptive声称,「即使患者频频移动头部,该机器也能安全处理,并且对移动患者的试运行测试均取得了成功。」Perceptive宣布了两项新技术,希望机器人诊疗在未来能够为每个人带来更好的牙科体验。
OCT 3D成像系统
这款手持式成像仪设计可以在口腔内操作,使用光学相干断层扫描 (OCT)生成牙齿内部的3D图像,甚至可以一直深入到牙龈线下方并进入骨骼。无论是在分辨率还是位置精度方面,这都比牙医通常使用的2D或3D X射线要好得多。大量临床实操证明,X射线在检测蛀牙方面实际上非常糟糕。Perceptive首席执行官Chris Ciriello告诉我们,利用X射线成像确定蛀牙位置和程度的准确度约为30%。实际上,X射线仅仅起到辅助医生诊疗的作用,因为牙医会开始在你的牙齿上钻孔,然后继续钻,直到找到蛀牙的精确位置和范围深度。但这种方法显然不适用于机器人,因为机器人需要事先获取所有数据,这就是OCT的用武之地。可以将OCT视为类似于超声波,因为它使用反射能量来构建图像,但OCT使用光而不是声音来获得更高的分辨率。也就是说,OCT不仅可以避免有害的X射线辐射,而且和X射线成像相比,具有高分辨率和高准确率。以前OCT没有用于牙齿诊疗的原因是,传统的OCT获得详细图像所需的曝光时间为几秒钟,如果在曝光过程中移动,图像就会模糊。Perceptive使用的是运动结构方法(structure from motion approach),更短的曝光时间导致数据点少得多,然后移动扫描仪并收集更多数据来逐渐构建并生成出完整的3D图像。Ciriello表示,这种方法可以将病理定位在大约20微米的范围内,准确率超过 90%。而且,这种方法非常易于牙医上手操作,因为他们只需在牙齿周围向不同的方向移动工具,直到扫描完成。Perceptive临床顾问委员会成员和专业牙医Karim Zaklama表示,「Perceptive 的人工智能驱动机器人系统将彻底改变牙科行业。简化了程序并提高了患者的舒适度,患者的诊疗体验将会更好。」「先进的成像功能,特别是口腔内扫描仪,提供了无与伦比的细节,这将使我们能够更早、更准确地诊断问题,并使我们能够更有效地与患者联系。」「效率的提高让我们能够更加专注于个性化患者护理并减少就诊时间,从而使我们能够有效地治疗更多患者。」Ciriello也再次强调,这不仅仅是收集数据以便机器人可以对患者的牙齿进行操作,这是一个更好的成像技术,可以帮助牙医识别和治疗患者可能遇到的问题。「我们认为这是一个根本性的改变,」Ciriello 说。「我们为牙医提供了更好地发现问题的有力工具。」
机器人牙医诊疗初体验
Ciriello之前也是加拿大不列颠哥伦比亚省一个山区小镇的执业牙医。这些社区的人们可能很难有专业牙齿护理的机会,他表示,「没有太多牙医愿意在农村社区工作。」「患者有时可能要拖几个月的时间才能得到治疗,如果感到非常疼痛还得不到治疗,那就真的不好了。我意识到我必须做的是开发一项可以提高牙医生产力和推广牙医服务的技术。」通常需要数小时和多次就诊的普通牙科手术,Perceptive机器人只要单次就诊,几分钟内就能迅速完成。机器人牙医的切入点是牙冠安装,即用人工牙冠取代患者的牙齿顶部。这是一个非常常见的过程,通常分两个阶段进行。首先,牙医会用钻头去除牙齿顶部。接下来制作牙齿模具,以便定制适合牙齿的牙冠。然后患者会戴上临时牙冠回家,同时牙医会将模具邮寄出去以定制牙冠。几周后,永久性牙冠到达,患者回到牙医那里,取下临时牙冠并粘上永久性牙冠。使用Perceptive的机器人牙医诊疗系统,情况会是这样的:患者首次就诊时,牙医首先确定患者需要牙冠,然后使用OCT成像仪对牙齿进行扫描。
根据这些数据,机器人将规划一条钻孔路径。在患者到达诊所、开始钻孔之前就可以制作牙冠,这只有在预先知道精确的几何形状的情况下才有可能实现。当患者到达手术现场时,机器人可能会在五分钟左右完成实际钻孔,完美贴合的永久牙冠被粘合到位,整个诊疗过程就完成了。显然,安全是这里的一个大问题,因为一个带有高速钻头的机器人手臂,实际上是在你的头骨内部进行工作,Perceptive也很清楚这一点。Perceptive 机器人很重要的一点是,它在工作时与患者身体相连。患者需要将一种名为「咬合块」的东西放入口中并咬住,这样既可以保持嘴巴张开,又可以防止下巴疲劳。机器人的末端执行器通过一系列驱动连杆物理连接到该咬合块,这样即使钻头正在移动,头部的任何运动也会立即被钻头的末端复制。本质上,患者的头骨相当于机器人的底座,患者的牙齿和钻头位于同一参考系中。纯机械耦合意味着不需要视觉系统或编码器或软件,它是直接的物理连接,因此运动补偿是瞬时的。作为患者,可以在手术过程中自由放松并稍微移动头部,因为这对机器人没有影响。人类牙医也有一些方法可以防止在手术过程中移动时钻头刺伤,例如将手指放在患者牙齿上,然后将钻头支撑在牙齿上。Perceptive表示,机器人甚至比人工更安全、更准确,因为刚性连接导致的误差只有几十微米,即使是在移动的病人身上也是如此。Ciriello说,它的移动速度比牙医慢一点,但因为它只在需要的地方精确钻孔,所以总体上可以更快地完成手术。手臂内还有一个物理平衡系统,对于OG机器人技术人员来说,它有点类似于PR2手臂。最后的安全措施是牙医在环中通过脚踏板,必须保持踩下脚踏板,否则机器人将停止移动并关闭钻头。Ciriello声称,机器人不仅能够更快地工作,而且还能产生更好的结果。大多数修复体(例如填充物或牙冠)可持续大约五年,因为牙医要么用了太多材料并削弱了牙齿本身,要么是修复材料太少并且没有完全解决根本问题。Perceptive的机器人能够更加精确,Ciriello表示,机器人可以切割「人类不可能完成」的几何形状,以定制加工零件的精度将修复体安装到牙齿上。虽然人们很容易关注Perceptive系统的技术优势,但牙医Ed Zuckerberg(Perceptive 的投资者)指出,这不仅仅是速度或准确性的问题,还在于让患者感觉更好。目前市场上还有另一种牙科机器人。它被称为Yomi ,为一项牙种植手术提供辅助。但Yomi不是自主的,而是为牙医提供指导,以确保他们钻到正确的深度和角度。虽然Perceptive已成功在人体上测试了他们的第一代系统,但尚未准备好商业化。Perceptive迄今已筹集3000万美元资金,下一步可能是与FDA进行关键临床试验,如果进展顺利,Cirello估计它可能会在几年内向公众开放。
参考资料:https://newatlas.com/health-wellbeing/robot-dentist-world-first/
陶哲轩高徒撬动数十年难题,这个华人研究生联手MIT解谜等差数列!
组合数学领域的一个难题,完全无序的数学不可能性,被UCLA华人研究生和两位MIT研究生取得了突破!为此,他们强化了陶哲轩的一项成果,并再进一步。这是数十年来该领域的首次进展。
刚刚,组合数学领域最大的未解之谜之一——完全无序的数学不可能性,取得了数十年来的首次进展。
突破这项成就的是,是UCLA的华人研究生James Leng,以及两位MIT研究生Ashwin Sah和Mehtaab Sawhney。
今年2月,三人宣布,他们对整数集合在必须包含间隔均匀的数字序列(如{9, 19, 29, 39, 49}或{30, 60, 90, 120})之前能有多大的估计值,进行了长期的改进。
这个证明,即是组合数学领域最大的未解决问题之一。
论文地址:https://arxiv.org/abs/2402.17995
这一成果,也在数学圈内引起了轰动。
牛津大学数学家Ben Green表示,几位学生的成果,令人印象深刻。尤其是成果发布时,三人都还在读研究生。
算术级数问题
级数(progression)是一列展现出特定模式的数或项,即每一项都对前一项应用特定规则而得到,也可称之为序列。
数学中,级数主要有三种类型,包括算数级数、几何级数以及调和级数。
有规则间隔的数字序列,称为算术级数(arithmetic progression),我们更熟悉的说法是等差数列。
尽管模式简单,但它们背后隐藏着令人震惊的数学复杂性。
更神奇的是,无论我们怎样努力,算术级数都很难避免。
1936年,数学家Paul Erdős和Pál Turán推测,如果一个集合由整数的非零分数组成(哪怕只有0.00000001%),那么它一定包含任意长的算术级数。
唯一可以避免算术级数的集合,就是那些包含整数「可忽略不计」部分的集合。
例如,集合 {2, 4, 8, 16, …},其中每个数字都是前一个数字的两倍,它沿着数轴分布得如此分散,以至于可以说它占据整个数字集合的0%。
因此,这个集合没有级数。
四十年后的1975年,这个猜想被一位叫Endre Szemerédi的数学家证明了。
而他的工作,催生了众多研究方向,至今仍在令数学家们探索。
Sah和Sawhney的MIT博导Yufei Zhao这样介绍道:「他证明中的许多想法,都发展成了自己的世界」。
Yufei Zhao数学家们将Szemerédi的结果应用于有限数集。在这种情况下,我们需要从一个有限的集合开始——从1到N之间的每一个整数。在不可避免地包含一个被禁止的级数之前,我们在起始集合中能使用的最大部分是多少?随着N的变化,这个部分会如何变化?比如,令N为20。我们可以写下这20个数字中的多少个,同时仍能避免长度为5个或更多数字的级数?事实证明,答案是起始集合的16%到80%。
论文地址:https://www.jstor.org/stable/2005105现在,令N为1,000,000。如果我们使用了这个池子中的80%,那么我们将看到包含800,000个数字的集合。这么大的集合,是不可能避免五项级数的。因此,我们将不得不使用池子中较小的部分。
算术级数达到4项时,就会「咬人」
Szemerédi是第一个证明「随着N的增长,这个部分必须缩小到零」的人。从那时起,数学家们就一直试图量化这种情况发生的速度。去年,两位计算机科学家的突破性工作几乎解决了三项级数的问题,例如 {6, 11, 16}。
论文地址:https://arxiv.org/abs/2302.05537可是,每当我们试图避免使用四项或更多项的算术级数时,问题就会变得更加棘手。用Sawhney的话来说就是,「我喜欢这个问题的一点就是,它看起来很单纯,但事实并非如此。这个问题会咬人。」这是因为,较长的级数反映了经典数学技巧难以发现的潜在结构。三项算术级数中的数字x、y和z,总是满足简单方程x-2y+z=0(以级数 {10、20、30} 为例:10 – 2(20) + 30 = 0)。要证明一个集合中是否包含满足这种条件的数,是比较容易的。但是,四项级数中的数字还必须满足更复杂的方程x^2 – 3y^2 + 3z^2 – w^2 = 0。这就意味着,包含这些级数的集合会呈现出更微妙的模式。想要证明这种规律是否存在,对数学家们来说,也就更难了。终于,在1990年代,法兰西学院数学家Timothy Gowers提出了一种理论,克服了这种障碍。这项工作发表后,直接促成了他拿到菲尔兹奖——数学界的最高荣誉。2001年,他将自己的成果应用于Szemerédi定理,证明了最大集合大小的更好界限,避免了任何给定长度的算术级数。在接下来的二十年里,虽然数学家们使用了Gowers的框架解决了其他问题,但他在2001年的纪录,仍旧保持着稳定。
华人研究生,打破研究阻碍
2022年,当时正在UCLA读研究生二年级的Leng,开始研究Gowers的理论。他脑子里并没有装着Szemerédi定理,相反,他希望自己能解决一个由Gowers发展出的技巧相关的问题。其他数学家并不看好,担心他解决问题所需要耗费的精力太大了,与之相比可能得到的结果根本不值一提,于是纷纷劝阻他。Leng后来评价道:「他们是有道理的。」整整一年多的时间,他都一无所获。但是某一天开始,他忽然做出了某些东西。而一直在研究相关问题的Sah和Sawhney看到他的工作后,表示了巨大的兴趣。用Sawhney的话说,「我很惊讶,居然还可以这样思考。」他们意识到,Leng的研究可能帮助他们在Szemerédi定理上取得进展。几个月后,他们做到了!这三位年轻的数学家想到了一个办法,在没有五项技术的情况下,获得了更好的集合大小上限。(也就是我们开头看到的那篇论文)然后,他们将工作扩展到了任意长度的级数,这标志着Gowers证明以来的23年里,这个问题首次取得了进展。Gowers已经证明,当起始数字池变大时,我们可以做出的避免进展的集合,会以某种速度变得相对较小。而现在, Leng、Sah和Sawhney证明,这种情况发生的速度要快得多。而导师Zhao对学生们的工作赞不绝口:「这是一项巨大的成就。但我不会建议任何学生攻克这种问题,因为它真的太难了。」许多数学家都对三人获得新界限方法感到非常兴奋。为了顺利解决问题,他们必须先强化一项先前的、技术性更强的成果。这项成果来自牛津大学的Ben Green、陶哲轩和希伯来大学的Tamar Ziegler。数学家们认为,这一结果(Gowers理论的某种阐述)可以进一步改进。Green介绍说:「我的感觉是,我们对这个理论的理解也并不完善,我们只是看到了它的一些影子。」自从2月份发表这篇论文后,Sawhney已经完成了他的博士学位。现在,他是哥大的一名助理教授。Sah仍然在MIT攻读研究生。
Sah在MIT校园中两人仍在继续合作。导师Zhao评论道:「他们令人难以置信的优势就在于,能够接受技术要求极高的东西,并且去理解它、改进它。他们的整体成就难以言喻。」
论文概述
在这项工作中,研究者令r_k(N)表示 [N]= {1,…,N} 中最大且不存在k项等差数列的子集的大小。他们证明了,对于k≥5,存在c_k> 0,使得。这个证明是基于Gowers U^k-范数逆定理的准多项式界值,以及由Heath-Brown和Szemerédi提出的密度增量策略,后者由陶哲轩和Green重新做了表述。设「N」= {1,…,N},r_k(N) 表示在S没有k项算术级数的情况下,中最大的S。r_3(N)的第一个非平凡上界,来自Roth的研究,他证明了。后来的一系列研究中,数学家们又将证明突破到了。对于更高的k,Erdős和Turán的一个长期猜想认为r_k(N) = o(N)。在开创性的工作中,Szemerédi首先建立了r_4(N) = o(N) 的估计,然后建立了以他命名的定理r_k(N) = o(N)。由于使用了van der Waerden定理和规则性引理,Szemerédi的成果密度增量极小。而在随后的突破性工作中,Gowers引入了高阶傅里叶分析,并为Szemerédi定理证明了第一个「可行」的上界:。对于k≥4的唯一显著改进,来自Green和陶哲轩的工作,他们最终证明了。最近,研究者们的工作又证明了。而三位作者此次的主要结果,是将这一上界扩展到了所有k≥5。即定理1.1——随后,他们证明了:对于给定「N」中的无序序列表,可以将「N」分解为一个受控的算术级数集合,从而使这些序列上的无序序列基本保持恒定。在这个过程中,他们采用了以下几项引理。在第三节中,他们利用了Green和陶哲轩提出的Heath-Brown和Szemerédi密度增量策略。最终,成功完成了证明。
MIT本科生,推动图论研究前沿
其实,早在Sah和Sawhney在MIT读本科时,两人就做出了令人印象深刻的工作。两人相识后,一起发表了57个令人难以置信的数学证明,许多都在各个领域取得了深远进展。在2020年5月,Sah在组合学最重要的问题中,就发表了有史以来最好的结果,而这只是他本科期间发表的一长串数学结果其中的一部分。
论文地址:https://arxiv.org/abs/2005.09251在这篇论文中,Sah重点研究了组合学的一个重要特征——拉姆齐数,它量化了图(由边连接的点或顶点的集合)在必然包含某种子结构之前可以达到多大。随着我们要寻找的派系规模越来越大的,计算精确的拉姆齐数变得非常困难。在20世纪30年代,Paul Erdős和George Szekeres发起了拉姆齐数上限和下限的研究。而Sah的证明,改进了双色拉姆齐数的上限。他证明:一旦图达到一定大小,就必然会包含某个相应大小的派系。这就将现有的研究路线推向了逻辑极限,可以说是为该问题设定了目前的最佳上限。领域内的许多人认为,Sah的证明是利用现有研究路线可以实现的最佳结果。加州理工学院的David Conlon这样评价:「作为一个本科生,他的成果已经足够让他获得教职了」。
作者介绍
James Leng本科毕业于加州大学伯克利分校,目前是UCLA数学系的在读研究生,与陶哲轩共同合作。他的研究领域包括算术组合数学、动力系统和傅里叶分析,主要关注高阶傅里叶分析。Ashwin Sah从2020年起成为MIT的数学系研究生,由Yufei Zhao指导,研究兴趣包括组合数学、概率论和数论。Mehtaab Sawhney目前是哥伦比亚大学助理教授,同时担任Clay数学研究所的研究员,他的研究同样关注组合数学、概率论和理论计算机科学。在俄勒冈州波特兰长大的Sah,16岁时获得奥数金牌,17岁就读于MIT,两年半后毕业。在MIT的第一年,他上了Yufei Zhao教授的两门课,其中一门是关于组合学的研究生水平讨论课。在全世界最有才华的数学学生中,Sah仍然能脱颖而出。
11岁的Sah最早的记忆之一,就是和妈妈一起学算术在课堂上,Sah认识了高一级的学生,从宾大转学到MIT的Sawhney。两人结识后,研究了离散数学中的一系列主题,例如图论、概率和随机矩阵的性质。Sawhney表示,「我喜欢那些可以从基本原理出发思考的问题,不需要阅读大量文献或了解大量理论就可以开始思考」。导师Zhao对两人的速度印象深刻。他会要求两人研究一个特定的问题,觉得接下来他们有的忙了。然而,经常是第二天,他们就带着答案回来。Zhao的评价是,「他们都是精力非常充沛的人。我每提出一个问题,都会立刻收到回复。」本科的三年里,Sah和Sawhney撰写了数十篇论文,并且获得了2021年的摩根奖。Zhao表示,二人的成就没有先例。「本科生研究有着悠久的传统,但在数量和质量上都无法达到他们俩的水平」。参考资料:https://www.quantamagazine.org/grad-students-find-inevitable-patterns-in-big-sets-of-numbers-20240805/
手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态
面壁小钢炮MiniCPM-V 2.6重磅出击,再次刷新端侧多模态天花板!凭借8B参数,已经取得单图、多图、视频理解三项SOTA ,性能全面对标GPT-4V。
再次刷新端侧多模态天花板,面壁「小钢炮」 MiniCPM-V 2.6 模型重磅上新!仅8B参数,取得 20B 以下 单图、多图、视频理解 3 SOTA 成绩,一举将 端侧AI多模态能力拉升至全面对标超越 GPT-4V 水平。更有 多项功能首次上「端」:小钢炮一口气将 实时视频理解、多图联合理解(还包括多图OCR、多图ICL等)能力首次搬上端侧多模态模型,更接近充斥着复杂、模糊、连续实时视觉信息的多模态真实世界,更能充分发挥端侧 AI 传感器富集、贴近用户的优势。
亮点众多,延续了「小钢炮」系列一贯的以小博大与高效低成本,划重点如下:
「三合一」最强端侧多模态:首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V,单图理解越级比肩多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini 。
多项功能首次上端:实时视频理解、多图联合理解、多图 ICL 视觉类比学习、多图 OCR 等功能,第一次让端侧模型睁开观察、理解真实流动世界的「眼睛」,不仅看得清晰,还能有样学样、模仿学习。
极致高效,最高多模态像素密度: 类比知识密度,小钢炮2.6取得了两倍于GPT-4o的单 token 编码像素密度(token density),在端侧方寸之地,一路将大模型「能效比」挖到极限。这一进展,得益于视觉 token 相比上一代下降 30% ,比同类模型低 75%。
端侧友好:量化后端侧内存仅占 6 GB;端侧推理速度高达 18 tokens/s,相比上代模型快 33%。并且发布即支持 llama.cpp、ollama、vllm 推理;且支持多种语言。
统一高清框架,高效能力一拖三:小钢炮的传统优势 OCR 能力延续了其 SOTA 性能水平,并进一步覆盖单图、多图、视频理解。
MiniCPM-V 2.6 开源地址:
GitHub:https://github.com/OpenBMB/MiniCPM-V
HuggingFace:https://huggingface.co/openbmb/MiniCPM-V-2_6
llama.cpp、ollama、vllm 部署教程地址:
https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc
MiniCPM 系列开源地址:
https://github.com/OpenBMB/MiniCPM
单图、多图、视频理解 3 SOTA!
GPT-4V级、三合一最强端侧多模态
注:指20B以下、端侧模型SOTA
以小博大,是端侧模型的核心竞争力。
仅 8B 参数,新一代 MiniCPM-V 2.6 不仅再一次取得了媲美 GPT-4V 的综合性能, 还首次作为端侧 AI 模型,掀开单图、多图、视频理解三项多模态核心能力全面超越 GPT-4V 之新格局,且均实现 20B 参数以下模型性能 SOTA。
在 MiniCPM-V 2.6 的知识压缩率方面,我们发现,MiniCPM-V 2.6 体现出极致的高效, 取得了两倍于 GPT-4o 的最高多模态大模型像素密度(Token Density) 。
Token Density = 编码像素数量 / 视觉 token 数量,是指单个 token 承载的像素密度即图像信息密度,直接决定了多模态模型实际的运行效率,数值越大,模型运行效率越高。
闭源模型的 Token Density 由 API 收费方式估算得到。结果表明 MiniCPM-V 2.6 是所有多模态模型中 Token Density 最高的,延续了小钢炮一贯的极致高效特点单图方面:在综合评测权威平台 OpenCompass 上,单图理解能力越级超越多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini。多图方面:在多图评测权威平台 Mantis-Eval 榜单上,MiniCPM-V 2.6 多图联合理解能力实现开源模型SOTA ,且超越 GPT-4V。视频方面:在视频评测权威平台 Video-MME 榜单上,MiniCPM-V 2.6 的视频理解能力达到端侧 SOTA,超越GPT-4V。此外,在 OCRBench上,MiniCPM-V 2.6 OCR 性能实现开源+闭源模型 SOTA,延续并加强了小钢炮系列 最强端侧 OCR 能力 的传统优势。在 幻觉 评测榜单Object HalBench上,MiniCPM-V 2.6 的幻觉水平(幻觉率越低越好)优于GPT-4o、GPT-4V、Claude 3.5 Sonnet 等众多商用模型。
实时视频理解,首次上端!
睁开端侧「眼睛」,打开具身广阔潜力
真实世界的视觉信息是流动的!
端侧视频理解具有天然优势,手机、PC、AR、机器人、智能座驾等端侧设备自带的摄像头,具有天然的多模态输入能力。相比云端,离用户更近,链路更短,效率更高,同时具有更强的信息安全优势。
有了实时视频理解功能,大模型犹如拥有一双「眼睛」,能够实时看到真实世界,这是多模态大模型走向具身智能等更多实际领域,实现 AGI 的必要条件之一。此外实时视频理解功能也让人机交互也更加自然友好。
MiniCPM-V 2.6 让实时视频理解功能第一次运行在端侧。
在下面对面壁智能公司实时拍摄中,室内场景的各种办公设备、墙上、会议室上的文字都能轻松被模型精准识别。此外,对于「太长不看」的视频,现在可以直接把文件拖进来,让模型为你总结重点信息,不用看完、不用倍速、也不用快进。这段 1 分钟左右的天气预报视频,MiniCPM-V 2.6 能在没有听到任何语音的情况下,发挥强大的视频 OCR 功能,识别出视频画面里密集的文字,给出不同视频段落中不同城市的详细天气描述。
注:该结果为代码环境中复现
多图联合理解,首次上端!
流畅、聪明,一直识图一直爽
钻研多模态模型能力的不竭动力,源自于它更接近真实世界的形态,充斥着画面、视频、语言等多种模态、同时并发的信息。
难以想象,当我们睁开眼睛看世界,只能一个画面、一个画面,顺次机械而卡顿地识别理解;也不会事事都能得到精准的文字指示,像小孩子模仿大人行为举止般「有样学样」地揣摩学习与动作跟随,是绝大多数我们学习与尝试新事物时所发生的样子。
将端侧AI的多模态能力进行极致探寻,最新发布的 MiniCPM-V 2.6 首次将 多图联合理解、多图ICL(上下文少样本学习 ) 功能集成在端侧模型,这也是此前业界多模态王者 GPT-4V 引以为傲的能力。
1. 流畅的多图多轮理解,爽!
就像人们习惯把多个文件拖拽给大模型处理,在日常生活和工作中,联合处理多张图像是高频刚需。
比如常令人头疼的记账或报销难题,小票上密密麻麻的数字难以辨别,更别提进行繁琐的总账计算。拍照下来,一口气甩给 MiniCPM-V 2.6,除了一一找出每张小票的金额,最后还把总账计算出来,十分方便。
强大的 OCR 能力+CoT (思维链)能力加持,不仅小票金额精准抓取,解题思路与卷面呈现都清晰简洁:端侧多模态复杂推理能力也被一并刷新:比如这道 GPT-4V 官方演示经典命题:调整自行车车座。这个对人很简单的问题对模型却非常困难,它非常考验多模态模型的复杂推理能力和对物理常识的掌握能力。仅 8B 的 MiniCPM-V 2.6 展现出顺利完成这项挑战的潜力,通过和模型进行多图多轮对话,它清晰地告知完成调低自行车车座的每一个详细步骤,还能根据说明书和工具箱帮你找到合适的工具。
2. 强悍的多图复杂推理能力,竟能读懂你的梗!
得益于强大的多图复杂推理能力,MiniCPM-V 2.6 不仅能联合识别多张图片的表面信息,还能「读懂」梗图背后的槽点。比如让模型解释下面两张图背后的小故事,MiniCPM-V 2.6 能够通过OCR精准识别到两张图片上的文字:「WFH Employees 8:59 AM」和 「WFH Employees 9:00 AM」, 推理出「WFH」居家办公状态,然后结合两张图片的视觉信息联合推理出「工作在家时,8:59还在床上睡觉,9点立马出现在视频会议上」的居家办公的「抓狂」状态,尽显梗图的槽点和幽默, 可谓是多图联合理解和 OCR 能力的强强结合。多图复杂推理能力表现惊艳,单图也不在话下。MiniCPM-V 2.6 能轻松揣测出梗图中很多未明显露出的潜台词,简直是充满幽默感的大模型「梗王」。
左右滑动查看
多图 ICL,首次上「端」!
大模型学会揣测模仿,有样学样
很多时候,很多场景,难以用语言完全说清,通过明确定义的语言 prompt 来控制模型的输出行为难以奏效。
这个时候,图文信息一起「看」来理解,就像我们婴童时期那样观察、模仿、学习,往往更加直接与准确。
这其实就是多图 ICL(In context learning)上下文少样本学习,它能激发出模型的潜力,让模型无需fine-tune,即可快速适配到特定领域和任务,显著提高模型的输出稳定性。
在下面的例子中,我们直接通过视觉 prompt 给大模型下指示:
给出两组神转折画面,以及对画面中的「梗」给出示意文字描述,例如一个戴着手套、重视卫生的厨师,下一秒却用戴手套的手直接去拿实际有些肮脏的纸币;一个看似热衷环保的人,却把塑料瓶装水打开装进环保水壶……
这时 MiniCPM-V 2.6 能够自动从前面两组图文关系,揣摩出题人的意图,并自动学会「答题模版」,给出神转折答案—— 一个人手握大量加密数字货币,可你猜怎么着,他出门购物,可是商店却只收现金!
统一高清视觉架构
高效多模态能力一拖三
新一代小钢炮的最大亮点: 单图、多图、视频理解 等核心能力对 GPT-4V 的全面对标。
从单一优势,到全面对标,大幅跃进从何而来?在 Qwen2-7B 基座模型的性能加持之外,要归功于采用了统一高清视觉架构。
统一高清视觉架构,让传统单图的多模态优势功能得以继承,并实现了一通百通。
例如, 多管齐下的 OCR SOTA 能力:
它将 MiniCPM-V 单图场景的「180万高清图像解析」进行能力迁移和知识共享,无缝拓展至多图场景和视频场景,并将这三种视觉理解场景统一形式化为图文交替的语义建模问题,共享底层视觉表示机制,实现相比同类型模型,视觉 token 数量节省超过 75% 。
OCR 信息提取的基础上,MiniCPM-V 2.6 还能进一步对表格信息进行 类似 CoT(思维链)的复杂推理。
比如让模型计算 2008 年奥运会获得金牌数最多的 3 个国家一共获得了多少枚金牌,CoT 的过程是:
首先利用 OCR 能力识别并提取出奖牌榜中金牌数量的前三名国家;
再将前三名国家的金牌总数相加。
8.2%的超低幻觉率,亦是发挥了小钢炮系列AI可信方面的传统优势。面壁 RLAIF-V 高效对齐技术对低幻觉贡献颇多,MiniCPM-V 2.6 的复杂推理能力和通用域多图联合理解能力亦因面壁 Ultra 对齐技术得到一并增强:
在多模态复杂推理能力对齐方面,MiniCPM-V 2.6 通过复杂题目的 CoT 解答数据,构造高效对齐种子数据,并通过模型自迭代完成数据净化和知识学习。
在多图联合理解方面,MiniCPM-V 2.6 从通用域自然网页中结合文本线索挖掘多图关联语义,实现多图联合理解数据的高效构造。
在端侧最强多模态的道路上,小钢炮 MiniCPM-V 系列已成为标杆性的存在。
自24年2月1日首次开创端侧部署多模态先河,短短半年,即接连完成了端侧模型从单一、到全面对标 GPT-4V 的重大突破,小钢炮系列下载量已破百万!
为何面壁「小钢炮」系列,频出以小博大的多模态端侧佳作?
可以说,MiniCPM 端侧模型系列,正是面壁长期以来「大模型科学化」路线的结晶。
一方面,通过科学提升训练方法与数据质量,不断提升大模型「知识密度」,得到同等参数,性能更强、成本更低的高效模型。 两倍于 GPT-4o 的巅峰级单 token 图像信息密度(Token Density),小钢炮 2.6 交出一份漂亮的多模态高效运行效率成绩单。
另一方面,面壁不断钻研 OCR、多图与视频理解等核心多模态能力创新技术,并持续突破对于端侧极为关键的能耗与内存极限,把最优秀的多模态模型放在离用户最近的地方!相比上代模型快 33%,高达 18 tokens/s 的推理速度,6GB 的内存占用…… 每一点滴对模型「能效比」的锱铢必较,只为了你将 iPad 捧在手心的那一刻,实时丝滑酣畅的体验。开源地址:https://github.com/OpenBMB/MiniCPM-V
https://huggingface.co/openbmb/MiniCPM-V-2_6
部署教程:https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc
LLM智能「参差不齐」!AI大牛Karpathy用表情包解释「9.9<9.11」
前段时间冲上热搜的问题「9.11比9.9大吗?」,让几乎所有LLM集体翻车。看似热度已过,但AI界大佬Andrej Karpathy却从中看出了当前大模型技术的本质缺陷,以及未来的潜在改进方向。
一边是OpenAI、Meta、Mistral、DeepMind等巨头们争先恐后地发模型,几乎每天都能听到重磅消息,给人一种「技术进步日新月异,AGI仅在眼前」的错觉。
另一边又是「9.9」难题继续发挥余热,从推特到微博,引发了全球网友的关注。虽然LLM失智也不是第一天了,但几乎全部大模型都在如此简单的问题上翻车,的确罕见。这种量级的讨论热度,也自然引来了大佬Karpathy的围观。他甚至表示,这已经成为自己最喜欢的LLM测试了。
GPT-4o的失手概率是1/3,但Claude几乎3/3全败
下面是Karpathy本人的实测结果。即使提示了Claude「按实数算,别按版本号算」,也根本不起作用。
突然和辅导孩子写作业的家长狠狠共情了但是Karpathy这种级别的大佬,怎么会满足于找乐子?作为AI技术界KOL,他今天发了一篇长推,把近半年来出现的LLM「失智」现象全部盘了一遍,并给出了相当言简意深的分析。他将这种现象描述为「锯齿智能」或「参差不齐的智能」(jagged intelligence)。最先进的LLM既可以执行各种困难任务(比如解决复杂的数学问题),但同时又在一些非常愚蠢的问题上深陷泥沼。
LLM「失智」集锦
首先是OpenAI研究员Noam Brown,他今年2月发推,感慨LLM玩不好井字棋游戏(tic-tac-toe)。难道是LLM不清楚游戏规则?眼看着用户马上就赢了,Gemini还在傻傻提示「游戏越来越让人兴奋了!你下一步走哪?」而且不仅仅是Gemini的问题,ChatGPT也一样犯傻。你可能会怀疑是RLHF起了作用,让LLM必须输给人类。但Noam表示,即使提示模型要它拿出最佳表现,也不会有什么提升。LLM并没有在谦让你,它可能是真的不行。对此,Karpathy的概括是,模型做出了「毫无道理」的决策。Noam本人则认为是训练数据的锅,互联网上并没有足够多的5岁孩子在讨论井字棋游戏的策略。这似乎是佐证了一部分研究的观点:LLM更多依靠记忆,实质上只是记住了某个问题的解决流程,并没有发展出可迁移到不同问题的抽象推理能力。
论文地址:https://arxiv.org/abs/2307.02477还有一个让人类哭笑不得的例子:LLM好像连字母都数不清。「barrier里面有多少个字母『r』?」——「两个」不仅是ChatGPT,最新发布的所谓「开源王者」,405B参数的Llama 3.1也会犯懵。
不过好在Llama 3.1没有那么多「蜜汁自信」,经过提示还能及时修改答案或许是因为不相信ChatGPT连这种任务都搞不明白,各路网友想了各种办法。CoT提示也用上了——
最后一步还是出错了眼见CoT也不起作用,更有耐心的网友开始进行手把手教学:让ChatGPT先把所有字母一个个写出来,然后它才能发现里面有3个字母「r」。更神奇的事情还有——如果你给所有字母加个圈,LLM就不会数错了!Karpathy是如何解释这种现象的呢?他认为,这源于当今的大多数LLM缺乏「自知之明」,也就是self-knowledge,模型无法分辨自己能做什么、不能做什么。直接结果就是模型的「无知者无畏」,不仅看到任务就上手尝试,而且充满「蜜汁自信」。如果LLM能说出,「我不是很擅长数字母,让我用代码解释器来解决这个问题」,情况就会大为改观。类似的问题在其他模态上也很常见,比如最近一篇标题很吸睛的论文:「视觉语言模型都是盲人」。
论文地址:https://arxiv.org/pdf/2407.06581作者发现,在很多人类准确率可以达到100%的、极其简单的任务上,大模型的表现竟然有些荒谬。不仅准确率低,而且非常不稳定,就像一个很聪明,但实际看不到准确图像的「盲人」或「高度近视」。比如下面这个典型案例:人类一眼就能看出两圆相交,Claude却很自信地表示「这是相切圆,绝对没相交」。那么,这个问题有解吗?Karpathy表示,最近Meta发布的Llama 3.1论文中就给出了类似的解决方案。论文地址:https://ai.meta.com/research/publications/the-llama-3-herd-of-models/论文提出,后训练阶段应该实现模型的对齐,让它发展出「自知之明」,知道自己知道什么,仅靠往里面添加事实知识是无法根除幻觉问题的。因此Llama团队提出了一种名为「知识探测」的训练方式。先从预训练数据中截取片段,让模型只能根据自己所知的信息生成回答,在反馈过程中否决那些有连贯信息但与原始数据相悖的答案。这种方法可以鼓励模型只回答自己了解的问题,拒绝生成不确定的答案。
「参差不齐的智能」
盘点过这些LLM翻车案例之后,我们似乎对Karpathy提出的「锯齿智能」有了更直观的体会。大模型有一些极其出色的能力,能完成许多困难任务,但会在十分简单的事情上有灾难性的失败。这种忽高忽低的智商,的确类似「锯齿」的形状。比如视觉大模型已经可以很好地识别数千种狗和花了,却无法判断两个圆是否重叠。哪些任务是大模型擅长的,哪些是不擅长的?这种分界并不总是很明显,我们似乎可以逐渐发展出一些直觉来帮助判断。但要明白,所谓的「困难」和「简单」任务,都是按照人类标准衡量的。和AI不同,人类从出生到成年,接触到的知识以及发展出的问题解决能力都是高度相关的,而且同步线性提高。Karpathy的这种观点,与著名的「Moravec悖论」有异曲同工之妙。这个论断由CMU机器人研究所教授Hans Moravec等人在上世纪80年代提出,大意是:对人类容易的事情,对机器反而是困难的,反之亦然。比如,逻辑推理和创造力,在人类看来属于高级认知技能,需要较高的教育水平或长期训练,但对于机器来说却通常是微不足道的;而人类能轻松完成的任务,例如视觉和运动技能,对机器而言极具挑战性。
让计算机在智力测试或跳棋游戏中表现出成人水平相对容易,但在感知和移动能力上,很难或不可能达到一岁儿童的技能。
此外,Karpathy的措辞也很有意味。去年哈佛、沃顿、BCG等机构联合发表了一篇有关AI能力的实证论文,同样用到了「jagged」这种形容。
论文地址:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4573321连Karpathy本人都怀疑,自己是不是看到过这篇论文才会提出这种描述。论文提出,AI的能力呈现出一种「锯齿状的技术边界」(jagged technological frontier)。同一困难程度的任务,有一些是AI能轻松完成的,有些却远在它们能力范围之外。对于前者,AI可以补足,甚至彻底取代人类工作;但对能力范围外的任务会有不准确的输出,使用时反而会拉低人类的工作水平。但Karpathy认为,即使目前AI的能力有种种问题,也并不构成根本缺陷,也有可行的解决方案。正如他上面的推文所描述的,其根本原因是模型缺乏自我认知,这需要我们开发更有效、更精细的后训练(post-training)方法,比如Llama 3.1论文所提出的。目前的AI训练思路仅仅是「模仿人类标签并扩展规模」。这个方法的确有效,否则我们也不会看到今天的成就。但要继续提升AI的智能,就不能只寄希望于「scale up」,还需要整个开发栈中进行更多工作。在这个问题没有被完全解决之前,如果要将LLM用于生产环境,就应该只限于它们擅长的任务,注意「锯齿状边缘」,并始终保持人类的参与度。参考资料:
https://x.com/karpathy/status/1816531576228053133
https://www.linkedin.com/pulse/unlocking-mysteries-moravecs-paradox-examining-its-future-joji-john-vm8uf/
三「模」联盟,谷歌DeepMind缔造终身学习智能体!
打造终身学习智能体,是研究界以来一直追求的目标。最近,帝国理工联手谷歌DeepMind打造了创新联合框架扩散增强智能体(DAAG),利用LLM+VLM+DM三大模型,让AI完成迁移学习、高效探索。
为了让AI实现终身学习,帝国理工、谷歌DeepMind竟动用了三大基础模型!
「大模型+视觉语言模型+扩散模型」三模并用,构建了全新框架——扩散增强智能体(DAAG)。DAAG的诞生,就是让具身智能体进行迁移学习、高效探索。最新框架利用了「后见之明经验增强」(Hindsight Experience Augmentation)技术,让扩散模型以时间和几何一致的方式转换视频。让其与目标指令对齐,从而对智能体过去经验进行重新标记。
论文地址:https://arxiv.org/pdf/2407.20798大模型在无需人类监督情况下,自主协调这一过程,使其非常适合终身学习场景。经过一系列实验,结果表明,DAAG改进了奖励检测器的学习、过去经验的迁移以及新任务的获取。这些都是开发高效终身学习智能体的关键能力。
无需人类监督,AI终身强化学习
一直以来,具身AI的训练数据极其稀缺,特别是在强化学习场景中尤为突出。因为这类智能体需要与物体环境进行互动,而传感器和执行器成为了主要瓶颈。然而,克服这一挑战需要开发出,能够从有限经验中高效学习、适应的智能体。对此,研究人员假设,具身智能体可以通过利用过去经验,有效探索,并在任务之间转移知识,实现更高数据搬运效率。即便在没有外部奖励的情况下,他们希望让智能体可以自主设置、评分子目标,并能重新利用之前任务经验,加速新任务学习。因此,最新研究中,团队成员使用预训练的基础模型Gemini 1.0 Pro来解决这些问题。通过视觉、语言和扩散模型的相互作用,让智能体更有效推理任务,解释环境和过去经验,并操纵自身收集的数据,以重新用于新任务和目标。更重要的是,DAAGG可以自主运行,无需人类监督,凸显其特别适合终身强化学习的场景。如下图1,是扩散增强智能体完整框架。其中,LLM充当主要控制器/大脑,查询和指导VLM和DM,以及智能体的高级行为。通过一系列在不同环境中的实验,研究人员证明了DAAGG在改进智能体在关键能力上的表现:1)用扩散模型生成合成样本增强的数据,微调视觉语言模型,自主计算已见和未见任务的奖励;2)为给定任务设计和识别有用的子目标,通过扩散模型修改记录的观察,重新利用原失败的轨迹,从而更有效地探索和学习新任务;3)提取相关数据,使用扩散模型重新利用其他轨迹,有效地将先前收集的数据转移到新任务中。图2所示,DAAGG方法如何通过扩散增强,重新利用智能体的经验。研究人员提出了一个扩散管道,提高了几何和时间一致性,并修改了智能体收集的部分视频。
方法
DAAGG具体设计方法如下。研究人员将环境形式化为「马尔可夫决策过程」(MDP):在每个时间步t,环境和智能体处于状态s ∈ S。从该状态,智能体接收视觉观察o ∈ O,并可以执行动作a ∈ A。在每个回合中,智能体接收一个指令,这是用自然语言T描述的要执行的任务。如果任务成功执行,智能体可以在回合结束时,获得奖励r = +1。这项论文中,除了独立学习新任务外,作者还研究了DAAGG框架以终身方式连续学习任务的能力。因此,智能体将交互经验存储在两个缓冲区中:当前任务缓冲区,称之为新缓冲区:这个缓冲区在每个新任务开始时初始化。然后是离线终身缓冲区:智能体将所有任务的所有回合存储在这个缓冲区中,无论它们是否成功。因此,后者是一个不断增长的经验缓冲区,智能体随后可以用它来引导新任务的学习。以下是,作者选用的三种模型目的:- 大模型LLM:编排智能体的行为,以及指导VLM和DM。LLM接受文本指令和数据,并输出文本响应。而且,利用LLM将任务分解为子目标,比较不同任务/指令的相似性,并查询VLM和DM。- 视觉语言模型VLM:使用的是对比模型CLIP。CLIP由两个分支组成:图像分支和文本分支,它们分别以视觉观察和文本描述作为输入,最终输出相同大小的嵌入向量。- 扩散Pipeline:研究的核心是通过语言指导的扩散模型,修改视觉观察。扩散Pipeline是为了提取智能体记录的观察或一系列时间观察,并保持几何和时间一致性的同时,修改观察中的一个或多个对象。如下是,扩散Pipeline的示意图。在图5中,作者比较了ROISE和自己提出的Pipeline输出。前者不能保持对象姿势和外观,在帧之间的一致性。
扩散增强智能体框架
在扩散增强数据上,微调VLM作为奖励检测器VLM可以有效地用作奖励检测器,条件是基于语言定义的目标和视觉观察。最近的研究显示,为了提升准确性,VLM通常需要在目标环境中收集的token数据上进行微调,适应所需的任务。这是一个耗时的任务,而且每个新任务需要人类手动完成,严重阻碍了智能体以终身方式自主连续学习的多任务能力。通过DAAGG框架,作者在先前收集的观察上微调VLM来解决这一挑战。这个过程如上图2所示,通过这个过程,微调VLM作为LLM分解当前任务的所有子目标的成功检测器。通过后见之明经验增强,实现高效学习和迁移在任何任务中收集的每个回合后,智能体收集一系列观察和动作。在DAAGG中,研究人员旨在最大化智能体可以学习处理新任务的回合数量,即使它没有达到任何所需的子目标。最后,他们通过一个称为后见之明经验增强(HEA)的过程来实现这一点。
实验结果
DAAGG框架提出了LLM+VLM+DM之间的相互作用,以解决终身学习智能体面临的3个主要的挑战:
1)微调新的奖励/子目标检测模型,2)提取和转移过去经验用于新任务,3)高效探索新任务。DAAGG能否将VLM微调为新任务的奖励检测器?图7显示了,在数据集中没有示例的最左侧任务中,DAAGG如何通过综合其他任务中的示例实现大幅改进,同时在所见的任务中保持相同的性能。在RGB Stacking和Language Table环境中,物体姿势之间的精确几何关系非常重要,而DAAGG与基线的差异则更为显著,这说明需要进行扩散增强才能获得有效的奖励检测器。在「房间」环境中,CLIP接收到的观察结果虽然来自低保真模拟器和渲染器,但更接近它在网络规模数据集(水果和家具图片),上进行训练时接收到的观察结果分布。因此,CLIP「零样本」性能要强得多,而在其他任务中,CLIP零样本性能则接近于随机猜测,这表明有必要进行微调。DAAGG能否更高效地探索和学习新任务?下图8中,作者绘制了100个测试事件中,成功解决任务实例的数量与训练事件数量的函数关系图。在测试过程中,不执行任何探索策略或指导,而是让策略网络来引导智能体。可以看到,DAAGG的学习速度比基线更快,将某些不成功的事件作为学习信号的能力,有助于提高在所有测试环境中的学习效率。DAAGG能否更有效地连续学习任务,从过去的任务中转移经验?图9中,研究人员比较了每种方法在使用时,在任务上的性能,性能指标是成功率。可以看到,DAAGG超越了两个基准方法,主要归功于它能够从存储在中大部分经验中学习,通过修改和重新利用解决或其子目标之外的任务轨迹。通过场景视觉增强提高鲁棒性然后,研究人员使用pipeline对每个观察进行5次增强,查询LLM来提出增强的描述(比如,一个有红色地板和白色墙壁的房间)。作者将所有这些增强的观察添加到缓冲区,并在其上训练策略。在原始和增强数据集上,训练的策略都在5个视觉上修改的房间中进行测试,随机改变墙壁和地板的颜色以及干扰物体,在每个房间进行20次测试回合。图11展示了,视觉增强如何带来一个更加鲁棒的策略,能够在视觉上与单一训练Room中,与训练环境很不同的Room中也达到相同目标。总而言之,这项研究中,作者提出了扩散增强智能体(DAAGG)。这是一个结合了大型语言模型、视觉语言模型和扩散模型的框架,旨在解决具身AI智能体终身强化学习中的关键挑战。关键研究结果表明,DAAGG能够在新的、未见过的任务中准确检测奖励,而传统方法在这些任务上难以泛化。通过重用先前任务的经验,DAAGG能够逐步更高效地学习每个后续任务,得益于迁移学习而需要更少的回合。最后,通过将不成功的回合,扩散为相关子目标的成功轨迹,DAAGG显著提高了探索效率。参考资料:https://arxiv.org/pdf/2407.20798https://sites.google.com/view/diffusion-augmented-agents/
4090单卡可跑,6秒直出电影级画质,智谱版Sora正式开源!
国内首个人人可用的国产Sora「清影」,已经引起了AI视频圈的轰动!才发布6天,生成视频数就已经破百万。并且,智谱AI也将同源的视频生产模型CogVideoX,一并开源了。
7月26日,智谱发布AI 生视频产品「清影」,30秒将任意文图生成视频,并上线在他们的AI助手「智谱清言」上,被誉为是国内首个人人可用的Sora。
就在发布6天后,「清影」生成到视频数便已突破了百万量级。
今天,智谱AI宣布将与「清影」同源的视频生成模型——CogVideoX正式开源。
团队表示,希望每一位开发者、每一家企业都能自由地开发属于自己的视频生成模型,从而推动整个行业的快速迭代与创新发展。
打开AI助手「智谱清言」即可体验
随着大型模型技术的持续发展,视频生成技术正逐步走向成熟。
以Sora、Gen-3等闭源视频生成模型为代表的技术,正在重新定义行业的未来格局。
然而,截至目前,仍未有一个开源的视频生成模型,能够满足商业级应用的要求。
CogVideoX系列包含多个不同尺寸大小的开源模型。目前已经开源的CogVideoX-2B,提示词上限为226个token,视频长度为6秒,帧率为8帧/秒,视频分辨率为720×480。它在FP-16精度下的推理仅需18GB显存,微调则只需要40GB显存。这意味着单张4090显卡即可进行推理,而单张A6000显卡即可完成微调。
代码仓库:https://github.com/THUDM/CogVideo
模型下载:https://huggingface.co/THUDM/CogVideoX-2b
技术报告:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf目前,该项目已在GitHub上斩获了3.8k星。
下面,我们就来看看CogVideoX生成的效果到底如何?
一个木制玩具船,在模拟海浪的蓝色地毯上航行,宛如在真的海水行驶一般。
A detailed wooden toy ship with intricately carved masts and sails is seen gliding smoothly over a plush, blue carpet that mimics the waves of the sea. The ship’s hull is painted a rich brown, with tiny windows. The carpet, soft and textured, provides a perfect backdrop, resembling an oceanic expanse. Surrounding the ship are various other toys and children’s items, hinting at a playful environment. The scene captures the innocence and imagination of childhood, with the toy ship’s journey symbolizing endless adventures in a whimsical, indoor setting.
一辆白色越野车沿着松树环绕的陡峭土路快速行驶,可以看到车尾的尘土飞扬。
其实这个场景对于AI来说,相对较难,只有正确理解了物理世界,才不会让生成的尘土在车前扬起。
The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.
下面这幅在战乱中,人物表情细节的刻画,细腻丰富。
In the haunting backdrop of a war-torn city, where ruins and crumbled walls tell a story of devastation, a poignant close-up frames a young girl. Her face is smudged with ash, a silent testament to the chaos around her. Her eyes glistening with a mix of sorrow and resilience, capturing the raw emotion of a world that has lost its innocence to the ravages of conflict.
针对更宏观的场景,CogVideoX也能将白雪皑皑的森林、无人穿梭的宁静小路,生动地描绘出来。
A snowy forest landscape with a dirt road running through it. The road is flanked by trees covered in snow, and the ground is also covered in snow. The sun is shining, creating a bright and serene atmosphere. The road appears to be empty, and there are no people or animals visible in the video. The style of the video is a natural landscape shot, with a focus on the beauty of the snowy forest and the peacefulness of the road.
舌尖上的美食,还得看国产AI视频模型。烧烤架上烤制的鸡肉和青椒烤串,让人看了垂涎欲滴。
Extreme close-up of chicken and green pepper kebabs grilling on a barbeque with flames. Shallow focus and light smoke. vivid colours
CogVideoX
见识到CogVideoX惊艳视频生成能力,你一定非常好奇这是怎么做到的?
VAE
视频数据因包含空间和时间信息,其数据量和计算负担远超图像数据。
为应对此挑战,团队提出了基于3D变分自编码器(3D VAE)的视频压缩方法。
其中,3D VAE通过三维卷积同时压缩视频的空间和时间维度,实现了更高的压缩率和更好的重建质量。
模型结构包括编码器、解码器和潜在空间正则化器,并通过四个阶段的下采样和上采样实现压缩。
时间因果卷积确保了信息的因果性,减少了通信开销。而上下文并行技术的采用,则可以适应大规模视频处理。
实验中,团队发现大分辨率编码易于泛化,而增加帧数则挑战较大。
因此,可将分两阶段训练模型:- 首先在较低帧率和小批量上训练;
– 然后通过上下文并行在更高帧率上进行微调。
训练损失函数结合了L2损失、LPIPS感知损失和3D判别器的GAN损失。
专家Transformer
团队使用VAE的编码器将视频压缩至潜在空间,然后将潜在空间分割成块并展开成长的序列嵌入z_vision。
同时,使用T5将文本输入编码为文本嵌入z_text,然后将z_text和z_vision沿序列维度拼接。拼接后的嵌入被送入专家Transformer块堆栈中处理。
最后,反向拼接嵌入来恢复原始潜在空间形状,并使用VAE进行解码以重建视频。
数据
视频生成模型训练需筛选高质量视频数据,以学习真实世界动态。但视频可能因人工编辑或拍摄问题而不准确。
为此,团队开发了负面标签来识别和排除低质量视频,如过度编辑、运动不连贯、质量低下、讲座式、文本主导和屏幕噪音视频。
通过video-llama训练的过滤器,团队标注并筛选了20,000个视频数据点。同时,计算光流和美学分数,动态调整阈值,确保生成视频的质量。
视频数据通常没有文本描述,需要转换为文本描述以供文本到视频模型训练。然而,现有的视频字幕数据集字幕较短,无法全面描述视频内容。
为了解决一问题,团队提出了一种从图像字幕生成视频字幕的管道,并微调端到端的视频字幕模型以获得更密集的字幕。
这种方法通过Panda70M模型生成简短字幕,使用CogView3模型生成密集图像字幕,然后使用GPT-4模型总结生成最终的短视频。
除此之外,团队还微调了一个基于CogVLM2-Video和Llama 3的CogVLM2-Caption模型,使用密集字幕数据进行训练,以加速视频字幕生成过程。
性能
为了评估文本到视频生成的质量,团队使用了VBench中的多个指标,如人类动作、场景、动态程度等。并排除了不适用于评估需求的指标,例如颜色指标,因为它可能误导视频生成模型。
此外,团队还使用了两个额外的视频评估工具:Devil中的Dynamic Quality和Chrono-Magic中的GPT4o-MT Score,这些工具专注于视频的动态特性。
值得一提的是,团队已经验证了scaling law在视频生成方面的有效性!
未来会在不断scale up数据规模和模型规模的同时,探究更具突破式创新的新型模型架构、更高效地压缩视频信息、更充分地融合文本和视频内容。
团队表示,目前的视频质量还有很广阔的提升空间,期待开发者们在提示词优化、视频长度、帧率、分辨率、场景微调以及围绕视频的各类功能开发上贡献开源力量。
此外,性能更强参数量更大的模型正在路上,敬请关注与期待。
参考资料:https://huggingface.co/THUDM/CogVideoX-2bhttps://github.com/THUDM/CogVideo?tab=readme-ov-file
筑梦Meta元宇宙!揭秘现任CTO与小扎的20年创业之旅
Meta元宇宙蓝图的关键人物,不仅有创始人马克·扎克伯格,还有现任CTO Andrew Bosworth。两人历经20年浮沉,从哈佛同窗到创业伙伴,是从社交媒体Facebook转向Meta「虚拟宇宙」之梦的领航者和亲历者。
他被冠以「盖茨第二」的美誉;
他是哈佛大学计算机和心理学专业的辍学生;
他白手起家,在七年内成为全球最年轻的亿万富翁。
是的,这就是Meta(前身为Facebook)掌门人扎克伯格的故事。
而在这位硅谷英雄的身后,还有一个名字值得瞩目——Andrew 「Boz」 Bosworth,Meta现任CTO。
正是Boz,让小扎对Meta的「元宇宙」充满了雄心壮志:Boz在Meta创立了AR和VR部门,最终发展为Reality Labs。
也是Boz,一度让脸书陷入舆论风波,害得小扎跟在他身后为公司辟谣。
两个人在工作中建立的深厚情谊长达近二十年,他们的身份都经历过很奇妙的变化,但不变的是,他们始终并肩作战,共同实现梦想,分享胜利。
Boz和小扎在哈佛大学相识,当时他是小扎人工智能课程的助教。
2005年,大二的小扎退学创业,Boz则在2006年加入了只有15个员工的Facebook。
从哈佛大学的助教到Meta的首席技术官和小扎的重要副手,Boz这一路是如何走来的呢?颇具争议的他和小扎之间又发生了怎样的故事?
初识哈佛,结缘AI
2003年左右,哈佛大学人才济济,Bosworth在哈佛大学学习计算机科学,在那里他遇到了马克·扎克伯格。
Boz是扎克伯格所修人工智能课程的助教,那时小扎还是本科生,Boz可以算是小扎半个老师。
尽管当时人工智能和神经网络技术还在发展初期,但小扎和Boz却对此抱有浓厚的兴趣。
他们经常在课后讨论AI的未来发展,分享彼此的观点和见解,逐渐建立起了深厚的友谊。
「在CS182期末考试结束两周后,Facebook于2月12日正式上线,所以他显然是一边学习一边创业建立Facebook。」Boz在哈佛大学2020年校友简介中写道。
「扎克伯格是白手起家创业,但我们谁都不知道Facebook会发展成什么样子。」
2005年,扎克伯格在哈佛读大二时退学,全职创业,专注于Facebook的运营和发展。
微软历练,投身Facebook
2004年从哈佛毕业后,Boz曾在微软短暂工作过。
根据他的Meta简介,在来Facebook之前,他担任Microsoft Visio(流程图和图表绘制软件)的开发人员已经快两年。
在2021年接受The Verge采访时,Boz表示,他在微软的短暂时光教会了他很多关于「专业软件开发和管理」的知识。
他从2006年开始正式加入Facebook,可以算是元老级员工了。当时公司大约有15名工程师,只有五六名员工比他更早加入。
打造News Feed
如果要谈及Boz为Facebook所做的贡献,绝不能避开News Feed(资讯信息流)。
2006年,信息流广告最早出现在Facebook上。Facebook堪称信息流广告的鼻祖。扎克伯格本人将News Feed视为十年间最大也是最成功的赌注之一。
News Feed改变了欧美的新闻分发方式,也为Facebook带来了巨额的广告收入回报。到2014年,Facebook超过一半的广告收入来自信息流广告。
而Boz,负责构建了Facebook的第一个News Feed。
「我搭建了信息流背后所有的人工智能和排名,而且是第一个」。
但这也给Boz本人带来了很大压力。2011年,Boz对《洛杉矶时报》表示,「它对我的消耗比生活中任何事情都更强烈」。
虽然News Feed在后来被验证为是非常成功的商业模式,但在推出初期遭到了用户的强烈反对,被认为太具有「侵入性」。
「News Feed助长了用户热情的情绪宣泄,其中大部分是负面的,我更喜欢粉丝小组,而不是『恶评』」。
「但也是在那时,我意识到Facebook的机会有多大。人们对产品的热情让我非常惭愧,也大开眼界。」
随着Boz在Facebook职业生涯的发展,他后面还领导团队相继开发了Facebook Messenger和Groups等产品。
接管广告业务
2012年,Boz本该从公司休假六个月,但他却接管了公司的广告业务。
2016年,Boz时任Facebook广告和业务平台副总裁
Boz在2015年接受《连线》采访时回忆道,在他2012年计划休假前六个月,扎克伯格让他想办法在移动平台上实现广告盈利。
根据Boz的回忆,小扎当时给他画了个饼:「未来六个月,移动领域至少有4个10亿美元的机会,你可以抓住一两个,然后你就可以去度假了。」
小扎的这个要求让Boz觉得十分疯狂,但他决定试试,「Why not?」
在Boz休假的前两天,扎克伯格请他负责Facebook所有广告产品的工程设计,Boz接受了。
Boz最终进行了为期两个月的旅行,并在年底增加了一些额外的休假时间。
在2017年之前,Boz一直负责Facebook的广告业务。
创建Reality Labs
领导了Facebook广告业务部门的建设,开发了News Feed和Groups等主要功能后,2017年,Boz创建了Meta的Reality Labs,涵盖VR、AR和虚拟世界等领域。
Reality Labs多次改名,最初被简单地称为AR/VR,然后是Facebook Reality Labs,最终叫Reality Labs。
Reality Labs一直负责生产Facebook的硬件产品,包括Meta Quest VR耳机和Meta的雷朋智能眼镜。
Reality Labs成为Meta元宇宙蓝图的一个重要组成部分。
当扎克伯格于2021年10月宣布成立Meta作为Facebook的新母公司时,他表示Meta的业务将分为两部分。
一部分是Facebook的应用程序家族,是公司传统的社交媒体业务,包括Facebook、Instagram和WhatsApp。
另一部分就是以元宇宙为中心的Reality Labs。
扎克伯格在公司宣布更名时表示,「从现在开始,我们将首先是元宇宙,而不是Facebook。」足以看出元宇宙概念和Reality Labs在公司的重要地位。
元宇宙(metaverse)是从科幻小说中借用的一个术语。
它指的是互联网的未来版本,人们使用虚拟现实和增强现实耳机等技术来访问互联网,而不是用手机和笔记本电脑上网。
在Boz的领导下,Meta在2021年与雷朋 (Ray-Ban) 合作推出了智能眼镜产品,主要功能是让用户拍摄照片和视频。
雷朋Stories眼镜于2021年9月推出,允许用户拍摄照片和视频。
Boz在产品发布前分享了一段他自己用雷朋眼镜拍摄的视频——不断往小扎身上扔枕头。
但遗憾的是,多次改名的Reality Labs最终还是难逃多舛的命运。
上个月,Boz宣告了Reality Labs重组的消息,这个曾经让小扎不遗余力地投入的「梦幻岛」,还是没有等来元宇宙之梦成真的那一刻。
Reality Labs的所有团队被整合为两个部门,一个是过去负责Quest耳机系列的「元宇宙」(Metaverse)部门。
另一个是新的「可穿戴设备」(Wearables)部门,负责Meta的其他硬件工作,包括与雷朋合作的智能眼镜。
Reality Labs的解散让很多中高层管理人员被裁撤,但Boz仍然身居要职,小扎亦仍未放弃AR/VR。
接任CTO
2021年9月,公司宣布Boz将于2022年接替Mike Schroepfer担任CTO,这是公司历史上最大的一次领导层变动。
Bosworth接替Mike Schroepfer担任首席技术官
在宣布离职的Facebook帖子中,Schroepfer谈到了Boz在 Facebook AR/VR部门的工作经历。
Schroepfer说:「在我们建立元宇宙的更广泛努力中,Boz的贡献是奠基性的组成部分」
扎克伯格在Facebook博客上发表的一份声明中对此表示赞同。
https://about.fb.com/news/2021/09/note-from-mark-zuckerberg/
小扎在这封信中写道,「作为我们的下一任首席技术官,Boz将继续领导Facebook Reality Labs,监督我们在AR、VR等领域的工作。
「这些都是帮助我们构建元宇宙的基础性工作,在Boz的领导下,我对这项工作的未来充满期待。」
不断为公司辩护,引来争议
虽然功绩颇多,但Boz在Meta内部是一个有争议的人物。
2018年,Boz登上头条新闻,当时BuzzFeed发布了他大约两年前发送的内部备忘录。
这份备忘录的标题是「丑陋的」(The Ugly),Boz在其中似乎为Facebook上发生的许多负面消息辩护,只要公司能继续发展。
「丑陋的事实是,我们坚信人与人之间的联系是如此之深,以至于任何能让我们更频繁地与更多人建立联系的事情都是*事实上*的好事。」
他在备忘录中写道:「在我们看来,这也许是唯一一个能通过指标反映真实情况的领域。」
「这不是为了我们自己,或是为了我们的股价。而是为了这件事本身——我们将人们联系起来 」,他补充道。
BuzzFeed爆料后,扎克伯格不得不紧急公关,站出来谴责Boz的备忘录。
扎克伯格表示:「不可否认,Boz是一位才华横溢的领导者,但他说过很多挑衅性的话。这是 Facebook 的大多数人(包括我自己)强烈反对的。我们从来不相信为达到目的就可以不择手段。」
2018年,在爱尔兰立法者面前举行的委员会听证会上,时任Facebook爱尔兰公共政策负责人Nimah Sweeney也表示,Boz在公司内部「因公开负面内容而毁誉参半」。
「我们很多人都想穿梭到他发送消息之前的那一刻,并按下删除键」,Sweeney补充道。
然而,尽管为公司带来了舆论危机,也让自己备受争议,但Boz似乎并没有停笔的想法。
Boz这么做,为「脸书吹哨人」Frances Haugen提供了绝好的素材,无异于给对手送刀。
Haugen曾经揭露脸书多起内幕,引起了轩然大波。她指责脸书将商业成长置于公众安全之上。
证据就在Boz的备忘录里——Haugen泄露的文件显示,直到2020年,Boz仍在Facebook平台上撰写有关仇恨的备忘录。
在题为「需求侧问题」的备忘录中,Boz似乎质疑,Facebook试图解决其平台上的仇恨言论的举措是徒劳无益。
甚至,「不知悔改」的Boz还于2021年初将这份备忘录发布到了他的个人博客上。
他写道,「作为一个社会,我们没有仇恨言论的供给问题,我们有仇恨言论的需求问题。」
Boz补充说,「在线平台在供应方不起作用,因为它们无法控制需求方。」
除了在个人博客上写作之外,Boz还主持了一个名为「Boz to the Future」的播客。
Boz的科技播客于2021年6月开播,Facebook高管Chris Cox以及科技记者Ina Fried和Casey Newton均曾在播客中露面。
Boz有时会谈到他与扎克伯格长达近二十年的工作关系。
Boz今年在Lenny的播客上表示,当扎克伯格决定任命一名员工从事公司最重要的项目时,他会以「索伦之眼」审视工作,将注意力集中在每个细节上。
而Boz就是被小扎的「索伦之眼」选中的人,他们将继续构建Meta的元宇宙。
参考资料:
https://www.businessinsider.com/facebook-meta-executive-andrew-boz-bosworth-metaverse-2021-11#bosworth-was-responsible-for-building-the-facebooks-first-news-feed-4