MIT博士的催化材料征途:用AI4S造一枚化学工业“芯片”

追赶化学材料领域的ChatGPT时刻。 “量子离我们的生活一点都不远。” “一米是多少距离,一秒是多长时间,而一千克又是多少质量? ” 刚一碰面,深度原理的创始人兼CEO贾皓钧便问了「甲子光年」三个问题。 两千多年前,庄子曾给出答案:一尺之捶,日取其半,万世不竭。与现代物理学中的基本定律不同,庄子和许多古代哲学家都认为物质是连续的,物质可以被无限分割,任何尺度的长度都只是相对和近似的,没有有绝对精确的度量标准,所以“一米”不能用基本物理定律精准定义它长度。 但物质并不是连续的。 “米、千克和秒这样耳熟能详的计量单位,都是用量子力学来标准化的。 量子现象更加精准地定义了日常生活中的很多概念。” 深度原理创始人兼CTO段辰儒认为,“ 量子力学是人类近代最伟大的发现。” 数千年来,人们都以太阳定义时间。地球的自转和绕太阳公转的周期稳定性,也由此产生了天、小时、分钟等时间单位。实际上,“一秒”的定义既不是1/60分钟,也不是1/3600小时,现代科学给出了更精确的时间定义:“ 一秒”是铯-133原子基态的两个超精细能级之间发生9,192,631,770次跃迁的持续时间。 这种定义与地球的自转或公转周期无关,而是基于原子物理的恒定性。 “我们日常工作等精确到分钟就足够了。”贾皓钧说,“然而社会生产、科学研究和国防建设中,需要极其精确的时间测量,精度高达千分之一秒甚至百万分之一秒。对时间极致追求的科学家们在20世纪50年代发明了永久的时间测量标准——铯原子钟。” 铯原子钟,来源:NLP 铯原子钟以原子的运动为基准。当用激光照射铯原子时,铯原子最外层的单个电子会在两个状态之间来回循环, 即超精细跃迁,这个速率是恒定的。 其精确度在2000万年的时间跨度内,误差仅为一秒钟。 使用铯原子定义的一秒与原来的一秒时长无异, 但这种新的定义涉及到铯原子内部电子的量子态变化,正是量子力学研究的核心内容。 “量子力学为我们描述和预测微观粒子的状态及其变化提供了理论框架。这些粒子状态的变化是物质相互转换的基础,深深影响着材料和化学领域。”段辰儒进而表示, “我们的研究就是通过AI for Science(简称AI4S)的方法,结合量子化学和实验解锁新的化学反应,以及发现更高效的催化剂。” AI4S并不是一个新词。它是使用AI相关的技术和思想来指导科学发现,一个典型的例子是谷歌的DeepMind团队开发的蛋白质折叠模型AlphaFold。无论是科技行业的领头羊如微软、英伟达和字节跳动等,还是化学材料制造的巨头巴斯夫和陶氏、3M等,都在斥巨资布局AI4S领域。 随着AI4S技术朝着规模化和产业化发展,贾皓钧和段辰儒捕捉到了其中的应用潜力—— 如果在化学领域实现规模化和产业化,就能推动高效且成本低廉的催化材料的研发,还提高能源使用效率和温室气体的转化率。 瞄准时机,两人一拍即合,共同创办深度原理科技公司,专攻化学反应和催化材料。 六月回国后,他们完成了近千万美元的种子轮融资。本轮融资由线性资本领投,真知创投和Taihill Venture跟投,晶泰科技与深势科技作为科技产业方参与。在美国去工业化背景下,中国的材料化学企业正在从生产向研发转型,AI4S在这里前景更加广阔。 2022年,段辰儒获得麻省理工学院(以下称MIT)化学的博士学位,此前曾在微软担任研究科学家,主要研究生成式AI和大模型在化学方面的应用,和微软AI4S研究的产品化;贾皓钧也在今年获得了MIT物理化学博士学位,此前他曾任职陶氏化学的核心研发部门,利用人工智能技术开发催化剂配方和预测化学反应过程。 段辰儒(左一)与贾皓钧(右一)在MIT校园,来源:「甲子光年」拍摄 为什么是催化剂? 能源是人类社会运转的基础,而催化剂则是能源效率的关键之匙, 毫不夸张地讲,催化剂就是现代化学 材料 工业生产中的“芯片”。 “化学反应无处不在。”贾皓钧介绍,“ 其中90%以上的化学品是通过催化工艺合成制备的,催化所创造的产值约占全球GDP的30%。 工业生产中,催化剂贯穿整个化学反应。为了更好地控制这些反应,我们迫切需要关于催化材料的创新。” 以合成氨的生产为例,这一过程每年消耗全球1%至2%的能源,并造成全球约3%的碳排放。通过改进催化剂,若能将合成氨的转化提升1%,那么不仅能节省数十亿美元的成本,还能大幅减少碳排放。 “当AI4S技术将合成氨效率提高5%时,便是我心中化学材料的‘ChatGPT时刻’。” 段辰儒说。 但发掘新型催化材料是一个极复杂的多任务问题。 过程涉及大量的衡量标准和极大的材料空间。实验设计、数据分析和理论模拟,每一步都需要精确的控制和深刻的化学理解 。 不仅是科学上的难题,更是工程上的挑战。 基础科研不存在捷径。对于基础学科的前沿研究来说,理论知识是基础,未知问题的答案往往不会在课本上出现。而由此科研成果衍生的创业尝试,尽管困难重重,却能真正地重塑能源未来。贾皓钧略带激动地说: “化学改变了世界,现在,我们用人工智能改变化学。” 曾经在MIT化学工程系楼里,贾皓钧和段辰儒占据着实验室一角,埋头于屏幕前,键盘不断发出粗重的颤音,这是大脑与AI同频共振的声音,有时空气中还会弥漫一阵热力推动的电子元件的实验室气味。两个人经常在这里一待就是十几个小时,用字符编织算法,在与数据无声对话。 现在,一个绿色且高效的未来,正在深度原理中,静静孕育。未来的图景如星空璀璨,脚下的征途依然漫长,他们正在一步一步地迈进。 1.催化剂是工业生产的“芯片” 段辰儒和贾皓钧有时觉得自己的工作就像在沙场排兵布阵,对化学结构调兵遣将,而新材料就是队伍中的主力军。他们专攻催化领域,通过催化作用来影响化学反应,控制化学键的断裂和新化学键生成的速度和方向。 比如煤碳转化为石油的自然过程需要数百万到数亿年,但借助催化剂,这一过程显著加速。催化剂能在温和的条件下促使原本难以进行的反应顺利进行,从而改变物质和能源的转化方式。“我们的主要任务是寻找性能优异的新催化剂,并设计和实现新的催化反应过程。”贾皓钧解释道。 从面包烘焙到火箭升天,数千年来人类一直在不知不觉中感受着催化的力量。 化学产品示意图,来源:受访者提供 在化学反应的历史中,每当发现新的催化剂或化学反应,人类合成新化合物的数量都会经历跳跃式增长,为科学发现和工业生产模式带来革命性变化。就像1950年代,齐格勒-纳塔催化剂(Ziegler-Natta Catalysts)的诞生时。它主要用于聚合反应,特别是聚合乙烯和丙烯这类塑料的生产。齐格勒-纳塔催化剂让塑料制品的大规模生产成为可能,极大地推动了现代塑料工业进程,影响了包装、建筑、汽车等多个行业。 催化剂示意图,来源:Oil&Gas 能源是人类社会不可或缺的血液。 工业革命以来,人类大规模开采化石能源。在煤炭、石油与天然气燃烧的灰烬中诞生了高楼大厦与车水马龙。然而这种对化石能源的过度依赖以及二氧化碳的大量排放,也带来了资源枯竭、生态失衡和全球气候变化等一系列问题。 数据显示,自工业革命以来,全球地表平均温度已升高约1.1摄氏度,预计到21世纪中叶将超过2摄氏度。同时全球大气污染正威胁人类生存条件。按照当前消费水平推测, 全球煤炭储备将维持不超过200年,石油则可能在50至100年内耗尽。 能源危机兵临城下,探索新型催化材料迫在眉睫。 2017年《Nature》刊登的文章《The Drug-maker’s Guide to the Galaxy》中提到,在整个化学空间中,人类可发现材料(物质)的可能性,是10的60次方。 但筛选10的60次方种材料如是现实中不可能完成的任务。 “用一个最优条件假设,我们就能充分认识到催化材料设计的困难。假设只需 1 微秒即可获得一份候选材料的所有所需信息,且我们拥有与Nvidia总销量相等的1300万台A100 GPU,同时并行、不间断地运行它们。我们每年消耗114大千瓦时的电力(占人类总用电量的 0.5%)。”段辰儒分析,“ 理想情况下,遍历这些材料需要10的36次方年,宇宙寿命大约为100亿年,这相当于宇宙寿命的10的26方倍。” 诚然科技发展早期,新材料的发现易如探囊取物,比如爱迪生通过试验找到灯丝材料钨的过程。 传统化学发现过程依赖于不断的试验和错误, 此过程通常涉及实验室中的化学发现,但手工操作准确性不尽人意,整个过程的时间尺度从几个月延伸到几年,费用和时间成本都很高。但这种“大海捞针”式的方法论已无法满足当前新材料研发的需求。 想寻找催化材料的答案,要深入到肉眼不可见的微观世界。原子正等待着从杂乱无章逐渐走向有序,在最适合的微观结构中释放潜力。段辰儒介绍:“借助AI4S,我们能在信息大海中快速定位到最有价值的资源。” 贾皓钧和段辰儒在寻求一种 “既有当前又有未来,我们要寻找一些全新的可能”。 他们将实验、计算与机器学习三成形成一个循环(Experiment-Computation-ML in a Loop),通过AI决策链结合这些“武器”,从而优化整个化学发现的过程,让“AI炼金术”成为现实。 “现在国内高校和企业越发重视AI4S了,但深入的空间还很大。我们要做的是弥补材料化学和AI结合创新的空白。”贾皓钧说道。 2.“AI计算”炼金术 深度原理的核心算法有4块: ReactControl:使⽤多种⼯具进⾏即时决策,以提⾼成本准确性权衡,超过⼀半的计算和实验努⼒都因失败的尝试⽽⽩费。 ReactControl 将节省⼀半以上评估催化剂性能的时间; ReactBO:通过⻉叶斯算法的优化来发掘催化剂并优化反应条件,1000倍加速在拥有32.5M⼤⼩的材料空间中发掘可合成的发⾊团; Reactify:使⽤推荐引擎来进⾏⽅法选择和改进决策,让误差减少六倍,使⾼通量 DFT ⾸次达到实验精度。 ReactGen:⽣成式⼈⼯智能辅助对新型催化材料和反应的快速采样,采⽤反向设计,无需筛选10的60次方种材料。 总而言之,就是在闭环系统中,通过高通量计算和机器学习减少实验次数和提高数据处理速度,在几秒钟内进行大量的计算和预测,而这些预测通常需要在实验室中花费数月甚至数年的时间。再利用AI进行决策支持,将机器学习、计算核试验的结果整合分析,以确定最有潜力的化学反应路径或材料设计方案。 其中的关键技术是一种基于生成式人工智能技术的扩散模型,名为OA-ReactDiff。 关于OA-ReactDiff论文切片,来源:受访者 OA-ReactDiff能够快速精确地从 原子组分 直接生成并优化过渡态(TS)结构,并有效支持化学反应的机理研究和反应网络构建,并通过机器学习替代了昂贵的传统量子化学计算。 它避开了传统过渡态搜索中常见的复杂步骤,如原子顺序的调整和片段的对齐,而是直接利用反应物和产物的3D几何结构来生成过渡态。 最后聚焦到了过渡态的搜索, 让这个过渡态的搜索速度提高了1000倍左右,将原本需要几小时甚至超过一天的过程缩短至十秒内。在化学领域,寻找过渡态是阐明反应机制和探索反应网络的节点。 过渡态是一种特殊的分子结构,它存在于反应物变为产物的那一刹那。它是化学反应中的桥梁,连接着反应物(起始物质)和产物(最终物质)。好比烘焙过程中蛋糕从液态混合物转变为固体的那个关键时刻,过渡态对于深入理解化学反应的机制至关重要,研究人员依据过渡态的结构和能垒推断反应速率,就能设计更有效的催化剂。 但由于过渡态的瞬态性质,实验上难以观察到过渡态 结构 。 加上其势能表面的复杂性,寻找准确的3D过渡态结构需要极大的量子化学计算。比如使用密度泛函理论(DFT)构建详尽的反应网络,用时从数小时到数天不等,其成本高昂又错误频发。 “复杂的反应网络是通过立即迭代枚举当前已知物种可能发生的基本反应。而传统的过渡态搜索方法,如推动弹性带方法(NEB),计算成本高又难以收敛,常常导致大量的计算资源浪费。”段辰儒解释说,近年来越来越多的研究开始探索使用机器学习技术来寻找过渡态,比如把过渡态搜索转换为一个从2D到3D结构的问题,或通过各种网络模型来解决, 但此类方法的弊端也很明显——还未能完全达到使用DFT评估的精确度。对于这个化学领域盘旋已久的难题,2023年年底,段辰儒、贾皓钧和研究团队开发了一个名为OA-ReactDiff的新模型,它是一个能感知对象的SE(3)等变扩散模型,无需长时间的DFT计算,就能生成高精度的三维过渡态结构。同时他们还构建了一个基于置信度评分的推荐系统,让模型能够仅对最具挑战性的反应进行少量的DFT优化,从而接近所需精确度。 而解决问题的灵感来来自于一篇“利用散模型进行小分子药物生成”的论文。 2022年在AI4S的研讨会上,段辰儒与朋友聊起了Diffusion Model在小分子合成和生物学领域的应用前景。他很快意识到, 尽管这些技术已被用于生成单个分子,但在化学领域的核心应用却鲜有人涉足。之前生成式AI模型已被用在了单独的小分子药物设计。“Diffusion Model能够精确产生可以结合到特定蛋白质活性部位的药物。这让我十分好奇,除了生成单一分子或药物,是否能用这种方法生成整个化学反应?”段辰儒讲到。 “想法很新颖,但技术上的挑战也不容忽视。”与生成单一物质不同,化学反应涉及的多物体系统需要考虑更复杂的对称性,其中共涉及三种不同的物质: 反应物、产物和过渡态。在设计包含多种组分的化合物(比如金属-有机框架)或者研究涉及多种不同结构的化学反应时,传统的SE(3)等变扩散模型很难进行,因为它们难以准确处理和表达多个组分协同作用时的对称性。 这就不得不提到化学领域内最关键问题—— 物质之间的相互转化。稳定性的定义是物质在势能面上的极小点状态。化学反应本质上是从一个势能极小点转移到另一个极小点的过程。基于这一点,段辰儒决定利用扩散模型来生成化学反应,“过程中困难重重,尤其是之前的Diffusion Model和图神经网络不能保证化学反应中一些特有的对称性。” “抓耳挠腮”地思考了三个月后,段辰儒他们研发出了一套图神经网络确保化学反应中对称性,同时将该网络与Diffusion Model结构相结合,创建了一个能够生成完整化学反应的系统。“它能正确处理和维持反应物或产物中原子的排列,同时也能确保在处理多线程时,每部分的旋转和移动都是正确的。”贾皓钧说。 “一开始,我想到AI可以做这件事,但没有想到效果、精度会这么好。我们现在生成的过渡态已能与实验中的反应速率不相上下了,虽然反应速率仍会差一个数量级,但已经让我们看到‘计算和AI引导实验’的潜力。”段辰儒语速快了起来:“最令人激动的是,OA-ReactDiff生成的过渡态结构非常精确,与真实结构的差异极小。处理速度也非常快,在单个GPU上只需6秒。” 这一突破性成果已在《Nature Computational Science》杂志上发表,并荣获封面论文,在业内也掀起不小的“风暴”。GAMESS的开发者、哥本哈根大学的化学教授詹·哈尔博格·詹森(Jan Halborg Jensen)称赞这种新方法代表了“在预测化学反应性方面的重大进步”。 该论文的《Nature Computational Science》封面,来源:受访者 整个博士生涯,段辰儒与贾皓钧在Nature大子刊等顶级期刊及NeurIPS等顶级会议上合计发表超过60篇论文,并开创了多个AI for Chemistry新模型。目前,他们有多项专利正在申请流程中。 “ 我们应该是第一批将GenAI放到化学流程里面的创业团队。”段辰儒说,“当时大家已经把Generative AI,尤其是 Diffusion Model 相关的东西运用在了一些纯的小分子生成和生物里面,但这里面其实都只涉及到生成一个分子。” “「深度原理」也寓意着结合深度学习(Deep Learning)和第一性原理思考(First Principle),用人工智能重新解构分子世界的运作原则。”贾皓钧补充道,“段辰儒是也AI4S领域最早的一批研究者。” 3.创业不是“做饭” 一路从吉林大学读到MIT,贾皓钧的学术生涯还算顺利,也曾想过将学术道路已走到底,但创业的种子在一直在心中未曾泯灭。 贾皓钧和段辰儒同属MIT化学工程系教授、AI化学设计领军人物Heather Kulik教授门下。不同的是,贾皓钧专注于具体的催化反应机理和材料设计,而段辰儒则擅长AI和化学算法。在实验室里,段辰儒是“大师兄”般的存在,他醉心AI4Chemistry,开创了AI决策模型在高通量计算中的整合和应用;贾皓钧更像团队里的“小太阳”,他热情、爽朗、充满能量,总是勇于尝试新的方法和思路。 导师Heather Kulik教授对他们也有着截然不同的评价。她评价段辰儒有着“出色的学术领导力”,对贾皓钧则是“我最勇敢的学生”。 Kulik组的合影,其中Heather Kulik(左一)、段辰儒(左五)和贾皓钧(右一)。来源:受访者 第一次见面时,段辰儒对贾皓钧的印象“不太好”。 2019年秋天,刚到MIT读博的贾皓钧写邮件给段辰儒,咨询选择导师的问题。“见面时感觉这孩子有点‘轴’,咨询得都是好不好毕业、哪个研究方向更有前景等目的性很强的问题,但我做科研是出于热爱,不太聊得来。”段辰儒回忆。 但贾皓钧对段辰儒的第一印象却“好极了”。 “辰儒耐心地解答了我提出的问题,对学术很热爱也很有见解。当时就下定决心一定要抱住这条‘大腿’。”事实也证明了贾皓钧的“眼光”独到,整个博士期间,段辰儒共发表了50多篇文章,其中一作20篇。 几次合作后,段辰儒对贾皓钧印象有了彻底地改观:“皓钧在博士五年间坚持做了一个组内从来没人探索过的方向,当时连导师都劝他换个方向,他却坚持下来了,并小有成绩,这种‘虽千万人吾往矣’的勇气非常人能及。” 段辰儒与贾皓钧的合作时间,基本贯穿了彼此的博士生涯,也建立了十足的默契。“我们是和而不同的创业者,我骨子里是很悲观的人,辰儒乐观的态度让我倍受鼓舞。”贾皓钧说,“但我们对AI4S的认知是相同的。” 段辰儒在微软工作期间意识到自己的研究在工业界的实用性,但现实问题也接踵而来:材料化学公司的科研方式过于保守,而采用和更新AI4S工具的门槛又太高。 这些“门槛”也成了激发了他继续深耕AI4S的动力。“因为创业和我最初想做学术的初衷是一致的。我热爱的是研究和解决问题的过程,初创公司这个形式非常适合去实现它。”段辰儒坚定地表示。 段辰儒在微软总部的留影,来源:受访者 最初,创业的想法是由贾皓钧提出的。“不瞒你说,我从小对‘搞钱’就十分感兴趣。幼儿园学算术时,你问‘15+27’等于多少我未必能答对,但问‘15元’+‘27元’等于多少元我一定能马上答对。”贾皓钧逐渐严肃起来,“‘搞钱’一度是我的追求,但后随着对物理、化学的深入研究,我逐渐认识到有更重要的事业等着我去做:作为一名青年科学家和创业者,我们应该敢于面对国家的技术需求,探索能解决瓶颈问题的基础研究。” 对于AI4S的创业方法论, 他们认为 AI4S 初创公司必须依赖技术创新才能脱颖而出。AI4S类别的创业公司虽然是技术驱动,但终极目标仍是通过创新满足市场需求。科技创业需要平衡市场与技术的不确定性。 Instagram在技术上的风险较低,但最大的不确定因素,人们是否愿意公开分享自己的照片;与之相比Commonwealth Fusion Systems,虽然在可控核聚变方面遇到了很多技术挑战,一旦成功,他们就能清楚地知道如何在有组织的市场中销售他们提供的廉价且清洁的热能和电力。 市场与技术的不确定性,来源:The Engine Ventures 贾皓钧表示:“大部分硬科技公司都处于这两个极端之间,他们需要在资金有限的情况下,同时推进市场和技术的试验和探索。” 在公司发展的早期阶段,技术是核心竞争力。随着公司发展至后期,重点逐渐转向市场和产品开发,技术的直接表现可能不如之前显眼,因为目标转为满足客户需求而非单纯展示技术。虽然可乐的制作涉及复杂技术,如罐装和储存技术,消费者却只关心其基本功能——解渴。这些背后的技术虽然关键,但对消费者而言是不可见的。 深度原理的目标是将技术转化为产品发动机,特别是在快速迭代的化学材料领域,这更亲环保的能源解决方案和更合理的能源分配。“我们希望通过创新来实现这一目标。虽然可以使用各种工具和方法,如AI或传统化学直觉,但我们认为使用AI4S来开发这些解决方案可能性最大。”段辰儒表示。 在实现这些目标的过程中,体系化的方法非常关键。 相比于依赖随机的直觉或偶然的发现,体系化的方法提供了一个更可靠的框架,能够有效地迭代和优化策略。 这种方法在创业、思考问题,以及执行任何计划时都是一种强大的能力。“毕竟创业不是做饭。” 贾皓钧说 。 贾皓钧在MIT博士毕业典礼上,来源:受访者 他认为创业的方法理论固然重要,但创业一定不是一个循规蹈矩的过程。“ 因为创业不像做饭,只有指导原则,没有固定配方 , 全靠 探索 。”从出发到现在,他们未曾忘记深藏心中的愿景 :将人工智能、量子化学和高通量实验技术应用于化学材料领域,让 化学材料 创新的工作流程得以改善,加速研发创新的效率。 段辰儒分享了自己在计算机顶级会议ICML和NeurIPS上组织AI4S社群和会议的体验,“从参加人数的急剧增加可以看出社区的兴盛和AI在科学中应用的热度上升。”段辰儒说,“AI4S是一个兴起的领域。作为最顶尖的研究者时,我们最擅长的就是重塑问题并解决它们;那在创业时,我们为什么不挖掘工业界催化材料的研发生产问题并解决他们呢? 作为CTO,我最重要的使命就是找到AI4S在化学材料领域最顶尖的研究者和工程师,把他们聚集在深度原理,和他们一起在工业界真实的应用场景上‘打怪’。” “我希望深度原理不仅成为一个成功的公司,更是一个科技创新的象征,吸引全球顶尖的科学家和工程师来此大展身手。”贾皓钧憧憬着。 毋庸置疑,这是最好的时机。 2020年,我国提出了“2030年全面现碳达峰”的宏伟目标,将能源效率的战略意义提升到前所未有的高度。 贾皓钧表示:“ 降低碳排放的最有效的方式是提高能源效率。”催化研究的核心目标是促进能源转型,优化能源结构,实现低碳化,并为国家能源安全提供技术保障。

对话Serge Belongie:送你一颗可证伪性的“子弹”

可证伪性是天使也是魔鬼,归根结底,可证伪性是一个世界对齐的握手机会。 十年前,一位欧洲院士对我说:“ 人工智能有不下百个细分赛道,美国会定义一到两个流行赛道,而后全球创业者投资人一哄而上去追赶这一两个赛道。” 此后十年风口轮转,人工智能从非共识到小共识,从小共识到大共识,却从未跳出这句话。 这次对话Serge,始于对他两年前参与撰写的论文 《寻找不可证伪声明中的结构》 的兴趣。只可惜这篇文章至今几乎无人问津,Google Scholar 引用量只有2次。 这让人惊讶。 「甲子光年」认为, 这篇论文 被严重低估了 。 理由一,这篇文章面对的问题极其关键(社交媒体不可证伪性数据的潜在叙事); 理由二,这篇文章给出了重要的理论创新(三元标注法与SNaCK集合); 理由三,这篇文章给出了工程上的实践成果(数据集构建与详实实验比对)。 论文作者Peter Ebert Christensen、Frederik Warburg、Menglin Jia和Serge Belongie;ARXIV2022 这篇论文不难理解,我们从 可证伪性 这个概念开始介绍。 可证伪性(falsifiability)又称可反驳性(refutability)。科学哲学往往使用严格的 证伪法 来判别一个理论是否科学,即 “这些结论必须容许 逻辑 上的反例的存在”。 卡尔·波普尔在1934年提出,如果一个理论或假设可以被现有技术的实证检验在逻辑上抵触,那么它就是 可证伪 的。而如果一个表达无懈可击,以至于让世界没有置喙余地,那往往只能让所有人敬而远之,对推动科学进展无益。 科学家们能够或应该研究的问题,或多或少要有罩门,即让别人有机会攻击甚至推翻。可证伪性的目的,是使理论具有预测性和可测试性, 从而在实践中有用。 Serge的论文 《寻找不可证伪声明中的结构》 探讨了 社交媒体上不可证伪声明的解读复杂性。 论文大意: 社交媒体平台充斥着大量帖子和评论,许多主张无法被证伪。然而, 事实核查工具不足、社交网络讨论缺乏结构、叙事识别存在困难、公共讨论缺乏质量 等,造成诸多困扰。 论文研究了如何在社交媒体上识别和理解那些 无法被证伪的主张(unfalsifiable claims),并将这些主张归纳为 有限几种叙事(narratives),以便更好地促进社交媒体上的讨论和辩论。 有趣的是,作者构建了一个名为 PAPYER 的数据集,包含针对公共洗手间的干手方式(纸巾与空气干燥器)的辩论,600个短文本摘录,31种叙事,4个超级类别,以理解和发现在线讨论中的主流叙事。 该论文引入了 一种超越现有事实核查技术能力的新方法,为管理和理解数字通信环境中不可证伪声明的影响提供了重要贡献——使用这个流程可以发现主流叙事,并且表明这个流程的表现超过了最近的大尺寸变换模型和最先进的无监督主题模型。 通过实验, 作者发现 使用现代句子转换器 (如T5模型)进行 初始句子嵌入 是关键。他们还发现,采样策略对于生成高质量的嵌入至关重要,特别是“Distance-Rnd”策略表现最佳。 实验结果表明,结合人类注释的三元组(triplets)可以揭示遵守结晶叙事的有趣聚类。 仅2次引用 「甲子光年」认为,这篇论文在业界至今缺乏关注的可能原因包括不限于: (1)理论分析相对单薄,实验结果分析停留于定性(11页正文仅半页公式); (2)对于用来做对比的几个算法几乎没有展开介绍; (3)该领域可能还没有学术界统一的数据集,导致在学术界内部没有“出圈”; (4)笔者强调了T5的关键性,但没有叙述清晰其算法优越性。 Serge Belongie在CVPR2024的学术分享,来源:「甲子光年」拍摄 虽然上述论文鲜为人知,但Serge本人是计算机视觉和机器学习领域极具影响力的科学家,主要研究对象识别和图像分割,截至目前,他各类论文被引用次数达到17.9万次。 Serge Belongie,哥本哈根大学(University of Copenhagen)计算机学教授、丹麦人工智能先锋中心(The Danish Pioneer Centre for Artificial Intelligence)主任。此前,他曾任康奈尔科技学院副院长和Andrew H.和Ann R. Tisch计算机科学教授。 最值得介绍的是, Serge是MSCOCO的主要作者 。 MSCOCO数据集是最著名的计算机视觉大规模数据集之一。 2000年,Serge与Jitendra Malik(现加州大学伯克利分校计算机科学系教授,计算机视觉领域著名学者) 共同提出了“形状上下文”(Shape Context)概念, 是计算机视觉和对象识别领域应用十分广泛的形状特征描述方法。 2004年,Serge被《麻省理工学院技术评论》评为35岁以下的青年科技创新者;2007年,他和Jitendra Malik获得了马尔奖荣誉提名;2015年,Serge获得了ICCV亥姆霍兹奖,该奖项主要颁发给在计算机视觉领域做出根本性贡献的论文作者。 Serge还是多家公司的联合创始人,包括 Digital Persona(2014 年与 CrossMatch 合并)、CarCode(被 Transport Data Systems 收购)、Anchovi Labs(2012 年被 Dropbox 收购)和 Orpix。 目前,Serge团队 正在开拓社交网络分析的全新维度 —— 从此前未被关注的,不适合做传统事实核查的大量琐碎言论切入, 分析社交网络上的议题设置和 “ 叙事操纵 ”。 这在当下时间节点尤有特殊意义: 世界反法西斯战争后,无论技术突破和瓶颈交替,都随着时间在历史画卷中跌宕起伏地推移。如同在时空坐标系中展开的《清明上河图》,充斥着千万种光景和古今众生相。 以下为甲小姐对话Serge。 关注公众号「甲子光年」,后台回复“可证伪”,即可获得文中所提到的《寻找不可证伪声明中的结构》 及 MSCOCO数据集两篇论文。 研究人员在实践中通常会受到他们喜欢或不喜欢的叙述的影响——有点类似于Instagram上的热门话题。 甲小姐:“不能证伪,不成科学”已成为一个科学界的普遍共识。但许多哲学家对此提出了质疑,认为可证伪性原则可能导致科学争论变得永无止境。 可证伪性是否是科学进步的必要条件? Serge : 根据流行的观点,一个科学理论必须是可证伪的。 甲小姐: 这是流行的观点,但可证伪性是当下流行的范式吗? Serge: 机器学习文献在过去15年出现了爆炸式增长,每天都有大量论文发表、引用。在这些论文中,相关工作的部分往往会引用其他文献,但引用的未必是与其工作最相关的文献。这是因为文献数量巨大, 研究人员实际上是在回应该领域的主导叙述。 我们通常认为自己是卡尔·波普尔传统中的科学家,只受可证伪断言的影响。然而,科学研究也有潮流,比如生成对抗生成网络和Transformers等技术。尽管这些论文的目标是遵循科学传统, 研究人员在实践中通常会受到他们喜欢或不喜欢的叙述的影响 —— 有点类似于Instagram上的热门话题 。 甲小姐: 你的意思是,机器学习以来,科学家开始背离可证伪性的规范? Serge: 科学家们往往会宣称自己不受这些影响,认为自己是客观的,但他们毕竟是人类,会被这些流行的观点所左右。 这是我们认为不科学的东西,更多的是直觉和观点。 甲小姐: 你如何定义社交媒体中的不可证伪声明? Serge: 我们首先需要讨论关于事实核查的文献。比如哥本哈根大学的伊莎贝尔·奥根斯坦(Isabelle Augenstein )教授开发了一种从确定声明的核查价值开始的方法。我们会将一个声明进行核查, 并在0到1的范围内确定其核查价值。 例如,有关加利福尼亚首府是萨克拉门托的声明,因为可以在多个结构化知识库中找到,非常适合进行语法和句法检查。我们可以检查这样的声明:“加利福尼亚州的首府是萨克拉门托”,并将其可检验性评分可能接近0.99。然后,我们将其提交至结构化知识库确认答案。这种基于深度学习的可检验性系统处理大量声明和训练数据,评估不同声明的核查价值。 但有些声明, 如“移民到加利福尼亚州是不好的”,更多反映个人观点,不适合事实核查。 相对地,如“自2020年以来,加利福尼亚州的移民数量持续增加”这类声明则具有高核查价值。 所以 我们特别关注那些难以验证的声明 —— 这些声明无法直接验证,但它们在社交媒体上引发的讨论颇具意义 。 多次核查可能帮助我们更好地判断。 甲小姐: 在你的研究中,哪些特定技术或工具被用来识别和分析不可证伪的声明? Serge: 我们使用自然语言处理(NLP)技术、聚类和分组算法以及机器学习方法。 我们的目标是 创建一个全球叙事信息设施(GNIF),以研究和组织社交媒体内容 。 这些技术和工具的结合,使我们能够更好地理解和处理大量的叙事内容, 间接地帮助识别不可证伪的声明。 我们能够分析各种形式的文本。 无论是推文还是Reddit评论,我们用NLP技术提取和理解这些内容中的叙述和主题。 其次,我们使用了 聚类和分组算法。这些算法帮助我们将大量的社交媒体内容按照不同的主题或叙述进行组织。 例如, 我们可以发现数百万条推文中有成千上万条内容非常相似,因为它们都在解决相同的基本叙述。 通过 叙事聚类和断言分组,我们将大量的内容组织成较小的集群,让事实核查人员更高效地处理这些内容,而无需逐一检查每个项目。这样即使是不可证伪的声明,也可以通过聚类和分组的方式被识别和分类,便于进一步的分析和处理。 我们会考虑两个输入,比如两篇推文,然后根据不同叙事方面来衡量它们的相似性—— 这些内容可能涉及的话题包括核能与绿色能源之间的辩论,或者婴儿配方奶粉与牛奶的讨论。 网上有许多激烈争议的话题,通常是虚假信息活动的结果 。 这些活动可能非常模糊。我们试图理解的是,这些不同的陈述如何以语言或模因的形式表现出来,它们可能包含图像、文字、音频陈述等, 看起来是完全不同的内容片段。你可能在社交媒体平台上收集了数百万个关于某个话题的讨论,但所有数据蕴含的观点可能只有几十个。我们通过大型语言模型、深度度量学习等技术,试图理解这些现象。 人类注释对的可视化,子图(a) 展示了正面对,即人类标注的相似或一致的叙事对。子图(b) 展示了负面对,即人类标注的不相似或不一致的叙事对。来源:《Searching for Structure in Unfalsifiable Claims》 并不是所有声明(claim)都值得事实核查,也并非所有事实核查都能得到真或假的结果。 甲小姐: 你打造的MSCOCO数据集是最著名的计算机视觉大规模数据集之一。当时是怎样起步的? Serge: 我们在15年前开始进行物体检测研究,起初只有一个包含200多种鸟类的小型数据集CUB200。COCO数据集最初是我的博士生Tsung-Yi Lin在微软研究院的暑期实习项目,他当时的mentor是我的另一位博士生Piotr Dollá。这个项目逐渐演变成一个由学术界和工业界的研究人员组成的联盟。他们希望创建一个能详细描绘出自然环境中的日常物体的数据集,并对这些物体的名称和空间位置进行精确地标注。 甲小姐: 你将数据集命名为MSCOCO。我很喜欢《寻梦环游记》,它的英文名也是Coco。 Serge: 是的,我们都喜欢“COCO”这个名字,它既有趣又易于记忆。 甲小姐: MSCOCO数据集出现后,计算机视觉领域的发展就像乘上了火箭。 Serge: 是这样的,我们围绕它组织了越来越多的知识社区,COCO已经被数百万人使用。 我们从小范围做起,最终发展出了一个带来深刻影响的研究领域。 我参加的第一次计算机视觉会议是CVPR 1994,也是在西雅图。那是三十年前了,当时大约有300人参会。而现在,2024年的西雅图CVPR,有一万两千人参加会议。 甲小姐: 已经30年了,是什么动力驱动着你对计算机视觉和人工智能研究始终如一的热情? Serge: 从我记事起,我就对模式和事物分类很感兴趣。中学时我做过关于对螺丝、螺栓和其他紧固件进行分类的课堂项目。上大学时我对音频模式产生了兴趣,特别是生物声学、比如鸟类或鲸鱼的叫声。 而在图像方面,是指纹和人脸深深吸引了我。 我曾研究过如何从视频中读唇语。这个问题的各个方面都令我着迷:音频与视觉的融合、不同说话者之间的差异和计算上的挑战。在90年代初,数码相机刚刚问世,但它们还没有任何形式的计算理解功能。如今,你可能理所当然地认为取景器中会出现面部检测框,或拥有能够智能组织你整个家庭照片的相册软件,但那时候还不存在这些。 我当时就感觉这种技术的需求会非常大,同时 我也喜欢技术背后的数学原理。我喜欢这些领域使用的技术,但我并不想主修数学或物理。如在声音、视频和图像处理中使用复杂的数学方法来解决问题。 我总觉得,我来到这个世界的使命就是为了从事这样的工作。 甲小姐: 你在今年CVPR上做了哪些学术分享? Serge: 我的团队在CVPR主会议上提交了多篇论文,我也在两个研讨会做了分享。其中一个报告是关于专注于计算机视觉研究的历史,主要为了帮助年轻学者了解经典的计算机视觉技术,即在深度学习和变换器之前的技术。同时我还介绍了Visipedia项目,它始于2011年发布的CUB200数据集的扩展版本。目前,Visipedia的研究内容已经扩展到数以万计的植物、动物和真菌,为自然界中的物体识别提供了重要的研究基础。 另一个报告是我在今天的采访中想着重分享的内容,跟叙事(narrative)、舆论、虚假信息有关,尤其在社交媒体发达的背景下。 甲小姐: 你的工作为这一领域带来了哪些创新? Serge:虚假信息和社交媒体领域里的经典问题是事实核查 。 比如哥本哈根大学就有大量相关工作。一般做法是对于某些需要核查的言论,我们用人工智能系统搜索相关事实,并且根据事实预测一个0至1之间的真实性评分。 甲小姐: 这种方法面临什么挑战? Serge: 这个方法本身没有太大问题,挑战来源于问题本身。 并不是所有声明(claim)都值得事实核查,也并非所有事实核查都能得到真或假的结果。 比如 “熊猫是中国的国宝” 是一个能够通过结构化知识库和大量数据训练模型、核查真实性的声明。而 “搬家到加利福尼亚” 这句话则不然。 甲小姐: 所以你从后者这类声明里找到了研究的潜力? Serge:后者这类声明没有被大量研究过,却是同等重要的问题。 这些言论或许没有严格的真实/虚假定义,却会在社交媒体上引发大量讨论。在只需要对新闻媒体做事实核查的时代并不存在这个挑战,而在社交媒体高度发达的今天,一类引发激烈讨论,难以科学定性,或无法证伪的话题变得非常值得研究。 甲小姐: 你能否举一个产生了实际影响,甚至是带来了比较激烈冲突的案例? Serge: 很高兴你提了这个问题,让我们举一个有趣的例子。你在公共洗手间洗完手,有两种擦干手的选择。我不确定中国常用什么方式,在欧洲,你可以拿出纸巾,也可以使用热风烘干机。 甲小姐: 这两种方法在中国也最常见。 Serge: 生产烘干机的厂家和生产擦手纸的厂家与任意的连锁饭店签约,都能赚很多钱,整个市场大概会产生数十亿美元的收入。但欧洲现在很多人对这两种方式的区别有非常强烈的看法。很多人说其中一种方法可能会传染疾病,而另一部分人说,大量用电或造纸会浪费树木造成环境破坏。大多数持有这些观点的人都不是公共卫生或者环境专家。 甲小姐: 这些说法本身是否真实? Serge:我们其实并不在乎言论的真实性,因为社交媒体里很多话题是无法严格证明或证伪的。 但这个话题被提出来是因为一小部分人希望让大众相信,一种方法比另一种方法好。他们可能创建了数十万个机器人生成相关内容。现在你在社交网络上搜索关于纸巾和空气干燥器的讨论,你会发现数百万条评论。我们的研究不关注严格比较两种方法的利弊并给出事实核查结果。 我们更关心探测到这类被设计的议题。 避免草率地做出决定。 甲小姐:你的研究开拓了另一个维度。传统的事实核查关注语义(semantics)的真实性,而你的研究关注陈述或声 明的 语用(pragmatics) —— 预测的目标不仅限于真实与否,而是拓展到社交网络上由部分用户或者大量机器人营造的,为了实现特定目的话题讨论。 这个研究你知道意味着什么吗? Serge: 是的,我们在创造全新的东西。我们知道的多数相关研究只关注事实核查。但是我们在尝试用话题相关的自然语言技术对社交媒体上的讨论进行分组和聚类,帮助个人、企业、策略制定者了解社交媒体上正在发生的事情。 我们不对这些话题和讨论内容作价值判断,只客观显示每个议题以何种形式被提出。 甲小姐: 为了实现这个目标,我们首先需要一个数据集。建设这个数据集应该是个很大的挑战。在开创计算机视觉研究的时候,你们从一个小型的鸟类数据集拓展到COCO。这次你们是怎样切入的? Serge: 这类社交网络行为通常有一个特征。某个话题可能有一百万条相关推文,看起来有成千上万个账户在参与讨论。 但是通过分析,我们可能发现其中有十万个推文实际上发表了完全相同的东西,有非常相似甚至一样的叙述。 不过仍然请记住,这并不意味着这些讨论是正确或错误。我们让用户看到不同言论的聚类和分组,使得事实核查、社交网络分析工作者能更容易处理和理解大量内容,而不必处理突然涌入的几百万条推文。 甲小姐: 这个系统是否可以实时处理社交媒体上的各种争议话题? Serge: 我认为它能,也希望如此。 假设在地中海,俄罗斯和美国的两艘舰船相遇了。社交网络便会开始讨论,一组叙事便就此诞生。每几个小时都会有新的信息出现,其中可能一方舰长发表了声明,或者又有人发表一段手机录音。这种情况下,某些叙事和议题得到关注,另一些可能会变得无关紧要。 甲小姐:你们希望 实时 抓取议题 ? Serge: 以及其它信息。 为了给专业外交官提供帮助,我们希望制作一个 仪表盘 (Dashboard),提供全面的相关信息,也将这些事件放入世界背景中。这种系统可以 让人们避免草率地做出决定。我想强调,系统本身不决定哪方是对的,而是全面组织信息。 甲小姐: 为了实现可靠的功能,需要解决哪些难点? Serge:传统和新的挑战都有。传统挑战包括语言文化、情感偏见的影响。 举例来说, 《小美人鱼》和《丑小鸭》都是丹麦作家的作品,但它们迪士尼电影版的故事都做了符合美国文化的调整。由于在社交网络上美国叙述相对于丹麦叙述的更为主导,许多其他国家的网络用户中几乎鲜有人知安徒生故事的原版。 在数据标注过程中,尤其是对社交网络数据做标注更会受到语言和文化的左右。再比如情感分析已经是事实核查中的重要部分,而情感预测模型本身在训练中可能存在大量偏见和刻板印象。 AI模型训练是垃圾进、垃圾出的过程,本身难以解决训练数据带来的问题,因此我们必须了解模型使用了什么训练数据。 我们可以说,没有人类参与的事实核查是不存在(不可靠)的。 甲小姐: 那新的挑战有哪些? Serge:语言模型生成的虚假内容是我们面临的新挑战。 此前的社交媒体虚假账号往往有非常简单的模式可循。但是有了GPT和图片生成模型后,虚假账户创建者可以生成更复杂和自然地虚假个人资料,进而伪造看起来很真实的社交媒体账户。这些账户不容易被传统的虚假账户识别模型找到。这些生成式AI模型也给传统的事实核查任务带来了相应的挑战。因此, 生成式AI创建虚假信息和识别虚假信息,会是这个时代的猫鼠游戏。 他们(OpenAI)可能还不知道我们的计划。 甲小姐: 这些挑战看起来不是单纯能通过模型能解决的,可能会上升到AI与人类合作这个维度。 你 似乎 总是在新的维度上发现新的问题,然后从简单切入去解决。 Serge: 是的。 我们的新想法可以与维基百科类比。 人们曾经认为维基百科同一个节点只需要语义相同的不同语言页面就好。实际情况是,不仅仅是语言不同。 同一词条的不同页面的语言、文化、价值观、传统,所有因素混合在一起。 例如原子能和化石燃料,它在不同语言和世界不同地区的覆盖方式非常不同。所以这提醒我们,我们试图建设的AI系统并不是纯粹自动化的,也不是一个独立运行的模型。这是一个人类参与的系统,意味着你需要世界各地许多不同的人类社区来标注和组织数据,并考虑所有不同的部分。 这是一个很深刻的大问题,因为偏见总是存在的。 甲小姐: 所以和MSCOCO一样,组织尽量全面和公平的数据本身就是这项研究的雄心壮志。 Serge: 这是组织所有不同类型社区的过程。世界上不同地区,不同年龄段的人们学习文学、历史、科学等不同专业,每个领域都有自己的故事。为了让我所描述的研究获得成功, 我们需要大量了解各种议题的标注 者 。 他们不必是专家,但他们需要对所须标注的内容,例如核能、创业,或者加密货币有一定的知识,才能知道叙事和议题的相似性。因此最大的挑战是社区的组织,而非AI基础计算和储存设施。 甲小姐: Sam Altman或者Yann Lecun对你的思路有评论吗? Serge:他们可能还不知道我们的计划。 甲小姐: 我似乎在目睹一件创举的最初阶段: 在更高的维度上发现问题,并找到最直接的切入点。 Serge:如果我们开发这种关于议题检测的基础设施,就像很多技术一样,它可能被用于好事或者坏事。 因此与很多商用AI不同, 我们试图开发公开、透明和可审计管理的系统。因此,我们将有一个完全透明的知识库,用户可以看到数据的编辑历史,包括数据是什么时候被收录的,被哪些标注者标注而已。 甲小姐: 如何确保数据的准确性和客观性? Serge: 简单的答案是, 我们无法保证。 但我们能做的最大努力是创建一个吸引数以万计不同讨论领域感兴趣的人来对系统进行标注。尽量多的标注者可以帮我们带来统计意义上的客观。维基百科也有一些设计透明度和问责的机制,我们也会做同样的事情。 甲小姐: 这项研究会如何影响政策制定者、教育工作者和技术人员? Serge:可以把我们正在做的事情看作对逻辑或者事实推理的补充。 假设一家公司想要提高自身的多样性、公平性和包容性。于是他们的董事会召开会议,讨论雇佣更多女性或少数族裔。这类讨论在许多公司中都很常见,例如在某所大学里,学习电气工程的女性可能不多,该系希望采取措施改变这一现状。在这些会议中,可能会出现很多没有知识或信息支撑的讨论。 有些人会带有偏见地表达女性不擅长数学这样的观点。这时就需要一个系统可以帮助系主任、CEO或需要领导这些讨论的老师,他们可以从系统中提取一套叙述来构建讨论。此外一旦系统开始工作,它会将语句索引并解析为预先存在的叙述。这样,CEO、老师或会议主持人就能避免质量低或混乱的对话,拥有一个有效的结构和分类系统,引导讨论并防止冗余的对话。 甲小姐: 对于未来的社交媒体叙事、议题分析中,你认为技术发展的潜在研究方向是什么? Serge: 不同的领域都有其独特的挑战。其中一些是经典问题,例如处理大量数据以及如何标记它们,如何减轻偏见等。但在可视化方面,我们也面临着大挑战。 刚我们提到不同语言文化所面临的差别。每一个特定话题都有许多不同角度的表述,不同标注者也会由于各自的偏见提供不同的标注。从信息理论的角度来看,试图压缩这些多样化的账目可能会导致信息的丢失或损坏。这类问题将贯穿整个项目,并且我们将频繁遇到这些问题。 甲小姐:在你看来,视觉技术的哪些最新进展对未来影响深远? Serge: 现在越来越多的研究者开始关注多模态数据,一个模型中同时处理图像、文本和音频等多种数据类型,这种方法通常使用如Transformer这样的模型架构来解决复杂的实际问题。我相信这种趋势会持续下去,未来的人工智能领域新人会发现,同时掌握多种专业技能比单独深入一个领域,如自然语言处理或计算机视觉,更为自然。 个人认为,尽管有人声称人工智能将完全取代医生,这种说法夸大其词了。但我确信,在放射学、皮肤病学和组织病理学等领域,人工智能辅助系统将会普及并受益每个人。 至于无人驾驶汽车,尽管过去有预测称视觉技术和人工智能的进步将实现无人驾驶汽车的普及,但我认为这种情况不太可能发生。除非政府采取措施限制传统汽车在某些车道上行驶或完全禁止使用传统汽车,否则在美国,无人驾驶汽车成为常态的可能性极小。 甲小姐:我喜欢你的论文。我的想法也有类似之处。 技术发展同步并举地解锁着新的认知维度,最有价值的方法论恰是有极简切入点却可辐射全局的方法论。 Serge: 你最感兴趣的是什么方法论? 甲小姐: 举个小小的例子。 沿着可证伪性走,科学会自己走上否定之否定的迭代之路……回到我们万般熟悉的,科学革命的结构。 *周航对本文亦有贡献。 由于本文涉及学术讨论,在此附作者相关简介: 张一甲,甲子光年创始人,2013年毕业于北京大学数学科学学院,获国家发展研究院经济学双学位;曾获中国数学奥林匹克金牌,入选国家集训队;研究方向为金融数学和博弈论,兼任北京大学数学科学学院理事。 周航,甲子大脑负责人,2019年毕业于北京大学数学科学学院;研究方向为稀疏优化与非凸优化。 Searching for Structure in Unfalsifiable Claims.pdf 978-3-319-10602-1_48.pdf“Microsoft COCO: Common Objects in Context”MSCOCO数据集:Serge被引用次数最高的论文。 托马斯·塞缪尔·库恩《科学革命的结构》

小游戏、智能座舱、开源鸿蒙…知名游戏引擎在中国的本土化之路

不只是游戏,Unity中国还想做的更多。 7月下旬,一年一度的ChinaJoy,把科技产业的关注点暂时从AI拉到了电子游戏。 在ChinaJoy举办的那几天里,成千上万的游戏玩家从全国各地来到上海,在参与这场线下的游戏狂欢之余,第一时间体验到自己心仪游戏的最新版本。 例如育碧就带来了自己今年初发售的动作冒险类游戏《波斯王子:失落的王冠》。 在游戏中,玩家扮演一位波斯战士,拯救王子并恢复世界的和平。尽管游戏情节看似比较老套,但作为育碧的经典游戏IP之一,从小时候的红白机时代开始,《波斯王子》就备受玩家喜爱。而如今的主机、PC乃至手机平台,都让这款游戏无论从画面、动作、玩法等方面实现了无数次更新,给这款经典IP注入了新的活力。 而这背后,离不开游戏开发引擎Unity的支撑。 对于游戏开发者来说,Unity是一个再熟悉不过的名字。目前,全球一半以上的游戏都是基于Unity引擎开发。而在全球排名前1000的手游中,基于Unity开发的产品比例更是高达73%。这其中也包括来自中国开发者的作品,如《王者荣耀》、《绝区零》等等。 7月23日,全球Unity开发者的行业盛会Unite 2024在上海举行。这是Unity时隔5年之后重新在线下举办开发者大会。在为期3天的会议里,Unity与来自全球的用户共同见证了Unity领先全球的技术实力、在中国本土的技术发展,以及Unity在游戏、汽车、工业等多个领域的创新应用。 作为Unity面向全球的年度旗舰活动,Unite 2024不仅展示了Unity 6在实时3D技术领域的最新成果,还为中国用户带来了专门面向中国市场开发的团结引擎,以及整个数字生态的能力建设。 在「甲子光年」看来,从游戏开发到游戏发行,从数字孪生到汽车智能座舱,Unity正在各个领域开创新的篇章。 1.伴随游戏诞生的Unity中国 曾几何时,中国玩家玩到的游戏都出自暴雪、育碧、任天堂、索尼等欧美日韩的世界级游戏厂商。但如今,海外玩家手机上的《原神》、《万国觉醒》等,都来自中国的游戏公司。 数据统计显示,2020年上半年,在日美韩全球三大游戏市场Top200游戏畅销榜,中国游戏的渗透率均达到了20%左右,日韩市场更是达到了25%。而三大市场的合计收入,约占中国游戏出海总收入的60%。其中,米哈游的《原神》、莉莉丝的《万国觉醒》等都是中国游戏出海Top榜单的常客。 从全球游戏市场来看,中国是除欧美、日韩之外的第三大游戏市场,并且已经成为全球手游开发的主要阵地。 2020年,中国自主研发游戏在海外市场实际销售收入为154.5亿美元,首次突破千亿元大关(按汇率换算)。2021年上半年,中国自主研发游戏海外市场实际销售收入84.68亿美元,同比增长11.58%。 换句话说,中国市场已经成为了全球游戏行业的“兵家必争之地”。 早在2012年,Unity就看到了中国在电子游戏市场上的巨大潜力。 在全球游戏开发引擎市场中,Unity市占率达超过七成,与虚幻引擎(Unreal)呈现双寡头的格局。2012年,Unity正式进入中国市场后,其同名游戏开发软件为腾讯的《王者荣耀》、《绝地求生》、米哈游的《原神》等诸多热门游戏提供了支持。 随着全球游戏产业的不断发展,中国开发者在全球游戏市场中的重要程度也与日俱增。为了更好服务中国用户,2022年8月,Unity在中国成立合资企业“Unity中国”,为国内游戏开发者构建其核心产品的本地定制版本。同时,Unity中国也在为本土工业领域下的数字孪生与商贸经济发展提供全方位的支持。 Unity中国CEO张俊波在接受包括「甲子光年」在内的媒体访谈时表示,中国是一个潜力巨大的市场,无论对于游戏还是其他行业应用场景来说,中国的市场价值都是不可替代的重要组成部分。 Unity中国CEO张俊波,来源:Unite 2024大会现场照片直播 事实上从Unity的财报数据也能反映出这一点。 2022年第二季度,Unity来自大中华区(包括中国大陆和中国香港、中国台湾)的营收为4229万美元,同比增长9.4%,在整体营收中占比14.2%。大中华区早已成为Unity增速最快的市场大区之一。 2.Unity中国的三板斧: 小游戏、智能座舱、开源鸿蒙 为了更好服务中国开发者,去年8月,Unity中国正式发布了Unity中国版引擎——团结引擎。 团结引擎是Unity专门面向中国市场推出的开发引擎。作为Unity中国本土化进程的加速器,团结引擎以Unity 2022 LTS为研发基础,并基于对国内科技市场的深度观察,针对小游戏和智能汽车领域提供了更深度的技术赋能与效率提速。 通过多项原创性的本土优化与拓展,团结引擎目前已兼容适配了中国科技生态内的众多软硬件平台,包括Windows、Mac、Linux操作系统,以及Android、iOS、OpenHarmony等。 在一年前团结引擎发布时,Unity就对其抱有极高的期待。彼时,Unity全球CEO John Riccitiello表示:“中国市场的活力与本土开发者的创造力,让我们从广度与深度上拓展了实时3D技术的应用范畴。团结引擎的发布,相信未来中国市场会带给我们更多惊喜。” 从整个游戏市场全局来看,微信小游戏是中国游戏市场的独有产品,同时也是中国游戏市场增长的一大亮点。 根据2023年6月微信小游戏开发者大会公开的数据,2023年上半年,微信小游戏用户总量已突破10亿,月活用户达到4亿;而《2023年中国游戏产业报告》数据显示,2023年国内小程序游戏市场实际收入为200亿元,同比增长300%。 在这种趋势下, 在团结引擎上线之初,微信小游戏就成了团结引擎聚焦的重点之一。 Unity中国基于WebGL开发了微信小游戏专属的目标平台,让开发者得以轻松地将其他平台的游戏转换为微信小游戏。 经过了一年的开发者使用,团结引擎已经得到了诸多中国开发者认可。 访谈中张俊波告诉「甲子光年」,从开发者的实际使用情况来看,团结引擎非常符合中国开发者需求。根据Unity中国的观察,与之前相比,今天微信小游戏的品质早已今非昔比。在团结引擎的支持下,开发者们越来越容易做出更高质量的小游戏,经典手游的移植效率也更高。 除了微信小游戏外,团结引擎的另一个重点领域就是智能座舱。 今天,智能汽车产业在中国已经非常发达,越来越多的消费者开始选择智能汽车。随着车内大屏、算力水平以及整车电气架构的集体升级,汽车人机交互也进入了飞速进化的时代。 作为在汽车领域有着前瞻性布局的科技企业,Unity中国已助力包括蔚来、小鹏、理想在内的诸多国内外汽车厂商,打造了更沉浸、更智能的人机交互体验。团结引擎车机版的代码,正是来源于这丰富的实战经验中。 例如,团结引擎车机版内置了多种常用车机App的开发模版,可大幅缩短开发流程;车机模拟器则实现了可视化开发,可以实时反馈开发进程中的每一步。 截止目前,Unity中国已经与35家车厂建立合作关系,共同推出了68款量产车型,超过85%的智能电动车厂正在使用Unity来打造新一代的中控屏和仪表盘体验。 此外, 团结引擎在中国的本土化业务中还有一个亮点,就是对OpenHarmony的支持。 事实上,在团结引擎上线之际,Unity中国就透露团结引擎会支持OpenHarmony。而一年之后,团结引擎已经将这一承诺实际落地,帮助开发者快速将应用部署到新操作系统。 同时,已经有多家公司在基于OpenHarmony和ARM Linux开发国产工业操作系统,相信这一方向会成为未来的一大趋势。 3.不只是游戏 Unity中国坚持贯彻Unity“开发大众化、解决工具难题、助力开发者成功”的三大原则,将Unity的技术带到中国市场,通过一系列本地化举措获得了巨大的成功。如今,Unity在中国已拥有高达350万的注册用户。 中国的市场空间是巨大的。不只是游戏,显然Unity中国的想为更多各行业的开发者赋能。 事实上,除了游戏开发之外,Unity早已应用在包括工业、制造业等诸多行业场景,尤其是其中的数字孪生技术上。 Unity中国工业业务负责人张黎明向「甲子光年」透露,目前国内很多汽车厂商找到Unity中国,希望可以合作进行数字孪生项目建设。 “他们希望在三维数字孪生工厂中能够实现真实生产业务中的所有业务仿真能力。这样做的好处是,在真正建设工厂之前,我们就已经在三维环境中模拟建设了整个工厂。此外,我们还可以在三维环境中仿真生产线中的每个设备的运行情况,以及设备和厂房之间的交互、人与设备之间的交互以及物料和设备之间的传输和互动。这样就可以避免我们在建设生产线过程中一边建设一边发现问题,一边调整,一边再去做维护,能够给项目节省大量的时间周期和资金投入。”张黎明介绍。 不过,目前中国其实已有不少厂商也可以提供数字孪生技术,Unity中国和团结引擎在其中的优势是什么? 据张黎明介绍,目前虽然已经有很多工业软件,但每个软件都专注于自己的细分领域。例如,有些软件只用于机器人仿真,有些只用于建筑设计,还有些只用于物流仿真。 而现在的制造业公司需要在全量、全场景的数字孪生中,将所有元素进行全面仿真。但目前没有一款工业软件能够满足这一需求。 而Unity中国的团结引擎所提供的解决方案,是将团结引擎作为各种工业软件的数据交互中枢,可以连接到不同的工业软件中。例如连接机器人仿真软件和建筑设计软件,并将它们的数据实时同步到Unity的数字孪生系统中。 除了工业领域,Unity中国还正在参与智慧城市的建设,通过实时3D技术帮助城市管理和调度;在电商和文化旅游等非游戏领域也有实际应用案例,通过3D可视化和交互技术提升用户体验等。 从业务重心来看,Unity中国目前聚焦三块业务:游戏、智能座舱、工业。在问及未来业务战略时,Unity中国CEO张俊波向「甲子光年」透露,游戏作为自身的基本盘,会继续在团结引擎的支持下,为中国的开发者解决好目前的游戏开发与发行的痛点;智能座舱是Unity中国下阶段的第二增长曲线,是需要全力抓住的;而工业则是自身需要长期关注,但并非眼前的紧急问题。 “开发者是推动行业持续进步的核心力量,Unity一直以开发者为中心,倾听他们的需求并不遗余力地提供创新的解决方案,期望通过技术赋能,助力开发者们施展创意,在更广阔的舞台释放无限潜能。”Unity中国CEO张俊波表示。

私有数据、删掉的内容可以永久访问,GitHub官方:故意设计的

最近,一个消息震惊开源社区:在 GitHub 上删掉的内容、私有存储库的数据都是可以永久访问的,而且这是官方故意设计的。 开源安全软件公司 Truffle Security 在一篇博客中详细描述了这个问题。 Truffle Security 引入了一个新术语:CFOR(Cross Fork Object Reference):当一个存储库 fork 可以访问另一个 fork 中的敏感数据(包括来自私有和已删除 fork 的数据)时,就会出现 CFOR 漏洞。 与不安全的直接对象引用类似,在 CFOR 中,用户提供提交(commit)哈希值就可以直接访问提交数据,否则这些数据是不可见的。 以下是 Truffle Security 博客原文内容。 访问已删除 fork 存储库的数据 想象如下工作流程: 在 GitHub 上 fork 一个公共存储库; 将代码提交到你的 fork 存储库中; 你删除你的 fork 存储库。 那么,你提交给 fork 的代码应该是不能访问了对吧,因为你把 fork 存储库删除了。然而它却永久可以访问,不受你控制。 如下视频所示,fork 一个存储库,向其中提交数据,再删除 fork 存储库,那么可以通过原始存储库访问「已删除」的提交数据。 这种情况普遍存在。Truffle Security 调查了一家大型 AI 公司 3 个经常被 fork 的公共存储库,并从已删除的 fork 存储库中轻松找到了 40 个有效的 API 密钥。 访问已删除存储库的数据 考虑如下工作流程: 你在 GitHub 上有一个公共存储库; 用户 fork 你的存储库; 你在他们 fork 后提交数据,并且他们从不将其 fork 存储库与你的更新同步; 你删除整个存储库。 那么,用户 fork 你的存储库后你提交的代码仍然可以访问。 GitHub 将存储库和 fork 存储库储存在存储库网络中,原始「上游」存储库充当根节点。当已 fork 的公共「上游」存储库被「删除」时,GitHub 会将根节点角色重新分配给下游 fork 存储库之一。但是,来自「上游」存储库的所有提交仍然存在,并且可以通过任何 fork 存储库访问。 这种情况不是个例,上周就发生了这样一件事情: Truffle Security 向一家大型科技公司提交了一个 P1 漏洞,显示他们意外地提交了一名员工 GitHub 帐户的密钥,而该帐户对整个 GitHub 机构拥有重要访问权限。该公司立即删除了存储库,但由于该存储库已被 fork,因此仍然可以通过 fork 存储库访问包含敏感数据的提交,尽管 fork 存储库从未与原始「上游」存储库同步。 也就是说,只要存储库有至少一个 fork 存储库,那么提交到公共存储库的任何代码都可以永久访问。 访问私有存储库数据 考虑如下工作流程: 你创建一个最终将公开的私有存储库; 创建该存储库的私有内部版本(通过 fork),并为不打算公开的特征提交额外的代码; 你将你的「上游」存储库公开,并将你的 fork 存储库保持私有。 那么,私有特征和相关代码则可供公众查看。从你创建工具的内部 fork 存储库到开源该工具之间提交的任何代码,这些提交都可以通过公共存储库访问。 在你将「上游」存储库公开后,对你的私有 fork 存储库所做的任何提交都是不可见的。这是因为更改私有「上游」存储库的可见性会导致两个存储库网络:一个用于私有版本,一个用于公开版本。 不幸的是,该工作流程是用户和机构开发开源软件时最常用的方法之一。因此,机密数据可能会无意中暴露在 GitHub 公共存储库上。 如何访问数据? GitHub 存储库网络中的破坏性操作(如上述 3 个场景)会从标准 GitHub UI 和正常 git 操作中删除提交数据的引用。但是,这些数据仍然存在并且可以访问(commit hash)。这是 CFOR 和 IDOR 漏洞之间的联系。 commit hash 可以通过 GitHub 的 UI 进行暴力破解,特别是因为 git 协议允许在引用提交时使用短 SHA-1 值。短 SHA-1 值是避免与另一个 commit hash 发生冲突所需的最小字符数,绝对最小值为 4。所有 4 个字符 SHA-1 值的密钥空间为 65536 (16^4)。暴力破解所有可能的值可以相对容易地实现。 有趣的是,GitHub 公开了一个公共事件 API 端点。你还可以在由第三方管理的事件存档中查询 commit hash,并将过去十年的所有 GitHub 事件保存在 GitHub 之外,即使在存储库被删除之后也是如此。 GitHub 的规定 Truffle Security 通过 GitHub 的 VDP 计划将其发现提交给了 GitHub 官方。GitHub 回应道:「这是故意设计的」,并附上了说明文档。 说明文档:https://docs.github.com/en/pull-requests/collaborating-with-pull-requests/working-with-forks/what-happens-to-forks-when-a-repository-is-deleted-or-changes-visibility Truffle Security 赞赏 GitHub 对其架构保持透明,但 Truffle Security 认为:普通用户将私有和公共存储库的分离视为安全边界,并且认为公共用户无法访问私有存储库中的任何数据。不幸的是,如上所述,情况并不总是如此。 Truffle Security 得出的结论是:只要一个 fork 存储库存在,对该存储库网络的任何提交(即「上游」存储库或「下游」fork 存储库上的提交)都将永久存在。 Truffle Security 还提出一种观点:安全修复公共 GitHub 存储库上泄露密钥的唯一方法是通过密钥轮换。 GitHub 的存储库架构存在这些设计缺陷。不幸的是,绝大多数 GitHub 用户永远不会理解存储库网络的实际工作原理,并且会因此而降低安全性。 原文链接:https://trufflesecurity.com/blog/anyone-can-access-deleted-and-private-repo-data-github

标签贴错,AMD召回所有新一代CPU

机器之心报道 编辑:泽南、佳琪 因为有 typo,召回所有已铺货芯片。 上个月,AMD 首席执行官苏姿丰博士在 ComputeX 开幕主题演讲上揭开了 Zen 5 架构的神秘面纱。作为 AMD 未来几年 CPU 的台柱子,Zen 5 立刻被引入消费级市场,面向笔记本和台式机的产品在几周内相继发布。 ‍然而临近上市日期,AMD 突然宣布,由于「对 Ryzen 9000 系列处理器的包装产品测试流程」存在问题,其将推迟数周推出搭载 Zen 5 的 Ryzen 9000 处理器。由于最近英特尔酷睿芯片曝出问题,人们对高端芯片质量的关注度很高,AMD 的这一消息让人不禁怀疑:难道现在苏妈也不靠谱了? 随着信息逐步披露,事情逐渐变得让人忍俊不禁:一张贴错标签的 Ryzen 处理器的新图片暗示了 AMD 推迟推出芯片的主要原因之一 —— 一个简单的一位数字拼写错误。 昨天在 B 站上发布的一个提前泄露测试结果显示,AMD 的 Ryzen 7 9700X 被错误标记为 Ryzen 9 9700X 处理器,这是一个明显的错误,需要纠正。 视频发布后,tomsHardware 等海外媒体已经确认了 9700X 是错误标记,并且还了解到,贴错标签的 Ryzen 5 9600X 型号也已运往零售店 —— 这些处理器也被标记为 Ryzen 9。 我们现在可以合理地假设 AMD 零售包装盒上的标签可能也有问题。无论存在哪种情况,这似乎只是一个小问题,不过 AMD 显然必须召回所有已发货的处理器,以纠正错误的标记。 召回芯片的过程正是该公司所说的推迟其处理器发布的原因 ——AMD 表示,已经召回了所有交付给全球零售商和 OEM 的 Ryzen 9000 单元进行重新筛选,这些受影响的芯片将在筛选过程后退还给零售商。不过,AMD 尚未说明召回的具体原因。值得注意的是,「silkscreening」是行业术语,指的是芯片封装过程中,涉及激光蚀刻或打印芯片顶部标记的过程。AMD 明确指出需要进行「重新筛选」过程来解决其未定义的问题,但并未明确将其称为「silkscreening」。 AMD 在上周发布的声明中表示:「在最终检测中,我们发现首批产品并未完全达到预期的质量标准。」这表明,包装上的字印错了,可能并不是 AMD 延迟发售的唯一原因。 AMD 高级副总裁,计算和图形总经理 Jack Huynh 在 X 平台上表示:Ryzen 9000 系列处理器因质量问题将延迟上架。 根据 Jack Huynh 的发言,也引申出了另一个版本的故事:AMD 透露这次事件并不是 CPU 微架构的问题,因此不需重新设计或重新制造 Ryzen 9000 芯片,也不需改变已经定义的各型号规格。问题出在封装测试的流程,导致筛选过程中可能会令不良品通过测试。这次的延迟是出于谨慎考虑,旨在保证每个 Ryzen 用户都能获得最佳使用体验。避免类似 Intel 13、14 代处理器大规模崩溃问题重演。 现在看来,AMD 芯片的印刷问题可能早已显露端倪。海外媒体 tomsHardware 的记者拿出了在 Zen 5 技术日拍摄的 Ryzen 9 9950X 的照片,与已经上市两年的 Ryzen 9 7950X 进行了对比,不难看出,「Ryzen 9 9950X」的每个单词之间的间距似乎比 AMD 奉行多年的标准都要更宽。 Ryzen 9 9950X 最初计划在 7 月 31 日发布,但现在 AMD 已经将 Ryzen 7 9700X 和 Ryzen 5 9600X 处理器的发布日期推迟到 8 月 8 日,更高端的 Ryzen 9 9950X 和 Ryzen 9 9900X 将推迟到 8 月 15 日。 至于 Ryzen 9 9950X 和 Ryzen 9 9900X 上的字有没有印对,目前还没有定论。然而可以肯定的是,一旦更高端的型号出了岔子,肯定要比 Ryzen 7 系列和 5 系列推迟的时间更久。 对于用户来说,如果芯片延迟发布唯一的原因只是因为字印错了,而不是质量问题,反倒令人安心。对于 AMD 而言,他们似乎让自己陷入了一个尴尬的境地,如果芯片的印刷错误被证明是唯一的问题,那么 AMD 为何选择回避,不直接向公众坦白,而是发表了一个含糊其辞的声明,这种做法反而激起了外界对其芯片品质和检验流程的疑虑。 参考内容: https://www.tomshardware.com/pc-components/cpus/amd-ryzen-9000-launch-delay-due-to-typo-ryzen-7-9700x-ryzen-5-9600x-confirmed https://www.anandtech.com/show/21485/the-amd-ryzen-ai-hx-370-review https://www.youtube.com/watch?v=MCi8jgALPYA © THE END 转载请联系本公众号获得授权 投稿或寻求报道:content@jiqizhixin.com

Runway深夜炸场,Gen-3 Alpha图生视频上线,11秒让你脑洞乱飞

机器之心报道 编辑:杜伟 网友不吝赞叹:AI 视觉生成又迈出了一大步。 今天凌晨, Runway Gen 3 Alpha 模型的图生视频功能正式上线! 用户可以使用任何图片作为视频生成的首帧。上传的图片既可以单独使用,也可以使用文本提示进行额外指导。 目前,Gen 3 Alpha 支持生成的视频 最长为 11 秒。 作为一项重大更新,Runway 表示,图生视频功能将极大提高了生成视频的艺术控制和一致性。 至于效果如何,大家可以先来欣赏以下官方给到的图生视频示例。 Runway 联合创始人兼 CEO Cristóbal Valenzuela 发推表示,是时候了(脑补:给视频生成领域再来波小小的震撼了)。 他也放上了一些惊艳的图生视频示例。 Runway 脑洞大开、逼真的视频生成效果赢得了评论区一众网友的认可和赞赏,都迫不及待想要尝试一番了。 当然已经有人用上了,X 用户 @NoBanksNearby 在试用后表示,「Runway 在图生视频领域又做到了很好。」 使用到的图片如下: 生成的视频是这样的: X 用户 @blizaine 测试了一张 Midjourney 生成的小罗伯特・唐尼即将扮演的毁灭博士,使用到的 Prompt 为「当男人走向相机时跟踪拍摄,背景中有神奇的电气爆炸。」 再比如 X 用户 @patrickassale 生成的视频: 大家觉得效果怎么样呢? 参考链接: https://venturebeat.com/ai/you-can-now-turn-still-images-into-ai-videos-with-runway-gen-3-alpha/ © THE END 转载请联系本公众号获得授权 投稿或寻求报道:content@jiqizhixin.com

又一「国产版Sora」全球上线!清华朱军创业团队,视频生成仅需30秒

AI 视频圈正「互扯头花」。 国外的 Luma、Runway,国内的快手可灵、字节即梦、智谱清影…… 你方唱罢我登场。无一例外,它们对标的都是那个传说中的 Sora。 其实,说起 Sora 全球挑战者,生数科技的 Vidu 少不了。 早在三个月前,国内外视频生成领域还一片「沉寂」之时,生数科技突然曝出自家最新视频大模型 Vidu 的宣传视频,凭借其生动逼真、不输 Sora 的效果,惊艳了一众网友。 就在今天,Vidu 正式上线。无需申请,只要有个邮箱,就能上手体验。(Vidu官网链接:www.vidu.studio) 例如,皮卡丘和哆啦 A 梦玩「贴脸杀」: 《暮光之城》男女主秀恩爱: 它甚至还解决了 AI 不会写字的问题: 此外,Vidu 的生成效率也贼拉猛,实现了业界最快的推理速度,仅需 30 秒就能生成一段 4 秒镜头。 接下来,我们就奉上最新的一手评测,看看这款「国产 Sora」的实力究竟如何。 上手实测:镜头语言大胆,画面不会崩坏! 这次,Vidu 亮出了绝活。 不仅延续了今年 4 月份展示的高动态性、高逼真度、高一致性等优势,还新增了动漫风格、文字与特效画面生成、角色一致性等特色能力。 主打一个:别人有的功能,我要有,别人没有的功能,我也要有。 哦莫,它竟然认字识数 现阶段,Vidu 有两大核心功能:文生视频和图生视频。 提供 4s 和 8s 两种时长选择,分辨率最高达 1080P。风格上,提供写实和动画两大选择。 先看看图生视频。 让历史重新鲜活起来,是当下最流行的玩法。这是法国画家伊丽莎白・路易丝・维瑞的名作《画家与女儿像》。 我们输入提示词:画家与女儿像,母女紧紧抱在一起。 生成的高清版本让人眼前一亮,人物动作幅度很大,连眼神都有变化,但效果挺自然。 再试试达芬奇的《抱银鼬的女子》。 提示词:抱银鼬的女子面露微笑。 长达 8 秒的视频里,女子和宠物动作幅度较大,特别是女子的手部抚摸动作,还有身体、面部变化,但都没有影响画面的自然、流畅。 大幅度、精准的动作有助于更好地表现视频情节和人物情绪。不过,动作幅度一旦变大,画面容易崩坏。因此,一些模型为保证流畅性,会牺牲动幅,而 Vidu 比较好地解决了这一问题。模拟真实物理世界的运动,还真不错。比如,复刻类似库布里克《2001 太空漫游》的情景! 提示词:长镜头下,缓缓走向消失。 提示词:长镜头下,漂浮着,慢慢飘向尽头。 ‍除了图生视频,还有文生视频。 提示词:两朵花在黑色背景下缓慢绽放,展示出细腻的花瓣和花蕊。 提示语:这次只她一人,独自坐在樱花深处的秋千架上,穿着粉红的春衫,轻微荡着秋千,幅度很小,像坐摇椅一般,微垂着头,有点百无聊赖的样子,缓缓伸足一点一点踢着地上的青草。那樱花片片飘落在她身上头上,她也不以手去拂,渐渐积得多了,和她衣裙的颜色相融,远远望去仿佛她整个人都是由樱花砌成似的。 Vidu 语义理解能力不错,还可以理解提示中一次包含多个镜头的片段要求。 比如,画面中既有海边小屋的特写,还有运镜转向海面远眺的远景,通过镜头切换,赋予画面一种鲜明的叙事感。 提示语:在一个古色古香的海边小屋里,阳光沐浴着房间,镜头缓慢过渡到一个阳台,俯瞰着宁静的大海,最后镜头定格在漂浮着大海、帆船和倒影般的云彩。 对于第一人称、延时摄影等镜头语言,Vidu 也能准确理解和表达,用户只需细化提示词,即可大幅提升视频的可控性。 提示词:第一人称视角,女友牵着我的手,一起漫步在海边。 Vidu 是一款能够准确理解和生成一些词汇的视频生成器,比如数字。 提示词:一块生日蛋糕,上面插着蜡烛,蜡烛是数字 “32”。 蛋糕上换成「Happy Birthday」的字样,它也能hold住。 ‍ 提示词: 一块蛋糕,上面写着”HAPPY BIRTHDAY”。 动漫风格嘎嘎好用 目前市面上的 AI 视频工具大多局限于写实风格或源于现实的想象,而 Vidu 除了写实风格外,还支持动漫风格。 我们选择动画模型,直接输入提示词即可输出动漫风格视频。 例如,提示词:动漫风格,小女孩站在厨房里切菜。 说实话,这画风有宫崎骏老爷子的味道。Vidu 读懂了提示词,小女孩切菜动作一气呵成,就是手指和刀具在不经意间仍有变形。 提示词:动漫风格,一个戴着耳机的小女孩在跳舞。 Vidu 的想象力还挺丰富,自个儿把背景设置为带有喷泉的公园,这也让视频画面不那么单调。 当然,我们还可以上传一张动漫参考图片,再输入提示词,如此一来,图片中的动漫人物就能动起来啦。 例如,我们上传一张蜡笔小新的静态图,然后输入提示词:蜡笔小新大笑着举起手里的小花。图片用途选择「用作起始帧」。 我们来瞅瞅效果: 再上传一张呆萌皮卡丘的图像,输入提示词为「皮卡丘开心地蹦起来」。图片用途选择「用作起始帧」。 继续上效果: 上传《海贼王》路飞的图像,再喂给它提示词:男孩突然哭起来。 效果如下: 不得不说, Vidu 的动漫效果相当惊艳,在保持风格一致性的同时,显著提高了画面的稳定性和流畅性,没有出现变形、崩坏或者六指狂魔、左右腿不分等「邪门」画面。 梗图、表情包燥起来 在「图生视频」板块中,除了支持首帧图上传,Vidu 这次还上新一项功能 —— 角色一致性(Charactor To Video)。 所谓角色一致性,就是上传一个角色图像,然后可以指定该角色在任意场景中做出任意动作。 我们就拿吴京为例。 提示词:在一艘宇宙飞船里,吴京正穿着太空服,对镜头挥手。 提示词:吴京穿着唐装,站在一条古街上,向镜头挥手。 如果说,首帧图上传适合创作场景一致性的视频,那么,有了角色一致性功能,从科幻角色到现代剧,演员七十二变,信手拈来。 此外,有了角色一致性功能,普通用户创作「梗图」、「表情包」可以燥起来了! 比如让北美「意难忘」贾斯汀・比伯和赛琳娜再续前缘: 《武林外传》中佟湘玉和白展堂嗑着瓜子,聊着同福客栈的八卦: 还有《甄嬛传》皇后娘娘委屈大哭: 只要脑洞够大,什么地铁老人吃手机、鳌拜和韦小宝打啵、容嬷嬷喂紫薇吃鸡腿,Vidu 都能整出来。 就一个字,快! 视频生成过程中,用户最烦啥?当然是龟速爬行的进度条。 试想,为了一段几秒的视频,愣是趴在电脑前等个十分钟,再慢性子的人也很难不破防。 目前,市面上主流 AI 视频工具生成一段 4 秒左右的视频片段,通常需要 1 到 5 分钟,甚至更长。 例如,Runway 最新推出的 Gen-3 工具需要 1 分钟来完成 5s 视频生成,可灵需要 2-3 分钟,而 Vidu 将这一等待时间缩短至 30 秒,速度比业内最快水平的 Gen-3 还要再快一倍。 基于完全自研的 U-ViT 架构,商用精心布局 「Vidu」底层基于完全自研的 U-ViT 架构,该架构由团队在 2022 年 9 月提出,早于 Sora 采用的 DiT 架构,是全球首个 Diffusion 和 Transformer 融合的架构。 在 DiT 论文发布两个月前,清华大学的朱军团队提交了一篇论文 ——《All are Worth Words: A ViT Backbone for Diffusion Models》。这篇论文提出了用 Transformer 替代基于 CNN 的 U-Net 的网络架构 U-ViT。这是「Vidu」最重要的技术基础。 由于不涉及中间的插帧和拼接等多步骤的处理,文本到视频的转换是直接且连续的,「Vidu」 的作品感官上更加一镜到底,视频从头到尾连续生成,没有插帧痕迹。除了底层架构上的创新,「Vidu」也复用了生数科技过往积累下的工程化经验和能力。 生数科技曾称,从图任务的统一到融合视频能力,「Vidu」可被视为一款通用视觉模型,能够支持生成更加多样化、更长时长的视频内容。他们也透露,「Vidu」还在加速迭代提升。面向未来,「Vidu」灵活的模型架构也将能够兼容更广泛的多模态能力。 生数科技成立于 2023 年 3 月,核心成员来自清华大学人工智能研究院,致力于自主研发世界领先的可控多模态通用大模型。自 2023 年成立以来,团队已获得蚂蚁集团、启明创投、BV 百度风投、字节系锦秋基金等多家知名产业机构的认可,完成数亿元融资。据悉,生数科技是目前国内在多模态大模型赛道估值最高的创业团队。 公司首席科学家由清华人工智能研究院副院长朱军担任;CEO 唐家渝本硕就读于清华大学计算机系,是 THUNLP 组成员;CTO 鲍凡是清华大学计算机系博士生、朱军教授的课题组成员,长期关注扩散模型领域研究,U-ViT 和 UniDiffuser 两项工作均是由他主导完成的。 今年 1 月,生数科技旗下视觉创意设计平台 PixWeaver 上线了短视频生成功能,支持 4 秒高美学性的短视频内容。2 月份 Sora 推出后,生数科技内部成立攻坚小组,加快了原本视频方向的研发进度,不到一个月的时间,内部就实现了 8 秒的视频生成,紧接着 4 月份就突破了 16 秒生成,生成质量与时长全方面取得突破。 如果说 4 月份的模型发布展示了 Vidu 在视频生成能力上的领先,这次正式发布的产品则展示了 Vidu 在商业化方面的精心布局。生数科技目前采取模型层和应用层两条路走路的模式。 一方面,构建覆盖文本、图像、视频、3D 模型等多模态能力的底层通用大模型,面向 B 端提供模型服务能力。 另一方面,面向图像生成、视频生成等场景打造垂类应用,按照订阅等形式收费,应用方向主要是游戏制作、影视后期等内容创作场景。

英伟达 CES 霸气定调:「我就是 AI」

CES 2018 开展前,会有不少厂商希望在展前给这场全球最大的电子消费展定下趋势的基调。 但从去年开始,人们都觉得必看的这场的发布会就是英伟达了。 在昨天的 CES 2018 NVIDIA 展前发布会上,英伟达创始人兼 CEO 黄仁勋率先登场,发表了「I am AI」的主题演讲——在现场,英伟达发布了迄今最强的 AI 超级计算芯片 NVIDIA DRIVE Xavier,并继续宣布了围绕自动驾驶相关的几个关键产品和平台。 英伟达提到,最新的 NVIDIA DRIVE Xavier 将会从本季度开始供货。 Xavier 是一个可怕的自动驾驶超级计算机…… 最早的 Xavier 处理器是在一年前首发,相比较去年的那款 Xavier,这场的 DRIVE Xavier 是对之前版本的更新版。 英伟达提到,Xavier 是世界首个自动驾驶处理器,将会 2018 年第一季度流片出货。黄教主手中的这个小芯片,动用了 2000 名工程师,历时 4 年研发,英伟达为此投入了接近 20 亿元。黄教主提到,这也是英伟达有史以来最大的研发投入。 黄教主对性能参数信手拈来。他提到,对于 Xavier 外界关注的性能功耗比:它每秒可执行 30 万亿次的深度学习计算,功耗仅为 30 瓦,能效相比上一代架构提升了 15 倍。他提到,一个 Xavier 芯片就能够为 L3-L4 级别自动驾驶车辆提供无延迟的算力支持。 Xavier 的代号源于 X 战警,是世界上最大的、最复杂的 SoC(片上系统),用于处理自动驾驶任务。 它包括定制的 8 核 CPU、一个 512 核的 Volta 架构的 GPU,它拥有 90 亿晶体管,350mm²,12nFFN,可以非常流畅的支持 TensorCore、拥有的计算机视觉加速器、深度学习加速器、8K HDR 视频处理器可以提供视频识别和流处理。 Xavier 其实就是英伟达最新的一台超级计算机。 在 Xavier 硬件之上,将配套功能更为详细的软件。英伟达在本次 CES 上推出两款全新软件平台:DRIVE IX 和 DRIVE AR。 DRIVE IX 是一款提供汽车智能体验的软件开发套件,其实更像是去年提到的诸多车内功能的集合。它利用车内的传感器,对驾驶员和成功提供以 AI 技术为技术的保障服务,比如面部识别以及语音控制等等。 而英伟达最新宣布的 DRIVE AR 平台,则是一款支持增强现实的软件开发套件。 英伟达将目前应用在 PC、游戏上的 AR 能力,移植到汽车研发工作上,比如在车内玻璃上提供增强现实的内容,在驾驶途中提供兴趣点,提供警告功能等等。 黄教主认为 Xavier 比竞争对手领先两年,所有进行自动驾驶开发的公司都会选用这款产品。 而 Xavier 也将会进入 DRIVE Pegasus AI 平台。这个产品也在去年提到过,英伟达 Drive Pegasus 是出租车 AI 计算机(robotaxi AI computer),为 L5 出租车市场设计。 DRIVE PX Pegasus 尺寸和一块车牌大小相仿,用来替代 L5 级别的自动驾驶原型车后备箱内的计算系统,Pegasus 包含了两个 Xavier 和最新的 NVIDIA GPU,表现能力等同于一个有 100 台服务器的数据中心。目前已经有 25 家公司正在寻求将 Pegasus 用于自己的车队,包括 Uber。 可以说,英伟达提到的所有产品、应用都和 Xavier 有关,Xavier 就是为自动驾驶准备的超级芯片。 芯片之后,黄教主关注的是信息安全。 黄教主把新芯片、计算平台以及打包的软硬件开发包和功能都介绍一遍之后,他提到了一个安全框架——英伟达安全架构 Drive Functional Safety Architecture。 关于理解它,主要是一个全新的测试仿真平台。你可以利用仿真测试平台,模拟变换日照和光线,制造一些对于传感器有挑战的场景进行模拟,通过人工介入的方式,比如模拟撞车,试探自动驾驶算法的决策。 和百度、大众以及 Uber 的几个合作 黄教主提到,百度和 ZF 都选择英伟达的 DRIVE Xavier,他们是英伟达友好的伙伴。而这套组合也将用于中国市场。 英伟达宣布,他们也将与 Google 无人车前高管 Chris Urmson 创立的 AURORA 合作,共同打造采用 NVIDIA DRIVE Xavier 处理器的全新 L4 和 L5 级自动驾驶硬件平台。 除此外,Uber 已将英伟达技术应用于旗下自动驾驶车队的 AI 计算系统。英伟达与 Uber 合作,共同开发自动驾驶 Uber,在此次合作中,Uber 已开始在其首批沃尔沃 XC90 SUV 测试车队中采用英伟达 GPU 计算技术,而 Uber Advanced Technologies Group 的自动驾驶货运车队将利用英伟达技术运行 AI 计算。 黄教主霸气宣布,英伟达目前已经拥有了超过 320 家合作伙伴,构成了广泛的「自动驾驶朋友圈」。它们涵盖汽车、供应商、软件公司、传感器、地图以及一些初创公司等。 「汽车的未来由软件定义」值得玩味 从传统意义上的硬件公司,转变为一家提供自动驾驶硬件、技术,AI 技术的公司,黄教主甚至在今天的发布会上直接喊出了「未来汽车将由软件定义。」 从硬件的广义角度,英伟达已经完成了从云端、芯片、配套软件和数据中心到终端的全链条布局。英伟达支持从传统 PC 终端到所有计算终端甚至是配套云数据中心的端到端布局。 而在自动驾驶平台提供方案上,英伟达涵盖了车辆内部体验、车辆研发方面的视觉技术、车辆控制视觉技术以及自动驾驶基础硬件等四个方面,构成一个四层的输出结构: DRIVE XAVIER:实现功能的基础芯片 DRIVE IX:车辆内配套的各种提升体验的技术。例如检测人脸、语音控制,驾驶驶员状态监控等; DRIVE AR:利用增强现实进行自动驾驶训练,提升研发技术; DRIVE AV:计算机视觉技术,包括传感器数据收集,识别车道线、识别红绿灯等等; 看起来像是要转型自动驾驶平台方案商?不知道,但英伟达看起来早有一些准备。 一些其他的现场 整个 Keynote 在黄教主的「我就是 AI/I Am AI」的主题开始娓娓道来,而我们熟悉的黄仁勋依旧黑皮夹克衫亮相,不知道他是多喜欢穿皮衣。 发布会上,黄教主懂技术、飙术语,产品的性能、参数信手拈来,但他也飙了金句,他说「术语皆浮云,你们要记住,『买得越多,省得越多』」。 好像还挺有道理的…… 去年一整年,AI 和深度学习的快速发展正在改变行业。对于今年,黄教主开始就给 CES 划了一些重点——自动驾驶,游戏主机以及游戏相关的 VR 应用,人工智能技术和其他等,都可能会成为今年的重点。 黄教主几乎把所有的演讲时间都倾注在自动驾驶相关的业务上,PC 游戏业务简单带过,在这种场合几乎是前所未有的,显然是非常重视这项业务了。 不过按照 2018 年 Q3 财季,英伟达游戏芯片收入 15.6 亿美元,增长 25.5%,占整体收入的 60%。数据中心业务达到 5.01 亿美元,汽车业务收入 1.44 美元,增长至 13.3%。英伟达在自动驾驶业务上还有很大的提升空间。 作为一家提供技术硬件的公司,黄教主在 Keynote 的最后以一句非常有代表性的话定调——「未来的汽车将是软件定义的。」 英伟达正在从一家喊着 GPU 技术,提供着显卡硬件的公司,彻底向自动驾驶平台型公司转变。

「光合」作用算力质变,AI乘风走深向实

「光合作用」破局中国算力,加速「智变」。 毋庸置疑,人工智能就是当下「最靓的仔」。    GPT-4o Mini 刚免费上线 ,Llama 3.1 接踵而至,表现超越 GPT 4o。Sora 、可灵、即梦,你方唱罢我登场。在刚结束的世界人工智能大会上,国内首款全尺寸通用人形机器人开源公版机发布。    经过多年的数据、算法和算力积累,「智变」时刻已经到来——未来,千行万业都将会因为 AI 得以重塑,无论是大模型还是小模型。今年全国两会上,「人工智能+」也被首次写入政府工作报告,并列为 2024 年十大工作任务的首位。    要用人工智能技术赋能千行百业,发展新质生产力, 算力是关键,也是衡量一个地区或国家 AI 竞争实力的关键指标。作为国家先进计算产业创新中心的重要组成部分,光合组织正在发挥其独特的「光合作用」,破局中国算力,加速「智变」,赋能 AI 走深向实。  一、AI 狂飙,产业「智变」倒计时    中国工程院院士郑纬民在 2024 光合组织领导人大会上表示:「当前激烈的产业竞争,让 AI 升级面临严峻考验,同时也带来了难得的机遇。我们要保持乐观态度,提升硬件性能,同时努力完善高水平的产业协作。」     在中国,「百模大战」一路狂奔,AI 正以前所未有的速度向各行各业渗透。    在大模型的辅助下,创作效率正大幅提高。以视频创作为例,传统的分工明晰、周期冗长的制作流程,如今可以在 AI 支持的一站式平台上完成。同样,在编程领域,AI 助手能在几秒内生成上百行代码,开发效率大幅提升。    但聊天、 创意和写作不是大模型的全部,在金融、生物医药、工业制造、政务、科学研究等领域,AI 正为产业刚需带来实实在在的价值。    气象大模型通过 AI 推理的方式解决气象的预测难题,现在,使用一张卡就可以预测出来7天的天气,以往可能需要上千台服务器耗费数小时。    在智慧工厂,平均每一秒就可以下线一台 PC 整机 ;在汽车总装车间,53 秒下线一台车;工业的时序数据基础模型正在实现趋势预测和异常检测等多种应用。    能源领域也不例外。世界最大的清洁能源走廊——长江干流上的六座梯级水电站,正不断与科技创新碰撞出新的火花。    「 AI for Science 是中国科技创新历史上最好的机会,它的空间非常大,将全方位改变科学研究到产业落地的过程。」中国科学院院士、北京大学国际机器学习研究中心主任鄂维南曾公开表示。    中国信息通信研究院的一组数据进一步印证了 「智变」已经进入倒计时:2023 年,我国人工智能核心产业规模达 5787 亿元,相关企业数量 4482 家,产业链覆盖芯片、算法、数据、平台、应用等上下游关键环节,细分领域不断突破。经过多年培育,行业已经经历了信息化、网络化和平台化阶段,正进入数据驱动的智能化新阶段。    二、 穿针引线, 共谱「光合」协奏曲    现在,只需轻点鼠标,在人工智能遥感系统这位「手相师傅」帮助下,自然资源的「掌纹」细节,都能被一一识别、解读:    起伏的山峦和绵延的森林、广袤的田野耕地、蓝色的海岸生命线、交错纵横的街道和建筑;   ……    这只是许多 AI 企业依托光合组织「效应」,实现新质生产力的一个缩影。    算力,已成为数字经济发展和人工智能进步的关键资源。近几年,人工智能技术加速融入更多行业和场景,算力需求呈现爆发式增长。    100P 只能算「起步价」,人工智能企业业务对算力的需求都很大,每小半年,需求都会翻倍, AIGC 可能引发新一轮智算需求。    所以,哪怕是一家「算力巨无霸」企业,也无以支撑如此庞大的需求。    再从我国算力供给侧来看,中国的算力总规模居世界第二,但数据中心建设缺口依然很大,特别是对智算中心的需求和建设更为迫切。同时,已有的部分算力未能得到有效利用。大量场景没有用人工智能,不是因为用不到,也不是因为不需要,而是因为企业自建算力设施成本很高,普惠算力又缺乏。    如何实现算力的「普惠」,让算力成为 AI 发展的基础资源?光合组织应运而生,集全产业链共谱「光合」协奏曲!    光合组织是海光产业生态合作组织的简称,承载着建立和完善国产计算技术供应链和产业链重要使命,正通过其独特的「光合效应」,赋能「算力网」重要节点。就像一部协奏曲的谱曲者,它把国内计算产业上下游企业、高校、科研院所等各路高手召集到一块,穿针引线,专攻算力和人工智能技术攻关与应用合作。    在刚结束的 2024 光合组织领导人大会上,光合组织「再下一城」:举办多个揭牌及签约仪式, 推动郑州建设「算力之城」 。   7月23日上午,2024光合组织领导人大会在河南省郑州国际会展中心开幕。    作为东西部的连接纽带,早在 2020 年 11 月,河南就开始布局算力建设,为郑州在「东数西算」工程中奠定基础,其智能算力不仅位居全国前列 ,还坐拥郑州人工智能计算中心和 360 智算中心等基础设施。近期,中原算力谷在中原科技城科技转化片区揭牌,这个投资超百亿元、算力超万 P 的项目,无疑将成为中部地区算力产业高地的重要支撑。为实现高效「互联」、「互通」,郑州正全力打造「算力之城」,布局中部地区首张城市算力网。    大会上,河南省委书记楼阳生亲自为郑州先进计算研究所和海光生态适配中心郑州基地揭牌。这两家机构的落地将为郑州提供先进的计算能力和技术支持,成为打造「算力之城」的重要基石。    通过光合组织的牵线搭桥,郑州市人工智能创新中心、郑州市人工智能创新发展联盟、中原科技城人工智能产业园也在当天揭牌,规划了从研发创新、生态构建到落地空间和服务的完整闭环。    植物的光合作用需要阳光、水分和二氧化碳的共同参与,郑州算力生态的「光合效应」也需要产学研的通力合作。大会上,国家先进计算产业创新中心还与郑州大学、河南大学就产学研合作及人才培养基地签约,郑州市人民政府与深信服、思必驰、青云科技、捷通华声等 10 家智算领域企业签约, 加快郑州从「算力城」迈向「智能城」的脚步。    三、全链协作,富能国产算力    除了如何更好满足算力需求、降低算力使用成本和使用门槛,在目前阶段,根技术上的自立自强也是刚性发展需求。    人工智能是新质生产力的重要引擎,算力又是算法模型的基础,建设自有智算基础来支撑行业未来发展,显得尤为必要。而光合组织,作为由海光信息技术股份有限公司发起的产业生态联盟,正以其强大的向心力和引领作用,成为解决国产化挑战的核心力量。    经过四年多的发展,光合组织已经建立了一个庞大的生态系统,包含 4000 余家成员单位,覆盖了从芯片设计到应用服务的全产业链。    在芯片领域,光合组织与国产芯片厂商密切合作,推动 CPU 和 GPU 的研发和应用。在存储方面,促进了国产固态硬盘和大容量存储系统的发展。对于服务器和网络设备,光合组织正推动国产品牌如同方、联想开天等的创新,以满足大规模计算和海量数据传输的需求,并获得金融、能源、电信等关键行业和领域认可。    中间层软件,如操作系统方面,光合组织积极推广统信、麒麟等国产操作系统,并促进其与底层硬件的深度适配。对于数据库,它支持达梦等国产数据库的发展和应用,推动这些产品在各行业的落地。同时,光合组织还在推动中间件、虚拟化平台等关键基础软件的国产化进程。    在应用软件层面,光合组织不仅推动了 ERP、CRM 等企业级软件的国产化,还在人工智能、大数据分析等前沿领域促进了国产解决方案的发展,构建高水平商业体系。    例如,通过与行业伙伴(如百度、思必驰等)合作,支持百度飞桨等国产 AI 框架与底层硬件的深度融合,推动 AI 模型在国产算力底座上的部署和优化。在 AIGC 持续快速发展背景下, 积极适配文心一言等大多数国内外主流大模型,实现了 LLaMa、GPT、Bloom、ChatGLM、悟道、紫东太初等为代表的大模型的全面应用。    作为这一生态合作的最新成果,在 2024 光合组织领导人大会上,首款国产 AI PC ——联想开天 M90h G1t AI PC 元启版在海光信息和联想开天的共同努力下,正式发布。      在许多成员看来,光合组织为 AI 产业的生态对接提供了一个很好的平台。用户需要的是完整的解决方案,而单一厂商很难提供从底层架构到前端应用的一整套产品,在此背景下,生态力量的整合非常关键。    冲量在线「 AI 安全开放平台」的诞生契机,正是光合组织解决方案大赛。在将基于深度学习框架的 AI 模型适配海光芯片过程中,他们向海光提出了大量优化和适配需求,都得到了快速响应。这一方案最终在某银行 AI SaaS 服务的安全能力技术提升的项目招标中中标。    用友公司在迁移废钢智能判定模型过程中,几乎无障碍地跑通了算法,也得益社区详细的产品文档 ,在适配和使用过程中遇到问题都能得到及时响应。    随着人工智能技术的不断突破,算力需求呈现爆发式增长,而算力「卡脖子」成为各大厂商竞逐AI最为头疼的难题。 光合组织汇聚4000 多家成员单位的合力,助力构建从芯片设计到应用服务的全产业链生态系统,不仅为更多企业提供了强大的算力基础,更推动了算力的普惠化。  在这个AI时代,算力犹如阳光之于植物的光合作用,是推动整个产业生长的关键能量。光合组织正以其「光合作用」,通过推动算力革命,加速 AI 产业「走深向实」。

别只盯着ChatGPT版「Her」,在多模态AI拟人互动上,国内玩家也支棱起来了

如今的 AI 在识别人类情感方面发展到什么程度了?本月初,一场向更具情感 AI 发起挑战的高规格赛事落下了帷幕! 这就是第二届多模态情感识别挑战赛(MER24),它由清华大学陶建华教授、中国科学院自动化研究所连政、帝国理工学院 Björn W.Schuller、奥卢大学赵国英以及南洋理工大学 Erik Cambra 联合在 AI 顶会 IJCAI2024 上发起举办,探讨如何利用文本、音视频等多模态数据来进行 AI 情感识别,并推动相关技术在真实人机交互场景中的落地应用。 大赛官网:https://zeroqiaoba.github.io/MER2024-website/#organization 本届挑战赛共设置了三个赛道,分别为 Semi(半监督学习赛道)、Noise(噪声鲁棒性赛道)和 Ov(开放式词汇情感识别赛道),其中 Semi 赛道参赛队伍最多且难度最高、竞争最激烈。 以 Semi 赛道为例,参赛队伍需要利用少量有标签和大量无标签数据视频数据来训练自己的模型,并对模型在无标签数据集上的表现和泛化能力进行评估。该赛道获胜的关键在于通过改进半监督学习技术来提高模型情感识别性能,比如预测情绪类别的准确率。 自 5 月大赛启动起,两个月时间,来自全球近百支参赛队伍展开了角逐,既不乏知名高校也有创企新势力。其中 Semi 赛道第一名由社交平台 Soul App 摘得,其语音技术团队凭借可行性创新技术方案拔得头筹。   不过,在揭秘 Soul 团队技术方案之前,我们有必要先来了解 AI 在多种模态中的情感识别能力。 人机交互下一步 要让 AI 懂情感 如今的 AI 看起来已经无所不能,对话交流、生成图片或视频、解数学题等,能够胜任感知、学习、推理、决策等不同层面的任务。得益于大模型的加持,AI 可以称得上足够聪明,但在感同身受等情感层面却有所欠缺。 在人机交互中,用户有时不单单需要 AI 遵循指令完成任务,还要它们提供足够的情绪价值,满足情感需求。从功能「基操」到情感「进阶」,AI 要掌握的技能就要升级了。 因此,多模态情感识别成为 AI 领域的活跃研究课题。能读懂情绪并传达情感的 AI 成为业界追逐的新热点,也被认为是 AI 领域下一个重大突破。近半年来,一些 AI 创业公司和行业巨头为我们揭开了人机沉浸式交互的新形态。 四月初,国外一家创业公司 Hume AI 发布了一款语音对话机器人 Empathetic Voice Interface(EVI),它通过语音交流分析和识别对话者的语气和情绪,可以检测到多达 53 种情绪。此外它还能模拟不同的情绪状态,在互动中更接近真人。在 AI 情感层面的突破也让这家初创公司快速拿到了 5000 万美元 B 轮融资。 接下来是 OpenAI 放了大招,旗舰模型 GPT-4o 展现了实时音视频通话功能,对用户情感和语气做出即时响应,被称为 ChatGPT 版「Her」,而这个语音功能在近期正式对用户开放。自此,AI 拥有了强大的能言善辩、感知情绪能力,让人直呼科幻时代的到来。 国内如微软小冰、聆心智能等也致力于打造有情感的 AI 产品。我们从中可以看到一种趋势:情感识别能力在文本、音视频等多模态 AI 应用中的参与度越来越高。不过要想在拟人化情感识别领域更进一步,仍需解决有标签数据稀缺、主观情绪识别不稳定和不准确等问题。   因此,推动学界、业界更加关注多模态情感识别领域,并加速相关技术的创新和进步,变得尤为必要。当前,ACM MM、AAAI 等 AI 学术顶会都将情感计算作为一个重要的研究主题,CVPR、ACL 等顶会也曾举办过情感计算相关挑战赛。特别是在面对大数据和大模型时代的来临,如何在多模态情感识别中利用大量无标签数据和有效处理、融合不同模态信息是目前行业面临的重大挑战,此次 MER24 挑战赛举办的原因和意义也在于此。 而 Soul 团队在 Semi 赛道获得第一名,背后是其在多模态数据理解、情感识别算法、模型优化平台工具、内部工作流建设等方面的能力积累与创新,以及技术团队的高效协作。 夺得最难赛道头名 Soul 团队都做了什么? 既然提到 Semi 赛道难度最高,难在哪些方面?Soul 团队又如何获得第一名?我们接着往下看。 数据是 AI 三大要素之一,没有充足特别是高质量的数据训练,模型就无法保证很好的性能效果。面对数据稀缺带来的种种挑战,业界既要扩增包括 AI 生成数据在内的所有类型数据,也注重提升数据稀疏场景的模型泛化能力。多模态情感识别任务也是如此,它的核心在于海量标签数据的支撑,对文本、音视频等不同类型的内容打上喜怒哀乐悲等情感标签。现实却是,互联网上带情感标签的数据非常稀缺。 此次大赛的 Semi 赛道仅提供了 5030 条有标签数据,其余 115595 条均为无标签数据。因此,有标签数据稀少成为包括 Soul 团队在内所有参赛队伍遇到的首个难题。 图源:MER24 基线论文:https://arxiv.org/pdf/2404.17113   另一方面,相较于 Noise、Ov 赛道,Semi 赛道侧重于考验核心主干技术,即更多地关注模型架构的选择以及特征提取泛化能力,对多模态大模型技术技术积累以及创新性要求比较高。     针对赛道少标签数据、高技术要求的特征,Soul 团队基于此前积累的自研大模型部分模块做好了充足的赛前准备,并确定了一套可行性创新技术方案。在整体思路上采取「先主干后微调」的策略,首先集中精力提高每一个核心特征提取模型的泛化性,然后再融合在一起;在具体实现过程中又做了以下几个方面工作。这些构成了他们的核心优势。   首先前期关注多模态特征提取。在端到端模型架构中,利用预训练模型提取文本、语音和视觉不同模态的情感表征,关注情感中的共性和差异性,从而来提升情感识别效果。后期根据多种模态的各模态特征提出有效的融合方法,将这些模块融合形成模型架构。为了提高预训练模型的泛化性能,Soul 团队专门针对视频模态在情感识别领域首次提出了 EmoVCLIP,EmoVCLIP 是一个基于大模型 CLIP 结合 prompt learning 技术在视频情感识别领域更具泛化性能的模型。   另外,为了提高文本模态情感识别能力,Soul 团队针对文本模态使用 GPT-4 来打情感伪标签,充分利用 GPT-4 的情感关注能力,提高文本模态在情感识别的准确率,为后面进一步模态融合打下了更好的基础。 其次,在多模态特征融合上,Soul 团队首次在多模态情感识别方向使用了 Modality Dropout 策略并研究了不同 dropout rate 的性能影响,为了缓解模态之间的竞争问题,在模型训练过程中随机抑制某个的模态(文本、语音或视频模态)以实现更好的鲁棒性,提升模型在提供的有标签数据之外未见过数据上的泛化能力。 最后,半监督学习技术开始发挥作用,其基本思路是使用有标签数据训练出一个模型,然后对无标签数据进行预测,根据预测结果为无标签数据生成伪标签。这些伪标签又用来训练模型,持续提升模型效果。Soul 团队利用半监督学习中这种自训练(Self-training)的策略,循环地为 Semi 赛道超 11 万条无标签数据打伪标签并加入训练集,进行模型迭代更新,得到最终的模型。   Soul 团队参赛技术方案图。 从整体思路到多模态特征融合、对比学习、无标签数据自训练,Soul 团队的技术方案为他们带来了好结果。最终在语音、视觉和文本多模态情感识别准确率上,Soul 团队提出的系统比基线系统提升了 3.7%,达到了 90%以上。同时,对于情感识别领域方向上存在易混淆边界的情感(比如忧虑和担心)识别,Soul 团队也能区分得更好。 图源:MER24 基线论文:https://arxiv.org/pdf/2404.17113 从更深层次看,此次 Soul 团队在 MER24 挑战赛的脱颖而出,是其一直以来在社交领域深耕 AI 大模型技术尤其是多模态情感化交互能力的集中体现。 创新多模态拟人互动 社交型 AI 已是 Next Level 社交领域天然需要有情感的 AI。一种主流观点认为,社交的本质是情绪价值的互换,而情绪又多种多样。这意味着,如果 AI 想要无缝融入社交场景并高效发挥作用,势必要像真人一样提供丰富的情感反馈和体验。 而实现共情 AI 的基础在于让其拥有强大的多模态情感识别能力,在功能上从单纯的「任务执行者」进化到「满足人类情感需求的陪伴者」。但 AI 做到有效地理解情绪依然非常困难,它在理解语境、感知用户情绪、给出情感反馈、进行思考等方面与人类存在本质的区别,因此相关技术与算法的持续创新很重要。 对扎根社交领域的 Soul 来说,着力构建具备情感化能力的 AI 已成为需要思考的重要命题。2016 年上线之初,Soul 首先思考如何运用创新技术和产品来更好地满足用户需求,其中引入 AI 来解决人与人连接需,成为其站稳社交领域并发展壮大的关键。较早推出的「灵犀引擎」利用智能推荐算法,挖掘分析用户兴趣图谱和站内全场景特征,让他们更容易找到聊得来的人和更需要的内容,形成高粘性用户和内容生态。至今,这种更「聪明」的算法应用的匹配场景,也是 Soul 上用户非常活跃的功能之一。 有了早期 AI 辅助社交的成功经验,在这波大模型快速发展的技术浪潮中,Soul 进一步在 AI 介入社交、辅助关系网络的基础上,探索人机互动的新可能。 自 2020 年启动 AIGC 相关算法研发工作开始,Soul 便以多模态为方向,在智能对话、图像生成、语音和音乐生成等多方面拥有了前沿能力积累。相比纯技术向的 AI 创业新势力,Soul 的一大特点在于采用了「模应一体」策略,在 C 端同步推进大模型与 AIGC 应用的过程中注重打造具备情感识别能力的 AI,在丰富拟人化交互场景中真正实现有温度的反馈。 从 Soul 近两年的动作可以看出,其加快了 AIGC 赋能社交场景的步伐。2023 年推出自研语言大模型 Soul X,成为 AIGC + 社交布局的重要基建。在该模型的 Prompt 驱动、条件可控生成、上下文理解、多模态理解等能力加持下,站内对话不仅实现了流畅自然,更具备了情感温度。 文本成为 Soul 情感识别能力落地的牛刀初试,并逐渐从单一模态延伸到了更多模态。今年,Soul 上线语音生成大模型,并正式升级自研语音大模型,覆盖了语音生成、语音识别、语音对话、音乐生成等细分领域,在支持真实音色生成、语音 DIY 等功能的同时具备了多情感拟真人实时对话能力。 当然,Soul 在模型层面持续发力更具情感 AI 之外,也已经在其平台多元化的社交场景中让它们发挥用武之地,进一步丰富和提升用户的 AI 互动体验。 以 Soul 拟人型对话机器人「AI 苟蛋」为例,它依托 Soul 自研语言大模型 Soul X,实现了拟人化交互,不仅可以精准理解用户输入的文本、图片等多模态内容,还能在多轮沟通中根据对话场景为他们主动送去关怀,仿佛对话那头真人一般。同时用户也可以定制专属苟蛋,体验独一无二的虚拟人交互。   AI 苟蛋还展现出了在拟人化、知识、多模态、时间感知等多方面的融合能力,令 Soul 站内很多用户都对它强大的拟人交互能力感叹,这也是为什么 Soul 平台有不少用户会主动发帖吐槽「苟蛋怕不是个真人吧」。 此外,Soul 同样依托 Soul X 在游戏场景「狼人魅影」中引入 AI NPC,借助先进的强化学习技术,在游戏各个阶段具备了伪装、信任、领导与对抗等拟人决策能力,可以直接与用户玩起狼人杀,发言毫无违和感。 再比如 Soul 推出了主站外首个独立新应用「异世界回响」。作为一个 AI 社交平台,用户可与其上多场景、多风格的虚拟人角色展开沉浸式即时交流,这些角色均具备了形象、声音、人设对话能力。当然,用户可以定制虚拟角色,并根据喜好自定义人设(如背景经历、性格等),可玩性很高。 同样地,自研语音大模型也在 AI 苟蛋、狼人魅影以及异世界回响等场景中发挥作用。比如在异世界回响中支持了语音通话功能,拥有类真人音色的虚拟角色与用户自然、实时地对话交流,丰富了互动体验。 “异世界回响” 实时语音通话功能。 在持续深化智能对话、游戏和语音等社交场景的 AI 拟人化互动之外,Soul 还在视觉生成领域构建符合自身审美的多样画风生成能力,打造 AI 数字分身,进一步迈向多维度的综合互动体验。 可以看到,Soul 在 AI 情感识别领域的布局已经覆盖了语言、语音和视觉多模态,在与社交紧密关联的文字、图片、音频和视频场景齐发力,让用户在立体、多感官的人机互动中体验有温度的 AI。 结语 2024 年被很多圈内人士称为 AIGC 应用元年,大家关注的焦点不再只是拼参数和基础能力了。在由模型层向应用层转移的趋势下,率先在垂类领域和场景落地 AI 才能赢得更多用户和市场。尤其是面向 C 端赛道的人机交互,更天然地需要围绕用户需求做文章。这一点在社交领域有着很好的体现。 此前 AlienChat 等多款恋爱 App 停服,「第一批和 AI 恋爱的年轻人失恋」讨论话题上了热搜。在这背后,功能同质化是一部分原因,还在于体验上没有从助手 / NPC 角色转变为真正提供情绪支持的陪伴者。这就要求在社交领域通过丰富人机互动方式和场景,让 AI 全面参与到各个社交环节,与用户深层次情感交流,为他们提供情绪价值。 这或许也将是 AI 社交方向接下来的核心竞争点之一。而这也不难理解,为什么作为应用层的 Soul 会如此看重自研技术能力积累。在过去一段时间,其一方面致力于打造个性化、拟人化、多样化的 AI 能力;另一方面,从多个维度加速 AI Native 应用落地,包括社交体验提升、AI 社交、AI 游戏等,形成完备的 AI 产品链,在多样社交场景中为用户提供 AI 互动的乐趣。 可以说,Soul 近年来基于自研语言和语音大模型孵化出了一系列产品成果,并在提升 AI 与用户情感化互动体验的过程中积累了丰富创新技术和实践经验,这些都为其在 MER24 挑战赛中夺得第一名做足了铺垫,也是其能与来自国际的高质量参赛队伍切磋交流的基础。 近年来,这类挑战赛越来越多,比如 CVPR 2024 Workshop 上的 NTIRE 2024 AIGC 质量评价挑战赛、2023 和 2024 连续两届 MER 挑战赛,国内企业凭借实践中积累的技术屡屡能取得佳绩。比如去年取得 MER23 第一的商汤和今年第一的 Soul,这些企业对 AIGC 技术和应用的重视和投入收到了显著成效。 可以预见,未来像 Soul 这样坚持技术和产品创新的平台会在释放 AI 能力的过程中持续为用户创造价值,这样一来在形成繁荣内容和社区生态的基础上才可能实现自身更持久、更多样化的商业价值。