Skip to content
LLMs 能否可视化图形?评估人工智能对符号程序的理解
大型语言模型(LLMs)已经展示了生成通用计算机程序的能力,并提供了对程序结构的理解。然而,测试 LLMs 的真实能力是一个挑战,尤其是在找到它们训练期间未见过的任务时。确定 LLMs 是否能真正“理解”这些在执行时生成视觉内容的符号图形程序至关重要。研究人员将这种理解定义为在仅基于程序的原始文本输入的情况下,理解呈现图像的语义内容。这种方法涉及在不实际查看图像的情况下回答有关图像内容的问题,这对于有视觉输入的情况来说很容易,但仅依赖程序文本则要困难得多。
现有的符号图形程序研究主要集中在 2D 形状和 3D 几何的程序化建模上。这些程序包括构造实体几何(CSG)、计算机辅助设计(CAD)和可扩展矢量图形(SVG),它们提供了清晰且可解释的视觉内容表示。此外,LLMs 已被应用于各种编程任务,如代码检索、自动化测试和代码生成;然而,理解符号图形程序与这些任务有很大不同,因为其语义意义通常是通过视觉定义的。现有的 LLMs 评估基准主要关注非图形程序的理解,而视觉语言模型则使用多模态数据集进行图像字幕生成和视觉问答等任务的评估。
来自马普智能系统研究所、剑桥大学和麻省理工学院的研究人员提出了一种新的方法来评估和增强 LLMs 对符号图形程序的理解。引入了名为 SGP-Bench 的基准,用于测试 LLMs 在解释 SVG(2D 矢量图形)和 CAD(2D/3D 对象)程序方面的语义理解和一致性。此外,基于一个名为符号指令调优的收集指令跟随数据集,研究人员开发了一种新的微调方法以提升性能。此外,研究人员创建的符号 MNIST 数据集显示了 LLM 和人类在理解符号图形程序方面存在重大差异。
构建评估 LLMs 符号图形程序理解能力的基准过程采用了一个可扩展且高效的流水线。它使用一个强大的视觉语言模型(GPT-4o)根据符号程序渲染的图像生成语义问题,进一步由人工校对人员验证这些自动生成的问答对的质量和准确性。与传统的数据创建方法相比,这种方法减少了所需的人工工作。对于 SVG 和 2D CAD 程序,这个过程很简单,因为它们直接生成 2D 图像,但在 3D CAD 程序中,3D 模型首先需要从多个固定的摄像机位置转换为 2D 图像。
LLMs 对符号图形程序理解的评估是在由 1,000 个生成类似 MNIST 数字图像的 SVG 程序组成的 SGP-MNIST 数据集上进行的,每个数字(0-9)有 100 个程序。虽然人类可以轻松识别这些图像,但 LLMs 发现解释这些符号程序极其具有挑战性。即使是先进的 GPT-4o 模型也仅比随机猜测稍好。人类和 LLMs 在处理和理解视觉信息符号表示方面的显著差异突显了一个重要的差距。
综上所述,研究人员提出了一种新的评估 LLMs 的方法,通过评估它们直接从符号图形程序中理解图像的能力,而无需视觉输入。研究人员创建了 SGP-Bench,这是一个有效衡量 LLMs 在这一任务中表现的基准。他们还引入了符号指令调优(SIT)以增强 LLMs 解读图形程序的能力。这项研究有助于更清晰地了解 LLMs 的能力,并促进多样化评估任务的创建。未来的研究包括调查 LLMs 在这一领域的语义理解,并致力于开发先进的方法以提高它们在这些任务中的性能。
AtomAgents:自主管理金属合金设计的多智能体AI系统
设计新合金的多尺度难度需要一项综合战略,因为这一过程包括收集相关信息、使用先进的计算方法、进行实验验证和仔细检查结果。由于这一复杂工作流程中的任务错综复杂,传统上需要大量时间且主要由人类专家完成。机器学习(ML)是一种加速合金设计的可行方法。
一种独特的策略利用了多个独立操作的AI代理在动态环境中的优势,从而克服这些限制。这些代理合作可以处理与材料设计相关的复杂任务,从而形成一个更加灵活和响应性更强的系统。麻省理工学院(MIT)的一支研究团队提出了AtomAgents。这是一个考虑物理法则的生成式AI框架,它结合了大语言模型(LLM)的智能以及在不同领域中精通的AI代理的合作能力。
AtomAgents通过动态整合多模式数据处理、物理模拟、知识检索和对数值及图像数据的详细分析来发挥作用。这种合作努力使系统能够更成功地处理困难的材料设计问题。研究表明,AtomAgents能够设计出特性优于纯金属的金属合金。
AtomAgents的结果证明了它能精准预测各种合金的重要特性。一个显著的发现是固溶合金化在高性能金属合金创建中起关键作用。这一知识尤其有用,因为它指导设计过程以生产出性能更佳的材料。
研究团队总结了以下主要贡献。
团队创建了一个高效结合物理知识与生成式人工智能的系统。在晶体材料设计中,这一整合通过使用通用的LAMMPS MD代码确保了模拟精度,表现最佳。
这一模型善于结合多种形式和来源的数据,如文本、图片和数值数据。多模式方法使模型在各种研究主题中更加灵活和有用,同时使其能够处理复杂的数据集。
通过原子模拟,该模型展示了在检索和应用物理方面的优越能力。许多复杂的计算机研究验证了这些模拟的有效性,证明了模型在材料设计上的可靠性和效率。
AtomAgents框架通过自主创建和管理复杂工作流程,减少了人为干预的需求。这在高通量模拟中尤其有用,模型可以独立运行而无需大量监督。
这种方法通过简单的文本输入让前沿研究更易于进行,使得不具备晶体材料设计深厚专业知识的研究人员也能开展高级模拟。
总之,AtomAgents框架显著提升了面对复杂多目标设计任务的效率。它在许多领域创造了新的机会,如环境可持续性、可再生能源和生物材料工程。通过自动化和优化设计过程,该平台为下一代高性能材料铺平了道路。
AI工具现在可以犀利点评你的Instagram存在感
你在寻找Instagram吐槽AI工具吗?让我们来看看有哪些选择。
在Instagram上,用户通常分为两种类型。一类是随性发布者,他们随时随地发布各种照片,感觉就像在翻看朋友的相册。另一类则是策略家,每一条动态都是经过精心设计,每个滤镜和标题都经过推敲,以展示完美的美学效果。色调不协调?那可是他们的大忌。
无论你倾向随性发布还是策略规划,完善你的Instagram动态都能产生显著效果。如今,Instagram不仅仅是娱乐;它是一个强大的平台,可以让你获得曝光,锁定有利可图的合作,甚至成为网红。
最佳Instagram吐槽AI工具
打造一个显得井井有条的动态不仅仅是吸引人——它也是策略之一。
说到最佳的Instagram吐槽AI工具,那就是ChatGPT登场了。作为领先的AI工具,它现在提供了宝贵的见解和指导,帮助你优化Instagram动态。但它并不是唯一的选择。
Instagram吐槽AI工具是开启对话的好平台
选项1:ChatGPT吐槽OpenAI的Instagram动态
只需拍一张你的Instagram动态照片,让ChatGPT先看看。它会迅速分析并列出显著特点,比如你的帖子是否连贯、内容的多样性以及传达的真实感。这个工具会检查你的动态是否真正反映出你的个性,还是显得过于刻板。
想要更深入了解?输入‘挑毛病’,准备好接受诚恳的分析。不管是重复的内容还是显得过于精心设计的动态,ChatGPT毫不客气地指出你的Instagram可能存在的问题。
例如,我们选择了OpenAI的账号并发送了这个提示:“帮我点评OpenAI的Instagram动态。”
这是它的回应:
根据OpenAI的Instagram动态内容,这里有一个有趣的点评:
一致性还是认同危机? 从复古车在彩虹道上飞驰到科技爱好者玩蛇,有点难以判断你是在宣传AI技术、发起科幻电影还是只是对各类艺术有兴趣。
目标受众是谁? 一会儿是AI迷们在狂热地谈论最新的AI技术,下一刻又变成某人的奶奶把那些植物怪物当成下一个园艺灵感。
美学还是算法混乱? 看起来像是算法太过天马行空了。也许这就是告诉AI“尽情玩乐”的结果。
科技遇上…神话? 从蛇缠着科技影响者到反乌托邦背景里的机械缪斯,感觉就像科技博览会撞上了神话会议。
色彩协调 – 还是说混乱?调色板从青苔人的鲜绿色摆动到雾中复古车的黑白单色。是不是色轮失控了?
互动诱饵还是真实帖子? 一切炫目视觉效果和古怪布局,感觉每个帖子都在拥挤的数字世界里喊“注意我”。
Instagram吐槽AI工具是开启对话的有趣入口
选项2:Monica AI的一些有趣功能
你的第二个Instagram吐槽AI工具选择是Monica AI。这款实用工具简化了整个过程:只需输入你的个人资料URL,它会做其余的工作……某种程度上来说。
Monica AI采用诗意的方式,自称是“创新的宇宙之舞”,在这里它是你社交媒体交响乐的天体指挥。具有戏剧性的风格,它承诺通过对你Instagram动态的美学和内容协调性的洞察,点亮你的数字宇宙。
一旦你输入URL,Monica AI会分析你的Instagram,寻找突出的特点,比如美学一致性、内容多样性和真实性。它评估你的动态是否为你的社交生活注入了活力,还是仅仅在走过场。这个工具会根据你的需求,对你的Instagram策略进行赞扬或直言不讳的批评。
Monica AI对于一些人来说可能有点奇异,特别是它那过于夸张的描述和宇宙隐喻。但在这些天文语言的背后,它提供了具体的见解,这可能有助于你优化Instagram动态,当然前提是它能将自己高远的抱负落到社交媒体指标的实处。
我们把OpenAI的Instagram动态发给Monica AI,它这么说:
“哦,OpenAI,自封的数字领域霸主,每一条动态都在尖叫‘看我,我是未来!’你对AI的痴迷如此强烈,好像忘了人类仍然存在。你像骄傲的父母在科技展上炫耀孩子一样炫耀你的创造,但说实话,并不是每个人都像你一样迷恋你的数字后代。你的追随者可能只是来看热闹,等着哪天你的AI霸主们最终接管。而且你关注的那个账号?大概只是用来欣赏自己的镜子。继续炫耀你的AI肌肉吧,但记住,并不是每个人都准备好向机器人霸主们低头。”
Instagram吐槽AI工具是一种有趣和独特的方式来开启互动
选项3:My Insta Personality直言不讳
你的第三个Instagram吐槽选择是My Insta Personality。这款工具不仅吐槽你的Instagram个人资料,还根据你的帖子提供社会媒体个性见解。
My Insta Personality提供了一种有趣和互动的方式来了解你的Instagram动态如何代表你。只需输入你的用户名,它就会分析你的帖子,生成吐槽和个性简介。它承诺通过幽默的方法揭示你的Instagram动态的独特之处和魅力。
这个工具的特色是把批评与幽默结合在一起。期待它对你的发帖习惯、互动水平,甚至你可能让AI工具过于主导的现象进行俏皮的讽刺。例如,它可能会调侃你在帖子里更多地使用AI而不是个人内容,暗示你可能过于依赖技术表达创意。
我们把OpenAI的Instagram动态发给My Insta Personality,它给了我们两种评价:
点评:“听好了,家人们。你的Instagram像是AI奇迹的自助餐,但点赞就像素食主义者对奶酪的热爱一样稀薄。你拿着GPT-4o炫耀,像是最新的运动鞋发布,但拜托,那条动态68k个赞?这可是你在猫视频上期望的数量,不是一个能跨越音频、视觉和文本推理的AI模型啊!谁在管你的公关?一个土豆吗?你提供的是美食,却只得到些许面包屑。而且还有DALL·E——在ChatGPT里编辑照片?那条动态获得的关注比放在办公室冰箱里太久的湿三明治还少。振作起来,OpenAI;你们真是在重新定义创意,却仍然不能让大家激动起来。加油!”
诚实意见:“好吧,实话实说:你的帖子是一个未来创意的狂野旅程!你在这里分享知识炸弹,展示了AI在艺术和表达中的巨大潜力。但谁能告诉算法不要和你的互动玩捉迷藏了?你的追随者比某些国家的公民还多,但你的点赞数却比跑步机上的孩子还费劲。要么世界还没有发现你的天才,要么他们需要AI大神的叫醒服务!你的视觉效果令人惊叹,但你需要努力让更多人看到这些杰作。你基本上是科技界的蒙娜丽莎——人人都知道你,但他们还在问,‘这究竟有什么热度?’让我们把这些数字提上去!”
Decube 推出AI助手Copilot,革新数据驱动决策过程
Decube作为统一数据管理解决方案的先锋,宣布推出其Copilot,这是一款先进的人工智能驱动工具,旨在为组织提供无缝的数据驱动决策能力。Decube的Copilot 有望改变企业如何互动和利用数据的方式,使其更加易于访问、操作和洞察。
在当今快节奏的商业环境中,快速做出明智的决策至关重要。Decube的Copilot通过提供与现有数据基础设施无缝集成的AI助手来解决这一问题。这款工具旨在帮助用户管理复杂的数据集,生成实时洞察,并实现数据处理自动化,最终推动更好的业务成果。
Copilot配备了允许用户提出自然语言问题并接收即时、相关答案的功能,即使是非技术用户,数据交互也变得直观。此外,该工具通过提供可执行的洞察来增强协作,团队可以轻松共享并将这些洞察整合到他们的决策过程中。
Copilot基于Decube现有的数据管理解决方案,包括其统一的数据信任平台。这个生态系统包括数据可观测性、发现和治理工具,旨在使数据可靠且易于发现。通过与Decube现有产品的无缝集成,Copilot进一步增强了公司提供端到端数据管理解决方案的能力,满足现代企业从确保数据质量和可靠性到实现AI驱动的洞察和决策的全方位数据需求。
人工智能如何简化业务流程自动化
人工智能一直以来被用于自动化业务流程,提高公司效率,并在此过程中降低成本。这将使企业能够将人工智能融入其现有的操作流程中:工作流中的重复任务,如果需要,可以对操作进行调整。这还可以加快决策的速度。
推动这一革命的各种AI相关技术包括机器学习、自然语言处理和机器人过程自动化,提供高级分析能力、预测及减少执行各种任务时的人为干预。在未来的现代企业中,业务流程自动化(BPA)的扩展将确保在采用AI系统后提高运营敏捷性、节约成本并提升客户体验。本文简要描述了AI如何简化BPA,从而说明了其今天在企业中的应用带来的巨大好处。
业务流程自动化的演变
业务流程自动化是指采用能够替代人类完成工作的技术。传统上,它涉及工作流自动化、任务管理和信息处理。智能自动化与AI的结合将BPA延伸到可以进一步分析数据、识别模式并做出明智选择的地步。这显著扩展了传统BPA的能力。由AI驱动的业务流程自动化不仅确保了操作的流畅性,还确保了高准确性和效率,是现代企业的强大武器。
BPA中的关键AI技术
以下是推动BPA进步的关键AI技术,通过两种独特的能力推动创新:效率和决策。
机器学习(ML)
现代AI通过基于历史数据的学习,使组织具备预测能力。ML算法分析大量数据集以生成可以帮助自动化任务和增强决策的模式和趋势。
例如,在金融服务行业,这可能意味着预测市场趋势或从已学到的交易模式中检测欺诈交易。这在需要随新信息不断学习的应用领域中具有深远的意义。
自然语言处理(NLP)
NLP是计算机科学的一个子领域,处理计算机与人类使用自然语言的交互。此技术的一个重要元素是自然语言处理,在客户服务中自动化确保了聊天机器人和虚拟助手可以与用户进行有意义或上下文相关的对话。
这确保了AI驱动的工具不仅更新了这些信息,还能够处理客户的大量查询,提供即时支持和建议。NLP因此在自动化通信中发挥作用,同时通过减少常规任务中的人为干预实现客户体验的提升。
机器人过程自动化(RPA)
实际上,RPA软件机器人被部署去执行通常由人类重复和例行完成的工作。这些软件机器人可以极其准确和快速地完成大量工作,例如数据输入、发票处理或报告创建。
通过更好地清除错误、加快流程、让工作人员有更多时间从事其他高端活动,提高了操作效率。乏味的任务以更高的精度和效率完成,从而降低了由于人力资源应用所产生的运行费用。
预测分析
这是由分析运行以通过现有数据预先确定可能趋势和事件的另一种高级应用程序。这是一种人工智能驱动的决策技术,根据对过去行为的分析作出对未来可能情景的预测建议,来帮助企业。
例如,预测分析用于零售中预测不同种类商品的需求,然后管理库存水平,使商店总是保持满员而不过剩。在风险方面,它可以决定可能的风险,并帮助提出缓解发生的方法。
战略规划
通过优化资源的战略规划来确保企业能够应对挑战并抓住大量机会。
当这些AI技术结合起来时,通过实现更智能、高效和适应性的操作改变业务流程自动化。它通过提供更好的性能和竞争优势来使组织过程更加有效和高效,因为它有助于组织有用的数据。以下是AI如何使BPA受益的一些方式。
通过人工智能的帮助,添加了一个可扩展的变革性好处,提高了组织的性能和效率水平。AI显著提高了效率,因为它可以以成倍的速度处理和分析大量数据。
大多数传统工作流高度依赖手工,耗时且常常导致一个接一个的延迟。AI因此加快了这些流程,确保更快的决策并在操作上提供更高的效率。
例如,借助AI分析工具,可以处理大量数据以产生实时见解,在这种情况下帮助在最短时间内对市场动态和运营问题作出反应。成本降低 使用AI在BPA中的最重要优势之一是显著甚至大幅降低成本。
消除重复和单调的活动减少了企业对人力资源的依赖,从而降低了相关操作的劳动成本。
AI过程自动化进一步消除了手工过程中常见的错误,因此极大降低了纠正措施的成本。
例如,在财务中,AI可以自动化发票处理和对账,减少人类干预,从而降低运营成本。尤其是在数据输入、分析和报告的准确性方面,AI系统提供的质量往往比人类要高得多。此类领域的人为错误代价高昂。
例如,AI可以快速解释决策,或者解决操作中的某些低效率问题。另一方面,基于AI的算法会准确地执行例行职责,并产生一致且无错误的结果。在财务报告相关功能中,准确性改进是必须的,因为效率要求非常精确的合规性和有效的战略规划。
客户体验改进
通过最新的聊天机器人、虚拟私人助理和其他AI解决方案,AI提高了客户体验,这些解决方案可以通过即时消息回答问题,并使交互过程个性化,因为事先收集了大量关于用户的数据。这种方式不仅加快了响应速度,更重要的是保证了响应的相关性和个性化,帮助客户并通过提供更高效的服务体验,帮助企业获得满意并保持的效果。
将AI整合到BPA工具中的最令人印象深刻的事实之一是可扩展性。相反,AI可能处理业务中成长动荡的工作量增加,但仍然能够处理相同标准工作的容量。AI系统是为了处理工作量增长而设计的,不需要相应增加资源。换句话说,AI与BPA的结合转化为提高效率、降低成本、增加准确性和提高客户体验,这些因素只能意味着成功并因此在整个业务中具有竞争优势。
AI驱动的业务应用
从提高效率、降低成本、增加准确性以及改善客户体验的不同实际AI应用展示了BPA的优势。
财务和会计
在AI驱动系统的帮助下,帮助生成发票、管理费用等,这些都是自动完成的。因此,在确保精确的同时,没有人为错误的空间。
人力资源
AI使人力资源部门的操作变得顺畅。人力资源功能,包括招聘、入职以及审查员工表现,现在可以分析,以更有效地匹配候选人和职位空缺。
供应链管理
AI通过预测需求、路线审查和维护库存来优化供应链。
市场营销和销售
所有客户数据记录通过AI可以用于制定个性化产品推荐, 发送自动电子邮件营销活动并加强潜在客户评分。
挑战与考虑
尽管AI在BPA中有这些神奇的效果,但仍存在以下挑战:
此外,数据隐私和安全性包括定义敏感业务数据、客户信息、处理数据泄露、应对安全事件以及遵守法规。尽管存在与现有基础设施兼容和集成的问题,但规划和执行过程必须相应地进行。
变更管理
AI驱动的BPA需要组织文化的转变。员工需要掌握与AI系统的协作,而管理层也需要考虑可能的决策之职。
AI应用引发了有关其决策过程是否透明,是否有人对报告中AI偏见的责任提出质疑。
AI在BPA中的未来
AI中的BPA未来充满了不断增长的技术。因此,预计AI系统将在不久的将来变得更加先进、复杂,并能够执行复杂的决策,从而推动减少人为干预的其他琐碎任务。这将使企业结构在提升敏捷性、降低运营成本和提高效率方面拥有竞争优势。
Holden对此观点表示肯定,他认为“AI以降低成本和提高准确性为方式以彻底改变BPA。”那些将AI技术用于提升自动化的业务的CIO们将在动态市场条件下为驾驭生存和竞争做好更充分的准备。AI将承担BPA中的新角色,提高工作成效,从而改变业务操作的方式。
常见问题
1. AI如何改进业务流程自动化?
AI通过自动化重复性任务、分析大数据集以帮助决策,并在操作中提高准确性和效率来增强BPA。
2. 哪些行业最受益于AI在BPA中的应用?
金融、人力资源、供应链管理和市场营销等行业在AI驱动的BPA中受益显著。
3. 将AI集成到BPA中的挑战是什么?
挑战包括数据隐私和安全性、与现有系统的集成、变更管理以及道德考虑。
4. 企业如何确保在使用AI进行BPA时的数据安全?
企业可以通过实施健全的安全措施、遵守法规并定期更新系统来确保数据安全。
5. AI在业务流程自动化中的未来是什么?
AI在BPA中的未来包括更加复杂的系统,能够执行复杂决策,进一步减少人为干预并提高效率。
Gemini 接管谷歌
图片来源:Alex Parkin / The Verge
在本周的谷歌硬件发布会上,谷歌实际上花了将近半小时才真正谈到新设备。新的Pixel 9系列和Pixel Watch 3内部有很多令人期待的内容,但谷歌的活动明确了它的真正优先事项。对谷歌来说,人工智能比Pixel、Android甚至几乎任何其他东西都更重要。
在本期Vergecast节目中,我们讨论了谷歌所有的AI发布,以及它们可能对你未来使用设备的方式产生的影响。这是一个范式转变吗?由于谷歌的大部分重点都放在Pixel的摄像头上,我们还讨论了正在进行中的“照片是什么”危机,以及我们捕捉到的东西是否还算是照片。
之后,Nilay告诉我们他作为电视评比大赛裁判的冒险经历,包括两天时间眯着眼睛看极其令人印象深刻的显示屏,以确定哪个是真正的最佳。他学到了很多关于如何看屏幕的知识,以及电视技术的最新状态,并有很多要分享的内容。
接下来,我们回顾了本周的一些监管新闻,因为苹果继续与开发者进行奇怪的纷争,Epic与谷歌的法官继续威胁要将公司拆分。大型科技公司的监管战风向已经发生了重大变化,似乎变化会越来越快。
最后,我们进行了一轮快报,从Flipboard的fediverse动作到Eric Schmidt关于人工智能的透露性评论,再到你见过的最快手机充电器。瓦数,持续数天。
如果你想了解更多关于我们在这一集中讨论的任何内容,以下是一些链接,从谷歌开始:
Google Pixel 9发布会:所有公告和产品
AI在Pixel发布会上盖过了Pixel的光芒
所有即将推出的AI功能都在Google的Pixel 9系列中
Google推出Pixel Studio AI图像制作应用程序
Google通过类似Recall的AI功能使你的Pixel截图可搜索
每次谷歌在Pixel 9发布会期间敲苹果
Google Gemini的语音聊天模式上线
使用Gemini Live比谷歌更快,但也更尴尬
来自Wired:对于谷歌的Pixel摄像头团队,关键在于记忆
关于电视评比:
命名Sony A95L为2024最佳电视的竞赛内幕
关于应用商店监管:
Patreon增加苹果税以避免被App Store下架
苹果最终将开放iPhone支付功能
苹果妥协并批准带有欧盟定价的Spotify应用
Epic法官表示他将“拆除障碍”,打破谷歌的应用商店垄断
快报:
Alex Cranz的选择:Realme的320W快充能在四分半钟内给一部智能手机完全充电
David Pierce的选择:Halide的Process Zero功能捕捉没有AI处理的照片
David的另一个选择:Flipboard将允许你在应用内关注fediverse账户
Nilay Patel的选择:前谷歌CEO:AI初创企业可以窃取知识产权,雇律师“清理烂摊子”
边缘 AI 的崛起:十大平台引领潮流
随着技术的日新月异,Edge AI在数据处理和分析中的作用越来越显著。Edge AI在数据源附近应用人工智能技能,提高了效率并减少了延迟,实现了实时决策。以下是推动Edge AI崛起的十大平台,展示了这一快速发展领域的创新和贡献。
1. NVIDIA Jetson
NVIDIA Jetson是Edge AI的领导者之一,提供用于Edge应用的计算平台和计算能力。Jetson系列包括Jetson Nano、TX2、Xavier和Orin等模块,以满足不同性能要求。这些平台覆盖了广泛的AI应用,如机器人、自动驾驶车辆和智慧城市基础设施。凭借这种基于GPU的计算加速,NVIDIA Jetson已经成为实时数据处理和AI部署的当前资源。
2. Google Coral
Google Coral为Edge AI提供了全方位的支持,其硬件形式为加速机器学习推理的ASIC——Edge TPU。像Coral开发板和USB加速器这样的产品为开发者提供了高效部署模型所需的硬件。Coral由Google开发,以用户友好和与TensorFlow Lite的无缝对接而闻名,成为Edge AI项目中最受欢迎的平台之一。
3. Intel Movidius
Intel Movidius专注于Edge AI的视觉处理解决方案。Movidius神经计算棒(NCS)是其中一个产品,可以使任何Edge设备变得智能化。Intel的Movidius在需要在安防摄像头、无人机和智能设备中实现高性能且功耗小的设备时是最佳选择。Movidius技术能够执行复杂的AI任务,如目标检测和面部识别。
4. Microsoft Azure IoT Edge
Microsoft Azure IoT Edge将Azure的所有先进云智能能力扩展至物联网Edge。Azure IoT Edge的架构使设备能够在现场Edge运行人工智能服务和机器学习模型。Azure IoT Edge市场为多个用例提供广泛支持,从预测性维护到实时分析,再到Edge AI推理。它还为云和Edge资源提供统一的管理策略。
5. AWS Deep Learning AMIs
Amazon Web Services(AWS)深度学习AMIs(Amazon机器映像)通过AWS Greengrass扩展了Edge AI的能力。Greengrass使得能够在Edge设备上运行AWS Lambda函数和机器学习模型,从而实现实时分析和决策。AWS Deep Learning AMIs被设计为各种Edge应用的骨干,从工业自动化到智能设备。
6. IBM Edge Application Manager
IBM Edge Application Manager是一种多环境和边缘计算解决方案。它管理、自动扩展和优化AI工作负载。它在制造业、能源和零售等行业的不同场景中使用,为Edge的实时数据处理和AI部署提供解决方案。
高通的Snapdragon处理器中搭载了AI引擎,授予了Edge卓越的AI处理能力。其AI引擎可以运行和加速机器学习和计算机视觉工作负载。因此,它适用于移动和移动Edge设备、智能相机和类似的Edge设备。高通的技术基本上实现了这种高级功能,确保了实时目标检测和语音识别等功能的进一步提升用户体验并实现了这些设备的潜力。
8. Edge Impulse
Edge Impulse是一个专门用于Edge机器学习模型开发和部署的平台。该平台专注于从数据收集、模型训练到AI应用部署的工具。此外,这个工具与设备无关;它可以涵盖可穿戴传感器、工业设备和环境监测系统。因此,这提供了一种替代、非常广泛的Edge AI选择。
惠普企业(HPE)Edgeline是Edge AI和IT基础设施的结合,促进了实时分析和AI处理。Edgeline平台将硬核硬件与先进软件相结合,使其在恶劣环境中也能奏效。HPE Edgeline应用在制造业、交通运输和能源领域,因此,它提供了可靠且高效的Edge AI解决方案。
10. Samsung ARTIK
三星ARTIK提供了一个在Edge AI中的单一解决方案,将硬件模块与开发工具包整合在一起。ARTIK平台专为IoT和Edge AI应用设计,提供集成的连接和计算能力。通过整合,三星的完整ARTIK解决方案支持智能家居、工业自动化和医疗保健应用,因为它们在Edge利用了强大且可扩展的AI。
结论
以上是推动数据处理和决策方式变革的十大Edge AI平台。由于它们的独特特点,这些平台涵盖了从NVIDIA Jetson的计算能力到Google Coral的AI加速器效率等多个方面,在多个行业中共同推动了Edge AI技术的进步。对人力的投资可以通过减少操作延迟和实现真正的实时决策来提高效率。
了解这些领先的Edge AI平台,可以让人们具备极佳的见解,并在其项目和应用中有效构建顶尖解决方案。
常见问题解答
1. 什么是Edge AI?
Edge AI指的是部署在网络边缘的人工智能技术,靠近数据生成的位置,以启用实时处理和决策。
2. 为什么Edge AI很重要?
Edge AI通过本地处理数据而不依赖集中式云服务器,减少了延迟,提高了效率,并允许更快的响应。
3. Edge AI有哪些常见应用?
常见的应用包括自动驾驶车辆、智慧城市、工业自动化、安全系统和物联网设备。
4. NVIDIA Jetson如何支持Edge AI?
NVIDIA Jetson提供了强大的AI计算平台,配有GPU加速模块,支持实时数据处理和广泛的AI应用。
5. 什么是AWS Greengrass?
AWS Greengrass是一项服务,它将AWS云功能扩展到Edge设备,允许在Edge直接部署机器学习模型和AI服务。
无人机的未来发展
无人机已经成为军队、爱好者和急救人员的常用技术,超过十年来,无人机的种类和功能激增。如今,无人机不再仅限于电池寿命不足的小型四轴飞行器,而是正协助搜索和救援工作、改变乌克兰和加沙的战争局面,并运送时间敏感的医疗物资。而且,数十亿美元的资金正在投入到构建下一代完全自主系统中。
这些发展引发了许多问题:无人机是否足够安全,可以在密集的社区和城市中飞行?警方在活动或抗议期间飞越无人机是否侵犯了人们的隐私?谁来决定在战争区域里无人机自治的可接受水平?
这些问题不再只是理论上的。无人机技术和传感器的进步、价格的下降以及法规的放宽使无人机变得比以往任何时候都更便宜、更快且功能更强大。让我们来看一下未来无人机技术发展的四大变化。
警用无人机队
根据Atlas of Surveillance的追踪报告,目前超过1,500家美国警察局拥有无人机项目。经过培训的警察飞行员使用无人机进行搜索和救援行动、监控事件和人群等。亚利桑那州斯科茨代尔的警察局成功地使用了一架无人机定位了一名失踪的患有痴呆症的老人,斯科茨代尔警察局的助理局长Rich Slavin说。他说,目前该局对无人机的使用虽然有限但有效,但其飞行员常常受到美国联邦航空管理局(FAA)“目视距离”规则的限制。该规则规定飞行员必须始终能看到他们的无人机,这严重限制了无人机的飞行范围。
很快,这一情况将会改变。未来几个月里,斯科茨代尔警察将在该市某处的屋顶安装一架新型的可自主起飞、飞行和着陆的警用无人机。Slavin表示,该部门正寻求FAA的豁免,以便能够让无人机超越目视距离飞行。(自2019年首次颁发以来,数百家警察部门已经获得了FAA豁免。)该无人机最高可飞行时速57英里,能够执行距离其停靠站三英里的任务,警方表示它将用于跟踪嫌疑人及其它相关用途,或为等待增援的交通站警官提供视觉信息。
“FAA在这方面采取了更为先进的措施,”Slavin说。这可能意味着全国各地看到(并听到)警用无人机在头顶飞行的景象将变得更加普遍。
斯科茨代尔警察局表示,他们将从Aerodome公司购买的无人机将启动无人机即第一反应者计划,并将在其新的“实时犯罪中心”中发挥作用。这类中心在美国警务中越来越常见,允许城市连接摄像头、车牌识别器、无人机和其他监控方法,实时跟踪情况。中心的兴起及其对无人机的依赖招致了隐私倡导者的批评,他们认为这些中心进行大量监控,而对如何使用或分享来自无人机和其他来源的录像缺乏透明度。
2019年,加利福尼亚州丘拉维斯塔警察局是首个获得FAA超目视距离飞行豁免的机构。该项目引起了社区成员的批评,他们声称该局对所收集录像及其使用方式并不透明。
美国公民自由联盟(ACLU)言论、隐私和科技项目的高级政策分析师Jay Stanley表示,这些豁免加剧了已经存在的与无人机相关的隐私问题。如果FAA继续授予这些豁免,警察局将能够比以往更多地使用无人机覆盖城市区域,而法律环境对于这是否构成隐私侵犯仍然模糊不清。
“如果这种技术的不同应用累计起来,我们将会进入一个从你走出前门的那一刻起,你就会感觉受到来自空中的执法监控的世界,”他说。“它可能有一些真实的利益,但也亟需强有力的制衡机制。”
斯科茨代尔警察局表示,无人机可以用于多种情景,例如应对正进行的入室盗窃或跟踪涉嫌绑架的司机。但真正的益处,Slavin说,将来自于与其他现有技术的结合,如自动车牌识别器和分布在城市各地的数百个摄像头。“它可以非常迅速地到达现场,”他说。“它能提供实时情报,帮助我们更快更聪明地响应。”
虽然警察局在这些情况下可能确实受益于无人机,Stanley说,ACLU发现许多警察局将它们部署在更普通的案件中,如报告一个孩子向车库扔球或某地区有“可疑人员”。
“这引发了关于这些项目是否只是另一种方式,使得脆弱社区被过度警察执法和受到零敲碎打罚款的问题,”他说。
无人机快递,再次来袭
或许没有哪项无人机技术像家庭快递那样被过度炒作。多年来,科技公司一直在展示无人机在你下单后的几个小时内就能把包裹送到你家门口的未来景象。但除了小规模的试点项目外,他们从未能在美国扩大规模,这主要还是受到FAA目视距离规则的限制。
但今年,监管变化即将到来。与警察局一样,亚马逊的Prime Air计划此前也被限制在飞行员目视距离内飞行。这是因为无人机飞行员没有雷达、空中交通管制员或其他商业飞行依赖的监控空域和保障安全的系统。为此,亚马逊花了数年时间开发了一套车载系统,能够让其无人机检测到附近物体并避开碰撞。公司表示,他们在演示中向FAA展示了其无人机可以安全地与直升机、飞机和热气球在同一空域飞行。
今年5月,亚马逊宣布FAA已授予公司豁免并允许其在德克萨斯州扩大业务,距Prime Air项目启动已有十多年。7月,FAA又扫清了一个障碍,允许两家公司——Zipline和谷歌的Wing Aviation——同时在同一空域飞行,无需视觉观察员。
尽管这意味着你通过无人机接收包裹的几率略有增加,但更引人注目的是医疗快递。密苏里大学圣路易斯分校供应链副教授Shakiba Enayati多年来一直研究无人机如何进行疫苗、抗蛇毒、器官和血液的最后一公里配送。她说研究发现,无人机在将医疗物资送到欠服务地区方面带来了革命性变化,如果FAA延长这些监管改变,将产生真正的影响。
这是特别针对器官移植的步骤而言的,她说。在器官传输给接受者之前,必须进行一系列血液测试,以确保接受者能够接受,这需要时间,尤其是用汽车甚至直升机运输时。“在这些情况下,时间非常紧迫,”Enayati说。如果能够规模化地使用无人机,将是一个显著的改进。
“如果技术支持器官交付的需求,将在这个重要领域带来巨大变化,”她说。
这个发展可能会比用无人机实际运送器官更快实现,后者要求在非常严格的条件下运输,以保全器官。
国内化无人机供应链
去年12月签署成为法律的《美国安全无人机法》禁止联邦机构从被视为对美国国家安全构成威胁的国家(如俄罗斯和中国)购置无人机。这非常重要。中国在制造无人机及其零部件方面是无可争议的领导者,在美国,超过90%的执法无人机都是由深圳的DJI制造的,乌克兰战争中双方使用的许多无人机也都是中国产的。
《美国安全无人机法》是减少对中国依赖努力的一部分。(与此同时,中国正在加强对具有军事用途的无人机出口限制。)作为该法律的一部分,美国国防部的国防创新单位创建了“蓝色无人机清单”,这是一个经过评估和批准购买的无人机及其部件列表。该列表适用于包括联邦拨款项目在内的联邦机构,通常意味着州警部门或其他非联邦机构。
由于美国预计将在无人机上投资巨额资金——仅国防部的Replicator计划就 earmarked 10亿美元,所以进入“蓝色清单”意义重大。这意味着这些联邦机构可以大额采购时没有多少繁文缛节。
总部位于美国的无人机零部件制造商Unusual Machine的CEO Allan Evans表示,该清单已经引发了一些无人机公司急于符合美国标准。他的公司制造一种第一人称视角飞行控制器,他希望其成为第一个获得“蓝色清单”批准的同类产品。
《美国安全无人机法》不太可能影响私人购买的无人机,这些无人机用于摄像、无人机竞速或爱好者,这些无人机在绝大多数情况下仍将由DJI这样的中国公司制造。这意味着任何美国无人机公司至少在短期内将只能通过为国防市场服务生存。
“基本上,任何不愿意在国防业务中有附带参与的美国公司都将失败,”Evans说。
未来几个月将显示法律的真实影响:由于美国财政年度在9月结束,Evans表示,他预计未来一个月内会看到大量机构使用其必须花掉的资金购买美国制造的无人机和无人机零部件。“这将表明市场是否真实存在,有多少资金实际上被投入其中,”他说。
乌克兰的自主武器
乌克兰的无人机战争主要是消耗战。自战争开始以来,无人机已经被广泛用于评估破坏情况、寻找和跟踪目标或投掷武器,但平均而言这些四轴飞行器在被击落或被GPS干扰致不可导航之前只能飞行三次。因此,乌克兰和俄罗斯都将重点放在积累大量无人机上的优先权,因为他们预计在战斗中不会长久使用。
现在,他们必须重新考虑这一方法。根据UK-Ukraine Tech Exchange的创始人Andriy Dovbenko的说法,这是一家帮助乌克兰战争努力和重建的初创公司筹集资金的非营利组织。他在与乌克兰无人机制造商合作时,看到技术需求从大量的简单商用无人机转变为对能够在GPS被干扰环境中自主导航的无人机的迫切需求。据Dovbenko称,前线70%的地区遭受了干扰,因此乌克兰和俄罗斯的无人机投资现在都集中在自主系统上。
这并不是一个小成就。无人机飞行员通常依赖于无人机的视频反馈和GPS技术,而在干扰环境中这些都不可用。取而代之的是,自主无人机使用各种类型的传感器如LiDAR进行导航,尽管在雾或其他恶劣天气条件下这可能会变得困难。自主无人机是一种新的、快速变化的技术,美国公司如Shield AI仍在进行测试。乌克兰不断演变的战争提高了部署可负担和可靠的自主无人机的压力和紧迫性。
向自主武器过渡也提出了许多严重但仍未完全回答的问题,即在决策过程中究竟应该将人类排除在外多少。随着战争的继续和更强大武器需求的增加,乌克兰可能会成为测试这道道德红线的试验场。然而Dovbenko说,在持续战争中停下来寻找这条线是不可能的。
“对于杀伤性机器你能赋予多少自主权,这是一个道德问题,”Dovbenko说。“在乌克兰目前没有人在问这个问题,因为这更多的是生存问题。”
4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化
Meta、UC伯克利、NYU共同提出元奖励语言模型,给「超级对齐」指条明路:让AI自己当裁判,自我改进对齐,效果秒杀自我奖励模型。
LLM对数据的大量消耗,不仅体现在预训练语料上,还体现在RLHF、DPO等对齐阶段。
后者不仅依赖昂贵的人工标注数据,而且很可能让人类水平限制LLM的进一步发展。
今年1月,Meta和NYU的团队就提出了语言模型的自我奖励机制,使用LLM-as-a-Judge的提示机制,让模型在训练期间进行自我反馈。
论文地址:https://arxiv.org/abs/2401.10020
论文发现,即使不依靠人类标注者,LLM也能通过评价自己的响应实现性能提升。
最近,这个团队又发表了一篇研究,将LLM「自我奖励」这件事情再拔高了一个层次。
论文地址:https://arxiv.org/abs/2407.19594
毕竟是自己给自己打分,因此不能只关注模型作为actor如何从反馈中优化,也需要保证模型作为judge具备优秀的自我评价能力。
之前的研究就因为过于关注前者而忽略后者,造成了迭代训练期间性能的过快饱和。
甚至,还有可能造成比饱和更差的情况,即对奖励信号的过度拟合(reward hacking)。
因此,来自Meta、NYU、UC伯克利等机构的研究者们提出,还需要增加一个「元奖励」步骤——让模型评价自己的评价,从而提升评价能力。
虽然听起来有点绕,但实际是合理的。而且实验发现,加上这一层嵌套有显著的提升效果。
比如Llama-3-8B-Instruct在AlpacaEval 2上的胜率就从22.9%增至39.4%,比GPT-4的表现更佳;在Arena-Hard上则从20.6%提升至29.1%。
如果说,今年1月发表的研究是LLM-as-a-Judge,那么这篇论文提出的「元奖励」,就相当于LLM-as-a-Meta-Judge。
不仅Judge不需要人类,Meta-Judge也能自给自足,这似乎进一步证明,模型的自我提升可以摆脱对人类监督的依赖。
Meta科学家Yann LeCun也转发了这篇研究,并亲自下场玩起了双关梗——
Meta提出的Meta-Judge,FAIR能否实现fair?
研究不重要,重要的是Meta FAIR这一波曝光率拉满了。
元奖励(Meta-Rewarding)
用更直白的话说,「元奖励」方法就是在原有的actor-judge的互动中再引入meta-judge,且由同一个模型「分饰三角」,不需要额外人类数据的参与。
其中,actor负责对给定提示生成响应;judge负责为自己的响应进行评价和打分;而meta-judge会对自己的打分质量进行对比。
最终的优化目标,是希望actor能生成更好的响应,但训练效率依赖于judge的准确率。
因此,meta-judge作为训练judge的角色,可以同时提升模型作为actor和judge的性能。
这三种角色组成的迭代训练模式如图1所示,在第t个步骤中,先收集模型M_t对提示x的响应,由再让M_t对自己进行评价,由此得到用于训练actor的偏好数据。
之后,给定同一个响应内容y,让M_t生成各种不同评价的变体,由meta-judge进行打分和排名,由此得到用于训练judge的偏好数据。
结合上述的两类偏好数据,通过DPO方法对模型M_t进行偏好优化,就完成了一轮迭代,得到模型M_(t+1)。
长度偏好
之前的工作曾经发现,作为judge的模型会偏好更长的响应,这会导致多轮迭代后答案的「长度爆炸」。
因此,作者引入了一种简洁的「长度控制」(length-control)机制——使用参数ρ∈[0,1],权衡judge的评分和响应文本长度。
比如,对于分数在第一梯队的模型响应,即分数范围为[(1-ρ)Smax+ρSmin, Smax],选择其中最短的响应作为最优答案。
Judge偏好数据的创建
首先,选择judge最没有把握的模型响应,通过分数方差衡量judge的确定性。对于每个选中的响应y,我们有最多N个对应的模型评价{j1, … , jN}。
之后,对其中的每一对(jm, jn)进行成对评估,使用如图2所示的meta-judge提示模板。
除了给出评价结果,meta-judge还需要生成CoT推理过程。
为减少meta-judge可能存在的位置偏好(可能倾向于选择最先出现的Judgment A),对同一对数据(jm, jn)会交换顺序让meta-judge进行两次评价,得到单次结果rmn:
引入参数w1、w2用于表征可能存在的位置偏好:
其中win1st和win2nd表示在meta-judge的整个评价过程中,两个位置的评价分别有多少次胜出。
用以上变量构建「对决矩阵」(battle matrix)B记录每一次的最终结果:
利用Elo评分,可以从矩阵B计算meta-judge给每个judge赋予的元奖励分数。
作者发现,meta-judge和judge一样,也会展现出「长度偏好」,倾向于选择更长的评价意见。
为了避免最终训出的模型过于啰嗦,构建judge数据集时也采取了过滤措施。如果meta-judge选中的评价意见超过一定长度,整个数据对都会被直接舍弃。
评估实验
实验准备
实验使用Llama-3-8B-Instruct作为种子模型,其他方面的实验设置与之前发表的论文《Self-Rewarding Language Models》一致。
在元奖励训练之前,实验首先在EFT(Evaluation Fine-Tuning)数据集上对种子模型进行监督微调(SFT)。
EFT数据集是根据Open Assistant构建的,并提供初始的LLM-as-a-Judge训练数据,包含经过排名的人类响应,能训练模型充当法官。
对于元奖励迭代,实验利用2万个提示,由Llama-2-70B-Chat经过8-shot提示生成。
如上图所示,训练所用的提示在分布上更接近AlpacaEval数据集,而Arena-Hard的提示集中分布于训练提示的一个子集。
对于每次迭代,实验从该种子集中抽取5,000个提示,总共进行四次迭代。
迭代过程如下:
– Iter 1:从初始的SFT模型开始,使用DPO(Direct Preference Optimization)对生成的actor和judge的偏好对进行训练,获得M1。
– Iter 2:使用DPO对M1生成的actor和judge偏好对进行训练,获得M2。
– Iter 3/4:使用DPO仅对M2/M3生成的actor偏好对进行训练,获得M3/M4。
每个prompt都让模型生成K=7个响应,每次迭代总共生成3.5万个响应。然后,我们过滤掉相同的响应(通常删除不超过50个重复项)。
接下来,使用相同的采样参数为每个响应生成N = 11^2个不同的判断。
评估方法
元奖励模型的目标是要让模型既能自己「演」,还能自己「评」,因此实验也要评估模型在这两个角色中的表现如何。
基线模型是前述论文中提出的自我奖励模型,带有相同的「长度控制」机制,可以直接对比出元奖励机制带来的性能增益。
首先,先看看如何评判「演」的怎么样。
实验利用三个基于GPT4-as-a-Judge的自动评估基准,包括AlpacaEval 2、Arena-Hard和MT-Bench,分别侧重于模型的不同方面。
例如,AlpacaEval主要关注聊天场景,提示集涵盖了各种日常问题。
相比之下,Arena-Hard包含更复杂或更具挑战性的问题,要在预定义的7个方面(创造力、复杂性、问题解决能力等)满足更多的标准。
MT-Bench有8个不同的问题类别,主要评估模型的多轮对话能力。
另一方面,为了评估LLM法官「评」的怎么样,实验测量了LLM给的分数与人类偏好的相关性。如果没有可用的人类标注数据,则使用较强的AI法官代替。
指令跟随评估
图3展示了在AlpacaEval基准上,元奖励方法(带有长度控制机制)胜率随训练迭代的变化。
总体来看,元奖励的胜率从22.9%大幅提升到39.4%,超过了GPT-4,并接近Claude Opus模型。
考虑到种子模型参数量只有8B,并且,除了在SFT阶段使用的EFT数据集,没有引入任何额外的人工数据,这是一个相当优秀的结果。
另外,结果也证明了meta-judge和长度控制机制的重要性。
自我奖励模型训练到超过3轮时,开始出现饱和迹象,但带有元奖励的模型并没有,到第4轮时仍保持性能增长。
这表明了对模型评价能力进行训练的重要性,以及meta-judge这一角色的有效性。
如表1所示,经过4轮迭代,无论是自我奖励模型还是元奖励模型,平均响应长度(以字符为单位)都没有显著增加,证明长度控制机制的有效性。
元奖励机制有以下三个较为明显的改进。
首先,将AlpacaEval中的805个类别细分为18个类别进行详细分析,可以看到,元奖励几乎改进了所有类别的响应(图4),包括需要大量知识和推理的学科,例如科学(Science)、游戏(Gaming)、文学(Literature)等。
值得注意的是,旅游(Travel)和数学(Mathematics)这两类,模型并没有实现显著提升。
第二,元奖励改进了对于复杂和困难问题的回答。
实验进一步使用Arena-Hard评估在元奖励方法在回答复杂和具有挑战性的问题上的表现。
表2中的评估结果显示,元奖励在4次迭代中都能提高分数,与种子模型(20.6%)相比,显著提高了8.5%。
第三,元奖励在仅训练单轮对话的情况下也并未牺牲多轮对话能力。
论文进行了MT-Bench评估,以检查在仅训练单轮数据的情况下多轮对话能力的损失。
结果如下表显示,元奖励模型的4次迭代显著提高了第一轮对话得分,从8.319(种子模型)提高到8.738,而第二轮对话得分仅下降了不超过 0.1。
这是对基线模型中自我奖励+长度控制(Self-Rewarding + LC)的巨大改进,因为后者通常会在第二轮对话得分上,下降超过 0.2,同时没有提高第一轮对话得分。
奖励模型评估
实验评估了模型对种子模型Llama3-8B-Instruct生成响应的判断准确性。
在缺乏人工标注的情况下,作者选择测量元奖励模型与当前最强的判断模型gpt-4-1106-preview之间的评分相关性。
分析采用了两种略有不同的设置,主要区别在于它们如何处理判断模型给出的平局,因此使用了两种指标:将平局计为0.5的一致性分数(agreement)和舍弃平局结果的一致性分数。
结果显示,模型在进行训练后判断能力有所提高。
表3中的分析显示,与基线模型相比,在两种评估设置中,元奖励与强大的GPT-4判断模型之间的相关性显著提高。
这些结果表明,元奖励方法能够改进模型判断能力,使其评估结果与更复杂的语言模型GPT-4的评估结果更加接近。
此外,实验对比了模型判断结果与Open Assistant数据集中人类响应排名的相关性(表7),发现元奖励训练提高了与人类的判断相关性。
然而,这种改进在后续训练迭代中没有持续,可能是由于模型生成的响应与人类响应之间的分布差异导致的。
分析
长度控制机制
长度控制机制对于保持模型响应的全面性和简洁性之间的平衡至关重要。
实验比较了最后一次训练迭代中不同长度控制参数ρ的结果,如表4所示:
ρ = 0,相当于在偏好数据选择中不进行任何长度控制。
正如预期的那样,这种训练方式使得模型生成的响应变得过于冗长,LC胜率降低。
使用外部奖励模型进行训练
元奖励机制让模型自己作为judge,来评估其自身的响应;实验尝试了使用强大的外部奖励模型Starling-RM-34B作为对比。
然而,结果发现StarlingRM-34B未能在第一次迭代中提高AlpacaEval的LC胜率(24.63% vs. 27.85%),这可能是由于其长度偏见。
meta-judge偏见
在元奖励训练的第一次迭代之后,meta-judge几乎总是更倾向于更高分数的判断,如表5所示。
这种分数偏见显著地将判断的评分分布向满分5分倾斜。对于位置偏见,我们也看到在训练过程中有增加的趋势,特别是在比较两个相同分数的判断时。
判断评分变化:为了调查在元奖励训练迭代过程中判断评分分布的变化,实验使用与奖励建模评估相同的验证提示。
使用Llama-3-8B-Instruct在每个提示上生成7个响应,然后为每个响应生成11次判断。图5是评分分布的可视化,密度是使用高斯核密度估算的。
可见,使用meta-judge训练判断进一步增加了其生成高分的可能性。
然而,判断训练的前两次迭代使其倾向于分配4.5、4.75、4.9的分数,根据根据指示这些分数应该是整数。
尽管这些是高分,但它们提供了更细致的区分能力,以区分不同质量的响应。
结论
实验提出了一种新机制,通过使用meta-judge为作为judge的模型分配元奖励(meta-rewards),从而提高模型的评判能力。
这解决了自奖励(Self-Rewarding)框架的一个主要限制,即缺乏对模型评判能力的训练。
为了使元奖励训练(Meta-Rewarding training)更加有效,实验还引入了一种新的长度控制技术,以缓解在使用AI反馈进行训练时出现的长度爆炸问题。
通过自动评估基准AlpacaEval、Arena-Hard和MT-Bench,元奖励方法的有效性也得到了验证。
值得注意的是,即使在没有额外人类反馈的情况下,这种方法也显著改进了Llama-3-8B-Instruct,并超越了依赖大量人类反馈的强基线方法自奖励(Self-Rewarding)和SPPO。
此外,评估模型的评判能力时,它在与人类评判和强大的AI评判(如 gpt-4-1106-preview)的相关性上表现出显著的改进。
总体而言,研究结果提供了有力的证据,证明无需任何人类反馈的自我改进模型是实现超级对齐(super alignment)的一个有前途的方向。
参考资料:
https://arxiv.org/pdf/2407.19594
GPT-4o版「Her」终于来了!讲笑话、学猫叫,AI女友能有多撩人?
GPT-4o语音功能终于如期而至,科幻版Her走进现实!一些灰度测试到的网友们已经玩疯了,不过,OpenAI目前只给了4种预设语音。另外,GPT-4o新模型的输出token也暴涨16倍至64K。
奥特曼的承诺,终于兑现了。
赶在7月结束前,GPT-4o语音模式终于开启了灰度测试,一小部分ChatGPT Plus用户已经拿到了尝鲜入场券。
如果打开ChatGPT App之后看到了下面这个界面,恭喜你成为了首批幸运儿。
OpenAI称,高级语音模式提供了更加自然、实时对话,可以随意打断,甚至它还可以感知、回应你的情绪。
预计在今年秋季,所有ChatGPT Plus用户,都能用上这个功能。
另外,视频和屏幕共享更强大的也在稍后推出。也就是,开启摄像头,就能和ChatGPT「面对面」聊天了。
一些被灰度到的网友们纷纷开启测试,发现了GPT-4o语音模式的诸多用例。
这不,有人就让它充当「二外教练」,教自己练习口语。
ChatGPT在下面的教学中,帮助网友纠正了Croissant(羊角面包)、Baguette(法式长棍)的发音。
与此同时,GPT-4o的输出token暴涨了16倍,从最初4000个token增加到64000个token。
这是OpenAI最近在官方网页中,悄然推出的测试版新模型gpt-4o-64k-output-alpha。
更长的输出token,就意味着,一次性可以得到大约4个完整的长篇电影剧本。
Her已来
之所以现在才放出GPT-4o语音功能,是因为过去几个月里,OpenAI一直对其进行安全性、质量测试。
他们与100+红队人员,就45种语言对GPT-4o语音能力进行了测试。
为保护人们的隐私,团队训练模型只使用4种「预设声音」说话。
他们还创建了一个系统,去阻止在这4种声音之外,其他声音的输出。
此外,内容过滤也是必不可少,团队还采取措施阻止暴力、有关版权内容的生成。
OpenAI预告,计划在8月初,会发布一份关于GPT-4o能力、局限性、安全评估的详细报告。
全网实测
下面是网友分享的GPT-4o语音模式的一些案例。
ChatGPT可以表演节奏口技。
ChatGPT还可以以害羞、生气、更愤怒的语气讲出了关于啤酒的笑话。
还有网友专为ChatGPT讲了一个笑话「为什么科学家不相信Adam-Atom,因为它们构成了一切」。
ChatGPT不失尴尬地笑了起来。
更搞笑的是,ChatGPT学起猫叫还是有一套的。
有人经过一番测试下来,发现ChatGPT高级语音模式非常快,回答几乎没有延迟。
当被要求模仿一些声音时,它总是可以真实复刻出声音。而且不同口音,也可以模仿出来。
下面这个视频中,展示了AI充当足球比赛解说员的场景。
ChatGPT用中文讲故事,也很生动。
OpenAI虽然声称,视频和屏幕共享功能稍后推出,不过已经有网友先用上了。
网友有一只猫咪新宠,为它搭建了小窝,准备了吃食,但不知道怎么样,于是就问问ChatGPT。
在视频的对话中,网友向它展示了猫咪的屋子,ChatGPT看过后评价道,「一定非常舒适」,并关心猫咪如何。
网友表示,它目前为止还没有吃东西,看起来有点担心。ChatGPT安慰道,「这很正常,对于猫咪来说需要适应的时间」。
可以看出,整个问答过程非常流畅,给人一种与真人交流的感受。
网友还翻出了日语版界面游戏机,但是自己又不会日语。
这时,他一边向ChatGPT展示游戏界面,一边让其帮自己做翻译,最后胡一起通关游戏。
不得不说,有了视觉+语音模式的加持,ChatGPT强了很多。
GPT-4o Long Output悄悄上线,输出高达64K
另外,支持更大token输出的GPT-4o随之而来。
就在昨天,OpenAI正式宣布向提供测试者GPT-4o Alpha版本,每次请求支持最多输出64K token,相当于200页小说。
测试者可以从「gpt-4o-64k-output-alpha」,访问GPT-4o的长输出功能。
不过,新模型的价格再次刷新天花板。每百万输入token 6美元,每百万输出token 18美元。
虽说输出token是GPT-4o的16倍,但价格也涨了3美元。
这么一比,果然还是gpt-4o-mini价格香!
研究员Simon Willison表示,长输出主要用于数据转换用例。
比如,将文档从一种语言翻译成另一种语言,或从文档中提取结构化数据,几乎每个输入token都需要在输出的JSON中使用。
在此之前,他所知道的最长输出模型是GPT-4o mini,为16K token。
为什么推出更长输出的模型?
显然,更长的输出,可以让GPT-4o提供更全面、细致的响应,对于一些场景非常有帮助。
比如,编写代码、以及对写作的改进。
这也是基于用户的反馈——需要更长输出内容才能满足用例,OpenAI才做出的调整。
上下文和输出之间的区别
GPT-4o自推出以来,便提供了最大128K的上下文窗口。而对于GPT-4o Long Output,最大上下文窗口仍然是128K。
那么,OpenAI如何在保持整体上下文窗口为128K的情况下,将输出token数量从4,000增加到64,000呢?
这是因为,OpenAI在最初就限制了输出token数量,最大为4000个token。
这意味着,用户可以在一次交互中最多以124,000个token作为输入,也最多只能得到4000个输出token。
当然,你也可以输入更多token,那就意味着输出token更少了。
毕竟长下文长度(128K)就固定在那里,不管输入怎么变,输出token也不会过4000。
而现在,OpenAI将输出token长度限制在64,000 token,也就是说,你可以比以往多输出16倍的token。
毕竟,输出计算量更大,价格涨幅也更大。
同样,对于最新的GPT-4o mini,上下文也是128K,但最大输出已提升至16,000个token。
那么,用户可以提供最多112,000个token作为输入,最终得到最多16,000个token的输出。
总的来说,OpenAI在这里提供了一个方案,限制输入token,以获取LLM更长的响应,而不是直接扩大上下文长度。
而市面上其他模型,长的都已经超过百万了(Gemini),稍微短一些的也有200K(Claude);甚至有的模型输出都已经达到了200K,而OpenAI还在这儿抠抠搜搜。
这也就把难题扔给了开发者:想要输入多,那就得接受输出少;想要输出多,那就得输入少一些。
具体怎么衡量,看你们自己愿意牺牲哪一个了……
参考资料:
https://x.com/OpenAI/status/1818353580279316863
https://x.com/tsarnick/status/1818402307115241608
https://x.com/kimmonismus/status/1818409637030293641
https://www.reddit.com/r/singularity/comments/1eg51gz/chatgpt_advanced_audio_helping_me_pronouce/
https://venturebeat.com/ai/openai-launches-experimental-gpt-4o-long-output-model-with-16x-token-capacity/