Skip to content
AI资讯
AI大模型
AI营销
标签:
SOTA
开放域检测新SOTA!中山大学美团出品,开源性能最强
开放域检测领域,迎来新进展—— 中山大学联合美团提出新模型OV-DINO,实现开放域检测开源新SOTA! 比Grounding DINO高12.7% AP,比YOLO-World 高4.7% AP。 目标检测技术一直是研究的热点。但传统的目标检测方法往往受限于预定义的类别集合,难以应对现实世界中种类繁多的物体。 为了突破这一限制,开放词汇检测(Open-Vocabulary Detection, OVD)应运而生。换言之,它能在模型在没有预先定义类别的情况下,通过文本描述来识别和检测物体。 OV-DINO是基于语言感知选择性融合、统一的开放域检测方法。作为最强开放域检测开源模型,目前项目已公开论文和代码,在线Demo也可体验。 什么是OV-DINO? 本文提出了一种名为OV-DINO的开放域检测方法。 整体框架包括一个文本编码器、一个图像编码器和一个检测头。模型接收图像和提示文本作为输入,通过特定模板创建统一的文本嵌入表示。 图像和文本嵌入经过编码器处理后,图像嵌入通过Transformer编码器生成精细化的图像嵌入。 语言感知查询选择模块选择与文本嵌入相关的对象嵌入,并在解码器中与可学习的内容查询融合,最终输出分类分数和回归边界框。 统一数据集成(UniDI) 在预训练阶段,OV-DINO将检测数据、定位数据和图像-文本数据转换为统一的检测数据格式,从而简化模型优化过程并提高性能。检测数据和定位数据的集成相对简单,而图像-文本数据的转换则通过将图像描述视为图像的唯一类别来实现。所有文本输入都通过简单模板进行统一处理,确保一致的文本嵌入表示。 语言感知选择性融合(LASF) 该模块包括语言感知查询选择和语言感知查询融合两个关键组件。查询选择组件通过评估图像嵌入和文本嵌入的相似性来选择对象嵌入。查询融合组件逐步融合语言感知对象嵌入,同时保留内容查询的原始语义。语言感知查询选择通过计算图像嵌入和文本嵌入的相似性矩阵,并选择最相关的嵌入。查询融合则在解码器层中动态更新内容查询,逐步引入语言感知上下文。 预训练 OV-DINO采用检测中心的数据格式,将不同类型的数据(检测数据、定位数据和图像-文本数据)转化为适合检测的格式,允许在统一的框架内进行预训练。模型的前向传播过程包括图像编码器提取图像嵌入、文本编码器提取文本嵌入、Transformer编码器生成精细化图像嵌入、语言感知查询选择模块选择对象嵌入,以及Transformer解码器通过选择性融合模块进行查询分类和边界框回归。模型通过统一的分类损失函数和目标框损失函数进行优化。 通过上述设计,OV-DINO实现了开放域检测的高效预训练和性能提升。 实验结果 OV-DINO使用Swin Transformer作为图像编码器和BERT-base作为文本编码器的模型架构,通过统一数据集成(UniDI)流程整合了多样化的数据源,如Objects365、GoldG grounding和Conceptual Captions图像-文本数据集,进行端到端的预训练。在此基础上,引入了语言感知选择性融合(LASF)模块来优化跨模态的语义对齐。在预训练阶段,批量大小为128,训练周期为24个epoch,使用了AdamW优化器,学习率调度采用多步衰减策略。在COCO数据集进行了额外的微调,批量大小为32,设置了更小的学习率。在COCO和LVIS基准数据集上进行评估,采用平均精度(AP)和固定平均精度(Fixed AP)作为主要指标。 COCO Benchmark 在零样本评估设置中,OV-DINO在COCO 2017验证集上取得了50.6%的平均精度(AP),这在同类方法中表现突出。该结果显著优于先前的方法,GLIP和G-DINO,显示了OV-DINO在处理未见类别时的强大泛化能力。在COCO数据集上进行微调后,OV-DINO进一步提升了性能,达到了58.4%的AP,刷新了该领域的记录。这一结果证明了OV-DINO不仅在零样本情况下表现出色,通过进一步的微调也能在封闭词汇集上实现卓越的检测性能。 LVIS Benchmark 在零样本评估设置中,OV-DINO在LVIS MiniVal数据集上取得了40.1%的AP,显著优于其他现有方法,如GLIP和G-DINO。在LVIS Val数据集上,OV-DINO也展现了强大的性能,取得了32.9%的AP。OV-DINO在处理LVIS数据集中的长尾类别时表现出色,能够检测到稀有(rare)、常见(common)和频繁(frequent)类别的物体。在LVIS MiniVal数据集上,OV-DINO在稀有类别上取得了34.5%的AP,在常见类别上取得了39.5%的AP,在频繁类别上取得了41.5%的AP。 可视化结果 可视化结果显示,OV-DINO能够准确地检测出图像中定义的所有对象,并且置信度分数较高。与GLIP和G-DINO等其他方法相比,OV-DINO的预测更加精确,并且能够检测到标签中未标记的额外对象。 LVIS数据集包含超过1000个类别,OV-DINO在零样本推断中展现了其检测多样化实例的能力。可视化结果突出了OV-DINO在长尾类别上的性能,显示出在图像中检测到丰富多样的物体类别,并且预测结果具有高准确性。 通过在COCO和LVIS数据集上的可视化结果,OV-DINO证明了其强大的零样本泛化能力,即使是在面对训练期间未遇到的类别时也能进行有效的检测。 最后小小总结一下,OV-DINO是一个统一的开放域检测方法,通过语言感知的选择性融合和统一数据集成(UniDI)显著提高了检测性能。在COCO和LVIS基准测试中,OV-DINO实现了超越现有最先进方法的性能,在零样本和微调评估中均展现出卓越的结果。通过引入语言感知的跨模态融合和对齐,OV-DINO为开放域检测(OVD)提供了一种新颖的视角,与传统的区域-概念对齐方法不同。尽管OV-DINO在性能上取得了显著成果,但仍存在一些挑战和局限性,如模型扩展性、计算资源需求等。 论文地址: https://arxiv.org/abs/2407.07844 代码地址: https://github.com/wanghao9610/OV-DINO Demo: http://47.115.200.157:7860/
最强开源文生图模型一夜易主!SD原班人马打造,要发SOTA视频生成模型
干翻SD3和MJ6!AI绘画黑马横空出世。 作者 | 香草 编辑 | 李水青 最强开源文生图模型一夜易主! 智东西8月2日报道,昨日晚间,开源文生图模型霸主Stable Diffusion原班人马,宣布推出全新的图像生成模型FLUX.1。 FLUX.1包含专业版、开发者版、快速版三种模型,其中前两款模型击败SD3-Ultra等主流模型,较小规模的FLUX.1[schnell]也超越了Midjourney v6.0、DALL·E 3等更大的模型。 ▲FLUX.1 ELO分数与主流模型对比 FLUX.1在文字生成、复杂指令遵循和人手生成上具备优势。以下是其最强的专业版模型FLUX.1[pro]生成图像示例,可以看到即使是生成大段的文字、多个人物,也没有出现字符、人手等细节上的错误。 ▲FLUX.1[pro]生成图像示例 FLUX.1现已在开源平台Replicate上可用,以下是我用提示词“世界上最小的黑森林蛋糕,手指大小,被黑森林的树木包围”,在三款模型上生成的图像,用时分别为17.5s、12.2s、1.5s。 ▲三款模型生成对比 FLUX.1同时开放了API(应用程序接口),按图像张数定价,三款模型的价格依次为每张图片0.055美元、0.03美元、0.003美元(约合人民币0.4元、0.22元、0.022元)。 FLUX.1背后的公司名为Black Forest Labs(黑森林实验室),由Stable Diffusion原班人马、多位Stability AI前研究员成立。与Stability AI类似,黑森林致力于研发优质多模态模型并开源,目前已完成3100万美元(约合人民币2.25亿元)的种子轮融资。 黑森林还预告不久之后将发布SOTA(当前技术指标第一)视频模型。从其放出的Demo来看,无论是流畅度、稳定性还是物理模拟都达到第一梯队水平,该公司或许会成为视频生成领域的一匹黑马。 ▲视频生成模型预告 三款模型试用地址: https://replicate.com/black-forest-labs/flux-pro https://replicate.com/black-forest-labs/flux-dev https://replicate.com/black-forest-labs/flux-schnell 01. 擅长生成文字、人手 三种模型规模秒级生成 FLUX.1在视觉质量、图像细节和输出多样性等方面性能优越,其具有三大特点:文字生成、复杂构图、人手描绘。 文字的生成在图像、视频生成中非常重要,许多模型容易混淆看起来相似的字母。FLUX.1可以处理重复字母的棘手单词,例如生成一个黑森林Flux Schnell蛋糕: ▲黑森林Flux Schnell蛋糕 在构图方面,FLUX.1擅长按照图像中事物应该位于哪里等复杂指示进行操作。例如,FLUX.1完美地演绎了这段提示词:三个魔法巫师站在一张黄色桌子上,每个巫师都拿着一个标志。左边,一个穿着黑色长袍的巫师拿着一个写着“AI”的标志;中间,一个穿着红色长袍的女巫拿着一个写着“is”的标志;在右边,一个穿着蓝色长袍的巫师拿着一个写着“cool”的标志。 ▲复杂构图 人手一直是多模态生成模型的重灾区。FLUX.1生成的人手图像虽然还不够完美,但实现了很大的进步。 ▲人手 FLUX.1共有专业版、开发者版、快速版三种版本。 其中,FLUX.1[pro]是最先进的一个版本,具有顶级的即时跟踪、视觉质量、图像细节和输出多样性,面向专业用户提供定制的企业解决方案。 ▲FLUX.1[pro]生成图像示例 FLUX.1[dev]面向非商业应用,它从FLUX.1[pro]提炼而来,具有相似的质量和能力,同时比相同尺寸的标准模型更高效。 ▲FLUX.1[dev]生成图像示例 FLUX.1[schnell]是三款模型中最快的,专为本地开发和个人使用而定制,并根据Apache 2.0标准许可公开提供。 ▲FLUX.1[schnell]生成图像示例 FLUX.1现已在开源平台Replicate上可用,只需一行代码即可在云端运行,用户也可以下载模型权重并以编程方式运行。FLUX.1的API也同步开放,三款模型的价格依次为每张图片0.055美元、0.03美元、0.003美元(约合人民币0.4元、0.22元、0.022元)。 02. 击败MJ V6、DALL·E 3 技术报告即将发布 性能方面,FLUX.1经过特别微调,在预训练中保留了整个输出多样性,在指令遵守、视觉质量、尺寸/长宽变化等多个方面树立了新标准。 其中FLUX.1[pro]和[dev]两款模型,在5项测评标准中都超过了Midjourney v6.0、DALL·E 3和SD3-Ultra等热门模型。 FLUX.1[schnell]作为轻量级模型,不仅优于同类竞争对手,还优于Midjourney v6.0、DALL·E 3等强大的非蒸馏模型。 ▲FLUX.1性能与主流模型对比 此外,所有FLUX.1模型均支持0.1和2.0百万像素的多种宽高比和分辨率。 ▲宽高比/分辨率变化 如此强大的性能是怎么做到的? 在模型架构上,FLUX.1采用基于多模态和并行扩散Transformer模块的混合架构,并将其扩展到12B参数。 团队通过建立流匹配(Flow Matching)来改进最先进的扩散模型,并通过结合旋转位置嵌入(Rotary Position Embedding)和并行注意力层,来提高模型性能和硬件效率。更详细的技术报告将在不久后发布。 03. SD原班人马,2.25亿种子轮 要发SOTA视频模型 黑森林实验室由Stable Diffusion的创始团队成立,该团队此前的工作还包括高质量图像生成模型VQGAN、视频生成模型Stable Video Diffusion等。 Stable Diffusion最初的5位作者中,4位曾加入Stability AI并持续开发SD后续版本的成员,包括Robin Rombach、Andreas Blattmann、Dominik Lorenz以及Patrick Esser,都在黑森林实验室的创始团队中。 ▲Stable Diffusion作者、黑森林实验室创始团队 该团队称,其核心信念是开发广泛可访问的模型,促进研究界和学术界的创新和协作,并提高模型透明度。 黑森林实验室宣布已完成3100万美元(约合人民币2.25亿元)的种子轮融资,由知名风投机构a16z(Andreessen Horowitz)领投,VR制造商Oculus的CEO Brendan Iribe、创企孵化器YC的CEO陈嘉兴(Garry Tan)、英伟达研究员Timo Aila等专家及AI公司跟投,还收到了来自General Catalyst等一线基金的后续投资。 该团队的顾问委员会,包括在内容创作行业拥有丰富经验的前迪士尼总裁Michael Ovitz,以及神经风格转换的先驱Matthias Bethge教授。 刚刚创业的AI大神安德烈·卡帕西(Andrej Karpathy)为黑森林团队送上祝福,并称“开源的FLUX.1图像生成模型看起来非常强大”。 ▲卡帕西评论 创始团队的前领导——Stability AI前CEO埃马德·莫斯塔克(Emad Mostaque)也发来贺电,还说“之前能与他们合作是我的荣幸,我相信他们会继续在生成每一个像素的旅程中突破界限”。 ▲莫斯塔克评论 在下一步的工作上,黑森林预告将发布一款SOTA文生视频模型,“让所有人都能将文本转为视频”。该模型将建立在FLUX.1的基础上,“以高清和前所未有的速度实现精确创作和编辑”。 ▲视频生成模型预告 04. 结语:多模态大模型领域黑马涌现 在众多大厂、创企狂卷文生视频之际,文生图领域突然迎来黑马。“横空出世”的FLUX.1的不仅展现出卓越的性能,在文字生成、复杂构图、人手描绘等方面突破难关,还以多样化的版本满足不同用户的需求。 黑森林实验室凭借着Stable Diffusion原班人马的强大实力,获得了丰厚的种子轮融资,也吸引了众多行业大咖的关注与支持。其后续将发布的视频模型,又将为文生视频领域注入新的活力。