Skip to content
AI资讯
AI大模型
AI营销
分类:
AI文章
阅读AI文章,学习如何利用AI驱动流量增长,优化网站表现。光年AI为您提供深入的AI技术分析和实用指南,助力实现数字化成功。
AI助攻人类画家拿下艺术大赛第一名,背后有啥独家秘籍?
两年前,在美国科罗拉多州博览会艺术比赛上,一幅名为《太空歌剧院》的作品拿了第一名。 此画气势恢弘、明暗有致,颇有法国象征主义画家古斯塔夫・莫罗的味道。只不过,它不是人画的,而是由一位没有任何绘画基础的参赛者,借助 AI 绘图工具完成的。 我们再把时间拨回到 2018 年。彼时,一幅名为《埃德蒙・贝拉米画像》的 AI 画作在纽约佳士得拍卖行,拍出了 40 多万美元的高价。这是第一幅被拍卖的人工智能作品,由此也标志着 AI 艺术作品开始被市场认可。 如今,AI 绘画早已司空见惯,国内外的 AI 玩家纷纷下场,都要把这一赛道卷冒烟了。 比如国外赫赫有名的 AI 生图应用 Midjourney、Stable Diffusion、DALL-E,动不动就上演神仙打架;国内的字节、阿里、腾讯等企业也隔三差五推出新产品、新功能。 可是,AI 绘画应用五花八门,对于 AI 爱好者来说,如何实现更强的图文匹配?如何生成更具美感的图像?如何高效部署文生图模型呢? 《AIGC 体验派》第六期节目就来唠唠这件事儿。 《AIGC 体验派》视频节目由火山引擎、NVIDIA 联手机器之心和 CMO CLUB 共同推出,汇聚了众多营销领域的专业人士,共同探讨 AIGC 技术的应用、思考与实践。 在本期节目中,两位行业资深嘉宾将深入剖析高美感文生图背后的技术链路,手把手教大家如何实现更强的图文匹配。 直播时间:8月6日 19:00-19:40 直播主题:奇幻成像,高美感文生图背后的技术链路 第六期节目邀请到两位重磅嘉宾,分别是豆包文生图技术专家张亮、NVIDIA 解决方案架构师赵一嘉。 精彩内容抢先看 随着 AIGC 技术的迭代,生成式 AI 的多模态能力正在迅速扩展和深化。作为大模型最火热的应用领域之一,文生图近几年也取得了突破性进展,极大地丰富了内容创作者的武器库。 用户只需输入几句简单的提示词,AI 就能自动生成逼真细腻的画作。无论是古典油画的细腻质感,还是现代抽象艺术的自由表达,抑或是东方水墨画的深远意境,它都能游刃有余地进行创作。它不仅能学习和模仿历史上著名画家的风格,也能创造出全新的艺术流派,为用户带来前所未有的创作和交互体验。 时至今日,AI 绘画更是进化「成精」,甚至到了真假难辨的地步。 例如,这样的: 或者这样的: 也正是由于独特的创作力和沉浸式的互动体验,AI 文生图成了各大 AI 厂商竞相争夺的「香饽饽」。 例如,字节一口气推出了剪映、星绘、即梦等 AI 产品,无一例外,它们都包含了文生图能力,而这些产品的背后,都离不开字节的豆包文生图大模型。 对于文生图模型来说,要想讨得用户「欢心」,无外乎三点:更强的图文匹配、更美的图像效果和更快的生成体验。 那么,豆包文生图大模型是如何实现更强的图文匹配来满足用户的想法设计?如何生成更具美感的图像来提供更极致的用户体验?如何更快速地出图来满足超大规模的服务调用? 这些问题的答案,将在第六期《AIGC 体验派》中揭晓。 上期回顾 在第五期《AIGC 体验派》的直播中,火山引擎内容安全与风控负责人张建洋、NVIDIA 企业级开发者社区高级经理何琨深入剖析 AIGC 在营销领域的创新与安全问题,分享如何在变革中实现业务的持续增长与稳健发展。 众所周知,AIGC 技术正逐渐成为企业营销一大创新利器。它可以帮助营销人以前所未有的速度创作天马行空的营销素材,只需简单输入几个关键词或提示词,就可以在短时间内自动生成引人入胜的营销文案、图片、以及营销视频。 然而,正如任何技术革新一样,AIGC 在提升营销创意和效率的同时,也带来了诸多安全问题。 火山引擎内容安全与风控负责人张建洋以实际案例,展示了火山引擎的 AI 技术如何为营销人「保驾护航」。 张建洋表示,大模型的幻觉让输出结果不完全可控,由此导致营销内容存在各种潜在的内容风险。例如,AIGC 技术创作的营销文案含有「最好」、「第一」、「世界级」、「全网首发」等「绝对化」的用语,生成的营销图片或视频中可能含有低俗低质的不良内容,它们一旦出现在广告中,不仅会损害品牌形象,还会引起公众的反感。 对此,火山引擎提供了一整套有针对性的内容风险检测引擎,通过其多模态内容支持、多样化的风险模型和实时风险评估功能,为企业打造了一个全面、高效的风险管理解决方案。 其中,针对营销素材风险多样性的问题,检测引擎内置了上百个风险模型。例如,适用于营销文案的广告用语检测模型,可以准确判断文案中是否含有绝对化用语、虚假宣传、以及诱导消费的违规内容;而适用于营销视频的画面质量和版权检测模型,可以判断视频中是否包含不良画面和低质内容,以及是否存在侵权可能。 此外,为了有效转化目标用户,企业往往不惜投入重金开展各种营销活动,如新人奖励、任务奖励等,以期提升用户粘性。然而,这些充满诱惑的奖励机制,也可能成为黑产眼中的「肥肉」,他们利用漏洞作弊,将企业的营销资金占为己有。 例如,一家车企在开展线上营销活动时,遇到虚假助力和虚假试驾这两大棘手问题。接入火山引擎智能风控产品后,短短两个月,他们就有效识别出异常行为 108 万次、异常账户超 3 万个,异常设备 2 万余台,直接止损金额达 50 万元,不仅有效降低了营销费用的浪费,还极大提升了业务转化率。 NVIDIA 企业级开发者社区高级经理何琨则介绍了一款超酷的工具 ——NeMo Guardrails,它就像是大语言模型的「保镖」,避免它们胡言乱语。 据何琨介绍,NeMo Guardrails 是一个开源工具库,通过添加可编程护栏来控制大型语言模型的输出,防止敏感话题、不当言论和恶意攻击。它包括话题限定、对话安全和攻击防御三大护栏,支持自定义对话逻辑,确保对话机器人的响应符合特定请求和预定义逻辑。 NeMo Guardrails 的工作流程包括接收用户输入、匹配生成护栏、执行对话逻辑流和生成机器人回答。它使用 Colang 语言定义对话逻辑,这是一种用于对话式 AI 建模的语言,具有高度可读性和可扩展性。此外,NeMo Guardrails 可以与 LangChain 结合使用,支持多种大语言模型对话引擎,实现更安全的对话系统输出。
还没排上SearchGPT?比Perplexity更好用的国产开源平替了解一下?
来自上海人工智能实验室。 有 AI 在的科技圈,似乎没有中场休息。除了大模型发布不断,各家科技大厂也在寻找着第一个「杀手级」AI 应用的落脚之地。 OpenAI 首先瞄准的是谷歌 1750 亿美元的搜索业务市场。7 月 25 日,OpenAI 带着 AI 搜索引擎——SearchGPT 高调入场。在演示 demo 中,搜索引擎的使用体验不再像以往一样,需要我们逐个点开网页链接,判断信息有没有用。SearchGPT 像端上了一桌精美的套餐,所有答案都帮你总结好了。 在演示 demo 中,SearchGPT 分析了在应季最适合种植哪种品种的番茄。 不过,鉴于年初发布的 Sora 到目前都还未正式开放,估计很多人排上 SearchGPT 的体验名额也遥遥无期。 然而,有一款国产的开源平替,在和能联网的 ChatGPT 和专攻 AI 搜索引擎的 Perplexity.ai 的 PK 中,它的回答在深度、广度和准确度方面都都秒了这两款明星产品。 它甚至可以在不到 3 分钟内收集并整合 300 多页相关信息。这换成人类专家,需要大约 3 小时才能做完。 这款「国货」就是多智能体框架 MindSearch(思・索),由来自中科大和上海人工智能实验室的研究团队联合研发。正如其名,MindSearch 是一个会「思索」的系统,面对你输入的问题,它将先调用负责充分「思」考问题的智能体,再启用全面搜「索」的智能体,这些智能体分工合作,理解你的需求,并为你呈上从互联网的五湖四海搜罗来的新鲜信息。 论文链接:https://arxiv.org/abs/2407.20183 项目主页:https://mindsearch.netlify.app/ MindSearch 演示 demo 那么,MindSearch 是凭什么打败 ChatGPT 和 Perplexity.ai 的呢?和别的 AI 搜索引擎相比,MindSearch 有什么独到之处吗? 答案还得从它的名字说起。MindSearch 的核心竞争力在于采用了多智能体框架模拟人的思维过程。 如果向 Perplexity.ai 提问「王者荣耀当前赛季哪个射手最强?」它会直接搜索这个问题,并总结网上已有的回复。把这个问题交给 MindSearch,它会把这个问题拆解成一个逻辑链:「当前赛季是哪个赛季?」,「从哪些指标可以衡量王者荣耀的射手的强度?」,再汇总所能查询到的答案。 技术实现 WebPlanner:基于图结构进行规划 仅依靠向大型语言模型输入提示词的方式并不能胜任智能搜索引擎。首先,LLM 不能充分理解复杂问题中的拓扑关系,比如前一段挂在热搜上的大模型无法理解 9.9 和 9.11 谁大的问题,就是这个问题的生动注脚。字与字之间的关系,LLM 都很难在简单对话中理解,那么「这个季节种哪个品种的番茄最合适?」这种需要深入思考,分解成多个角度来回答的问题,对于 LLM 就更难了。换句话说,LLM 很难将用户的意图逐步转化为搜索任务,并提供准确的响应,因此它总是提供一些模版式的知识和套话。 基于此,研究团队设计了高级规划器 WebPlanner,它通过构建有向无环图(DAG)来捕捉从提问到解答之间的最优执行路径。对于用户提出的每个问题 Q,WebPlanner 将其解决方案的轨迹表示为 G (Q) = ⟨V, E⟩。在这个图中,V 代表节点的集合,每个节点 v 代表一个独立的网页搜索任务,包括一个辅助的起始节点(代表初始问题)和一个结束节点(代表最终答案)。E 代表有向边,指示节点之间的逻辑和推理关系。 研究团队进一步利用 LLM 优越的代码能力,引导模型编写代码与 DAG 图交互。为了实现这一点,研究团队预定义了原子代码函数,让模型可以在图中添加节点或边。在解答用户问题的过程中,LLM 先阅读整个对话,还有它在网上搜索到的信息。阅读完这些信息后,LLM 会根据这些信息产生一些思考和新的代码,这些代码将通过 Python 解释器添加在用于推理的图结构中。 一旦有新节点加入图中,WebPlanner 将启动 WebSearcher 来执行搜索任务,并整理搜索到的信息。由于新节点只依赖于之前步骤中生成的节点,所以这些节点可以并行处理,大大提高了信息收集的速度。当所有的信息收集完毕,WebPlanner 将添加结束节点,输出最终答案。 WebSearcher:分层检索网页 由于互联网上的信息实在太多,就算是 LLM 也不能一下子处理完所有的页面。针对这个问题,研究团队选择了先广泛搜索再精确选择的策略,设计了一个 RAG 智能体 ——WebSearcher。 首先,LLM 将根据 WebPlanner 分配的问题,生成几个类似的搜索问题,扩大搜索的范围。接下来,系统将调用不同搜索引擎的 API 查询问题,例如分别在 Google、Bing 和 DuckDuckGo 查一下,得到网页的链接、标题和摘要等关键信息。接着,LLM 将从这些搜索结果中选出最重要的网页来仔细阅读,汇总得出最终答案。 MindSearch 中,LLM 如何管理上下文 作为一个多智能体框架,MindSearch 为如何管理长上下文提供了全新尝试。当需要快速阅读大量网页时,由于最终答案只依赖 WebSearcher 的搜索结果,WebPlanner 将专注于分析用户提出的问题,不会被过长的网页信息分心。 这种明确的分工也大大减少了上下文计算量。如何在多个智能体之间高效共享信息和上下文并非易事,研究团队在实证中发现,如果只依靠 WebPlanner 的分析,有可能会在信息收集阶段由于 WebSearcher 内部的局部感知场丢失有用的信息。为了解决这个问题,他们利用有向图边构建的拓扑关系来简化上下文如何在不同智能体间传递。 具体来说,在 WebSearcher 执行搜索任务时,它的父节点以及根节点的回答将作为前缀添加在其回答中。因此,每个 WebSearcher 可以有效地专注于其子任务,同时不会丢失之前的相关上下文或者忘记最终的查询目标。 本地部署 7 月初,上海人工智能实验室已经开源了搭载 MindSearch 架构的 InternLM2.5-7B-Chat 模型。 除了直接点击链接,跳转到体验 Demo 试玩。研究团队还公开了 MindSearch 的完整前后端实现,基于智能体框架 Lagent,感兴趣的朋友可以在本地部署模型。 在线 Demo:https://mindsearch.openxlab.org.cn/ 开源代码:https://github.com/InternLM/mindsearch 在 GitHub 下载 MindSearch 仓库后,输入如下命令就可以打造属于自己的 MindSearch 了: # 启动服务python -m mindsearch.app --lang en --model_format internlm_server## 一键启动多种前端# Install Node.js and npm# for Ubuntusudo apt install nodejs npm# for windows# download from https://nodejs.org/zh-cn/download/prebuilt-installer# Install dependenciescd frontend/Reactnpm installnpm start
AI画家的「滑铁卢」:为什么冰可乐不愿意住进茶杯里?
设想一下,如果让你画一幅 “茶杯中的冰可乐” 的图片,尽管茶杯与冰可乐的组合可能并不恰当,你仍然会很自然地先画出一个茶杯,然后画上冰块与可乐。那么,当我们给 AI 画家提出 “画出茶杯中的冰可乐” 的要求时,会发生什么呢?在 2023 年 10 月大规模 AI 图像生成模型刚刚兴起时,我们便进行了这种尝试,得到了以下结果: 考虑到 AI 模型更新换代带来的性能提升,我们在 2024 年 7 月又使用了最先进的模型进行了同样的尝试: 可以看出,即使是最先进的 AI 画家(例如 Dall・E 3),也无法凭空构建 “茶杯中的冰可乐” 的场景,它们往往会摸不着头脑,纠结良久后画出一个装满冰可乐的透明玻璃杯。即使是拥有昂贵数据标注基础以及 ChatGPT-4 加持下的最新 Dall・E 3 也无法稳定地 “将冰可乐装进茶杯里”,这一问题在学术界被归类为文生图模型的文本图像不对齐问题(text-image misalignment)。最近,上海交通大学王德泉老师课题组在论文《Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models》中深入探索了这一问题的新分支,该论文即将发表在 2024 年 10 月份的第 18 届欧洲计算机视觉大会(ECCV)上。 论文链接:https://arxiv.org/abs/2408.00230 项目链接:https://lcmis.github.io 文本图像不对齐问题是图像生成领域中的一个重要方向,与传统不对齐问题不同的是,在传统不对齐问题中,人们主要关注的是一组概念对中两个概念的相互影响,例如给定 “一个苹果和一个梨” 的需求,得到的图像要么是两个苹果,要么是两个梨,不会出现第三种概念。而在 “茶杯中的冰可乐” 这一例子中,有一个关键的隐藏变量 “透明玻璃杯”,其从未在文本提示中出现,却替代 “茶杯” 出现在了图像中。这种现象在本文中被称为包含隐藏变量的不对齐问题(Latent Concept Misalignment,简称 LC-Mis)。 为了更深入地探索为什么茶杯会消失在图像中,我们首先希望收集一些与 “茶杯中的冰可乐” 存在相似问题的数据。然而,“茶杯中的冰可乐” 问题源于人类的奇思妙想与 AI 的死记硬背之间的冲突,如果仅依靠人类专家冥思苦想来创造新的概念对,效率将会非常低下。因此,我们设计了一个基于大语言模型(LLMs)的系统,利用 LLMs 体内蕴含的人类思维来帮助我们快速收集与 “茶杯中的冰可乐” 存在类似问题的概念对。在这个系统中,我们首先向 LLMs 解释 “茶杯中的冰可乐” 问题背后的逻辑,然后简单地将这一问题划分为几个类别,让 LLMs 按照不同类别的逻辑生成更多的类别和概念对,最后我们使用文生图模型来绘制图像进行检查。然而,我们在后续实验中发现,现有的自动化评价指标在 “茶杯中的冰可乐” 这一新问题上存在一定缺陷。因此,我们只能采用人工评估的方式,我们对每组概念对生成 20 张图像,并根据这 20 张图中正确画出的数量为这组概念对给予 1 至 5 的评级,其中第 5 级表示所有 20 张图像均未能正确生成。 为了找回图像中的茶杯,我们提出了一种名为 Mixture of Concept Experts (MoCE) 的方法。我们认为,如果不从人类处理问题的角度来进行思考,那么人工智能的一切都是毫无道理的。在当今最火热的文生图模型 diffusion models 中,注意力机制会同时处理文本提示中的可乐与茶杯,但这并不符合人类按照概念顺序作画的规律。因此,我们将顺序作画的规律融入到 diffusion models 的多步采样过程中,成功地将消失的茶杯找了回来: 具体来说,LLMs 会首先告诉我们应该先画一个茶杯。接下来,我们将茶杯这一概念单独输入给 diffusion models,完成 T-N 步的采样。而在余下的 N 步采样中,再提供完整的文本提示,“茶杯中的冰可乐”,最终生成一张干净的图像。在此过程中,N 起到了至关重要的作用,因为它决定了为 “茶杯” 分配的采样步数。于是,我们使用一个多模态模型来衡量图像与茶杯以及冰可乐的契合度评分。当图像和两个概念的评分之间相差很大时,说明有一个概念很可能被模型忽略了,于是就需要相应地调整 N 的取值。由于 N 的取值与概念在图中出现概率之间的关系是正相关的,因此这一调整过程是由二分查找来完成的。 最后,我们使用 MoCE 以及各种 baseline 模型在收集到的数据集上进行了广泛的实验,并展示了以 “茶杯中的冰可乐” 为首的可视化修复结果,以及在整个数据集上人类专家评估的结果对比。和几种 baseline 模型相比,我们提出的 MoCE 方法显著地降低了第 5 级 LC-Mis 概念对的占比。另外值得注意的是,MoCE 的性能在一定程度上甚至超越了需要大量数据标注成本的 Dall・E 3(2023 年 10 月版本): 此外,正如在上文中提到的,现有的自动化评价指标在 “茶杯中的冰可乐” 这一新问题上存在一定缺陷。我们首先仔细挑选了一些带把的透明玻璃杯图像,它们虽然具有茶杯的形状,但是由于其透明玻璃的材质而不能称之为茶杯。我们将这些图像与 MoCE 生成的 “茶杯中的冰可乐” 图像进行了对比,如下图所示: 我们使用了两种当前流行的评价指标,Clipscore 和 Image-Reward,来计算图像与 “冰可乐” 之间的契合程度。图像与冰可乐的契合程度越高,得分就越高。然而,这两种评价指标均对茶杯中的冰可乐给予了明显更低的评分,而对透明玻璃杯中的冰可乐赋予了明显更高的评分。因此,这表明现有的自动化评价指标可能无法识别出茶杯中的冰可乐,因为其模型内部仍存在 “冰可乐 = 冰块 + 可乐 + 玻璃杯” 的偏见,从而导致其无法有效参与 LC-Mis 问题的评价。 总的来说,我们受到 “茶杯中的冰可乐” 例子的启发,介绍了一种文本图像不对齐问题的新分支,即包含隐藏概念的不对齐问题 (LC-Mis)。我们在大语言模型和文生图模型的帮助下,开发了一个系统来收集 LC-Mis 概念对。接下来,我们受到人类绘画规律的启发,将绘画顺序引入 diffusion models 的采样过程,提出了 MoCE 的方法,缓解了 LC-Mis 问题。最后,我们还通过代表例子 “茶杯中的冰可乐” 展示了当下文本图像对齐问题的评价指标存在的缺陷。在未来的工作中,我们将持续深入研究生成式 AI 技术,推动 AI 更好地满足人类的实际需求,通过不断的努力和创新,我们期待见证 AI 在理解和再现人类创造力方面的突破。
Diffusion 反馈强势助力 CLIP 秒变火眼金睛:北京智源研究院、中科院自动化所联合推出 DIVA
本文分享论文Diffusion Feedback Helps CLIP See Better,专注于通过自监督学习范式解决CLIP无法区分细粒度视觉细节的问题。 作者:王文轩(中科院自动化所-智源研究院联培博一研究生),孙泉(智源研究院视觉模型研究中心算法研究员),张帆(智源研究院视觉模型研究中心算法研究员),唐业鹏(北交博一研究生),刘静(中科院自动化所研究员),王鑫龙(智源研究院视觉模型研究中心负责人) 单位:中科院自动化所,中国科学院大学,北京智源人工智能研究院,北京交通大学 论文链接:https://arxiv.org/abs/2407.20171 项目主页:https://rubics-xuan.github.io/DIVA/ 相关代码链接:https://github.com/baaivision/DIVA 动机何在?——CLIP视觉缺陷 对比语言-图像预训练(CLIP)在跨领域和跨模态的开放世界表示方面表现出色,已成为各种视觉和多模态任务的基础。 自从CLIP被提出以来,近年来涌现了许多关于CLIP模型的后续研究。这些研究通过预训练和微调CLIP模型,取得了性能提升并开发了新的能力。然而,这些方法仍然存在不可避免的局限性,因为它们高度依赖于图像-文本数据对,无法仅在图像数据上实现预期效果。 此外,最近的不少研究指出,尽管CLIP在零样本任务中表现出色,但由于对比学习范式和训练中使用的噪声图像-文本对,其在感知理解方面存在一些局限性。这些局限性包括难以准确理解长文本和难以辨别相似图像中的细微差异。虽然一些研究试图解决长文本理解问题,但改善CLIP的细粒度视觉感知能力的研究仍然不足。感知视觉细节的能力对于基础模型至关重要,而CLIP在这方面的不足直接影响了以CLIP作为视觉编码器的视觉和多模态模型的表现。 因此,在这项工作中,我们专注于通过自监督学习范式解决CLIP无法区分细粒度视觉细节的问题。基于文本到图像的扩散模型能够生成具有丰富细节逼真图像的先验,我们探索了利用扩散模型的生成反馈来优化CLIP表征的潜力。 如何解决? Diffusion Feedback来优化CLIP视觉细节表征 我们提出了一种简单的CLIP模型后训练方法,通过自监督扩散过程在很大程度上克服了其视觉缺陷。通过使用CLIP的密集视觉特征对扩散模型进行条件化,并将重建损失应用于CLIP优化,我们将扩散模型作为CLIP的视觉助手,因此我们将该框架命名为DIVA。 具体而言,如图2所示,DIVA主要由两个部分组成:一是需要增强视觉感知能力的CLIP模型,二是提供生成反馈的预训练扩散模型。输入原始图像和空文本(图2中标记为’Null’)后,CLIP模型会编码相应的视觉特征,这些特征将与来自扩散模型文本编码器的空文本嵌入结合,为扩散过程提供条件。对于添加了噪声的图像,扩散模型尝试在上述条件下预测从前一步到当前步骤中添加的噪声。在训练过程中,除了CLIP模型外,所有部分的权重都保持不变,训练目标只是最小化重建损失(即扩散反馈指导)。通过这种方式,通过约束扩散模型更准确地预测添加的噪声,CLIP的原始语义丰富的判别表示将通过扩散反馈逐渐优化为包含更多视觉细节的表示。 此外更有意思的是,DIVA不需要额外的文本标注数据,只需可轻易获取的纯图片数据就能大幅使得CLIP弥补其视觉感知短板,这一点相比之前方法收集大量图文数据对的高昂成本是非常难得的! 效果如何? 立竿见影! 为了评估DIVA的有效性并展示其增强CLIP表示的潜力,我们在多模态理解和视觉感知任务上进行了全面的实验。 视觉细粒度感知方面 为了验证DIVA能够有效缓解CLIP模型固有的视觉能力不足,我们首先在各种现有的CLIP模型上进行了实验。DIVA在评估视觉-语言模型视觉能力的MMVP-VLM基准测试中使得现有的多个CLIP模型的性能取得了显著的提升(提高了3-7%)。 作为更强的视觉骨干网络为多模态大模型和视觉模型带来的收益评估 接下来,在DIVA的帮助下,我们进一步评估了增强后的CLIP骨干网络在多模态理解和视觉感知任务中带来的性能提升。DIVA的优势在于它不仅仅能让CLIP变聪明,还能让那些基于CLIP的大型多模态语言模型以及视觉模型变得更加厉害。在这些多模态和纯视觉的基准测试上准确率的显著提升,得益于我们DIVA范式通过生成反馈大幅增强了CLIP的视觉感知能力。 CLIP泛化能力评估 在全面验证了我们的方法提升CLIP模型细粒度视觉感知能力的效果后,我们进行了CLIP模型原始泛化能力的全面评估。在只由纯图片数据驱动整个框架的前提上,DIVA能够保持CLIP原本优秀的泛化性能。29个图片分类和图文检索的基准测试上无论是看图识物还是找图配字的实验结果都能证明,经过DIVA优化视觉表征之后的CLIP模型能够保留CLIP原本优秀的泛化能力。 未来展望? 大有可为! 当前局限 1.数据和模型规模可进一步扩展。 2.由于这篇工作只是该方向的一个开始,目前仅展示了生成扩散模型用于提升CLIP模型表示的潜力,当前主要关注设计一个简单但有效的框架。 未来可探讨的方向 1.可以结合更细粒度的监督方案进一步提升CLIP模型的能力。 2.扩展超越图像-文本数据的其他模态,如视频和音频。 3.发展基于扩散模型的更通用、更强大的框架,以增强视觉-语言基础模型。
代码生成三问:如何打造 24 小时在线的 AI 程序员?
作者丨张进 编辑丨陈彩娴 2024 年年初,拥有编程全栈技能的 Devin 惊艳全球,让外界看到了 AI 改变一个行业——替代程序员的可能性。 Devin 发布数周后,其背后的公司 Cognition 也随即获得 1.75 亿美元融资,估值从 3.5 亿美元一跃升至 20 亿美元。紧接着,4 月,一家 AI 编码辅助创业公司 Augment 宣布完成 2.52 亿美元的融资,投后估值接近独角兽,代码生成赛道的多米诺骨牌效应开始出现…… 到上半年,硅谷代码生成类的公司估值起步价已经高达 2 亿美金,头部公司甚至 20 亿美金。而据一位行业人士分析,代码生成的概念之所以受到追捧,其中一个重要原因是“人类的数据不够用了”。 AGI 时代的一个重要组成是人类必须依靠机器生成的数据,而代码生成的数据被部分从业者认为是“人类通往 AGI 过程中最有逻辑性与严谨的数据”。 与此同时,网络上为大模型代码生成提效欢呼的声音越来越多。例如,一位中国开发者就提出,Claude 3.5 Sonnet 只要 500+ 行的 html 就能实现一个不错的功能;还有开发者称,其借助 GPT-4o 辅助代码写作,以前开发小程序需要一个月,现在只需要七天…… 根据开发者的反馈,大模型的代码生成能力正在真切地提升每位开发者的工作效率。 事实上,程序员对于“AI 代码生成”的想象早有年头。在这波生成式 AI 浪潮之前,市场上就已出现一系列的 AI 编程工具,例如 Tabnine、Kite 等,但受限于它们的技术路径,过去的产品对于上下文逻辑的理解和代码生成的质量不尽人意。 清流资本合伙人刘博告诉 AI 科技评论,AI 编码工具的其中一个效果评估指标是代码文件中由模型生成的代码占比,上一代工具只能做到 10-20%,而新一代的 AI 编程工具最高可以做到 40-50%——这是质的飞跃,同时新一代工具对编程上下文的理解也显著更好。 微软 CEO 称,两年前上线的 AI 编程工具 GitHub Copilot(后接入 GPT-4 模型后更名为“Copilot X”)已经开始获利、并拥有 180 万付费订阅用户。 迄今大模型狂飙一年半,在所有基于大模型的新 AI 工具中,coding 场景的 PMF 和付费意愿最先被验证,GitHub Copilot 仅用 14 个月便达到了 1 亿美元 ARR,是历史上增长最快的 SaaS 产品——这与其他场景里昙花一现的 AI 产品形成鲜明对比。 几乎所有的通用大模型公司都推出了代码大模型和 AI 编程助手,如 OpenAI codex、Meta Code Llama、智谱 CodeGeeX、百度的 comate、腾讯云的 AI 代码助手、DeepSeek Coder…… 国内创业公司也开始增多:一站式 DevOps 研发管理平台 Coding 创始人张海龙创立了 AI Agent 公司 Babel,企业智能化软件开发解决方案提供商 aiXcoder 也因此受到资本关注、并在2023年迅速完成了 A+ 轮融资。 多方势力角逐,创业公司在混乱中争取生机,而创业公司、通用大模型公司、科技大厂各方仍然面临 AI 领域发展的通用问题:To C 还是To B,技术路径选择通用大模型还是垂直模型,要不要自研模型,以及如何在 GitHub Copilot 的笼罩下突围。 值得注意的是,受限于底层技术大模型的能力,目前各种 AI 编程产品仍然集中于 coding 阶段,在代码补全和代码生成两个场景 PK,所以本质上,现在的 AI 编程产品依然是 AI coding。 但尽管如此,“24 小时 AI 程序员”的生产力仍然让所有人着迷。 为什么对 coding 情有独钟? 当前大多数 AI coding 产品主攻代码补全和代码生成两个高频场景。 软件开发的智能化最开始就是从代码生成和代码补全开始的。因为技术容易实现,不会颠覆程序员的开发模型,代码补全是整个行业做的比较成熟的功能,不管是大厂还是初创公司,产品都能用起来,且正确率较高。 在一个已有的项目中根据上下文去增加新功能叫代码补全,即开发者用自然语言表达一个需求,用代码生成。代码生成现在正处于从文件级代码到项目级代码的突破。 代码生成还处于初级阶段,简单的函数能生成得比较好,但并不是完全靠大模型,需要外挂一些知识库配合,不能达到100%准确,若再想扩展到一个文件级的代码生成,难度则会增高,往仓级别的难度会更高,而 Devin 展示的就是往仓级别去实现。 一位研究代码智能的专家告诉 AI 科技评论,代码补全现在是兵家必争之地,是已经真正落地、也是程序员使用最多的场景。相对来说,代码生成功能的使用频率相对少一些,目前要真正融入到日常的开发成为高频选项还有一些距离,原因是代码生成需要改变程序员的开发模式、开发习惯。 代码生成目前依然是通过跟一个对话机器人对话,用自然语言表达需求来让大模型生成一段代码,在这个过程中不断交互、表达需求,需求表达地越清晰、生成的代码越准确。 这过程中涉及到需求拆解。将一个大的需求拆解成一个个的小任务,再去生成,需求拆解对于当前大模型来说还有难度。 同时,由于编程思维跟自然语言表达是两回事,对于开发者来说,一个人代码写的好,并不意味着用自然语言表达业务逻辑好,它需要具备两方面的能力。一是要熟悉业务,二是要扎实的计算机理论知识,包括算法,操作系统,软件工程,计算机安全等,这其实对开发者的个人素养提出了很高的要求。 除了代码补全和代码生成两个高频场景,其他产品寻求差异化的出口是提供代码注释、代码解读、代码 bug 修复、代码优化、漏洞检测等能力。 例如国内智谱 CodeGeeX 便开发了独有的功能,例如去年年底推出的工具箱,就是基于模型具备Code Interpreter代码解释器能力,可以批量处理多种格式的文件、批量实现数据可视化、绘制数学函数图等。 CodeGeeX 负责人郑勤锴认为,在这些事情上为开发者节省了时间,开发者就能将工作更多放在顶层设计上——怎么把代码的架构设计地更好、功能考虑地更完善,从而提高软件的质量。 智谱在2022年就完成了CodeGeeX代码大模型的训练,并同时推出了 CodeGeeX插件产品。 跟GitHub Copilot 一样,CodeGeeX定位是智能辅助编程,但辅助也分为不同层级,目前已经从单个文件辅助拓展到了项目级辅助编程,因为实际开发场景中不可能只有单文件,大多都是多文件。 CodeGeeX负责人郑勤锴称,往项目级拓展的挑战在于项目生成的成功率,因为代码项目往往不只是一小段代码或者一个文件的代码组成,而是同时需要完成项目中跨文件的代码理解和生成补全。让模型能充分理解更长的信息,并提取到关键部分,这对模型的要求很高。 对于参数量10B以下的代码大模型,从海量的代码中准确提取信息是一个关键性的挑战。CodeGeeX4支持128K上下文,能够处理和利用更长代码文件、包括项目代码中的信息,是模型更深入理解复杂和细节丰富的代码的关键点。 如何跟 GitHub Copilot 竞争? 一位投资人认为,做 AI 编程助手没人能拼得过 GitHub Copilot。 GitHub Copilot 主要 To C,面向个人开发者定价每月 10 美元(约 66.9 元人民币)或每年 100 美元(约 669 元人民币)。 To B 企业用户月费 39 美元,企业用户可以将代码部署到云端,而不必在本地反复克隆;企业用户可以内建知识库,形成个性化的Copilot Chat(在原有Copilot的基础之上,开发者可以直接用自然语言和Copilot对话来解决遇到的问题),甚至是对底层模型进行微调。 除了占据时间上的先发优势,GitHub Copilot 拥有两大先天优势,一是背靠拥有上亿开发者的代码托管平台 GitHub,二是底层接入的是 OpenAI 最强的模型。 站在今天来看,微软对开发者市场的战略一直很清晰:2015 年推出跨平台代码编辑器 VScode,从用户侧统一IDE;2018 年收购 GitHub,拥有大量代码数据(包括商用的未公开的数据);2019 年,微软向 OpenAI 投资了 10 亿美金,并获得了 OpenAI 技术的商业化授权。 于是,在 2020 年 OpenAI 推出了 GPT-3 后,拿着最多的代码数据去训练模型,隔年 AI 编程工具 GitHub Copilot被推出,成为全球最早一款大模型 AI 编程工具,抢占了先发优势。 今年 4 月微软 CEO 称 GitHub Copilot 已经拥有 180 万付费订阅用户。 但也有多位从业者认为 GitHub Copilot 并非能一统天下。 “对于国内市场而言,商业化机会在 B 端。”清流资本合伙人刘博告诉 AI 科技评论。 首先,AI 编程产品面向的中大型企业 B 端市场大概是几十亿人民币的规模,用户付费意愿非常明确,这一市场规模和客单价在软件服务市场上已经比较客观。 对于国内 B 端用户而言,他们有两个需求是 GitHub Copilot 无法满足的:1)模型本地部署,如果云端调用 GitHub Copilot 会有代码泄露的风险同时本地部署后可以根据客户的私有代码进一步训练,显著提升代码生成的效果;2)大客户需要选择国内的产品作为供应商,避免数据外流。 照着以上标准来找标的,清流资本在去年 9 月参与了国内面向企业的智能化软件开发解决方案提供商 aiXcoder A+ 轮投资。 跟 GitHub copilot 不同,aiXcoder 聚焦 To B,为企业提供基于代码大模型的智能化软件开发解决方案,包含私有化部署、企业领域知识与大模型融合、定制化开发等服务。 清流资本合伙人刘博告诉 AI 科技评论,B 端市场的打法是当公司在一个行业里已经渗透了足够多的客户后,就能成为 AI Coding工具实质上的行业标准,成为行业里其他企业采购 AI Coding 工具时必须邀请参与竞标的供应商。 因此从国内的商业化角度出发,先发优势和聚焦很重要。 aiXcoder孵化自北京大学软件工程研究所,在2013年就开始研究深度学习跟代码结合,早在 2022 年 6 月便发布了中国首个百亿级参数的代码大模型 aiXcoder-13B,能够支持方法级(函数级)的代码补全。 aiXcoder COO 李力行认为,代码大模型落地时,如何跟企业的领域知识或者私域知识相结合非常关键,从而保证生成的代码更准确,因为代码生成要用到很多上下文信息,以及一些外部的领域知识,领域知识是指企业的业务逻辑、业务知识等等。 一位资深从业者认为,高质量的数据才是模型能力的区隔。 公开的数据可能有一天终会达到瓶颈,但世界上还有大量的私有数据可能永远不会被公开,它们存在于各个 B 端企业内部,与企业业务逻辑强耦合。aiXcoder 在为客户做本地部署的时候会基于这些私有化数据进行再训练,给每个企业打造专属的代码大模型。 通用大模型还是垂直模型? GitHub Copilot 占据了 C 端优势地位,国内玩家不约而同选择了 C 端免费策略,如智谱 CodeGeeX、百度Comate、腾讯云 AI 代码助手都推出了面向个人开发者的免费工具,这几家厂商跟 aiXcoder 一样、将商业化看向 B 端。 它们共同的思路是拿代码数据在各自的基座大模型上进行预训练或者微调,相同的代码数据来自GitHub和其他可公开访问的源代码,百度、阿里、腾讯这些大厂还有一部分内部代码的积累。 收集数据的方式、选取数据的类型、训练的方法……整个训练过程多个环节的差异导致各个代码模型效果各异。 例如智谱 CodeGeeX 推出一体机的模式,开箱即用,提供完善的软硬件和使用方式,特点是可以结合企业内部的代码仓库、知识库来加强代码能力,优势是代码是私有化安全的。 企业更关注怎么跟企业内部的代码、数据文档做结合,在模型训练阶段对这些代码并不了解,包括企业内部自己定义的 API 接口等等。 为了让模型更懂企业的代码,CodeGeeX 提供了几个方向:定制化的微调方案,在企业内部去用它们自己的代码去对模型进行强化,还包括 RAG 检索增强方案,即把企业代码和文档作为知识库来辅助预测。 有投资人并不看好创业公司做代码大模型,他们认为 AI Coding 这块未来依然是通用大模型公司的事情,大模型公司更擅长做这件事,创业公司很难产生差异化,而且竞争对手太多了。 而且,软件 To B 一直面临的问题是国内 B 端客户用不起,这是国内 SaaS 一直没做起来的原因之一。 的确,根据开发者的反馈,如 GPT-4o、Claude 3.5 Sonnet 这样的通用大模型现在也能保持不错的代码效果。 一位从业者认为,未来可能会有一个在所有模态上都很强的六边形战士模型,但真正从B端商业化落地来看,不太有太多公司有能力本地部署这样一个参数量巨大的六边形战士模型,市场仍然需要一个代码垂直模型。 那么创业公司如何跟大厂竞争? 大厂在理论上可以做所有的事情,但: 首先,大厂需要在所有能做的事情里去选择以及决定对应的资源调配,对于大厂而言,有太多方向可以得到比单个 B 端 coding 场景更多的资源,比如通用大模型、AGI 等,而创业公司 100% 聚焦在一件事上; 其次,在垂直场景里,大厂的认知不一定比创业公司更深。B 端 AI coding是一个非常垂直且专业的场景,在大模型的基础上仍然需要大量进阶的代码 knowhow 和对客户需求的深度洞察。 aiXcoder COO李力行认为,首先需要通过全流程的数据治理和个性化训练,使大模型能够深刻理解并掌握企业领域知识,落地企业专属代码大模型;随后,利用多 agent 等方式结合传统软件开发工具和方法,高效地解决企业复杂的软件开发任务。 Agent 是趋势 软件开发是一个复杂的系统工程,coding只占其中很少的部分,还涉及到需求理解、debugging、优化、部署等多个环节。而以 GitHub Copilot 为首的 AI 编程辅助产品现在只能写点“函数砖头”,砌墙的事还得程序员亲自来。 但 Devin 的出现满足了外界对 AI 软件开发的想象力,不止于 coding 阶段。 在 3 月初创公司 Cognition 的 demo 演示中,Devin 化身为一个拥有“全栈技能”的AI程序员,一个能够独立完成任务的自助系统,在快速原型设计、修复bug和复杂数据的可视化上表现优秀。 从交互上,Devin 带来了一种新的AI软件开发形态,包括命令行、浏览器等组件,是第一个脱离 IDE 的软件开发形态。从实际任务上,Devin 愿景是完成整个软件开发的需求任务,这种能完成更复杂开发任务的 Agent 已经成为业内确定的产品趋势。 而 Devin 则被称为 Agent 的“ChatGPT 时刻”。 一位 AI Agent 创业者赵聪认为,issue level 的 coding 都需要用 Agent 来实现,解决的是更复杂的问题,自动解 issue。issue 等同于文件级的代码,而现在的代码生成、补全都是在单文件上,解 issue 往往是针对整个项目,拥有多个文件。 aiXcoder COO 李力行看好 Agent 在软件开发领域的应用,他认为多 Agent 协作也让全流程代码生成等更加复杂的开发任务成为可能。在2024年, aiXcoder 推出基于Agent技术的智能化软件开发系统2.0,通过大模型+软件开发工具调用解决企业项目级代码生成问题,确保复杂开发场景下代码生成的高效性、准确性和可靠性。 Devin 想要去解决一个问题,或者说修改一个仓密度的代码,大家都在朝着 Devin 的方向做探索,但大模型能力现在几乎还达不到。目前 Agent 还处于探索、实验阶段。 距离 Devin 发布已经过去五个月,依然没有任何更进一步的消息。其 CEO Scott 也透露,他们尚无明确的公开预览(public preview)时间表,目前仍在内测阶段,即无确定的产品形态。 CodeGeeX 负责人郑勤锴则认为,Agent 只是实现某个功能的路径,现在的 Agent 很多只是简单的工具调用。重要的还是看最终实现的功能,能达到多高的可用性。 赵聪认为未来的创业机会在 AI Agent,因为 AI 编程赛道上 Copilot 微软已经做了,很难再与之竞争,所以只能往前走,即直接替代人。开发者平时很多工作都类似于拿着螺丝刀拧螺丝,Copilot 就是把螺丝刀换成了电钻,而 AI 程序员则是给开发者配个小弟,所以 Copilot 依然是个好工具,但 AI 程序员就是生产力,这是完全不同的两件事。 但做 AI 程序员不是科学问题,而是个工程问题。这里涉及路径选择的问题,在做 AI 程序员时有公司是自己做模型,赵聪认为这是错误的路径,他不相信所谓的小模型/垂直模型,觉得模型就只有大模型,因为只有大模型能带来智力。 未来面临的挑战是,所有人都要往 project level coding 走,要依赖底层模型的进化,但模型太贵。赵聪认为GPT-4 至少得再降价 10 倍,才具有真正的可能性。 在软件工程中,AI 难以解决的两大问题是:1)复杂项目的业务上下文理解。2)每家公司独特的工程架构、逻辑和实践。在解决这两个问题之前,AI Agent 还无法完全替代人类程序员。 但多位从业者一致认为,随着 AI 不断进化,未来高级程序员不会被替代,拧螺丝的初级程序员被替代已经能看到,未来程序员的培养路径也跟现在不一样,就像高科技种地,不需要真的从种地开始学,而是先从学习使用工具开始。 未来 C 端应该更好地服务普通人,而不仅仅是开发者,如果普通人也能通过 AI 实现编程,那么 C 端有可能完成一次爆发,而这需要更强的模型能力,端到端仍然需要 Agent 来实现。 但可以肯定的是,未来程序员逐渐都会离不开 AI 编程工具。
知识图谱:解锁数据海洋的钥匙,赋能智能决策的新篇章
在数字化转型的浪潮中,数据已成为企业最宝贵的资产之一。然而,面对海量、异构的数据海洋,如何高效地提取、整合并应用这些信息,成为了摆在我们面前的一大挑战。知识图谱,作为大数据与人工智能融合的重要产物,正逐渐成为连接数据孤岛、挖掘数据价值的桥梁。本文将带您深入了解知识图谱的定义、介绍、基本功能、应用场景,并探讨其竞品分析。 定义 知识图谱,顾名思义,是一种以图的形式表示实体、概念及其之间关系的知识库。它利用节点(代表实体或概念)和边(代表关系)来构建复杂的网络结构,从而实现对现实世界知识的结构化表示和存储。知识图谱不仅包含了丰富的实体信息,还揭示了这些实体之间的内在联系,为智能决策提供了坚实的基础。 介绍 知识图谱的构建是一个复杂而精细的过程,涉及数据采集、实体识别、关系抽取、知识融合等多个环节。通过自动化和半自动化的技术手段,知识图谱能够从各种数据源中提取出有价值的信息,并经过清洗、整合后形成统一的知识库。这些知识库不仅包含了基本的实体属性信息,还涵盖了丰富的语义关系和逻辑推理规则,为后续的查询、推理和应用提供了强大的支持。 基本功能 知识图谱的核心功能在于其强大的查询、推理和可视化能力。 查询功能:用户可以通过自然语言或结构化查询语言(如SPARQL)快速检索知识图谱中的信息,获取所需的数据和关系。 推理功能:基于知识图谱中的实体和关系,系统能够进行逻辑推理和假设验证,从而发现新的知识和规律。 可视化功能:通过图形化的方式展示知识图谱的结构和内容,帮助用户更直观地理解复杂的数据关系。 应用场景 知识图谱的应用场景广泛而多样,涵盖了金融、医疗、教育、电商等多个领域。 金融风控:通过构建企业信用、个人征信等知识图谱,金融机构可以更加准确地评估风险,实现精准营销和风险管理。 医疗诊断:医疗知识图谱能够整合患者的病历、检查报告、药物信息等数据,为医生提供全面的诊疗建议和辅助诊断。 智能客服:基于知识图谱的智能客服系统能够准确理解用户的问题和需求,提供个性化的解答和服务。 电商推荐:通过分析用户的购买历史、浏览行为等数据,构建用户画像和商品知识图谱,实现精准的商品推荐和个性化营销。 网址 虽然本文无法直接提供特定知识图谱产品的官方网址,但您可以访问一些知名的科技公司或数据服务提供商的官网,如百度、阿里巴巴、腾讯等,它们均拥有强大的知识图谱技术和丰富的应用场景案例。 竞品分析 在知识图谱领域,国内外已有多家企业和研究机构推出了自己的产品和解决方案。这些竞品在数据规模、构建技术、应用场景等方面各有千秋。例如,百度的“文心大模型”集成了丰富的知识图谱能力,支持跨模态的语义理解和推理;阿里巴巴的“知识引擎”则专注于电商领域的知识图谱构建和应用;而国外的Google Knowledge Graph则在搜索引擎中广泛应用,为用户提供了更加智能化的搜索体验。 面对众多竞品,企业在选择知识图谱解决方案时,应充分考虑自身的业务需求、数据特点和技术实力,选择最适合自己的产品和服务。同时,随着技术的不断进步和应用场景的不断拓展,知识图谱的未来无疑将更加广阔和充满挑战。