两年前,在美国科罗拉多州博览会艺术比赛上,一幅名为《太空歌剧院》的作品拿了第一名。
此画气势恢弘、明暗有致,颇有法国象征主义画家古斯塔夫・莫罗的味道。只不过,它不是人画的,而是由一位没有任何绘画基础的参赛者,借助 AI 绘图工具完成的。
我们再把时间拨回到 2018 年。彼时,一幅名为《埃德蒙・贝拉米画像》的 AI 画作在纽约佳士得拍卖行,拍出了 40 多万美元的高价。这是第一幅被拍卖的人工智能作品,由此也标志着 AI 艺术作品开始被市场认可。
如今,AI 绘画早已司空见惯,国内外的 AI 玩家纷纷下场,都要把这一赛道卷冒烟了。
比如国外赫赫有名的 AI 生图应用 Midjourney、Stable Diffusion、DALL-E,动不动就上演神仙打架;国内的字节、阿里、腾讯等企业也隔三差五推出新产品、新功能。
可是,AI 绘画应用五花八门,对于 AI 爱好者来说,如何实现更强的图文匹配?如何生成更具美感的图像?如何高效部署文生图模型呢?
《AIGC 体验派》第六期节目就来唠唠这件事儿。
《AIGC 体验派》视频节目由火山引擎、NVIDIA 联手机器之心和 CMO CLUB 共同推出,汇聚了众多营销领域的专业人士,共同探讨 AIGC 技术的应用、思考与实践。
在本期节目中,两位行业资深嘉宾将深入剖析高美感文生图背后的技术链路,手把手教大家如何实现更强的图文匹配。
-
直播时间:8月6日 19:00-19:40
-
直播主题:奇幻成像,高美感文生图背后的技术链路
第六期节目邀请到两位重磅嘉宾,分别是豆包文生图技术专家张亮、NVIDIA 解决方案架构师赵一嘉。
精彩内容抢先看
用户只需输入几句简单的提示词,AI 就能自动生成逼真细腻的画作。无论是古典油画的细腻质感,还是现代抽象艺术的自由表达,抑或是东方水墨画的深远意境,它都能游刃有余地进行创作。它不仅能学习和模仿历史上著名画家的风格,也能创造出全新的艺术流派,为用户带来前所未有的创作和交互体验。
时至今日,AI 绘画更是进化「成精」,甚至到了真假难辨的地步。
例如,这样的:
或者这样的:
也正是由于独特的创作力和沉浸式的互动体验,AI 文生图成了各大 AI 厂商竞相争夺的「香饽饽」。
例如,字节一口气推出了剪映、星绘、即梦等 AI 产品,无一例外,它们都包含了文生图能力,而这些产品的背后,都离不开字节的豆包文生图大模型。
对于文生图模型来说,要想讨得用户「欢心」,无外乎三点:更强的图文匹配、更美的图像效果和更快的生成体验。
那么,豆包文生图大模型是如何实现更强的图文匹配来满足用户的想法设计?如何生成更具美感的图像来提供更极致的用户体验?如何更快速地出图来满足超大规模的服务调用?
这些问题的答案,将在第六期《AIGC 体验派》中揭晓。
上期回顾
在第五期《AIGC 体验派》的直播中,火山引擎内容安全与风控负责人张建洋、NVIDIA 企业级开发者社区高级经理何琨深入剖析 AIGC 在营销领域的创新与安全问题,分享如何在变革中实现业务的持续增长与稳健发展。
众所周知,AIGC 技术正逐渐成为企业营销一大创新利器。它可以帮助营销人以前所未有的速度创作天马行空的营销素材,只需简单输入几个关键词或提示词,就可以在短时间内自动生成引人入胜的营销文案、图片、以及营销视频。
然而,正如任何技术革新一样,AIGC 在提升营销创意和效率的同时,也带来了诸多安全问题。
火山引擎内容安全与风控负责人张建洋以实际案例,展示了火山引擎的 AI 技术如何为营销人「保驾护航」。
张建洋表示,大模型的幻觉让输出结果不完全可控,由此导致营销内容存在各种潜在的内容风险。例如,AIGC 技术创作的营销文案含有「最好」、「第一」、「世界级」、「全网首发」等「绝对化」的用语,生成的营销图片或视频中可能含有低俗低质的不良内容,它们一旦出现在广告中,不仅会损害品牌形象,还会引起公众的反感。
对此,火山引擎提供了一整套有针对性的内容风险检测引擎,通过其多模态内容支持、多样化的风险模型和实时风险评估功能,为企业打造了一个全面、高效的风险管理解决方案。
其中,针对营销素材风险多样性的问题,检测引擎内置了上百个风险模型。例如,适用于营销文案的广告用语检测模型,可以准确判断文案中是否含有绝对化用语、虚假宣传、以及诱导消费的违规内容;而适用于营销视频的画面质量和版权检测模型,可以判断视频中是否包含不良画面和低质内容,以及是否存在侵权可能。
此外,为了有效转化目标用户,企业往往不惜投入重金开展各种营销活动,如新人奖励、任务奖励等,以期提升用户粘性。然而,这些充满诱惑的奖励机制,也可能成为黑产眼中的「肥肉」,他们利用漏洞作弊,将企业的营销资金占为己有。
例如,一家车企在开展线上营销活动时,遇到虚假助力和虚假试驾这两大棘手问题。接入火山引擎智能风控产品后,短短两个月,他们就有效识别出异常行为 108 万次、异常账户超 3 万个,异常设备 2 万余台,直接止损金额达 50 万元,不仅有效降低了营销费用的浪费,还极大提升了业务转化率。
NVIDIA 企业级开发者社区高级经理何琨则介绍了一款超酷的工具 ——NeMo Guardrails,它就像是大语言模型的「保镖」,避免它们胡言乱语。
据何琨介绍,NeMo Guardrails 是一个开源工具库,通过添加可编程护栏来控制大型语言模型的输出,防止敏感话题、不当言论和恶意攻击。它包括话题限定、对话安全和攻击防御三大护栏,支持自定义对话逻辑,确保对话机器人的响应符合特定请求和预定义逻辑。
NeMo Guardrails 的工作流程包括接收用户输入、匹配生成护栏、执行对话逻辑流和生成机器人回答。它使用 Colang 语言定义对话逻辑,这是一种用于对话式 AI 建模的语言,具有高度可读性和可扩展性。此外,NeMo Guardrails 可以与 LangChain 结合使用,支持多种大语言模型对话引擎,实现更安全的对话系统输出。