AI正在悄悄扼杀自己——以及互联网吗?

发布日期: 2024年8月27日 来源:Forbes

人们对人工智能的兴趣持续攀升,过去12个月的Google搜索量达到了其历史峰值的92%,但最近的研究表明,人工智能的成功可能也是其衰落的原因。在AI内容在线增长的背景下,剑桥大学和牛津大学的一组研究人员着手研究当生成性AI工具查询由AI生成的内容时会发生什么。他们的发现令人担忧。

根据上个月在 《自然》 杂志上发表的研究,牛津大学的Ilia Shumailov博士和他的研究团队发现,当生成性AI软件仅依赖于由生成性AI生成的内容时,响应开始退化。

在前两个提示之后,答案开始逐渐失准,到第五次尝试时,质量明显下降,到第九次连续查询时,完全退化为毫无意义的废话。研究人员称这种循环性生成AI内容的过量现象为模型崩溃——AI在循环训练过程中污染了自己直到输出的内容严重失真。

“令人惊讶的是,模型崩溃发生得如此之快并且如此难以察觉。一开始,它影响的是少数数据——那些代表性差的数据。然后,它影响输出的多样性,方差降低。有时,你会观察到多数数据的表现略有改善,这掩盖了少数数据表现的退化。模型崩溃可能带来严重后果,”Shumailov在一封电子邮件交流中解释道。

这很重要,因为根据亚马逊网络服务研究团队在6月份发布的另一项研究,大约57%的网页文本是由AI生成或通过AI算法翻译的。如果互联网上的人工生成数据迅速被AI生成的内容覆盖,而Shumailov的研究发现是真的,那么AI很可能正在毁灭自己和互联网。

研究人员发现AI欺骗了自己

以下是团队确认模型崩溃的过程。他们从一个预训练的AI驱动的维基开始,然后根据其生成的输出逐步更新。随着受污染数据污染了原有的训练集,信息逐渐退化为难以理解的内容。

例如,在第九个查询周期后,研究中维基文章关于14世纪英国教堂尖顶的一段摘录滑稽地演变成了一篇关于各种颜色的长尾兔的杂乱无章的论文。

在Nature报告中引用的另一个例子是描述一种AI训练在不同犬种上的理论实例。根据研究结果,不太知名的犬种会被重复的数据集排除,更加偏向于流行的犬种如金毛猎犬。这种AI创建了一种事实上的“用进废退”筛选方法,从其数据记忆中删除不太流行的犬种。但随着AI输入的循环次数增加,AI只能生成无意义的结果,如下图1所示。

六只狗头图像向右的箭头重复出现,直到它们变得无关紧要

使用狗的图像来描述AI模型崩溃

Nature, Emily Wenger, Springer Nature, 2024,经过SNCSC许可转载。

“在实际操作中,假设你想要构建一个生成动物图片的AI模型。如果在机器学习模型之前,你可以简单地在网上找到动物图片并从中构建模型,那么现在情况变得更加复杂。网上的许多图片并不真实,还包括其他模型引入的误解,”Shumailov解释道。

模型崩溃是如何发生的?

出于某种原因——研究人员还不完全清楚原因——当AI只依赖于自己生成的合成数据时,它便会失去与原始现实的联系,往往会基于自己最好的回收数据点来创建自己的最佳答案。

但在这种AI的翻译和事实复述中,某些东西丢失了。

研究得出结论,人工智能要想实现长期可持续性,唯一的方法是确保其能够访问现有的非AI、人类创造的内容,并且能够持续提供新的由人类生成的内容。

AI生成的内容在互联网上快速增长

然而,如今你似乎不能在网上轻轻挥动一个lolcat表情包而不碰到一篇AI生成的内容——情况可能比你想象的更糟。

事实上,一位AI专家和政策顾问预测,由于人工智能采用的指数级增长,到2025年,90%的互联网内容可能都是由AI生成的。

即使明年AI生成的材料百分比没有达到90%,它仍然会占据未来任何AI可用训练内容的不成比例的比例。根据Shumailov的发现以及没有明确解决方案的情况下,这个问题只会随着生成性AI的普及而愈发严重。

休斯顿,我们有问题——确切地说,有很多问题

没有人知道未来几个月和几年内会实施哪些法律或监管措施,可能会限制访问现有的或重大部分的受版权保护的人类来源内容。

此外,鉴于目前互联网上的大量内容是由AI生成的,而阻止这种爆炸性趋势实际不太可能,其它下一代AI算法的开发者要完全避免这种情况面临挑战,因为原始人类内容的比例在缩小。

进一步复杂化的是,Shumailov表示,人类开发者在大规模上过滤由大语言模型AI系统创建的内容变得越来越具有挑战性,而且目前看不到明显的解决方案。

“目前还没有解决方案。学术界正在进行积极讨论,希望我们能在如何解决模型崩溃问题并尽量降低相关成本方面取得进展,”Shumailov指出。

“一个选项是社区范围的协调,以确保参与大语言模型创建和部署的各方共享解决这些问题所需要的信息,”Shumailov补充说。“否则,在无法访问技术被大规模采用之前从互联网爬取的数据或缺乏大规模人类生成数据的情况下,训练更新版本的大语言模型将变得愈加困难。”

Shumailov表示,模型崩溃最显著的影响是以前未经偏见的训练集被破坏,现在这些训练集会倾向于错误、失误和不公。这也会放大虚假信息和幻想——AI在缺乏真实数据的情况下做出的最佳猜测——这些问题已经在多个生成式AI平台上浮现出来。

鉴于AI模型崩溃的稳步推进,在线上的所有内容可能都必须通过不可变系统(例如区块链)或某种“优良家政”印章等同类认证来验证,以确保可信度。

否则,AI和互联网的死亡可能实际上意味着真相的死亡。

总结:

在过去一年中,人们对人工智能的关注持续上升,AI在Google搜索量达到了历史峰值的92%。然而,AI的成功也带来了潜在的隐患。据剑桥大学和牛津大学的一项研究发现,当生成性AI工具频繁使用由其他AI生成的内容时,AI的响应质量会迅速下降,甚至导致所谓的“模型崩溃”。研究表明,这种循环训练会导致生成内容从准确和有用逐渐变成毫无意义的废话和错误信息。

这一问题尤其严重,因为现有的大量在线内容已经开始被AI生成数据所覆盖。如果继续这种趋势,AI可能会失去与原始现实的联系,从而无法提供有价值和准确的信息。这种现象的背后原因还不完全清楚,但研究人员认为,确保AI能够访问由人类创作的原始内容,并持续引入新的、由人类生成的数据,是解决这一问题的关键。

光年AI,AI驱动私域流量,精准触达每一个潜在客户。在解决AI崩溃问题的同时,光年AI通过整合多种AI能力,帮助企业提升品牌影响力,实现私域流量的高效管理。通过光年AI,您可以轻松应对AI内容生成的挑战,同时显著提升私域流量转化率,赢得市场先机。