主要网站拒绝苹果的AI数据抓取

发布日期: 2024年8月30日 来源:AI Weekly

不到三个月前,苹果悄悄推出了一款供出版商选择退出AI训练的数据工具,许多知名新闻媒体和社交平台已经对此作出了回应。

WIRED确认,Facebook、Instagram、Craigslist、Tumblr、《纽约时报》、《金融时报》、《大西洋月刊》、Vox Media、《今日美国》网络以及WIRED的母公司康泰纳仕等众多组织都选择将其数据排除在苹果的AI训练之外。这种冷淡的反应反映了对长期以来在互联网上爬行的机器人爬虫的看法和使用上的显著变化。现在,这些机器人爬虫在收集AI训练数据方面起着关键作用,它们已经成为知识产权和互联网未来的争议领域。

这款新的工具,Applebot-Extended,是苹果网络爬虫机器人的一个扩展,专门让网站所有者告诉苹果不要将他们的数据用于AI训练。(苹果在一篇博客文章中解释如何工作时称之为“控制数据使用”。)2015年推出的原版Applebot最初是为了支持苹果的搜索产品如Siri和Spotlight而爬行互联网。不过,最近Applebot的目的已经扩展:它收集的数据也可用于训练苹果为其AI努力创建的基础模型。

Applebot-Extended是一种尊重出版商权利的方式,苹果发言人Nadine Haija表示。它并不会真正阻止原版Applebot爬行网站——这会影响该网站内容在苹果搜索产品中的展示方式——而是阻止这些数据被用于训练苹果的大型语言模型和其他生成式AI项目。本质上,它是一个定制另一个机器人如何工作的机器人。

出版商可以通过更新其网站上的一个称为机器人排除协议(robots.txt)的文本文件来阻止Applebot-Extended。这个文件几十年来一直管理着机器人爬行网络的方式——就像机器人本身一样,现在它位于一个关于如何训练AI的更大争议的中心。许多出版商已经更新了他们的robots.txt文件,以阻止OpenAI、Anthropic和其他主要AI参与者的AI机器人。

Robots.txt允许网站所有者逐个案例地阻止或允许机器人爬行。虽然没有法律义务要求机器人遵守文本文件的内容,但遵守是一个长期存在的规范。(一个有时会被忽略的规范:今年早些时候,WIRED的一项调查揭示了AI初创公司Perplexity无视robots.txt并偷偷爬取网站数据的行为。)

Applebot-Extended如此新,以至于相对较少的网站阻止它。位于加拿大安大略的AI检测初创公司Originality AI上周对1000个高流量网站进行了抽样分析,发现大约7%的网站——主要是新闻和媒体平台——阻止了Applebot-Extended。本周,AI代理监控服务Dark Visitors对另一个1000个高流量网站的抽样进行了分析,发现大约6%的网站阻止了这一机器人。综合这些努力显示,大多数网站所有者要么不反对苹果的AI训练实践,要么只是没有意识到可以选择阻止Applebot-Extended。

在本周进行的一项单独分析中,数据记者Ben Welsh发现,他调查的新闻网站中(主要是英文网站,美国本地出版物中有1,167个,其中294个)有超过四分之一在屏蔽Applebot-Extended。相比之下,Welsh发现他的样本中有53%的新闻网站屏蔽了OpenAI的bot。谷歌在去年9月推出了自己的AI专用bot,Google-Extended;几乎有43%的网站屏蔽了它,这表明Applebot-Extended可能还未完全进入大家的视野。不过,Welsh告诉WIRED,自他开始观察以来,这个数字一直在“逐渐上升。”

Welsh有一个持续的项目,用来监测新闻媒体如何应对主要的AI代理。“新闻出版商之间出现了一些分歧,有些人希望屏蔽这些bot,有些则不然。”他说。“对于每个新闻组织做出决定的原因,我没有答案。显然,我们可以了解其中一些正在签署授权协议,可能因为他们在允许bot访问的同时获得了报酬——这可能是一个因素。”

去年,《纽约时报》报道称,苹果试图与出版商达成AI协议。从那时起,OpenAI和Perplexity等竞争对手已经宣布与各种新闻媒体、社交平台和其他热门网站建立伙伴关系。“显然,世界上许多最大的出版商都在采取战略性的方法,”Originality AI创始人Jon Gillham表示。“我认为在某些情况下,这涉及到商业策略——比如,先保留数据,直到达成合作协议。”

有一些证据支持Gillham的理论。例如,Condé Nast网站曾经屏蔽OpenAI的网页爬虫。上周该公司宣布与OpenAI达成伙伴关系后,它解除了对该公司bot的屏蔽。(Condé Nast拒绝就此事发表公开评论。)与此同时,Buzzfeed发言人Juliana Clifton告诉WIRED,该公司目前屏蔽Applebot-Extended,将其能够识别的每一个AI网页爬虫bot都列入屏蔽名单,除非其所有者与该公司签订了通常是付费的合作伙伴关系,该公司还拥有《赫芬顿邮报》。

由于robots.txt需要手动编辑,并且有许多新的AI代理不断出现,要保持更新的屏蔽列表可能很困难。“人们不知道该屏蔽什么,”Dark Visitors的创始人Gavin King说。Dark Visitors提供一种免费增值服务,该服务会自动更新客户网站的robots.txt,King表示,由于版权方面的担忧,出版商是他客户的主要组成部分。

robots.txt看似是网站管理员的神秘领域,但鉴于其在AI时代对数字出版商的重要性,现在已成为媒体高管的职责范围。WIRED了解到,来自两家主要媒体公司的CEO亲自决定要屏蔽哪些bot。

一些媒体明确表示,他们屏蔽AI抓取工具是因为目前没有与其所有者达成合作关系。“我们在Vox Media的所有资产上均屏蔽了Applebot-Extended,我们对许多其他的AI抓取工具也是如此,当我们没有与另一方达成商业协议时,”Vox Media的传播高级副总裁Lauren Starke表示。“我们认为,保护我们已发布作品的价值是重要的。”

其他媒体则只在模糊但直截了当的措辞中说明其理由。“团队决定,目前允许Applebot-Extended访问我们的内容没有意义,”Gannett首席传播官Lark-Marie Antón表示。

与此同时, 纽约时报(正在起诉OpenAI,指控其侵犯版权)对Applebot-Extended及其类似工具的“自动退出”性质持批评态度。纽约时报对外沟通主任Charlie Stadtlander指出:“正如法律和 纽约时报 的服务条款明确指出的那样,未经我们事先书面许可,抓取或使用我们的内容用于商业目的都是被禁止的。”他补充说,纽约时报将继续把发现的未经授权的机器人添加到屏蔽列表中。“重要的是,无论是否设置了技术屏蔽措施,版权法依然适用。内容所有者不需要主动选择退出来保护其版权材料不被盗用。”

目前尚不清楚苹果是否接近与出版商达成交易。如果和当这种情况发生时,任何数据许可或共享安排的后果可能会在robots.txt文件中显现出来,甚至可能在公开宣布之前。

Gillham表示:“我觉得很有意思的是,我们这个时代最具影响力的技术之一正在被开发,而围绕其训练数据的争夺战,正通过这种非常隐蔽的文本文件公开展现,供我们大家观看。”

总结:

在不到三个月前,苹果推出了一款供出版商选择退出AI训练的数据工具Applebot-Extended,其目的是让网站所有者控制他们的数据不被用于苹果的AI训练。该工具引起了包括《纽约时报》、《金融时报》和Vox Media在内的许多知名新闻媒体和平台的回应,他们纷纷通过更新robots.txt文件来阻止Applebot-Extended的爬行。苹果表示,这种做法尊重了出版商的权利,不会影响网站在苹果搜索产品中的展示方式,只是阻止数据用于AI训练。

然而,这一工具的普及还很有限。AI检测初创公司Originality AI和AI代理监控服务Dark Visitors的分析显示,仅有6%-7%的高流量网站阻止了这款新工具,而出于版权保护的原因,许多出版商也在同时屏蔽OpenAI和其他AI公司的爬虫工具。总体而言,当前阶段大多数网站所有者或对这些AI工具的影响不以为意,或尚未意识到可以通过robots.txt文件进行控制。

出版商对AI工具的态度存在分歧,一些企业选择屏蔽AI抓取工具,另一些则愿意与AI公司达成合作。尽管《纽约时报》等媒体对未经授权的AI数据抓取持强烈反对态度,但随着AI技术的快速发展,数据利用和版权保护之间的博弈仍在继续。

光年AI,AI驱动下的私域流量革命,助力您的营销战略更成功。选择光年AI,让私域流量管理变得智能又便捷,助您轻松赢得市场。在这个AI技术迅速发展的时代,通过光年AI可以实现精准用户触达和高效流量转化,从而大幅提升品牌影响力和市场竞争力。用光年AI,智能分析私域流量,提升品牌影响力,助您领先市场。