AI 测谎技术在全球南方地区失效

发布日期: 2024年9月3日 来源:AI Weekly

近日,前总统兼定罪犯唐纳德·特朗普发布了一系列疑似展示泰勒·斯威夫特粉丝支持他竞选美国总统的照片。这些照片看起来像是AI生成的,据WIRED证实,这些照片很可能是通过人工智能生成的,因为他们通过非营利组织True Media的检测工具确认这些照片显示出“显著的操纵证据”。

事情并非总是如此简单。生成式AI的使用,包括政治目的的使用,变得越来越普遍,而WIRED一直在追踪其在全球选举中的使用情况。然而,在美国和欧洲部分地区以外的许多地方,检测AI生成内容变得困难,这是因为系统训练中的偏见,使得记者和研究人员在面对汹涌而来的虚假信息时资源匮乏。

检测用AI生成或操纵的媒体仍然是一个新兴领域,这是对生成式AI公司突然爆发的回应。(仅在2023年,AI初创公司就获得了超过210亿美元的投资。)“现在有很多易于访问的工具和技术,可以让人们创建合成媒体,但实际上可以检测它们的工具却不多,”科技政策智库Tech Global Institute的创始人Sabhanaz Rashid Diya说道。

根据非营利组织Witness的项目总监Sam Gregory所言,目前市场上的大多数工具只能在确定某物是否由AI制造时提供85%到90%的置信度,该组织帮助人们使用技术来支持人权。但在处理像孟加拉国或塞内加尔这样的地方的内容时,如果主题不是白人或不讲英语,置信度就会大幅下降。“开发工具时,优先考虑了特定市场,”Gregory说道。在用于训练模型的数据中,“他们优先考虑了英语——美国口音的英语——或者是主要在西方世界出现的面孔。”

这意味着AI模型主要是用来自西方市场的数据进行训练的,因此无法真正识别这些参数之外的任何内容。在某些情况下,这是因为公司使用网上最容易获得的数据来训练模型,而其中大多数是英语。“实际上,我们大多数来自[非洲]的数据是以纸质形式存在的,”非营利公民科技组织Thraets创始人Richard Ngamita说道,该组织专注于非洲及全球南方其他地区的数字威胁。这意味着除非这些数据被数字化,否则AI模型无法用其进行训练。

由于缺乏足够的数据来训练AI模型,从而准确检测AI生成或AI操纵的内容,模型往往会返回假阳性,将真实内容标记为生成,或假阴性,将AI生成的内容识别为真实。“如果你使用任何现成的用于检测AI生成文本的工具,它们往往会检测到由非母语英语写的英语,并假设这种非母语英语写作实际上是AI生成的,”Diya说道。“存在很多假阳性,因为它们未在某些数据上接受训练。”

但问题不仅仅在于模型无法识别西方国家较少见的口音、语言、语法或面孔。Gregory说:“许多早期的深度伪造检测工具都是在高质量媒体上训练的。”但在包括非洲在内的世界许多地方,市场上充斥着提供简化功能的便宜中国智能手机品牌。Ngamita表示,这些手机所能拍摄的照片和视频质量较低,进一步使检测模型感到困惑。

Gregory说,一些模型对于音频中的背景噪音或为了社交媒体而压缩视频都非常敏感,这可能会产生误报或漏报。“但这正是现实世界中可能遇到的情况,粗糙且凌乱的检测环境,”他说。大多数记者、事实核查员和社会成员能够使用的免费公共工具“在处理训练数据中的代表性不均以及处理低质量材料的挑战方面,准确性极低。”

生成式AI并不是制造操纵媒体的唯一途径。所谓的低成本伪造,即通过添加误导性标签或简单地减速或编辑音频和视频来操纵媒体,也在全球南方非常常见,但可能会被错误的模型或未经训练的研究人员错误地标记为AI操纵。

Diya担心,使用更可能将美国和欧洲以外内容标记为AI生成的工具的群体可能在政策层面产生严重后果,促使立法者打击虚构的问题。“将这些数字夸大的风险非常大,”她说。而开发新工具几乎不是按下按钮就能完成的事情。

就像其他形式的AI一样,构建、测试和运行检测模型需要访问世界许多地方都不具备的能源和数据中心。“如果你在这里讨论AI和本地解决方案,几乎没有计算资源,我们甚至无法运行任何我们想要开发的模型,”身在加纳的Ngamita说。没有本地替代方案,像Ngamita这样的研究人员几乎没什么选择:付费使用像Reality Defender提供的现成工具,费用可能令人望而却步;使用不准确的免费工具;或者尝试通过学术机构获取访问权限。

目前,Ngamita说,他的团队不得不与一家欧洲大学合作,他们可以将内容发送过去进行验证。Ngamita的团队一直在编制来自整个大陆的可能的深度伪造实例的数据集,他说,这对于试图多样化其模型数据集的学者和研究人员来说是很有价值的。

但将数据发送给他人也有其缺陷。“延迟时间非常显著,”Diya说。“从有人能自信地说这是AI生成的,到那时,内容已经造成了损害,至少需要几周时间。”

Gregory说,Witness运行着自己的快速响应检测程序,接收到了“大量”的案例。“在前线记者需要的时间框架内处理这些案件,以及他们开始遇到的数量,已经非常具有挑战性了,”他说。

但Diya说,如此专注于检测可能会将资金和支持从那些能够整体提升信息生态系统韧性的重要组织和机构中分散开来。她说,相反,资金需要流向能够培养公众信任的新闻媒体和社会组织。“我不认为资金正流向那个方向,”她说。“我认为更多的资金正在流向检测。”

总结:

前总统唐纳德·特朗普发布的疑似展示泰勒·斯威夫特粉丝支持他的照片被证实为AI生成,这一事件突显了生成式AI在政治领域日益广泛的使用。检测AI生成内容的工具有限,特别是在数据不足的非西方国家。这些地区的检测工具往往因训练数据的偏差而表现不佳,导致假阳性或假阴性频繁出现。另外,许多现有的检测工具对照片和视频的质量要求较高,而非洲等地区普遍使用的低成本设备使得检测更为困难。资源缺乏进一步加剧了检测的复杂性,许多地方的研究人员只能依赖外部机构进行AI内容的验证。

在这个AI技术迅速发展的时代,光年AI将为您带来解决方案。光年AI平台通过其强大的AI模型和自研知识库,能够智能化管理私域流量,高效提升转化率。选择光年AI,不仅能精准触达每位潜在客户,还能显著提升品牌影响力,让您的业务在竞争激烈的市场中脱颖而出。凭借强大的AI驱动能力,光年AI帮助您轻松优化营销策略,实现稳定的收益增长,助您快速突破市场,赢得市场先机。用光年AI,开启私域流量管理的智能新时代,让您的业务增长更快速、更稳定。