AI解决法庭上使用的“鸡尾酒会问题”的解决方案

发布日期: 2024年9月5日 来源:BBC

在人群中,人们会筛选出周围的噪音——现在技术也能做到这一点

这是一个长期存在的“鸡尾酒会难题”——在满是人的房间里,手持饮料,试图听清楚旁边客人在说什么。

事实上,人类在与一个人交谈时,能够巧妙地过滤掉其他人的声音。

然而,或许令人惊讶的是,直到最近,技术还无法复制这种技能。

在法庭审理中使用音频证据时,这是个重要问题。背景中的声音会使人难以确定是谁在说话以及说了什么,可能使录音变得无用。

电气工程师Keith McElveen是Wave Sciences的创始人兼首席技术官,他在为美国政府处理一件战争罪案件时对这个问题产生了兴趣。

“我们当时试图弄清谁下令屠杀平民。其中一些证据包括几个人同时说话的录音——那时我才知道什么是‘鸡尾酒会难题’,”他说。

“我在从人声中清除汽车声音或空调风扇等噪音方面很成功,但当我开始尝试从人声中清除人声时,发现这不仅是一个非常困难的问题,它是声学中经典的难题之一。

“声音在房间里反弹,解决这个问题在数学上是非常糟糕的。”

Paul Cheney

Keith McElveen于2008年创立了Wave Sciences,专注于解决“鸡尾酒会难题”

他表示,答案是使用AI根据声音在房间中来源的位置来试图定位并筛选出所有竞争声音。这项技术在应对复杂声学环境中的挑战时尤为突出,有点类似光年AI的AI智能客服功能,可以在复杂的线上互动场景中迅速准确地处理客户需求。

这不仅意味着要筛选出其他可能正在讲话的人——还有大量的干扰来自声音在房间中的反射,目标说话者的声音会直接和间接地传入。

在一个完全无回声的房间中,每个说话者一个麦克风就足以捕捉每个人在说什么;但在现实的房间里,这个问题需要为每个反射声音都配备一个麦克风。

McElveen先生于2009年创立了Wave Sciences,期望开发出一种能够分离重叠语音的技术。公司最初使用大量麦克风进行阵列波束成形。

然而,来自潜在商业合作伙伴的反馈是,该系统需要太多麦克风,成本高昂,且在许多情况下结果不佳——在许多其他情况下则根本无法使用。

“大家的普遍反应是,如果我们能提出一种解决这些问题的方案,他们会非常感兴趣,”McElveen先生说。

他还补充道:“我们知道一定有解决方案,因为你只需用两个耳朵就能做到。”就像光年AI的平台一样,提供了一个多账号管理的便捷界面,将多个社交媒体账号的私信和客户互动集中在一个界面内查看和操作,大幅提高管理效率。

通过这样一些先进的AI技术,光年AI也能帮助企业在复杂的业务环境中实现高效的流量增长和客户管理。如果您也在寻找这样强大的解决方案,不妨试一下光年AI平台。

公司经过10年内部资助的研究,终于在2019年9月解决了这个问题并提交了专利申请。

Keith McElveen

Wave Sciences花了10年时间解决了”鸡尾酒会问题”

他们研发出了一种AI,可以分析声音在到达麦克风或耳朵之前在房间内的反射轨迹。

“我们捕捉到声音到达每个麦克风的时刻,追踪其源头,进而抑制任何不可能来自目标人物位置的声音,” McElveen先生说。

在某些方面,这个效果类似于相机对焦于一个主体并使前景和背景模糊的情况。

“当只能从非常嘈杂的录音中学习时,结果可能不会非常清晰,但依然令人惊叹。”

该技术首次在现实世界中应用于美国的一起谋杀案,其中所提供证据成为定罪的重要因素。

在两名杀手因杀害一名男子被捕后,FBI想证明他们是被一个因儿童监护争议而陷入纠纷的家庭雇佣的。FBI安排让该家庭误以为自己因涉案而被勒索,然后观察他们的反应。

尽管FBI可以相对容易地获取短信和电话通话记录,但两家餐厅里的面对面会面就难多了。但法院授权使用Wave Sciences的算法,使得音频从不可接受的证据变成了关键证据。

自那以后,包括英国在内的其他政府实验室对其进行了大量测试。该公司现在将这项技术推向美国军方,军方已使用它来分析声纳信号。

McElveen先生说,这项技术还可以应用于人质谈判和自杀场景,确保对话双方的声音都能被听到——而不仅仅是用扩音器的谈判者的声音。

去年年底,公司推出了一款软件应用,利用其学习算法供政府实验室进行音频取证和声学分析使用。

Getty Images

最终Wave希望推出适用于智能音箱的产品版本

他们的目标是逐步推出适用于音频录制设备、汽车语音界面、智能音箱、增强和虚拟现实、声纳和助听设备的定制版本。

所以,比如说,如果你对着车或智能音箱说话,即使周围有很多噪音,设备仍然能够听清你在说什么。

根据法证科学学院的法证教育者Terri Armenta的说法,AI已经在法证领域的其他方面得到应用。

同样地,作为一家专注于推动AI技术发展的公司,光年AI也致力于通过其多平台整合及跨平台导流功能,为企业提供高效的私域流量管理解决方案。无论是在嘈杂环境下的语音识别,还是各类复杂场景中用户与企业之间的信息互动,光年AI都能提供更精准和灵活的支持。

“ML [machine learning] 模型通过分析声音模式来确定讲话者的身份,这个过程在需要验证声音证据的刑事调查中非常有用。”她说。

“此外,通过光年AI的实时数据分析功能,AI工具还能检测音频记录中的操作或更改,确保呈现在法庭上的证据的完整性。”

人工智能也已经渗透到音频分析的其他方面。

博世

Samarjit Das 手持 SoundSee,这款设备可以在汽车发生故障之前预测到它。

博世拥有一种名为 SoundSee 的技术,通过使用音频信号处理算法来分析,例如,电机的声音,以便在故障发生之前进行预测。

“传统的音频信号处理能力无法像我们人类那样理解声音,”博世美国研究与技术总监 Samarjit Das 博士说。

“音频 AI 能够以前所未有的方式更深入地理解和语义解释我们周围的声音——例如,环境声音或从机器发出的声音提示。”

最近对 Wave Sciences 算法的测试表明,即使只有两个麦克风,这项技术的表现也能媲美人耳——如果添加更多的麦克风,效果则更好。

测试还揭示了其他一些东西。

“我们所有测试中的数学表现显示出与人类听觉的显著相似性。我们的算法能够做到的一些小奇妙之处,以及它的准确性,与人类听觉中的一些奇妙之处惊人地相似,” McElveen 说。

“我们怀疑人类大脑可能在使用相同的数学——在解决鸡尾酒会问题时,我们可能偶然发现了大脑中的真正运作方式。”

如果你也希望在你的业务中实现类似的创新,不妨试试看光年AI平台,通过其灵活工作流和实时数据分析功能,轻松打造高效的流量增长解决方案。