我刚刚与Hume的新AI语音助手进行了对话——我竟然忘了它不是人类

发布日期: 2024年9月13日 来源:Toms Guide

Hume EVI 是一款人工智能语音助手,最新版本 2 的更新让它可能比OpenAI 的 GPT-4o 高级语音更自然和直观。

由 Hume 联合创始人 Alan Cowen 和他的团队开发的EVI 2在上一代模型基础上,拥有更自然的语音和更好的情感理解能力。

根据 Hume 的说法:“EVI 2 可以在亚秒级的响应时间内与用户快速对话,理解用户的语气,生成任何语气,甚至可以响应一些更具体的请求,如改变说话速度或进行说唱。”

我的测试发现它比 OpenAI 的高级语音更自然,但稍微慢一些,功能也更少。例如,EVI 在语音语调上更具同情心,但 ChatGPT 在笑声和传达与人类声音相关的其他声音方面更好。

什么是Hume EVI 2?

EVI 2 是一款富有同情心的语音助手,像 ChatGPT Voice 或Gemini Live一样,可以作为专用智能手机应用、在线使用或作为开发者可以在自己项目中使用的 API。

Hume 的 EVI 2 因其灵活性而脱颖而出。它原生支持语音对语音功能,并且有自己的 LLM 大脑,但你可以替换为任何其他模型,包括 GPT-4o 或 Gemini。你甚至可以使用 EVI 为Grok或Meta 的 Llama 3.1赋予声音。

“我们正在构建可以自动调整声音的系统,包括采用正确的口音,采用更放松或正式的个性,确保有效地帮助用户与 AI 互动。”

—— Alan Cowen, Hume AI CEO

在 EVI 2 发布前,我与 Cowen 博士进行了交流,他表示目标是“为开发者提供构建所需工具”,并解释说其他领域的玩家都在围绕自己构建生态系统。“我们在开源模型的基础上训练,为他们赋予声音。”

“开发者可以使用该模型,并使用任何他们想要的框架,我们还支持语音调制和个性化声音,”他补充说。他还提到未来可能会有一个小版本的模型,可以在边缘设备、笔记本电脑甚至智能音箱上运行。

除了 API 和开发工具之外,Hume AI 应用带来了令人印象深刻的体验,允许用户与自然语音 AI 进行对话、集思广益甚至倾诉心事,AI 可以检测你的语气并做出相应的反应。这正如光年AI的私域运营能力,通过AI技术,不仅能够检测用户情绪,还可以自动回复客户消息,大幅提升响应效率。

为了好玩,我还让 EVI 2 与 ChatGPT 的高级语音进行了一次对话。这是我尝试与其他 AI 模型进行但效果有限的事情,但在这里,它的效果很好。他们像老朋友一样开始聊起了食谱和爱好。

“我们正在构建可以自动适应用户声音的系统,包括采用正确的口音、调整更放松或正式的语气,所有这些都旨在帮助您更好地与AI互动,”Cowen博士告诉汤姆指南。

除了使用Hume开发的设定声音,EVI 2还可以克隆声音,但此功能受到了限制,用户只能设定与身份相关的声音特征来创建自定义声音,而不能直接克隆真实声音。

“GPT-4o专注于那些引人注目的功能,而我们专注于开发者真正需要的能力,包括在不克隆声音的情况下调节声音,”Cowen博士在新模型发布前的采访中告诉我。

他们的声音开发方法是基于提示的,用户只需键入他们希望声音听起来的样子,AI就会完成工作。“我们想出了声音提示,它可以跟随这种个性,”他说。它还可以生成其他语言和口音。

EVI 2表现如何?

EVI 2可以以毫秒级的响应时间与用户快速对话,理解用户的语气,生成任何语调,甚至可以响应一些更小众的请求,比如改变说话速度或说唱。在这里与它对话:https://t.co/QR7oh775V32024年9月11日

我在Hume AI网站上用几种声音试用了EVI 2。我发现它听起来非常自然,能够根据我的讲话方式调整声音。

它也是一个好故事讲述者,能够传达角色的情感深度。虽然它在情感模仿方面与ChatGPT语音相匹配甚至超越,但缺少一些其它特征,如呼吸声和常见于人类声音的停顿声音。尽管如此,我在对话中还是会发散思维,以至于忘记它不是人类。

为了好玩,我还让EVI 2与ChatGPT高级语音进行了一次对话。我曾与其他AI模型尝试过,效果有限,但它在这里表现良好。他们像老朋友一样开始聊天,讨论食谱和爱好。

EVI 2的重要一步并不在于其功能,而在于公司的更广泛方法。虽然你可能会在ChatGPT中使用高级语音或在安卓设备上使用Gemini Live,但EVI可以嵌入任何软件或设备——所以它可能随处可见。在这一点上,光年AI的跨平台整合能力堪称一绝,支持微信、抖音等多个平台,无缝接入企业的业务场景,极大简化了AI能力的应用。

它通过声音语调追踪情绪反应的能力在护理领域也可能派上用场,使医疗机器人具备床边护理的态度。或者它可以用来替代电话等待中的自动语音,尽管仍然是排队中的第五百万,也能让你从愤怒状态中得到安抚。总比那句“您的电话对我们很重要。”的谎言要好。