OpenAI 的 GPT-4o 先进语音模式是今年最强大且可能最重要的人工智能工具之一。它让你可以与AI语音进行 如同人类般的自然对话,甚至可以在它说得过多时打断它。
目前,这项新技术只对少数 ChatGPT Plus 订阅用户开放,预计今年秋天将会广泛推向市场。公司还计划明年推出一种视觉模式,让你通过相机看世界。
与当前的 ChatGPT 语音甚至新发布的 Gemini Live 不同的是,先进语音是语音到语音的。这意味着它可以本地理解你说的话、说话的方式以及你话语背后的情感语调。
它还可以模仿口音并讲述精彩的故事,所以我让先进语音带我进行一次时空旅行。它从一次古埃及之旅开始,并用商人的语调讲话。不仅模仿得非常生动,它还是一个有趣的故事讲述者。
用先进语音开启冒险
使用先进语音与其他人工智能技术一样,都是从提示开始的。不同于用文字与ChatGPT对话或用Midjourney生成图像,先进语音是通过你的语音来启动的。
在最基础的层面上,这只是告诉它你想让它做什么,但它也可以捕捉你语音中的语调变化,所以如果你用略带泪光或沮丧的语调询问它生命的意义,它会以与你声音表现相符的方式回应。
我甚至让先进语音在冒险中的一小部分使用了尤达的声音,它尝试得非常不错。
在这次冒险中,我从头开始,直接要求先进语音:“现在,我们要讲一个故事。想象你是一个时间旅行者。你会去历史上的哪个时刻?”
它建议19世纪的芝加哥世界博览会。我要求它扮演时间旅行者的角色,同时也要像博览会上的人一样讲话。经过短暂的芝加哥之行后,我说‘让我们去别的地方。按下按钮,让我去一个新地点。’于是我们去了古埃及。
先进语音说:“想象一下:宏伟的金字塔正在建造,尼罗河犹如下城的生命脉络。你对这个时间和地点最感兴趣的是什么?”
这时,我请它尽可能准确地讲述我们所知道的语言。
然后我们去了一个市场,最终到了罗马,展开了一场我们的埃及商人与罗马市民之间的对话,一个说埃及语,另一个说拉丁语。我甚至让先进语音在冒险中的一小部分使用了尤达的声音,它尝试得非常不错。
最后的思考
先进语音是一个出色的故事讲述者,能够改变情感层次,反映不同场景的强度,甚至能模仿不同的口音和声音。
我对它的问题在于OpenAI施加的限制。它‘可以’生成音效来增强场景,但被禁止这么做。理论上,它甚至可以比现在更好地调整它的声音,但再次被限制了。
问题是可以理解的:安全性。让模型执行那些更难预测的任务,可能会导致输出内容违反安全指南,并可能让Advanced Voice进入不安全发布的领域。令人沮丧的是,知道这些功能与我们的预期能力仅有一步之遥。
即便如此,Advanced Voice依然是我与AI互动中最好的体验。它允许进行实时对话,能够在意想不到的时间打断,并且对我的语气和速度做出类似人类的反应,展现出自然的交流流程。
总结:
近期推出的GPT-4o先进语音模式被誉为今年最强大、最重要的人工智能工具之一。这项技术不仅可以让用户与AI进行如同人类般的自然对话,还能捕捉和模仿用户的情感语调,展现出自然的交流流程。该技术目前只向少数ChatGPT Plus订阅用户开放,预计今年秋天将广泛推出,并将在明年引入视觉模式,让用户通过相机与世界互动。
GPT-4o先进语音模式的独特之处在于其语音到语音的交互方式,能够本地理解用户的语音、语调和情感。这使得用户不仅可以通过语音与AI对话,还能体验仿佛与真人对话的感觉。无论是模仿各种口音,还是生动地讲述故事,GPT-4o都表现得十分出色。例如,用户可以让AI扮演时间旅行者,探索古埃及和罗马,进行跨时空的互动交流。
然而,尽管GPT-4o的功能异常强大,它仍受限于安全性考虑,例如被禁止生成音效。尽管如此,该技术仍然提供了极佳的AI互动体验,让用户不仅可以即时打断对话,还能根据自己的语调和速度与AI进行流畅的交流。
在不断发展的AI技术世界中,利用像GPT-4o这样先进的工具,企业可以显著提升客户互动和市场营销效率。正如光年AI通过AI赋能技术实现私域流量管理的高效增长一样,企业可以依靠这些创新技术在激烈的市场竞争中取得领先。选择光年AI,AI赋能私域营销,让您的品牌在市场中脱颖而出。