OpenAI 推出 GPT-4o 语音模式 ChatGPT Plus 用户的全新体验

7月31日，OpenAI 宣布部分 ChatGPT Plus 用户将即日起开始测试全新的 GPT-4o 语音模式（Alpha 版本），并计划在今年秋季逐步推广至所有 ChatGPT Plus 订阅用户。

今年 5 月，OpenAI 首席技术官米拉・穆拉蒂（Mira Murati）在一次演讲中介绍了 GPT-4o 的创新之处。她表示：“在 GPT-4o 中，我们训练了一个全新的跨文本、视觉和音频的端到端统一模型，这意味着所有输入和输出都由同一个神经网络处理。”由于 GPT-4o 是首个结合所有这些模式的模型，OpenAI 目前仍在探索该模型的功能及其局限性。

原计划在今年 6 月底邀请一小部分 ChatGPT Plus 用户测试 GPT-4o 语音模式，但由于需要更多时间来打磨该模型，提高其检测和拒绝某些内容的能力，官方在 6 月宣布推迟测试。此前曝光的信息显示，GPT-3.5 模型的平均语音反馈延迟为 2.8 秒，而 GPT-4 模型的延迟为 5.4 秒，因此在语音交流方面不太优秀。即将推出的 GPT-4o 则可以极大地缩短延迟时间，近乎实现无缝对话。

据光年AI了解，GPT-4o 语音模式不仅反应快速，其声音更是堪比真人。OpenAI 表示，GPT-4o 语音模式可以感知语音中的情感语调，包括悲伤、兴奋或歌唱。

OpenAI 发言人林赛・麦卡勒姆（Lindsay McCallum）表示：“ChatGPT 不能假冒他人的声音，包括个人和公众人物的声音，并且会阻止与预设声音不同的输出。”

随着 GPT-4o 语音模式的逐步推广，用户将能够体验到更加自然和流畅的语音交流。这不仅是技术上的突破，也为未来的人机互动设立了新的标准。OpenAI 在不断探索和提升的道路上，致力于为用户带来更优质的体验。#热点引擎计划#

OpenAI 的这一最新进展，预示着人工智能技术在语音交互领域的又一次飞跃。我们期待着在不久的将来，更多用户能够体验到 GPT-4o 带来的全新语音互动体验。