我刚刚体验了24小时的Gemini Live —— 优缺点如下

发布日期: 2024年8月22日 来源:Toms Guide

人工智能开发人员一直在尝试解锁数字个人助理的挑战,提供一种智能、易于互动且随时待命的服务。Gemini Live在本周早些时候的Made by Google活动中宣布,这是Google的新尝试,因此我对这个AI进行了24小时的测试,以看看它是否真的有用。

虽然我不习惯与人工智能助手直接聊天,通常只是让我做饭时设置计时器,但我想看看与Gemini进行开放式对话的好处是什么。在这一天的测试之后,尽管我对它目前给出的一些答案缺乏信心,但我至少能肯定,与这样的人工智能对话是有价值的。

虽然我对Gemini Live的实验远非它能力的正式测试,但它处理的各种问题让我们对它擅长和不擅长的方面有了良好的印象。所以我有信心评估出Gemini Live将是Gemini套件的一个很好的补充,也许是一些免费用户每月20美元升级到Gemini Advanced的充分理由。即使它还没有实现所有目标。

星期四下午——设置

Gemini Live

(图片来源: Tom’s Guide)

Gemini Live作为Gemini Advanced订阅的一部分,但在我写这篇文章的时候,它还没有向所有用户推出。幸运的是,我有一台Google Pixel 9 Pro XL可以试用。如果你想了解更多关于这款手机的信息,可以查看我们的Google Pixel 9 Pro XL评测,因为我们在这里将专注于Gemini Live。

另一个问题是,目前你需要将Gemini语言设置为美式英语才能使用。幸运的是,即使调整语言设置之后,我还是可以从十种选项中选择一个名为“Capella”的英国口音语音来进行Gemini聊天。所有声音都听起来相当自然,只是不同的热情程度和声音音高不同。即使你开始提问,也很少会出现特别明显的发音错误或奇怪的句子。

星期四晚上——回家

Gemini Live

(图片来源: Tom’s Guide)

一切设置好之后,我与Gemini Chat的第一次重要互动是询问回家的路线。在告诉它我的交通方式并确认车站之后,Gemini Live最初没有告诉我它找到了什么。等了很久之后,我再次提示它告诉我它找到了什么,它描述了路线。

我可能会按照路线回家。不过,这不会是最顺畅的旅程。Gemini错误识别了一条火车线路和一个车站,忽略了我的一次换乘实际上需要在两个车站之间步行,然后似乎凭空编造了一趟火车。这很奇怪,因为Gemini声称它参考了伦敦交通网站的信息。

这是根本性的人工智能模型问题,而不是Gemini Live的问题,但一个听起来权威的英国口音建议的路线,可能会让不熟悉伦敦公共交通的人感到迷茫。看起来你还是最好坚持使用Google地图做这种事情。

星期五早上——新闻简报

Gemini Live

(图片来源: Tom’s Guide)

第二天,我让Gemini带我浏览当天的新闻,因为我准备上班了。只需一个提示,它就能告诉我很多关于《早安英国》和《今晨》节目主持人变动的消息,以及莱切斯特广场最近刺伤事件的简短提及。但当我询问科技资讯时,情况变得奇怪了。

Google Gemini最初告诉我Microsoft宣布了Surface Duo 3——这款设备尚未确认,事实上已有好几个月被传取消了。PS5 Slim是真的,但去年秋季就已发布,我们可以假定它指的是上个月的Crowdstrike中断问题。

然后我请Gemini Live集中介绍iPhone的传闻,但最初它的答案全都与当前可用的iPhone 15系列有关。在进一步提示下,它描述了一些iPhone 16相机的传闻,但没有详尽细节。

星期五上午 —— 冲泡指南

Gemini Live

(图片来源: Tom’s Guide)

工作了几个小时后,是时候休息一下喝咖啡了,所以我试图让Gemini Live指导我冲泡一杯V60手冲咖啡。

我希望AI能逐步指导,但你得不断提示或中断Gemini Live,才能有效地迫使它按照步骤回答。不过,它能保持对话,尽管记录显示它最初误听到了我的提示,但依然提供了听起来很有道理的答案。

在知识方面,Gemini表现好坏参半。它提供了一些爱好者级别的提示,比如在煮沸前过滤我的水。总体来说,虽然简单,但这个配方确实泡出了一杯可以喝的咖啡。但Gemini Live还建议我用汤匙来衡量咖啡豆的重量,而不用克或盎司,这在冲泡时不是典型的衡量单位。不过在多一次提示后,我得到了克数。

星期五午餐时间 —— 格斗对话

午餐时间有点空闲,我和Gemini Live聊了聊我目前玩的最多的游戏《街头霸王6》。它正确说出了今年的Evo 2024 SF6冠军及其对手的名字,但最初并没有给出太多的细节。

我把对话转向了训练建议(我倾向于过度依赖某些动作),它给了一些关于如何在比赛中重新思考我的方法的建议。虽然当对手向你投掷火球时,这些建议听起来更简单些,但它仍然是有效的建议。

我还试图得到一些关于哪里可以找到线下聚会的指导,不过这一点表现得不太好。它试图查看官方网站的详细信息,但发现除了Capcom的官方比赛之外,没有别的内容。然后它为我找到了一个附近的Facebook小组,但在记录中无法给我一个访问链接。

星期五下午 —— 写作建议

Gemini Live

(图片来源: Tom’s Guide)

“想象一下,有一个现实生活中的助手随时待命,无需打字或发送照片就能立即提供帮助。这就是Gemini Life的理念。使用Gemini Life,你可以像对朋友说话一样与人工智能助手交谈。我将花费24小时测试它,看看它是否实现了个人助理的梦想。”

Gemini Live的最终介绍建议

作为对Gemini的最后一个任务,我决定探究一下,没错,我们不是在谈论Llama 3。我让它帮助我起草这篇文章的介绍。

在看到Gemini在之前的回答中缺乏细节之后,我对它更愿意建议具体措辞感到惊讶。当我要求它包含更多信息或改变角度时,它以合逻辑的方式回应。就像Google在其Made by Google演示中自豪地指出的那样,Gemini Live能够应对打断并即时调整其答案。

这是Gemini Live表现最好的时候,因为大声迭代一个想法感觉非常自然,即使你是在对着手机上的光波说话。最后,我确实从头开始写了这篇文章的介绍。但如果你向上滚动并与它给我的最终建议进行比较,你可能会看到一些回声。

Google Gemini Live: 最终思考

你可能从这篇文章中认为我对Gemini Live评价不高,但事实并非如此。我最严厉的批评是针对运行它的Gemini Advanced模型,因为它在几个测试场景中似乎误解了它在寻找什么。令人滑稽的是,我们最近进行的Gemini vs. Gemini Advanced对决显示,我可能还不如坚持使用基本版的Gemini。

同时,Gemini Live本身非常令人印象深刻。能够与聊天机器人持续对话,前提是你愿意在它偏离轨道时具体且打断它,这似乎比通过文本或图像提示进行互动要好得多。你可以向常规的数字助手提出后续问题,但它仍然不像Gemini Live那样无缝。而正是这种无缝性使得它变得实用,能够无须手动、无须眼睛集中注意力地帮助回答问题和提供指导,让你在与聊天机器人对话时可以专注于其他事情。

至于这个与即将推出的ChatGPT Voice的比较仍然是一个大问题,尤其是因为Gemini Live依赖于将语音解释为文本再做出回应,而ChatGPT Voice可以直接处理语音。但即使有通常的人工智能限制,感觉Google在实现数字个人助理梦想的道路上走对了方向。