我一直在X上试用Grok-2——它确实是ChatGPT和Gemini的有力竞争对手

发布日期: 2024年8月22日 来源:Toms Guide

Grok-2是一个内置于X平台并通过其内容训练的人工智能聊天机器人,现在已经进入了beta版,这是其前身的巨大进步,使其跻身于领先的AI聊天工具之列,与ChatGPT、Claude和Google Gemini等齐名。

在发布后不久,Grok-2进入了LMSys聊天机器人竞技场排行榜的前五名。这些是对领先LLMs的人工评估,通常由Google、OpenAI和Anthropic占主导,所以对于Grok制造商xAI来说,这是一个巨大的成功。

在新版本发布时,Grok-2也进行了改头换面,其外观更接近其他聊天机器人界面,并具有使用Flux生成图像的能力,该AI图像生成模型来自黑森林实验室,其质量接近行业领先者Midjourney。

过去几天我一直在玩Grok-2,发现它与ChatGPT一样响应迅速,但幽默感更强,并且由于X平台的支持,能够对实时事件作出反应。

测试Grok-2

哇,来自Chatbot Arena的另一个令人兴奋的更新❤️‍🔥@xAI的sus-column-r (Grok 2早期版本)的结果现在公开了**!凭借超过12,000个社区投票,sus-column-r获得了总体排行榜的第三名,甚至与GPT-4o不相上下!它在编码中表现优秀 (#2),… https://t.co/gqSWSwYN0z pic.twitter.com/j9UYDBYNt42024年8月14日

Grok-2-mini对所有拥有X高级订阅的用户开放。首次打开Grok时,您会看到典型的“询问”框、一排建议的想法,然后是来自X的热门话题,Grok可以解释或甚至回答这些问题。

1. 自我检查

Grok-2回答谁是Ryan Morrison的问题

(图片来源:xAI)

我的第一个提示是“Ryan Morrison是谁”,没有比搜索到与自己同名的人更让人尴尬的了(在我的情况下,是视频游戏律师Ryan Morrison)。但通过添加“AI记者”,我得到了一个扎实的结果。

它从我在X上的个人简介、Tom’s Guide上的个人简介及我在X平台上发布的其他信息中提取内容——几乎都是关于AI的内容。

Grok还显示了提到或声称与我有关的X帖子,但只有一个满足这一定义,其他都是随机名叫Ryan并提到AI的人发的帖子。

我决定用我更知名的老板Tom’s Guide全球编辑总监Mark Spoonauer来试试“谁是”的测试。它给出了他职业生涯、编辑理念和X帖子的概览。Grok还提供了一些完全随机、不相关的X帖子。

2. 编码测试

Grok 2

(图片来源:xAI)

我让Claude用Python创建一个名为“魔法森林”的简单文字冒险游戏。在提示中,我给了一些具体要求,包括一个需要解决的谜题、玩家角色及移动和拾取物品的命令。

提示:“创建一个名为‘魔法森林’的Python文字冒险游戏,至少包含3个相互连接的地点,2个需要收集的物品,以及一个简单的谜题。包含一个拥有库存的玩家类,一个房间类及用于移动、拾取物品、检查库存和退出的命令。游戏应有明确的获胜条件。提供完整的、可运行的Python代码。”

代码运行良好,创建了一个我可以在MacBook的终端上玩的简单文字冒险游戏。

当我让Grok-2创建一个具有用户界面的版本,而不仅仅是在终端中运行时,它在修改后的代码中抛出了一系列错误。而且它也无法修复自己的错误。其编码水平大致与GPT-3.5相当。

3. 热门话题

Grok 2

(图片来源:Grok 2)

Grok的一大强大功能,包括新版本,是它能够分析热门话题并从整个X平台提取内容的能力。

这使其在新闻报道方面特别强大。您可以询问任何当前新闻,它可以从X帖子中提取信息,并使用其自己的训练数据,包括X内容,将其放入上下文中。

我询问了Luma Labs Dream Machine 1.5的发布信息,它能够给我一个一段话的总结,以及显示一些示例的X帖子。我接着请求了更多来自新模型的示例和具体信息。

它不仅提供了新功能列表,还展示了多个X帖子中使用v1.5生成的内容。

最终感想

我之前曾说过,由于Grok内置在X中,它是一个非常强大的AI搜索工具。这更多的与X集成有关,而不是模型本身,但随着Grok 2,这一切都改变了。新模型在响应性方面与ChatGPT或Claude相当,并且更加开放,不太可能拒绝请求。

随着Flux的加入,Grok-2也首次获得了生成图像的能力,甚至可以与新闻故事结合,这为审视世界上正在发生的事情增添了一个令人着迷的维度。

有了版本2,Grok现在不仅是大型AI聊天平台的有力竞争对手,还进一步证明了一个观点,即一个应用程序要成为真正的“全能应用程序”,必须拥有一个可行的AI集成,包括与实时数据的访问相结合以将一切联系在一起。