Gemini 1.5 Pro Archives - 光年AI

谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o

这么强的模型，谷歌给大家免费试用。近两日，谷歌在‍不断发布最新研究。继昨日放出最强端侧 Gemma 2 2B 小模型后，刚刚，Gemini 1.5 Pro 实验版本 (0801) 已经推出。用户可以通过 Google AI Studio 和 Gemini API 进行测试和反馈。既然免费，那我们帮大家测试一下最近比较火的比大小问题。当我们问 Gemini 1.5 Pro (0801) 9.9 和 9.11 哪个数大时，模型一次就能回答正确，并给出了理由。当我们继续追问「Strawberry 单词里面有多少个 r」时，然而 Gemini 1.5 Pro (0801) 却翻车了。在提示语中施加「咒语」一步一步来，模型分析到第四步就出错了。 Google AI Studio 测试地址：https://aistudio.google.com/app/prompts/new_chat 不过，从官方评测来看，Gemini 1.5 Pro (0801) 各项指标还是很能打的。新模型迅速夺得著名的 LMSYS Chatbot Arena 排行榜榜首，并拥有令人印象深刻的 ELO 分数，得分为 1300。这一成就使 Gemini 1.5 Pro (0801) 领先于 OpenAI 的 GPT-4o（ELO：1286）和 Anthropic 的 Claude-3.5 Sonnet（ELO：1271）等强大竞争对手，这或许预示着人工智能格局的转变。 Gemini 团队关键成员 Simon Tokumine 称 Gemini 1.5 Pro (0801) 是谷歌迄今为止制造的最强大、最智能的 Gemini （模型）。除了拿到 Chatbot Arena 榜首，Gemini 1.5 Pro (0801) 在多语言任务、数学、Hard Prompt 和编码等领域也表现相当出色。具体而言，Gemini 1.5 Pro (0801) 在中文、日语、德语、俄语方面均表现第一。但在编码、Hard Prompt 领域，Claude 3.5 Sonnet、GPT-4o、Llama 405B 仍然处于领先地位。在 win-rate 热图上：Gemini 1.5 Pro (0801) 对阵 GPT-4o 的胜率为 54%，对阵 Claude-3.5-Sonnet 的胜率为 59%。 Gemini 1.5 Pro (0801) 在 Vision 排行榜上也第一！网友纷纷表示，谷歌这次真是出乎所有人的预料，没有提前官宣就突然开放测试最强模型，这次压力给到了 OpenAI。虽然 Gemini 1.5 Pro (0801) 取得了很高的成绩，但它仍处于实验阶段。这意味着该模型在广泛使用之前可能会进行进一步的修改。网友评测有网友对 Gemini 1.5 Pro (0801) 的内容提取能力、代码生成能力、推理能力等进行了测试，我们来看下他的测试结果。来源：https://x.com/omarsar0/status/1819162249593840110 首先，Gemini 1.5 Pro (0801) 的图像信息提取功能很强，例如输入一张发票图像，将发票细节用 JSON 格式编写出来：再来看下 Gemini 1.5 Pro (0801) 的 PDF 文档内容提取功能，以经典论文《Attention Is All You Need》为例，提取论文章节目录：让 Gemini 1.5 Pro (0801) 生成一个帮助学习大型语言模型（LLM）知识的 Python 游戏，该模型直接生成了一整段代码：值得一提的是，Gemini 1.5 Pro (0801) 还给出了详细的代码解释，包括代码中函数的作用、该 Python 游戏的玩法等等。这段程序可以直接在 Google AI Studio 中运行，并且可以试玩，例如做道关于 Tokenization 定义的选择题：如果觉得选择题太简单无聊，可以进一步让 Gemini 1.5 Pro (0801) 生成一个更复杂的游戏：得到一个 LLM 专业知识句子填空游戏：为了测试 Gemini 1.5 Pro (0801) 的推理能力，网友提问了一个「吹蜡烛」问题，但模型回答错误：尽管有一些瑕疵，但 Gemini 1.5 Pro (0801) 的确表现出接近 GPT-4o 的视觉能力，以及接近 Claude 3.5 Sonnet 的代码生成和 PDF 理解、推理能力，值得期待。参考链接： https://www.youtube.com/watch?v=lUA9elNdpoY https://x.com/lmsysorg/status/1819048821294547441

新王登基，Gemini 1.5 Pro 再度更新，超越 GPT 4o 和 Claude-3.5

作者丨刘洁编辑丨岑峰 lmsys官方在推特发布一则消息，恭喜DeepMind研发的Gemini 1.5 Pro 实验版（0801）在Chatbot Arena排名登顶，超越GPT 4o和Claude-3.5夺得第一。这是继今年3月Claude 3 “超大杯”Opus版本短暂超越GPT-4以来，OpenAI第二次让出Chatbot Arena的Overall ranking宝座。（正如我们前天说的，越来越多的大模型向OpenAI发起了冲击） Gemini 1.5 Pro 实验版（0801）在Chatbot Arena测试一周后。获得了超过12，000个社区投票，在Chatbot Arena和Vision Leaderboard排名上均取得了第一名的好成绩。之前说GPT-4o有刷分技巧，现在看起来Gemini 1.5 Pro可能也学到了这个技巧呢。 Gemini 1.5 Pro 实验版（0801）不仅在综合表现上极为突出，在各个细分领域上也有着出色的表现。它在数学方面排名前三，指令遵循排名前二，编码排名前五，硬提示（英语）排名前五。 Gemini 1.5 Pro 实验版（0801）具有强大的多语言能力，在中文、日语、德语、俄语方面均表现第一。从总体胜率图上，也能看出Gemini 1.5 Pro 实验版（0801）实力强劲，对阵 GPT-4o 的胜率为 54%，对阵 Claude-3.5-Sonnet 的胜率为 59%。前OpenAI的开发者，现Google AI Studio的产品负责人Logan Kilpatrick火速转发，向大家宣布Gemini 1.5 Pro 实验版（0801）目前在 LMSYS 的文本和多模式排名中均位居第一的好消息。 DeepMind的CEO Demis Hassabis也转发了这条消息，祝贺Gemini 1.5 Pro 实验版（0801）能够在极具竞争力的榜单中拿下第一，并且宣布这一版本的已经可以在 AI Studio上进行试用。带领研发Gemini的Jeff Dean也随后转发，对此次实验版本的Gemini 1.5 Pro突破1300+elo分数拿下排名第一的好消息感到非常自豪，也很期待未来能看到其他更好的模型。听闻这则消息，其他从业人员也纷纷发来祝贺。也有不少人分享自己的试用体验。大神elvis对在聊天机器人领域超越了 GPT-4o 和 Claude 3.5 Sonnet的Gemini 1.5 Pro非常感兴趣。elvis分享了自己的测试全过程视频，并总结道，Gemini 1.5 Pro强大的图像和PDF提取能力给他留下了深刻的印象，Gemini 1.5 Pro有着和GPT-4o不相上下的视觉能力，也有Claude 3.5 Sonnet接近的代码生成及PDF理解/推理能力。有人认为Gemini 1.5 Pro在解决高级数学难题方面表现相当不错。也有人说Gemini 1.5 Pro在图像识别植物和动物方面做得确实要比GPT 4o更好。也有更多的人在期待Gemini 1.5 Pro这一版本的正式上线，希望能够API实现Gemini 1.5 Pro的实际运用。参考材料: https://x.com/lmsysorg/status/1819048821294547441 https://x.com/OfficialLoganK/status/1819049322295533684 https://x.com/demishassabis/status/1819085274917622198 https://x.com/JeffDean/status/1819121162578022849 https://x.com/omarsar0/status/1819162249593840110