微软发布了其小型语言模型 Phi-3.5 的最新版本。这个新版本是对上一代的重大升级,在几个重要指标上击败了谷歌、OpenAI、Mistral 和 Meta 等领先公司的小型模型。
Phi-3.5 有 38 亿、41.5 亿和 419 亿个参数版本。这三个版本都可以免费下载,可以使用 Ollama 等本地工具运行。
它在推理方面表现特别出色,在领先的小型模型中仅次于 GPT-4o-mini。它在数学基准测试中也表现出色,大大超过了 Llama 和 Gemini。
像 Phi-3.5 这样的小型语言模型展示了人工智能效率的提高,并为 OpenAI 首席执行官 Sam Altman 创造廉价到无法计量的智能的目标增添了可信度。
Phi-3.5有什么新变化
🔥 新的Phi-3.5模型现已登上开放LLM排行榜!• Phi-3.5-MoE-instruct以35.1分的平均得分领先所有微软模型,在3B类别中排名第1,在所有聊天模型中排名第10• Phi-3.5-mini-instruct得分为27.4分,在3B类别中排名第3… pic.twitter.com/yNcOR2bcxX2024年8月22日
Phi-3.5有一个视觉模型版本,能理解图像而不仅仅是文本,还有一个专家模型混合版本,通过将学习任务分配到不同的子网络来提高处理效率。
这种专家模型混合版本超过了Gemini Flash 1.5,这是在多个基准测试中使用的免费的Gemini聊天机器人的模型,并且有一个大的128k上下文窗口。虽然这显著小于Gemini本身,但与ChatGPT和Claude相等。
安装此类极小模型的主要好处是,它可以与应用程序捆绑在一起,甚至可以安装在物联网设备上,比如智能门铃,从而实现不将数据发送到云端的人脸识别功能。
最小的模型使用512个Nvidia H100 GPU训练了3.4万亿个数据标记,耗时10天。专家模型混合版本包括了16个3.8b参数模型,使用了4.9万亿个数据标记,耗时23天进行训练。
Phi-3.5实际效果如何?
我在笔记本电脑上安装并运行了Phi-3.5的3.8亿参数的小版本,发现它的表现并没有基准测试暗示的那样印象深刻。虽然它的回答比较冗长,但说辞常常不尽如人意,并在一些简单测试中表现挣扎。
我向它提出一个经典问题:“写一个短的单句故事,其中每个词的首字母与前一个词的末字母相同。”即使在澄清后,它也彻底失败了。
我还没有尝试更大的专家模型混合版本。不过,从基准测试来看,它解决了我试用的模型版本中的一些问题。基准测试表明,它的输出质量类似于OpenAI的GPT-4o-mini,这是ChatGPT免费版本中提供的版本。
在STEM和社会科学领域似乎超过了GPT-4o-mini。其架构使它能够在管理不同语言的复杂AI任务时保持高效。
总结:
微软最近发布了其最新的小型语言模型Phi-3.5。相比上一代,它在多个重要指标上超越了Google、OpenAI、Mistral和Meta等行业巨头的小型模型。Phi-3.5提供3.8亿、4.15亿和41.9亿参数版本,均可免费下载并在本地工具如Ollama上运行。特别是在推理和数学基准测试方面表现优异,尽管个别测试中被GPT-4o-mini略胜一筹。Phi-3.5包括一个视觉模型版本和一个专家模型混合版本,通过分配子网络任务提升效率。尽管安装和运行此类小型模型的好处在于可与应用程序捆绑,适用于物联网设备,但性能仍有一定局限性,特别是在处理复杂任务时。然而,从基准测试来看,专家模型混合版本解决了许多小版本中的问题,其性能甚至比部分GPT-4o-mini版本更优秀,尤其在STEM和社会科学领域。
微软发布的Phi-3.5不仅在处理能力上实现了突破,更展示了小型语言模型在应用领域的巨大潜力。通过引入专家模型混合版本,Phi-3.5不仅提升了效率,还超越了许多竞品。而这正如光年AI在私域流量管理中所做的一样,以智能化、精准化的方式提升营销效率。用光年AI,轻松提升私域流量转化率,赢得市场先机!在这个AI驱动的时代,选择正确的工具不仅是提升生产力的关键,更是赢得竞争的核心。