微软的Phi-3.5系列发布三重威胁

发布日期: 2024年8月22日 来源:Dataconomy

微软通过新的 Phi-3.5 系列在 AI 领域迈出了新的一步,提供了三种为不同任务设计的最先进模型。这些模型不仅功能强大,而且用途广泛,使开发人员能够轻松处理从基本编码到复杂问题解决,甚至视觉任务。无论您是使用有限资源,还是需要高级的 人工智能 功能,Phi-3.5 系列模型都能满足您的需求,以下是一个快速概览。

解析微软的Phi-3.5模型

微软最新发布的 Phi 3.5 系列引入了三种先进的 AI 模型:Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct 和 Phi-3.5-vision-instruct。每个模型都是为特定需求而设计的,从基本逻辑推理到高级多模态任务处理。

所有三个微软 Phi-3.5 模型都在 MIT 许可下发布,这允许开发人员在几乎没有限制的情况下使用、修改和分发这些模型。这种开源方法支持广泛采用,并促进了各个应用和研究领域的创新。

Phi-3.5 Mini Instruct:高效紧凑

微软 Phi-3.5 Mini Instruct 模型在计算资源有限的环境中表现出色。拥有 38 亿参数,专为需要强逻辑推理能力但不需要大量计算能力的任务而设计。使用 512 个 H100-80G GPU 训练了 3.4 万亿个标记,耗时 10 天。

主要特点:

  • 参数: 38 亿
  • 上下文长度: 128k 个标记
  • 主要用途: 代码生成、数学问题解决、基于逻辑的推理
  • 性能: 尽管尺寸较小,它在多语言和多回合对话任务中表现出色。它在测量长上下文代码理解的基准测试 RepoQA 中表现优异,超过了 Llama-3.1-8B-instruct 等类似尺寸的模型。

Phi-3.5 Mini Instruct 的高效设计使其在资源受限的情况下仍能提供强大的性能。这使其适合在计算资源有限但仍需要高性能的情况下部署。

Phi-3.5 MoE:专家混合架构

微软 Phi-3.5 MoE(专家混合) 模型通过将多个专门的模型组合成一个代表了一种复杂的 AI 架构方法。它具有独特的设计,不同的“专家”根据任务被激活,优化各个领域的性能。使用 512 个 H100-80G GPU 训练了 4.9 万亿个标记,耗时 23 天。

主要特点:

  • 参数: 420 亿(活跃),其中 66 亿在操作期间被激活
  • 上下文长度: 128k 个标记
  • 主要用途: 复杂推理任务、代码理解、多语种语言理解
  • 性能: MoE 模型在代码和数学任务中表现出色,并具有较强的多语种理解能力。它在某些基准测试中经常超过更大的模型,包括在 5 轮 MMLU(大规模多任务语言理解)测试中明显优于 GPT-4o mini。

Phi-3.5 MoE 架构通过激活与给定任务相关的一部分参数来增强可扩展性和效率。这使得模型能够处理各种应用,同时在不同语言和主题中保持高性能。

Phi-3.5 Vision Instruct:高级多模态能力

微软Phi-3.5 Vision Instruct 模型旨在处理文本和图像数据,使其成为多模态 AI 任务处理的强大工具。它集成了先进的图像处理和文本理解,支持多种复杂的视觉和文本分析任务。使用 256 个 A100-80G GPU 训练了 5000 亿个标记,耗时 6 天。

主要特点:

  • 参数: 41.5 亿
  • 上下文长度: 128k 个标记
  • 主要用途: 图像理解、光学字符识别(OCR)、图表和表格理解、视频摘要
  • 性能: 在合成和过滤的公共数据集上训练,Vision Instruct 模型在处理复杂的多帧图像处理任务中表现出色,并提供视觉和文本信息的全面分析。

Phi-3.5 Vision Instruct 模型能够处理和集成文本和图像,使其在需要详细视觉分析的应用中高度多功能化。这种能力在处理多种数据类型和格式的任务中尤其有价值。

Phi-3.5 Vision Instruct 模型还可以通过 Azure AI Studio 访问。