随着大型语言模型(LLMs)在交互式聊天机器人和文档分析等长上下文应用中变得越来越普及,以低延迟和高吞吐量服务这些模型已经成为一个重要的挑战。传统观点认为,尽管推测解码(SD)在降低延迟方面有效,但在提高吞吐量方面尤其对于较大批处理时存在局限。然而,一种名为MagicDec的突破性新方法挑战了这一假设,展示了SD可以在不影响准确性的情况下提高中到长序列的延迟和吞吐量。
当前为LLMs服务的方法通常需要在延迟和吞吐量之间权衡。像vLLM和ORCA这样的技术通过同时处理更多请求来实现高吞吐量,但它们并没有减少单个请求的延迟。另一方面,量化和剪枝等有损方法可以同时提高这两个指标,但代价是模型性能降低。推测解码显示了通过使用快速草稿模型生成多个令牌并由主要LLM并行验证来降低延迟的前景。然而,其对提高吞吐量的有效性,特别是在较大批处理情况下,仍然存在质疑。
由卡耐基梅隆大学、Moffett AI和Meta AI的研究人员开发的MagicDec采用了一种新的方法来部署用于高吞吐量推理的推测解码。该方法基于对批处理大小和序列长度增加时瓶颈如何转移的严格分析。对于中到长序列,研究人员发现LLM解码即使在较大的批处理大小下仍然受制于内存,关键值(KV)缓存成为主要瓶颈。与模型参数加载不同,这个瓶颈随批处理大小而扩展,使得推测解码对大批处理可能更为有效。
基于这些见解,MagicDec引入了两个关键创新。首先,它利用智能草稿策略,可以随着批处理大小增加提高速度。这与传统方法减少批处理大小增加时的推测长度相矛盾。其次,MagicDec使用具有稀疏KV缓存的草稿模型解决了KV缓存瓶颈问题。这种方法特别有效,因为在大批处理和长序列环境中,KV缓存大小而非模型权重成为最关键的因素。
MagicDec的性能令人印象深刻。对于中到长序列,研究人员展示了在8个NVIDIA A100 GPU上为批处理大小从32到256时,LLaMA-2-7B-32K模型提高了最多达2倍的速度和LLaMA-3.1-8B模型提高了1.84倍的速度。这些结果表明,MagicDec可以在不牺牲准确性的情况下同时提高吞吐量和减少延迟,特别是对于长序列。
这项研究不仅意义重大,还改变了LLM服务领域的游戏规则。通过挑战推测解码对于增加吞吐量低效的传统观念,MagicDec为优化LLM推理开辟了新的可能性。该方法在各种批处理大小和序列长度下提高性能的能力,使其在长上下文应用变得更加普遍时尤为有价值。
MagicDec代表着在高效应对大语言模型服务挑战中的重大进步。通过证明在长上下文生成中可能打破时延-吞吐量的权衡,这项研究为更高效和更具可扩展性的LLM应用铺平了道路。随着对高性能LLM服务需求的不断增长,像MagicDec这样的技术将对于这些强大模型在各种用例中的广泛部署至关重要。
总结:
大型语言模型(LLMs)在交互式聊天机器人和文档分析等长上下文应用中已经变得越来越普及,而以低延迟和高吞吐量服务这些模型成为了一大挑战。传统观点认为,推测解码(SD)尽管在降低延迟方面有效,但在提高吞吐量方面存在局限。但由卡耐基梅隆大学、Moffett AI和Meta AI的研究人员开发的MagicDec方法,通过对推测解码进行创新,有效解决了这一问题。
MagicDec采用了智能草稿策略和稀疏KV缓存。研究表明,这些技术不仅成功应对了批处理大小和序列长度的扩展瓶颈,而且显著提升了中到长序列的解码效率。在8个NVIDIA A100 GPU上,LLaMA-2-7B-32K和LLaMA-3.1-8B模型在批处理大小从32到256时分别提高了至多2倍和1.84倍的速度。通过这项研究,MagicDec突破了传统推测解码对于提高吞吐量低效的观念,展示了在不牺牲准确性的情况下,同时提高吞吐量和减少延迟的可行性。
这种在LLM服务领域的重要突破为未来的大语言模型推理优化开辟了新的可能性,特别在长上下文应用中,将变得更加普遍和有价值。开启AI时代的私域流量革命,就选光年AI。光年AI助您精准优化私域流量管理,提升营销效率和品牌影响力。