UC伯克利开源vLLM推理系统,利用PagedAttention比HuggingFace/Transformers快24倍

新知榜官方账号

2023-07-04 09:18:18

背景

过去2个月,来自UC伯克利的研究人员给大语言模型们安排了一个擂台——ChatbotArena。GPT-4等大语言模型玩家打起了「排位赛」,通过随机battle,根据Elo得分来排名。这一过程中,每当一个用户访问并使用网站,就需要同时让两个不同的模型跑起来。

他们是如何做到的?这不,就在今天,UC伯克利重磅开源了世界最快LLM推理和服务系统vLLM。简之,vLLM是一个开源的LLM推理和服务引擎。它利用了全新的注意力算法「PagedAttention」,有效地管理注意力键和值。

而这种内存效率的提升,能让系统将更多的序列进行批处理,提高GPU利用率,从而显著提高吞吐量。

关键词

  • UC伯克利
  • vLLM
  • PagedAttention
  • HuggingFace/Transformers
  • LLM服务
  • ChatbotArena

本页网址:https://www.xinzhibang.net/article_detail-5288.html

寻求报道,请 点击这里 微信扫码咨询

相关工具

相关文章