HuggingFace全面支持Llama2:集成、微调、推理

新知榜官方账号

2023-09-19 03:30:32

引言

今天,Meta发布了Llama2,其包含了一系列最先进的开放大语言模型,我们很高兴能够将其全面集成入HuggingFace,并全力支持其发布。Llama2的社区许可证相当宽松,且可商用。其代码、预训练模型和微调模型均于今天发布了。通过与Meta合作,我们已经顺利地完成了对Llama2的集成,你可以在Hub上找到12个开放模型(3个基础模型以及3个微调模型,每个模型都有2种checkpoint:一个是Meta的原始checkpoint,一个是transformers格式的checkpoint)。

主要工作

以下列出了HuggingFace支持Llama2的主要工作:

  • Llama2已入驻Hub:包括模型卡及相应的许可证。
  • 支持Llama2的transformers库使用单GPU微调Llama2小模型的示例。
  • TextGenerationInference(TGI)已集成Llama2,以实现快速高效的生产化推理。
  • 推理终端(InferenceEndpoints)已集成Llama2。

何以Llama2?

Llama2引入了一系列预训练和微调LLM,参数量范围从7B到70B(7B、13B、70B)。其预训练模型比Llama1模型有了显著改进,包括训练数据的总词元数增加了40%、上下文长度更长(4k词元),以及利用了分组查询注意力机制来加速70B模型的推理!但最令人兴奋的还是其发布的微调模型(Llama2-Chat),该模型已使用基于人类反馈的强化学习(ReinforcementLearningfromHumanFeedback,RLHF)技术针对对话场景进行了优化。在相当广泛的有用性和安全性测试基准中,Llama2-Chat模型的表现优于大多数开放模型,且其在人类评估中表现出与ChatGPT相当的性能。更多详情,可参阅其论文。

模型训练与微调

在技术和计算上都有一定的挑战。本节,我们将介绍HuggingFace生态中有哪些工具可以帮助开发者在简单的硬件上高效训练Llama2,我们还将展示如何在单张NVIDIAT4(16GB-GoogleColab)上微调Llama27B模型。你可以通过让LLM更可得这篇博文了解更多信息。我们构建了一个脚本,其中使用了QLoRA和trl中的SFTTrainer来对Llama2进行指令微调。

推理

本节,我们主要介绍可用于对Llama2模型进行推理的两种不同方法。在使用这些模型之前,请确保你已在MetaLlama2存储库页面申请了模型访问权限。

其他资源

论文、Hub上的模型、OpenLLM排行榜、Meta提供的Llama2模型使用大全等。

本页网址:https://www.xinzhibang.net/article_detail-12368.html

寻求报道,请 点击这里 微信扫码咨询

关键词

HuggingFace Llama2 OpenLLM 模型训练 推理终端 PEFT微调

分享至微信: 微信扫码阅读

相关工具

相关文章