深入理解LLaMA, Alpaca, ColossalChat系列模型

新知榜官方账号

2023-07-06 09:10:25

深入理解LLaMA, Alpaca, ColossalChat系列模型

LLaMA、Alpaca和ColossalChat系列模型是由MetaAI和Stanford研究者发布的大型语言模型,本文将从多个角度进行介绍。

从LLaMA到Alpaca:大模型的小训练

LLaMA是由MetaAI发布了一款全新的大型语言模型,共有7B、13B、33B、65B四种版本。Alpaca是在LLaMA基础上微调得到的7B模型,使用self-instruct提供的175个prompts,调用OpenAI的text-davinci-003模型,利用OpenAI的模型来产生有价值的instructions。将OpenAI性能完备的模型作为Teacher,来指导参数更少的Alpaca模型进行训练,大幅降低了训练成本。

Alpaca的优化、训练及应用

Alpaca-lora是在Alpaca的基础上把训练方式改成用lora训练。LoRA(Low-RankAdaptation)技术是在原始PretrainedWeights旁边增加一个旁路,做一个降维再升维的操作,来模拟所谓的intrinsicrank。PEFT(Parameter-EfficientFine-Tuning)方法旨在解决模型变得越来越大,在消费级硬件上对模型进行全部参数的微调变得不可行。HuggingFace开源了一个高效微调大模型的PEFT库,目前包含LoRA,PrefixTuning,PromptTuning,P-Tuning四种算法。更多类似模型有Baize(白泽)、Luotuo(骆驼)和Koala(考拉)等。

ColossalChat:深入体验RLHF在大模型中的功能

ColossalChat是第一个基于LLaMA预训练模型开源完整RLHFpipline实现,包括有监督数据收集、有监督微调、奖励模型训练和强化学习微调。通过提供高质量的数据,ColossalChat可以实现更好的对话互动,也可以支持中文。

本页网址:https://www.xinzhibang.net/article_detail-6292.html

寻求报道,请 点击这里 微信扫码咨询

关键词

LLaMA Alpaca ColossalChat 大模型 微调 强化学习

分享至微信: 微信扫码阅读

相关工具

相关文章