开源的力量:LLM和数据集的最新进展

新知榜官方账号

2023-08-06 04:38:40

选自AheadofAI机器之心编译编译:杜伟、泽南

开源的力量正在源源不断地影响着整个AI社区,无论是LLM还是数据集。本文作者SebastianRaschka对相关资源进行了汇总,并分享了自己的洞见。

前段时间,谷歌泄露的内部文件表达了这样一个观点,虽然表面看起来OpenAI和谷歌在AI大模型上你追我赶,但真正的赢家未必会从这两家中产生,因为有一个第三方力量正在悄然崛起。这个力量就是「开源」。围绕Meta的LLaMA开源模型,整个社区正在迅速构建与OpenAI、谷歌大模型能力类似的模型,而且开源模型的迭代速度更快,可定制性更强,更有私密性。

近日,前威斯康星大学麦迪逊分校助理教授、初创公司LightningAI首席AI教育官SebastianRaschka表示,对于开源而言,过去一个月很伟大。不过,那么多大语言模型(LLM)纷纷出现,要紧紧把握住所有模型并不容易。所以,Sebastian在本文中分享了关于最新开源LLM和数据集的资源和研究洞见。

论文与趋势

过去一个月出现了很多研究论文,因此很难从中挑选出最中意的几篇进行深入的探讨。Sebastian更喜欢提供额外洞见而非简单展示更强大模型的论文。鉴于此,引起他注意力的首先是EleutherAI和耶鲁大学等机构研究者共同撰写的Pythia论文。

在重复数据上的训练(即训练epoch>1)会不会有什么影响?结果表明,数据去重不会改善或损害性能;训练命令会影响记忆吗?遗憾的是,结果表明并不会。之所以说遗憾,是因为如果影响的话,则可以通过训练数据的重新排序来减轻讨厌的逐字记忆问题;batch大小加倍可以将训练时间减半但不损害收敛。

开源数据

对于开源AI,过去一个月特别令人兴奋,出现了几个LLM的开源实现和一大波开源数据集。这些数据集包括DatabricksDolly15k、用于指令微调的OpenAssistantConversations(OASST1)、用于预训练的RedPajama。Databricks-Dolly-15是一个用于LLM微调的数据集,它由数千名DataBricks员工编写了超过15,000个指令对(与训练InstructGPT和ChatGPT等系统类似)。OASST1数据集用于在由人类创建和标注的类ChatGPT助手的对话集合上微调预训练LLM,包含了35种语言编写的161,443条消息以及461,292个质量评估。这些是在超过10,000个完全标注的对话树中组织起来。RedPajama是一个用于LLM预训练的开源数据集,类似于Meta的SOTALLaMA模型。该数据集旨在创建一个媲美大多数流行LLM的开源竞争者,目前这些LLM要么是闭源商业模型要么仅部分开源。

LLM的发展

其他开源LLM大模型的发展速度奇快,我们无法一一列举,本月推出的一些著名的开源LLM和聊天机器人包括Open-Assistant、Baize、StableVicuna、ColossalChat、Mosaic的MPT等。此外,下面是两个特别有趣的多模态LLM。OpenFlamingo是GoogleDeepMind去年发布的Flamingo模型的开源复制版。OpenFlamingo旨在为LLM提供多模式图像推理功能,让人们能够交错输入文本和图像。MiniGPT-4是另一种具有视觉语言功能的开源模型。它基于BLIP-27的冻结视觉编码器和冻结的VicunaLLM。

本页网址:https://www.xinzhibang.net/article_detail-9358.html

寻求报道,请 点击这里 微信扫码咨询

关键词

开源 LLM 数据集

分享至微信: 微信扫码阅读

相关工具

相关文章