新知榜官方账号
2023-08-06 04:38:40
开源的力量正在源源不断地影响着整个AI社区,无论是LLM还是数据集。本文作者SebastianRaschka对相关资源进行了汇总,并分享了自己的洞见。
前段时间,谷歌泄露的内部文件表达了这样一个观点,虽然表面看起来OpenAI和谷歌在AI大模型上你追我赶,但真正的赢家未必会从这两家中产生,因为有一个第三方力量正在悄然崛起。这个力量就是「开源」。围绕Meta的LLaMA开源模型,整个社区正在迅速构建与OpenAI、谷歌大模型能力类似的模型,而且开源模型的迭代速度更快,可定制性更强,更有私密性。
近日,前威斯康星大学麦迪逊分校助理教授、初创公司LightningAI首席AI教育官SebastianRaschka表示,对于开源而言,过去一个月很伟大。不过,那么多大语言模型(LLM)纷纷出现,要紧紧把握住所有模型并不容易。所以,Sebastian在本文中分享了关于最新开源LLM和数据集的资源和研究洞见。
过去一个月出现了很多研究论文,因此很难从中挑选出最中意的几篇进行深入的探讨。Sebastian更喜欢提供额外洞见而非简单展示更强大模型的论文。鉴于此,引起他注意力的首先是EleutherAI和耶鲁大学等机构研究者共同撰写的Pythia论文。
在重复数据上的训练(即训练epoch>1)会不会有什么影响?结果表明,数据去重不会改善或损害性能;训练命令会影响记忆吗?遗憾的是,结果表明并不会。之所以说遗憾,是因为如果影响的话,则可以通过训练数据的重新排序来减轻讨厌的逐字记忆问题;batch大小加倍可以将训练时间减半但不损害收敛。
对于开源AI,过去一个月特别令人兴奋,出现了几个LLM的开源实现和一大波开源数据集。这些数据集包括DatabricksDolly15k、用于指令微调的OpenAssistantConversations(OASST1)、用于预训练的RedPajama。Databricks-Dolly-15是一个用于LLM微调的数据集,它由数千名DataBricks员工编写了超过15,000个指令对(与训练InstructGPT和ChatGPT等系统类似)。OASST1数据集用于在由人类创建和标注的类ChatGPT助手的对话集合上微调预训练LLM,包含了35种语言编写的161,443条消息以及461,292个质量评估。这些是在超过10,000个完全标注的对话树中组织起来。RedPajama是一个用于LLM预训练的开源数据集,类似于Meta的SOTALLaMA模型。该数据集旨在创建一个媲美大多数流行LLM的开源竞争者,目前这些LLM要么是闭源商业模型要么仅部分开源。
其他开源LLM大模型的发展速度奇快,我们无法一一列举,本月推出的一些著名的开源LLM和聊天机器人包括Open-Assistant、Baize、StableVicuna、ColossalChat、Mosaic的MPT等。此外,下面是两个特别有趣的多模态LLM。OpenFlamingo是GoogleDeepMind去年发布的Flamingo模型的开源复制版。OpenFlamingo旨在为LLM提供多模式图像推理功能,让人们能够交错输入文本和图像。MiniGPT-4是另一种具有视觉语言功能的开源模型。它基于BLIP-27的冻结视觉编码器和冻结的VicunaLLM。
相关工具
相关文章
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16