新知榜官方账号
2023-08-06 04:38:40
开源的力量正在源源不断地影响着整个AI社区,无论是LLM还是数据集。本文作者SebastianRaschka对相关资源进行了汇总,并分享了自己的洞见。
前段时间,谷歌泄露的内部文件表达了这样一个观点,虽然表面看起来OpenAI和谷歌在AI大模型上你追我赶,但真正的赢家未必会从这两家中产生,因为有一个第三方力量正在悄然崛起。这个力量就是「开源」。围绕Meta的LLaMA开源模型,整个社区正在迅速构建与OpenAI、谷歌大模型能力类似的模型,而且开源模型的迭代速度更快,可定制性更强,更有私密性。
近日,前威斯康星大学麦迪逊分校助理教授、初创公司LightningAI首席AI教育官SebastianRaschka表示,对于开源而言,过去一个月很伟大。不过,那么多大语言模型(LLM)纷纷出现,要紧紧把握住所有模型并不容易。所以,Sebastian在本文中分享了关于最新开源LLM和数据集的资源和研究洞见。
过去一个月出现了很多研究论文,因此很难从中挑选出最中意的几篇进行深入的探讨。Sebastian更喜欢提供额外洞见而非简单展示更强大模型的论文。鉴于此,引起他注意力的首先是EleutherAI和耶鲁大学等机构研究者共同撰写的Pythia论文。
在重复数据上的训练(即训练epoch>1)会不会有什么影响?结果表明,数据去重不会改善或损害性能;训练命令会影响记忆吗?遗憾的是,结果表明并不会。之所以说遗憾,是因为如果影响的话,则可以通过训练数据的重新排序来减轻讨厌的逐字记忆问题;batch大小加倍可以将训练时间减半但不损害收敛。
对于开源AI,过去一个月特别令人兴奋,出现了几个LLM的开源实现和一大波开源数据集。这些数据集包括DatabricksDolly15k、用于指令微调的OpenAssistantConversations(OASST1)、用于预训练的RedPajama。Databricks-Dolly-15是一个用于LLM微调的数据集,它由数千名DataBricks员工编写了超过15,000个指令对(与训练InstructGPT和ChatGPT等系统类似)。OASST1数据集用于在由人类创建和标注的类ChatGPT助手的对话集合上微调预训练LLM,包含了35种语言编写的161,443条消息以及461,292个质量评估。这些是在超过10,000个完全标注的对话树中组织起来。RedPajama是一个用于LLM预训练的开源数据集,类似于Meta的SOTALLaMA模型。该数据集旨在创建一个媲美大多数流行LLM的开源竞争者,目前这些LLM要么是闭源商业模型要么仅部分开源。
其他开源LLM大模型的发展速度奇快,我们无法一一列举,本月推出的一些著名的开源LLM和聊天机器人包括Open-Assistant、Baize、StableVicuna、ColossalChat、Mosaic的MPT等。此外,下面是两个特别有趣的多模态LLM。OpenFlamingo是GoogleDeepMind去年发布的Flamingo模型的开源复制版。OpenFlamingo旨在为LLM提供多模式图像推理功能,让人们能够交错输入文本和图像。MiniGPT-4是另一种具有视觉语言功能的开源模型。它基于BLIP-27的冻结视觉编码器和冻结的VicunaLLM。
微信扫码咨询
相关工具
相关文章
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49