开源的力量：LLM和数据集的最新进展

新知榜官方账号

2023-08-06 04:38:40

选自AheadofAI机器之心编译编译：杜伟、泽南

开源的力量正在源源不断地影响着整个AI社区，无论是LLM还是数据集。本文作者SebastianRaschka对相关资源进行了汇总，并分享了自己的洞见。

前段时间，谷歌泄露的内部文件表达了这样一个观点，虽然表面看起来OpenAI和谷歌在AI大模型上你追我赶，但真正的赢家未必会从这两家中产生，因为有一个第三方力量正在悄然崛起。这个力量就是「开源」。围绕Meta的LLaMA开源模型，整个社区正在迅速构建与OpenAI、谷歌大模型能力类似的模型，而且开源模型的迭代速度更快，可定制性更强，更有私密性。

近日，前威斯康星大学麦迪逊分校助理教授、初创公司LightningAI首席AI教育官SebastianRaschka表示，对于开源而言，过去一个月很伟大。不过，那么多大语言模型（LLM）纷纷出现，要紧紧把握住所有模型并不容易。所以，Sebastian在本文中分享了关于最新开源LLM和数据集的资源和研究洞见。

论文与趋势

过去一个月出现了很多研究论文，因此很难从中挑选出最中意的几篇进行深入的探讨。Sebastian更喜欢提供额外洞见而非简单展示更强大模型的论文。鉴于此，引起他注意力的首先是EleutherAI和耶鲁大学等机构研究者共同撰写的Pythia论文。

在重复数据上的训练（即训练epoch>1）会不会有什么影响？结果表明，数据去重不会改善或损害性能；训练命令会影响记忆吗？遗憾的是，结果表明并不会。之所以说遗憾，是因为如果影响的话，则可以通过训练数据的重新排序来减轻讨厌的逐字记忆问题；batch大小加倍可以将训练时间减半但不损害收敛。

开源数据

对于开源AI，过去一个月特别令人兴奋，出现了几个LLM的开源实现和一大波开源数据集。这些数据集包括DatabricksDolly15k、用于指令微调的OpenAssistantConversations(OASST1)、用于预训练的RedPajama。Databricks-Dolly-15是一个用于LLM微调的数据集，它由数千名DataBricks员工编写了超过15,000个指令对（与训练InstructGPT和ChatGPT等系统类似）。OASST1数据集用于在由人类创建和标注的类ChatGPT助手的对话集合上微调预训练LLM，包含了35种语言编写的161,443条消息以及461,292个质量评估。这些是在超过10,000个完全标注的对话树中组织起来。RedPajama是一个用于LLM预训练的开源数据集，类似于Meta的SOTALLaMA模型。该数据集旨在创建一个媲美大多数流行LLM的开源竞争者，目前这些LLM要么是闭源商业模型要么仅部分开源。

LLM的发展

其他开源LLM大模型的发展速度奇快，我们无法一一列举，本月推出的一些著名的开源LLM和聊天机器人包括Open-Assistant、Baize、StableVicuna、ColossalChat、Mosaic的MPT等。此外，下面是两个特别有趣的多模态LLM。OpenFlamingo是GoogleDeepMind去年发布的Flamingo模型的开源复制版。OpenFlamingo旨在为LLM提供多模式图像推理功能，让人们能够交错输入文本和图像。MiniGPT-4是另一种具有视觉语言功能的开源模型。它基于BLIP-27的冻结视觉编码器和冻结的VicunaLLM。

本页网址：https://www.xinzhibang.net/article_detail-9358.html

寻求报道，请

关键词

分享至微信：

相关工具

免费开源的对话式AI，GitHub星标超3万

ColossalChat

Colossal-AI推出的免费开源版ChatGPT聊天机器人替代品

讯飞星火认知大模型

科大讯飞推出的类ChatGPT的讯飞星火认知大模型

360智脑

360搜索最新推出的AI对话聊天机器人

Jasper Chat

Jasper针对内容创作者出品的AI聊天工具

Whispr

免费AI对话回应

WhatsApp即将推出人工智能聊天机器人

WhatsApp即将推出人工智能聊天机器人作为全球最广泛使用的即时通讯应用之一，WhatsApp正准备迎来一次重大更新——集成的人工智能（AI）聊天机器人。这一功能目前正处于Beta测试阶段，预示着用户交互体验的新纪元。AI聊天机器人的引入今年9月，Meta，WhatsApp的母公司，宣布将在其旗下

分类标签 WhatsApp人工智能聊天机器人

11-22 22:34

关于大语言模型的综述

概述本文简述了中国人民大学教授WayneXinZhao等人撰写的关于大语言模型的综述，包括LLMs在预训练、适应调整、应用和能力评估等方面的研究进展。现有大模型的总体情况概览文章总结了最近发布的大模型，并展示了它们的开源情况。黄色的部分是开源的模型，可以看到，Meta、Google开源的模型较多。而

分类标签大语言模型预训练适应调整应用

11-17 04:52

GPU成为大模型算力军备竞赛新焦点，国产GPU能否率先打破藩篱？

背景在生成式AI开创的黄金时代，GPU将犹如翱翔于浩渺天空的翅膀，赋予AI大模型行业强大的推进力。英伟达一骑绝尘，AMD紧随其后，英特尔虎视眈眈，而国产GPU厂商在经过AI的洗礼之后，加之国产替代紧迫的“引力”，不能更不应缺席这场“盛宴”。尽管高端芯片的突围实非易事，但国产GPU能否好风凭借力，率先

分类标签 GPU大模型算力军备竞赛国产GPU英伟达

10-23 03:54

Colossal-AI发布全新Llama2训练微调推理方案，训练速度提升195%

Colossal-AI发布全新Llama2训练微调推理方案，训练速度提升195%近期，全球最大的大模型开发工具与社区Colossal-AI发布了一项令人瞩目的消息：全新的Llama2训练、微调、推理方案，可将700亿参数模型的训练速度提升了整整195%。大型语言模型的崛起，特别是ChatGPT等模型

分类标签 Colossal-AILlama2大模型开发工具训练微调推理方案

10-23 03:50

AI大模型的机遇和挑战

AI大模型的机遇和挑战过去数年，AI模型的参数发生了极大变化。尤洋指出，从2016年至2021年1月，AI模型的参数量是每18个月增长40倍；从2018年1月到2021年1月，AI大语言模型的参数量每18个月增长340倍。而相形之下，2016年1月至2021年1月间，GPU的内存增长每18个月仅有

分类标签 AI模型大模型训练Colossal-AI

10-07 10:03

华为智能AI音箱使用心得

华为智能AI音箱使用心得本文是对华为智能AI音箱的使用心得分享，包括开箱、操作介绍、煲机、音质试听以及体验等方面。开箱华为智能AI音箱的外包装以白色为底色，字体、图标均为淡黑色，包装虽不豪华，却给人清新脱俗的感觉，抢眼的是华为标志的那一抹红色。盒子的正面是简单几笔勾勒出来音箱的外形，上方是产品的名称

分类标签华为智能AI音箱音箱评测智能家居

10-02 02:36

谷歌2018年度研究回顾

谷歌2018年度研究回顾...（省略部分内容）

分类标签谷歌研究院AI机器学习深度学习健康数据集

10-02 02:34

复合元音/ai/的发音和嘴型变化

复合元音/ai/的发音和嘴型变化复合元音/ai/是英语中常见的一个双元音，发音时需要嘴的形状从开始到结束都要有变化。这个音的发音方式是/ai/，和单词“eye”发音一样。一些包含这个音的单词有：price，high，try。如果您在学习英语发音时想要练习这个音，可以跟着以下步骤操作：注

分类标签复合元音双元音发音嘴型变化英语发音英语学习

10-02 02:32

CHATGPT中文版——一款免费的AI聊天机器人

CHATGPT中文版——一款免费的AI聊天机器人CHATGPT中文版是一款让人感到兴奋的聊天机器人，它由OpenAI开发，拥有强大的自然语言处理技术。它的任务是理解你的问题并给予回应，就像你和一个朋友聊天一样。这让我们可以问它关于任何事情的问题，从学术知识到日常生活的疑问，都能找到答案。CHATGP

分类标签 CHATGPT中文版聊天机器人

09-29 10:12

Colossal-AI成功复现ChatGPT，开源完整基于PyTorch的ChatGPT复现流程

背景... ChatGPT技术分析... 使用Colossal-AI低成本复现ChatGPT... 背后优化核心系统... 开放协作...

分类标签 Colossal-AIChatGPTPyTorchAI大模型复现

09-29 10:10

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway