新知榜官方账号
2023-09-23 00:00:51
SambaNova与Together合作开源了可商用的BLOOMChat多语言聊天大语言模型,该模型支持多种语言的对话、问题回答和生成性答案。BLOOMChat是一个新的、开放的、多语言的聊天LLM。
在针对英语、中文、法语、阿拉伯语、西班牙语、印度语这6种语言的评测中,BLOOMChat在65.92%的时间内表现更优。且在使用BLOOMChat进行跨语言NLP任务的初步研究中,BLOOMChat在WMT翻译基准中的表现要优于其他BLOOM变体和主流开源聊天模型。
项目团队使用定性和定量措施来评估了BLOOMChat的多语言聊天能力以及跨语言任务能力。共做了3种不同场景的实验测评,评测了英语、中文、阿拉伯语、法语、西班牙语和印度语。
旨在将BLOOMChat模型在多种语言中的聊天能力与现有的开源模型以及选定的封闭源模型进行比较。使用了“OpenAssistantConversations”附录E中的22个英文问题作为基准。首先让一些人类志愿者将这22个英文问题手动翻译成他们各自的母语;然后让另一组不同的志愿者,在匿名的前提下评价每个模型所给出的回答。将BLOOMChat与OpenAssistant-30B、LLaMA-Adapter-V2-65B和BLOOMZ(176B)三种开源模型进行了比较:51名志愿者在所有模型和6种语言中共提交了1158次比较。如上图所示,BLOOMChat(65.92%)明显优于其它几个开源模型。
此实验旨在验证BLOOMChat生成的多种语言文本的质量。81.8%的回答被归类为“正确”或“可接受但有轻微缺陷”。尽管只在英语数据集上进行了微调,但BLOOMChat在每种语言中都获得了超过70%的“正确”或“可接受”评级。
为了初步了解模型解决跨语言NLP任务的能力,评估了模型在WMT翻译任务上的翻译能力。总体而言,BLOOMChat在翻译任务中的表现明显优于其他BLOOM变体和开源聊天模型,但和GPT-4还有一定差距。
此外,BLOOMChat团队也坦承了一些该模型的局限性:
最后,BLOOMChat团队希望该模型的发布能够为开源社区的持续讨论做出贡献,并激发LLM领域的进一步发展。
相关工具
相关文章
相关快讯
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16