SambaNova与Together发布可商用的BLOOMChat多语言聊天大语言模型

新知榜官方账号

2023-09-23 00:00:51

SambaNova与Together发布可商用的BLOOMChat多语言聊天大语言模型

SambaNova与Together合作开源了可商用的BLOOMChat多语言聊天大语言模型,该模型支持多种语言的对话、问题回答和生成性答案。BLOOMChat是一个新的、开放的、多语言的聊天LLM。

在针对英语、中文、法语、阿拉伯语、西班牙语、印度语这6种语言的评测中,BLOOMChat在65.92%的时间内表现更优。且在使用BLOOMChat进行跨语言NLP任务的初步研究中,BLOOMChat在WMT翻译基准中的表现要优于其他BLOOM变体和主流开源聊天模型。

项目团队使用定性和定量措施来评估了BLOOMChat的多语言聊天能力以及跨语言任务能力。共做了3种不同场景的实验测评,评测了英语、中文、阿拉伯语、法语、西班牙语和印度语。

实验一:人类偏好排序

旨在将BLOOMChat模型在多种语言中的聊天能力与现有的开源模型以及选定的封闭源模型进行比较。使用了“OpenAssistantConversations”附录E中的22个英文问题作为基准。首先让一些人类志愿者将这22个英文问题手动翻译成他们各自的母语;然后让另一组不同的志愿者,在匿名的前提下评价每个模型所给出的回答。将BLOOMChat与OpenAssistant-30B、LLaMA-Adapter-V2-65B和BLOOMZ(176B)三种开源模型进行了比较:51名志愿者在所有模型和6种语言中共提交了1158次比较。如上图所示,BLOOMChat(65.92%)明显优于其它几个开源模型。

实验二:模型质量评估

此实验旨在验证BLOOMChat生成的多种语言文本的质量。81.8%的回答被归类为“正确”或“可接受但有轻微缺陷”。尽管只在英语数据集上进行了微调,但BLOOMChat在每种语言中都获得了超过70%的“正确”或“可接受”评级。

实验三:WMT翻译任务

为了初步了解模型解决跨语言NLP任务的能力,评估了模型在WMT翻译任务上的翻译能力。总体而言,BLOOMChat在翻译任务中的表现明显优于其他BLOOM变体和开源聊天模型,但和GPT-4还有一定差距。

此外,BLOOMChat团队也坦承了一些该模型的局限性:

  • BLOOMChat有时可能会生成听起来合理但事实不正确或与主题无关的回复信息。
  • BLOOMChat可能在单个回复中无意间切换语言,影响输出的连贯性和可理解性。
  • BLOOMChat可能会产生重复的短语或句子,导致回复内容缺乏吸引力和有效信息。
  • BLOOMChat在生成代码或解决复杂数学问题方面的性能可能会受到限制。
  • BLOOMChat可能无意中生成含有不适当或有害内容的回复。

最后,BLOOMChat团队希望该模型的发布能够为开源社区的持续讨论做出贡献,并激发LLM领域的进一步发展。

本页网址:https://www.xinzhibang.net/article_detail-13152.html

寻求报道,请 点击这里 微信扫码咨询

关键词

SambaNova Together BLOOMChat 多语言聊天 LLM 开源

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯