Anthropic的ClaudeAI模型超越了OpenAI的GPT3.5，成为新的全球排名领头羊

新知榜官方账号

2023-10-18 16:40:27

背景

10月6日，OpenAI的ChatGPT与Anthropic的ClaudeAI模型之间展开了激烈的角逐。负责创建ChatbotArena和著名的Vicuna模型的大型模型系统组织（LMSO）刚刚更新了他们的ChatbotArena排行榜，展示了每个AI聊天机器人与竞争对手相比的表现。

排名结果

结果显示，即使Anthropic的模型仍然免费使用，它也在性能上超越了OpenAI，成为了新的全球排名领头羊。GPT-4是ChatGPTPlus和BingAI背后的强大引擎，以最高分数位居榜首，为大型语言模型（LLM）设定了黄金标准。但随着排行榜的下滑，一个出人意料的劣势故事浮出水面。

Claude模型优势

Anthropic的Claude模型——Claude1、Claude2和ClaudeInstant——都表现出色，超越了驱动ChatGPT免费版本的GPT-3.5引擎。这意味着Anthropic开发的每个大型语言模型都可以胜过ChatGPT的免费版本。LMSO通过其精细的排名系统为这些模型的性能指标提供了见解。根据排行榜，GPT-4拥有1181的ArenaElo评分，远远领先于榜单，而Claude模型紧随其后，评分从1119到1155不等。

另一方面，GPT-3.5的评分为1115。为了排名这些模型，LMSO让它们在相似的提示下进行“比赛”。给出最佳答案的模型获胜，另一个模型失利。用户根据自己的喜好决定谁获胜，但他们永远不会知道哪些模型在竞争。

正如Decrypt之前报道的那样，虽然这不是LMSO排名的因素，但在ChatGPTPlus和ClaudePro之间的token处理能力差异也是Claude模型胜过GPT的主要优势。基于Claude2LLM的ClaudePro可以处理高达100,000个信息token，而由GPT-4LLM提供支持的ChatGPTPlus则处理8,192个令牌。

这种令牌处理能力的差异突显了Claude模型在处理广泛上下文输入方面的优势，这对于细致和丰富的用户体验至关重要。此外，在处理长提示时，Claude2在效率上表现出优势，可以更有效地处理更大规模的提示。然而，在提示可比较的情况下，Claude1和ClaudeInstant提供了与GPT-3.5相似或略优的结果，展示了这些模型的竞争性质。借助Claude的上下文功能，初始不佳的答案可以通过更精细、更大和更丰富的提示得到显著改进。

开源模型表现

开源模型在这场竞赛中也不遑多让。WizardLM是一个在Meta的LlaMA-2上训练的拥有700亿参数的最佳开源LLM模型。紧随其后的是Vicuna33B和由Meta发布的原始LlaMA-2。开源模型在AI领域的发展中发挥着重要作用，原因各种各样。它们可以在本地运行，使用户有机会对其进行微调，并使社区参与到完善模型的集体努力中。

结论

由于许可证的原因，开源模型运行成本更低，这就是为什么这个领域有数十种开源LLM模型，而只有少数专有模型的原因。但AI聊天机器人的比赛不仅仅关乎数字，还关乎现实世界的影响。随着聊天机器人在从客户服务到个人助手等各个领域的逐渐融入，它们的效能、适应性和准确性变得至关重要。由于Claude模型在排名上超越了GPT-3.5，企业和个人用户可能会发现自己在评估哪个模型最符合其需求时面临抉择。

本页网址：https://www.xinzhibang.net/article_detail-17177.html

寻求报道，请

关键词

Anthropic ClaudeAI模型 OpenAI GPT3.5 ChatbotArenaLeaderboard AI聊天机器人

分享至微信：

扎心文案+AI插画=爆款！揭秘8万赞视频的制作全流程

又一个爆款诞生！今天拆解一个账号——@尴尬的老男人，内容很简单，最高一条近8万赞，但平均每条视频都有几百赞！他的视频看似就是几张图片配上一段音乐，却精准狙击用户对“生活氛围感”和“情绪价值”的深层渴望，再加上温暖色调、治愈配乐——每一帧都让人忍不住驻足回味。其实，这种视频的关键就是2个：扎心文案

分类标签

08-12 10:08

三个国外专业免费的调色网站

三个国外专业免费的调色网站无论制作视频、编辑图片，合适的色彩会让你的作品增加视觉冲击力，所以专业的调色技术价值非凡，一部电影或一部好的视频、图片海报，专业调色耗费少则上万，多则上百万，只是大家对专业调色这个行业知之甚少，今天网玩君就为大家分享三个国外专业免费的调色网站，记得收藏好，以后编辑视频、图片

分类标签调色网站免费

04-18 16:42

第六届中国国际工业设计博览会盛况空前

第六届中国国际工业设计博览会于11月30日至12月2日在武汉举行。本届博览会展览面积达2万平方米，参展企业超过300家，其中，参展国家级工业设计中心数量为历届最多。众多国内外行业龙头企业展示了多项“首台套”的硬核实力，为中国制造业向高端化、智能化、绿色化转型升级赋能。中铁宝桥集团展示了多个“国内首条

分类标签中国国际工业设计博览会工业设计创新成果中国制造业

04-18 16:42

知识分享查理芒格思考的独立性与决策的准确性

知识分享查理芒格思考的独立性与决策的准确性本文介绍了成功投资者必须具备独立思考和决策准确性，同时保持谦逊低调的心态，以及成功的关键因素之一——运气。同时，本文还分享了下周市场关注的行业和概念。一、知识分享查理芒格思考的独立性成功的投资者必须具备独立思考的能力，因为只有独立思考才能避免盲目跟风和投资决

分类标签独立思考决策准确性谦逊低调

04-18 16:42

阿里国际发布三款AI设计工具助力中国制造走向全球

阿里国际发布三款AI设计工具助力中国制造走向全球12月1日，在第六届中国国际工业设计博览会上，阿里国际数字商业集团（简称“阿里国际”）发布了3款设计生态工具：堆友、PicCopilot、鹿班AI。这3款产品具有AI绘画、AI模型创作、AI图像和视频处理等功能，用AI设计服务全球商家更轻松的做好本地市

分类标签 AI设计阿里国际数字商业集团

04-18 16:42