清华大学沈阳团队评估7个大语言模型，GPT-4成为第一名

新知榜官方账号

2023-08-18 08:18:20

清华大学新闻与传播学院的沈阳团队最近分享了一项卓有成效的《大语言模型全方位评估研究》。他们选择了7个主要的大语言模型，包括ChatGPT、文心一言和通义千问，并在生成质量、使用性能、以及安全和合规等三大区域做了深度的分析和评估。这次评测专门围绕了中文语义理解和逻辑推理等20个重点指标进行。

在所有评估的模型中，GPT-4独占鳌头，无可挑剔的成为了第一名，紧随其后的是百度打造的文心一言模型，而GPT-3.5获得了第三名。接下来的名次依次是Claude、讯飞星火、阿里云的通义千问以及昆仑的天工。

尽管在整体评估中，GPT-4成为明显的胜出者，然而对于国内用户，中文理解能力是非常重要的评价标准。从这个角度来看，百度的文心一言在中文语义理解能力上表现突出，在一些关键的中文语义理解测试中，它以92%的得分率超过了讯飞星火以及GPT-4，成为了这个研究中的得分率最高者。

作为具有知识增强特色的模型，文心一言对于中国本土语言特性的理解更为深入，这使得它在处理与中国本土文化相关的主题和背景上更具优势，例如诗歌和方言等。这也为文心一言在国内的实际应用落地提供了更大的可能性。

本页网址：https://www.xinzhibang.net/article_detail-10006.html

寻求报道，请

关键词

分享至微信：

相关工具

Vega AI

在线免费AI插画创作平台，支持文生图，图生图，条件生图等多种绘画模式

无限画

千库网推出的AI图片插画生成工具

getimg.ai

在线AI图像和插画创作工具

DreamUp

DeviantArt推出的AI插画生成工具

Artbreeder

创建令人惊叹的插画和艺术

悟空图像PhotoSir

新一代专业图像处理软件，更智能、更高效、更好用

微软宣布推出必应深度搜索

微软宣布推出必应深度搜索微软公司今日宣布，将推出必应深度搜索（BingDeepSearch）功能，旨在为用户的复杂查询提供更相关和更全面的答案。今年是人工智能走进人们日常生活中的一年，微软在一份声明中称，以必应聊天（BingChat）为例，它改变了人们在互联网上搜索、购物、编码、准备求职面试、提高游

分类标签微软必应深度搜索

12-11 08:10

微软新必应推出BingImageCreator，无需等待排队即可使用

微软推出BingImageCreator最近，微软推出了一款新工具BingImageCreator，该工具基于OpenAI的DALL-E模型，通过输入文本提示词生成图片。该工具无需等待排队即可使用，非常友好。登录网站后，提供了25个免费积点，如果用完，还可以在微软Rewards中进行兑换，非常方便。

分类标签微软BingImageCreatorOpenAI

12-10 22:03

微软新必应推出杀手级工具BingImageCreator

微软新必应推出杀手级工具BingImageCreator微软推出了BingImageCreator，通过输入文本提示词生成图片的功能，使用方便快捷。该功能建立在OpenAI的DALL-E模型上，具有非常强的想象力。BingImageCreator是建立在OpenAI的DALL-E模型上的，它可以通过

分类标签 BingImageCreatorOpenAIDALL-E

12-10 16:05

中国式浪漫

中国式浪漫中国式的浪漫充满了婉约而华贵的情感。从古至今，恋人们穿越古代的长廊，相互倾诉着深情而含蓄的爱意。这种浪漫不仅仅是一种场景的表达，更多的是一种文化的传承。在现代社会中，中国式的浪漫依然得以体现。例如，现代新人在婚礼上常常选择中式的婚纱，穿着华丽的旗袍，展现出古典与现代的结合。此外，现代年轻人

分类标签中国式浪漫东方之美传统艺术

12-09 22:05

微软官宣Copilot一周年，新功能包括GPT-4Turbo模型、DALL-E3模型、多模态搜索基础、代码解释器、视频理解和问答、深度搜索

微软官宣Copilot一周年，新功能包括GPT-4Turbo模型、DALL-E3模型、多模态搜索基础、代码解释器、视频理解和问答、深度搜索 12月5日，微软宣布庆祝Copilot诞生一周年，同时公布了几项即将推出的新功能。早在几个月前，微软已将其广泛产品组合中的人工智能辅助功能都纳入了Copilot

分类标签微软Copilot人工智能GPT-4Turbo模型DALL-E3模型多模态搜索基础代码解释器视频理解和问答深度搜索

12-09 06:00

微软向Windows11用户推送集成DALL-E3的“画图”应用

微软向Windows11用户推送集成DALL-E3的“画图”应用IT之家11月28日消息，微软现已开始向所有Windows11用户推送集成DALL-E3的“画图”应用。得益于DALL-E3，Win11用户现可利用OpenAI的能力生产你需要的AI图像，你现在可以通过“Cocreator”来开启。不过

分类标签微软Windows11DALL-E3画图应用

12-08 02:03

微软正式宣布BingChat更名为Copilot并发布一系列AI产品和自研芯片

微软宣布BingChat更名为Copilot并发布一系列AI产品和自研芯片就在刚刚，微软正式对外重磅宣布：从今天起，BingChat全线更名——Copilot。和ChatGPT一样，现在的微软Copilot也拥有自己的专属网站。但与之不同的是，像GPT-4、DALL·E3这样的功能，在Copilot

分类标签微软CopilotBingChatAI芯片自研芯片Microsoft365

12-07 16:09

Bing搜索引擎无法访问，微软或将退出中国市场

Bing搜索引擎无法访问，微软或将退出中国市场12月17日，Bing搜索引擎无法访问，微软官方发布公告称“根据中国法律，BingChina已被相关政府机构要求在中国大陆暂停搜索自动建议功能30天。”虽然官方公告显示只会暂停30天，但有网友与微软内部员工沟通后透露，Bing可能会彻底退出中国市场了。对

分类标签 Bing搜索引擎微软退出中国市场Edge浏览器

12-07 16:08

新版必应为你带来全新的搜索体验

新版必应为你带来全新的搜索体验近期更新的新版必应已经推出了半个多月了，带来了全新的体验。这个新版采用了新一代OpenAI语言模型，比ChatGPT更强大，可以根据你的复杂问题给出答复，并引用来源，提供完整的解决方案。它不仅可以帮助你撰写邮件，规划旅行行程，还可以为你提供预订旅程和住宿的链接，准备工作

分类标签必应搜索引擎ChatGPT

12-07 16:07

百度搜索发布对话式AI，与NewBing比较测试

概述百度搜索发布了一款对话式AI，并进行了小范围内测，与NewBing进行了比较测试。本文介绍了测试过程和结果。测试过程测试共分为四道题目，分别测试了两款搜索AI的能力。第一题是查询NBA比分，第二题是查询华语乐坛新四大天王的代表作，第三题是查询天气，第四题是查询路线。测试结果测试结果显示，两款搜索

分类标签百度搜索对话式AINewBing联网能力搜索AI人工智能

12-07 16:06

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway