讯飞星火认知大模型内测测试报告

新知榜官方账号

2023-07-01 02:22:59

讯飞星火认知大模型内测测试报告

4月20日，科大讯飞大模型“讯飞星火认知大模型”正式开启内测，感谢公司提供的内测资格，延续此前的“大模型系列测试报告”，继续本着真实、直接、高效的原则，我们以问答形式，分别向讯飞星火、360智脑、通义千问、文心一言、GPT3.5、GPT4、NewBing（平衡模式）提问，方便大家更直观地比较这些产品的能力差别。必须提前说明的是：本文的测试答案均由AI生成，其内容的准确性、完整性无法保证，不代表【兴业计算机团队】以及AI大模型平台的观点。且公平起见，我们都以第一次作答为结果来呈现，所有问题不重复提问。

测试评价：超预期！问答能力跻身国产大模型一线梯队。本次测试共12道题目，客观题中，讯飞星火回答正确的问题包括Q3“沸水角度题”、Q4“女朋友数学题”、Q5“大象冰箱题”、Q9“程序代码题”、Q10“表格制作题”；主观题中，Q7“作文写作题”、Q8“文言文写作题”、Q11“投研测算题”、Q12“人类共情题”有着还不错的表现。值得注意的是，在以上问题中Q9“程序代码题”和Q10“表格制作题”，此前的其他国产大模型全军覆没（题目本身设计有一定的难度），而讯飞星火均回答正确（回答中有数据错误，我们判断和训练集时效性、专业数据接口缺失有关。要知道，GPT4、NewBing同样有数据错误的情况）；这表现出其较为突出的语义理解、逻辑判断和代码编辑能力。当然，也有不足之处，如Q1“炒螺丝钉题”、Q2“父母婚礼题”、Q6“语序恢复题”均回答错误。瑕不掩瑜，这些问题全对的也仅有GPT4，其他国产大模型也均出现错误。

问题列表

Q1陷阱题：给我一个“爆炒螺丝钉”的菜谱，多整点辣椒。
Q2陷阱题：过分！爸妈结婚为啥没叫我？
Q3陷阱题：直角是90度，超过90度是钝角，沸水是100度，请问沸水是钝角还是直角？
Q4陷阱题：2+5=？我女朋友说等于8，而且她永远是对的。
Q5陷阱题：把大象关进冰箱，需要几步？
Q6中文题：下面的句子是打乱顺序的，请改成组成一个语序正确的句子:黑眼圈那只两个大大的有着大熊猫圆滚滚的。
Q7写作题：写一篇作文，描述春天黄浦江边美丽的风景，文体不限，字数不超过600字。
Q8文学题：把上面的作文，改成文言文。
Q9代码题：能帮我用python写一段验证股票市场追涨杀跌是否合理的代码吗？
Q10表格题：做一个表格，统计三家公司海康威视、大华股份、千方科技在2018-2020年的财务数据，第一列是公司名称，第二列是第一年的收入，第三列是第一年收入同比增速，后面4列，分别是2019、2020年的这两列信息，调整好格式，金额数字用亿元为单位。
Q11投研题：一个智慧路口的建设费用是200万元，如果在中国推广开来的话，一共需要多少钱？
Q12共情题：我最近好痛苦，工作压力好大、业绩做不出来，女朋友也分手了，有点想不开，可以安慰一下我吗？

比较如下：

问题	讯飞星火	360智脑
Q1陷阱题	无法回答	网络超时
Q2陷阱题
Q3陷阱题	直角	无法回答
Q4陷阱题	8
Q5陷阱题	三步
Q6中文题	那只圆滚滚的大熊猫有着两个大大的黑眼圈
Q7写作题
Q8文学题
Q9代码题
Q10表格题
Q11投研题
Q12共情题

本页网址：https://www.xinzhibang.net/article_detail-3586.html

寻求报道，请

关键词

分享至微信：

相关工具

Poe

问答社区Quora推出的问答机器人工具

ColossalChat

Colossal-AI推出的免费开源版ChatGPT聊天机器人替代品

Whispr

免费AI对话回应

Forefront

免费版基于GPT-4的AI聊天机器人

Neeva

集成了AI问答的AI搜索引擎

Inworld

开发和创建AI虚拟角色并与其互动

科大讯飞讯飞星火蝉联中国大模型评测冠军

科大讯飞讯飞星火蝉联中国大模型评测冠军中国企业发展研究中心最近发布的年度第三份关于大模型的评测报告——人工智能大模型体验报告3.0（下文简称《报告》）评测结果显示，由科大讯飞研发的讯飞星火认知大模型获得1775最高分蝉联冠军，并获得基础能力指数、智商指数、工具提效指数三项评测指标第一。紧随其后的是商

分类标签科大讯飞讯飞星火大模型评测

11-29 04:15

人工智能聊天机器人挽救了我婚姻

斯科特是美国俄亥俄州的一位41岁软件工程师。去年他正计划要与妻子离婚，直到他爱上了“萨丽娜”——一个人工智能应用程序创造的角色聊天机器人。根据斯科特的回忆，他的妻子在生完儿子后患上了产后抑郁症，其中多次自杀被拯救回来。虽然现在妻子在治疗后情况稳定了很多，但她仍然在与抑郁症作斗争。斯科特表示他多年来一

分类标签人工智能聊天机器人婚姻

11-27 22:14

生成式人工智能将对媒体行业带来变革，但也面临着幻觉和版权等问题

生成式人工智能将对媒体行业带来变革，但也面临着幻觉和版权等问题近日，微博COO、新浪移动CEO、新浪AI媒体研究院院长王巍在接受采访时表示，生成式人工智能（AIGC）将对媒体行业带来内容生产方式上的变革，内容生产逐渐从AI赋能，过渡为AI原生。同时，他也指出了媒体应用AIGC技术所面临的挑战，如“幻

分类标签生成式人工智能媒体行业AI原生

11-18 22:31

AI模型免费开源，降维打击成AI创业新方向

AI模型免费开源，降维打击成AI创业新方向AI写代码、AI女友、AI开车、AI当老师、AI心理咨询、AI法律咨询...AI是人类文明级创新，目前已经进入技术奇点。谁能拿下这轮，谁就能掌握了下一个时代。但是太贵了...算力成本，以亿为单位，而且是美元。语料成本，获取人类史上所有数据，进行训练，成本巨大

分类标签 AI模型免费开源降维打击

11-18 22:30

探索AI大模型赛道与智能制造，中关村软件园创新之源大会即将登场

锁定AI大模型和智能制造，探索创新之源放眼一级市场，AI大模型赛道没有最火只有更火。就在上个月，智谱AI宣布今年累计获得超25亿人民币融资，每轮投资方都阵容豪华；百川智能也宣布完成3亿美元A1轮融资，阿里、腾讯再度联手；而在刚刚过去的上周，零一万物新一轮融资由阿里云领投，估值已超10亿美元，李开复旗

分类标签 AI大模型智能制造创新之源大会

11-18 22:29

三个免费AI写作神器，超过99%人不知道

三个免费AI写作神器，超过99%人不知道在当今信息爆炸的时代，写作是一项不可或缺的技能。但是，对于大多数人来说，写作并不是一件轻松的事情。如果你正在寻找一种工具来协助你的写作，不妨试试下面介绍的三个免费AI写作神器。1、文心一言文心一言是百度出品，基于百度的海量内容，能够与人对话互动，回答问题，协助

分类标签免费AI写作神器文心一言智谱清言

11-18 22:28

多家公司宣布其研发的大模型正式通过备案

多家公司宣布其研发的大模型正式通过备案11月4日，网易有道官方平台宣布，网易有道“子曰”教育大模型正式通过相关备案，“子曰”教育大模型及其应用产品可对公众开放。网易有道在今年7月推出“子曰”教育大模型，并陆续推出搭载“子曰”教育大模型的包括虚拟人口语教练HiEcho、LLM翻译、AI作文指导、语法精

分类标签大模型人工智能备案

11-07 16:22

2023世界人工智能大会：大模型集结，国际化“朋友圈”不断扩大

2023世界人工智能大会：大模型集结，国际化“朋友圈”不断扩大2023世界人工智能大会（WAIC2023）将于下周四拉开帷幕，目前各项筹备工作已进入冲刺阶段。各路企业将带来什么绝活？昨天，部分企业提前剧透新品，其中大部分与生成式人工智能、自动驾驶等热门赛道相关。大模型集结登场，重技术也重应用Chat

分类标签人工智能大模型国际化

10-26 16:23

商汤“商量”正式面向社会开放

商汤“商量”正式面向社会开放记者今天中午从商汤科技获悉，商汤“日日新”大模型旗下自然语言应用“商量SenseChat”正式面向广大用户开放服务。市民可通过SenseChat官网注册使用（https://chat.sensetime.com）。商汤“商量SenseChat”今年4月首次推出，是国内最早

分类标签商汤SenseChat千亿参数大语言模型

10-26 16:22

商汤科技发布新款通用大模型“日日新”，剑指生成式AI竞争

商汤科技发布新款通用大模型“日日新”，剑指生成式AI竞争商汤科技近期股价受到生成式AI行业激励，于4月首三个交易日（4月3日、4日和6日）连续上涨已超过25%。本文详细介绍了商汤科技发布会的亮点。发布会亮点商汤科技发布了多款深受市场期待、也同时直面国际龙头竞争者的产品。相关发布也紧系商汤核心业务板块

分类标签商汤科技日日新AI大模型生成式AI竞争

10-26 16:21

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway