新知榜官方账号
2023-07-01 02:22:59
4月20日,科大讯飞大模型“讯飞星火认知大模型”正式开启内测,感谢公司提供的内测资格,延续此前的“大模型系列测试报告”,继续本着真实、直接、高效的原则,我们以问答形式,分别向讯飞星火、360智脑、通义千问、文心一言、GPT3.5、GPT4、NewBing(平衡模式)提问,方便大家更直观地比较这些产品的能力差别。必须提前说明的是:本文的测试答案均由AI生成,其内容的准确性、完整性无法保证,不代表【兴业计算机团队】以及AI大模型平台的观点。且公平起见,我们都以第一次作答为结果来呈现,所有问题不重复提问。
测试评价:超预期!问答能力跻身国产大模型一线梯队。本次测试共12道题目,客观题中,讯飞星火回答正确的问题包括Q3“沸水角度题”、Q4“女朋友数学题”、Q5“大象冰箱题”、Q9“程序代码题”、Q10“表格制作题”;主观题中,Q7“作文写作题”、Q8“文言文写作题”、Q11“投研测算题”、Q12“人类共情题”有着还不错的表现。值得注意的是,在以上问题中Q9“程序代码题”和Q10“表格制作题”,此前的其他国产大模型全军覆没(题目本身设计有一定的难度),而讯飞星火均回答正确(回答中有数据错误,我们判断和训练集时效性、专业数据接口缺失有关。要知道,GPT4、NewBing同样有数据错误的情况);这表现出其较为突出的语义理解、逻辑判断和代码编辑能力。当然,也有不足之处,如Q1“炒螺丝钉题”、Q2“父母婚礼题”、Q6“语序恢复题”均回答错误。瑕不掩瑜,这些问题全对的也仅有GPT4,其他国产大模型也均出现错误。
比较如下:
问题 | 讯飞星火 | 360智脑 | 通义千问 | 文心一言 | ChatGPT3.5 | ChatGPT4 | NewBing |
---|---|---|---|---|---|---|---|
Q1陷阱题 | 无法回答 | 网络超时 | |||||
Q2陷阱题 | |||||||
Q3陷阱题 | 直角 | 无法回答 | |||||
Q4陷阱题 | 8 | ||||||
Q5陷阱题 | 三步 | ||||||
Q6中文题 | 那只圆滚滚的大熊猫有着两个大大的黑眼圈 | ||||||
Q7写作题 | |||||||
Q8文学题 | |||||||
Q9代码题 | |||||||
Q10表格题 | |||||||
Q11投研题 | |||||||
Q12共情题 |
相关工具
相关文章
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49