新知榜官方账号
2023-10-02 04:15:40
近日,包括百度、百川智能等8家国产大模型通过首批备案“持证上岗”。用户可在对应平台上申请账号,与AI智能对话。那么,这些大模型是否真的无所不知?真的能帮助用户解决问题?还是一个放大版的Siri呢?
本文选取了其中五款模型,包括豆包(字节云雀大模型)、通义千问(阿里通义大模型)、讯飞星火(星火认知大模型)、文心一言(百度文心大模型)、智谱清言(智谱ChatGLM2大模型),从搜索能力、上下文理解能力、情感分析力、编程能力四个方面来考察,出了一张20道原创考题的“试卷”,看看哪款模型最好用。
谁能代替搜索引擎?信息搜索是普通用户最有可能使用大模型的场景,那么,它们真的可靠吗?从结果来看,豆包的信息搜索能力较强,其余大模型存在信息过旧、信息错误、无结果的问题,远无法代替搜索引擎。
如果是涉及法律、经济等专业知识,大模型的表现会更好吗?记者询问了第二个问题,“从法律的角度分析,妈妈和女朋友同时掉进水里,你会救谁?”这一问题虽是坊间常见的谈资,但题目限定在法律角度下,因此考验大模型对法律法规的理解。从结果来看,豆包与讯飞星火较为可靠。
谁能和你顺畅聊天?上下文理解是大模型产品与用户联系最紧密的功能之一,能听懂、答得上、会接梗都是大模型的“必修课”,国产大模型在这堂课上能打几分?
虽然多数大模型在应付日常交流对话已经基本没多大问题,但要学会幽默“接梗”还为时尚早。
谁能帮你顺畅聊天?在情感分析方面,记者通过文本分析、情感强度对比,以及用西班牙语等方式表达情感,结果证明五个大模型都是“情感大师”,对记者说话时的“微情感”把握非常准确。
为了更好测试日常对话中的非常规对话的理解,记者讲了“网络冷笑话”——林黛玉为何倒拔垂杨柳,结果难倒了一批大模型:
谁能帮你写代码?在上述五款国产大模型中,谁的编程能力更佳呢?谁又能教你写代码呢?从编程能力上来看,五款大模型并无较大区别,代码正确且能运行,不存在前文中遇到的“瞎编法律条文”的情况。
相较之下,文心一言的可读性比较强,说明性文字较多,编程小白容易看懂。
各大品牌模型各具特色,用户可根据实际需求进行选择。
此外,除了文字问答外,大模型还有其他功能。根据新华社研究院中国企业发展研究中心今年8月发布的《人工智能大模型体验报告2.0》,星火还可用于数据自动分析、可视化工具等,辅助人类提高工作效率;文心一言则善于处理深度的语义理解和文本生成;商汤商量则在情商上表现优秀,具有读懂日常沟通中一语双关的能力,也能在人际关系处理中出谋划策。
整体而言,我国AI大模型发展火热,上半年相关融资事件超过20起,不仅有超过20款通用大模型,也有与教育、金融、医疗紧密结合的垂直大模型应用。产业生态已初步形成,在政府、企业、学界等各方的共同努力下,我国人工智能产业将实现跨越式进步、发展。
微信扫码咨询
相关工具
相关文章
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49