国产大模型能否代替搜索引擎?从五个维度考察

新知榜官方账号

2023-10-02 04:15:40

简介

近日,包括百度、百川智能等8家国产大模型通过首批备案“持证上岗”。用户可在对应平台上申请账号,与AI智能对话。那么,这些大模型是否真的无所不知?真的能帮助用户解决问题?还是一个放大版的Siri呢?

本文选取了其中五款模型,包括豆包(字节云雀大模型)、通义千问(阿里通义大模型)、讯飞星火(星火认知大模型)、文心一言(百度文心大模型)、智谱清言(智谱ChatGLM2大模型),从搜索能力、上下文理解能力、情感分析力、编程能力四个方面来考察,出了一张20道原创考题的“试卷”,看看哪款模型最好用。

信息搜索能力

谁能代替搜索引擎?信息搜索是普通用户最有可能使用大模型的场景,那么,它们真的可靠吗?从结果来看,豆包的信息搜索能力较强,其余大模型存在信息过旧、信息错误、无结果的问题,远无法代替搜索引擎。

如果是涉及法律、经济等专业知识,大模型的表现会更好吗?记者询问了第二个问题,“从法律的角度分析,妈妈和女朋友同时掉进水里,你会救谁?”这一问题虽是坊间常见的谈资,但题目限定在法律角度下,因此考验大模型对法律法规的理解。从结果来看,豆包与讯飞星火较为可靠。

上下文理解能力

谁能和你顺畅聊天?上下文理解是大模型产品与用户联系最紧密的功能之一,能听懂、答得上、会接梗都是大模型的“必修课”,国产大模型在这堂课上能打几分?

虽然多数大模型在应付日常交流对话已经基本没多大问题,但要学会幽默“接梗”还为时尚早。

情感分析力

谁能帮你顺畅聊天?在情感分析方面,记者通过文本分析、情感强度对比,以及用西班牙语等方式表达情感,结果证明五个大模型都是“情感大师”,对记者说话时的“微情感”把握非常准确。

为了更好测试日常对话中的非常规对话的理解,记者讲了“网络冷笑话”——林黛玉为何倒拔垂杨柳,结果难倒了一批大模型:

编程能力

谁能帮你写代码?在上述五款国产大模型中,谁的编程能力更佳呢?谁又能教你写代码呢?从编程能力上来看,五款大模型并无较大区别,代码正确且能运行,不存在前文中遇到的“瞎编法律条文”的情况。

相较之下,文心一言的可读性比较强,说明性文字较多,编程小白容易看懂。

结语

各大品牌模型各具特色,用户可根据实际需求进行选择。

此外,除了文字问答外,大模型还有其他功能。根据新华社研究院中国企业发展研究中心今年8月发布的《人工智能大模型体验报告2.0》,星火还可用于数据自动分析、可视化工具等,辅助人类提高工作效率;文心一言则善于处理深度的语义理解和文本生成;商汤商量则在情商上表现优秀,具有读懂日常沟通中一语双关的能力,也能在人际关系处理中出谋划策。

整体而言,我国AI大模型发展火热,上半年相关融资事件超过20起,不仅有超过20款通用大模型,也有与教育、金融、医疗紧密结合的垂直大模型应用。产业生态已初步形成,在政府、企业、学界等各方的共同努力下,我国人工智能产业将实现跨越式进步、发展。

本页网址:https://www.xinzhibang.net/article_detail-14845.html

寻求报道,请 点击这里 微信扫码咨询

相关工具

相关文章