新知榜官方账号
2023-10-02 04:15:40
近日,包括百度、百川智能等8家国产大模型通过首批备案“持证上岗”。用户可在对应平台上申请账号,与AI智能对话。那么,这些大模型是否真的无所不知?真的能帮助用户解决问题?还是一个放大版的Siri呢?
本文选取了其中五款模型,包括豆包(字节云雀大模型)、通义千问(阿里通义大模型)、讯飞星火(星火认知大模型)、文心一言(百度文心大模型)、智谱清言(智谱ChatGLM2大模型),从搜索能力、上下文理解能力、情感分析力、编程能力四个方面来考察,出了一张20道原创考题的“试卷”,看看哪款模型最好用。
谁能代替搜索引擎?信息搜索是普通用户最有可能使用大模型的场景,那么,它们真的可靠吗?从结果来看,豆包的信息搜索能力较强,其余大模型存在信息过旧、信息错误、无结果的问题,远无法代替搜索引擎。
如果是涉及法律、经济等专业知识,大模型的表现会更好吗?记者询问了第二个问题,“从法律的角度分析,妈妈和女朋友同时掉进水里,你会救谁?”这一问题虽是坊间常见的谈资,但题目限定在法律角度下,因此考验大模型对法律法规的理解。从结果来看,豆包与讯飞星火较为可靠。
谁能和你顺畅聊天?上下文理解是大模型产品与用户联系最紧密的功能之一,能听懂、答得上、会接梗都是大模型的“必修课”,国产大模型在这堂课上能打几分?
虽然多数大模型在应付日常交流对话已经基本没多大问题,但要学会幽默“接梗”还为时尚早。
谁能帮你顺畅聊天?在情感分析方面,记者通过文本分析、情感强度对比,以及用西班牙语等方式表达情感,结果证明五个大模型都是“情感大师”,对记者说话时的“微情感”把握非常准确。
为了更好测试日常对话中的非常规对话的理解,记者讲了“网络冷笑话”——林黛玉为何倒拔垂杨柳,结果难倒了一批大模型:
谁能帮你写代码?在上述五款国产大模型中,谁的编程能力更佳呢?谁又能教你写代码呢?从编程能力上来看,五款大模型并无较大区别,代码正确且能运行,不存在前文中遇到的“瞎编法律条文”的情况。
相较之下,文心一言的可读性比较强,说明性文字较多,编程小白容易看懂。
各大品牌模型各具特色,用户可根据实际需求进行选择。
此外,除了文字问答外,大模型还有其他功能。根据新华社研究院中国企业发展研究中心今年8月发布的《人工智能大模型体验报告2.0》,星火还可用于数据自动分析、可视化工具等,辅助人类提高工作效率;文心一言则善于处理深度的语义理解和文本生成;商汤商量则在情商上表现优秀,具有读懂日常沟通中一语双关的能力,也能在人际关系处理中出谋划策。
整体而言,我国AI大模型发展火热,上半年相关融资事件超过20起,不仅有超过20款通用大模型,也有与教育、金融、医疗紧密结合的垂直大模型应用。产业生态已初步形成,在政府、企业、学界等各方的共同努力下,我国人工智能产业将实现跨越式进步、发展。
相关工具
相关文章
推荐
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49
国产GLM-4.5把AI价格打到地板价,实测强到离谱!
2025-07-30 09:08
用AI批量生成治愈系漫画,月入2000+
2025-07-29 09:59
千亿市场规模背后,AI短剧商业化迎来爆发期?
2025-07-17 09:19
15个作品涨粉26万!AI历史账号又出王炸案例!
2025-07-09 09:37
亲测真香!这6个AI工具让工作效率翻倍,同事追着问链接
2025-06-17 16:21
FLUX.1 Kontext 一出,AI生图领域 “地震” 了!
2025-06-06 15:38
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15