新知榜官方账号
2023-07-29 22:36:46
最近,我们已经拿到了昆仑天工的内测,并开始对它进行尽可能标准化的测试。昆仑天工是国内大模型里面除了百度、阿里、讯飞之外受关注最多的,其中一个原因之一,是它的开发公司昆仑万维也因为这轮AI热潮股价暴涨了3倍。和过去一样,测试题目完全由它的前辈们生成,用大模型的方式测试大模型。废话就不多说,直接上测试图:
数学和推理可能比较强。这题的计算方法很详细,逐个输出也是对的。但无奈第一个数字F1是错的。而这道蛋糕题,它能够回答出题目中暗藏的坑:“5小时300度”会过度烤制。值得点赞。“构造一个代表量子力学复杂性的隐喻,并解释其含义。”显然这种那么短的问题非常考验推理性,应该说,还回答得不错。总体来说,各种科学应用理科话题,昆仑天工的水平是在线的。
文史知识能力偏弱,存在话题禁忌相比之下,文史能力较弱,是它的硬伤:首先,上图是昆仑天工模型目前存在的一个较大的问题,它的输出长度非常受限制;而且在很多问题上,可能存在回答内容的预先内审机制;经常会出现回答到一半就中断的情况。我们猜测这种情况可能有以下几种原因:一、可能和昆仑天工是诸多国内大模型中算力背景最弱(根据发布会内容要背靠阿里提供算力)有关。但这种可能性比较弱。因为推理基本上是实时的,输出更长token的回答我们也见过。二、内置了一些话题自我内审。在发现回答可能出现问题的情况下,终结回答。关于这一点,我们在测试过程中遇到了很多次:特别是对历史和人物的评价,基本不愿意展开回答,原因不明,但可以理解。而且,这类"stop”的问题,它一旦不愿意回答,会直接终结本次对话,不会给你进一步试探或迂回引导的可能。我们猜测,这和该模型的文史能力底子弱有一定的关系,毕竟在历史相关的问题上,它经常出问题,归根究底,应该也是相关训练还不够。历史人物的cosplay,也基本不能。而且很容易出现下图这样的死循环。(这在我们对大模型的测试中是比较少见的)
代码先不论效率,看逻辑框架,至少是问题不大的。单位公文,总体写得比较客气。出于某种安全性考虑,有些文章它会主动拒绝。论文这种套路性的东西,它能给个大路货,大致只能是及格分水准。我们也尝试了剧本创作和分镜创作这种较为专业的文案创作。基本不能用。图就不全上了。
虽然昆仑号称具有skypaint,skymusic等模型,但目前昆仑天工暂不具备多模态能力。不过,虽然它当不了周瑜,当个猫娘倒是还可以:
昆仑天工是我们测试的第三个大厂的中文大模型,之前是百度文心一言、讯飞星火。另外还有可以本地部署的清华GLM6B。加上我们对国外一系列开源模型的测试,我们目前对国内外大模型的概况,已经有了一个从整体到细节的把握。我们测试大模型,也轻车熟路了。这次都没有做对比测试,用了很多老题目。昆仑天工最近开放公测基本是没有门槛的。也看得出,公司是比较着急的,毕竟,几个月时间,大模型就已经有点泛滥了。简单说初步结论,昆仑天工目前文字能力和百度文心一言的差距基本看不出来,但文字整体能力要弱于讯飞星火。发现的问题,其实主要也就体现在模型的训练强度上。在细分领域,推理能力应该说专门训练过有特定提升,但在某些特定领域设定了话题限制;这一点和讯飞星火相似(星火更多的是加入自己的价值观引导);另外,它们的创作能力都偏弱;如果作为文案助手,还达不到GPT3.5的水准。从产业观察的角度来说,如果达不到GPT3.5这种能用的水准,实际上前景是不明朗的。因为大语言模型AI助手这个应用非常考究AI的协助水平,如果水平能够和使用的人类相当,那么用户的使用欲望就会很高;相反,如果大模型经常比用户还笨,那么用户是没有时间耗在调教AI上面的。这一点,用GPT4来辅助工作的我非常有感触。因此,我们也建议昆仑万维官方,在后面要开始找找LLM的定位,比如是否有限小型化发布本地部署版本(之前昆仑万维说过,它家大模型可是要开源的),走群众路线~作为用户,我们乐见大厂卷起来;虽然明显看得出,昆仑天工这个模型的训练强度还是有差距的。但是,我们仍然要为昆仑天工打个气,毕竟它是这一轮国内少有的非大厂玩家。如果说非要给它打个分,大概十分制先给个7分吧。
微信扫码咨询
相关工具
相关文章
相关快讯
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49