智谱新模型GLM-4.5V全面开源,玩家们有福啦!

新知榜官方账号

2025-08-12 17:56:30

一张模糊的街景照片,3分钟内精准定位到小数点后六位的经纬度,这个击败99.99%人类玩家的AI侦探,今天正式开源。

一位朋友神秘兮兮地发来一张照片:“猜猜这是哪?”画面中是一条宽阔的河流,两岸建筑风格难以辨认。

添加图片注释,不超过 140 字(可选)

我盯着看了半天,只能勉强判断是欧洲某地。直到把照片扔给智谱的新模型——GLM-4.5V,谜底才揭晓:奥地利萨尔茨堡。

添加图片注释,不超过 140 字(可选)

这能力,OpenAI的o3、o4 mini早有了,没什么稀奇?但当我听到这个模型是开源的,手中的咖啡杯差点没拿稳。

更震撼的是,这个AI模型参加了全球“图寻”积分赛——一个限时3分钟根据图片猜经纬度的硬核游戏。与两万多人类玩家对战7天后,它击败了99.99%的人类玩家。

今天,智谱正式开源了这款视觉推理怪兽GLM-4.5V,把国外巨头藏着掖着的多模态能力,彻底开放给了全球开发者。

01 百亿参数巨兽,开源多模态新王登基

最近,AI圈频频被一条消息刷屏:智谱在魔搭社区和Hugging Face同步开源了全球首个100B级视觉推理模型GLM-4.5V3。参数规模达到惊人的1060亿,但采用MoE(混合专家)架构,每次推理仅激活120亿参数。

添加图片注释,不超过 140 字(可选)

这种设计让它在保持巨量知识容量的同时,推理效率堪比小模型。用业内人士的话说,“这相当于花经济舱的钱,坐上了头等舱”。

官方数据显示,在42个多模态权威榜单中,GLM-4.5V在41个评测基准上刷新了开源模型纪录。一位连夜测试的开发者在社交平台感叹:“这性能,说是开源模型的天花板也不为过。”

但真正让社区沸腾的,是其彻底的开放性。采用宽松的MIT许可证,意味着任何个人或企业都可以免费使用、修改,甚至进行商业化二次开发。这与某些附带限制性条款的“伪开源”形成鲜明对比。

02 侦探级视觉推理,细节里的魔鬼

GLM-4.5V的能力远不止于识图认物。它更像一个拥有福尔摩斯般观察力的AI侦探。

先来看地理定位能力。用户只需输入一张照片和特定指令,模型就能输出精确到小数点后六位的经纬度。

我放了一张横店明清宫苑的图片,想看看它能不能分辨出来。

添加图片注释,不超过 140 字(可选)

结果还真不赖!因为横店的明清宫苑是按照故宫一比一修建的,稍不注意,是很容易识别错误的。

添加图片注释,不超过 140 字(可选)

为了继续验证,我又提问:为什么是横店不是故宫?

添加图片注释,不超过 140 字(可选)

03 多面手:从代码复刻到长视频解剖

但GLM-4.5V的野心不止于此。它更像一个多模态领域的瑞士军刀:

当开发者扔给它一张知乎网页截图,要求“生成类似页面的React版JSX代码”,GLM-4.5V直接输出高质量前端代码,渲染效果几乎与原界面一致。这种看图写代码的能力,过去基本是Gemini、Claude等闭源巨头的专利。

我试了下,很快就出结果了!

添加图片注释,不超过 140 字(可选)

视频理解能力同样惊艳。

我放入了一段排球比赛视频,让它帮我分析一下!

分析结果:

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

此外,处理长达一小时的奥特曼采访视频时,它不仅能总结内容,还能精准回答“第38分钟后人物是什么动作”这类细节问题。目前模型支持最长约两小时的视频输入8,单次提示最多可处理300张图片或1个视频。

04 价格战开打,2元/M tokens颠覆行业

在商业化方面,智谱直接掀了桌子。GLM-4.5V的API定价低至输入2元/百万tokens,输出6元/百万tokens23。相比GPT-4o高达5-10美元/百万tokens的成本,这简直是降维打击。

响应速度更是达到60-80 tokens/秒,较同类模型快3倍。新用户还可领取2000万Tokens免费试用,彻底降低尝鲜门槛。

多个平台获取资源:

Hugging Face开源地址:https://huggingface.co/zai-org/GLM-4.5V

GitHub开源地址:https://github.com/zai-org/GLM-V

其实,GLM-4.5V的开源不只是一次技术发布,更是智谱在AI Agent赛道的战略落子。

当大多数模型还在比拼单项测试分数时,GLM-4.5V已瞄准更高维度——成为用户屏幕前的“眼睛+大脑+手”。其GUI理解和多模态推理能力,让构建能操作Photoshop、分析Excel报表、管理企业系统的实用型Agent成为可能。

办公室里,一位产品经理把公司内部系统的截图丢给GLM-4.5V,几分钟后拿到了完整的操作指南。他靠在椅背上喃喃自语:“以后新员工培训,是不是不用人力了?”

窗外,夜幕下的城市灯火通明。每一盏灯背后,可能都有一个团队正在下载GLM-4.5V的开源权重。当明早太阳升起时,不知又将有多少个基于它的智能应用悄然诞生。

本页网址:https://www.xinzhibang.net/article_detail-22678.html

寻求报道,请 点击这里 微信扫码咨询

关键词

分享至微信: 微信扫码阅读

相关文章