谷歌人机验证已经拦不住AI了!最新多模态大模型“雪貂”能轻松找到图中所有交通信号灯

新知榜官方账号

2023-10-13 01:22:30

谷歌人机验证已经拦不住AI了!最新多模态大模型“雪貂”能轻松找到图中所有交通信号灯

最新多模态大模型“雪貂”能轻松找到图中所有交通信号灯,还准确圈出了具体位置。表现直接超越GPT-4V。

由苹果和哥伦比亚大学研究团队带来的多模态大模型“雪貂”(Ferret)具备更强的图文关联能力,提升了大模型在“看说答”任务中的精确度。比如下图中非常细小的部件(region1),它也可以分辨出来是避震。GPT-4V没能回答正确,在细小部分上的表现不佳。

所以,Ferret是如何做到的呢?

  1. “点一点”图像大模型都懂
  2. Ferret解决的核心问题是让引用(referring)和定位(grounding)两方面空间理解能力更加紧密。引用是指让模型准确理解给定区域的语义,也就是指一个位置它能知道是什么。定位则是给出语义,让模型在图中找到对应目标。对于人类来说,这两种能力是自然结合的,但是现有很多多模态大模型却只会单独使用引用和定位。所以Ferret提出了一种新型的混合区域表示方法,能将离散坐标和连续特征联合起来表示图像中的区域。这样一来,模型就能分辨出边界框几乎一样的对象。
  3. 为了提取多样化区域的连续特征,论文提出了一种空间感知的视觉采样器,能够处理不同形状之间的稀疏性差异。因此,Ferret可以接受各种区域输入,如点、边界框和自由形状,并理解其语义。在输出中,它可以根据文本自动生成每个定位对象的坐标。
  4. 为了增强Ferret的能力,论文还创建了一个名为GRIT的数据集。这个数据集包含1.1M个样本,涵盖了个体对象、对象之间的关系、特定区域的描述以及基于区域的复杂推理等四个主要类别。实验结果表明,该模型不仅在经典的引用和定位任务中表现出优越性能,而且在基于区域和需要定位的多模态对话中远远超过现有其他MLLM模型。

全华人阵容的Ferret大模型由苹果AI/ML和哥伦比亚大学研究团队共同带来。团队成员还包括甘哲、王子瑞、曹亮亮、杨寅飞等前谷歌和微软的多位优秀的多模态大模型研究员。

论文地址:https://arxiv.org/abs/2310.07704

本页网址:https://www.xinzhibang.net/article_detail-16610.html

寻求报道,请 点击这里 微信扫码咨询

关键词

谷歌人机验证 AI 多模态大模型

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯