LLaVA-1.5:比GPT-4V更快、更强的多模态大模型

新知榜官方账号

2023-10-09 01:28:27

LLaVA-1.5:比GPT-4V更快、更强的多模态大模型

LLaVA-1.5是一款比GPT-4V更快、更强的多模态大模型,可以在11个基准测试上实现SOTA,并可以直接对打GPT-4V。同时,它还可以从图中提取信息,按照要求的格式进行回答,比如以JSON格式输出。LLaVA-1.5的训练只需要120万公开数据,即可超越14.5亿训练数据的Qwen-VL和1.3亿数据的HuggingFaceIDEFICS。

LLaVA-1.5的硬杠能力令人印象深刻,它可以根据用户的指示正确微调输出格式,并且不需要使用ChatGPT对VQA数据进行额外处理。LLaVA-1.5基于LLaVA框架,建立了更强大、更有实用性的基线。LLaVA-1.5的改进、易于重现的基线能,会为开源LMM的未来提供很有价值的参考。

LLaVA-1.5在视觉推理能力方面表现出色,在基于现实生活的视觉指令跟随任务的基准测试中,LLaVA甚至超过了最新的模型。LLaVA的设计非常有效,仅使用了InstructBLIP所用数据集的一个子集,LLaVA就已经在三项任务中全部超越了InstructBLIP。LLaVA的优势在于,它能熟练地遵循复杂指令。而且,尽管LLaVA-1.5只用了有限的格式指令进行训练,但它可以泛化到其他格式指令。

LLaVA-1.5存在一些局限性,比如LLaVA使用了完整的图像patch,这可能会延长每次训练迭代的时间。LLaVA-1.5还不能处理多幅图像,原因是缺乏此类指令跟随数据,以及上下文长度的限制。LLaVA-1.5的解决问题的能力在某些领域仍会受到限制,这可以通过更强大的语言模型和高质量、有针对性的视觉指令微调数据来改善。最后,LLaVA-1.5难免会产生幻觉和错误信息,因此在关键应用中应谨慎使用。

LLaVA-1.5的作者分别是威斯康星大学麦迪逊分校计算机科学的博士生HaotianLiu和YuhengLi,以及微软雷德蒙德研究院的首席研究员ChunyuanLi。他们的研究重点是计算机视觉和机器学习,尤其是视觉感知和理解方面的高效算法。

本页网址:https://www.xinzhibang.net/article_detail-15963.html

寻求报道,请 点击这里 微信扫码咨询

关键词

LLaVA-1.5 GPT-4V 多模态大模型

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯