新知榜官方账号
2023-10-09 01:28:27
LLaVA-1.5是一款比GPT-4V更快、更强的多模态大模型,可以在11个基准测试上实现SOTA,并可以直接对打GPT-4V。同时,它还可以从图中提取信息,按照要求的格式进行回答,比如以JSON格式输出。LLaVA-1.5的训练只需要120万公开数据,即可超越14.5亿训练数据的Qwen-VL和1.3亿数据的HuggingFaceIDEFICS。
LLaVA-1.5的硬杠能力令人印象深刻,它可以根据用户的指示正确微调输出格式,并且不需要使用ChatGPT对VQA数据进行额外处理。LLaVA-1.5基于LLaVA框架,建立了更强大、更有实用性的基线。LLaVA-1.5的改进、易于重现的基线能,会为开源LMM的未来提供很有价值的参考。
LLaVA-1.5在视觉推理能力方面表现出色,在基于现实生活的视觉指令跟随任务的基准测试中,LLaVA甚至超过了最新的模型。LLaVA的设计非常有效,仅使用了InstructBLIP所用数据集的一个子集,LLaVA就已经在三项任务中全部超越了InstructBLIP。LLaVA的优势在于,它能熟练地遵循复杂指令。而且,尽管LLaVA-1.5只用了有限的格式指令进行训练,但它可以泛化到其他格式指令。
LLaVA-1.5存在一些局限性,比如LLaVA使用了完整的图像patch,这可能会延长每次训练迭代的时间。LLaVA-1.5还不能处理多幅图像,原因是缺乏此类指令跟随数据,以及上下文长度的限制。LLaVA-1.5的解决问题的能力在某些领域仍会受到限制,这可以通过更强大的语言模型和高质量、有针对性的视觉指令微调数据来改善。最后,LLaVA-1.5难免会产生幻觉和错误信息,因此在关键应用中应谨慎使用。
LLaVA-1.5的作者分别是威斯康星大学麦迪逊分校计算机科学的博士生HaotianLiu和YuhengLi,以及微软雷德蒙德研究院的首席研究员ChunyuanLi。他们的研究重点是计算机视觉和机器学习,尤其是视觉感知和理解方面的高效算法。
微信扫码咨询
相关工具
相关文章
相关快讯
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49