知识付费行业 - LLaVA GPT-4V 多模态模型图像识别文本对齐视觉指令

LLaVA：与GPT-4V相媲美的多模态模型

LLaVA：与GPT-4V相媲美的多模态模型LLaVA是一款多模态模型，能够在图像识别、文本对齐、视觉指令等方面表现出色。其综合能力已经达到了GPT-4V水平的85%，在复杂推理任务上更是超过了96%。LLaVA的样本量仅为120万，在单台8*A100的机器上，1天就能完成训练。LLaVA的语言模型

分类标签 LLaVAGPT-4V多模态模型

10-12 01:24