新知榜官方账号
2023-07-03 22:00:38
微软亚洲研究院发布了VisualChatGPT模型,将视觉模型信息注入ChatGPT,实现语言和图像的交互。该模型能够处理和生成视觉图像,并提供复杂的视觉指令,让多个模型通过多步骤协作。本文介绍了模型原理和应用案例。
对于一个由N个问题-答案对构成的集合,想要从第i轮对话中得到答案,就需要一系列的VFM和中间输出。我们记第i轮对话中,第j次的工具调用中间答案。这种工作机制可用一个公式表示,这个公式也定义了什么是VisualChatGPT。其他符号代表:P是全局原则,F是各个视觉基础模型,是历史会话记忆,是这一轮的用户输入,是这轮对话里的推理历史,是中间答案,M是PromptManager,用来把上面各个功能转化成合理的文本prompt,进而将其交给ChatGPT处理。

ChatGPT生成最终答案要经历一个不断迭代的过程,它会不断自我询问,自动调用更多VFM。而当用户指令不够清晰时,VisualChatGPT会询问其能否提供更多细节,避免机器自行揣测甚至篡改人类意图。PromptManager概述每个视觉基础模型的GPU显存使用情况如下:通过修改self.tools来调整模型的使用数量,便可以节省显存。
论文还分析了在各个模块,如果PromptManager的设计不到位,会各自出现什么问题。比如,对于工具包的描述,需要对其名字、功能、输入输出有严格的设计。不过举例影响不大,只要描述清楚,ChatGPT便可以理解。另外,在M(P)中,不强调对图片文件名的敏感,没有严格的思考链格式、不强调可靠性、还有可以使用链式使用工具,模型在输出时就会产生错误。
VisualChatGPT的横空出世,让ChatGPT聊天更加丝滑了。有网友预测,这个功能会迅速集成到新必应中,可能作为付费服务,让日常消费者更接近与「人类」的对话。下一步,没准儿ChatGPT生成视频指日可待了。
参考资料:
微信扫码咨询
相关工具
相关文章
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49