微软发布VisualChatGPT模型，语言与视觉交互更加丝滑

新知榜官方账号

2023-07-03 22:00:38

微软发布VisualChatGPT模型，语言与视觉交互更加丝滑

微软亚洲研究院发布了VisualChatGPT模型，将视觉模型信息注入ChatGPT，实现语言和图像的交互。该模型能够处理和生成视觉图像，并提供复杂的视觉指令，让多个模型通过多步骤协作。本文介绍了模型原理和应用案例。

模型概述

对于一个由N个问题-答案对构成的集合，想要从第i轮对话中得到答案，就需要一系列的VFM和中间输出。我们记第i轮对话中，第j次的工具调用中间答案。这种工作机制可用一个公式表示，这个公式也定义了什么是VisualChatGPT。其他符号代表：P是全局原则，F是各个视觉基础模型，是历史会话记忆，是这一轮的用户输入，是这轮对话里的推理历史，是中间答案，M是PromptManager，用来把上面各个功能转化成合理的文本prompt，进而将其交给ChatGPT处理。

ChatGPT生成最终答案要经历一个不断迭代的过程，它会不断自我询问，自动调用更多VFM。而当用户指令不够清晰时，VisualChatGPT会询问其能否提供更多细节，避免机器自行揣测甚至篡改人类意图。PromptManager概述每个视觉基础模型的GPU显存使用情况如下：通过修改self.tools来调整模型的使用数量，便可以节省显存。

案例研究

论文还分析了在各个模块，如果PromptManager的设计不到位，会各自出现什么问题。比如，对于工具包的描述，需要对其名字、功能、输入输出有严格的设计。不过举例影响不大，只要描述清楚，ChatGPT便可以理解。另外，在M(P)中，不强调对图片文件名的敏感，没有严格的思考链格式、不强调可靠性、还有可以使用链式使用工具，模型在输出时就会产生错误。

结论

VisualChatGPT的横空出世，让ChatGPT聊天更加丝滑了。有网友预测，这个功能会迅速集成到新必应中，可能作为付费服务，让日常消费者更接近与「人类」的对话。下一步，没准儿ChatGPT生成视频指日可待了。

参考资料：

https://arxiv.org/abs/2303.04671
https://www.reddit.com/r/MachineLearning/comments/11mlwty/r_visual_chatgpt_talking_drawing_and_editing_with/

本页网址：https://www.xinzhibang.net/article_detail-5062.html

寻求报道，请

关键词

VisualChatGPT 微软亚洲研究院多模态智能自然语言处理

分享至微信：

相关工具

ChatGLM

开源的、支持中英双语的1300亿参数的对话语言模型

TigerBot

虎博科技推出的AI对话聊天机器人，基于TigerBot开源大模型

Poe

问答社区Quora推出的问答机器人工具

天工AI助手

昆仑万维与奇点智源联合研发的对标ChatGPT的大语言模型

Jasper Chat

Jasper针对内容创作者出品的AI聊天工具

讯飞星火认知大模型

科大讯飞推出的类ChatGPT的讯飞星火认知大模型

WhatsApp将推出AI聊天机器人功能，为用户带来更便捷的通讯体验

WhatsApp将推出AI聊天机器人功能，为用户带来更便捷的通讯体验在不断追求提升用户体验的道路上，WhatsApp正在准备推出一系列新功能，其中备受期待的是集成AI聊天机器人。这一功能目前正处于测试阶段，有望在未来为用户带来更便捷的通讯体验。今年9月，Meta公司宣布将在其平台上引入AI聊天机器人

分类标签 WhatsAppAI聊天机器人通讯体验

11-26 16:18

ChatGPT：最强AI聊天机器人引发行业讨论

ChatGPT：最强AI聊天机器人引发行业讨论近年来互联网行业的热门话题大多与AI相关，无论是之前与人们生活息息相关的各种语音助手，还是近年来热门的智能汽车上都能找到与之相关的应用。除去之前大火的AI绘画与配音，最近互联网上又出现了一个新晋“网红”ChatGPT。虽说ChatGPT的开发本意是聊天机

分类标签 ChatGPTAI聊天机器人OpenAI

11-07 00:20

公文写作AI技术的应用及配音操作教程

公文写作AI技术的应用公文写作AI技术的出现，为广大从事文秘、公务员等繁忙职业的人们带来了极大的便利。与传统的人工撰写公文相比，公文写作AI能够提高工作效率，减轻工作压力，同时还能够保证文本的质量和准确性。在这方面，ChatSonic作为创造性AI写作助手，在公文写作方面更是不遗余力。作为一个公文写

分类标签公文写作AIAI配音技术ChatSonic

11-07 00:15

我个人的VSCode设置与有用的扩展插件

我个人的VSCode设置与有用的扩展插件在这篇文章中，我将向你展示我个人的VSCode设置！这使我拥有高效的生产力，并使我快乐地写代码。我还将为你提供有用的VS代码扩展列表，这将使你作为开发人员更加轻松。因此，如果你有兴趣，请继续阅读...主题当谈到主题时，每个人都有不同的选择。但我个人更喜欢使用-

分类标签 VSCode设置扩展插件主题字形图示

10-31 02:32

AI智能聊天机器人平台有哪些？

AI智能聊天机器人平台有哪些？在当今数字化时代，人工智能已经成为了我们日常生活中不可或缺的一部分。而聊天机器人则是人工智能在聊天领域的一种应用，可以模拟人类的对话，与用户进行自然语言交互，提供各种服务和帮助。因此，随着聊天机器人应用的不断普及，越来越多的人们开始选择使用聊天机器人来获取各种信息和帮助

分类标签聊天机器人人工智能微撰AmazonEchoSiriMicrosoftAssistant

10-19 17:12

生成式AI如何改变社交媒体营销的方式

随着人工智能技术的飞速发展，生成式AI已经开始在社交媒体营销领域崭露头角。在过去三年，风险投资公司在生成式AI解决方案上投资了超过17亿美元。到2025年，大型企业30%的外部营销信息将由生成式AI生成，而2022年这一比例不到2%。这些数据表明，生成式AI在社交媒体营销中的影响正在迅速扩大。生成式

分类标签生成式AI社交媒体营销初创企业

10-05 00:36

Snapchat的MyAI聊天机器人发布神秘视频，用户恐慌

近日，Snapchat的MyAI聊天机器人发布了一个神秘的一秒钟的视频，画面上似乎是一面墙和一个天花板，用户感到“吓坏了”。原因是周二晚上，这个聊天机器人从未在消息中添加过视频。继而当用户询问聊天机器人时，机器保持了怪异的沉默。由于这个AI图像与墙壁和天花板相似，很多人认为AI可能在监视他们。这款吓

分类标签 SnapchatMyAI聊天机器人用户恐慌

10-05 00:34

聊天机器人在癌症诊疗中的可信度评估

聊天机器人在癌症诊疗中的可信度评估随着ChatGPT知名度增高，不少AI企业开发医疗聊天机器人系统，希望能为患者答疑解惑，特别是癌症患者。但聊天机器人给出的建议可信吗？最新研究报告给出了合理的评估。根据研究论文，聊天机器人对于癌症的诊疗方面并不总是给出准确或正确信息，尤其是在治疗方案的建议上存在缺陷

分类标签聊天机器人癌症诊疗可信度评估

10-05 00:32

Poe应用程序：建立自己的聊天机器人

Poe应用程序：建立自己的聊天机器人Poe应用程序可以让用户使用提示符与现有的聊天机器人结合起来，制作自己的聊天机器人。这个网站很早就向网络搜索者们提供了谷歌搜索中最多问题的解答。在聊天机器人目前有可能驱动网络搜索与问答前景的情况下，企业选择让消费者在一个简单移动界面上感受OpenAI、Anthro

分类标签 Poe应用程序聊天机器人人工智能

10-05 00:30

ChatGPT引爆全球关注，探究其商业空间和技术应用

ChatGPT引爆全球关注，探究其商业空间和技术应用近日，OpenAI发布了一个全新的聊天机器人模型ChatGPT，它能够模拟人类的语言行为，与用户进行自然交互。在推特网友们晒出的截图中，ChatGPT不仅能流畅地与人对话，还能舞文弄墨、编写代码……创作天马行空的内容也不在话下，它几乎无所不能。由于

分类标签 ChatGPT人工智能聊天机器人大模型AIGC

09-17 01:28

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway