海外AI应用更新，集中体现多模态能力

新知榜官方账号

2023-10-23 00:56:34

海外AI应用更新，集中体现多模态能力

近期，海外AI应用催化较多，集中体现多模态能力。

1. OpenAI和微软最新的AI应用更新

OpenAI升级了图片、语音多模态能力，并即将应用在最新ChatGPT中。微软宣布本月底更新AICopilot系统，全面集成OpenAI模型能力。具体如下：

1.1 OpenAI在ChatGPT中升级了图片、语音多模态能力

OpenAI宣布即将发布新的多模态功能，包括图像读取与理解、语音对话和语音生成。ChatGPT即将在两周内对Plus用户与企业用户开放一系列新功能，其中图文能力对全平台开放，与Chatgpt语音对话的能力仅对ios及安卓客户端开放。对话能力：通过语音直接对ChatGPT对话，同时GPT可以直接语音回复客户，可选5种定制声音，支持ios和Android移动应用使用；图像-文本能力：ChatGPT除了文字之外，可以理解客户上传的图片信息。GPT能够理解照片、图片截图、包含图像的文档等。客户可以上传一张或者多张图片给系统，甚至可以用画笔标注重点内容，让系统读取理解，可以用于辅导学生作业、搜索日常食谱等各个方向。语音和图像提供了更多在生活中使用ChatGPT的方式。例如在旅行时拍摄地标的照片，并就其进行实时对话问答；拍摄冰箱和食品储藏室的照片，以确定晚餐的食物（并询问后续问题以获取分步食谱）；通过直接拍摄家庭作业照片来获得解答，或分析与工作相关的数据的复杂图表。此前，OPENAI也升级了DALL・E3模型能力。新的DALL·E模型与ChatGPT能力合并，画作更加细腻，同时可以不用prompt，准确还原细节，并且为图片配上文字。Plus和企业版用户通过文本就能直接在ChatGPT中生成各种类型图片，不仅加强提示词的生成图像体验，而且增强模型理解用户指令的能力，图像效果也有提升。更好的掌握用户提出的每一个描述。例如上图，“享受夜间生活的行人”“满月的光辉”“蒸汽朋克电话”“和怒气冲冲的老商人讨价还价”等多个较难以体现的细节描述，都体现在图画中。同时可以对生成内容进行多轮自然语言对话编辑。例如让DALL-E模型生成多个刺猬图片，选出其中一只取名为Larry，并要求模型生成更多Larry图片，甚至可以询问模型“为什么Larry这么可爱”，模型可以做出文字解答，期间完成了5轮对话和修改。

1.2 GPT-4V的使用方法、工作模式、任务能力

微软在OpenAI发布后，公布了GPT-4V详细测评《TheDawnofLMMs:PreliminaryExplorationswithGPT-4V(ision)》。5种使用方式：输入图像、子图像、文本、场景文本和视觉指针。即同时支持纯图像输入，也支持图像、文本交互输入，同时也可以对图片进行指向性提示（例如画箭头、画圈）。3种支持的能力：指令遵循、思维链、上下文少样本学习。此外，微软也展示了GPT-4V的多项基本能力：

视觉-语言能力
与人类的互动：视觉参考提示
时间和视频理解
其它，包括智商测试、情商测试，以及创新场景应用

1）视觉-语言能力：除常见的人物、地标等识别外，GPT-4V还可以理解人和物体间的关系，计数、生成字幕和描述，解释笑话，回答科学问题，根据手写数学方程生成LaTeX代码等。2）与人类的互动：视觉参考提示。在与多模态系统的人机交互中，指向特定空间位置是一项基本能力，例如进行基于视觉的对话。3）时间和视频理解：多图像序列、视频理解、基于时间理解的视觉参考提示。输入视频的几个关键帧，可以理解事件前后关联。4）视觉推理、智商、情商测试等，此外GPT-4v还可以用于工业、医药、汽车保险、具身智能、GUI交互等。整体来看，GPT-4V展现出强大的混合输入能力，并且可以较好的支持LLM中观察到的test-time技术，包括指令跟随、思维链、上下文少样本学习等。

1.3 微软AICopilot系统更新，OfficeCopilot办公能力即将发布

AICopilot9月26日起发布，OfficeCopilot11月1日起大范围开放。具体如下：

微软更新AICopilot功能，并宣布Copilot功能将自9月26日起，随着更新的Windows11以初期版本形式免费更新，支持在多个APP和设备运行
OfficeCopilot将于11月1日开始大范围开放，此前7月，微软曾表示将把Copilot的价格定在每人每月30美元，这是传统Office365订阅价格之外的额外费用。

其中， AICopilot升级了多端和团队协同能力。AICopilot支持下，OutlookforWindows可连接到谷歌、苹果等不同公司的多个（云端）账户。文件管理器FileExplorer的主页、地址栏和搜索框能直接访问重要且相关的内容，无需打开文件便可进行协作。备份Backup功能可将大多数文件、应用程序和个性化设置等从一台Windows电脑无缝转移到另一台上。Copilot还可从用户手机（例如短信）中获取内容，导入Win11系统。假设用户要给家人发送航班时刻表，Copilot会根据要求将数据导入电脑桌面上，无需拿出手机就可完成信息发送。

同时，本次发布会展示了办公软件插件能力和AI助手功能Microsoft365Chat。可梳理工作中的各个数据领域信息，包括电子邮件、会议、聊天记录、文档以及网络信息。Microsoft365Copilot企业版将提取用户的企业数据来帮助撰写电子邮件、规划活动等。

2. 多模态原理解析：从文生图到图生文

2022年后，随着Transformer技术的发展，Transformer也使用在了CV领域，并形成了VisionTransformer技术。2023年后，基于Transformer的多模态大模型出现，AI大模型应用新的空间打开。其中，最先成熟的AIGC应用是文生图，核心在CLIP和DALL-E模型。DALL-E是OpenAI2021年发布的多模态-文生图模型，DALL-E基于GPT-3，经过文本-图像数据集训练，有120亿参数。CLIP用于将相关文本和图像对应。

本页网址：https://www.xinzhibang.net/article_detail-17693.html

寻求报道，请

关键词

AI应用多模态 OpenAI 微软 AICopilot DALL-E

分享至微信：

相关工具

阿里云推出的智能Logo设计

Microsoft Designer

微软推出的在线设计海报和宣传图工具

Illustroke

AI SVG矢量插画生成工具

Eva Design System

基于深度学习的色彩生成工具

即时AI

即时设计推出的由文本描述生成可编辑的原型设计稿

Designs.ai

AI设计工具

视频翻译工具MyHeyGen的使用方法

视频翻译工具MyHeyGen的使用方法近期，一款名为“视频翻译”的工具引起了广泛关注。这不是一个简单的网页应用，而是一个可以免费部署在个人电脑或服务器上的实用程序。它的强大之处在于能够翻译任意时长的视频内容。所谓的视频翻译，实际上是指同声传译。虽然这类工具并非近期才问世，市场上已有多款成熟产品，例如

分类标签视频翻译MyHeyGen开源版本

12-06 04:13

免费视频翻译工具MyHeyGen使用教程

免费视频翻译工具MyHeyGen使用教程近期，一款名为“视频翻译”的工具引起了广泛关注。这不是一个简单的网页应用，而是一个可以免费部署在个人电脑或服务器上的实用程序。它的强大之处在于能够翻译任意时长的视频内容。所谓的视频翻译，实际上是指同声传译。虽然这类工具并非近期才问世，市场上已有多款成熟产品，例

分类标签视频翻译免费工具MyHeyGen

12-03 02:26

7个最好的文本生成图像AI工具

MidjourneyMidjourney是基于diffusion的AI图画艺术生成器。它是业内标杆，效果最强大的文本生成图像AI工具之一。它能够生成照片级精细的图像，不局限于二次元人物。官网：https://www.midjourney.com/StableDiffusionOmlineStable

分类标签文本生成图像AI工具MidjourneyStableDiffusionOmlineMicrosoftDesignerCraiyonNightCafeStudioWomboDalle-2AvatarAI

11-18 22:17

微软发布Copilot智能助手，全民生成式AI办公时代降临！

微软发布Copilot智能助手，全民生成式AI办公时代降临！美东时间9月21日，微软在美国纽约曼哈顿举办产品发布会，生成式AI成为重要主题之一。微软表示，Copilot将于9月26日在Windows11中推出；Microsoft365Copilot将于11月1日向企业客户全面推出；将OpenAI最新

分类标签微软CopilotAIWindows11Microsoft365Copilot

11-10 10:08

TRENDLAND利用AI技术创作出戴安娜王妃穿着Adidas运动风的虚拟形象

科技进步促成各种新发明的出现，许多曾在电影里的景象，都真实被运用在生活中，其中像是AI人工智慧，过去看似虚拟的物件，如今也被广泛运用在各个领域。近日，网站TRENDLAND利用AI影像技术创作出了一组虚拟戴安娜王妃身穿Adidas运动风的形象照，可谓是跨时代的演绎流行与时尚，照片一出随即掀起一波讨论

分类标签 TRENDLANDAI技术戴安娜王妃

11-10 10:06

MicrosoftDesigner：让每个人都能成为视觉设计师的智能化工具

背景介绍在视觉图像设计中，用户的需求与最终的设计成品往往是“想象很美好，现实很骨感”。这通常是因为用户在与设计师沟通时，双方理解不一致，导致最终设计结果不尽如人意。但是，如果能够“自给自足”，借助人工智能技术为每个人赋予设计能力，是否会更容易让自己脑海中的画面变为现实？智能化设计工具Microsof

分类标签 MicrosoftDesigner视觉设计工具人工智能技术

11-10 10:05

推荐实用AI网站，助力学习和工作

推荐实用AI网站，助力学习和工作在当今数字化时代，人工智能已经成为了各个行业的热门话题。越来越多的企业和个人开始关注AI技术，并在学习和工作中加以应用。为了帮助大家更好地了解和使用AI技术，我们推荐了以下6个实用的AI网站。AIEDU-国内优秀的人工智能教育平台AIEDU是一个国内颇受好评的人工智能

分类标签 AIEDUHuggingFaceGodModeDesignerAI工具集Humata

11-10 10:03

微软发布人工智能工具Copilot和365CHAT，Adobestock加入图像生成功能

微软发布人工智能工具Copilot和365CHAT9月21日，微软在近期的Surface发布会上公布了Microsoft365Copilot、365CHAT以及具体的发布时间。Copilot将作为Windows11的一项更新，于9月26日以测试版的形式推出。届时，Windows11将完成150项更新

分类标签微软人工智能Copilot365CHATAdobestock图像生成

11-10 10:02

OpenAI的另一款产品——图像生成AI系统DALI-E2

OpenAI的另一款产品——图像生成AI系统DALI-E2OpenAI的图像生成AI系统DALI-E2能够生成自己满意的图像，而不需要魔法和checkGPT账号，也不需要英文指令，只需要输入一句话即可。使用官网会有积分次数限制，但是本文将教你如何无限白嫖该工具，并且你还可以运用它制作出宣传海报视频等

分类标签 OpenAI图像生成DALI-E2

11-10 08:54

微软公司发布设计工具MicrosoftDesigner

微软公司发布设计工具MicrosoftDesignerMicrosoftDesigner是由微软公司推出的设计工具，主要用于快速创建Web和移动应用程序的原型设计。它于2022年10月首次发布，并于2022年11月开始内测。该产品操作非常简单，得益于其用户友好的界面和强大的功能集。在左侧输入关键词，

分类标签 MicrosoftDesigner设计工具Web应用程序

10-29 08:47