新知榜官方账号
2023-10-23 00:56:34
OpenAI升级了图片、语音多模态能力,并即将应用在最新ChatGPT中。微软宣布本月底更新AICopilot系统,全面集成OpenAI模型能力。具体如下:
OpenAI宣布即将发布新的多模态功能,包括图像读取与理解、语音对话和语音生成。ChatGPT即将在两周内对Plus用户与企业用户开放一系列新功能,其中图文能力对全平台开放,与Chatgpt语音对话的能力仅对ios及安卓客户端开放。对话能力:通过语音直接对ChatGPT对话,同时GPT可以直接语音回复客户,可选5种定制声音,支持ios和Android移动应用使用;图像-文本能力:ChatGPT除了文字之外,可以理解客户上传的图片信息。GPT能够理解照片、图片截图、包含图像的文档等。客户可以上传一张或者多张图片给系统,甚至可以用画笔标注重点内容,让系统读取理解,可以用于辅导学生作业、搜索日常食谱等各个方向。语音和图像提供了更多在生活中使用ChatGPT的方式。例如在旅行时拍摄地标的照片,并就其进行实时对话问答;拍摄冰箱和食品储藏室的照片,以确定晚餐的食物(并询问后续问题以获取分步食谱);通过直接拍摄家庭作业照片来获得解答,或分析与工作相关的数据的复杂图表。此前,OPENAI也升级了DALL・E3模型能力。新的DALL·E模型与ChatGPT能力合并,画作更加细腻,同时可以不用prompt,准确还原细节,并且为图片配上文字。Plus和企业版用户通过文本就能直接在ChatGPT中生成各种类型图片,不仅加强提示词的生成图像体验,而且增强模型理解用户指令的能力,图像效果也有提升。更好的掌握用户提出的每一个描述。例如上图,“享受夜间生活的行人”“满月的光辉”“蒸汽朋克电话”“和怒气冲冲的老商人讨价还价”等多个较难以体现的细节描述,都体现在图画中。同时可以对生成内容进行多轮自然语言对话编辑。例如让DALL-E模型生成多个刺猬图片,选出其中一只取名为Larry,并要求模型生成更多Larry图片,甚至可以询问模型“为什么Larry这么可爱”,模型可以做出文字解答,期间完成了5轮对话和修改。
微软在OpenAI发布后,公布了GPT-4V详细测评《TheDawnofLMMs:PreliminaryExplorationswithGPT-4V(ision)》。5种使用方式:输入图像、子图像、文本、场景文本和视觉指针。即同时支持纯图像输入,也支持图像、文本交互输入,同时也可以对图片进行指向性提示(例如画箭头、画圈)。3种支持的能力:指令遵循、思维链、上下文少样本学习。此外,微软也展示了GPT-4V的多项基本能力:
1)视觉-语言能力:除常见的人物、地标等识别外,GPT-4V还可以理解人和物体间的关系,计数、生成字幕和描述,解释笑话,回答科学问题,根据手写数学方程生成LaTeX代码等。2)与人类的互动:视觉参考提示。在与多模态系统的人机交互中,指向特定空间位置是一项基本能力,例如进行基于视觉的对话。3)时间和视频理解:多图像序列、视频理解、基于时间理解的视觉参考提示。输入视频的几个关键帧,可以理解事件前后关联。4)视觉推理、智商、情商测试等,此外GPT-4v还可以用于工业、医药、汽车保险、具身智能、GUI交互等。整体来看,GPT-4V展现出强大的混合输入能力,并且可以较好的支持LLM中观察到的test-time技术,包括指令跟随、思维链、上下文少样本学习等。
AICopilot9月26日起发布,OfficeCopilot11月1日起大范围开放。具体如下:
其中, AICopilot升级了多端和团队协同能力。AICopilot支持下,OutlookforWindows可连接到谷歌、苹果等不同公司的多个(云端)账户。文件管理器FileExplorer的主页、地址栏和搜索框能直接访问重要且相关的内容,无需打开文件便可进行协作。备份Backup功能可将大多数文件、应用程序和个性化设置等从一台Windows电脑无缝转移到另一台上。Copilot还可从用户手机(例如短信)中获取内容,导入Win11系统。假设用户要给家人发送航班时刻表,Copilot会根据要求将数据导入电脑桌面上,无需拿出手机就可完成信息发送。
同时,本次发布会展示了办公软件插件能力和AI助手功能Microsoft365Chat。可梳理工作中的各个数据领域信息,包括电子邮件、会议、聊天记录、文档以及网络信息。Microsoft365Copilot企业版将提取用户的企业数据来帮助撰写电子邮件、规划活动等。
2022年后,随着Transformer技术的发展,Transformer也使用在了CV领域,并形成了VisionTransformer技术。2023年后,基于Transformer的多模态大模型出现,AI大模型应用新的空间打开。其中,最先成熟的AIGC应用是文生图,核心在CLIP和DALL-E模型。DALL-E是OpenAI2021年发布的多模态-文生图模型,DALL-E基于GPT-3,经过文本-图像数据集训练,有120亿参数。CLIP用于将相关文本和图像对应。
相关工具
相关文章
推荐
FLUX.1 Kontext 一出,AI生图领域 “地震” 了!
2025-06-06 15:38
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11