Meta发布「用嘴做视频」仅一周，谷歌CEO劈柴哥接连派出两名选手上场竞争

新知榜官方账号

2023-06-30 13:42:56

Meta发布「用嘴做视频」仅一周，谷歌CEO劈柴哥接连派出两名选手上场竞争

视频生成AI进入视频时代！Meta发布「用嘴做视频」仅一周，谷歌CEO劈柴哥接连派出两名选手上场竞争。第一位ImagenVideo与Meta的Make-A-Video相比突出一个高清，能生成1280*768分辨率、每秒24帧的视频片段。另一位选手Phenaki，则能根据200个词左右的提示语生成2分钟以上的长镜头，讲述一个完整的故事。网友看过后表示，这一切进展实在太快了。也有网友认为，这种技术一旦成熟，会冲击短视频行业。那么，两个AI具体有什么能力和特点，我们分别来看。

ImagenVideo：理解艺术风格与3D结构

ImagenVideo同样基于最近大火的扩散模型，直接继承自5月份的图像生成SOTA模型Imagen。除了分辨率高以外，还展示出三种特别能力。首先它能理解并生成不同艺术风格的作品，如“水彩画”或者“像素画”，或者直接“梵高风格”。它还能理解物体的3D结构，在旋转展示中不会变形。最后它还继承了Imagen准确描绘文字的能力，在此基础上仅靠简单描述产生各种创意动画，这效果，直接当成一个视频的片头不过分吧？除了应用效果出色以外，研究人员表示其中用到的一些优化技巧不光对视频生成有效，可以泛化至一般扩散模型。

Phenaki：人人都能是“导演”

Phenaki的论文投了ICLR2023会议，在一周前Meta发布Make-a-video的时候还是匿名双盲评审状态。如今信息公开，原来研究团队同样来自谷歌。在公开的信息中，Phenaki展示了它交互生成视频的能力，可以任意切换视频的整体风格：高清视频/卡通，还能够切换任意场景。还可以向Phenaki输入一个初始帧以及一个提示，便能生成一段视频。这都还是开胃小菜，Phenaki真正的大招是：讲故事，它能够生成2分钟以上的长视频，通过输入长达200多个字符的系列提示来得到。

从文本提示到视频，计算成本高、高质量文本视频数据数量有限以及视频长度可变一直以来都是此类模型发展的难题。以往的大多数AI模型都是通过单一的提示来生成视频，但若要生成一个长时间并且连贯的视频这远远不够。而Phenaki则能生成2分钟以上的视频，并且还具备故事情节，这主要归功于它能够根据一系列的提示来生成视频的能力。

具体来说，研究人员引入了一个新的因果模型来学习表示视频：将视频视作图像的一个时间序列。这个模型基于transformer，可以将视频分解成离散的小表示，而分解视频则是按照时间的因果顺序来进行的。再讲通俗一点，就是通过空间transformer将单个提示进行编码，随后再用因果transformer将多个编码好的提示串联起来。一个提示生成一段视频，这样一来，视频序列便可以沿着提示中描述的时间序列将整个“故事”串在一起。因为将视频压缩为离散的图像序列，这样也大大减少了AI处理标记视频的数量，在一定程度上降低了模型的训练成本。

ImagenVideo和Phenaki，谷歌接连放出大招，从文本到视频的AI发展势头迅猛。值得一提的是，ImagenVideo一作表示，两个团队将合作进行下一步研究。嗯，有的网友已经等不及了。

AI会不会取代人类？

每次AI有了新进展后都会不可避免地碰到那个话题——AI会不会取代人类。目前来说，一位影视行业的工作者表示还不到时候：老实说，作为一个在电影行业工作了十年的人，这个话题令人沮丧。在他看来，当前的视频生成AI在外行看起来已经足够惊艳，不过业内人士会认为AI还缺乏对每一个镜头的精细控制。对于这个话题，StabilityAI新任首席信息官DanielJeffries此前撰文表示，AI最终会带来更多的工作岗位。如相机的发明虽然取代了大部分肖像画家，但也创造了摄影师，还开辟了电影和电视这样的全新产业。5年后再回看的话，反对AI就像现在反对Photoshop一样奇怪，AI只不过是另一个工具。Jeffries称未来是环境人工智能（AmbientAI）的时代，各个行业、各个领域都会在人工智能的加持下进行发展。不过现在我们需要的是一个更开放的人工智能环境，也就是说：开源！

本页网址：https://www.xinzhibang.net/article_detail-3283.html

寻求报道，请

关键词

Meta 视频生成AI ImagenVideo Phenaki 人工智能谷歌

分享至微信：

相关工具

Writesonic

AI写作，文案，释义工具

Notion AI

Notion推出的AI内容创作助手

彩云小梦

彩云科技推出的智能AI故事写作工具

智搜

Giiso写作机器人，内容创作AI辅助工具

5118 SEO优化精灵

一键式生成高质量SEO文章，提高搜索引擎排名获得更多流量

讯飞智检

讯飞推出的智能写作SaaS工具，支持智能写作后的校对与合规审核

AI视频生成技术原理与应用场景

AI视频生成技术原理与应用场景AI技术不仅可以生成图片，也能够生成序列帧，组成一个完整的视频。2022年10月，AI重置版《幻觉东京》发布。《幻觉东京》原本是一部记录日本亚文化人物的纪录片，作者将经过剪辑的短片交给AI美术大师，经过160小时生成3万张独立插画，再进行人工手动微调，连成了一部赛博朋克

分类标签 AI视频生成视频制作AIGC

12-07 02:08

一款名为“视频翻译”的工具：免费、能处理任意时长视频的翻译工具

一、工具介绍近期，一款名为“视频翻译”的工具引起了广泛关注。这不是一个简单的网页应用，而是一个可以免费部署在个人电脑或服务器上的实用程序。它的强大之处在于能够翻译任意时长的视频内容。所谓的视频翻译，实际上是指同声传译。虽然这类工具并非近期才问世，市场上已有多款成熟产品，例如我之前提到的heygen和

分类标签视频翻译同声传译免费工具

12-03 16:23

AI绘画和AI编程：技术进步带来的就业危机

AI绘画和AI编程：技术进步带来的就业危机AI技术的进步带来了许多新的应用，比如AI绘画和AI编程等。然而，这些技术也带来了就业危机，尤其是对程序员来说。本文探讨了AI绘画和AI编程的发展历程以及可能带来的影响。今年，AI绘画以各种姿势刷遍了科技版新闻的头条。年初，只需要一句文字描述就能画出科幻奇观

分类标签 AI绘画AI编程技术进步就业危机人工智能程序员

12-03 16:07

视频翻译工具MyHeyGen的安装与使用

什么是MyHeyGen？MyHeyGen是一款免费的视频翻译工具，可以免费部署在个人电脑或服务器上，可以翻译任意时长的视频内容。与其他市场上的视频翻译工具不同，MyHeyGen可以处理任意时长的视频且完全免费。如何安装MyHeyGen？您可以在以下链接中找到MyHeyGen的源代码：https://

分类标签视频翻译MyHeyGen免费工具

12-03 08:38

AI数字人和虚拟人的区别及其应用场景

一、AI数字人与虚拟人的区别AI数字人是利用人工智能技术实现与真人直播形象的1:1克隆，即克隆出一个数字化的真人，包括你的形象、表情、动作和声音都会被克隆下来，让你能够拥有接近真人的表现力，它可以进行直播带货、客户服务、教育培训等各种任务。虚拟人是通过计算机生成的虚拟实体，可以是二维或三维形象。虚拟

分类标签 AI数字人虚拟人人工智能直播带货客户服务教育培训虚拟现实游戏和动画

11-27 22:12

《资治通鉴》的管理哲学

《资治通鉴》的管理哲学是以历史为参照，从政治兴衰和军事得失中总结出治国理政的经验和教训，注重人才选拔，强调品德和诚信的重要性。这一管理哲学为现代企业的管理和经营提供了丰富的参考。首先，《资治通鉴》强调了诚信和品德的重要性，建议在选拔人才时，首先考察其品德，其次才是才能。这一原则在现代企业中也同样适用

分类标签资治通鉴管理哲学人才决策组织内部结构危机管理领导力公正的管理

11-21 22:27

看看火山AI写的短篇小说：初遇，错别离，重逢，分离

在那个初秋，沈忆枫第一次遇到了刘念。她就像一束阳光，光芒四射，让人无法忽视。她像一个神话中的天使，让刘念情不自禁地爱上了她。然而，沈忆枫是高干子弟，他和刘念的环境大相径庭。刘念只是一个平凡的人，他自卑而胆怯，不敢去表白。然而，命运仿佛在和他们开玩笑，一个意外的误会，让刘念和沈忆枫的生活轨迹开始交错。

分类标签火山AI短篇小说初遇错别离重逢分离

11-21 22:26

文心一言4.0版本发布，功能更智能，插件更多

文心一言4.0版本发布，功能更智能，插件更多文心一言于11.1日正式推出4.0版本，对比3.5免费版，4.0是需要付费使用的，订阅费用59.9/月，连续订阅则是49.9/月，相比较国外GPT4.0来说，这个价格更“亲民”一些。基础版文心一言3.5在开放使用之后我也体验了很多次了，对话、写作、绘画都不

分类标签文心一言4.0版本智能AI应用

11-21 22:25

火山写作——自媒体文案神器

火山写作——自媒体文案神器火山写作是一款智能写作工具，由字节跳动旗下开发。它可以让文本更加优化和润色，让你的文案更加出彩。使用火山写作非常简单，只需要把文本输入到左侧空白区，再点击一键优化，就能得到修改和润色的版本。更牛的是，它还可以根据使用需求来定制文本风格。比如，自媒体种草文案、营销文案、学术论

分类标签自媒体文案火山写作智能写作工具

11-21 22:24

AI创作短片和配音的操作教程

AI创作短片和配音的操作教程随着人工智能技术的不断发展，各种AI创作工具也应运而生。其中，AI创作短片是近年来备受关注的一个领域。AI创作短片不仅具有创新性，而且趣味性十足。同时，操作简单，非常适合初学者尝试。首先，AI创作短片具有很强的趣味性。通过AI技术，用户可以轻松生成各种有趣的短片。这些短片

分类标签 AI创作短片AI配音智能配音工具

11-11 10:06

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway