阿里达摩院低调测试“文本生成视频大模型”:一段话还你一段视频

新知榜官方账号

2023-10-04 08:46:22

近日,阿里达摩院低调测试了一款“文本生成视频大模型”,该模型由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成,整体模型参数约17亿。该模型支持英文输入,能够根据输入的文本描述生成对应的视频。

该大模型的提示词仅支持英文输入,每次视频生成的时间在1至4分钟,随后会收到一段2秒钟的视频。根据关键词的不同,所反馈的内容也有所不同,且基本都较为清晰流畅,视觉效果炫酷,只是不含音轨,偶尔还有跳帧的情况。

测试结果表明,AI生成的视频仍然是有逻辑和常识可依的。不过,当输入的关键词偏离科学和常识后,所生成视频的画风也开始走偏。因此,该文本生成视频技术尚待发展,距离产出令人满意的视频还有很大距离。

不过,文本生成视频已具备巨大的市场潜力。有研报显示,从头生成视频,无需于其他视频素材,这标志着所有用户无需视频制作技巧,均可以参与到AI视频的创作中来,也标志着AIGC正式迈入了视频时代。随着全民加入AI视频创作,算力需求将会成为更加重要的资源。在未来,算力将成为决定内容质量与商业竞争力的关键因素,即“算力即权力”。同时,AI视频的放量也将会改变目前如电商直播、产品广告、影视制作等多个行业的生态,下游应用的加速时刻也将到来。

本页网址:https://www.xinzhibang.net/article_detail-15316.html

寻求报道,请 点击这里 微信扫码咨询

关键词

阿里达摩院 文本生成视频 AIGC工具

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯