AI新技术:一张照片变成流畅连贯的视频

新知榜官方账号

2023-06-30 12:48:35

AI新技术:一张照片变成流畅连贯的视频

知名换脸神器Deepfakes,曾经造出无数“小视频”、恶搞过多位明星,但现在被新AI技术降维打击了。这个新AI不再是篡改视频了,而是直接把一张静态的照片变成视频。

只要有一张静态的人脸照片,甭管是谁,在这个新AI的驱动下,任意配上一段语音,就能张嘴说出来,唱歌也毫无问题。

这项研究来自帝国理工学院和三星,研究者们还准备了一套包含24个真假难辨的视频的图灵测试。这些AI生成的“真假美猴王”,足以蒙骗人类了。

相比此前的斯坦福输入任意文本改变视频人物口型的研究,以及三星的说话换脸,这项技术的实现难度可以说高了很多。

这种技术虽然很厉害,但也带来了许多担忧。怕它会被用在谣言和政治宣传上,实在是让美国立法者们伤脑筋。而且,这项技术还能给做坏事的人掩盖的理由。等技术成熟了,川普真的干坏事的小视频出来,他就可以轻描淡写的说这是假视频。

这项技术的实现需要时序生成对抗网络(TemporalGAN)来帮忙,这是一个端对端的语音驱动的面部动画合成模型,通过静止图像和一个语音生成人脸视频。这项技术使用了多个鉴别器来捕捉自然视频的不同方面,各部分各司其职。

帧鉴别器(FrameDiscriminator)是一个6层的卷积神经网络,来决定一帧为真还是假,同时实现对说话人面部的高质量视频重建。序列鉴别器(SequenceDiscriminator)确保各个帧能形成一个连贯的视频,显示自然运动。同步鉴别器(SynchronizationDiscriminator)加强了对视听同步的要求,决定画面和音频应该如何同步。

这项技术虽然有很多担忧,但它也有很多的应用前景。未来,它可以用于动画电影、游戏制作、虚拟现实等领域。

本页网址:https://www.xinzhibang.net/article_detail-3263.html

寻求报道,请 点击这里 微信扫码咨询

关键词

AI新技术 人脸合成 语音驱动

分享至微信: 微信扫码阅读

相关工具

相关文章