AlGCbeyondlmages:3DandVideoSynthesis

新知榜官方账号

2023-10-12 17:04:38

AlGCbeyondlmages:3DandVideoSynthesis

2023年1月11日,香港科技大学助理教授陈启峰博士受邀于北京大学前沿计算研究中心带来题为“AlGCbeyondlmages:3DandVideoSynthesis”的在线报告。报告由中心助理教授董豪博士主持,线上近百人观看。

陈启峰博士做线上报告在报告的开始,陈老师介绍了生成式AI(GenerativeAl)的一些应用,比如OpenAI发布的DALL.E2在文本生成图像(text-to-image)和图像补全(ImageCompletion)场景中的应用、Google发布的Imagen在视频生成(videogeneration)场景的应用以及陈老师实验室探索的AIGC在3DsceneGeneration,DynamicNovelViews和ImageEditing场景的应用。

AIGC的一些应用

在过去几年中,生成对抗网络(GANs)已经成为了生成模型的主要技术之一。随着时间的推移,VAE、Flow-basedmodels、扩散模型(DiffusionModels)等新的生成模型慢慢涌现,在数据合成和图像处理等方面取得了很好的表现。陈老师以如下两个主题介绍了生成模型在3D视频场景中的拓展和应用:

3D场景和物体合成(3DSceneandObjectSynthesis)

陈老师首先介绍了其团队发表在ECCV2022(Oral)的工作“3D-AwareIndoorSceneSynthesiswithDepthPriors”。该工作考虑目前多数室内场景合成的工作都集中在研究2D图像合成上,而忽略了3D几何结构信息的准确性与多视角一致性。为了解决这个问题,陈老师展示了一种考虑深度先验的3D室内场景合成方法,该方法提出了一种Dual-pathGenerator,其中一条分支用于生成室内场景深度图,并以此为先验另一分支生成对应的RGB图,进一步提出SwitchableDiscriminator,利用预训练单张图像深度估计网络设计3D一致性损失,实现了较好的室内场景合成的效果。

接下来陈老师介绍了其团队在NeurIPS2022(Spotlight)的工作“Improving3D-AwareImageSynthesiswithaGeometry-AwareDiscriminator”。先前多数基于GAN的图像合成模型只设计了考虑3D结构的生成器(如利用NeRF实现),该工作探索了考虑3D结构的判别器的设计,以提升图像合成的效果。

可驱动数字人合成Controllable3DAvatarSynthesis

如何实现可驱动的数字人的合成是AIGC的研究热点,其在游戏和电影制作等领域中应用广泛,陈老师进一步介绍了其在可驱动数字人合成方向上的一些工作,主要涉及数字人的肢体动作、脸型及表情的驱动与合成。

关于数字人的肢体动作驱动与图像合成,陈老师介绍了其团队在ECCV2022的工作“Real-TimeNeuralCharacterRenderingwithPose-GuidedMultiplaneImages”,该工作提出了一种基于Pose-GuidedMultiplaneImages的模型,利用输入的人体姿态控制人物动作,利用MultiplaneImage的表征用来实时渲染不同视角的图像。

关于数字人的脸型及表情的图像合成,现有多数工作可以从不同的角度渲染人物头像,但是合成的人物表情是不可控的。陈老师介绍了其团队发表于NeurIPS2022(Spotlight)的文章“AniFaceGAN:Animatable3D-AwareFaceImageGenerationforVideoAvatars”。该工作关注表情可驱动的人脸合成问题,把人脸合成任务中人脸的脸型以及表情解耦,通过生成模型生成某一表情对应的变形场,并将其作用于生成的标准的(无表情)人脸模型,实现了表情可驱动的人脸合成。

讲座尾声,陈老师表达了对AIGC应用的未来展望。AIGC作为工具的使用对象会更加泛化,不只是艺术工作者还可以是普通用户,3D和视频合成将是AIGC的主要研究方向以及还会在元宇宙、AR/VR等领域更受欢迎!最后并对同学们提出的提问进行了详细的解答。

本页网址:https://www.xinzhibang.net/article_detail-16514.html

寻求报道,请 点击这里 微信扫码咨询

关键词

AlGC 3D Video Synthesis

分享至微信: 微信扫码阅读

相关工具

相关文章