AlGCbeyondlmages:3DandVideoSynthesis

新知榜官方账号

2023-10-12 17:04:38

AlGCbeyondlmages:3DandVideoSynthesis

2023年1月11日，香港科技大学助理教授陈启峰博士受邀于北京大学前沿计算研究中心带来题为“AlGCbeyondlmages:3DandVideoSynthesis”的在线报告。报告由中心助理教授董豪博士主持，线上近百人观看。

陈启峰博士做线上报告在报告的开始，陈老师介绍了生成式AI（GenerativeAl）的一些应用，比如OpenAI发布的DALL.E2在文本生成图像（text-to-image）和图像补全（ImageCompletion）场景中的应用、Google发布的Imagen在视频生成（videogeneration）场景的应用以及陈老师实验室探索的AIGC在3DsceneGeneration，DynamicNovelViews和ImageEditing场景的应用。

在过去几年中，生成对抗网络（GANs）已经成为了生成模型的主要技术之一。随着时间的推移，VAE、Flow-basedmodels、扩散模型（DiffusionModels）等新的生成模型慢慢涌现，在数据合成和图像处理等方面取得了很好的表现。陈老师以如下两个主题介绍了生成模型在3D视频场景中的拓展和应用：

3D场景和物体合成（3DSceneandObjectSynthesis）

陈老师首先介绍了其团队发表在ECCV2022（Oral）的工作“3D-AwareIndoorSceneSynthesiswithDepthPriors”。该工作考虑目前多数室内场景合成的工作都集中在研究2D图像合成上，而忽略了3D几何结构信息的准确性与多视角一致性。为了解决这个问题，陈老师展示了一种考虑深度先验的3D室内场景合成方法，该方法提出了一种Dual-pathGenerator，其中一条分支用于生成室内场景深度图，并以此为先验另一分支生成对应的RGB图，进一步提出SwitchableDiscriminator，利用预训练单张图像深度估计网络设计3D一致性损失，实现了较好的室内场景合成的效果。

接下来陈老师介绍了其团队在NeurIPS2022（Spotlight）的工作“Improving3D-AwareImageSynthesiswithaGeometry-AwareDiscriminator”。先前多数基于GAN的图像合成模型只设计了考虑3D结构的生成器（如利用NeRF实现），该工作探索了考虑3D结构的判别器的设计，以提升图像合成的效果。

可驱动数字人合成Controllable3DAvatarSynthesis

如何实现可驱动的数字人的合成是AIGC的研究热点，其在游戏和电影制作等领域中应用广泛，陈老师进一步介绍了其在可驱动数字人合成方向上的一些工作，主要涉及数字人的肢体动作、脸型及表情的驱动与合成。

关于数字人的肢体动作驱动与图像合成，陈老师介绍了其团队在ECCV2022的工作“Real-TimeNeuralCharacterRenderingwithPose-GuidedMultiplaneImages”，该工作提出了一种基于Pose-GuidedMultiplaneImages的模型，利用输入的人体姿态控制人物动作，利用MultiplaneImage的表征用来实时渲染不同视角的图像。

关于数字人的脸型及表情的图像合成，现有多数工作可以从不同的角度渲染人物头像，但是合成的人物表情是不可控的。陈老师介绍了其团队发表于NeurIPS2022（Spotlight）的文章“AniFaceGAN:Animatable3D-AwareFaceImageGenerationforVideoAvatars”。该工作关注表情可驱动的人脸合成问题，把人脸合成任务中人脸的脸型以及表情解耦，通过生成模型生成某一表情对应的变形场，并将其作用于生成的标准的（无表情）人脸模型，实现了表情可驱动的人脸合成。

讲座尾声，陈老师表达了对AIGC应用的未来展望。AIGC作为工具的使用对象会更加泛化，不只是艺术工作者还可以是普通用户，3D和视频合成将是AIGC的主要研究方向以及还会在元宇宙、AR/VR等领域更受欢迎！最后并对同学们提出的提问进行了详细的解答。

本页网址：https://www.xinzhibang.net/article_detail-16514.html

寻求报道，请

关键词

AlGC 3D Video Synthesis

分享至微信：

相关工具

万兴播爆

万兴科技推出的AI数字人口播视频营销工具

Cutout.Pro

AI在线处理图片

万彩微影

AI智能自动生成动画短视频

来画

动画和数字人智能生成平台

Elai.io

AI文本到视频生成工具

Kaiber

图片文字转视频的AI引擎

Runway Gen-2文本到视频更新，如何体验？

引言不久前介绍了一个号称地表最强的文本生视频的工具Moonvalley。紧接着在11月2日，Runway重磅发布了第2代文本到视频和图像到视频生成的更新。Gen-2的视频「保真度」和「一致性」较之前的版本都有了很大的提升。完全看不出是AI生成的！如何体验Gen-2Gen-2目前支持三种生成视频的方式

分类标签 RunwayGen-2文本到视频AI工具

12-09 22:13

免费视频翻译工具MyHeyGen的安装及使用教程

免费视频翻译工具MyHeyGen的安装及使用教程近期，一款名为“视频翻译”的工具引起了广泛关注。这不是一个简单的网页应用，而是一个可以免费部署在个人电脑或服务器上的实用程序。它的强大之处在于能够翻译任意时长的视频内容。所谓的视频翻译，实际上是指同声传译。虽然这类工具并非近期才问世，市场上已有多款成熟

分类标签视频翻译工具MyHeyGen同声传译

12-08 16:09

视频翻译工具myheygen的安装及使用教程

视频翻译工具myheygen的安装及使用教程近期，一款名为“视频翻译”的工具引起了广泛关注。这不是一个简单的网页应用，而是一个可以免费部署在个人电脑或服务器上的实用程序。它的强大之处在于能够翻译任意时长的视频内容。所谓的视频翻译，实际上是指同声传译。虽然这类工具并非近期才问世，市场上已有多款成熟产品

分类标签视频翻译myheygen免费工具

12-03 16:21

视频翻译工具MyHeyGen使用教程

什么是MyHeyGen？MyHeyGen是一款免费实用的视频翻译工具，可以免费部署在个人电脑或服务器上。与市场上其他视频翻译工具不同的是，MyHeyGen可以处理任意时长的视频内容，而且不需要成为付费会员。如何使用MyHeyGen？使用MyHeyGen需要一定的硬件要求，至少需要12GB的显存空间。

分类标签视频翻译MyHeyGen同声传译

12-03 08:35

视频翻译工具MyHeyGen的使用方法

视频翻译工具MyHeyGen的使用方法近期，一款名为“视频翻译”的工具引起了广泛关注。这不是一个简单的网页应用，而是一个可以免费部署在个人电脑或服务器上的实用程序。它的强大之处在于能够翻译任意时长的视频内容。所谓的视频翻译，实际上是指同声传译。虽然这类工具并非近期才问世，市场上已有多款成熟产品，例如

分类标签视频翻译MyHeyGen免费工具

12-02 02:21

视频翻译工具MyHeyGen使用指南

什么是MyHeyGen？MyHeyGen是一款免费部署在个人电脑或服务器上的实用程序，能翻译任意时长的视频内容。它能够实现同声传译，是一款强大的视频翻译工具。市场上已有多款成熟产品虽然市场上已有多款成熟的视频翻译产品，例如heygen和rask的网页版视频翻译工具，以及像veed、有道视频翻译等网页

分类标签视频翻译MyHeyGen实用程序

12-01 22:33

印度在线游戏市场有望达到37.5亿美元规模，职业游戏玩家成新职业

印度在线游戏市场有望达到37.5亿美元规模Volanews2020年全球魔幻大戏还有两个月就要落下帷幕了。在传统魔幻大国印度，活跃新冠病毒病例数量已连续第三天保持在70万以下，治愈率达90%，印度政府也于10月22日发布通知，决定逐步放宽签证和旅行限制，除电子签、旅游签、医疗签之外的所有签证，都开始

分类标签印度在线游戏市场增长

11-30 16:22

CAMIA数据周刊：印尼、印度、泰国和菲律宾应用和游戏下载量TOP20

CAMIA数据周刊：印尼、印度、泰国和菲律宾应用和游戏下载量TOP20CAMIA数据周刊每周定期更新海外最新动态，本期选取了Googleplay商店12月12日印尼、印度、泰国以及菲律宾免费榜TOP40的应用和游戏，对其一周内的下载量进行了统计排序，从而总结出这一周内下载量前20的游戏和应用。印尼移

分类标签 CAMIA数据周刊应用游戏下载量印尼印度泰国菲律宾

11-30 16:21

印度：成为全球重要游戏市场

印度：成为全球重要游戏市场由詹妮弗·劳伦斯和克里斯·帕拉特主演的电影《太空旅客》的官方游戏是印度HeroDigitalEntertainment参与合作开发的。一些人可能会对此感到诧异。实际上，印度每年都在国际市场开发近100款游戏。随着《王国之心2.8》和《盗贼之海》等游戏的推出，印度正快速成为续

分类标签印度游戏市场游戏开发JetSynthesys

11-30 16:20

布达佩斯人工智能联合开放平台正式发布，将提供超过100种多语种能力

布达佩斯人工智能联合开放平台正式发布，将提供超过100种多语种能力当地时间8月24日，2023年世界田径锦标赛的新闻发布中心，布达佩斯人工智能联合开放平台正式发布。该平台由科大讯飞与和布达佩斯技术与经济大学孵化企业SpeechTex合资的企业VerbaLinkEurope承建。发布会上，科大讯飞宣布

分类标签布达佩斯人工智能联合开放平台多语种能力科大讯飞

11-30 16:19

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway