影眸科技提出新型文本指导的渐进式3D生成框架DreamFace

新知榜官方账号

2023-07-08 08:54:49

影眸科技提出新型文本指导的渐进式3D生成框架DreamFace

随着计算机图形学的发展，3D生成技术正逐渐成为研究热点。然而，从文本或图像生成3D模型仍然存在许多挑战。近期，Google、NVIDIA和微软等公司推出了基于神经辐射场（NeRF）的3D生成方法，但这些方法与传统的3D渲染软件（如Unity、UnrealEngine和Maya等）存在兼容性问题，限制了其在实际应用中的广泛应用。为此，影眸科技与上海科技大学的研发团队提出了一种文本指导的渐进式3D生成框架，旨在解决这些问题。

根据文字描述生成3D资产该研究团队提出的文本指导的渐进式3D生成框架（简称DreamFace），结合了视觉-语言模型、隐式扩散模型和基于物理的材质扩散技术，生成符合计算机图形制作标准的3D资产。这一框架的创新之处在于其几何体生成、基于物理的材质扩散生成和动画能力生成三个模块。这项工作已被顶级期刊TransactionsonGraphics接收，并将在国际计算机图形学顶级会议SIGGRAPH2023上展示。

如何实现DreamFace三大功能

DreamFace主要包括三个模块，几何体生成，基于物理的材质扩散和动画能力生成。相比先前的3D生成工作，该工作的主要贡献包括：提出了DreamFace这一新颖的生成方案，将最近的视觉-语言模型与可动画和物理材质的面部资产相结合，通过渐进式学习来分离几何、外观和动画能力。引入了双通道外观生成的设计，将一种新颖的材质扩散模型与预训练模型相结合，同时在潜在空间和图像空间进行两阶段优化。使用BlendShapes或生成的PersonalizedBlendShapes的面部资产具备动画能力，并进一步展示了DreamFace在自然人物设计方面的应用。

几何体生成：该模块通过CLIP（ContrastiveLanguage-ImagePre-Training）选择框架根据文本提示生成几何模型。首先从人脸几何参数空间随机采样候选项，然后根据文本提示选择匹配得分最高的粗略几何模型。接下来，使用隐式扩散模型（LDM）和得分蒸馏采样（SDS）处理，从而在粗略几何模型中添加面部细节和详细的法线贴图，生成高精度几何体。
基于物理的材质扩散生成：该模块针对预测几何体和文本提示生成面部纹理。首先，对LDM进行微调，得到两个扩散模型。然后，通过联合训练方案协调这两个模型，一个用于直接去噪U纹理贴图，另一个用于监督渲染图像。此外，还采用了提示学习策略和非面部区域遮罩以确保生成的漫反射贴图的质量。最后，应用超分辨率模块生成4K基于物理的纹理，以进行高质量渲染。
动画能力生成：DreamFace生成的模型具备动画能力。与传统基于BlendShapes的方法不同，该框架通过预测独特的变形为静息（Neutral）模型赋予动画效果，从而生成个性化的动画。首先训练几何生成器学习表情潜在空间，然后训练表情编码器从RGB图像中提取表情特征。最终，通过使用单目RGB图像生成个性化的动画。

5分钟生成指定3D资产

DreamFace框架在名人生成、描述生成角色等任务上取得了良好的效果，并在用户评估中获得了超过先前工作的成绩。同时，与现有方法相比，运行时间上具有明显优势。此外，DreamFace支持使用提示和草图进行纹理编辑，实现全局编辑效果（如老化、化妆）和局部编辑效果（如纹身、胡须、胎记）。可用于影视、游戏等行业作为一种文本指导的渐进式3D生成框架，DreamFace结合了视觉-语言模型、隐式扩散模型和基于物理的材质扩散技术，实现了高精度、高效率和良好兼容性的3D生成。该框架为解决复杂的3D生成任务提供了有效解决方案，有望推动更多类似的研究和技术发展。此外，基于物理的材质扩散生成和动画能力生成将推动3D生成技术在影视制作、游戏开发和其他相关行业的应用。

本页网址：https://www.xinzhibang.net/article_detail-6848.html

寻求报道，请

关键词

分享至微信：

相关工具

Veed Video Background Remover

Veed推出的AI视频背景移除工具

Kaiber

图片文字转视频的AI引擎

腾讯智影

腾讯推出的在线智能视频创作平台

幻舟AI

一站式AI影视创作平台

Cutout.Pro

AI在线处理图片

Synthesia

AI视频生成平台

大模型创业者的挑战与机遇

背景去年末，搜狗原CEO王小川只是体验了几次ChatGPT，就确信“AGI已经来了”。后来在创业者社区的一次线上交流会上，当几位AI领域的创业者仅从功能上定义ChatGPT的进步时，王小川又明确表态“大家把这件事想小了。”坚信ChatGPT能颠覆世界的，不止王小川一人。“这并不是上一代的AI技术”，

分类标签大模型创业AI商业化落地

12-04 16:08

使用仙宫云跑SD，用户体验至关重要！

使用仙宫云进行SD渲染最近我在用SD做AI视频。家里的3060真的实在是扛不住了，实在太慢，渲染个几秒钟的动画都要几十分钟甚至一个小时。还是上云吧。其实自己以前一直是本地跑，没怎么用过云端SD，不用不知道，一用吓一跳。我自认为算是稍微专业一点的SD玩家了。还是被各种云折磨的死去活来。比如所谓的阿X云

分类标签 SD云端GPU算力租赁

11-23 02:15

AI数字人：从娱乐场景到产业应用的转变

2022年是AIGC的元年，得益于大模型、多模态和数字孪生等技术的进步，AIGC被提到前所未有的高度，被称为是人工智能领域近期最大的跃进之一。随着AIGC颠覆内容生产模式，市场对于内容的要求也从简单的输出逐渐提高到内容丰富度和准确度，AI赋能内容生产正在向更低的成本，更快的速度发展。无独有偶，同年年

分类标签 AIGCChatGPTAI数字人内容生成企业价值

11-16 08:40

浅谈内部CRM的SFA建设

浅谈内部CRM的SFA建设内部CRM是企业重要的管理工具之一，而SFA建设则是内部CRM中的重要组成部分。SFA（Sales Force Automation）是指销售自动化，是通过计算机和网络技术，将销售业务中各个环节进行标准化处理、自动化管理，以提高销售效率、降低销售成本、提高服务质量的一种管理

分类标签内部CRMSFA建设市场

11-07 08:02

机器人客服的崛起和普及

机器人客服的崛起和普及随着人工智能技术的不断发展和普及，机器人客服正逐渐成为企业服务的新宠。这些智能机器人具备语音识别、自然语言处理等功能，可以实现与客户的智能对话，提供快速、准确的解决方案。相比传统客服，机器人客服更加高效、便捷，让用户享受到了全天候、无延迟的服务体验。情感识别技术的应用为了提升机

分类标签机器人客服情感识别技术跨界合作AI语音助手虚拟形象多语言支持

10-29 22:20

基于学习的动画制作方法：基于卡通角色的少量图像样本就可生成新动画

背景介绍相比于依靠创作者手绘的动画，木偶动画的制作是个非常繁琐的过程，我们需要将一个动作分解成若干个环节，逐帧拍摄再连续放映为影片。近日，Adobe和康奈尔大学提出了一种名为「变形木偶模板」的动画制作方法，可实现基于少量卡通角色样本生成新角色动作，和木偶动画的制作方法倒是有异曲同工之妙。传统动画制作

分类标签动画制作变形木偶模板卡通角色图像样本学习渲染

10-13 02:48

研究人员开发出端到端机器学习系统，可以从音频中单独生成实时面部动画

浙江大学和网易伏羲AI实验室的研究人员开发出一个名为Audio2Face的端到端机器学习系统，可以从音频中单独生成实时面部动画，并调节音调和说话风格。该团队试图构建一个同时满足“逼真”（生成的动画必须反映可见语音运动中的说话模式）和低延迟（系统必须能够进行近乎实时的动画）要求的系统。他们还尝试将其推

分类标签音频面部动画机器学习

10-13 02:46

NVIDIA研究团队推出“黑科技”：仅需一个音频即可快速生成表情丰富的虚拟数字人

虚拟数字人面临表情和互动不够自然的困境随着元宇宙概念的大热，以及疫情叠加下人们对数字生活需求的增加，虚拟数字人的发展步入了快车道，出现了很多类似于华智冰、柳夜熙、翎Ling等超写实虚拟数字人。而人与这些虚拟数字人最大的区别是有感情、能够体会到喜怒哀乐，且能够把喜怒哀乐实时地通过语言、表情等来体现。而

分类标签 NVIDIA虚拟数字人音频表情丰富AI技术Omniverse

10-13 02:44

迪士尼研究AI生成动画技术

迪士尼研究AI生成动画技术近日，迪士尼研究所和罗格斯大学的科学家共同发表了关于AI文本生成动画模型的论文。这种算法只要在输入的文本中描述某些活动即可，不需要注释数据和进行大量训练就能产生动画。这篇论文中，研究人员进一步提出了端到端模型，这种模型可以创建一个粗略的故事版和电影剧本的视频，用来描绘电影剧

分类标签迪士尼AI动画

10-13 02:42

华安证券“勇毅前行”2023年夏季上市公司交流会举行

华安证券“勇毅前行”2023年夏季上市公司交流会举行8月23日至24日，华安证券“勇毅前行”2023年夏季上市公司交流会在上海举行，来自计算机、电子、通信、军工、医药等20个行业的近200家龙头企业参加，就AI的未来与周期律动等前沿热门话题展开探讨。在8月23日主题“AI的未来：布局与应用”研讨会上

分类标签华安证券AI周期律动

10-13 02:30