新知榜官方账号
2023-09-30 10:16:33
元宇宙时代的娱乐场景下,通过高精度的AI驱动模型还原真人的歌舞表演,有着更低成本、更多创造性、精彩度、实时互动性的综合优势,是虚拟数字人驱动的最终形态。LiveVideoStackCon2022北京站邀请到腾讯音乐天琴实验室计算机视觉负责人——董治,为大家介绍TME天琴实验室在音乐驱动领域的MusicXRMaker系统,包括虚拟人舞蹈生成、歌唱表演生成、音乐灯光秀等方面的最新进展。
本次分享的主题是“音乐驱动虚拟人”,重点关注到娱乐场景下的虚拟人AI驱动方案。这是天琴实验室的虚拟人——小琴,她在QQ音乐有专门的歌手页,会发歌、发视频,未来在站内或站外都会发布作品。本次分享主要包括四部分:
综合以上便是MusicXRMaker研发体系,包括虚拟元素创建的具体工作,通过各种途径拿到数据源,基于对音乐的理解,风格旋律情绪能量节奏段落等,实现AI生成。大体分为两类:1、端到端模型,包括分类预测、关键点预测和生成类模型;2、AI编排生成,包括召回、排序和重排。最终通过3D渲染手段应用在产品端,主要是互动场景,包括音乐世界、云蹦迪直播、KK秀和TMELand,及专门的虚拟人,包括扇宝、安可、小天、小琴等,在虚拟人方面还可以延伸出虚拟偶像视频、虚拟直播和虚拟演唱会。
虚拟人歌唱涉及到口型和表情,超写实虚拟人配备了专业的设备及面捕方案。普通虚拟人则能够直接使用普通手机摄像头,实时驱动52BS的面部表情,包括Unity兼容的ARKit、Unreal的Livelink。计算量最大部分放在了异步处理。另一套方案不涉及模型,即音素转视素,在TTS实时产生音素信息,根据得到的相应视素调整口型。最终的生成效果不仅包括歌唱口型,还需要综合生动的表情、手势、身形。
完整的虚拟舞台的呈现,除了包括虚拟人的人物表情、口型动作之外,还需要两方面:灯光舞美和运镜编导。目前的方案通过专业的灯光老师及摄影老师自己的专业经验和传统手段,并没有涉及到太多自动化动作,于是我们思考通过算法实现这部分工作,从而降低表演成本。自动运镜时需要跟踪任务的动作、手势、快慢,旋转角度等。编导还需要考虑到音乐、灯光,如灯光好看时应该呈现全局的表现、人物表现,如在人物陶醉时给面部特写,动作精美时给全身特写。
相关工具
相关文章
相关快讯
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16