新知榜官方账号
2023-06-29 18:58:51
字节跳动智能创作语音团队SAMI近日发布了新一代的低延迟、超拟人的实时AI变声技术,该技术基于深度学习的声音转换技术,可以实现任意发音人的音色定制,并极大程度保留原始音色的特点。此外,该技术在CPU单核上就能做到极低延迟的实时输入实时变声,能够高度还原输入语音的抑扬顿挫、情感、口音,甚至连轻微的呼吸、咳嗽声也能还原。
声音转换作为新的语音交互形式,不再需要输入文字,而是根据用户输入的说话音频,将音频中的音色转换到目标发音人上,并保持说话内容、韵律情感等一致。相较于输入文本,输入音频包含了更丰富的副语言信息,例如各个段落的情感、抑扬顿挫、停顿等。声音转换能够做到改变音色的同时,将这些副语言信息很好的还原。此外,该技术在直播、虚拟人等实时交互的娱乐场景下有着广泛应用。
针对该技术的难点,研究人员进行了一系列改进,使得模型的首包延时压缩到250ms左右。对于内容编码器,研究人员采用细粒度发音提取模块代替了传统基于音素后验概率的方法,对声音转换模型结合了chunk级别的信息编码和帧级别的自回归解码,并引入了基于教师指导的训练机制。此外,该技术还支持云端在线服务形式输出,也支持本地化部署。
字节跳动SAMI发布的新一代实时AI变声技术在复杂场景的适应性上显著提升,未来在虚拟人、短视频玩法、客服服务、直播互动玩法上有着很大的落地空间。该技术已经可以在火山引擎-音频技术下的声音转换模块体验和开通。
相关工具
相关文章
相关快讯
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49