CCF语音对话与听觉专业组走进企业系列活动第十期之“走进腾讯”

新知榜官方账号

2023-09-19 09:20:40

CCF语音对话与听觉专业组走进企业系列活动第十期之“走进腾讯”

本文介绍了CCF语音对话与听觉专业组走进企业系列活动第十期之“走进腾讯”,并邀请到了四位专家介绍腾讯语音及对话领域的最新成果。其中包括腾讯AILab语音技术中心的应用与研究介绍,数字人中的多模态合成技术,低资源语音图像联合识别和实时翻译,以及腾讯天籁音频:云视频会议中的新一代实时音频技术。

腾讯AILab语音技术中心的应用与研究介绍

腾讯AILab是腾讯的企业级AI实验室,借助腾讯丰富应用场景、大数据、计算力,致力于不断提升AI的认知、决策与创造力;在基础研究上,AILab关注四大方向,包括计算机视觉、语音处理,自然语言处理及机器学习;其中,AILab语音技术中心在近几年建立起完整语音交互链条,包括远场阵列及多模态相关模块并实现落地,除了支持公司内外较多包括语音转写,智能硬件等不同业务,也积极探索前沿技术,较早布局多模态交互,AI+数字人及AI+数字内容生成等领域。本报告将介绍腾讯AILab语音技术中心的主要应用落地,分享近期在多个方向包括阵列前端,语音识别,语音分离及多模态交互技术方面研究进展,预告下半年即将对业界开放的语音技术工具平台PiKa和一套大规模多模态数据集。

数字人中的多模态合成技术

近几年来,基于神经网络的声码器模型和基于注意力的端到端的语音合成声学模型大大提升了语音合成的音质以及韵律建模的自然度。本报告主要介绍腾讯AILab数字人中的多模态合成技术近两年的研究和技术进展,以及在现有的主流合成框架下做的一些技术改进。主要介绍两方面内容:1)数字人中的多模态合成技术,以及2)数字人唱歌生成/转换技术。借助腾讯丰富的应用场景,本报告也展示了多模态合成技术在数字人游戏、球赛解说、数字主持人、数字虚拟歌姬等方面的应用。希望通过介绍使大家对腾讯AILab多模态合成技术有更多的了解。

低资源语音图像联合识别和实时翻译

在多媒体内容理解任务中,利用语音识别技术听懂语言,利用OCR技术看懂语言。本讲座将介绍我们如何将二者进行解码统一,在公司全量业务场景上实现算法互补增益和资源节约共享的解决方案;其次,在外语音视频的内容上,如何把听懂和看懂转化为理解,就需要作为核心“大脑”的机器翻译技术,本讲座也将介绍我们在传统语音和图像级联式翻译和最新端到端翻译上的进展。在低资源语种上,也将介绍我们在受限场景搭建工业级低延时,高性能,实时修改语音翻译系统的解决方案。讲座也将介绍《腾讯民汉翻译》在民族语言上的长期积累,以及在一带一路语言理解场景中的前景。

腾讯天籁音频:云视频会议中的新一代实时音频技术

疫情之下,云视频会议蓬勃发展,和传统的视频会议场景相比,音频体验面临着新的网络和音质体验的挑战,迫切需要新一代的解决方案。腾讯多媒体实验室的天籁音频,提供了在复杂网络条件和多变的声学场景下的端到端的完整的音频解决方案,保证了腾讯会议的高清,纯净语言通信体验。

本页网址:https://www.xinzhibang.net/article_detail-12392.html

寻求报道,请 点击这里 微信扫码咨询

相关工具

相关文章

相关快讯