首页 > 行业观察 > 微软语音AI与微软听听小程序实践

微软语音AI与微软听听小程序实践

新知榜官方账号

2023-10-02 02:46:34

赵晟:微软语音AI的技术突破

微软在语音和语言上投入大量的人力物力,近年来,微软在语音识别上首先取得突破,在2016年,语音识别的准确度已达到跟人相似的水平。微软首先发布了基于神经网络的语音合成产品服务,它与人声的自然度得分的比例达到98.6%,也就是说非常接近人声。

语音识别之路

微软在语音识别的具体突破有哪些?语音识别主要核心指标是词错误率,就是词识别错误占多少比例。在SwitchBoard会话数据集上,微软使用10个神经网络技术,比如:CNN、ResNet、VGG等,多模型输出打分、多系统融合,得到了这个了不起的突破。

机器翻译的里程碑

微软的HumanParity机器翻译系统已经超过或者接近专业人员的翻译水平。它的突破用到了新技术比如对偶学习,用大量无标注数据提高现有的翻译系统。还有推敲网络,先有一个初始翻译,再用另外一个网络进行再一次的修正,同时运用多系统融合技术,最终达到这个突破性的结果。

语音合成技术

最近两三年推出的神经网络TTS,是语音合成技术的突破。谷歌提出来Tacotron,WaveNet这些模型,把语音自然度提升新的水平。微软在2018年,2019年提出了TransformerTTS、FastSpeech等高自然度神经网络TTS模型,并在2018年9月首度推出产品化接近人声的端到端NeuralTTS。

语音服务概览

微软的语音服务基本都在微软Azure这个平台上,提供语音转文字、文字翻译等标准服务。Azure语音云端服务语音转文字有很多功能,如实时识别文字、一个人说话、多人对话、会议场景。这些服务都可以用Rest和WebSocketSDK调用。我们还提供语音到语音的翻译系统,比如翻译机场景,把中文语音输入进去,翻译成英文,得到语音流,可以直接播放,不用再配置其他服务,简化开发步骤。

微软听听小程序实践

微软在微信小程序里推出了“微软听听文档”,通过在移动端快速地给每一页文档做录音,快速发布,通过微信固有的社交关系去传播、发布。每页PPT下面除了有声音外,还有各种社交属性:传播、发朋友圈、进群、点赞、打赏,还有人的声音,也就是演讲者的参与。最终让用户收益才是一切商业逻辑的起点。

本页网址:https://www.xinzhibang.net/article_detail-14806.html

寻求报道,请 点击这里 微信扫码咨询

相关工具

相关文章

相关快讯

ChatGPT,Midjourney,文心一言,文心一格,bing新必应,Stable diffusion,文心一格,稿定设计,墨刀AI,mastergo,Adobe Firefly

短视频知识人物影响力榜

查看更多

新知榜独家 {{faTime.effecttime}}发布

总榜

人物 领域 粉丝数 影响力指数

{{item.manIndex}}

{{item.nickname}} {{item.field}}

{{item.fs}}

{{item.effect}}