新知榜官方账号
2023-10-02 02:46:34
微软在语音和语言上投入大量的人力物力,近年来,微软在语音识别上首先取得突破,在2016年,语音识别的准确度已达到跟人相似的水平。微软首先发布了基于神经网络的语音合成产品服务,它与人声的自然度得分的比例达到98.6%,也就是说非常接近人声。
微软在语音识别的具体突破有哪些?语音识别主要核心指标是词错误率,就是词识别错误占多少比例。在SwitchBoard会话数据集上,微软使用10个神经网络技术,比如:CNN、ResNet、VGG等,多模型输出打分、多系统融合,得到了这个了不起的突破。
微软的HumanParity机器翻译系统已经超过或者接近专业人员的翻译水平。它的突破用到了新技术比如对偶学习,用大量无标注数据提高现有的翻译系统。还有推敲网络,先有一个初始翻译,再用另外一个网络进行再一次的修正,同时运用多系统融合技术,最终达到这个突破性的结果。
最近两三年推出的神经网络TTS,是语音合成技术的突破。谷歌提出来Tacotron,WaveNet这些模型,把语音自然度提升新的水平。微软在2018年,2019年提出了TransformerTTS、FastSpeech等高自然度神经网络TTS模型,并在2018年9月首度推出产品化接近人声的端到端NeuralTTS。
微软的语音服务基本都在微软Azure这个平台上,提供语音转文字、文字翻译等标准服务。Azure语音云端服务语音转文字有很多功能,如实时识别文字、一个人说话、多人对话、会议场景。这些服务都可以用Rest和WebSocketSDK调用。我们还提供语音到语音的翻译系统,比如翻译机场景,把中文语音输入进去,翻译成英文,得到语音流,可以直接播放,不用再配置其他服务,简化开发步骤。
微软在微信小程序里推出了“微软听听文档”,通过在移动端快速地给每一页文档做录音,快速发布,通过微信固有的社交关系去传播、发布。每页PPT下面除了有声音外,还有各种社交属性:传播、发朋友圈、进群、点赞、打赏,还有人的声音,也就是演讲者的参与。最终让用户收益才是一切商业逻辑的起点。
相关工具
相关文章
相关快讯
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16