Facebook发布全卷积语音识别工具包wav2letter++

新知榜官方账号

2023-10-09 23:28:18

Facebook发布了全卷积语音识别工具包wav2letter++,被称为现有“最快的、顶尖水平的”语音识别系统。该工具包由FacebookAI研究院(FAIR)的语音团队推出,以C++写成,使用了ArrayFire张量库和flashlight机器学习库。wav2letter++是第一个完全由C++写成的语音识别系统,也是第一个全卷积语音识别系统。在从声波到文本的处理过程中,所有可学习的部件都是由卷积层构成的,声音建模、语言建模任务全部由CNN完成。尽管CNN构成的wav2letter++在声音和语言建模任务上不如循环网络架构,但在性能上不输那些RNN模型。

Facebook团队在论文中,将他们的wav2letter++和其他主流开源语音识别系统做了比较。他们说,某些情况下,wav2letter++训练语音识别端到端神经网络速度是其他框架2倍还多,而且用1亿个参数的模型测试,使用从1到64个GPU,训练时间是线性变化的。因为它使用的机器学习库flashlight也同时开源了。这个机器学习库用现代的C++即时编译,CPU、GPU都可用,以求效率和规模的最大化。

wav2letter++还有个不带加号的前身,叫做wav2letter,用Lua语言写成。现在,新版占用了原版的GitHub仓库地址,而原来的wav2letter被放到了wav2letter-lua分支下。想要复现wav2letter++也不难。最后,附上GitHub地址和论文链接。

GitHub地址

论文链接

本页网址:https://www.xinzhibang.net/article_detail-16081.html

寻求报道,请 点击这里 微信扫码咨询

关键词

wav2letter++ 语音识别 卷积层

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯