5个开源语音文字转换工具

新知榜官方账号

2023-11-10 16:39:18

语音文字转换(STT)系统

语音文字转换(STT)系统就像它名字所蕴含的意思那样,是一种将说出的单词转换为文本文件以供后续用途的方式。语音文字转换技术非常有用。它可以用到许多应用中,例如自动转录,使用自己的声音写书籍或文本,用生成的文本文件和其他工具做复杂的分析等。

在过去,语音文字转换技术以专有软件和库为主导,要么没有开源替代品,要么有着严格的限制,也没有社区。这一点正在发生改变,当今有许多开源语音文字转换工具和库可以让你随时使用。这里我列出了5个。

1. DeepSpeech

DeepSpeech是由Firefox浏览器的开发组织Mozilla团队开发的开源语音识别库项目。它是100%的自由开源软件,其名字暗示使用了TensorFlow机器学习框架实现去功能。它也支持许多编程语言,例如Python(3.6)。这个项目可以让你在数秒之内完成工作。

2. Kaldi

Kaldi是一个用C++编写的开源语音识别软件,并且在Apache公共许可证下发布。它可以运行在Windows、macOS和Linux上。Kaldi超过其他语音识别软件的主要特点是可扩展和模块化。社区提供了大量的可以用来完成你的任务的第三方模块。Kaldi也支持深度神经网络,并且在它的网站上提供了出色的文档。

3. Julius

Julius可能是有史以来最古老的语音识别软件之一。它的开发始于1991年的京都大学,之后在2005年将所有权转移到了一个独立的项目组。Julius的主要特点包括了执行实时STT的能力,低内存占用,能够输出最优词(N-bestword)和词图(Word-graph),能够作为服务器单元运行等等。这款软件主要为学术和研究所设计,由C语言写成,并且可以运行在Linux、Windows、macOS甚至Android上。

4. Wav2Letter++

Wav2Letter++是一款由Facebook的AI研究团队于2个月之前发布的开源语言识别软件。Facebook描述它的库是“最快、最先进(state-of-the-art)的语音识别系统”。构建它时的理念使其默认针对性能进行了优化。Wav2Letter++需要你先为所描述的语言建立一个模型来训练算法。它用C++写成,因此被命名为Wav2Letter++。

5. 百度DeepSpeech2

中国软件巨头百度的研究人员也在开发他们自己的语音文字转换引擎,叫做“DeepSpeech2”。它是一个端对端的开源引擎,使用“PaddlePaddle”深度学习框架进行英语或汉语的文字转换。

以上是5个开源语音识别引擎,应当能够帮助你构建应用,随着时间推移,它们会不断地发展。在几年之后,我们希望开源成为这些技术中的常态,就像其他行业那样。

本页网址:https://www.xinzhibang.net/article_detail-19581.html

寻求报道,请 点击这里 微信扫码咨询

相关工具

相关文章