5个开源语音文字转换工具

新知榜官方账号

2023-11-10 16:39:18

语音文字转换（STT）系统

语音文字转换（STT）系统就像它名字所蕴含的意思那样，是一种将说出的单词转换为文本文件以供后续用途的方式。语音文字转换技术非常有用。它可以用到许多应用中，例如自动转录，使用自己的声音写书籍或文本，用生成的文本文件和其他工具做复杂的分析等。

在过去，语音文字转换技术以专有软件和库为主导，要么没有开源替代品，要么有着严格的限制，也没有社区。这一点正在发生改变，当今有许多开源语音文字转换工具和库可以让你随时使用。这里我列出了5个。

1. DeepSpeech

DeepSpeech是由Firefox浏览器的开发组织Mozilla团队开发的开源语音识别库项目。它是100%的自由开源软件，其名字暗示使用了TensorFlow机器学习框架实现去功能。它也支持许多编程语言，例如Python（3.6）。这个项目可以让你在数秒之内完成工作。

2. Kaldi

Kaldi是一个用C++编写的开源语音识别软件，并且在Apache公共许可证下发布。它可以运行在Windows、macOS和Linux上。Kaldi超过其他语音识别软件的主要特点是可扩展和模块化。社区提供了大量的可以用来完成你的任务的第三方模块。Kaldi也支持深度神经网络，并且在它的网站上提供了出色的文档。

3. Julius

Julius可能是有史以来最古老的语音识别软件之一。它的开发始于1991年的京都大学，之后在2005年将所有权转移到了一个独立的项目组。Julius的主要特点包括了执行实时STT的能力，低内存占用，能够输出最优词(N-bestword)和词图(Word-graph)，能够作为服务器单元运行等等。这款软件主要为学术和研究所设计，由C语言写成，并且可以运行在Linux、Windows、macOS甚至Android上。

4. Wav2Letter++

Wav2Letter++是一款由Facebook的AI研究团队于2个月之前发布的开源语言识别软件。Facebook描述它的库是“最快、最先进(state-of-the-art)的语音识别系统”。构建它时的理念使其默认针对性能进行了优化。Wav2Letter++需要你先为所描述的语言建立一个模型来训练算法。它用C++写成，因此被命名为Wav2Letter++。

5. 百度DeepSpeech2

中国软件巨头百度的研究人员也在开发他们自己的语音文字转换引擎，叫做“DeepSpeech2”。它是一个端对端的开源引擎，使用“PaddlePaddle”深度学习框架进行英语或汉语的文字转换。

以上是5个开源语音识别引擎，应当能够帮助你构建应用，随着时间推移，它们会不断地发展。在几年之后，我们希望开源成为这些技术中的常态，就像其他行业那样。

本页网址：https://www.xinzhibang.net/article_detail-19581.html

寻求报道，请

关键词

语音文字转换 STT 开源工具语音识别 DeepSpeech Kaldi Julius Wav2Letter++ 百度DeepSpeech2

分享至微信：

相关工具

Boxy

CodeSandbox推出的AI编程助手

Ghostwriter

知名在线编程IDE Replit推出的AI编程助手

Debuild

低代码快速开发网页应用

Sketch2Code

微软AI Lab推出的将手绘草图转换成HTML代码工具

HeyCLI

自然语言转义为CLI命令

Cody

Sourcegraph推出的免费AI编程工具

语音识别概念与技术

语音识别概念与技术语音识别是将人类语音转换为计算机可读的输入的技术。在语音识别过程中，包括语音信号采集、特征提取、模型训练、模型测试和应用部署。语音识别流程语音信号采集、特征提取、模型训练、模型测试和应用部署是语音识别的流程。语音识别算法常见的语音识别算法有隐马尔科夫模型、最大熵模型、支持向量机和深

分类标签语音识别算法麦克风

12-07 22:47

为什么越想让业绩增长越难增长，如何让业绩顺其自然且高效增长老陈的深度思考

为什么越想让业绩增长越难增长，如何让业绩顺其自然且高效增长老陈的深度思考业绩增长是企业的核心目标之一，但是很多企业却发现，越是想让业绩增长，反而越难增长。这是为什么呢？首先，我们需要明确一点，企业的业绩增长不能仅仅依靠销售人员的努力，它需要全企业的共同努力。而在实际操作中，往往存在以下问题：过分依赖

分类标签业绩增长高效增长市场产品经理

12-06 08:01

iPhone6s HeySiri功能随时启用，但不会泄露隐私

iPhone6s HeySiri功能随时启用，但不会泄露隐私在刚发布不久的苹果iPhone6s和iPhone6sPlus上有不少亮点，其中就包括可一直处于待命状态的新版“HeySiri”功能，有人担心这项新特性会导致“一呼百应”的尴尬情况，其实大可放心。得益于A9/A9X处理器中集成了M9协处理器，

分类标签 iPhone6sHeySiri语音控制

12-06 04:24

iOS9功能抄袭安卓？用户才是赢家

iOS9功能抄袭安卓？用户才是赢家近日发布的iOS9可谓吸引了众多果粉目光，尤其LightShift功能可谓是深深动摇了那些固守在iOS8的粉丝的心。似曾相识？没错，和f.lux插件功能基本一致，f.lux是一款会根据时间变化，自动调节电脑屏幕的亮度、色彩，让电脑、手机屏幕始终适合保持在适合阅读的状

分类标签 iOS9安卓抄袭

12-06 04:23

微软新一代语音合成模型NaturalSpeech2：零样本语音合成的跨越式发展

背景介绍近期微软推出了语音合成模型NaturalSpeech2，只需几秒提示语音即可定制语音和歌声，实现了零样本语音合成的跨越式发展。在TTS领域，微软亚洲研究院机器学习组和微软Azure语音团队早已深耕多年，并在近期推出了语音合成模型NaturalSpeech2，只需几秒提示语音即可定制语音和歌声

分类标签微软语音合成NaturalSpeech2

12-06 04:22

大模型在智能汽车中的应用趋势

近年来，大模型在智能汽车中的应用越来越广泛，越来越多的车企通过自研或合作的方式上车大模型。大模型将对汽车的智能化进行多方面赋能，包括增强语音交互、助力自动驾驶、提高内容生成等。目前，大模型在智能汽车中的应用仍存在多模态数据融合、云端算力需求大、车端部署、以及安全性和一致性等问题。随着模型的优化和技术

分类标签大模型智能汽车自动驾驶

12-06 04:21

华为推出语音助手Celia，可通过HeyCelia唤醒Siri

华为推出语音助手Celia，可通过HeyCelia唤醒Siri3月27日消息，在开通Siri的iPhone上喊出华为P40系列发布会上语音命令HeyCelia（西莉亚，[ˈsiːlɪə]），可以唤醒Siri让人意外，但这不是个例，不少网友反馈，IT之家也尝试了一番，发现通过HeyCelia语言能够近

分类标签华为语音助手Celia

12-06 04:20

自然语言界面：开启人机交互的全新篇章

自然语言界面：开启人机交互的全新篇章随着人工智能技术的发展和普及，自然语言界面逐渐成为了人机交互的重要方式之一。自然语言界面指的是通过自然语言进行交互的界面，即人们可以使用自然语言（如中文、英文等）与计算机进行交互，而不需要通过鼠标、键盘等输入设备。自然语言界面的应用范围非常广泛，包括语音识别、智能

分类标签自然语言界面人机交互用户体验设计

12-04 08:00

2步打通ModelArts和Astro实现AI应用落地

引言随着GPT火爆全球，人工智能（AI）逐渐成为当今最具创新性和前景的技术之一，它可以为各行各业带来巨大的价值和变革。然而，AI应用的开发和部署并不是一件容易的事情，它需要涉及数据处理、算法开发、模型训练、应用构建、部署管理等多个环节，而且需要有专业的技术人员和复杂的工具链。对于很多企业来说，这是一

分类标签 ModelArtsAstroAI应用机器学习深度学习低代码开发平台

11-28 02:10

ChatGPT及其应用

ChatGPT及其应用今年初，一种名为ChatGPT的智能对话机器人模型开始了全球范围内的人类智能热潮，不知道大家听说过没有呢？简单来了解一下，这个模型是由OpenAI公司推出的，采集并利用了深度学习捕捞练习模型来真实对话，具有自然性和流畅性。在未来，ChatGPT这种基于大规模自然语言处理技术的人

分类标签 ChatGPT智能对话机器人人工智能

11-28 02:09

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway