LeMUR：将大型语言模型应用于长音频文件转录的新框架

新知榜官方账号

2023-07-05 19:00:38

LeMUR：将大型语言模型应用于长音频文件转录的新框架

大型语言模型（LLM）正在改变每个行业的用户期望。然而，建立以人类语音为中心的生成式人工智能产品仍然很困难，因为音频文件对大型语言模型构成了挑战。将LLM应用于音频文件的一个关键挑战是，LLM受其上下文窗口的限制。在一个音频文件能够被送入LLM之前，它需要被转换成文本。音频文件越长，绕过LLM的上下文窗口限制的工程挑战就越大。但工作场景中，我们往往需要LLM帮我们处理非常长的语音文件，比如从一段几个小时的会议录音中抽取核心内容、从一段访谈中找到某个问题的答案……最近，语音识别AI公司AssemblyAI推出了一个名为LeMUR的新模型。就像ChatGPT处理几十页的PDF文本一样，LeMUR可以将长达10小时的录音进行转录、处理，然后帮用户总结语音中的核心内容，并回答用户输入的问题。

LeMUR是LeveragingLargeLanguageModelstoUnderstandRecognizedSpeech（利用大型语言模型来理解识别的语音）的缩写，是将强大的LLM应用于转录的语音的新框架。只需一行代码（通过AssemblyAI的PythonSDK），LeMUR就能快速处理长达10小时的音频内容的转录，有效地将其转化为约15万个token。相比之下，现成的、普通的LLM只能在其上下文窗口的限制范围内容纳最多8K或约45分钟的转录音频。为了降低将LLM应用于转录音频文件的复杂性，LeMUR的pipeline主要包含智能分割、一个快速矢量数据库和若干推理步骤（如思维链提示和自我评估）。

LeMUR解锁了一些惊人的新可能性，在几年前，我认为这些都是不可能的。它能够毫不费力地提取有价值的见解，如确定最佳行动，辨别销售、预约或呼叫目的等呼叫结果，感觉真的很神奇。——电话跟踪和分析服务技术公司CallRail首席产品官RyanJohnson

LeMUR解锁了什么可能性？

将LLM应用于多个音频文本：LeMUR能够让用户一次性获得LLM对多个音频文件的处理反馈，以及长达10小时的语音转录结果，转化后的文本token长度可达150K。
可靠、安全的输出：由于LeMUR包含安全措施和内容过滤器，它将为用户提供来自LLM的回应，这些回应不太可能产生有害或有偏见的语言。
可补充上下文：在推理时，它允许加入额外的上下文信息，LLM可以利用这些额外信息在生成输出时提供个性化和更准确的结果。
模块化、快速集成：LeMUR始终以可处理的JSON形式返回结构化数据。用户可以进一步定制LeMUR的输出格式，以确保LLM给出的响应是他们下一块业务逻辑所期望的格式（例如将回答转化为布尔值）。在这一流程中，用户不再需要编写特定的代码来处理LLM的输出结果。

未来，LeMUR有望在客服等领域得到广泛应用。

本页网址：https://www.xinzhibang.net/article_detail-5961.html

寻求报道，请

关键词

分享至微信：

相关工具

阿里推出的AI会议转录工具，万语千言，心领神悟

Beatoven.ai

免版税AI音乐创建平台

Boomy

AI音乐生成工具

Voicemaker

AI文本到语音生成工具

Soundraw

AI音乐生成工具

BeatBot

输入文本提示快速生成歌曲和音乐

语音AI大模型公司AssemblyAI完成5000万美元C轮融资

AssemblyAI完成5000万美元C轮融资总部位于美国加州旧金山的语音AI大模型公司AssemblyAI今日宣布已完成5000万美元C轮融资。本轮融资完成后，AssemblyAI的融资总额已经达到了1.15亿美元，本轮融资由Accel领投，InsightPartners、KeithBlock的S

分类标签 AssemblyAI语音AI模型公司

12-08 22:36

AssemblyAI完成5000万美元融资，将研发通用语音模型

AssemblyAI完成5000万美元融资，将研发通用语音模型随着全球对以人工智能为中心系统的投资达到预计的1540亿美元，初创公司AssemblyAI正迅速崛起，为企业提供创新的“应用人工智能”解决方案。安永的最新调查显示，尽管生成式人工智能的部署前景变得更加复杂，但市场仍然充满活力。Assemb

分类标签 AssemblyAI人工智能语音模型

12-08 22:34

分享8款智能AI软件，提高工作效率！

分享8款智能AI软件，提高工作效率！大家好！我叫阿志，做自媒体已有三年之久也做出了理想的成绩今天我就分享我在用的八款AI智能软件，大部分是免费的哦ChatGPT - 一款聊天机器人，可以像人类一样聊天交流，还可以写邮件、写论文、写视频脚本，翻译、敲代码等，能够帮助我们提高工作效率，解决各种日常问题。

分类标签 AI智能软件聊天机器人写作助手文本生成图像修图软件AI人声生成工具PPT内容生成工具自媒体

12-06 22:21

八款AI智能软件，提高工作效率解决日常问题

八款AI智能软件，提高工作效率解决日常问题自媒体已有三年之久，我分享八款AI智能软件，帮助大家提高工作效率和解决日常问题。ChatGPT：聊天机器人，可以写邮件、写论文、写视频脚本，翻译、敲代码等。NotionAi：强大的Al写作助手，能根据输入的关键词，推荐相关的文章素材。Midjourney：由

分类标签 AI智能软件工作效率解决问题

11-27 22:09

自动配音软件哪个好？推荐3款配音工具

自动配音软件哪个好？推荐3款配音工具作为一名短视频创作者，我深知声音不好的难处。因为声音没有像那些播音员一样标准和有磁性，所以用户看我视频的时候很难有代入感，导致我的视频的播放量很低，于是我便向一位同行大佬倾诉了我的烦恼，大佬跟我说可以用自动配音软件来给视频配音，那你知道自动配音软件哪个好吗？不知道

分类标签自动配音软件悦音配音电脑自带的配音工具WPSOffice

11-22 22:17

智能配音制作软件推荐

智能配音制作软件推荐随着人工智能技术的不断发展，智能配音技术越来越受到人们的关注和重视。智能配音技术是一种基于语音合成技术的人工智能技术，可以将文字转换为自然、流畅的语音，实现自动配音。在现代社会，智能配音技术已经被广泛应用于视频制作、教育培训、影视娱乐等多个领域。以下是几款比较好用的智能配音软件：

分类标签智能配音语音合成配音软件

11-22 22:16

AI配音技术趋势及使用方法

一、AI配音的优势相比传统的配音方式，AI配音的优势在于无需人力参与，更具效率和准确性。在日益增长的视频和音频内容需求下，AI配音技术的提升和普及，能够降低成本和提高速度，也可以改善声音的表现和质量。二、AI配音的使用体验不同的人会有不同的感受。一些用户反映，AI配音的声音流畅自然，且可以快速生成，

分类标签 AI配音人工智能语音合成

10-22 08:48

AI配音操作教程

AI配音的操作教程首先，AI是人工智能的简称，它是一种利用现代科技和算法实现智能化的技术，可用于各种领域，如机器人、语音识别、自然语言处理、图像识别等。目前，AI技术已经广泛应用于各行各业，为人们的生活和工作带来了极大的便利和效益。对于普通人来说，AI也可以是一种有趣的体验。比如，AI配音技术能够将

分类标签 AI配音操作教程

10-22 08:46

我用的八款AI智能软件，助力自媒体成长

我用的八款AI智能软件，助力自媒体成长大家好！我叫阿志，做自媒体已有三年之久也做出了理想的成绩。今天我就分享我在使用的八款AI智能软件，包括写作助手、文本生成图像、修图软件、AI人声生成工具等，帮助自媒体提高工作效率、文章质量和准确度。1. ChatGPTChatGPT是一款聊天机器人。它不仅可以像

分类标签 AI智能软件自媒体写作助手

10-08 02:16

分享八款AI智能软件，提高工作效率，优化写作质量

分享八款AI智能软件，提高工作效率，优化写作质量大家好！我叫阿志，做自媒体已有三年之久也做出了理想的成绩。今天我就分享我在用的八款AI智能软件，大部分是免费的哦。1、ChatGPTChatGPT是一款聊天机器人。它不仅可以像人类一样聊天交流，还可以写邮件、写论文、写视频脚本，翻译、敲代码等，能够帮助

分类标签 AI智能软件工作效率写作质量

10-01 22:20