MetaAI发布音频生成开发框架AudioCraft,支持多个音频生成模型

新知榜官方账号

2023-10-12 16:38:29

MetaAI发布音频生成开发框架AudioCraft,支持多个音频生成模型

在过去的几年里,我们看到了AI在图像、视频和文本生成方面的巨大进步。然而,音频生成领域的进展却相对滞后。MetaAI这次再为开源贡献重磅产品:AudioCraft,一个支持多个音频生成模型的音频生成开发框架。

AudioCraft简介

任何类型的音频都需要对不同尺度的复杂信号和模式进行建模。音乐可能是最具挑战性的音频类型,因为它由局部和长程模式组成,从一系列音符到具有多种乐器的全局音乐结构。利用AI生成连贯的音乐通常通过使用类似MIDI或钢琴卷的符号表示来实现。然而,这些方法无法完全捕捉到音乐中的表现细微差异和风格元素。为此MetaAI开源了AudioCraft,一个可以用来生成音频的框架。它支持一系列的模型,能够产生高质量的音频,并具有长期的一致性,用户可以通过自然界面轻松地与其进行交互。AudioCraft适用于音乐和声音生成以及压缩,所有这些都在同一个平台上进行。由于易于构建和重复使用,希望构建更好的声音生成器、压缩算法或音乐生成器的人可以在同一个代码库中完成所有操作,并在其他人已有基础上进一步发展。

AudioCraft支持的模型

AudioCraft由三个模型组成:MusicGen、AudioGen和EnCodec。MusicGen使用Meta拥有和特别许可的音乐进行训练,从文本输入生成音乐,而AudioGen则使用公开的音效进行训练,从文本输入生成音频。此外,还有改进版的EnCodec解码器,它可以生成更高质量的音乐,减少了人工制作的痕迹。简单来说,MusicGen就是文本生成音乐的模型,AudioGen就是文本生成任意音频的模型。另外的EnCodec是指利用神经网络的实时、高保真音频编解码器。

可以看到,对于AudioGen模型,只需要给一段文字即可生成音乐,而MusicGen模型则是一个描述即可生成音乐。

使用AudioCraft

AudioCraft依赖Python3.9和PyTorch2.0,需要先确保系统环境满足要求。可以通过pip安装升级,也可以使用anaconda安装。安装完之后使用很简单,可以通过导入相应的模块来调用相关的函数。

本页网址:https://www.xinzhibang.net/article_detail-16502.html

寻求报道,请 点击这里 微信扫码咨询

关键词

MetaAI 音频生成 开发框架

分享至微信: 微信扫码阅读

相关文章