Meta发布音频AI全家桶AudioCraft,包含文本生成音乐、音效和音频压缩等功能

新知榜官方账号

2023-08-09 22:56:31

概述

Meta发布了一个名为AudioCraft的音频AI全家桶,其中包含文本生成音乐、音效和音频压缩等功能。这个开源库包括了三个模型:MusicGen、AudioGen和EnCodec。据Meta介绍,他们所有的AI训练数据都是经过授权或从公开渠道获取的。用户可以直接上手试玩这些模型。

模型介绍

AudioGen

AudioGen是一个自回归生成模型,基于10个公开的音效数据集训练,里面包括狗吠、汽车鸣喇叭或木地板的脚步声等各种音效。

MusicGen

MusicGen包含300M、1.5B、3.3B三个不同参数量的自回归Transformer。MusicGen使用了20000小时的音乐来训练,包含10000条内部搜集的高质量音轨,以及ShutterStock和Pond5素材库中的数据,后两者的数据量分别为2.5万和36.5万。这些音乐数据在32kHz下被重新采样,都配有流派、BPM等基本信息和复杂一些的文字说明。

EnCodec

EnCodec是一个神经音频编解码器,能够将音频信号压缩到比MP3格式还要小10倍。编码器能从要压缩的音频信号中学习离散的音频token;随后,基于一个自回归语言模型,将音频信号压缩到目标大小;最后,基于解码器,就能将压缩的信号高保真重建回音频。

用户评价

对于AudioCraft的发布,网友们的评价褒贬不一。有网友觉得,这样音频生成就变得更加大众化了,所有人都可以上手尝试。但也有网友认为,这势必导致人类连音频的真假都区分不清。

OneMoreThing

最近,音频生成AI确实很火,就连效果都卷起来了。这两天,一个论文和代码都还在准备的模型AudioLDM2,刚放出demo就已经在网上传开了来:作者HaoheLiu表示,这个模型在生成音效、音乐和可理解语音三个领域中均达到了SOTA。感兴趣的小伙伴们,可以蹲一波后续了~

参考链接

  1. https://ai.meta.com/blog/audiocraft-musicgen-audiogen-encodec-generative-ai-audio/
  2. https://github.com/facebookresearch/audiocraft
  3. https://twitter.com/LiuHaohe/status/1686782804518973440
  4. https://news.ycombinator.com/item?id=36972347

本页网址:https://www.xinzhibang.net/article_detail-9628.html

寻求报道,请 点击这里 微信扫码咨询

关键词

Meta 音频AI AudioCraft

分享至微信: 微信扫码阅读

相关文章