新知榜官方账号
2023-08-09 22:56:31
Meta发布了一个名为AudioCraft的音频AI全家桶,其中包含文本生成音乐、音效和音频压缩等功能。这个开源库包括了三个模型:MusicGen、AudioGen和EnCodec。据Meta介绍,他们所有的AI训练数据都是经过授权或从公开渠道获取的。用户可以直接上手试玩这些模型。
AudioGen是一个自回归生成模型,基于10个公开的音效数据集训练,里面包括狗吠、汽车鸣喇叭或木地板的脚步声等各种音效。
MusicGen包含300M、1.5B、3.3B三个不同参数量的自回归Transformer。MusicGen使用了20000小时的音乐来训练,包含10000条内部搜集的高质量音轨,以及ShutterStock和Pond5素材库中的数据,后两者的数据量分别为2.5万和36.5万。这些音乐数据在32kHz下被重新采样,都配有流派、BPM等基本信息和复杂一些的文字说明。
EnCodec是一个神经音频编解码器,能够将音频信号压缩到比MP3格式还要小10倍。编码器能从要压缩的音频信号中学习离散的音频token;随后,基于一个自回归语言模型,将音频信号压缩到目标大小;最后,基于解码器,就能将压缩的信号高保真重建回音频。
对于AudioCraft的发布,网友们的评价褒贬不一。有网友觉得,这样音频生成就变得更加大众化了,所有人都可以上手尝试。但也有网友认为,这势必导致人类连音频的真假都区分不清。
最近,音频生成AI确实很火,就连效果都卷起来了。这两天,一个论文和代码都还在准备的模型AudioLDM2,刚放出demo就已经在网上传开了来:作者HaoheLiu表示,这个模型在生成音效、音乐和可理解语音三个领域中均达到了SOTA。感兴趣的小伙伴们,可以蹲一波后续了~
相关文章
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16