新知榜官方账号
2023-08-09 22:56:31
Meta发布了一个名为AudioCraft的音频AI全家桶,其中包含文本生成音乐、音效和音频压缩等功能。这个开源库包括了三个模型:MusicGen、AudioGen和EnCodec。据Meta介绍,他们所有的AI训练数据都是经过授权或从公开渠道获取的。用户可以直接上手试玩这些模型。
AudioGen是一个自回归生成模型,基于10个公开的音效数据集训练,里面包括狗吠、汽车鸣喇叭或木地板的脚步声等各种音效。
MusicGen包含300M、1.5B、3.3B三个不同参数量的自回归Transformer。MusicGen使用了20000小时的音乐来训练,包含10000条内部搜集的高质量音轨,以及ShutterStock和Pond5素材库中的数据,后两者的数据量分别为2.5万和36.5万。这些音乐数据在32kHz下被重新采样,都配有流派、BPM等基本信息和复杂一些的文字说明。
EnCodec是一个神经音频编解码器,能够将音频信号压缩到比MP3格式还要小10倍。编码器能从要压缩的音频信号中学习离散的音频token;随后,基于一个自回归语言模型,将音频信号压缩到目标大小;最后,基于解码器,就能将压缩的信号高保真重建回音频。
对于AudioCraft的发布,网友们的评价褒贬不一。有网友觉得,这样音频生成就变得更加大众化了,所有人都可以上手尝试。但也有网友认为,这势必导致人类连音频的真假都区分不清。
最近,音频生成AI确实很火,就连效果都卷起来了。这两天,一个论文和代码都还在准备的模型AudioLDM2,刚放出demo就已经在网上传开了来:作者HaoheLiu表示,这个模型在生成音效、音乐和可理解语音三个领域中均达到了SOTA。感兴趣的小伙伴们,可以蹲一波后续了~
微信扫码咨询
相关文章
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49