新知榜官方账号
2023-08-04 08:38:32
Meta发布了一款开源人工智能(AI)工具AudioCraft,可以根据用户给出的文本提示创作音频和音乐。相较于AI在生成图像、视频、文本的应用,AI生成音乐领域的发展相对落后。这是由于生成高质量的音频需要对不同类型的信号、模块进行不同层级的建模,加上该领域开源的代码较少,可以说是AI生成内容中最具挑战性的领域。
本次AudioCraft以开源的形式进行发布,包括AudioGen、EnCodec(改进版)和MusicGen三个核心部件。通过MusicGen和AudioGen,AudioCraft可以将用户给出的文本指令转变为任何类型的音频或者音乐,再由EoCodec(改进版)进行优化。AudioGen是一个AI生成音频模型。它能够扩展现有音频,或者通过文本提示生成音频,例如生成狗叫声、汽车喇叭声或者木地板上的脚步声。此外,AudioGen还能从声学角度区分不同对象的声音,对其进行分类。EnCodec(改进版)是一个基于神经网络的音频压缩解码器,能够帮助用户生成人工痕迹更少、更高质量的音乐,还能对音频文件进行无损压缩。MusicGen是Meta在今年6月初推出的开源AI模型,能够根据文本提示生成音乐。Meta使用自有或经过授权的音乐对其进行训练,累计使用约40万个音频及文本素材,训练总时长超过20000小时。
尽管Meta使用了多个音频素材对模型进行训练,但Meta也承认,用于训练AudioCraft的数据集缺乏多样性,素材大多为西式音乐,且使用的文本提示语言仅限于英语。通过AudioCraft生成的音乐质量尚不足以取代专业人士制作的商用音乐。Meta本次采取的策略类似于此前发布Llama2大语言模型——无需商业授权即可使用。因此,AudioCraft的开源发布可能可以吸引大量用户,而不仅只是那些对文本生成音频感兴趣的用户,扩大Meta的知名度。根据Meta的FAIR团队介绍,与早期文本生成音频的AI模型相比,AudioCraft大大简化了生成流程。用户能够使用AudioGen和MusicGen进行音频生成,甚至可以从头开始开发自己的文本生成音频模型。Meta并不是第一家AI生成音乐的公司。此前,OpenAI曾在2020年推出AI音乐生成器Jukebox,谷歌在今年发布的音乐生成模型MusicLM,其他常见的类似模型还有Riffusion、Mousai和Noise2Music等。
微信扫码咨询
相关工具
相关文章
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49