AudioCraft：利用人工智能技术生成音乐与音效

新知榜官方账号

2023-11-01 08:42:27

AudioCraft：利用人工智能技术生成音乐与音效

近年来，包括语言模型在内的生成式人工智能模型取得了巨大进步，特别是ChatGPT的发布，让大家看到了大语言模型的魅力。无论是计算机视觉，还是nlp领域的文本描述生成各种图像和视频，到执行机器翻译，文本生成等等大模型上，其都取得了令人意想不到的发展。但音乐与音频上似乎总是有点落后。是否可以使用人工智能技术来合成不同的音乐或者音效？

AudioCraft包含三个模型：MusicGen、AudioGen和EnCodec。MusicGen：使用Meta拥有且专门授权的音乐进行训练，根据用户输入的文本生成音乐。AudioGen使用公共音效进行训练，根据用户输入的文本生成音频音效。EnCodec解码器，它可以用更少的音损生成更高质量的音乐，类似音频压缩技术。EnCodec是一种有损神经编解码器，经过专门训练，可以压缩任何类型的音频并以高保真度重建原始信号。AudioCraft系列模型能够产生具有长期一致性的高质量音频，并且可以通过UI界面轻松交互。

通过AudioCraft，简化了音频生成模型的整体设计，我们可以直接利用开源代码进行音乐的生成。

%cd/content!gitclonehttps://github.com/facebookresearch/audiocraft%cd/content/audiocraft!pipinstall-rrequirements.txt!python-mdemos.musicgen_app--share

我们可以直接使用以上代码生成一个可视化的UI界面，我们只需要在输入框中，输入相应的文本，就可以利用模型生成音乐了。为了方便开发者使用AudioCraft，模型已经开源，且我们可以直接使用开源的代码进行音乐的合成。

!python3-mpipinstall-Ugit+https://github.com/facebookresearch/audiocraft#egg=audiocraftfromaudiocraft.modelsimportmusicgenfromaudiocraft.utils.notebookimportdisplay_audioimporttorchmodel=musicgen.MusicGen.get_pretrained('medium',device='cuda')model.set_generation_params(duration=8)res=model.generate(['crazyEDM,heavybang','classicreggaetrackwithanelectronicguitarsolo','lofislowbpmelectrochillwithorganicsamples','rockwithsaturatedguitars,aheavybasslineandcrazydrumbreakandfills.','earthytones,environmentallyconscious,ukulele-infused,harmonic,breezy,easygoing,organicinstrumentation,gentlegrooves',],progress=True)display_audio(res,32000)

模型下载完成后，我们就可以使用model.generate函数来生成音乐了，这里可以一次输入多个文本，模型会自动根据输入的文本，生成多个音频文件，最后，我们可以display或者下载生成好的音乐文件。

当然此模型已经发布在huggingface的transformers库中，我们也可以直接使用transformers库来运行此代码。

pipinstallgit+https://github.com/huggingface/transformers.gitfromtransformersimportAutoProcessor,MusicgenForConditionalGenerationprocessor=AutoProcessor.from_pretrained("facebook/musicgen-small")model=MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-small")inputs=processor(text=["80spoptrackwithbassydrumsandsynth","90srocksongwithloudguitarsandheavydrums"],padding=True,return_tensors="pt",)audio_values=model.generate(**inputs,max_new_tokens=256)

当然，这里我们不需要安装AudioCraft，而是安装transformers库，然后从transformers库中导入相关的AudioCraft应用。然后也是加载相关的模型文件，并输入需要生成的音乐文本，最后就可以使用model.generate函数来生成音乐文件了。

fromIPython.displayimportAudiosampling_rate=model.config.audio_encoder.sampling_rateAudio(audio_values[0].numpy(),rate=sampling_rate)importscipysampling_rate=model.config.audio_encoder.sampling_ratescipy.io.wavfile.write("musicgen_out.wav",rate=sampling_rate,data=audio_values[0,0].numpy())

生成好的音乐文件，我们可以使用以上函数进行播放或者进行存储，方便后期进行处理操作。当然以上的代码都是MusicGen音乐生成的代码实现，其他AudioGen和EnCodec的代码实现过程，可以参考GitHub源码。

https://github.com/facebookresearch/audiocraft

本页网址：https://www.xinzhibang.net/article_detail-18481.html

寻求报道，请

关键词

音乐生成音效生成 EnCodec ChatGPT 人工智能

分享至微信：

相关工具

Clipchamp AI旁白生成器

Clipchamp的文字转语音生成器

Veed AI Voice Generator

Veed推出的AI语音生成器

魔音工坊

短视频/有声书AI配音平台，由出门问问推出

NaturalReader

AI文本转语音工具

Soundraw

AI音乐生成工具

Murf AI

AI文本转语音生成工具

Meta推出Audiobox AI声音生成模型，降低声音生成门槛

据报道，Meta公司最近推出了一款名为Audiobox的AI声音生成模型。该模型能够同时接收语音及文字输入，用户可同时使用语音及文字描述，让这款模型生成所需的音频。据悉，这款模型基于Meta今年6月推出的VoiceboxAI模型，并具备生成各种环境音、自然对话语音的能力，还整合了音频生成和编辑能力，

分类标签 MetaAudioboxAI声音生成模型音频生成音效制作语音输入

12-08 22:38

八款AI智能软件，提高工作效率、解决日常问题

八款AI智能软件，提高工作效率、解决日常问题自媒体人阿志分享了他使用的八款AI智能软件，既提高了工作效率，也解决了日常问题。1. ChatGPTChatGPT是一款聊天机器人，不仅可以像人类一样聊天交流，还可以写邮件、写论文、写视频脚本，翻译、敲代码等，能够帮助我们提高工作效率，解决各种日常问题。2

分类标签 AI智能软件聊天机器人Al写作助手文本生成图像人声生成工具PPT内容生成工具

11-28 08:45

硬核分享|AI语音识别转文字与自动生成字幕

硬核分享|AI语音识别转文字与自动生成字幕在现代快节奏的生活中，语音转文字工具成为了我们工作和学习中的得力助手。它能够将我们说出的话语迅速转化为文字或者将语音视频自动生成字幕，提供便捷和高效。语音转文字转字幕工具是一种技术工具，通过分析音频文件中的声音波形和语音特征，它可以将语音内容快速而准确地转换

分类标签 AI语音识别自动生成字幕

11-13 08:37

分享八款AI智能软件

分享八款AI智能软件大家好！我叫阿志，做自媒体已有三年之久也做出了理想的成绩。今天我就分享我在用的八款AI智能软件，大部分是免费的哦。1. ChatGPTChatGPT是一款聊天机器人。它不仅可以像人类一样聊天交流，还可以写邮件、写论文、写视频脚本，翻译、敲代码等，能够帮助我们提高工作效率，解决各种

分类标签 AI智能软件聊天机器人Al写作助手文本生成图像文案写作修图软件AI人声生成工具PPT内容生成工具

11-03 00:59

HTML多媒体介绍及相关标签属性

HTML多媒体介绍及相关标签属性本文介绍了HTML中多媒体的相关标签和属性，包括Audio音频和Video视频的基本语法和常用属性、方法，以及流媒体的相关协议和格式。1. Audio音频Audio支持格式有：Firefox：支持OggVorbis和WAVOpera：支持OggVorbis和WAVSa

分类标签 HTML多媒体音频视频

11-01 08:41

iQOO手机Jovi语音助手：让你体验智能生活的黑科技

iQOO手机Jovi语音助手：让你体验智能生活的黑科技在当今社会，方便快捷给人们带来的便利，不足以用语言说出来的，而在手机这个领域，一台功能方便快捷的手机，更是成为很多用户心中追求的东西。一个智能时代的到来，意味着科技正在不断发展，语音助手成为许多生产商争相竞争技术的一个功能之一，语音助手亦是给用户

分类标签 iQOO手机Jovi语音助手智能生活

10-21 22:10

识破诈骗伎俩，保护家庭财产

识破诈骗伎俩，保护家庭财产近年来，不法分子不断创新诈骗手段，让金融消费者防不胜防，个人财产安全也受到严重威胁。10月7日，“双节”后的第一天，国家金融监管总局北京监管局（即国家金融监管总局）发布了题为《识破诈骗伎俩，保护家庭财产》的风险提示。此次国家金融监管总局北京监管局公布的三起新骗局中，“AI换

分类标签诈骗金融监管AI换脸

10-11 18:14

眼见为实？警惕！AI变声换脸新骗局来袭！

眼见为实？警惕！AI变声换脸新骗局来袭！近年来，随着人工智能技术的发展，人们享受到了越来越多的便利，但同时也面临着越来越多的安全隐患，其中之一就是AI技术被用于犯罪。最近，一种新型的骗局——AI变声换脸骗局出现了，这种骗局通过运用AI技术，将犯罪分子的声音和面部特征进行替换，从而实现了虚假身份的冒用

分类标签 AI变声换脸

10-11 17:58

8只猫咪穿上珍珠耳环和丝绸衣物，化身为经典画作的主角

8只猫咪穿上珍珠耳环和丝绸衣物，化身为经典画作的主角欢迎大家回到我们的萌宠天堂！今天，我们有一组非常特别的猫咪照片想和大家分享。想象一下，如果JohannesVermeer的经典画作《戴珍珠耳环的少女》中的主角是一只猫咪，那会是什么样子？没错，今天我们就有8只猫咪化身为这一经典画作的主角，穿上了金色

分类标签猫咪珍珠耳环丝绸衣物

10-07 17:32

杭州亚运会的BGM成为网红，赛场音乐赢得观众喜爱

杭州亚运会的BGM成为网红，赛场音乐赢得观众喜爱随着杭州亚运会的进行，大家发现这届亚运会的BGM相当有特点。在乒乓球男团决赛中，中国队以3：0的成绩大胜韩国，取得了亚运会乒乓球男团八连胜。当现场奏响“我是如此相信”这首歌时，观众们纷纷跟着唱，表达了对乒乓男团的坚定支持。当马龙入场时，现场的音乐变成了

分类标签杭州亚运会BGM赛场音乐

10-07 17:30