谷歌新模型MusicLM:根据文本生成任何类型音乐

新知榜官方账号

2023-07-05 16:58:37

谷歌最新的音乐生成模型MusicLM可以根据文本生成任何类型的音乐,不管是根据时间、地点、年代等各种因素来调节,还是给故事情节、世界名画配乐、生成人声rap口哨,通通不在话下。

MusicLM背靠280000小时音乐的训练数据库,具备长段音乐创作、故事模式、调节旋律等方面的能力。在长段音乐方面,它能完成5分钟即兴创作,即便提示只有一个词。而在故事模式中,不同的情标记甚至可以精确到秒的生成,哪怕情境之间完全没有任何联系。

MusicLM最大的亮点莫过于就是根据丰富的文字描述来生成音乐,包括乐器、音乐风格、适用场景、节奏音调、是否包括人声(哼唱、口哨、合唱)等元素,以此来生成一段30秒的音乐。除此之外,MusicLM具备长段音乐创作、故事模式、调节旋律等方面的能力。

MusicLM是一个分层的序列到序列(Sequence-to-Sequence)模型,可以通过文本描述,以24kHz的频率生成音乐,并在几分钟内保持这个频率。研究团队使用了三个模型来用来预训练,包括自监督音频表征模型SoundStream,语义标记模型w2vBERT和音频文本嵌入模型Mulan。在280000个小时的训练后,MusicLM最终学会了保持24kHz的频率生成音乐,哪怕用来生成音乐的文本非常绕口。

虽然MusicLM在技术上可以生成合唱和声等人声,但是仔细听来,生成音乐的歌词,有的还勉勉强强听得出是音乐,有的根本就是无人能听懂的外星方言。此外,研究团队发现系统生成的音乐中,约有1%直接从训练集的歌曲中复制,这已经足以阻止对外发布MusicLM了。

不过,MusicLM在音频质量和文本契合度等方面都优于此前的音乐生成AI,谷歌研究团队也表示将会继续优化和改善MusicLM。而AI生成音乐是否会成为下一个风口,也值得关注。

本页网址:https://www.xinzhibang.net/article_detail-5914.html

寻求报道,请 点击这里 微信扫码咨询

关键词

MusicLM 音乐生成 文本提示

分享至微信: 微信扫码阅读

相关工具

相关文章