AI生成音乐的难点与Google的MusicLM模型

新知榜官方账号

2023-07-05 16:56:42

AI生成音乐的难点

在这个生成式AI的时代里,不仅仅文本、图像、视频可以被生成,制作音乐也已经不再只是人类创作的专属领域。

然而,这些先前的尝试都存在技术上的问题,生成出来的音乐单调,不够复杂,重复性高,且音质较差。为什么AI生成音乐如此具有挑战性?

实际上,相比于其他领域,音乐的生成更加困难。虽然现有的MIDIs可以用于生成音乐,但是要生成高保真度的音乐就需要更加复杂的算法。音乐的结构也并不简单,需要考虑旋律和和声,同时还存在着一些随时间重复的模式。在这种情况下,用文本描述来生成音乐的想法应运而生。你只需要提供一个简短的文本描述,就能够生成出精妙绝伦的音乐,这听起来是不是很神奇?

Google的MusicLM模型

Google近期发布了一个名叫MusicLM的模型,就是能够将文本转换成高质量的音乐。MusicLM模型到底是如何破解生成音乐的难点的呢?

首先,模型利用了之前Google发布的AudioML模型。AudioML能够接收一个旋律然后继续生成一段新的旋律。然而,这个模型仍然存在着一些技术限制,比如数据匮乏和音乐描述不够精细。

为了解决这些问题,MusicLM采用了MuLan这个核心组件。MuLan构造<音乐,文本>对,构建音乐-文本的联合嵌入,通过双塔结构(一个用于文本输入,另一个用于音频输入)。这两个塔都使用预先训练好的BERT和ResNet-50模型,并且使用对比学习进行训练。在训练过程中,MuLan学习音乐片段和它们对应的文本注释之间的映射关系。同时,为了提高音频质量,MusicLM还使用了SoundStream作为声学记号的自监督学习,同时利用w2vBERT作为语义记号,以帮助生成长期连贯的音乐序列。

在实验中,MusicLM模型生成音乐的质量(AudioQuality)和文本忠实程度(TextFaithfulness)都比先前的模型要好很多。在听觉质量(ListeningQuality)方面,该项目召集了志愿者们,给他们展示一些音乐片段,并要求他们选择哪个片段最能代表文本描述。结果显示,MusicLM获得大多数比较中的胜利。

MusicLM的局限和未来发展

当然,这个模型并不完美。生成的某些音频质量可能会有所下降,而且有时候生成的歌词并不是英语,而是一种几乎没有意义的胡言乱语。与此同时,这个模型还存在版权问题,它生成的音乐有1%的概率可能复制已有歌曲的元素(甚至是受版权保护的元素)。

综上所述,尽管MusicLM模型非常先进,但还是存在着一些局限性和风险。然而,作为未来AI创作工具的一部分,MusicLM模型无疑将会为音乐家和作曲家带来更多的机遇和挑战。

本页网址:https://www.xinzhibang.net/article_detail-5913.html

寻求报道,请 点击这里 微信扫码咨询

关键词

AI 音乐 生成

分享至微信: 微信扫码阅读

相关工具

相关文章