新知榜官方账号
2023-07-05 16:56:42
在这个生成式AI的时代里,不仅仅文本、图像、视频可以被生成,制作音乐也已经不再只是人类创作的专属领域。
然而,这些先前的尝试都存在技术上的问题,生成出来的音乐单调,不够复杂,重复性高,且音质较差。为什么AI生成音乐如此具有挑战性?
实际上,相比于其他领域,音乐的生成更加困难。虽然现有的MIDIs可以用于生成音乐,但是要生成高保真度的音乐就需要更加复杂的算法。音乐的结构也并不简单,需要考虑旋律和和声,同时还存在着一些随时间重复的模式。在这种情况下,用文本描述来生成音乐的想法应运而生。你只需要提供一个简短的文本描述,就能够生成出精妙绝伦的音乐,这听起来是不是很神奇?
Google近期发布了一个名叫MusicLM的模型,就是能够将文本转换成高质量的音乐。MusicLM模型到底是如何破解生成音乐的难点的呢?
首先,模型利用了之前Google发布的AudioML模型。AudioML能够接收一个旋律然后继续生成一段新的旋律。然而,这个模型仍然存在着一些技术限制,比如数据匮乏和音乐描述不够精细。
为了解决这些问题,MusicLM采用了MuLan这个核心组件。MuLan构造<音乐,文本>对,构建音乐-文本的联合嵌入,通过双塔结构(一个用于文本输入,另一个用于音频输入)。这两个塔都使用预先训练好的BERT和ResNet-50模型,并且使用对比学习进行训练。在训练过程中,MuLan学习音乐片段和它们对应的文本注释之间的映射关系。同时,为了提高音频质量,MusicLM还使用了SoundStream作为声学记号的自监督学习,同时利用w2vBERT作为语义记号,以帮助生成长期连贯的音乐序列。
在实验中,MusicLM模型生成音乐的质量(AudioQuality)和文本忠实程度(TextFaithfulness)都比先前的模型要好很多。在听觉质量(ListeningQuality)方面,该项目召集了志愿者们,给他们展示一些音乐片段,并要求他们选择哪个片段最能代表文本描述。结果显示,MusicLM获得大多数比较中的胜利。
当然,这个模型并不完美。生成的某些音频质量可能会有所下降,而且有时候生成的歌词并不是英语,而是一种几乎没有意义的胡言乱语。与此同时,这个模型还存在版权问题,它生成的音乐有1%的概率可能复制已有歌曲的元素(甚至是受版权保护的元素)。
综上所述,尽管MusicLM模型非常先进,但还是存在着一些局限性和风险。然而,作为未来AI创作工具的一部分,MusicLM模型无疑将会为音乐家和作曲家带来更多的机遇和挑战。
相关工具
相关文章
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16