新知榜官方账号
2023-07-05 16:58:37
谷歌最新的音乐生成模型MusicLM可以根据文本生成任何类型的音乐,不管是根据时间、地点、年代等各种因素来调节,还是给故事情节、世界名画配乐、生成人声rap口哨,通通不在话下。
MusicLM背靠280000小时音乐的训练数据库,具备长段音乐创作、故事模式、调节旋律等方面的能力。在长段音乐方面,它能完成5分钟即兴创作,即便提示只有一个词。而在故事模式中,不同的情标记甚至可以精确到秒的生成,哪怕情境之间完全没有任何联系。
MusicLM最大的亮点莫过于就是根据丰富的文字描述来生成音乐,包括乐器、音乐风格、适用场景、节奏音调、是否包括人声(哼唱、口哨、合唱)等元素,以此来生成一段30秒的音乐。除此之外,MusicLM具备长段音乐创作、故事模式、调节旋律等方面的能力。
MusicLM是一个分层的序列到序列(Sequence-to-Sequence)模型,可以通过文本描述,以24kHz的频率生成音乐,并在几分钟内保持这个频率。研究团队使用了三个模型来用来预训练,包括自监督音频表征模型SoundStream,语义标记模型w2vBERT和音频文本嵌入模型Mulan。在280000个小时的训练后,MusicLM最终学会了保持24kHz的频率生成音乐,哪怕用来生成音乐的文本非常绕口。
虽然MusicLM在技术上可以生成合唱和声等人声,但是仔细听来,生成音乐的歌词,有的还勉勉强强听得出是音乐,有的根本就是无人能听懂的外星方言。此外,研究团队发现系统生成的音乐中,约有1%直接从训练集的歌曲中复制,这已经足以阻止对外发布MusicLM了。
不过,MusicLM在音频质量和文本契合度等方面都优于此前的音乐生成AI,谷歌研究团队也表示将会继续优化和改善MusicLM。而AI生成音乐是否会成为下一个风口,也值得关注。
微信扫码咨询
相关工具
相关文章
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49