【新智元导读】DiffRhythm是一款新型AI音乐生成模型,能在10秒内生成长达4分45秒的完整歌曲,包含人声和伴奏。它采用简单高效的全diffusion架构,仅需歌词和风格提示即可创作,还支持本地部署,最低只需8G显存。
Suno、Udio等商用音乐生成大模型展现出惊人的音乐生成能力。但现有开源的音乐生成模型要么只能生成人声或伴奏,要么依赖复杂的多阶段架构,难以扩展到长音频生成。
而现在,AI音乐破局时刻到了!
近日,西北工业大学音频语音与语言处理实验室(ASLP@NPU)和香港中文大学(深圳)的研究团队提出了一种名为DiffRhythm(中文名:谛韵)的新型音乐生成AI模型,全diffusion架构,它能够在短短10秒内生成长达4分45秒的不同风格完整双轨高保真歌曲,包含人声和伴奏!
最低仅需8G显存,可本地部署到消费级显卡!
Hugging Face: https://huggingface.co/ASLP-lab/DiffRhythm-base
这一成果不仅刷新了音乐生成的速度,还大大简化了生成流程,让音乐创作变得更加高效和便捷。模型完全采用华为昇腾910B训练,同时支持N卡。
目前模型和推理代码全部开源。开源短短几天位列Hugging Face Space趋势榜第一和总榜第五,受到众多网友和音乐爱好者广泛好评。
DiffRhythm:简单、快速、高质量
这种非自回归结构确保了快速的推理速度,相比现有的语言模型方法,DiffRhythm的速度提升显著,更适合实时应用和用户交互。在数据方面,仅需音频与对应歌词,无需复杂数据处理标注流程,易于scale up到大数据。
DiffRhythm以歌词和风格提示输入,生成44.1kHz采样率全长立体声音乐作品(最长4分45秒)。
DiffRhythm由两个顺序训练的模型组成:1) 变分自编码器 (VAE),学习音频波形的紧凑潜在表示,使得分钟级长音频建模成为可能;2) DiT 建模 VAE 的潜在空间,通过迭代去噪生成歌曲。
在歌曲生成中,歌词与歌声的对齐是一个极具挑战性的问题,可以概括为以下两个方面:
压缩鲁棒VAE
考虑到大量歌曲数据都以压缩后的MP3格式存在,而高频细节在压缩过程中会受到损害,我们采用数据增强来赋予VAE修复功能。