10秒生成4分钟音乐,8GB显存就能跑!已登Hugging Face趋势榜一

   日期:2025-03-18     作者:bs       评论:0    移动:http://www.lekcy.cn/mobile/news/1371.html
核心提示:编辑:LRST【新智元导读】DiffRhythm是一款新型AI音乐生成模型,能在10秒内生成长达4分45秒的完整歌曲,包含人声和伴奏。它采用
编辑:LRST
【新智元导读】DiffRhythm是一款新型AI音乐生成模型,能在10秒内生成长达4分45秒的完整歌曲,包含人声和伴奏。它采用简单高效的全diffusion架构,仅需歌词和风格提示即可创作,还支持本地部署,最低只需8G显存。
音乐创作,尤其是完整歌曲的生成,一直是人工智能领域的一大挑战。

Suno、Udio等商用音乐生成大模型展现出惊人的音乐生成能力。但现有开源的音乐生成模型要么只能生成人声或伴奏,要么依赖复杂的多阶段架构,难以扩展到长音频生成。

而现在,AI音乐破局时刻到了!

近日,西北工业大学音频语音与语言处理实验室(ASLP@NPU)和香港中文大学(深圳)的研究团队提出了一种名为DiffRhythm(中文名:谛韵)的新型音乐生成AI模型,全diffusion架构,它能够在短短10秒内生成长达4分45秒的不同风格完整双轨高保真歌曲,包含人声和伴奏!

最低仅需8G显存,可本地部署到消费级显卡!

图片
在线Demo: https://huggingface.co/spaces/ASLP-lab/DiffRhythm
Paper: https://arxiv.org/abs/2503.01183
Github: https://github.com/ASLP-lab/DiffRhythm

Hugging Face: https://huggingface.co/ASLP-lab/DiffRhythm-base

这一成果不仅刷新了音乐生成的速度,还大大简化了生成流程,让音乐创作变得更加高效和便捷。模型完全采用华为昇腾910B训练,同时支持N卡。

目前模型和推理代码全部开源。开源短短几天位列Hugging Face Space趋势榜第一和总榜第五,受到众多网友和音乐爱好者广泛好评。

图片

图片

DiffRhythm:简单、快速、高质量

DiffRhythm 的核心优势在于它的简洁性和高效性。在模型方面它摒弃了复杂的多阶段架构,采用了一个简单的基于LLaMA的DiT,只需要歌词和风格提示即可生成歌曲。

这种非自回归结构确保了快速的推理速度,相比现有的语言模型方法,DiffRhythm的速度提升显著,更适合实时应用和用户交互。在数据方面,仅需音频与对应歌词,无需复杂数据处理标注流程,易于scale up到大数据。

图片

DiffRhythm以歌词和风格提示输入,生成44.1kHz采样率全长立体声音乐作品(最长4分45秒)。

DiffRhythm由两个顺序训练的模型组成:1) 变分自编码器 (VAE),学习音频波形的紧凑潜在表示,使得分钟级长音频建模成为可能;2) DiT 建模 VAE 的潜在空间,通过迭代去噪生成歌曲。

图片

在歌曲生成中,歌词与歌声的对齐是一个极具挑战性的问题,可以概括为以下两个方面:

为了解决这些问题,DiffRhythm 提出了一种句子级对齐机制。具体来说,该机制仅依赖于句子起始时间的标注,通过以下步骤实现歌词与歌声的对齐:
通过这种方式,DiffRhythm 只需要句子起始时间的标注,即可实现歌词与歌声的对齐。

压缩鲁棒VAE

考虑到大量歌曲数据都以压缩后的MP3格式存在,而高频细节在压缩过程中会受到损害,我们采用数据增强来赋予VAE修复功能。

具体来说,VAE以无损FLAC格式数据进行训练,其中输入经过MP3压缩,而重建目标仍然是原始无损数据。通过这种有损到无损的重建过程,VAE学会将从有损压缩数据中得出的潜在表示解码回无损音频信号。

 
特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

举报收藏 0打赏 0评论 0
 
更多>同类最新资讯
0相关评论

相关文章
最新文章
推荐文章
推荐图文
最新资讯
点击排行
{