舞蹈是一种重要的人类艺术形式,但创造新的舞蹈可能既困难又耗时。因此,Stanford 大学提出了EDGE(CVPR2023),这是首个基于Diffusion的音乐引导的舞蹈生成框架,能够通过AIGC的方式,生成动作丰富多样、物理意义合理、音乐节拍对齐的舞蹈。
一、背景
舞蹈是世界各地许多文化的重要组成部分,是一种表达、交流和社会互动的形式。然而,创造新的舞蹈动作是非常困难的,因为舞蹈动作富有表现力和自由形式,但又需要由音乐精确构建。
传统方法基于繁琐的手部人工设计或视频动作捕捉,这可能是昂贵且不切实际的。因此,使用AIGC方法自动生成舞蹈可以减轻创作过程的负担,从而产生许多应用。例如,可以帮助动画师创建新的舞蹈,或者根据用户提供的音乐为视频游戏或虚拟现实中的互动角色提供逼真多样的动作。此外,舞蹈生成可以深入了解音乐和运动之间的关系,这是神经科学的一个重要研究领域。
二、现有工作
音乐引导的舞蹈生成任务(Music to Dance)被广泛研究,它是人体动作生成任务的一个子方向。早期方法遵循运动检索范式,但往往会生成单调重复、不切实际的舞蹈动作。后来采用基于深度学习的舞蹈生成方法,包括对抗学习、递归神经网络、Transformer。尽管取得了令人印象深刻的性能,但这些系统非常复杂,涉及许多层的调节和子网络。
本文提出了Editable Dance GEneration(EDGE),这是一种最先进的舞蹈生成方法,可以基于输入音乐创建逼真、物理合理的舞蹈动作。EDGE使用了一个基于Transformer的扩散模型,并与Jukebox(一个强大的音乐特征提取器)配对。这种基于扩散的方法赋予了非常适合舞蹈的强大编辑功能。此外,本文发现之前的评估指标存在缺陷,提出了一种新的评估指标,用来度量生成舞蹈的物理合理性。
本文的贡献主要包括:
(a)提出了一种基于扩散模型的舞蹈生成方法,该方法将最先进的性能与强大的编辑功能相结合,能够生成任意长的序列;
(b)采用Jukebox来提取音乐特征表示,代替以前手动提取的音乐特征。Jukebox是一种预训练的音乐生成模型,在音乐特定预测任务上表现出强大的性能;
(c)在损失函数中,引入了接触一致性损失,来消除生成运动中的足部滑动物理不真实性;
(d)针对之前的评估指标存在缺陷,提出了一种新的评估指标,物理足部接触得分(Physical Foot Contact score,PFC)。这是一种简单的基于加速的定量指标,用于对生成的运动学运动的物理真实性进行评分,不需要明确的物理建模;
三、数据集介绍
官网:https://google.github.io/aistplusplus_dataset/factsfigures