MotionGPT3: Human Motion as a Second Modality 这种论文分析网站挺多了: 受‘专家混合’启发,论文提出MotionGPT3,将人体运动视为第二模态,通过分离模型参数进行解耦运动建模,并引入共享注意力机制实现双向跨模态交互。文本分支保留预训练语言模型结构和参数,而运动分支则通过扩散头直接预测连续潜在空间中的运动表示,避免离散化瓶颈。