ICCV 2025 | 实时高效！GUAVA：单图创建可驱动的上半身3D化身！

最新推荐文章于 2025-08-24 23:13:17 发布

转载最新推荐文章于 2025-08-24 23:13:17 发布 · 13 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247623134&idx=3&sn=fd6e07af05b3eb69bba145eb385ab70f&chksm=f875840318d3d46a496b3a88aff814421869738b58dfcf966ba4d5409d6c58160599555015a7&scene=126&sessionid=0

文章标签：

#guava #3d #人工智能

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号：CVer2233，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

介绍

创建逼真且富有表现力的上半身人体化身，例如包含细致的面部表情和丰富的手势，在电影、游戏和虚拟会议等领域具有重要价值。同时，易于创建和支持实时渲染也是关键要求。然而，仅凭单张图像实现这些目标仍然是一个的重大挑战。

3D Gaussian splatting (3DGS) 的兴起催生了许多3D化身重建方法，它们利用 3DGS 实现实时、高质量的化身重建。然而，这些方法仍然存在一些局限性：

逐ID练：每个个体都需要单独训练。
训练复杂性：该过程耗时，需要标定的多视图或单目视频。
表现力有限：头部重建方法缺乏身体动作表示，而全身方法则忽略了细致的面部表情。

扩散模型在视频生成方面取得了显著成果。一些工作通过添加额外条件，如关键点或 SMPLX渲染图，来引导扩散模型的生成过程，扩展了模型在生成可控人体动画视频上的应用。尽管这些方法实现了良好的视觉效果，但它们仍然面临一些局限性：

ID一致性：难以保持一致的 ID，尤其是在姿势发生大变化时。
效率：高计算成本和多步去噪导致推理速度慢，阻碍了实时应用。
视点控制：2D 方法无法轻松调整相机姿势，从而限制了视点控制。

我们提出了 GUAVA，第一个从单张图像创建可驱动上半身 3D高斯化身的框架。与需要多视图视频或单人训练的3D方法不同，GUAVA 可以在秒级时间内完成推理重建，并支持实时动画和渲染。与基于扩散模型的2D方法相比，GUAVA使用 3D高斯来确保更好的ID一致性和实时渲染。并引入一种富有表现力的人体模型EHM，解决了现有模型在捕捉细致面部表情方面的局限性。还利用逆纹理映射技术以准确地预测高斯纹理，并结合一个神经渲染器来提高渲染质量。通过充分的实验也展示了其在渲染质量和效率方面优于现有2D和3D方法。

目前，相关代码已开源，欢迎关注与使用。

论文: https://arxiv.org/pdf/2505.03351

主页：https://eastbeanzhang.github.io/GUAVA/

代码：https://github.com/Pixel-Talk/GUAVA

方法

EHM 模型与精确跟踪：为了解决SMPLX 模型在捕捉面部表情上的不足，GUAVA 引入了 EHM（Expressive Human Model）。EHM 结合了 SMPLX 和 FLAME 模型，能够实现更准确的面部表情表示。同时我们设计了对应的通过两阶段追踪方法，实现从单张图像到姿态的准确估计。首先利用预训练模型进行粗略估计，然后使用 2D 关键点损失进行精细优化，从而为重建提供精确的姿势和表情参数。

快速重建与双分支模型： GUAVA基于追踪后的图像通过单次前向推理方式完成化身的重建。它包含两个分支：一个分支根据 EHM 顶点和投影特征预测粗略的“模板高斯”，另一个分支则通过“逆纹理映射”技术，将屏幕特征映射到 UV 空间，生成捕捉精细细节的“UV 高斯”。这两种高斯组合成完整的 Ubody 高斯，从而在保持几何结构的同时，捕捉丰富的纹理细节。

实时动画与渲染：重建完成后，Ubody 高斯可以根据新的姿势参数进行变形和动画。最后，通过神经细化器对渲染的图像进行优化，以增强细节和渲染质量。

实验

实验设置：

我们从 YouTube、OSX和 HowToSign收集视频数据集，主要关注人体上半身视频。其中训练集包含超过 62 万帧，测试集包含 58 个 ID 。为确保评估的全面性，实验采用了多种指标：自重演（self-reenactment）场景下，通过 PSNR、L1、SSIM 和 LPIPS 评估动画结果的图像质量；跨重演（cross-reenactment）场景下，使用 ArcFace 计算身份保留分数（IPS）以衡量 ID 一致性。评估中与 MagicPose、Champ、MimicMotion 等2D方法以及 GART、GaussianAvatar 和 ExAvatar 3D方法进行比较。

定量结果：

Self-reenactment：与 2D 方法相比，GUAVA 在所有指标（PSNR, L1, SSIM, LPIPS）上均表现最佳，并在动画和渲染速度上达到约 50 FPS，而其他方法仅为每秒几帧。与 3D 方法相比，GUAVA 的重建时间仅为 0.1 秒左右，而其他方法需要数分钟到数小时。

Cross-reenactment：GUAVA 在身份保留分数（IPS）上显著优于其他所有 2D 方法，证明了其在不同姿势下保持 ID 一致性的能力。

定性结果：

尽管 2D 方法能生成高质量图像，但它们在保持 ID 一致性和准确恢复复杂手势及面部表情方面存在不足。例如，Champ 的手部模糊，MagicPose 存在失真，而 MimicMotion 则无法保持 ID 一致性。3D 方法在处理精细的手指和面部表情方面存在困难，也缺乏泛化能力，在未见区域或极端姿势下会产生伪影。GUAVA 则能对未见区域生成合理的结果，在极端姿势下表现出更好的鲁棒性，并提供更准确、更细致的手部和面部表情。

消融实验：

为了验证方法中各个部分的有效性，在论文中进行了充分的消融实验。

论文总结：

该论文介绍了 GUAVA，一个用于从单张图像重建可动画、具有细腻表现力上半身 3D化身的快速框架。研究通过引入 EHM 模型及其精确跟踪方法，增强了面部表情、形状和姿势的捕捉能力。论文通过UV 高斯和模板高斯的两个推理分支共同构建一个上半身高斯。实验结果表明，GUAVA 在渲染质量和效率方面均优于现有方法。它实现了约 0.1 秒的重建时间，并支持实时动画和渲染。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！


ICCV 2025 论文和代码下载
在CVer公众号后台回复：ICCV2025，即可下载ICCV 2025论文和代码开源的论文合

CVPR 2025 论文和代码下载

在CVer公众号后台回复：CVPR2025，即可下载CVPR 2025论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者论文投稿+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer2233，进交流群
CVer计算机视觉（知识星球）人数破万！如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料，一定要扫描下方二维码，加入CVer知识星球！最强助力你的科研和工作！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看