5秒生成高质量3D物体：LGM框架引领多视角高斯模型革命

PDF文件

下载需积分: 5 | 6.02MB | 更新于2024-06-16 | 77 浏览量 | 举报收藏

立即下载

随着元宇宙对3D创意工具需求的日益增长，三维内容生成(3D AIGC)领域正在经历一场革命性的变革。本文主要介绍了一项名为LGM（Large Gaussian Model，大型多视角高斯模型）的新研究，由北京大学、南洋理工大学S-Lab和上海人工智能实验室的专家共同提出。这项创新旨在解决现有3D生成模型在速度和质量上的挑战，特别是通过将生成时间从几分钟缩短至仅需5秒钟，实现了从单视角图片或文本输入到高分辨率、高质量3D物体的快速生成。 LGM的核心创新在于其使用了大型多视图高斯模型，这种模型灵感源于高斯溅射，通过非对称U-Net这一高效轻量级的骨干网络结构。它能够直接从四张不同视角的图片中预测高分辨率的高斯基元，这些基元在后续步骤中被融合，形成精细的3D模型。这种多视角的处理方式允许模型捕获物体的复杂几何细节，并且在保持速度的同时提升生成内容的精度。该模型的工作流程包括以下几个关键环节： 1. **输入处理**：LGM接受单视角图片或文本提示作为输入，如用户提供的“sorcerer's spellbook”、“mushroom house”或“astronaut”等描述。 2. **高斯特征生成**：通过多视角的处理，模型生成一系列高斯分布，每个分布代表3D空间中的一个局部区域。 3. **特征融合**：这些高斯特征通过融合机制进行整合，形成一个统一的3D表示，这使得模型能够理解物体的全局形状和结构。 4. **渲染与输出**：经过融合的高斯特征被转换为任意视角下的高分辨率图像，用户可以直观地查看生成的3D模型。 LGM的优势在于它既能保持高效率，能够在5秒内生成高质量的3D内容，又能避免传统深度学习模型在训练时所需的密集计算，从而降低了生成过程中的计算成本。这种技术的进步对于推动3D内容创作、游戏开发、虚拟现实和增强现实等领域的发展具有重要意义，有望加速元宇宙的构建和应用。未来，研究人员可能会进一步探索如何扩展这种模型到更多的应用场景，并提高其在细节表现、光照模拟等方面的能力。