【论文笔记】4D Gaussian Splatting: Towards Efficient Novel View Synthesis for Dynamic Scenes

原文链接:https://arxiv.org/abs/2402.03307

1. 引言

从2D图像进行动态场景的3D重建并合成新视图图像仍然面临挑战。一些方法联合建模3D场景与其动态,但因时空纠缠的复杂性,这些方法对细节的保留存在缺陷;其它方法则进行时空解耦,学习静态正则空间,并预测变形场以考虑时间变化,但其难以处理物体突然出现与消失的情况。此外,基于体渲染的方法需要在大量射线上进行密集采样,不能支持实时渲染。

本文将静态场景新视图合成方法3D GS扩展到4D,提出时空表达,使3D GS能适应动态场景。将3D场景动态视为4D时空高斯椭球的时间切片(如下图所示为XY到XYT的扩展)。此外,在时间维度扩展剪枝-分裂机制,使4D高斯可以表达突然出现和消失的物体。
在这里插入图片描述
本文选择4D转子(rotor,旋转算子),一种时空可分离的旋转表示,来表达4D旋转。4D转子在时间维度为0时,等价于空间的3D旋转,因此也可用于静态场景。

此外,本文增强了优化策略,引入新的正则化项来稳定和促进动态重建。熵损失使高斯的不透明度趋近0或1,能有效去除“漂浮物”。4D一致性损失能正则化高斯运动,从而进行更一致的动态重建。

3. 方法

在这里插入图片描述

3.2 4D高斯溅射

3.2.1 基于转子的4D高斯表达

4D高斯可以表达为4D中心位置 μ 4 D = ( μ x , μ y , μ z , μ t ) \mu_{4D}=(\mu_x,\mu_y,\mu_z,\mu_t) μ4D=(μx,μy,μz,μt)和4D协方差矩阵 Σ 4 D \Sigma_{4D} Σ4D
G 4 D ( x ) = exp ⁡ [ − 1 2 ( x − μ 4 D ) T Σ 4 D − 1 ( x − μ 4 D ) ] G_{4D}(x)=\exp[-\frac1 2(x-\mu_{4D})^T\Sigma^{-1}_{4D}(x-\mu_{4D})] G4D(x)=exp[21(xμ4D)TΣ4D1(xμ4D)]

协方差矩阵可进一步表达为4D缩放 S 4 D = diag ( s x , s y , s z , s t ) S_{4D}=\text{diag}(s_x,s_y,s_z,s_t) S4D=diag(sx,sy,sz,st)和4D旋转 R 4 D R_{4D} R4D
Σ 4 D = R 4 D S 4 D S 4 D T R 4 D T \Sigma_{4D}=R_{4D}S_{4D}S_{4D}^TR_{4D}^T Σ4D=R4DS4DS4DTR4DT

类似3D旋转矩阵可转化为四元数,4D旋转矩阵 R 4 D R_{4D} R4D可转化为为4D转子 r r r,由8个分量组成:
r = s + b 01 e 01 + b 02 e 02 + b 03 e 03 + b 12 e 12 + b 13 e 13 + b 23 e 23 + p e 0123 r=s+b_{01}e_{01}+b_{02}e_{02}+b_{03}e_{03}+b_{12}e_{12}+b_{13}e_{13}+b_{23}e_{23}+pe_{0123} r=s+b

### GPS-Gaussian 实时人体新视图合成的应用与原理 #### 应用背景 GPS-Gaussian 是一种用于实时人类新视角合成的技术,能够在不进行任何形式的微调或优化的情况下即时为任何人像生成新的视角[^2]。 #### 技术核心 该技术的核心在于利用像素级别的3D高斯分布来表征人物。具体来说: - **三维高斯表示**:通过引入三维高斯函数来描述场景中的每一个像素点的位置和颜色属性。这种表示方式不仅保留了连续体积辐射场的优点,还有效减少了不必要的计算开销[^3]。 - **各向异性协方差优化**:为了更精准地捕捉物体表面细节并减少模糊效应,系统会对每个高斯模型执行交叉优化操作,尤其是针对其形状参数——即各向异性协方差矩阵进行了特别设计,使得最终效果更加逼真自然。 #### 渲染机制 基于上述建模基础之上,GPS-Gaussian 开发了一套高效的可见性感知渲染算法,可以处理复杂的光照条件以及遮挡关系等问题,并且支持异构硬件平台上的高性能运算需求。这确保了即使是在移动设备上也能流畅运行,达到每秒至少30帧以上的播放速率。 ```python import numpy as np def render_gaussian_splatting(gaussians, camera_pose): """ Render a scene using the provided list of gaussians and given camera pose. :param gaussians: List of dictionaries containing 'position', 'color' and 'covariance' keys for each gaussian element. :type gaussians: list[dict] :param camera_pose: Camera transformation matrix (4x4). :type camera_pose: np.ndarray Returns an image array representing rendered view from specified viewpoint. """ # Placeholder implementation; actual rendering would involve complex calculations pass ``` #### 数据集与训练流程 尽管不需要额外的数据准备阶段来进行个性化调整,但在初次部署前仍需依赖于一定规模的基础数据集完成预训练工作。这些样本通常来源于公开可用的标准测试集合或是特定应用场景下的采集素材库[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

byzy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值