简介
主页:https://neural-3d-video.github.io/
将静态神经辐射场的高质量和紧凑性带到一个新的方向:无模型,动态设置,核心是一种新的时间条件神经辐射场,它使用一组紧凑的潜码来表示场景动态。通过一种新的分层训练方案结合光线重要性采样,能够显著提高生成图像的训练速度和感知质量。所学习到的表示高度紧凑,能够表示18个摄像机记录的10秒30 FPS的多视角视频,模型大小只有28MB。
挑战
视频通常由稳定光照下的时不变组件和连续变化的时变组件组成。这种动态构件通常表现出局部相关的几何变形和帧之间的外观变化,提出基于两种新的贡献来重建动态神经辐射场。
贡献点
- 提出了一种新的基于时间潜码的动态神经辐射场,实现了复杂的动态现实场景的高质量3D视频合成。
- 提出了基于时空域分层训练和重要抽样的新训练策略,显著提高了训练速度,并对较长的序列产生更高质量的结果。
- 提供时间同步和校准的多视角视频数据集,涵盖具有挑战性的4D场景,用于研究目的*。
实现流程
通过新颖的动态神经辐射场(DyNeRF)来学习6D全视函数,该动态神经辐射场的条件是位置、视图方向和一个紧凑的、但具有表达能力的时变潜码。
首先,将神经辐射场扩展到时空域。不是直接使用时间作为输入,而是通过一组紧凑的潜码参数化场景运动和外观变化。与更明显的额外选择“时间坐标”相比,习得的潜在代码显示出更强的表达能力,允许记录移动几何和纹理的生动细节。它们还允许流畅的时间插值,从而实现诸如慢动作或“子弹时间”等视觉效果。
其次,提出了新的动态辐射场的重要采样策略。基于光线的神经场景表示训练将每个像素作为一个独立的训练样本,需要数千次迭代才能遍历从所有视图观察到的所有像素。然而,捕获的动态视频往往在帧之间显示出少量的像素变化。这样就有机会通过选择对训练最重要的像素来显著提高训练进度。具体来说,在时间维度上,在帧中使用从粗到细的分层抽样来安排训练。在光线/像素维度上,倾向于对那些时间变化更大的像素进行采样。这些策略可以显著缩短长序列的训练时间,同时保持高质量的重建结果
NeRF+time
动态辐射场可通过将时间 t 与 位置、方向输入网络获取c 和 σ,但是往往伴随剧烈的运动模糊
一维时间变量 t 可以通过位置编码映射到高维空间,其方式类似于NeRF处理输入x和d的方式,然而,根据经验发现,这种设计很难捕捉具有挑战性的拓扑变化和时间依赖的体积效应的复杂动态3D场景,如火焰。
Dynamic Neural Radiance Fields
论文用时变潜码 z t ∈ R D z_t∈R^Dzt∈RD对动态场景进行建模。学习了一组与时间相关的潜码,由离散时间变量t索引
隐码提供了动态场景在某一时刻状态的紧凑表示,可以处理各种复杂的场景动态,包括变形、拓扑和亮度的变化。对输入位置坐标应用位置编码,将它们映射到高维向量。然而,对与时间相关的潜码没有进行位置编码。在训练之前,潜伏代码 {z t z_tzt} 在所有帧中被随机独立初始化。
Rendering
给定一条射线 r(s) = o + sd,原点o,方向 d 由指定的相机姿态定义,对应于这条射线C®的像素的渲染颜色是对累积不透明度加权的辐亮度的积分
同时训练网络参数Θ和潜码 {z t z_tzt} ,方法是最小化渲染颜色的 L2损失
Efficient Training
对于一个自然视频,很大一部分动态场景要么是时不变的,要么在整个观察视频的特定时间戳只包含一个小的时变亮度变化。因此,均匀采样射线会导致时不变观测值与时变观测值之间的不平衡。这意味着效率非常低,影响重构质量:时不变区域更快地达到高重构质量,并进行无用的过采样,而时变区域则需要额外的采样,增加了训练时间
两种加速训练过程的策略
- 分层训练,在粗到细的帧选择上优化数据
- 重要性采样,优先选择时间方差较高的区域周围的射线
这些策略通过更多地关注时间帧集 S 和像素集 I 中用于训练的“重要”射线,形成了不同的损失函数
这两种策略结合起来可以看作是一种自适应采样方法,有助于显著提高训练速度和渲染质量。
Hierarchical Training
分层培训。不是在所有视频帧上训练DyNeRF,而是首先在关键帧上训练它,以固定的时间间隔 K 等距地对所有图像进行采样,即 S = {t | t = nK, n∈Z+, t∈T}。一旦模型与关键帧监督收敛,使用它初始化最终模型,它具有与完整视频相同的时间分辨率。由于每个片段(由相邻的关键帧划分)内的场景的每帧运动是平滑的,通过在粗嵌入之间的线性插值初始化精细级潜在嵌入。最后,利用所有帧的数据联合训练,S = T,进一步优化网络权重和潜在嵌入。粗关键帧模型已经捕获了整个视频的时不变信息的近似值。因此,精细全帧训练只需要学习每帧的时变信息。
Ray Importance Sampling
射线重要性抽样。建议根据输入视频的时间变化对不同重要性的射线 I 进行采样。对于时刻 t 时观测到的每条射线 r,我们计算权值ω ( t ) ( r ) ω^{(t)}(r)ω(t)(r)。在每次训练迭代中,随机选择一个时间框架 t。首先对帧 t 的所有输入视图中射线的权值进行归一化,然后应用逆变换抽样来基于这些权值选择射线。
training
Global-Median (DyNeRF-ISG):根据每条射线的颜色到全局中值的残差来计算它的权重。
Temporal-Difference (DyNeRF-IST):根据连续两帧的色差计算每条射线的权重
Combined Method (DyNeRF-I S ⋆ IS^⋆IS⋆):结合以上两种策略
从经验上观察到,用高学习率训练DyNeRF-ISG可以非常快速地恢复动态细节,但会在时间上产生一些抖动。另一方面,训练学习率较低的DyNeRF-IST会产生平滑的时间序列,但仍然有些模糊。因此,结合这两种方法的好处,DyNeRF-I S ⋆ IS^⋆IS⋆,首次获得通过DyNeRF-ISG锐利的细节,然后通过DyNeRF-IST柔滑时间运动。
高效培训策略。首先使用关键帧(b),然后对完整序列(c)进行分层训练。在这两个阶段,应用射线重要性采样技术,基于测量时间外观变化的权重图(a),专注于具有高时变信息的射线。使用热图(红色和不透明表示高概率)展示了基于全局中值图的采样概率的可视化示例。