阳明交通大学TED-4DGS:时序激活优化动态3D场景压缩

科技行者,2025-12-30 22:20:59


这项由台湾国立阳明交通大学何承原、杨和弼、刘宇伦、彭文孝,以及国立中正大学江瑞丘共同完成的研究发表于2025年12月的arXiv论文库(论文编号:arXiv:2512.05446v1),为动态3D场景的压缩存储带来了突破性进展。

当我们拿起手机拍摄一段视频时,其实是在记录一个不断变化的3D世界。近年来,一种叫做3D高斯点云渲染(3DGS)的技术让静态3D场景的重建变得异常精确,就像用无数个发光的小球拼出一个完美的雕塑。但当这些"雕塑"开始动起来时,问题就来了——如何高效地存储和传输这些动态变化的场景?

传统的解决方案就像两个极端的厨师:一种厨师为每一道菜的每个步骤都准备独立的食材(空间-时间4DGS方法),虽然做出来的菜很精美,但需要巨大的冷藏空间;另一种厨师用同一套基础食材,通过不同的烹饪手法来变出各种菜品(典型3DGS配变形方法),虽然节省空间,但有时候某些食材明明不该出现在特定菜品中,却不得不想办法"隐藏"起来,导致烹饪过程变得别扭。

研究团队提出的TED-4DGS就像一位聪明的主厨,既保持了食材库的紧凑性,又给每种食材安排了"出场时间表"。这种方法建立在一个叫做ScaffoldGS的稀疏锚点结构之上,可以理解为在3D空间中布置了一些"控制点",每个控制点负责管理周围一小片区域的显示效果。

研究的核心创新在于为每个锚点添加了"时序激活参数",就像给演员安排了上台和下台的时间。每个锚点都有自己的"出场时间"(as)和"退场时间"(af),以及过渡的平滑程度。这样,当某个物体被遮挡或消失时,对应的锚点就会自然地淡出,而不需要通过奇怪的变形把它们"藏"到看不见的地方。

在变形建模方面,研究团队采用了一种"嵌入式查询"机制。想象一个巨大的"变形词典",里面记录着各种可能的运动模式。每个动态锚点都有自己的"身份标签"(时序特征),用这个标签去词典中查找最适合的变形方案。这种方法既能捕捉复杂的运动,又避免了为每个锚点单独存储完整的变形信息。

为了实现高效的压缩,研究团队还引入了基于隐式神经表示(INR)的超先验模型,配合通道级自回归模型来捕捉锚点属性之间的相关性。这就像一个非常聪明的压缩算法,不仅知道哪些信息重要,还能预测接下来可能出现什么信息,从而实现更高的压缩率。

一、突破传统束缚的时序激活机制

在动态3D场景重建中,最大的挑战之一是如何处理遮挡和去遮挡现象。传统的典型3DGS方法要求所有的高斯基元在整个序列期间都保持存在,这就像要求所有演员从戏剧开始到结束都必须留在舞台上,即使他们在某些场景中完全不需要出现。

为了解决这个问题,以往的方法往往采用"强制隐身"的策略——通过不自然的变形将不需要显示的高斯基元移动到视野范围之外。这种做法不仅导致了训练的不稳定性,还产生了极其不规则的变形场,严重影响了压缩效率。就好比为了让某个演员在特定场景中"消失",导演不得不让他做出各种奇怪的动作躲到舞台角落,这显然不是最优雅的解决方案。

TED-4DGS的时序激活机制则提供了一个更加自然的解决方案。研究团队为每个锚点引入了学习型时序激活参数τ = [(as, bs), (af, bf)],其中as和af分别定义了锚点的出现和消失时刻,而bs和bf控制这些过渡的平滑程度。这个激活函数的设计非常巧妙:在锚点的活跃期间(as ≤ t ≤ af),函数值为1,表示完全可见;在活跃期之外,函数值呈现高斯式的衰减,让锚点能够平滑地出现和消失。

具体来说,时序激活函数的数学表达式为:当时间t小于出现时刻as时,激活值按照exp[-(t-as)/bs]?的形式衰减;当时间t在as和af之间时,激活值保持为1;当时间t大于消失时刻af时,激活值按照exp[-(t-af)/bf]?的形式衰减。这种设计让每个锚点都能够在正确的时机自然地出现和消失,就像真正的演员一样,只在需要的时候登台表演。

为了确保训练的稳定性,研究团队还采用了渐进式学习策略。在训练的前20,000次迭代中,所有锚点都被视为静态3D锚点,不进行时序激活建模,这鼓励它们在各个时间帧中保持一致的活跃状态。随后,根据每个锚点在视野中可见的最早和最晚时间实例来初始化时序参数as和af,然后与其他锚点属性一起进行联合优化。

这种渐进式训练策略的效果非常显著。在训练早期,当变形还没有得到充分学习时,过早地引入激活参数可能导致训练过程过度激进地删除锚点。通过先让锚点学会稳定的3D表示,再逐步引入时序控制,整个系统能够更好地平衡表示能力和压缩效率。

时序激活机制带来的另一个重要好处是实现了时序感知的透明度剪枝。在渲染过程中,每个高斯基元在时间t的时序感知透明度αt通过将其静态透明度α与时序激活τ(t)相乘得到:αt = α · τ(t)。这使得系统能够更有效地移除那些在时间维度上贡献很小的锚点,进一步提升了存储效率。

二、灵活高效的嵌入式变形建模

在动态场景的表示中,如何建模复杂而多样的运动模式是另一个核心挑战。传统的基于坐标的方法通常将变形场建模为4D时空函数,需要学习密集的4D网格,这不仅消耗大量内存,还带来了显著的存储开销。而简单的参数化运动模型,如线性运动或多项式运动,又难以捕捉现实世界中复杂的非线性运动模式。

TED-4DGS采用了一种巧妙的嵌入式变形方法来平衡这些挑战。整个变形系统的核心是一个全局变形库Z,这个库的维度为R^(F/2×D),其中F是总帧数,D是变形特征的维度。可以把这个变形库理解为一个"运动模式字典",存储着各种可能的运动信息。

每个动态锚点都配备有一个独特的时序特征φ ∈ R^d,这个特征就像锚点的"身份证",用来查询全局变形库中与自己相关的运动信息。查询过程分为几个步骤:首先,系统根据当前时间t对变形库进行时序插值,得到时间特定的变形向量z^(t);然后,锚点的时序特征φ通过一个投影函数F_project得到权重向量w = F_project(φ);最后,权重向量与时间特定的变形向量相乘,得到锚点专属的时序潜在特征z_t^a = w · z^(t)。

这种设计的精妙之处在于,全局变形库是所有动态锚点共享的,大大减少了需要存储的参数数量,而每个锚点通过自己独特的时序特征来"个性化"地查询这个共享库,实现了既高效又灵活的运动建模。

得到锚点专属的时序潜在特征z_t^a后,系统将其输入到变形解码器F_deform中,预测锚点的位置偏移?x和特征残差?f。位置偏移直接作用于锚点的空间坐标,而特征残差则用于更新锚点的特征向量,这个更新后的特征将用于解码尺度和旋转参数。值得注意的是,颜色和透明度被视为时不变的属性,仍然从原始的典型特征f中解码。

这种分离设计背后有着深刻的考虑。在大多数动态场景中,物体的几何形状(尺度、旋转)会随时间变化,但其基本的外观属性(颜色、材质)通常保持相对稳定。通过将这些属性分开处理,系统既能够捕捉必要的动态变化,又避免了不必要的复杂性。

为了平衡变形精度和比特率,研究团队选择每两帧信号传输一个变形向量,而不是每帧都传输。这个决策基于这样的观察:相邻帧之间的运动通常是连续和平滑的,通过插值可以很好地近似中间帧的变形信息。这种做法将变形数据的存储需求减半,同时对重建质量的影响很小。

三、创新的INR超先验压缩框架

高效的属性编码是实现高质量动态3DGS压缩的关键环节。传统的网格化超先验方法,如三平面或哈希表,虽然能够捕捉空间相关性,但需要额外传输网格结构信息,增加了存储开销。更重要的是,这些方法通常针对静态场景设计,难以很好地适应动态场景中锚点属性的时变特性。

TED-4DGS提出了一种基于隐式神经表示(INR)的超先验框架来解决这些问题。这个框架的核心是一个多层感知机网络,它学习锚点属性的先验分布,而不需要预定义的网格结构。给定锚点位置x的位置编码,网络输出相应的分布参数:均值μh、方差σh和量化步长q。

这种无网格设计带来了显著的优势。传统的网格化方法需要传输三平面或哈希表的结构信息,这部分额外的比特开销在总压缩率中占据不小的比例。而INR超先验只需要传输网络权重,由于网络结构相对简单,权重数量远少于大型网格结构,从而保持了模型的轻量性。

对于量化属性a的概率评估,系统使用积分形式p(a|x) = ∫[a-q/2 to a+q/2] N(μh, σh) da,这相当于在学习到的高斯先验下评估量化值的似然性。这种概率建模方式既考虑了量化的离散性,又保持了分布建模的连续性,为熵编码提供了准确的概率估计。

除了基础的INR超先验外,研究团队还针对锚点特征f引入了通道级自回归模型,以进一步利用特征内部的相关性。锚点特征通常包含丰富的结构和颜色信息,在位流中占据相当大的比例。通道级自回归模型能够利用已编码通道的信息来预测当前通道的分布,类似于图像编码中常用的上下文建模技术。

具体来说,在编码锚点特征f的第i个通道时,自回归模型会考虑前i-1个已编码通道的信息,预测当前通道的条件分布。这种做法能够显著降低特征编码所需的比特数,特别是当相邻通道之间存在强相关性时。

整个压缩框架还包括几个重要的组成部分。偏移掩码Mo用于抑制不太重要的高斯基元,时序掩码Mt用于区分静态和动态锚点。这两个掩码都通过稀疏化正则项进行学习,在保持重建质量的同时最大化压缩效率。

最终的压缩位流包含多个部分:锚点位置(以16位浮点格式存储)、锚点属性(通过INR超先验和自回归模型熵编码)、全局变形库(32位浮点格式)、网络权重(变形解码器、Scaffold MLP解码器、超先验解码器和通道级自回归模型)以及二进制偏移和时序掩码(熵编码)。

四、全面的实验验证与性能分析

为了验证TED-4DGS的有效性,研究团队在两个广泛使用的真实世界数据集上进行了comprehensive evaluation:Neural 3D Video(Neu3D)数据集和HyperNeRF数据集。这些数据集涵盖了不同类型的动态场景,从多视角同步摄像机捕获的复杂动作到手持设备拍摄的日常场景。

在Neu3D数据集上,实验覆盖了cook spinach、cut roasted beef、flame salmon、flame steak和sear steak等五个序列。这些场景包含了各种类型的动态内容:烹饪过程中的液体飞溅、食物切割时的变形、火焰的随机运动等。实验结果显示,在相似的感知质量下,TED-4DGS相比E-D3DGS实现了超过14倍的文件大小缩减,相比4DGaussians实现了超过18倍的压缩比。

特别值得关注的是在复杂运动场景中的表现。在sear steak场景中,TED-4DGS在达到相似甚至更优的渲染质量的同时,将文件大小从几十兆字节压缩到仅仅几兆字节。这种压缩性能的提升主要归功于时序激活机制的引入,它避免了为处理遮挡而产生的不自然变形,从而显著提高了变形场的规律性和可压缩性。

在HyperNeRF数据集上的实验进一步验证了方法的泛化能力。该数据集使用两部手机刚性安装在手持立体设备上拍摄,包含3D printer、banana、broom和chicken四个动态场景。在3D printer场景中,TED-4DGS在文件大小为3.4MB时达到了23.1dB的PSNR,相比率失真优化的ADC-GS在相似感知质量水平下实现了28%的比特率削减。

研究团队还进行了详细的消融实验来分析各个组件的贡献。关于变形场设计的消融实验揭示了几个重要发现。首先,在全局变形库查询机制中,乘法策略(w·z^(t))明显优于拼接策略(concat(φ, z^(t)))。乘法可以理解为从全局变形向量z^(t)中检索相关变形,而拼接则更像是简单的特征组合,缺乏这种选择性检索能力。

时序激活机制的重要性通过对比实验得到了充分证明。禁用时序激活会在所有率点上持续增加比特率,同时渲染质量出现轻微下降。更重要的是,缺少时序激活机制时,系统会出现将不贡献的动态高斯基元(实验中用红点标示)重定位到视野范围外的不当解决方案。这种做法不仅导致训练不稳定,还产生了高度不规则的变形场,严重妨碍了压缩效率。

关于时序激活的进一步分析揭示了一个有趣的模式:系统会自适应地将锚点生命周期与场景动态对齐。在慢动作场景(如flame steak)中,超过97%的高斯基元在整个序列中保持活跃;而在高运动复杂性场景(如broom)中,短持续时间的高斯基元分布相对均匀,反映了更加动态的场景特性。这种适应性表明时序激活机制能够智能地响应不同类型的动态内容。

渐进式训练策略的效果同样显著。相比直接优化所有参数,渐进式策略在所有率点上都实现了一致的比特率降低,尽管伴随着PSNR的明显下降。这是因为当变形在早期阶段还没有得到充分学习时,训练过程倾向于更激进地剪枝锚点。通过使用静态3D锚点来稳定变形学习,然后再引入时序激活建模,整个系统达到了更好的率失真平衡。

在压缩框架的消融实验中,INR超先验相比因式先验实现了20.0%的BD-rate节省,同时也优于向量-矩阵超先验。因式先验将属性组件视为独立同分布的随机变量,缺乏对空间相关性的建模;而INR超先验通过位置编码能够捕捉属性的空间分布模式,提供更准确的概率估计。

五、技术创新的深层意义与应用前景

TED-4DGS的技术贡献远不止于简单的压缩率提升,它代表了动态3D场景表示领域的一个重要进展。通过将时序激活机制引入传统的3DGS框架,研究团队实际上解决了一个更基本的问题:如何在保持表示能力的同时实现真正的时序感知。

传统方法的一个核心局限是缺乏对时间维度的显式建模。虽然基于坐标的方法和基于嵌入的方法都能在某种程度上处理动态场景,但它们本质上还是在尝试用静态的基元来表示动态的世界。TED-4DGS通过引入时序激活参数,首次在3DGS框架内实现了真正的4D表示,其中每个基元都有明确定义的生命周期。

这种设计哲学的转变带来了多方面的好处。从表示角度看,时序激活使得系统能够更自然地处理遮挡和去遮挡,避免了不物理的变形;从优化角度看,它提供了额外的正则化,有助于训练稳定性;从压缩角度看,它减少了需要建模的复杂变形,提高了可压缩性。

嵌入式变形建模的另一个重要贡献是在表示能力和参数效率之间找到了新的平衡点。通过全局变形库和局部查询机制的组合,系统既能够捕捉复杂的非线性运动,又避免了为每个锚点存储完整变形信息的开销。这种设计原理实际上反映了一个更普遍的机器学习原则:通过参数共享和条件生成来提高模型效率。

在实际应用层面,TED-4DGS的压缩能力为多个领域开启了新的可能性。在虚拟现实和增强现实应用中,高质量的动态3D内容传输一直是一个技术瓶颈。TED-4DGS提供的高压缩比使得实时传输高保真度的动态场景变得更加可行,这对于远程协作、虚拟会议和沉浸式娱乐等应用具有重要意义。

在自动驾驶和机器人视觉领域,TED-4DGS可能为动态场景理解提供新的表示工具。相比传统的点云或网格表示,基于高斯点云的方法能够更好地处理部分遮挡和动态对象,而高效的压缩则使得这些表示可以在资源受限的移动平台上使用。

电影制作和数字娱乐行业也可能受益于这项技术。动态3D场景的高效存储和传输对于现代电影制作流程至关重要,特别是在涉及大量视效镜头的制作中。TED-4DGS提供的压缩能力可能显著降低存储成本和传输时间,提高制作流程的效率。

值得注意的是,这项研究还为未来的工作指出了几个有前景的方向。首先,当前的时序激活机制相对简单,未来可能引入更复杂的激活函数来处理更多样化的时序模式。其次,全局变形库的设计还有优化空间,可能通过层次化或分组的方式进一步提高效率。最后,压缩框架可能与更先进的神经网络压缩技术结合,实现更高的压缩率。

从更宏观的角度看,TED-4DGS代表了神经表示领域从静态走向动态的一个重要里程碑。随着3D内容创建和消费的日益普及,高效的动态3D表示将成为下一代媒体技术的基础。这项研究不仅解决了当前的技术挑战,也为未来的创新奠定了坚实的基础。

说到底,TED-4DGS的真正价值在于它证明了一个重要观点:通过巧妙的设计,我们可以在保持表示质量的同时大幅提高效率。这种"既要又要"的技术突破,正是推动整个领域向前发展的关键动力。对于普通用户而言,这项技术的成熟应用最终将带来更流畅的VR/AR体验、更高质量的视频通话,以及更丰富的数字娱乐内容。虽然我们距离这些应用的大规模普及还有一段距离,但TED-4DGS无疑朝着这个方向迈出了坚实的一步。

Q&A

Q1:TED-4DGS相比传统方法在压缩效果上有多大提升?

A:TED-4DGS在保持相似画质的情况下,相比E-D3DGS实现了超过14倍的文件大小缩减,相比4DGaussians实现了超过18倍的压缩比。在HyperNeRF数据集的3D printer场景中,相比率失真优化的ADC-GS方法实现了28%的比特率削减。

Q2:时序激活机制是如何解决动态场景中的遮挡问题的?

A:传统方法为了处理遮挡,会将不需要显示的高斯点云移到视野外,导致不自然的变形。TED-4DGS为每个锚点引入时序激活参数,定义其出现和消失的时间,让锚点能够在正确的时机自然出现和消失,避免了奇怪的变形,提高了压缩效率。

Q3:TED-4DGS的技术突破对普通用户有什么实际意义?

A:这项技术的应用将带来更流畅的VR/AR体验、更高质量的视频通话和更丰富的数字娱乐内容。高效的动态3D场景压缩使得实时传输高保真度的动态场景变得更可行,对虚拟现实、远程协作和沉浸式娱乐等领域都有重要推动作用。