一个模型统一4D世界生成与重建,港科大One4D框架来了

机器之心Pro,2026-01-13 10:35:44



本文第一作者密振兴,香港科技大学计算机科学与技术学院人工智能方向博士生,研究方向是多模态理解与生成,视频生成和世界模型,目前正在寻找工业界全职职位。

一、背景介绍

近年来,视频扩散模型在 “真实感、动态性、可控性” 上进展飞快,但它们大多仍停留在纯 RGB 空间。模型能生成好看的视频,却缺少对三维几何的显式建模。这让许多世界模型(world model)导向的应用(空间推理、具身智能、机器人、自动驾驶仿真等)难以落地,因为这些任务不仅需要像素,还需要完整地模拟 4D 世界。

来自香港科技大学(HKUST)的研究团队提出 One4D,一个统一的 4D 生成与 4D 重建框架。One4D 构造了一个同步输出多模态的视频扩散模型,能够用一个模型同步输出 RGB 视频与 Pointmap(XYZ)几何视频,并支持从单张图像到 4D 生成、从稀疏帧到 4D 生成 + 重建、以及从完整视频到 4D 重建等多种任务形态。



  • 论文标题:One4D: Unified 4D Generation and Reconstruction via Decoupled LoRA Control
  • 论文地址:https://arxiv.org/abs/2511.18922
  • Github:https://github.com/MiZhenxing/One4D
  • 项目主页:https://mizhenxing.github.io/One4D

二、One4D 算法设计

One4D 的核心目标是用强大的视频生成模型(比如Wan Video)统一 4D 生成与 4D 重建,输出对齐的 RGB 和几何多模态结果。论文亮点有:

1. 多模态输出:RGB + Pointmap;

2. DLC:解耦 LoRA 控制,稳住 RGB 同时学几何对齐;

3. UMC:统一掩码条件,一套模型覆盖生成和重建任务。

具体来说,One4D 将动态 4D 场景表示为两种同步的输出模态。(1) RGB frames(外观);(2) Pointmaps(XYZ),即与 RGB 视频对齐的 3 通道几何视频,每个像素存 XYZ 值,可进一步导出 Depth 并结合后处理估计相机轨迹,最终可视化为 4D 点云和相机。

并且,One4D 在一个框架内支持三种输入:单张图到 4D 生成,稀疏视频帧到 4D 生成 + 重建,完整视频到 4D 重建。

1. DLC:解耦 LoRA 控制

在基于视频扩散模型的 “RGB + 几何” 多模态联合建模里,一个常见做法是把模态在通道维拼接。但在低资源微调时,这会导致严重的跨模态干扰,几何学不好,基础模型的 RGB 质量也容易被拖垮。而将两个模态在长宽维度拼接,共享参数,也会导致跨模态干扰,几何精度不高,而且与 RGB 无法保持对齐。

One4D 提出 Decoupled LoRA Control(DLC) 来专门解决这个问题,设计目标包括:

(1) 低资源微调也尽量保住底座视频模型的强先验;(2) 解耦 RGB 与几何生成,减少互相干扰;(3) 仍要保留必要的跨模态通信,确保像素级对齐一致。

具体做法是:

1. 为 RGB 与 Pointmap 分别挂载模态专属 LoRA,并且形成两条解耦计算分支,共享冻结的 base 参数,但 forward 分开跑。确保两个模态能够相对独立。

2. 再用少量 zero-init 的 control links 连接对应层,让两个模态从 0 开始逐步学会互相控制,从而实现精确的像素级对齐。



从直观上理解 DLC 的设计, RGB 分支努力保持视频美学与运动先验,几何分支专心拟合几何视频的分布,少量控制连接负责对齐同步。这也正是 One4D 强调的多模态输出同步生成的关键。

2. UMC:统一掩码条件

为了使用同一个视频模型统一 4D 的生成和重建,One4D 基于Wan Video的多任务框架,提出了 Unified Masked Conditioning(UMC),把不同类型的条件如单帧、稀疏帧、全视频,统一打包成一个条件视频,缺失帧用 0 填充,并使用一个 mask 张量指定哪些帧需要生成。单张图对应纯生成,稀疏帧对应混合生成 + 重建,全视频对应纯重建。在UMC的具体实现上,RGB 分支的条件视频通过 VAE 编码之后,连接到 RGB 的 latent states 上。而 XYZ 分支不直接使用这个条件视频,控制信号是通过 DLC 从 RGB 传递给 XYZ,这保证了 XYZ 分支能够更好地去适应新模态。UMC 的设计让 One4D 具备一个非常实用的能力,同一个扩散骨干,同时做 4D 生成和 4D 重建。One4D 模型不需要为不同任务改结构,只需改变输入帧的稀疏度,就可以在不同生成与重建任务之间平滑切换。



3. 训练数据

训练 One4D,需要获得大规模 “外观 - 几何” 配对数据。One4D 的数据构建遵循两个原则:几何要准、分布要真实。因此我们采用合成数据 + 真实数据混合策略。

合成数据通过游戏引擎渲染动态场景,天然提供每帧的几何真值,用于为 Pointmap(XYZ)提供稳定监督,帮助模型学到可靠的时序几何一致性。

真实数据,收集自公开视频数据的真实场景视频,以覆盖复杂光照、材质、运动模式。由于真实视频通常缺少几何真值,我们使用现有的 4D 重建方法 Geo4D 生成几何标注,从而把真实世界外观分布引入训练。

这套数据策略带来的直接收益是,合成数据提供几何精度与稳定性,真实数据提供视觉多样性与真实分布,从而让 One4D 在保持视频质感的同时,也能输出可用、对齐、时序一致的 4D 几何结果。One4D 使用 34K 条视频在 8 张 NVIDIA H800 GPU 上训练 5500 步,就得到了很好的效果。

三、实验结果

1. 单图到 4D 生成

论文将 One4D 与 4DNeX 做了单图到 4D 的对比,评价指标有:

用户偏好(User study):在一致性、动态性、美学、深度质量、整体 4D 连贯性等维度上,One4D 全面领先。



VBench:动态性(Dynamic)显著提升(55.7 vs 25.6),同时 I2V consistency 仍保持可比水平。



这些结果支持了 One4D 的优势,输出的多模态结果有更真实的 RGB 动态、更干净的深度、更完整连贯的 4D 点云与相机轨迹。在不牺牲 RGB 视频质量的前提下,仍然能学到准确、细粒度的 4D 几何结构。更多对比视频请移步项目主页:https://mizhenxing.github.io/One4D



2. 完整视频到 4D 重建

One4D 并不只在 4D 生成任务上优势显著,它还是一个重建模型,在完整视频 4D 重建上也保持了不错的性能。在深度重建评测数据集 Sintel 和 Bonn 上,One4D 的表现明显超过一些只做重建的方法如 MonST3R 和 CUT3R。即使我们的方法使用 Geo4D 构造了训练数据,它也取得了与只做重建的 Geo4D 相近的效果。更多对比视频请移步项目主页:https://mizhenxing.github.io/One4D





在相机轨迹评估数据集 Sintel 和 TUM 上,One4D 的相机估计能力也保持了可用精度,充分证明了 One4D 统一重建与生成的能力。



3. 稀疏视频帧到 4D 生成

在稀疏视频帧设置下,One4D 的输入仅是首尾帧以及少量中间帧,此时模型需要生成缺失 RGB 帧并补全完整几何序列。实验证明,即使在极稀疏条件下,One4D 仍能得到合理的 4D 结构。这意味着 One4D 不止能做重建,而是真正具备生成动态 4D 场景的能力。



四、总结

One4D 让视频扩散模型不再只会生成 RGB,而是能够同步生成外观(RGB)与几何(Pointmap / 深度 / 相机轨迹),在同一套框架中统一了 4D 生成和重建任务。它通过 UMC 与 DLC 解决了多任务切换与多模态联合训练中最关键的稳定性与对齐问题。One4D 推动视频生成走向生成可用于理解与交互的 4D 世界,为下一代世界模型与多模态内容创作提供了更实用的基础能力。