视频链接:https://mp.weixin.qq.com/s/IBAIk3TPzS_UExnHCtNUwg

世界模型正在成为通向通用智能的重要方向。借助视频生成模型强大的视觉先验,这类系统可以根据当前观察、文本提示和相机轨迹,模拟一个能够被持续探索的虚拟环境,并服务于智能体训练、交互式仿真、自动驾驶决策和大规模合成数据生成。

然而,当越来越多的研究开始追求更高的画质和更精确的相机控制时,一个更基础的问题仍未得到充分回答:这些模型究竟是在模拟持续运行的世界,还是只是在生成相机当前看到的视频?

来自阿德莱德大学、澳大利亚国立大学、蒙纳士大学、浙江大学与奥克兰大学的研究者重新审视了现有视频世界模型的建模方式。他们发现,这类方法普遍把「世界自身如何演化」与「相机在某个视角下看到了什么」交给同一个视频生成器处理。

这种耦合会带来一个直接后果:一旦某个物体离开相机视野,模型通常就不再更新它的状态,而是将其停留在最后一次被看到的时刻。例如,一只狗正在吃东西,观察者转头看向别处,过一会儿再回来。现实中,狗可能已经吃完并走开;现有模型却往往再次生成「狗仍在吃东西」的画面,仿佛相机移开的同时,局部世界也被按下了暂停键。

研究者将这一缺失的时间进程定义为「视野外动态」(Out-of-Sight Dynamics),并指出现有视频世界模型实际上隐含着一种「静态世界假设」:只有进入相机视野的内容才会继续变化。为打破这一假设,他们提出了LiveWorld,将世界演化与观察渲染显式解耦,使事件在离开视野后仍能持续推进。

LiveWorld:解耦世界演化与观察渲染

LiveWorld 的出发点很简单:世界如何变化,不应该由相机正在看哪里决定。因此,它不再让视频生成器同时猜测「世界发生了什么」和「相机看到了什么」,而是把两件事明确拆开:先让世界状态随时间演化,再根据相机轨迹渲染当前观察。





这一分解也带来了清晰的系统分工:虚拟监视器(Monitor)负责在固定位置持续模拟局部事件,观察渲染器(Renderer)负责从移动相机的视角呈现更新后的世界。二者虽然职责不同,本质上都属于「给定状态与条件生成视频」,因此 LiveWorld 使用同一个基于 Wan2.1-14B-T2V 的状态条件视频扩散骨干实现两种功能。

方法设计

沿着上述思路,LiveWorld 的运行过程可以理解为一条持续循环的流水线:发现需要跟踪的动态实体,让它们在视野外继续演化,同时积累静态场景;当相机再次经过时,再把二者组合成最新画面。具体包含以下四个环节:





由此,LiveWorld 形成了一个闭环:观察新区域、注册动态事件、在后台推进状态,再从最新状态生成下一段观察。它并没有试图一次性构建完整的 4D 世界,而是用「静态场景长期记忆 + 动态实体按需演化」的方式,把视野外动态转化为一个可计算、可扩展的问题。

实验验证



要评估视野外动态,仅比较单段视频的画质并不够。关键在于:相机离开后再回来,事件是否已经推进,物体身份是否保持,场景几何是否仍然一致。为此,研究者构建了首个面向该问题的专门基准LiveBench,包含 100 个场景和 400 条评估序列,并为每个场景配置多轮相机轨迹与文本事件脚本。

LiveBench 包含两类重访轨迹:Same-Pose(A→B→A→B→A)要求相机多次回到同一位置,考察长时序状态变化;Different-Pose(A→B→C)则让相机从新视角重访旧区域,同时考察事件演化与三维一致性。研究者将 LiveWorld 与 Matrix-Game-2.0、Hunyuan-GameCraft-1.0 和 Spatia 等开源相机可控世界模型进行了比较。





更多可视化结果 —— 多事件重访与不同位姿重访



结论与展望

LiveWorld 提出的核心问题是:如果一个世界模型只能更新相机正在观察的内容,它所建模的仍然只是连续的视频,而不是持续运行的世界。通过形式化「视野外动态」、显式拆分世界演化与观察渲染,并结合静态 3D 空间记忆和动态 4D 实体状态,LiveWorld 将视频世界模型从「记住看过的画面」推进到「维护看不见时仍在变化的状态」。

这项工作并非最终答案,而是为持续世界建模提供了一个可实现、可评测的起点:未来仍需探索带隐式动态记忆的端到端模型、更完整高效的 4D 世界表示、更合理的状态注入与渲染机制,以及跨区域事件交互和推理成本控制。只有当模型能够长期维护对象、事件、空间与时间之间的关系,生成式世界模型才可能真正成为可持续运行和交互的世界模拟器。