谷歌DeepMind发布革命性D4RT模型,4D重建速度提升300倍

Source

品玩1月23日讯,据Google DeepMind官方消息,DeepMind近日发布了D4RT动态4D重建与追踪模型。该模型在计算机视觉领域实现了重大突破,能够以比当前最佳技术快18至300倍的速度,从普通视频中实时重建出动态变化的三维世界。

D4RT的核心创新在于采用了统一的“时空查询”架构。它首先用一个大型编码器将整段视频编码为全局场景记忆,随后通过一个通用的解码器接口,响应各种关于像素时空信息的查询。这种设计使其能一次性并行处理成千上万个查询,从而将复杂的几何重建问题转化为高效的并行搜索问题,实现速度的飞跃。

此外,该模型还能精准处理动态混乱场景,例如准确分离相机运动与物体自身运动,并对被遮挡的像素轨迹进行预测。