simmediumvision-robotmetric · varies

OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams

Description

Modern visual agents require representations that are general, causal, and physically structured to operate in real-time streaming environments. However, current vision foundation models remain fragmented, specializing narrowly in image semantic perception, offline temporal modeling, or spatial geometry. This paper introduces OmniStream, a unified streaming visual backbone that effectively perceives, reconstructs, and acts from diverse visual inputs. By incorporating causal spatiotemporal attent

Source

http://arxiv.org/abs/2603.12265v1