simmediumimitationmetric · varies

Towards Fusing Point Cloud and Visual Representations for Imitation Learning

Description

Learning for manipulation requires using policies that have access to rich sensory information such as point clouds or RGB images. Point clouds efficiently capture geometric structures, making them essential for manipulation tasks in imitation learning. In contrast, RGB images provide rich texture and semantic information that can be crucial for certain tasks. Existing approaches for fusing both modalities assign 2D image features to point clouds. However, such approaches often lose global conte

Source

http://arxiv.org/abs/2502.12320v2