simmediummanipulation-datametric · varies

Human-to-Robot Interaction: Learning from Video Demonstration for Robot Imitation

Description

Learning from Demonstration (LfD) offers a promising paradigm for robot skill acquisition. Recent approaches attempt to extract manipulation commands directly from video demonstrations, yet face two critical challenges: (1) general video captioning models prioritize global scene features over task-relevant objects, producing descriptions unsuitable for precise robotic execution, and (2) end-to-end architectures coupling visual understanding with policy learning require extensive paired datasets

Source

http://arxiv.org/abs/2602.19184v1