simmediumroboticsmetric · varies

FocusVLA: Focused Visual Utilization for Vision-Language-Action Models

Description

Vision-Language-Action (VLA) models improve action generation by conditioning policies on rich vision-language information. However, current auto-regressive policies are constrained by three bottlenecks: (1) architectural bias drives models to overlook visual details, (2) an excessive number of visual tokens makes attention difficult to focus on the correct regions, and (3) task-irrelevant visual information introduces substantial noise - together severely impairing the quality of action. In thi

Source

http://arxiv.org/abs/2603.28740v1