Abstract 기존의 4 족 로봇 학습은 language interaction과 visual autonomous perception을 분리하여 학습→ 구조는 단순화되지만 시너지 효과가 떨어짐이러한 한계를 극복하기 위해서 VLA를 제안여기서는visuial information과 instruction을 tightly 하게 통합!실행가능한 action을 생성하기 위해서perception과 planning, decision-making을 효과적으로 통합함중요한 건fine-grained한 instruction과 visual perception 정보를 align 하는 것datasetQUAdruped Robot Dataset인지, 탐색, 전신조작 등의 대규모 멀티태스크 데이터셋 IntroductionQUAR-VA명..