[Paper] RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
First pass
Words
Cartesian end-effector commands : 로봇 제어기의 개별 관절 각도를 직접 제어하는 대신, 3차원 공간에서의 툴 중심점(Tool Center Point) 위치 (X, Y, Z)와 방향(Roll, Pitch, yaw)을 기준으로 직접 이동을 명령하는 방식. 경로 추적, 원격 제어 등에서 직관적으로 실시간 제어를 가능하게 함.
Robotics policy : 로봇이 센서 데이터(입력)를 받아 어떤 행동(출력)을 할지 결정하는 알고리즘이자 제어 규칙. 수학적으로는 상태를 행동으로 매핑하는 함수 $\pi(s)=a$로 표현됨.
5C
- Category : VLA 모델을 제안하여, 인터넷 규모의 Vision-Language 사전학습 지식을 로봇 제어에 직접 transfer하는 Embodies AI / Robot Learning 방법론
- Context
- Correctness : RT-2는 사전학습된 VLM을 robotic trajectory 데이터와 Internet-scale vision-language task에 대해 공동 fine-tuning하고, 로봇 행동을 텍스트 토큰으로 이산화하여 자연어 토큰과 동일한 방식으로 학습하였다. 이를 통해 웹 데이터에서 학습한 의미적 지식을 로봇 제어에 전이할 수 있었으며, novel object, unseen instruction, object relation에 대한 일반화 성능이 크게 향상되었다. 또한 Chain-of-Thought prompting을 활용할 경우 다단계 semantic reasoning이 가능함을 보였다.
- Contributions : 인터넷 규모의 Vision-Language 사전학습에서 얻은 의미적 지식(semantic knowledge)을 로봇 제어 정책으로 직접 전이할 수 있음을 보여줌
Enjoy Reading This Article?
Here are some more articles you might like to read next: