First pass

Words

Cartesian end-effector commands : 로봇 제어기의 개별 관절 각도를 직접 제어하는 대신, 3차원 공간에서의 툴 중심점(Tool Center Point) 위치 (X, Y, Z)와 방향(Roll, Pitch, yaw)을 기준으로 직접 이동을 명령하는 방식. 경로 추적, 원격 제어 등에서 직관적으로 실시간 제어를 가능하게 함.

Robotics policy : 로봇이 센서 데이터(입력)를 받아 어떤 행동(출력)을 할지 결정하는 알고리즘이자 제어 규칙. 수학적으로는 상태를 행동으로 매핑하는 함수 $\pi(s)=a$로 표현됨.

5C

Category : VLA 모델을 제안하여, 인터넷 규모의 Vision-Language 사전학습 지식을 로봇 제어에 직접 transfer하는 Embodies AI / Robot Learning 방법론
Context
1. LLM
  1. GPT(Radford et al.)Paper
  2. PaLM(Chowdhery et al.)Paper
2. VLM
  1. CLIP(Radford et al.)Paper
  2. Flamingo(Alayrac et al.)Paper
  3. PaLI-X(Chen et al.)Paper
3. Robotics Foundation Models
  1. RT-1(Brohan et al.)Paper
4. Embodied AI
  1. PaLM-E(Driess et al.)Paper
Correctness : RT-2는 사전학습된 VLM을 robotic trajectory 데이터와 Internet-scale vision-language task에 대해 공동 fine-tuning하고, 로봇 행동을 텍스트 토큰으로 이산화하여 자연어 토큰과 동일한 방식으로 학습하였다. 이를 통해 웹 데이터에서 학습한 의미적 지식을 로봇 제어에 전이할 수 있었으며, novel object, unseen instruction, object relation에 대한 일반화 성능이 크게 향상되었다. 또한 Chain-of-Thought prompting을 활용할 경우 다단계 semantic reasoning이 가능함을 보였다.
Contributions : 인터넷 규모의 Vision-Language 사전학습에서 얻은 의미적 지식(semantic knowledge)을 로봇 제어 정책으로 직접 전이할 수 있음을 보여줌

[Paper] RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

First pass

Words

5C

Enjoy Reading This Article?