휴머노이드 로봇 제어 파운데이션 모델

휴머노이드 제어에서는 특정 하나의 표준 용어만 쓰이기보다는, 여러 계열의 AI/제어 패러다임이 병행됩니다. 다만 업계/연구에서 자주 쓰는 핵심 용어들을 구조적으로 정리해보면 다음과 같습니다.

로봇 제어 파운데이션 모델


1) End-to-End 계열 (최근 트렌드)

(1) VLA (Vision-Language-Action)

  • 멀티모달 입력 → 행동 출력
  • 대표:
    • RT-2 (Google)
    • PaLM-E

👉 휴머노이드 적용:

  • “물건 집어”, “문 열어” 같은 고수준 명령 → 바로 행동 생성

(2) Generalist Policy / Foundation Model for Robotics

  • 하나의 모델이 여러 작업 수행
  • 대규모 데이터 기반

다른 표현:

  • Robot Foundation Model
  • Generalist Robot Policy

👉 핵심:

“하나의 모델로 다양한 태스크 처리”


(3) Behavior Cloning (BC)

  • 인간/시연 데이터를 그대로 학습
  • imitation learning

👉 특징:

  • 구현 쉬움
  • 일반화는 제한적

2) Reinforcement Learning (강화학습 계열)

(4) RL Policy / Control Policy

  • 상태 → 행동을 결정하는 정책 π(a|s)

대표 알고리즘

  • PPO (가장 많이 쓰임)
  • SAC
  • DDPG

👉 휴머노이드에서:

  • 걷기 (locomotion)
  • 균형 유지 (balance)
  • 조작 (manipulation)

(5) Hierarchical RL (HRL)

  • 고수준 + 저수준 분리

예:

  • High-level: “걸어서 문까지 이동”
  • Low-level: “각 관절 제어”

👉 휴머노이드에서 매우 중요


3) Control + Model 기반 접근

(6) MPC (Model Predictive Control)

  • 미래 상태 예측 기반 최적 제어

👉 특징:

  • 안정성 높음
  • 물리 기반

(7) Whole-Body Control (WBC)

  • 휴머노이드 핵심 용어

역할:

  • 모든 관절을 동시에 제어
  • 균형 + 접촉 + 힘 제어

👉 예:

  • 서기, 걷기, 물건 들기

4) Planning + Reasoning 계열

(8) Task and Motion Planning (TAMP)

  • 작업 계획 + 물리 움직임 결합

👉 예:

  • “컵 잡고 → 테이블로 이동 → 내려놓기”

(9) World Model

  • 환경을 내부적으로 모델링

👉 최근 트렌드:

  • latent space dynamics
  • simulation-free planning

5) 실제 시스템 구조 (중요)

휴머노이드는 보통 하나의 모델로 안 끝남:

[Language / Task Model]
        ↓
[High-level Planner]
        ↓
[Policy (RL / VLA / BC)]
        ↓
[Whole Body Controller (WBC)]
        ↓
[Actuators]

👉 즉:

AI 모델 + 전통 제어가 계층적으로 결합


6) 핵심 용어 요약 (실무에서 많이 쓰는 것)

휴머노이드 맥락에서 가장 중요한 키워드:

  • Policy (π)
  • Locomotion Policy
  • Manipulation Policy
  • Whole-Body Control (WBC)
  • MPC
  • Behavior Cloning (BC)
  • Reinforcement Learning (RL)
  • VLA / Robot Foundation Model

7) 한 줄 정리

휴머노이드 제어 AI는 특정 단일 용어가 아니라
Policy + Control + Planning을 결합한 계층형 시스템으로 부른다.