컴퓨터/AI 인공지능
헬릭스 AI
핼리해성
2025. 3. 2. 20:57
헬릭스 소개
https://www.youtube.com/watch?v=Z3yQHYNXPws
https://www.figure.ai/news/helix
Helix: A Vision-Language-Action Model for Generalist Humanoid Control
Figure was founded with the ambition to change the world.
www.figure.ai
- 헬릭스는 일반화된 비전-언어-행동(VLA) 모델로, 인식, 언어 이해, 학습된 제어를 통합하여 로봇 공학의 여러 오랜 문제를 해결하는 것을 목표로 한다.
- 헬릭스는 다음과 같은 여러 가지 첫 번째를 기록한다:
- 전체 상체 제어: 헬릭스는 전체 인간형 로봇의 상체를 고속으로 제어할 수 있는 최초의 VLA이다.
- 다중 로봇 협업: 두 개의 로봇이 동시에 작동하여 이전에 본 적이 없는 물체를 사용하여 공동의 장기 조작 작업을 수행할 수 있다.
- 자연어 프롬프트: 헬릭스가 장착된 로봇은 수천 개의 새로운 가정용 물체를 자연어 지시를 따르며 집어들 수 있다.
- 단일 신경망: 헬릭스는 모든 행동을 학습하기 위해 단일 세트의 신경망 가중치를 사용하며, 이는 작업별 미세 조정 없이 이루어진다.
- 상업적 준비 완료: 헬릭스는 저전력 소비 GPU에서 완전히 작동할 수 있어 즉시 상업적 배포가 가능하다.
헬릭스의 주요 기능
- 헬릭스는 여러 가지 주요 기능을 제공하며, 이는 로봇 공학의 혁신을 나타낸다.
- 가정에서의 도전:
- 가정은 로봇 공학의 가장 큰 도전 과제이다.
- 가정 환경은 예측할 수 없는 다양한 물체로 가득 차 있으며, 로봇이 유용하게 사용되기 위해서는 지능적인 새로운 행동을 즉시 생성할 수 있어야 한다.
- 기존 로봇 기술의 한계:
- 현재 로봇 기술은 새로운 행동을 가르치는 데 많은 인간의 노력이 필요하다.
- 이는 박사 수준의 전문가 수작업 프로그래밍이나 수천 번의 시연을 요구하며, 비용이 매우 비쌀 수 있다.
- 헬릭스의 혁신:
- 헬릭스는 자연어를 통해 새로운 기술을 즉시 지정할 수 있는 능력을 제공하여 로봇의 확장성을 크게 향상시킨다.
가정에서의 로봇 공학 도전
- 가정 환경의 복잡성:
- 가정은 다양한 형태, 크기, 색상 및 질감을 가진 물체로 가득 차 있어 로봇에게 큰 도전 과제가 된다.
- 로봇이 가정에서 유용하게 사용되기 위해서는 지능적인 행동을 즉시 생성할 수 있어야 한다.
- 기존 접근 방식의 한계:
- 기존의 로봇 기술은 새로운 행동을 가르치는 데 상당한 인간의 노력이 필요하다.
- 이는 비용과 시간 측면에서 비효율적이다.
- 헬릭스의 필요성:
- 헬릭스는 이러한 문제를 해결하기 위해 설계되었으며, **비전 언어 모델(VLM)**의 지식을 로봇 행동으로 직접 변환하는 능력을 갖추고 있다.
헬릭스의 시스템 구조
- 시스템 1, 시스템 2 아키텍처:
- 헬릭스는 "시스템 1, 시스템 2" VLA 모델로, 고속의 섬세한 전체 상체 제어를 가능하게 한다.
- 두 시스템은 다음과 같은 기능을 수행한다:
- 시스템 2 (S2):
- 인터넷에서 사전 훈련된 VLM으로, 장면 이해 및 언어 이해를 담당하며, 7-9 Hz의 속도로 작동한다.
- 다양한 물체와 맥락에 대한 광범위한 일반화를 가능하게 한다.
- 시스템 1 (S1):
- 빠른 반응형 비주얼 모터 정책으로, S2가 생성한 잠재적 의미 표현을 200 Hz의 속도로 로봇 행동으로 변환한다.
- 시스템 2 (S2):
- 아키텍처의 장점:
- 각 시스템이 최적의 시간 척도로 작동할 수 있도록 하여, S2는 고수준 목표에 대해 느리게 사고하고, S1은 실시간으로 행동을 실행하고 조정할 수 있다.
모델 및 훈련 세부사항
- 데이터 수집:
- 헬릭스는 약 500시간의 고품질 다중 로봇, 다중 운영자 데이터 세트를 수집하여 다양한 원격 조작 행동을 포함한다.
- 자연어 조건의 훈련 쌍을 생성하기 위해 자동 레이블링 VLM을 사용하여 후향 지시를 생성한다.
- 아키텍처 구성:
- 헬릭스 시스템은 두 가지 주요 구성 요소로 이루어져 있다:
- S2: 7B 매개변수의 오픈 소스 VLM으로, 로봇 이미지와 상태 정보를 처리한다.
- S1: 80M 매개변수의 크로스 주의 인코더-디코더 변환기로, 저수준 제어를 담당한다.
- 헬릭스 시스템은 두 가지 주요 구성 요소로 이루어져 있다:
- 훈련 과정:
- 헬릭스는 원시 픽셀과 텍스트 명령을 연속 행동으로 매핑하는 완전한 엔드 투 엔드 훈련을 수행한다.
- 훈련 중 S1과 S2 입력 간에 시간적 오프셋을 추가하여 실제 제어 요구 사항을 반영한다.
최적화된 스트리밍 추론
- 효율적인 모델 배포:
- 헬릭스의 훈련 설계는 Figure 로봇에 대한 효율적인 모델 병렬 배포를 가능하게 한다.
- 추론 파이프라인은 S2(고수준 잠재 계획)와 S1(저수준 제어) 모델로 나뉘며, 각 모델은 전용 GPU에서 실행된다.
- 비동기 실행 모델:
- S2는 비동기 백그라운드 프로세스로 작동하며, 최신 관찰 및 자연어 명령을 소비한다.
- S1은 별도의 실시간 프로세스로 실행되며, 200Hz의 제어 루프를 유지한다.
- 피드백 루프:
- S1은 S2의 최신 잠재 벡터를 사용하여 반응 제어를 위한 더 긴밀한 피드백 루프를 생성한다.
결과 및 성과
- 정밀한 VLA 제어:
- 헬릭스는 200Hz에서 35-DoF 행동 공간을 조정하여 전체 상체를 제어한다.
- 로봇은 손의 움직임을 머리로 추적하고, 최적의 도달을 위해 몸통을 조정하며, 정밀한 손가락 제어를 유지한다.
- 제로샷 다중 로봇 협업:
- 헬릭스는 두 개의 Figure 로봇 간의 협력적 제로샷 식료품 저장 작업에서 성공적으로 작동한다.
- 로봇은 훈련 중에 본 적이 없는 새로운 식료품을 조작할 수 있으며, 자연어 프롬프트를 통해 협조한다.
미래의 가능성
- 헬릭스의 확장성:
- 헬릭스는 수천 개의 새로운 가정용 물체를 자연어로 요청하여 집어들 수 있는 능력을 갖추고 있다.
- 이는 인터넷 규모의 언어 이해와 정확한 로봇 제어 간의 간극을 메우는 중요한 발전이다.
- 향후 연구 방향:
- 헬릭스의 초기 결과는 매우 흥미롭지만, 이는 가능성의 표면을 긁는 것에 불과하다.
- 헬릭스를 1,000배로 확장할 때 어떤 일이 일어날지 기대하며, 로봇 행동의 확장에 중요한 역할을 할 것으로 예상된다.