움직이는 AI의 시대 : 피지컬 AI 데이터가 60조 달러 시장의 핵심인 이유

움직이는 AI 시대를 상징하는 피지컬 AI 콘셉트 이미지. 로봇팔, 자율주행차, 드론 등 실제 환경에서 작동하는 AI 기술과 VLA(Vision-Language-Action) 데이터의 중요성을 표현한 그래픽

움직이는 AI의 시대가 온다

엔비디아 젠슨 황 CEO는 ‘CES 2025’에서 AI 기술의 발전 단계를 네 가지로 제시하며, 그 중 피지컬 AI(Physical AI)를 AI 패러다임의 종착지이자 산업 혁신의 핵심 축으로 강조했습니다. AI가 텍스트를 생성하고 이미지를 이해하던 시대를 넘어, 이제는 직접 행동하는 인공지능, 즉 피지컬 AI의 시대로 접어든 것입니다. 

피지컬 AI는 로봇, 자율주행차, 드론, 제조 자동화 시스템처럼 실제 물리적 환경에서 작동하는 AI를 말합니다. 단순한 로봇과 AI의 결합을 넘어, 시각(Vision), 언어(Language), 행동(Action)을 하나의 모델로 통합한 VLA(Vision-Language-Action) 모델에 기반합니다. 

모건 스탠리는 휴머노이드 100 보고서에서 피지컬 AI 시장이 60조 달러(약 8경 4,180조 원) 규모에 달할 것으로 예측했고, 2035년까지 산업용 로봇 시장은 약 5,420조 원에 이를 것으로 전망했습니다. 

CES 2025에서 젠슨 황 엔비디아 CEO가 발표한 AI 발전 단계 그래프. Perception AI, Generative AI, Agentic AI, Physical AI로 이어지는 인공지능 진화 과정을 설명하는 장면.

피지컬 AI의 핵심: VLA 데이터

피지컬 AI를 학습시키는 데 핵심적인 역할을 하는 것이 바로 VLA(Vision-Language-Action) 데이터입니다. 비전(Vision)으로 카메라를 통해 인식하고, 언어(Language)로 판단하며, 행동(Action)으로 정밀하게 움직이는 방식으로, 사람이 보고 생각하고 행동하는 과정과 동일합니다. 기존의 규칙 기반(Rule-based) 시스템이 미리 정해진 조건에 따라 동작했다면, VLA 모델은 대규모 언어 모델(LLM)을 기반으로 데이터를 학습해 상식과 논리를 통해 스스로 판단하고 행동하는 지능형 구조로 발전했습니다.

모델 종류 입력 출력 예시 주요 특징
LLM텍스트텍스트GPT-4o, Claude 3, Gemini 1.5, LLaMA 3, Mistral, T5, Gemma언어 이해·생성 중심
VLM이미지 (+텍스트)텍스트 CLIP, BLIP-2, Flamingo, PaLI-X, PaLM-E, PaliGemma, Kosmos-2, LLaVA멀티모달 인식 (시각+언어 결합)
VLA 이미지 + 텍스트 + 로봇 상태 로봇 행동RT-2, RT-X, OpenVLA, π0, RoboCat, ALOHA, Gato인식–판단–행동 통합형, 실제 물리적 상호작용 가능

VLA 데이터가 중요한 이유

1) AI 로봇의 일반화 성능 향상

AI 로봇에게 가장 중요한 능력 중 하나는 ‘일반화 성능’입니다. 이는 학습하지 않은 새로운 환경이나 처음 보는 사물에서도 정확히 인식하고 올바르게 행동하는 능력을 말하는데요. 예를 들어, 학습할 때는 파란 컵만 봤더라도 실제 현장에서는 빨간 컵이나 투명한 컵도 ‘컵’으로 인식하고 똑같이 들어 올릴 수 있다면 일반화 성능이 뛰어난 것입니다. VLA 데이터로 학습한 로봇은 컵의 색이나 위치가 달라도 “컵을 들어 올려”라는 명령을 이해하고 실행할 수 있습니다.

2) 현실 세계의 복잡성 대응

로봇이 진짜로 사람과 함께 일하거나 일상 속에서 작동하려면, 실험실처럼 통제된 공간이 아니라 예측하기 어려운 현실 환경에서 움직일 수 있어야 합니다. 하지만 현실 세계는 끊임없이 변합니다. 조명이 바뀌거나, 물체가 다른 각도에 놓이거나, 재질이 달라 반사가 생기기도 하고, 사람이나 다른 물체가 움직이면서 시야가 가려질 수도 있습니다. 또한 같은 “컵”이라도 크기·색상·질감이 모두 다르기 때문에, 로봇은 단순히 ‘이미지’를 외워서는 이런 상황을 제대로 처리할 수 없습니다. VLA 데이터는 이러한 물리적 변화 속에서 ‘무엇을 보고, 어떻게 행동할지’를 스스로 판단하도록 학습시킵니다. 이를 통해 로봇은 예측하기 어려운 상황에서도 안정적으로 인식하고 반응할 수 있습니다.

3) 데이터 효율성 개선

기존의 로봇 학습은 ‘행동 데이터를 수집하는 과정’이 매우 비효율적이었습니다. 로봇이 어떤 행동을 배우려면, 사람이 직접 시연하거나 센서를 통해 수천 번의 움직임 데이터를 기록해야 했죠. 이는 비용과 시간이 많이 들고, 환경이 바뀔 때마다 데이터를 새로 수집해야 하는 한계가 있었습니다. 하지만 VLA 모델은 기존의 이미지-텍스트 데이터를 함께 활용해 명시적인 ‘행동 라벨(예: 손을 든다, 물체를 잡는다)’이 없어도 비디오나 관찰 데이터를 통해 스스로 학습할 수 있습니다. 그 결과 데이터 구축 비용은 줄고, 학습 효율은 크게 향상됩니다.

4) 추론 및 계획 능력 강화

기존의 로봇 모델은 대부분 “지금 당장 해야 할 행동”만 예측합니다. 예를 들어, 컵을 잡는 과제라면 단순히 “팔을 뻗는다 → 손을 쥔다” 수준에서 끝났습니다. 하지만 실제 환경에서 로봇은 더 복잡한 문제를 해결해야 합니다. 컵을 들어서 옮기고, 그다음에 놓을 위치를 판단하고, 주변 장애물을 피해야 하죠. VLA 데이터는 이러한 ‘행동의 맥락과 순서’를 이해하는 추론 기반 학습을 가능하게 해 단순히 ‘다음 행동’뿐 아니라 ‘다음에 일어날 상황’을 예측할 수 있습니다. 

글로벌 기업들의 VLA 모델 개발

최근 글로벌 AI 기업들은 피지컬 AI 상용화가 본격화 되며 VLA 모델 개발에 속도를 내고 있습니다.

  • 구글 딥마인드 ‘RT-2(Robotic Transformer 2)’ : 비전-언어 모델의 일반화 능력을 로봇 제어에 적용한 모델로, 웹과 로보틱스 데이터를 학습해 로봇 행동으로 직접 전환합니다. 현재 상황에 반응하는 것을 넘어 행동 결과를 예측하고 최적의 행동 시퀀스를 계획할 수 있습니다.
  • 엔비디아  ‘GR00T N1’ : 2025년 초 발표된 휴머노이드 로봇용 VLA 모델로, 고빈도 연속 동작 제어에 특화되어 있습니다. 특정 로봇이 아닌 다양한 형태의 로봇에 적용 가능한 범용성을 지향합니다.
  • 테슬라 ‘Optimus’ : 테슬라의 FSD(Full Self-Driving) 신경망 구조를 확장해 로봇의 시각 인식, 언어 명령 이해, 행동 제어를 통합 학습하도록 설계되었습니다. 이를 통해 로봇은 단순 반복 동작을 넘어 주변 환경을 스스로 인식하고, 언어로 주어진 명령을 상황에 맞게 해석하여 행동 시퀀스를 계획·수행할 수 있습니다.
  • Figure AI ‘Helix’ : 휴머노이드 로봇에 탑재된 VLA 모델로, 상체·손가락·움직임이 복잡한 로봇 팔 등 다관절 휴머노이드 동작을 언어 명령으로 수행할 수 있도록 설계되었습니다.

하지만 그 중요성만큼이나, VLA 데이터를 구축하는 과정에는 여전히 많은 어려움이 따릅니다.

피지컬 AI 데이터 구축을 가로막는 4가지 난제

1) 데이터 수집의 높은 난이도

일반적인 이미지나 텍스트 데이터와 달리, VLA 데이터는 실제 로봇을 작동시키면서 수집해야 합니다. 각 작업마다 수백에서 수천 번의 시연(demonstration)이 필요하며, 이를 위해서는 로봇 하드웨어, 센서 장비, 전문 운영 인력이 모두 갖춰져야 합니다. 

특히 고품질 VLA 데이터를 얻기 위해서는 텔레오퍼레이션(Teleoperation) 방식의 데이터 수집이 필수적인데요. 텔레오퍼레이션은 숙련된 작업자가 원격으로 로봇을 정밀하게 조작하며 작업을 수행하는 방식으로, 로봇이 학습해야 할 ‘올바른 행동’의 기준을 만드는 과정입니다. 하지만 이는 전문 장비(햅틱 디바이스, VR 컨트롤러 등)와 숙련된 오퍼레이터가 필요하며, 한 작업을 수집하는 데 많은 시간과 비용이 소요됩니다.

Trossen Robotics의 알로하 로봇. 사람의 손으로 원격 조종되는 로봇 팔의 움직임을 시연하고 있는 장면

2) 표준화의 부재 

로봇의 종류, 센서의 사양, 환경 설정, 데이터 포맷 등이 연구팀이나 기업마다 제각각입니다. 이는 데이터의 재사용성과 범용성을 크게 떨어뜨리며, 한 환경에서 수집한 데이터를 다른 로봇이나 환경에 적용하기 어렵게 만듭니다.

3) 멀티모달 데이터 동기화의 어려움

VLA 데이터는 시각, 언어, 행동이라는 세 가지 모달리티가 정확히 동기화되어야 하며, 노이즈나 오류가 있을 경우 AI가 잘못된 행동 패턴을 학습할 수 있습니다. 특히 안전이 중요한 제조나 의료 분야에서는 더욱 엄격한 검증이 필요합니다.

4) 고품질 인프라 및 실증 환경 필요

데이터 생성 및 검증, 실사용 시험을 위하여 특수 인프라(로봇 실증 단지, 전용 데이터센터, 시뮬레이터 등)가 요구되며, 구축 비용과 시간이 대단히 많이 듭니다.​ 국내외 테크 기업·기관들도 데이터 구축·운용을 위한 인프라 확보에 막대한 투자를 집행하고 있습니다.

피지컬 AI 데이터를 확보하기 위한 과제

이러한 난제들을 해결하기 위해 실제 인간 시연 데이터와 시뮬레이션 데이터를 결합하여 방대한 학습 자원을 효율적으로 확보하는 것이 중요합니다. 또한, 물리 특성을 구현한 디지털 시험장(Digital Proving Ground, DPG)을 구축하는 것이 필요합니다. 

이에 정부는 피지컬 AI를 미래 성장 동력을 책임질 핵심 전략 산업으로 규정하고, ‘피지컬 AI 1등 국가’ 육성 의지를 명확히 했습니다. 2026년 예산안에서 인공지능 분야에 10조 원을 편성했으며, 그중 피지컬 AI 중점 사업에 5,000억 원을 신규 배정했습니다. 향후 5년간 총 6조 원 규모의 투자가 예정되어 있습니다.

엔비디아 GPU 데이터센터와 한국 지도 일러스트. 엔비디아가 한국 정부 및 주요 기업과 협력해 블랙웰 GPU를 공급하며 피지컬 AI 인프라를 구축하는 모습을 상징.

이와 함께 글로벌 기술 기업도 한국의 피지컬 AI 생태계에 주목하고 있는데요. 최근 엔비디아는 한국 정부와 삼성전자, SK그룹, 현대자동차그룹, 네이버클라우드에 자사 최신 GPU ‘블랙웰(Blackwell)’을 포함해 총 26만 장의 GPU 공급 계약을 체결했습니다. 이들 기업은 해당 인프라를 바탕으로 피지컬 AI 기술 개발에 투자를 확대할 계획이며, 특히 네이버는 연간 1조 원 이상을 투자하겠다는 의지를 밝혔습니다. 

이처럼 정부와 주요 기업의 대규모 투자가 맞물리면서, 국내 제조업의 AI 전환과 함께 한국형 피지컬 AI 생태계가 본격적으로 성장할 것이라는 기대가 커지고 있습니다.

크라우드웍스도 피지컬 AI 생태계를 선도하기 위해 언어·이미지 중심 데이터를 넘어, 로봇이 시각과 공간 등 물리적 환경을 이해하고 학습할 수 있는 ‘피지컬 AI 데이터 파이프라인’ 을 구축하고 있습니다. 특히 마음AI, 로보티즈 등 주요 로봇·피지컬 AI 기업들과 협력해 VLA 모델 데이터 구축을 진행하며, 피지컬 AI 시대를 이끌 핵심 데이터 인프라 기업으로서의 역할을 강화하고 있습니다.