2026년 6월 8일 인공지능 트렌드

AI는 똑똑한데, 로봇은 왜 아직 서툴까?｜피지컬 AI 데이터 확보가 어려운 이유

파란 배경 위에 ‘AI는 똑똑한데, 로봇은 왜 아직도 서툴까?’라는 제목과 머리를 긁적이는 로봇 일러스트가 배치된 피지컬 AI 콘텐츠 썸네일

📌 이번 글에서 다루는 내용

로봇 행동 데이터가 부족한 이유
현실 세계에서 로봇에게 필요한 데이터
촬영 시점(Ego/Exo)에 따라 달라지는 데이터
피지컬 AI 데이터를 수집하고 설계하는 방식

챗GPT는 복잡한 문서를 요약하고, 이미지를 만들고, 코딩까지 해냅니다. AI가 이만큼 발전했다면 로봇도 쉽게 움직일 것 같지만, 현실은 다릅니다. ‘탁자 위에 있는 컵을 집어서 싱크대에 놓아줘’ 라는 간단한 명령조차 어려워 하죠. 로봇이 아직 서툰 이유는, 학습할 수 있는 행동 데이터(Behavioral Data) 가 부족하기 때문인데요.

이번 글에서는 사내 세미나 내용을 바탕으로, 피지컬 AI가 마주한 데이터 병목 문제를 살펴보겠습니다.

1. LLM VS 로봇(디지털 데이터와 로봇 데이터의 차이)

챗GPT와 같은 LLM이 빠르게 발전할 수 있었던 이유 중 하나는 학습에 활용할 수 있는 데이터가 많았기 때문입니다. 인터넷에는 사람들이 수십 년간 쌓아온 뉴스, 논문, SNS, 책 등 방대한 양의 ‘디지털 자산’이 축적되어 있는데요. LLM은 이미 많이 구축되어 있는 데이터를 학습하며 언어를 이해하고 생성하는 능력을 키워왔습니다.

하지만 로봇이 마주한 현실 세계는 다릅니다. 로봇에게 ‘컵 집는 동작’ 하나를 가르치려면 카메라에 담긴 실시간 시각 정보, 관절 움직임, 힘의 세기, 물체와의 접촉, 성공 여부까지 함께 기록해야 합니다. 즉, 인터넷에서 쉽게 가져올 수 있는 데이터가 아니라, 실제 로봇을 직접 움직이며 데이터를 새로 만들어야 하는 거죠.

아래 자료에서 볼 수 있듯 로봇 행동 데이터는 텍스트나 영상 데이터에 비해 매우 부족한 상황이며, 이 데이터 격차가 피지컬 AI의 빠른 발전을 어렵게 하는 이유 중 하나입니다.

데이터 유형	규모	데이터의 특성
인터넷 텍스트	약 300조 토큰	수십 년간 축적된 인류의 지식 자산
인터넷 영상	약 10억 시간	유튜브 등 디지털 플랫폼에 존재하는 시각 자료
전 세계 로봇 조작 데이터	약 30만 시간	실제 로봇을 구동해 수집한 행동 궤적

내용 출처: Bessemer Venture Partners, “Bessemer Predicts: Robotics and physical AI”, April 2026

2.로봇에게 현실 세계는 왜 어려울까?

현실 세계에서는 같은 ‘컵 집기’ 동작이라도 조명, 위치, 주변 사람의 움직임에 따라 매번 다른 상황이 됩니다. 사람에게는 사소한 변화처럼 보이지만, 로봇에게는 모두 새로운 변수가 되죠.

💡 로봇을 당황하게 만드는 변수

• 오전에 햇빛이 들어와 그림자가 생긴다
• 컵이 어제와 0.5cm 다른 위치에 있다
• 컵 안에 물이 차 있어 무게가 다르다
• 누군가 갑자기 손을 뻗는다
• 바닥이 약간 기울어져 있다

중요한 건 실패 이후의 행동입니다.

로봇이 컵을 집으려다 놓쳤다고 가정해볼까요? 사람이라면 자연스럽게 다시 집으려 하겠지만, 로봇이 이런 상황을 학습하지 못했다면 행동을 멈추거나, 똑같은 실패를 무한 반복하는 오류를 저지르게 됩니다. 이때 필요한 게 복구 데이터(Recovery Data)입니다. 실패한 상태에서 다시 행동을 이어가는 과정을 담은 데이터인데요. 현실 세계에는 늘 변수로 가득 차 있기 때문에, 로봇 학습에는 성공한 행동뿐만 아니라 실패를 극복하는 복구 데이터가 함께 필요합니다.

컨베이어 벨트가 있는 물류 작업 공간에서 휴머노이드 로봇이 여러 소포 중 하나를 집어 이동시키는 모습

이미지 출처: Figure 공식 유튜브 – Scaling Helix – Logistics

피규어 AI의 ‘Scaling Helix – Logistics’ 사례에서 비슷한 맥락을 확인할 수 있었습니다. 물류 현장의 소포는 패키지의 크기, 형태, 무게, 라벨 방향이 제각각입니다. 피규어 AI는 로봇이 이 같은 변수에 대응할 수 있도록, 사람의 시연 데이터를 정제할 때 작업자가 실수를 바로잡고 작업을 완수하는 장면을 의도적으로 포함시켰다고 하죠. 로봇에게 실패 이후의 행동을 학습할 수 있도록 한 것입니다.

3. 피지컬 AI는 어떤 데이터를 수집해야 할까?

기존에는 로봇의 움직임과 주변 환경을 가능한 많이 기록하는 방식이 주로 활용됐습니다. 하지만 정보의 양만 늘린다고 해서 다 좋은 학습 데이터가 되는 것은 아닙니다. 정밀 조작에는 손과 물체의 접촉 정보가 중요하고, 이동이나 서빙처럼 공간 이해가 필요한 작업에는 주변 환경과 물체 간 관계가 더 중요할 수 있죠.

이 때문에 최근에는 작업 목적에 맞춘 데이터 설계가 핵심 경쟁력으로 떠오르고 있는데요. 특히 주변 환경을 인식하는 시각데이터의 경우, 어떤 시점에서 촬영하느냐에 따라 데이터의 가치가 달라집니다.

시점	설명	담기는 정보	계
Ego-centric (1인칭)	로봇이나 작업자의 시선에서 수집한 데이터	손과 물체의 접촉 정보 및 정밀 조작 과정 기록	전체 공간의 맥락을 파악하기 어려움
Exo-centric (3인칭)	외부 고정 카메라로 작업 공간 전체를 촬영한 데이터	장면 전체 구조, 물체 간 관계, 이동 경로	손끝의 접촉이나 미세 조작 정보가 부족할 수 있음
Ego+Exo 동시 수집	1인칭과 3인칭 데이터를 함께 수집하는 방식	정밀 조작 정보와 공간 맥락을 동시에 확보	데이터 수집 비용과 운영 복잡도 증가

최근 주목받는 Ego-centric 데이터

최근 업계에서 주목받는 방식 중 하나는 Ego-centric(1인칭) 데이터입니다. 고프로(GoPro)나 스마트 글래스를 착용한 작업자의 시선을 그대로 기록하는 방식인데요. 멀리서 촬영한 영상만으로는 손가락이 물체에 닿는 미세한 각도나 조작 순서를 파악하기 어렵습니다. 반면 Ego-centric 데이터는 작업자의 시선과 손의 움직임을 밀착 기록하기 때문에, 정밀 조작에 필요한 행동 정보를 더 자세하게 담을 수 있습니다. 참고로, 피규어 AI는 주거공간 속 사람의 행동데이터 10만 개를 모두 Ego-centric로 수집했는데요. 별도의 로봇 시연 없이도 자연어 명령을 수행하는 데 성공했다고 하죠.

최근에는 Ego-centric 데이터와 Exo-centric 데이터를 함께 수집하는 방식도 늘어나고 있습니다. 작업 목적에 따라 필요한 정보가 다르기 때문에, 필요한 시점을 선택하고 조합하는 추세입니다.

가정집을 배경으로 1인칭 시점에서 설거지하는 장면과 청소기를 미는 장면이 2분할로 배치된 이미지

생성형 이미지

4. 피지컬 AI 데이터는 어떤 방식으로 만들어질까?

데이터의 시점을 정했다면, 그 다음은 ‘어떤 환경에서 데이터를 수집할지’ 결정해야 합니다. 수집 경로는 크게 두 가지로 나뉩니다.

수집 방식	개요	장점	한계
텔레오퍼레이션 (Teleoperation)	사람이 VR/XR 장비로 로봇을 직접 원격 조작하여 수집	인간의 의도와 조작 흐름이 반영된 고품질 데이터 확보	비용과 인력이 많이 들고, 대규모 수집이 어려움
시뮬레이션 (Simulation)	가상 환경에서 다양한 작업 상황 및 데이터 생성	로봇 없이도 다양한 환경과 시나리오를 빠르게 구성	가상과 현실의 차이로 인해 실적용 시 오작동 발생 가능

시뮬레이션은 대규모 데이터를 빠르게 만들 수 있다는 장점이 있지만, 가상 세계와 현실이 100% 일치할 수는 없습니다. 그래서 가상공간에서는 완벽했던 로봇 모델이 실제 환경에서는 오작동을 일으키는 Sim-to-Real Gap 현상이 나타나기도 합니다. 이 차이를 줄이기 위해 시뮬레이션 데이터로 대량의 학습을 진행한 뒤, 실제 로봇 데이터로 성능을 보완하는 방식이 활용되고 있습니다. 결국 성공적인 피지컬 AI 모델을 만들려면, 앞서 살펴본 촬영 시점(Ego/Exo)과 수집 방식을 로봇의 작업 목적에 맞게 조합해야 합니다.

목적에 따라 달라지는 데이터 수집 전략

결국 피지컬 AI 데이터는 ‘로봇에게 어떤 작업을 맡길 것인가’에 따라 수집 전략을 다르게 가져가야 합니다.

🔎 예시
• 손가락을 활용한 부품 조립 등 정밀 작업 → Ego-centric 데이터 중심 설계
• 컨베이어 벨트 물품 이송 작업 → Ego-centric, Exo-centric 동시 수집
• 혼잡한 식당 내 서빙 작업 → Exo-centric과 시뮬레이션 혼합 활용
• 예측 불가능한 환경의 고속 학습 → 시뮬레이션으로 대규모 데이터 학습 후 실물 데이터로 보정

크라우드웍스는 오랜 기간 쌓아온 데이터 구축 및 품질 관리 노하우를 바탕으로, 작업 목적에 맞는 최적화된 피지컬 AI 데이터 설계를 지원합니다. 현재 사내에 도입된 휴머노이드 로봇 Unitree G1을 활용해 피지컬AI 데이터 플랫폼을 고도화 하고 있으며, Ego/Exo 기반 수집 파이프라인과 철저한 검수 체계를 통해 고품질의 행동 데이터를 제공합니다.

로봇 데이터를 어떻게 수집하고 설계해야 할지 고민이라면, 크라우드웍스의 피지컬 AI 데이터 플랫폼과 함께 해답을 찾아보세요.

피지컬 AI 데이터 문의하기

📚 추천 콘텐츠