피지컬 AI 시대 : VLA부터 월드모델까지, 로봇 지능의 새로운 진화

Nov 26, 2025

Contents

AI의 발전 흐름: 인지 AI부터 피지컬 AI까지 피지컬 AI 시대, VLA가 중요한 이유 피지컬 AI가 ‘진짜 지능’을 갖추기 위한 조건, 월드모델 범용 지능 인프라, 월드 파운데이션 모델(WFM)피지컬 AI로 집중되는 국내 AI 정책과 투자

생성형 AI가 우리의 글쓰기·이미지 제작·코딩 방식까지 바꾸며 디지털 영역의 혁신을 이끌어왔다면, 이제 AI는 그 지능을 현실 세계로 확장하고 있습니다. 로봇이 주변 환경을 이해하고, 인간의 지시를 해석하며, 스스로 행동을 수행하는 피지컬 AI(Physical AI) 시대가 본격적으로 열리고 있습니다.

이 변화의 출발점에는 VLA(Vision-Language-Action) 모델이 있습니다. 로봇이 눈으로 보고(Vision), 말의 의미를 이해하며(Language), 실제로 움직여 행동(Action)하는 전 과정을 하나의 지능 구조로 연결하는 방식입니다. 피지컬 AI가 인간처럼 적응적으로 움직이기 위해 반드시 필요한 기반이죠. 피지컬 AI 핵심 구조인 VLA와 월드모델 중심으로 AI가 어떻게 세상을 이해하고 행동하는 존재로 진화하고 있는지 함께 살펴보겠습니다.

AI의 발전 흐름: 인지 AI부터 피지컬 AI까지

AI는 단순한 데이터 인식 기술에서 시작해, 생성·추론·행동까지 수행하는 지능형 시스템으로 빠르게 진화하고 있습니다. 초기의 인지형 AI(Perception AI)는 주어진 데이터를 분류하고 인식하는 역할을 수행했으며, 이미지 인식·음성 인식과 같은 현대 머신러닝의 기초가 되었습니다. 이후 생성형 AI(Generative AI)가 등장하면서 텍스트·이미지·영상 등 다양한 콘텐츠를 새롭게 만들어내는 능력이 확장되며 산업 전반에 혁신을 이끌었습니다.

이후 에이전틱 AI(Agentic AI)가 등장해 목표를 이해하고 계획을 세우며 복잡한 작업을 자동으로 수행하는 단계로 발전했으며, 이제는 AI가 실제 물리 환경과 연결되는 물리적 AI(Physical AI) 시대로 진입하고 있습니다. 이 단계에서는 로봇과 자율 시스템이 현실에서 직접 움직이고 상호작용하며, 실질적인 행동 능력을 갖추게 됩니다.

이처럼 AI는 인지 → 생성 → 에이전트 → 물리적 행위로 이어지는 구조적 진화를 통해, 산업과 생활 전반을 변화시키는 새로운 패러다임을 만들어가고 있습니다.

인지형 AI부터 생성형 AI, 에이전틱 AI, 물리적 AI까지 이어지는 AI 발전 흐름을 단계별로 설명한 인포그래픽. 피지컬 AI 시대 도래 과정을 시각적으로 표현한 이미지

피지컬 AI 시대, VLA가 중요한 이유

기존 로봇은 ‘정해진 궤적을 반복하는 기계’에 가까웠습니다. 좌표가 조금만 달라도 작업을 못 하고, 환경 변화에 유연한 대응이 어려웠습니다. 하지만 피지컬 AI는 다릅니다. 카메라로 상황을 인식하고 언어 지시의 맥락을 이해하며 예측된 최적의 행동을 실제로 수행할 수 있어야 합니다. 이를 가능하게 하는 구조가 바로 VLA(Vision-Language-Action)입니다. VLA는 단순한 로봇 제어 모델이 아니라, 로봇에게 ‘보고-이해하고-행동하는’ 지능의 연결고리를 부여하는 핵심이 됩니다. 특히 VLA 데이터는 AI 로봇의 일반화 성능 향상, 복잡한 현실 환경 대응, 데이터 효율성 개선, 추론·계획 능력 강화 등 피지컬 AI 구현에 필수적 역할을 합니다.

VLA에 대한 자세한 내용이 궁금하다면? 해당 콘텐츠를 참고해 주세요

https://crowdworks.blog/physical-ai-vla-data/

피지컬 AI가 ‘진짜 지능’을 갖추기 위한 조건, 월드모델

로봇이 순간의 장면만 보고 반응하는 것만으로는 충분하지 않습니다. 현실 세계는 복잡하고, 상황은 빠르게 변하며, 행동의 결과는 긴 시간에 걸쳐 나타나기 때문입니다. 따라서 로봇은 실제로 움직이기 전에 스스로 이런 생각을 해야 합니다. “지금 이렇게 하면, 다음에 어떤 일이 벌어질까?”

즉, 예측·추론·계획을 할 수 있어야 피지컬 AI가 고도화될 수 있습니다. 바로 이 지점을 해결해주는 기술이 월드모델(World Model) 입니다.

세상을 이해하는 AI

월드 모델은 AI가 현실 세계의 모습과 변화를 스스로 머릿속에 그려보는 내부 시뮬레이션 시스템이라고 할 수 있습니다. 사람이 어떤 행동을 하기 전에 “이렇게 하면 이렇게 될 것 같다”라고 미리 상상해 보는 것처럼, AI 역시 주변 환경을 자체적으로 모델링해 그 안에서 수많은 가상 실험을 반복합니다. 예를 들어 로봇이 컵을 집으려 할 때도 실제로 손을 움직이기 전에 여러 시나리오를 내부에서 시뮬레이션 해보고, 그중 가장 안정적인 방식을 선택해 행동으로 옮기는 방식입니다.

월드 모델의 가장 강력한 장점 중 하나는 일반화 능력입니다. AI는 특정 환경에서 학습한 행동 패턴이나 지식을 전혀 새로운 환경에서도 성공적으로 적용할 수 있습니다. 예를 들어, 특정 공장에서 부품 조립 작업을 수행하며 숙련된 로봇이, 별도의 재교육 과정 없이 다른 공장의 생산 라인에서도 유사한 조립 작업을 유연하게 수행할 수 있게 됩니다.

월드모델(World Model)을 활용해 가상 3D 환경에서 로봇 팔이 주방에서 조작 작업을 시뮬레이션하는 장면. 월드모델을 통한 로봇의 예측·계획·행동 학습 과정을 보여주는 이미지 — 월드랩스의 월드모델 ‘마블’이 생성한 가상 3D 환경에서 로봇이 작업을 시뮬레이션하는 장면 (출처 : 월드랩스)

월드모델과 VLA 모델의 차이점

월드모델은 피지컬 AI에게 단순한 감각과 동작을 넘어 상상하고 예측하는 능력을 제공하는 두뇌의 핵심 구조이며, VLA 모델은 시각, 언어, 행동을 통합해 실제 세계에서 작동하도록 하는 실행 엔진입니다.

구분	월드모델 (World Model)	VLA 모델 (Vision-Language-Action)
목적	세계(환경)의 상태를 예측·시뮬레이션	시각·언어 정보를 이해해 행동을 결정
입력	시각 + 센서 정보 + 시간적 변화	시각 + 언어
출력	미래 영상, 환경 변화, 객체 움직임 등 세계의 미래 상태	로봇·기기의 행동(action)
강점	예측·계획·시뮬레이션 능력	지시 이해, 작업 실행
예시	Cosmos, Dreamer, Genie, FSD Occupancy Network, Ego-Exo4D, Marble	RT-2, RT-X, OpenVLA, π0, RoboCat, ALOHA, Gato

범용 지능 인프라, 월드 파운데이션 모델(WFM)

월드모델이 AI가 현실 세계가 어떻게 움직이는지를 배우고 미래에 무슨 일이 일어날지 예측하는 모델이라면, 월드 파운데이션 모델(World Foundation Model, WFM)은 월드모델을 포함해 시각·언어·물리·행동 능력을 모두 통합한 초대형 기초 모델입니다. 월드모델을 더 확장·특화한 것이 월드 파운데이션 모델입니다.

이 모델은 텍스트, 이미지, 영상, 센서 정보 등 현실에서 들어오는 모든 데이터를 종합해, 물리적 세계의 원리를 학습합니다. 그래서 단순히 장면을 분석하는 수준을 넘어, “눈 오는 밤에 차가 급정거하면 어떤 일이 일어날까?” 같은 질문에 대해 실제처럼 자연스러운 미래 장면을 영상으로 예측해 낼 수 있습니다. 엔비디아의 Cosmos 같은 WFM은 30초 뒤의 미래 영상까지 만들어내며, 로봇이나 자율주행 시스템이 상황을 이해하고 미리 계획을 세우는 데 활용됩니다.

엔비디아 Cosmos 월드 파운데이션 모델을 사용하여 로봇을 학습하는 장면 — Cosmos 월드 파운데이션 모델을 사용하여 로봇을 학습하는 장면 (출처 : 엔비디아)

월드 파운데이션 모델이 중요한 이유는, AI가 단순히 지시를 수행하는 기계를 넘어 세계의 구조를 이해하고 스스로 문제를 해결하는 ‘범용 지능 인프라’로 발전할 수 있게 해주기 때문입니다. 이는 제조·서비스·자율주행·국방·헬스케어 등 물리적 세계가 존재하는 모든 산업에서 혁신을 만들어낼 핵심 기술로 자리 잡게 될 것입니다.

피지컬 AI는 VLA 아키텍처로 세상을 보고 이해하며 행동하는 지능적 주체로 진화하고 있고, 그 뒤에서는 월드모델·월드 파운데이션 모델이라는 가상의 실험실이 물리 법칙을 내재화하고 시뮬레이션을 수행하며 고도의 숙련도를 만들어내고 있습니다.

피지컬 AI로 집중되는 국내 AI 정책과 투자

정부가 'AI 대전환'을 국가 중점 과제로 삼고 미래 제조업 혁신을 선도할 '피지컬 AI' 육성에 본격적으로 나섰습니다. AI 주요 3국 도약을 위해 한국의 제조업 강점을 앞세워 5년간 6조 원을 투입합니다. 내년 예산으로 약 4,862억 원을 책정했으며, 2030년까지 로봇, 자동차, 조선, 가전·반도체, 팩토리 등 제조업 전반에 걸친 피지컬 AI 확산을 지원합니다. 삼성, SK, 현대차, LG, 네이버 등 주요 기업들도 엔비디아 및 글로벌 AI 기술 기업과 협력해 휴머노이드, 제조로봇, 자동화 설비, 피지컬 AI 적용 연구 등에 1조 원 이상 투자를 발표했습니다.

크라우드웍스 역시 피지컬 AI 생태계를 선도하기 위해 '한국피지컬AI협회' 데이터 분과장으로서 핵심 역할을 수행하고 있는데요. 피지컬 AI 데이터 표준화, 로봇 기업과의 데이터 파이프라인 구축, VLA 기반 로봇 파운데이션 모델용 고품질 데이터 공급을 주요 과제로 추진 중입니다. 또한, 자율주행·조선·용접 등 산업 전반에 필요한 맞춤형 피지컬 AI 데이터 플랫폼을 개발하고, 실제 수요 기업과 PoC를 확장해 데이터 중심의 피지컬 AI 혁신을 가속화할 계획입니다.

Contents

인공지능 트렌드

피지컬 AI 시대 : VLA부터 월드모델까지, 로봇 지능의 새로운 진화

Nov 26, 2025

Contents

AI의 발전 흐름: 인지 AI부터 피지컬 AI까지

피지컬 AI 시대, VLA가 중요한 이유

VLA에 대한 자세한 내용이 궁금하다면? 해당 콘텐츠를 참고해 주세요

https://crowdworks.blog/physical-ai-vla-data/

피지컬 AI가 ‘진짜 지능’을 갖추기 위한 조건, 월드모델

즉, 예측·추론·계획을 할 수 있어야 피지컬 AI가 고도화될 수 있습니다. 바로 이 지점을 해결해주는 기술이 월드모델(World Model) 입니다.

세상을 이해하는 AI

월드모델과 VLA 모델의 차이점

구분	월드모델 (World Model)	VLA 모델 (Vision-Language-Action)
목적	세계(환경)의 상태를 예측·시뮬레이션	시각·언어 정보를 이해해 행동을 결정
입력	시각 + 센서 정보 + 시간적 변화	시각 + 언어
출력	미래 영상, 환경 변화, 객체 움직임 등 세계의 미래 상태	로봇·기기의 행동(action)
강점	예측·계획·시뮬레이션 능력	지시 이해, 작업 실행
예시	Cosmos, Dreamer, Genie, FSD Occupancy Network, Ego-Exo4D, Marble	RT-2, RT-X, OpenVLA, π0, RoboCat, ALOHA, Gato

범용 지능 인프라, 월드 파운데이션 모델(WFM)

피지컬 AI로 집중되는 국내 AI 정책과 투자

Contents