로봇은 어떻게 생각하고 움직일까?|피지컬 AI 시대, 로봇의 기초

피지컬 AI가 빠르게 발전하면서, AI가 물리적 세계로 확장되고 있습니다. 기존의 AI가 텍스트와 이미지 데이터를 중심으로 발전했다면, 로봇은 실제 환경을 인식하고, 상황을 판단한 뒤, 직접 행동까지 수행해야 합니다. 이 때문에 로봇 분야에서는 모델의 성능뿐만 아니라, 실제 환경에서 안정적으로 작동할 수 있도록 돕는 데이터와 학습 방식이 매우 중요합니다. 

크라우드웍스는 이러한 흐름에 맞춰 로봇 학습 데이터 구축을 주요 사업으로 확장하고 있으며, 임직원들의 전문성 강화를 위해 ‘피지컬 AI & 로보틱스’ 세미나를 운영하고 있습니다.

이번 블로그는 해당 세미나의 첫 번째 세션인 ‘로봇의 기초’를 바탕으로, 로봇의 기본 개념과 핵심 내용을 정리했습니다.


사람 VS 로봇 사고방식의 차이

로봇을 이해하기 위해 가장 먼저 짚어야 할 점은, 사람과 로봇은 세상을 이해하는 방식이 근본적으로 다르다는 것입니다. 

사람은 맥락을 읽고, 경험을 바탕으로 상황에 맞게 유연한 판단을 합니다. 이를 암묵지(tacit knowledge)라고 하는데요. 암묵지란, 말이나 수치로 명확하게 표현하기 어려운 경험 기반의 지식을 의미합니다. 반면 로봇은 암묵지를 그대로 이해하지 못합니다. 입력된 정보와 계산 결과를 기반으로 움직이기 때문에, 사람에게는 자연스러운 행동도 로봇에게는 모두 수치와 규칙으로 변환되어야 하는 거죠.

예를 들어, 누군가에게 “이 컵을 집어서 오른쪽 선반에 올려줘”라고 요청하면 어떨까요? 사람은 별도의 계산 과정 없이 이를 수행할 수 있습니다. 하지만 로봇은 이 명령을 그대로 이해하지 못합니다. ‘이 컵’, ‘오른쪽 선반’ 같은 표현은 로봇이 바로 실행할 수 있는 정보가 아니기 때문입니다. 

로봇이 실제로 받아들이는 명령은 훨씬 구체적입니다. 각 관절을 몇 도로 꺾어 움직일지, 그리퍼를 몇 mm로 벌릴지 등 모든 동작이 수치로 정의되어야 합니다. 또한 컵의 위치나 주변 환경이 조금만 달라져도 동일한 동작이 실패할 수 있어, 상황 변화에 대한 대응도 함께 고려해야 합니다.  

인간과 로봇 사고의 비교: 인간은 맥락과 경험을 사용하는 반면 로봇은 수치 계산과 공동 매개변수에 의존합니다

이처럼 사람에게는 직관적인 명령도, 로봇에게는 수치와 좌표로 변환되는 계산 과정이 필요합니다. 이 차이 때문에 로봇을 움직이는 건 생각보다 훨씬 어려운 문제가 됩니다.

이 문제를 해결하는 방법 중 하나로 역기구학(Inverse Kinematics) 같은 기술이 활용되는데요. 이는 목표 위치가 주어졌을 때, 로봇의 각 관절을 어떤 각도로 움직여야 할지를 역으로 계산하는 방식입니다. 정리하자면, 사람의 의도를 로봇이 실행할 수 있는 수치로 변환하는 역할인 거죠. 

결국 핵심은 사람의 암묵지를 어떻게 데이터로 변환하느냐에 있습니다. 이는 현재 로봇 기술이 해결해야 할 중요 과제 중 하나이기도 하죠. 

로봇이 움직이는 기본 구조

로봇 작동 흐름을 보여주는 다이어그램: 인식을 위한 센서, 의사 결정을 위한 컨트롤러, 행동을 위한 액추에이터

로봇은 크게 세 단계의 과정을 통해 움직입니다.

  • 센서(Sensor)
    사람의 눈, 귀, 피부처럼 주변 환경을 인식하는 역할을 합니다. 카메라, 라이다(LiDAR), 촉각 센서 등을 활용해 물체의 위치, 거리, 형태, 접촉 여부를 파악합니다.
  • 컨트롤러(Controller)
    센서가 수집한 정보를 바탕으로 다음 행동을 결정하는 두뇌 역할을 합니다. 과거에는 사람이 만든 규칙과 알고리즘 중심이었지만, 최근에는 AI 모델이 점점 더 많이 활용되고 있습니다. 
  • 액추에이터(Actuator)
    사람의 근육에 해당합니다. 모터, 그리퍼, 바퀴 등을 통해 컨트롤러의 결정을 실제 움직임으로 구현합니다. 

앞서 예시로 든 ‘컵을 집는 상황’으로 설명하자면, ① 센서가 컵의 위치와 주변 환경을 인식하고, ②컨트롤러가 움직임 경로와 동작 순서를 계산하면, 액추에이터가 팔을 움직여 컵을 집습니다. 이후 센서가 결과를 확인하고, 필요하면 동작을 보정합니다. 

정리하자면, 로봇은 ‘인식→판단→행동’의 과정을 반복하면서 현실 세계에서 움직입니다. 그리고 이 순환 구조가 정교해질수록 로봇은 점점 더 복잡한 작업도 수행할 수 있게 됩니다. 

시대에 따라 달라지는 로봇의 학습 방법

AI를 학습시키듯, 로봇도 스스로 판단하고 움직이기 위해서는 학습이 필요합니다. 그리고 그 학습 방식은 시대에 따라 계속 변화해 왔습니다. 

하드코딩에서 강화 학습, 모방 학습, VLA로 진화하는 로봇 학습의 타임라인
  • 하드코딩 (1980년대~)
    초기 로봇은 사람이 모든 동작 규칙을 직접 코딩하는 방식으로 제어했습니다. 
    예를 들어 ‘컵이 이 위치에 있으면 이렇게 움직여라’처럼 조건과 동작을 일일이 정의하는 방식이었죠. 이 방법은 예측 가능하고 안정적이지만, 환경이 조금만 달라져도 대응하기 어렵다는 한계가 있었습니다. 
  • 강화학습 (2010년대~)
    로봇이 시뮬레이션 환경에서 시행착오를 반복하며 스스로 배우는 방식입니다. 현실에서 수많은 실패를 반복하기 어려우니, 가상 환경에서 먼저 반복 학습을 시키는 거죠. 엔비디아의 Isaac 같은 플랫폼이 바로 여기에 해당합니다.
    다만, 시뮬레이션과 현실 사이에는 차이가 있기 때문에, 가상공간에서 완벽히 학습했더라도 현실에서도 완벽하게 작동하는 것은 아닙니다. 예를 들어, 가상 공간의 컵은 완벽한 원기둥이고 바닥은 평평하지만, 현실의 컵과 바닥은 울퉁불퉁할 수도 있기 때문이죠. 
  • 모방학습 (2020년대~)
    딥러닝의 발전과 데이터 축적이 맞물리면서 본격적으로 주목받기 시작했습니다. 사람이 직접 동작을 시연하고, 로봇이 그 데이터를 학습하는 방식인데요. 이때 시연 데이터를 수집하는 방법을 텔레오퍼레이션(Teleoperation)이라고 합니다. 사람이 VR 장갑이나 조작 장치로 동작을 시연하면, 로봇은 그 과정에서 생성된 데이터를 학습하는 방식이죠.
    실제 사람의 행동 데이터를 기반으로 한다는 점에서, 보다 자연스러운 동작 학습이 가능하다는 장점이 있습니다. 
NVIDIA Isaac을 활용한 로봇 모방학습 시뮬레이션 환경
사람의 동작을 따라 학습하는 1X Technologies 로봇의 모방학습 사례
  • VLA (최근~)
    가장 최근에는 LLM의 등장으로, 이를 로봇 제어에 접목하려는 시도가 이어지고 있습니다. 이를 VLA라고 하는데요. VLA는 로봇이 시각 정보를 인식하고(Vision), 언어 명령을 이해하며(Language), 행동으로 이어지는 과정(Action)까지를 하나의 모델 안에서 통합적으로 처리하는 방식입니다. 
    기존에는 인식, 판단, 제어가 각각 분리된 시스템으로 작동했다면, VLA는 이 과정을 하나로 연결해 보다 유연한 의사결정을 하게 합니다. 예를 들어 ‘컵을 집어줘’라는 명령을 받으면, 하나의 모델이 주변 환경을 인식하고 적절한 행동을 동시에 결정해 실행까지 이어지는 거죠.

    정리하자면, VLA는 ‘언어 명령을 기반으로 스스로 판단하고 행동하는 방식’에 가깝습니다. 아직 연구가 활발히 진행 중이지만, 현재 피지컬 AI 분야에서 가장 주목 받는 학습 방식 중 하나입니다.
언어 명령을 기반으로 실제 환경에서 작업을 수행하는 VLA 방식 로봇 (Figure AI)

데이터가 로봇의 성능을 결정한다

로봇을 가르치는 방식이 발전할수록, 필요한 데이터의 양과 질도 함께 높아지고 있습니다. 결국 피지컬 AI의 성능은 얼마나 다양한 상황을 반영한 데이터를 확보하고, 이를 얼마나 정교하게 정제하느냐에 달려 있습니다.

로봇 데이터 구축은 단순한 수집을 넘어, 전문적인 가공과 정제 역량이 요구됩니다. 언어·이미지 중심 데이터만으로는 부족하고, 로봇이 시각과 공간 등 물리적 환경을 이해하고 학습할 수 있는 데이터가 필요하기 때문입니다. 


이번 1회차 세미나에서는 ‘로봇의 기본 구조와 학습 방식의 변화’를 중심으로 살펴봤습니다. 

로봇이 실제 환경에서 작동하기 위해서는 인식-판단-행동을 유기적으로 연결하는 구조와 이를 뒷받침하는 데이터가 핵심이라는 점을 확인할 수 있었습니다. 

다음 회차에서는 피지컬 AI의 개념과 산업적 흐름에 대해 살펴볼 예정입니다. 앞으로도 피지컬 AI의 기초부터 실제 산업 현장의 적용 사례까지, 관련 산업 전반의 인사이트를 지속적으로 공유해 나가겠습니다.