크라우드웍스, 방송영상 AI 학습용 데이터 구축 사업 수주
– MBC와 컨소시엄 구성해 수주, 약 5,000시간 규모의 AI 학습용 데이터 구축 예정
– 한국적 콘텐츠의 고유 특징이 반영된 데이터셋과 영상 맥락 이해 데이터셋 구축

AI 테크 기업 크라우드웍스가 과학기술정보통신부(이하 과기부)와 한국전파진흥협회가 추진하는 ‘방송영상 AI 학습용 데이터 구축 사업’을 수주했다고 12일 밝혔다.
이번 사업은 방송영상 특화 AI 모델 개발을 위해 국내 방송영상 원본을 기반으로 고품질의 AI 학습용 데이터를 구축하고 검증하는 것이 목표다. 과기부와 한국전파진흥협회는 이번 사업에서 총 4개의 컨소시엄을 선정해, 각각 48억3000만 원씩 총 193억2000만 원을 지원한다.
크라우드웍스는 MBC를 주축으로 iMBC, 데이터메이커, LG경영개발원 AI연구원 등과 컨소시엄을 구성해 총 5,000 시간 규모의 AI 학습용 데이터셋을 구축할 예정이다.
이번 사업에서 크라우드웍스는 한국 문화와 시대 특성을 반영한 방송 영상 이해 데이터셋 구축에 앞장서며 AI가 영상의 맥락을 정확히 이해할 수 있도록 데이터를 설계하고 가공하는 역할을 맡는다.
구체적으로는 영상 내 주요 객체, 행동, 장면 등 복합 요소를 포함한 다중 라벨링을 설계해 시청각 기반의 의미 추론이 가능하도록 데이터셋을 구축한다. 이와 같이 영상, 이미지, 자연어 등 다양한 정보를 복합적으로 구성하는 멀티 모달 영상 맥락 이해 데이터셋 구축을 통해 AI가 영상의 내용을 정확히 파악하고 핵심 장면을 자동 추출할 수 있도록 지원할 계획이다.
크라우드웍스는 다양한 산업 분야에서 축적한 데이터 설계·가공·구축 노하우와 체계적인 품질관리 시스템을 바탕으로, 한국 사회의 언어·문화·공간적 특성은 물론 정서적 맥락까지 정교하게 반영한 고품질 멀티모달 데이터셋을 구축한다. 이번 사업을 통해 멀티모달 AI 데이터 구축 분야에서의 선도적 기술력과 실행력을 입증하고, 다양한 산업 내 멀티모달 데이터를 활용한 AI 개발 수요에 선제적으로 대응하며 사업 기회를 지속 확대해 나갈 계획이다.
김우승 크라우드웍스 대표는 “영상 데이터는 다양한 객체와 복잡한 맥락이 뒤섞여 있어 AI 학습을 위한 데이터 가공을 위해 매우 높은 수준의 역량을 요구한다””라며 “이번 사업을 통해 국내 방송영상 콘텐츠의 가치와 활용 가능성을 높이는 데 기여하겠다”고 말했다.