크라우드웍스, 고난도 LLM 데이터 구축 사례 공개

– VLM과 자체 개발한 검수 툴로 데이터 품질 및 효율 동시 확보

– 전문 데이터가 AI의 핵심 자산… 산업별 AI 고도화 지원 박차

AI 기술 고도화에 따라 고품질 데이터 수요가 빠르게 늘어나는 가운데, AI 테크 기업 크라우드웍스가 최근 수행한 고난도 LLM 학습 데이터 구축 사례를 공식 기업 블로그를 통해 공개했다.

이번에 공개된 주요 사례는 ▲인포그래픽 텍스트 매칭 데이터셋, ▲텍스트 기반 SQL 파인튜닝 데이터셋, ▲전문 의학지식 질의응답 데이터셋 등으로 AI 레디 데이터(AI-Ready Data)에 대한 높은 수준의 전문성과 데이터 설계 역량이 요구되는 프로젝트다. 

이러한 데이터는 단순한 텍스트 수집·라벨링·가공을 넘어서 도메인 전문 지식, 복잡한 논리 구조 분석, 텍스트와 이미지 정보 간의 의미적 일치성 확보 등이 필요하다. 이로 인해 일반 데이터 대비 단가가 20~30% 이상 높고, 숙련된 인력 확보와 체계적인 프로젝트 운영 및 검수 등 고도화된 품질 관리 역량이 필수적이다.

인포그래픽이 포함된 문서와 데이터 구축 작업 화면

대표 사례인 ‘인포그래픽과 텍스트 매칭 데이터셋’ 프로젝트는 도표·순서도·계층 구조 등 복잡한 시각 요소가 포함된 문서 이미지에서 구성 요소(컴포넌트)와 작업 단계(노드)를 식별하고, 각 요소를 설명하는 의미 단위 텍스트를 생성하는 고난도 과업이었다. 

크라우드웍스는 데이터 일관성을 확보하기 위해 VLM(Vision-Language Model)을 활용해 이미지 설명문 생성을 자동화하고, 까다로운 검수 과정을 개선하고자 JSON 시각화 툴을 개발해 데이터 품질과 효율을 모두 확보했다. 그 결과 당초 4개월로 계획된 프로젝트를 3개월 만에 성공적으로 완료하며 기술력을 입증했다.

복잡한 구조의 데이터를 검수하기 위해 자체 개발한 JSON 시각화 모델링 툴 화면

이밖에도 ▲도메인 이해를 바탕으로 한 데이터 컨설팅 역량 ▲전문 데이터 인력을 신속하게 확보할 수 있는 전문가 인증 시스템 ▲검수 자동화 도구 등을 통해 복잡도 높은 LLM 데이터 구축에 안정적으로 대응할 수 있는 체계적 역량을 확보하고 있다.

김우승 크라우드웍스 대표는 “모델 성능은 평준화되고 데이터가 모델을 차별화하는 시대가 되고 있다”며 “크라우드웍스는 고난도 데이터 구축 역량을 바탕으로 산업별 AI 고도화를 지원하고, 기업들이 진정한 데이터 경쟁력을 확보할 수 있도록 앞장서겠다”고 전했다.