복잡한 인포그래픽과 텍스트를 매칭하는 AI 학습 데이터 구축 사례

use case

고객사 A는, 

국내 대표 통신사로 AI, 빅데이터, 클라우드 등 ICT 융합 기술력 기반의 사업 혁신을 추진하고 있습니다. 최근 사내 업무 효율화를 위해 AI를 전사적으로 도입하여 활용하고 있어요.

프로젝트의 시작

A사는 업무 효율화를 위해 활용하는 AI가 내부 문서를 더 잘 이해하고 요약·분석할 수 있기를 원했습니다. 그 일환으로 대규모 AI 학습 데이터를 구축했는데요. 크라우드웍스를 통해 문서 내 한글 인포그래픽 중 계층 형태의 순서도, 다이어그램 등 그래픽 요소가 포함된 이미지가 정교하게 라벨링된 데이터셋을 구축하기를 원했습니다. 예를 들면 이런 이미지죠.

본 프로젝트의 구체적인 과업은 다음과 같습니다.   

  • 라이선스 문제 없이 공개된 데이터셋을 활용하여 한글 인포그래픽 이미지 데이터 수집
  • 계층 구조가 있고 컴포넌트 간 관계 표현이 가능한 이미지 수집
  • 각 컴포넌트 및 노드 정보와 노드 간 관계에 대한 정보를 매칭하여 가공
  • 이미지를 설명할 수 있는 요약문 캡셔닝 생성

크라우드웍스를 선택한 이유

  • 데이터 수집부터 가공 작업까지 데이터 구축 전 작업의 병행이 가능해요!
  • 체계적인 검수 시스템을 통해 고품질 데이터를 확보할 수 있어요!
  • 까다로운 요구사항에도 경험이 풍부한 전문 인력을 통해 데이터 구축 설계부터 진행이 가능해요!

“이런 프로젝트는 저희도 처음이라.. 가능할까요?”

A사는 요구사항만큼이나 높은 수준의 데이터 품질을 기대했습니다. 다년간 쌓은 업계 최고 수준의 데이터 라벨링과 AI 데이터 구축의 노하우를 보유한 크라우드웍스에게도 이번은 쉽지 않은 프로젝트였는데요. 그 이유는

  • 프로젝트에 적합한 조건의, 라이선스가 해결된 데이터의 수집이 필요하고요,
  • 이미지(복잡한 구성의 인포그래픽)와 텍스트의 관계를 정의하고 연결하는 난이도가 높은 데이터 구축 작업을 원했어요. 
  • A사 역시 신규 과업으로 추진 중인 프로젝트로 유사 경험이 없어 프로젝트 진행 과정이나 방법에 대한 예상이 어렵고 불분명한 기준이나 요구사항이 있기 때문이었어요.

프로젝트 해결 과정

1) 고객이 제공한 샘플을 분석하여 데이터 구축 방안을 설계했어요. 

우리는 A사가 제공한 요구사항과 데이터 샘플을 받아 분석을 진행해서 생성형 AI를 활용한 자동화가 가능한 부분을 확인하고 자사 솔루션뿐만 아니라 오픈소스로 제공되는 여러 솔루션들을 활용해 고객맞춤형 데이터 구축 도구를 마련했어요. 데이터는 객체 간 연결선과 노드 수를 기반으로 작업 난이도 별로 분류하여 관리했어요.

2) 전문성이 확인된 인력을 투입했어요. 

이 프로젝트는 데이터의 맥락에 대한 깊은 이해를 바탕으로 적합한 전문성을 갖춘 인력의 투입이 필수적라고 판단했어요. 따라서 수학 논리 구조, 알고리즘 구조에 대한 지식이 있고 이런 구조를 생성하거나 해석할 능력을 갖췄는지와 JSON 및 객체 구조에 대해 이해할 수 있는지가 검증된 데이터 전문가를 투입하도록 했습니다. 또한 시작 전 충분한 가이드라인 교육과 사전 테스트를 통해 품질에 영향을 주는 리스크를 최소화했어요. 

3) 주기적인 샘플 데이터 검수와 피드백, 조정 작업을 진행했어요.

4개월 간의 프로젝트 진행 중에는 A사와의 정기적인 커뮤니케이션을 통해 주기적으로 샘플 데이터를 검수받고 중간 결과를 반영하여 유연하게 작업 방향을 조정했어요. 특히 단순한 이미지 라벨링 작업이 아니기 때문에 캡셔닝, 객체 맵핑, 텍스트 전사 등 다양한 작업 유형을 유기적으로 통합할 수 있는 체계적인 운영 전략을 펼쳤습니다. PM이 내부 데이터 엔지니어와 긴밀히 협업해 전반적인 작업 플로우를 시각화하고 디테일한 가이드를 마련하여 작업의 일관성과 품질을 유지할 수 있었어요.  

“다음에도 크라우드웍스와 하고 싶어요!”

프로젝트 초기에는 데이터 구조가 복잡하고 과업 자체가 생소한 분야라 A사 내부에서도 ‘이게 제대로 될 수 있을까?’ 하는 우려가 컸습니다. 하지만 프로젝트가 진행되면서 크라우드웍스의 빠르고 정확한 소통, 꼼꼼한 요구사항 분석, 그리고 상황에 맞춘 유연한 제안 덕분에 신뢰도가 점점 높아졌습니다. PM이 제안한 방향성과 운영 전략에 대해 A사도 긍정적이었고, 그 결과 데이터 품질에 대한 만족도 역시 높아졌습니다. 마지막에는 “다음 과업도 크라우드웍스와 함께하고 싶다”는 피드백을 받을 만큼 좋은 결과를 도출할 수 있었답니다.

AI 기술이 발전하고 기업이 다양한 서비스를 구축하는 만큼 데이터에 대한 니즈도 점점 까다롭고 복잡하게 변화하고 있는데요. 만약 ‘이게 과연 될까?’하는 의문을 가질만한 어려운 프로젝트를 진행하시게 된다면 크라우드웍스를 찾아주세요. 저희에게도 도전이지만 가장 효율적이고 효과적인 방법으로 문제를 함께 해결해 드리겠습니다.