프로젝트 성공 사례#38 인삼 년근 판독 및 등급 식별을 위한 AI 학습 데이터 구축 작업기
인삼 년근 판독 및 등급 식별을 위한 AI 학습 데이터 구축 작업기
고객사 요구사항
- 메타데이터를 포함한 원시데이터 업로드 기능 제공
- 데이터 정제 및 검수 프로세스 적용
- 정제 및 가공 작업 실적 관리
- 인삼 데이터의 라벨링 가공 기능 제공
고객사 소개
고객사는 개발 및 홍보 분야의 프리랜서로 구성된 전문가 집단으로 스마트폰 앱(iOS, Android), 맥/윈도우 응용 소프트웨어, 웹 서비스, 홈페이지, 광고, 마케팅 등에 최적화된 인력을 구성하여 고객의 비즈니스 파트너로 활동하고 있습니다. 동시에 기획단계부터 출시까지 클라이언트의 사업을 수행하고 있습니다. 또한 모바일 앱 및 웹 개발, 디자인과 응용개발 마케팅 등 폭넓은 서비스 범위를 기반으로 국립보건연구원의 반응형 홈페이지 디자인 및 제작, 가뭄 교육 콘텐츠 모바일 웹 및 게임 제작 등의 프로젝트를 진행해왔습니다.
고객사에게 어떤 어려움이 있었나요?
고객사는 빠듯한 일정 내 약 24만 장의 인삼 이미지를 수집하고 가공까지 진행해야 했습니다. 별도 가공 어노테이션 툴을 개발해야 했기에 시간과 비용이 더 소요될 것으로 예상되었습니다. 이에 프로젝트 특성에 맞는 최적의 작업자를 매칭하고 프로젝트의 효율성을 향상할 수 있는 접근안이 필요하였습니다.
크라우드웍스를 선택한 이유!
- 국내 최대 크라우드워커 보유한 데이터라벨링 전문 기업
- 데이터 정확도 및 퀄리티가 또한 중요했기에 크라우드웍스의 결과데이터 정확도에 대한 신뢰
- 별도 가공 툴에 대한 개발을 진행하지 않고 크라우드웍스의 플랫폼 사용과 작업자를 제공받는 형태로 프로젝트 수행에 있어 물리적인 시간의 단축과 툴 개발 비용을 효과적으로 단축 가능
크라우드웍스 솔루션
플랫폼 구축 과정
고객사는 60도마다 촬영한 인삼 이미지를 자체 어플을 통해 전송하면 프로젝트의 소스데이터에 자동으로 업로드될 수 있도록 고객사의 어플과 크라우드웍스의 플랫폼이 연동되기를 희망했습니다. 이를 위해 크라우드웍스는 SaaS 플랫폼을 통한 정제 및 가공 환경을 제공하고 플랫폼 운영 및 관리 가이드를 제공했습니다. 또한 작업자와 검수자의 선발 과정 그리고 현재 작업 현황을 고객사가 실시간으로 모니터링할 수 있도록 진행했습니다. 그리고 작업자 및 검수자의 실적과 정산 내역을 제공했습니다.
데이터 가공 과정
고객사로부터 전달받은 데이터에는 흙이나 이물질이 묻어 있는 사진과 같이 필터링이 필요한 이미지들이 혼재되어 있었기 때문에 데이터라벨링을 위한 적합한 이미지 선별이 필수적이었습니다. 이미지 선별을 위해 먼저 수삼 년근, 등급 비율에 맞춰 분류를 진행했는데요. 이 과정에서 중복 이미지, 수삼 손상여부, 저품질 사진 여부도 고려되었습니다. 이후 데이터 학습을 위한 라벨링 작업이 진행되었습니다. 수삼의 전신, 머리, 몸통, 다리로 구간을 나누어 바운딩 박스 처리를 진행했습니다. 마지막 단계인 검수 단계에서는 데이터 품질 확보가 최우선인데요. 해당 프로젝트에서 가장 중요하게 보았던 점은 수삼의 전신, 머리, 몸통, 다리 각 부위에 대한 어노테이션이 정확히 진행되었는지에 대한 여부였습니다. 이를 위해 기준에 부합하지 않은 작업물은 과감하게 반려 및 폐기되었습니다. 반려가 된 작업물들은 재작업으로 보완 후 데이터셋으로 활용하였습니다.