프로젝트 성공 사례#33 방역/방범 데이터셋 수집 및 가공 프로젝트 작업기
방역/방범 데이터셋 수집 및 가공 프로젝트 작업기
인공지능 로봇 고도화를 위한 영상 데이터 수집 및 가공 작업
고객사 요구사항
- AI 서비스 로봇의 인물 추종 시나리오를 연출 후 촬영 요청
- 다 각도에서 촬영된 영상의 등장인물 별 조건에 따라 Tracking ID 부여 요청
- 현장 영상에서 특정 객체에 대한 라벨링 작업 요청
고객사에게 어떤 어려움이 있었나요?
고객사는 다양한 환경과 장소에서 AI 서비스 로봇의 시점에서 영상을 확보하는데 어려움이 있었습니다. 특히 장소확보, 초상권, 시나리오 연출 등의 문제가 작업에 걸림돌이었습니다. 각 카메라에서 촬영된 영상에 대한 객체 트래킹은 구현 가능하나, 여러 카메라(다각도)로 촬영할 경우 동일 객체 대한 트래킹은 불가능했습니다. 따라서 AI 서비스 로봇 시스템의 고도화 작업을 위한 학습 데이터 구축 필요성을 느꼈습니다.
크라우드웍스를 선택한 이유!
- 데이터 수집부터 가공까지 전 작업 병행 가능
- 체계적인 장소 및 인원 섭외를 통해단기간 내 효율적으로 높은 퀄리티의 데이터 수집 가능
- 데이터의 필요성에 대해 이해하고, 더 나은 학습데이터를 확보하기 위해 다양한 의견 제시 및 반영
- 타부서의 추천(데이터퀄리티, 운영 노하우, 커뮤니케이션, 등)으로 크라우드웍스를 접하게 됨
크라우드웍스 솔루션
데이터 수집
다수의 데이터 수집 및 가공 경험이 있는 크라우드웍스는 고객사의 요청에 따라 해당 프로젝트에 최적화된 장소를 섭외하기 위해 병원, 오피스 빌딩, 호텔 등 11개의 장소를 섭외했습니다. 또한 시나리오를 연출 및 연기할 연령대, 성별, 착용 복장 등 상세 조건에 부합하는 피촬영 작업자를 모집했는데요. 크라우드웍스가 보유한 48만명의 작업자풀 덕분에 손쉽게 모집이 가능했습니다. AI 서비스 로봇의 높이에서 촬영을 진행했고 섭외된 장소에서 다각도로 영상을 촬영하며 데이터를 수집했습니다.
데이터 가공
프로젝트를 진행하며 몇 가지 해결해야하는 부분이 있었습니다. 먼저 유사한 이미지와 객체의 중복을 방지하는 것이었습니다. 그리고 더 많은 데이터를 학습하고자 이미지 별 등장 인물 수를 계산하여 특정 구간에 대해 더 많은 이미지를 추출하는 것이었는데요. 이러한 부분들은 ML모델을 활용해 중복되는 이미지를 제외하고 움직임이 많은 이미지를 제외하여 학습 효율성을 높이면서 원하는 이미지를 추출할 수 있었습니다. 또한 추출된 이미지 내 인물에 대해 바운딩박스 라벨링 및 ID 태깅 조건에 충족되게 ID 부여 작업을 진행했습니다. 여러 영상 파일의 등장 인물을 인지하여 동일인에 대해 같은 ID를 부여하는 것은 처음 진행하다 보니 이 과정에서 퀄리티 및 일관성을 위해 초기 프로세스 운영에 많은 리소스가 투입되었습니다.
담당 PM 후기
해당 프로젝트는 수집을 위해 도메인 별 촬영 장소와 장소에 어울리는 역할을 할 연기자 섭외가 필요했으며, 가공에서의 원활한 라벨링을 위하여 영상 수집(촬영) 단계에서 환경 요소를 완전히 통제하는 것이 중요했습니다. 이 과정에서 촬영 장소와 적합한 연기자 섭외에 많은 고민이 있었는데요. 크라우드웍스가 보유한 48만명의 풍부한 작업자 풀 덕분에 큰 어려움 없이 섭외가 가능했습니다. 촬영장소 또한 작업자들의 집단지성으로 적합한 곳을 비교적 빠르게 찾아낼 수 있었죠. 또한, 영상과 같은 비정형 데이터를 가공하는 일에는 일관성이 매우 중요한데요. 크라우드웍스는 지난 비정형 데이터 가공 프로젝트들의 경험을 되살려 일관성을 해칠 수 있는 변수들을 세심하게 관찰하고 통제하며 프로젝트를 진행했습니다. 그 결과 실제 상황과 유사한 상황을 연출하여 데이터 퀄리티를 확보 할 수 있었고 고객사를 만족시킬 수 있었습니다.