프로젝트 성공사례#14 무인점포 내 응급 상황 인식을 위한 발화 텍스트 및 음성 수집기
무인점포 내 응급 상황 인식을 위한 발화 텍스트 및 음성 수집기
완전무인점포 구축을 위한 응급 상황 음성 수집기
고객사 요구사항
- 응급 상황에 발생하는 발화 텍스트 수집 – 화재, 폭력, 비명소리, 누군가 쓰러져 있는 것을 타인이 발견한 상황, 흉기 등으로 위협받는 상황, 상처를 입은 상황, 경찰/소방센터 등을 호출하는 상황 등 다양한 응급 상황을 가정한 텍스트 수집
- 응급 상황이라는 특별한 전제가 있었기 때문에 비속어를 허용하는 등 구어체에 가까운 문장 수집
- 실제에 가까운 연기 필요 – 스크립트 내용에 맞게 적절한 속도, 감정, 세기로 음성을 녹음 진행 및 장난스러운 발화 등에 대한 검수 진행
- 실제 상황을 반영하여 다양한 음성을 수집해야 했기 때문에 100명 이상의 인원, 마스크 착용/미착용 인원 동일 비율로 수집
고객사에게 어떤 어려움이 있었나요?
점원이 없는 매장이 어색하지 않은 시대가 왔습니다. 코로나바이러스 사태는 비대면 소비문화를 촉발시켰고, 여기에 기술 발전이 맞물리며 ‘무인 점포’가 등장하기 시작했습니다. 현재 가장 활발한 성장을 보이고 있는 곳은 편의점 업계인데요. 인공지능을 기반으로 자동 발주와 셀프 결제 시스템 등 무인점포에 적합한 기술들이 개발되며 빠른 속도로 점포가 늘어나고 있습니다. 하지만, 관리자가 전혀 없는 완전무인점포에서는 응급 상황 발생 시 대처가 어렵습니다. 이때 관리자 없이도 대처할 수 있도록, 응급 상황을 인식할 수 있는 솔루션이 필요합니다. 여러 응급 상황에 대처하기 위해서는 다양한 상황과 많은 인원, 다양한 시나리오가 필요했습니다. 하지만 이러한 응급 상황에 대응할 수 있는 음성이나 문장 데이터셋을 구하기 어려웠습니다.
크라우드웍스를 선택한 이유!
- 35만명 이상의 크라우드워커를 보유하고 있기 때문에, 다양한 시나리오와 음성을 수집하기 가장 적합한 플랫폼이었습니다.
- 텍스트 수집부터 음성 수집까지 한 플랫폼에서 가능하여, 원스톱으로 해결할 수 있었습니다.
- 체계적인 검수 시스템을 통해 높은 퀄리티의 데이터를 확보할 수 있었습니다.
크라우드웍스 솔루션
작업자∙검수자 선발 과정
음성 녹음 프로젝트의 경우, 조용한 환경, 음성 앞뒤의 묵음 처리, 정확한 발음 등이 까다로워 숙련된 작업자와 검수자가 필수적인 프로젝트입니다. 하지만 크라우드웍스에서는 음성 가공 프로젝트에 대비하여 이미 음성 녹음에 숙련된 작업자와 이를 세밀하게 검수하는 검수자의 회원 풀을 별도로 확보해두고 있습니다.
TA(Talent Acquisition)팀의 사전 테스트를 거쳐 미리 확보해놓은 음성 녹음 숙련 작업자와 검수자들을 중심으로 진행된 프로젝트는 여러가지의 세부 그룹으로 나뉘어져 녹음이 진행되었는데요. 작업자는 마스크를 착용한 그룹과 착용하지 않은 그룹으로 나누었으며, 각 그룹 별로 성별, 연령대를 구분하여 음성 녹음을 진행하였습니다. 음성 녹음은 호출어, 유사 호출어, 응급 상황 문장 녹음으로 3차례에 걸쳐 진행하였으며, 호출어 녹음 프로젝트 완료 후, 해당 음성 데이터를 고객사의 모델이 학습하여 나온 결과를 바탕으로 유사 호출어 음성 녹음 프로젝트를 진행하였습니다. 응급 상황 문장 녹음은 응급 상황을 가정한 텍스트를 먼저 수집 후 진행하였습니다.
음성 수집
고객사가 만족하는 최고의 데이터 품질을 위해 담당PM은 호출어와 유사 호출어 녹음 파일에 대한 초기 10% 수량을 빠르게 수집하여 고객사에 피드백을 요청했습니다. 첫 10% 수량에 고객사가 만족하는 수준의 데이터가 수집되었고 별도의 가이드 수정 및 보완없이 잔여 수량을 수집하였습니다.
또한, 응급 상황에서 나올법한 음성을 수집하기 위하여 우선적으로 응급 상황에서 나올법한 문장 텍스트를 수집했는데요. 텍스트 수집을 생략하고 바로 음성 녹음 프로젝트를 오픈할 경우 중복되는 음성이 녹음될 가능성이 크기 때문입니다. 녹음을 위해 일종의 대본을 만든 것이라고 이해하시면 되겠습니다. 텍스트 데이터 라벨링 뱃지를 획득한 약 2만여명 (당시 기준)의 크라우드웍스 회원이 빠른 속도로 다양한 문장들을 생성해주었고, 수집된 텍스트는 중복 제거, 어색한 문장 정제 등의 전처리 후 녹음 스크립트로 사용되었습니다.
이후 스크립트를 한 문장씩 각기 다른 작업자가 녹음할 수 있도록 프로젝트를 세팅하여 음성 데이터의 다양성을 강화하였습니다. 녹음 화면에는 응급 상황에 몰입하여 장난스럽지 않게 감정을 담아 녹음해달라는 주의 문구를 추가하였습니다. 앞선 녹음 프로젝트와 마찬가지로 초기 10% 수량을 고객사에 먼저 납품하여 고객사와 데이터 품질의 눈높이를 맞추었습니다. 초기 데이터로 데이터 품질을 확인받고 기확보된 음성 녹음 숙련 작업자와 검수자 덕분에 프로젝트가 완료되었습니다.
담당 PM 코멘트
“응급 상황에서의 음성 수집, 처음에 프로젝트 의뢰가 들어왔을 때 난이도에 대한 걱정이 있었습니다. 일상 생활 환경 속에서 녹음된 음성에는 예상외로 기계 소리, 바람 소리, 주변 소음 등이 많이 들어가기 때문에 꽤 번거로운 여정이 될 것 같았거든요. 또, 음성에 감정을 담아야했기에 일반 회원들이 감정을 잘 담아낼 수 있을지에 대한 걱정이 컸습니다. 하지만 걱정이 무색하게도 크라우드웍스 작업자들은 전문 연기자처럼 풍부한 감정 표현을 했고, 고객사에서도 무척이나 만족해주셨죠. 크라우드웍스 TA팀에서 정리해주신 베테랑 음성 녹음 숙련 작업자와 검수자 그룹이 없었다면, 상상조차 할 수 없었을 것 같습니다. 물론 마스크 착용/미착용, 성별, 연령대로 구분하여 프로젝트를 나누어 오픈했기에 진척률 확인과 관리 등 프로젝트 운영 측면에서도 시간과 노력이 많이 소요되는 프로젝트였지만, 적극적인 작업자들과 꼼꼼한 검수자들 덕분에 기간 내에 고품질의 데이터 납품으로 마무리할 수 있는 프로젝트였습니다.”