프로젝트 성공사례#34 개인성향 데이터 수집 및 평가 데이터셋 구축 작업기
개인성향 데이터 수집 및 평가 데이터셋 구축 작업기
커뮤니케이션이 가능한 감성 인공지능 기술 개발 및 고도화를 위한 개인 성향 데이터 수집 작업
고객사 요구사항
- MBTI 기반 개인 성향 데이터 수집
- 음성 평가
- 대화 평가
- 멀티모달 평가
고객사 소개
크라우드웍스에 프로젝트를 의뢰한 한국과학기술원은 산업발전에 필요한 과학기술분야에 관하여 깊이있는 이론과 실제적인 응용력을 갖춘 고급 과학 기술 인재를 양성하고 국가 정책적으로 수행하는 중ㆍ장기 연구개발과 국가과학기술 저력 배양을 위한 기초ㆍ응용연구를 하며, 다른 연구기관이나 산업계 등에 대한 연구지원, 기술의 이전 및 사업화를 촉진하고 창업을 지원하기 위해 설립되었습니다.
고객사에게 어떤 어려움이 있었나요?
고객사는 본 프로젝트의 수행을 위해 MBTI 16종을 기준으로 한 가지의 MBTI (예를들어 ESFJ 15명, INFJ 15명 등) 총 240명의 작업자 남여 1:1비율로 필요했습니다. 또한, 각 작업자의 MBTI를 증빙하는 절차 또한 필요했습니다. 하지만 고객사는 해당 프로젝트에 참여를 희망하는 다양한 MBTI를 가진 다수의 작업자 구인에 어려움을 느끼고 있었습니다.
크라우드웍스를 선택한 이유!
- 국내 최다, 최대 규모의 데이터 라벨러 pool을 활용한 다양한 MBTI 작업자 모집 가능
- 해당 평가를 진행할 작업 페이지에 대한 개발이 필요하였으며 당사의 플랫폼 이용 및 설계를 통해 고객사는 별도 작업페이지 개발에 대한 리소스 효과적으로 절감 가능
- 별도 작업자로부터 획득해야하는 나이, 성별, MBTI 등 여러 메타데이터 획득 가능
크라우드웍스 솔루션
작업자 선발 과정
국내 최다, 최대 규모의 데이터라벨러 풀을 보유한 크라우드웍스는 해당 프로젝트에 최적화된 성향 데이터를 수집하기 위해 160명 이상의 작업자 풀을 구성했습니다. 고객사의 요청대로 최대한 고르게 모집하기 위해 남녀 비율을 1대1로 맞추었으며 20부터 40대까지 1대1대1로 균등한 나이대로 구성했습니다. 또한 풍부한 데이터 수집을 위해 MBTI 1개의 성향당 12명의 작업자를 투입했으며 작업자 1명당 60개의 발화에 응답하도록 했습니다.
데이터 수집 과정
본 프로젝트는 실존 인물의 특징적인 개성을 학습하여 표현까지 할 수 있는 대화형 감성 인공지능 개발을 위해 다양한 데이터가 필요했습니다. 다양한 성향의 사람들에 대한 학습으로 선발된 크라우드웍스 작업자를 MBTI 별로 구분하여 질문에 대한 답변을 텍스트로 수집하였는데요. 더 자세히는 음성, 멀티모달, 대화평가로 나누어 데이터를 수집했습니다. 우선 인공지능의 음성 발화의 품질을 높이기 위해 진행한 음성 데이터 셋 품질 평가에서 작업자들은 총 180개의 음성 파일에 대한 품질 평가를 진행했습니다. 멀티모달평가는 인공지능의 시청각적인 감각을 학습하기 위하여 실제 사람이 발화중인 영상파일을 통해 표정, 말투, 행동을 파악하여 감정을 태깅하는 작업이었는데요. 작업자들은 1명당 20개의 모두 다른 데이터에 대한 평가를 진행하며 실제 영상파일 240부에 대한 태깅 작업을 완료했습니다. . 마지막으로, 대화내용을 보고 대화의 흐름이 자연스러운지에 대해 1점-5점의 점수를 매겨 상황에 어울리는 정도를 태깅하는 대화 평가도 진행하였죠.
담당 PM 후기
해당 프로젝트를 수행하며 어려웠던 점은 특정유형에 대한 MBTI 성향이 부족했다는 점인데요. 크라우드웍스의 작업자 풀 덕분에 기간안에 모집하여 고객사의 요청을 성공적으로 마무리할 수 있었습니다. 이 과정에서 크라우드웍스 플랫폼을 이용하는 워커분들의 성향이 I가 E에 비해 두배가 많다는 재밌는 사실도 확인할 수 있었어요. 사람의 뇌는 오랜세월 축적된 경험을 바탕으로 주어진 상황을 보고 짧은 시간안에 판단할 수 있는 능력을 가지고 있습니다. 이러한 능력을 컴퓨터도 가질 수 있도록 많은 데이터들을 크라우드워커분들이 라벨링하여 간접 경험을 만들어주는 선생님의 역할을 하게 되는데요. 워커분들과 함께 다양한 시청각 데이터들을 라벨링하면서 컴퓨터에게 좋은 선생님이 되는 것 같아 뿌듯함을 많이 느끼고 있어요.