프로젝트 성공사례#26 혐오표현 필터링 AI 모델 개발을 위한 텍스트 수집∙가공기
혐오표현 필터링 AI 모델 개발을 위한 텍스트 수집∙가공기
국/영문 혐오표현 수집 및 태깅 작업기
고객사 요구사항
- 혐오표현이 포함된 단어를 고객사 혐오표현 분류 기준에 맞추어 분류
- 해당 단어를 바탕으로 문장 수집
- 수집된 문장을 고객사 혐오 표현 분류 기준에 맞추어 분류
고객사에게 어떤 어려움이 있었나요?
한국 뿐 아니라 전세계적으로 인기있는 게임 서비스를 운영 중인 고객사는 국문, 영문 모두에 대한 혐오 표현 데이터셋이 필요했습니다. 특히 영어의 경우 일반적인 영어 구사자가 아닌 현지의 문화가 익숙하고 현지 비속어에 대한 지식이 풍부한 원어민 수준의 구사자가 필요했죠. 이에 국내 최대 검증된 크라우드워커 풀을 보유하고 유사 프로젝트 수행 경험이 풍부한 크라우드웍스와 계약을 진행했습니다. 아울러 NLP(Natural Language Processing)프로젝트 특성상 주관성이 개입될 수 밖에 없기 때문에 크라우드웍스에선 그간의 경험을 바탕으로 여러명이 같은 항목을 평가하여 데이터 편향을 방지할 수 있는 다중할당을 제안했고 해당 솔루션을 바탕으로 프로젝트가 진행되었습니다.
크라우드웍스를 선택한 이유!
- 국/영문 모두 소화 가능한 국내 최대 크라우드워커 풀
- 자연어 태깅 프로젝트 경험이 풍부한 PM의 맞춤 프로젝트 운영
- 데이터 수집부터 가공까지 원스탑으로 제공가능한 크라우드웍스의 맞춤 서비스
- 체계적인 검수 시스템을 통한 높은 퀄리티의 데이터 확보
- 고객사와 밀착 소통으로 전주기 맞춤 관리
크라우드웍스 솔루션
작업자 선발
본 프로젝트는 고객사의 분류 기준에 맞추어 혐오표현을 분류하는 작업, 해당 단어를 바탕으로 문장을 수집하는 작업, 수집된 문장을 앞선 1단계의 분류 기준에 맞추어 분류하는 작업 이렇게 총 3단계 업무로 구분하여 진행했습니다. 각 업무간 연결성이 있으나 필요 역량은 다소 상이하여 업무별로 개별 인원을 채용했는데요. 작업자를 선별하는데 있어 고객사가 제공한 업무의 정의와 샘플로 제공한 혐오표현의 정의를 알고 있으며 영어권 거주 2년 이상의 작업자로 선발하였습니다.
텍스트 가공 작업
첫번째로 진행되었던 고객사의 분류기준에 맞추어 혐오표현을 분류하는 작업은 작업자들이 주어진 단어를 읽고 고객사가 제시한 분류 기준과 비교하여 해당하는 모든 항목에 복수 체크하는 작업으로 이루어졌습니다. 단어를 읽고 카테고리화 하는 것은 개개인의 이해에 따라서 다른 답이 나올 수 있는 확률이 높기 때문에 다중할당 방식으로 동일한 단어에 대해 5명의 작업자가 분류를 진행했습니다. 결과 데이터는 이들의 평균치가 되었죠.
또한 담당PM은 프로젝트 작업자와의 유기적인 소통을 위하여 프로젝트 전용 카카오톡 오픈채팅방을 개설하여 실시간 질의 응답을 진행했습니다. 아울러 혐오표현의 특성상 작업 중도 포기자가 다수 발생했습니다. 이로인한 문제가 발생할 수도 있다는 것을 사전에 인지한 담당PM은 TA(Talent Acquisition)팀에 인력 지원에 대한 내용을 사전 공지하여 프로젝트가 실제로 진행되어 신규 인력이 갑자기 필요할 때 원활하게 지원을 받을 수 있도록 사전작업을 마쳐놓은 상태였죠. 크라우드웍스 명성에 걸맞는 노련한 프로젝트 운영 경험이 느껴지는 준비자세가 아닐 수 없는데요! 프로젝트 진행 시 발생하는 이와 같은 변동사항은 실시간 또는 진척률을 기반으로 예측 가능한 시점에 고객사에 사전 공유하며 대안을 제시하고 문제를 해결해나갔습니다.
담당 PM 후기
“고객사에서 처음에 영어만 진행하다 당사를 믿고 한글 혐오표현까지 의뢰를 주셨습니다. 이는 크라우드웍스의 데이터 품질에 대한 고객사의 응답이라고 생각합니다.
프로젝트 종료 후에 보니 언어별로 80명 정도의 인원이 투입되었음을 확인했는데요. 작업자들의 잦은 투입/변경과 같은 변수에도 유연하게 대응할 수 있었던 건, 크라우드웍스의 풍부한 작업자 교육, 가이드 개발, 프로젝트 운영 및 작업자 소통 등의 경험이 있었기 때문일 것입니다. 여러 해를 통해 쌓은 노하우는 이런 변수에서 큰 기여를 한다는 것을 다시한번 느낄 수 있었습니다.”