까다로운 전문 의료 AI 과제, 크라우드웍스는 어떻게 해결했나? NIA 의학지식 Q&A 데이터셋 구축

고객사 한국지능정보사회진흥원(NIA)은
과학기술정보통신부 산하의 공공기관으로, 다양한 국가 AI 데이터 사업을 기획하고 운영하며, 고품질의 AI 학습 데이터 생태계 조성에 선도적 역할을 하고 있습니다.
프로젝트의 시작
NIA는 AI 데이터 생태계 확산을 목표로 ‘초거대 AI 확산 생태계 조성 사업’을 추진했습니다. 이 사업은 여러 전문 기업과 기관이 컨소시엄을 이루어 함께 수행하는 대규모 국가 과제였으며, 그중 하나로 의학 지식에 대한 전문적 자연어처리(NLP) 태스크에 대응할 수 있도록, 아래와 같은 질의응답(Q&A) 데이터셋 총 3만 쌍을 구축하는 과제가 포함되었습니다.
- 전문 의학지식 질의응답 1.5만 쌍 : 질병의 원인, 진단, 치료, 관리, 예방, 최신 지견 등
- 필수 의학지식 질의응답 1.5만 쌍 : 산부인과, 소아청년과, 응급의료 등 필수의료 분야
하지만 프로젝트는 간단치 않았는데요. 컨소시엄 내 다른 기관에서 생성한 원시(Raw) 데이터가 실제 의학 지식과 부합하는지, 내용은 정확한지 검증하고 수정하는 과정이 반드시 필요했습니다. 결국 이 과제를 성공적으로 수행하려면 높은 의학적 전문성을 갖춘 인력과 이러한 검증 과정을 체계적으로 지원할 수 있는 자체 솔루션을 보유한 기업이 필수적이었습니다.
NIA가 크라우드웍스를 선택한 이유
- 검증된 의학 전문가 인력풀 보유 : 의사, 간호사, 예비의료인 등 전문 자격과 평가를 통과한 인력을 다수 보유
- 질의응답 정제·검수·수정이 가능한 맞춤형 작업 솔루션 제공 : 대규모 데이터 품질 관리에 최적화된 자체 검수 도구 운영
- 5년 연속 NIA 사업 수행 경험 : 다양한 국가 AI 데이터 구축 과제를 성공적으로 수행한 전문 노하우 축적
- 검증된 운영 역량 : 풍부한 프로젝트 경험을 바탕으로 대규모 프로젝트도 체계적이고 신속하게 운영할 수 있는 역량
프로젝트 해결 과정
1) 의학 전문가 배지 시스템을 활용한 체계적 인력 선발
크라우드웍스 자체 ‘의학 전문 배지 시스템’을 활용해 프로젝트에 적합한 전문 인력을 신속하게 확보했습니다. 의사 level 1-4, 간호사, 예비의료인 등 총 6개 등급의 의학 배지를 통해 검증된 전문가들을 선발하여 투입했습니다. 각 배지는 자격증 보유 여부와 전문성 시험을 통과한 작업자에게만 부여되기 때문에 신뢰할 수 있는 작업 품질을 보장합니다.
2) 3단계의 체계적 검수 프로세스 설계
- 의학지식 적합성 판단 : AI가 생성한 원시데이터 중 실제 의학지식과 무관한 데이터는 [작업 불가]로 표시해 제외할 수 있도록 시스템화했습니다.
- 도메인 분류 : 의학지식으로 확인된 데이터는 어느 진료과에 속하는지(Ex. 산부인과, 소아청소년과 등) 도메인을 정확히 선택하도록 했습니다.
- 질의·응답 검수 및 수정 : 각 질의와 응답 데이터는 별도로 검수하고 필요한 경우 오기입이나 누락된 정보를 직접 수정할 수 있도록 작업 화면을 최적화했습니다.

작업화면 예시
3) 실시간 교육과 철저한 품질 관리
작업 화면을 기반으로 상세 가이드를 제작하고, 실시간 온라인 교육을 통해 작업자 이해도를 높였습니다. 프로젝트 기간 3개월 동안 컨소시엄 기관과 정기적으로 샘플 데이터와 진행 상황을 공유하며 피드백을 신속히 반영했습니다. 또한 자체 검수 프로세스를 통해 과제 요구사항에 부합하는 총 30,000쌍의 고품질 질의응답 데이터를 성공적으로 구축했습니다.

질의응답 샘플 데이터
크라우드웍스의 전문성과 다년간의 정부 사업 경험이 프로젝트 성공의 핵심!
프로젝트 담당 PM은 “일반 작업자가 아닌 전문가 인력을 선발해 정해진 기간 내에 과업을 수행하는 것이 이번 프로젝트의 핵심이다”고 전했습니다. NIA 사업 특성상 데이터 수집, 정제, 가공 등 여러 단계가 순차적으로 진행되기 때문에 짧은 기간에 대량의 데이터를 구축하려면 유연한 일정 관리가 중요했는데요. 크라우드웍스의 검증된 전문가 인력 풀과 다년간의 정부 사업 수행으로 축적된 운영 노하우를 바탕으로 체계적인 품질 검수 시스템과 유연한 일정 관리를 통해 이번 프로젝트를 차질 없이, 계획된 기간 내에 성공적으로 완수할 수 있었습니다. 구축된 데이터는 AI Hub을 통해 누구나 활용할 수 있도록 공개되어 있으며, 임상 근거가 명확한 의학지식을 기반으로 실제 진료 상황에서 신뢰할 수 있는 답변을 제공할 수 있는 챗봇 등 다양한 의료 AI 서비스 개발에 폭넓게 활용될 예정입니다.
AI 기술이 의료, 법률, 금융 등 전문 분야로 깊숙이 파고들면서, ‘전문가의 검증’을 거친 고품질 데이터의 가치는 더욱 높아지고 있습니다. 만약 특정 분야의 전문성과 높은 신뢰도가 요구되는 데이터 구축 프로젝트를 고민하고 계신다면, 언제든지 크라우드웍스를 찾아주세요!