생성형 AI 탈옥 연구를 위한 독성 콘텐츠 평가 데이터셋 구축 

생성형 AI 탈옥 연구를 위한 독성 콘텐츠 평가 데이터셋 구축 사례를 소개하는 블로그 썸네일. 파란색 배경 위에 ‘데이터 구축 사례’와 ‘생성형 AI 탈옥 연구를 위한 독성 콘텐츠 평가 데이터셋 구축’ 문구가 있고, 오른쪽에는 AI 로고가 들어간 방패 아이콘과 경고표시 아이콘이 함께 배치되어 있다.

고객사 한국전자통신연구원(ETRI)은

과학기술정보통신부 산하의 연구기관으로, 정보·통신·전자·방송 등 ICT 전 분야에서 산업 원천기술 개발과 성과 확산을 통해 국가 경제와 사회 발전에 기여하고 있습니다. 주요 연구 분야는 AI, 반도체, 네트워크, IoT, 빅데이터, 로봇, 보안, 무선통신 등이며, 최근에는 AI 반도체·엣지 컴퓨팅·생성형 AI·지능형 네트워크 등 첨단 AI 융합 기술 개발에 연구에 집중하고 있습니다.

프로젝트의 시작

ETRI는 LLM이 생성한 멀티모달(이미지+텍스트) 콘텐츠가 사회적·윤리적 기준을 벗어나지 않는지 정량적으로 평가할 수 있는 AI 안전성 벤치마크 데이터가 필요했습니다. 특히, 시각적 요소와 텍스트가 결합된 4컷 만화 구조의 이미지를 활용해, 모델이 ‘탈옥(Jailbreak)’ 상황에서 얼마나 위험하거나 부적절한 반응을 보이는지 검증하고자 했습니다. 

하지만, 기존 자동화 평가 방식으로는 풍자, 유머, 암시 등 사회적 맥락이나 시각 정보와 텍스트 간 의미의 일치도를 정확히 반영하기 어려웠습니다. AI 모델이 독성·풍자·유머 등 비정형적 표현을 올바르게 이해하지 못하고, 4컷 이미지의 시간적 흐름이나 스토리 일관성을 평가할 명확한 기준도 부족했는데요. 이에 ETRI는 사람이 직접 평가에 참여해 정확성과 신뢰도를 높일 수 있는 데이터셋 구축이 필요하다고 판단했습니다.

ETRI가 크라우드웍스를 선택한 이유

  • AI 안전성·윤리성 관련 공공 연구 데이터 구축 경험과 노하우 다수 보유
  • 이미지와 텍스트가 융합된 멀티모달 데이터 구축 전문성 보유
  • 교차 검증(Cross-check) 기반의 정량적 품질관리 체계 운영
  • 영어 및 시각언어 해석에 특화된 전문 평가자 풀(Pool) 확보 가능
  • 계약부터 교육·검수·납품까지 단기간 내 신속히 완료 가능한 운영 역량 보유

프로젝트 해결 과정

ETRI가 구축한 17개 카테고리의 4컷 만화와 영어 캡션 데이터를 기반으로, 사전에 정의된 평가 문항에 따라 정량·정성 주석 작업을 수행했습니다. 전 과정은 크라우드웍스의 데이터 수집·가공 플랫폼 ‘Workstage’를 통해 이루어졌으며, 총 4개 평가항목을 5점 척도로 측정하는 방식으로 진행되었습니다. 또한 필요시 주관식으로 특이사항을 기재하도록 해, “4컷이 아닌 6컷으로 구성됨”, “컷 간 유사성이 높아 스토리 전개가 약함”, “글자 과다로 가독성 저하” 등의 구체적인 사례를 함께 기록했습니다.

1) 전문 평가자 선발
영어 독해력 CEFR B2 이상(TOEIC 750점 수준)의 전문가로, 시각적 상징성과 문화적 맥락(유머·풍자 등)을 해석할 수 있는 만 19세 이상 전문 평가자가 참여했습니다.

2) 사전 교육 및 예비 테스트
평가 문항의 의미 해석 기준과 예시 응답 분포를 학습하여, 평가자 간 판단 편차를 최소화했습니다.

3) 3인 교차 평가(Cross-check)
모든 항목은 3명의 평가자가 독립적으로 채점하여 객관성과 신뢰도를 확보했습니다.

4) 품질관리
평가 결과에 대해 응답 분포의 이상치와 점수 편향을 탐지하고, 일관성 검증 및 품질 미달 항목의 재주석을 수행했습니다. 이 과정을 통해 데이터의 신뢰도와 일관성을 최종 확보했습니다.

4컷 만화 형식의 이미지 평가 화면. 남성이 통 안에 재료를 넣는 과정을 단계별로 보여주며, 폭발 장면이 포함되어 있다. 오른쪽에는 평가자가 ‘이미지와 캡션의 일치 여부’, ‘사회적 해로움 여부’, ‘현실 적합성’, ‘시각적 타당성’을 선택하는 설문 UI가 표시되어 있다.

프로젝트 결과는?

이번 프로젝트에서는 총 5,456건의 4컷 만화 데이터를 대상으로, 각 항목을 3명의 평가자가 교차 평가(Cross-check)하는 방식으로 총 16,368건의 평가 데이터를 구축했습니다. 모든 결과는 XLSX 형식으로 정리되었으며, 이미지 오류, 컷 구조 문제, 텍스트 과다 등 특이사항 필드를 함께 포함해 품질 이슈를 정밀하게 관리했습니다. 구축된 데이터셋은 AI 탈옥(Jailbreak) 반응 검증, 독성 콘텐츠 자동 검출 모델 학습, LLM 안전성 벤치마크 구축 등 다양한 연구와 모델 평가에 활용될 예정입니다. ETRI 내부 검수 결과, 본 데이터셋은 응답 정합성과 주석 품질 모두 목표 수준 이상으로 평가되어 긍정적인 평가를 받았습니다.

4컷 만화와 영어 캡션 데이터를 평가한 표. 각 항목별로 점수(1~5점)와 주관식 특이사항이 기록되어 있으며, 평가 기준에는 ‘Instruction 수행 여부’, ‘사회적 해로움 유도 여부’, ‘현실 상황 적합성’, ‘시각적 타당성’ 등이 포함되어 있다.

단 3주 만에 완성된 AI 독성 및 안전성 검증 데이터

프로젝트 담당 PM은 “이번 프로젝트는 단순한 데이터 수집이 아니라 ‘AI의 윤리적 판단력’을 평가하는 고난도 과제였다”며, 평가 기준 설계부터 인력 선발, 교차 검증까지 모든 과정을 체계적으로 관리해 3주라는 짧은 기간 안에 완성도 높은 결과를 납품했다고 전했습니다.

또한 ETRI 연구책임자는 이번 과제에 대해, 영문 기반의 시각적 맥락을 이해해야 하는 AI 안전성 평가라는 도전적인 프로젝트였지만, 크라우드웍스가 복잡한 멀티모달 데이터를 신속하고 체계적으로 운영해 높은 품질의 결과를 만들어냈다고 평가했습니다. 이어 “데이터 구축 파트너로서 안정적이고 전문적인 역량을 갖춘 기업으로, 앞으로도 협업을 이어갈 계획”이라고 덧붙였습니다.

크라우드웍스는 이 프로젝트 외에도 AI 생성 이미지 윤리성 평가, 비윤리 콘텐츠 자동 판별 모델 학습용 데이터 구축 등 AI 안전성과 신뢰성을 높이기 위한 다양한 프로젝트를 진행하고 있습니다. 책임 있는 AI 활용과 신뢰할 수 있는 데이터 구축이 필요하다면, 언제든지 크라우드웍스를 찾아주세요!