크라우드웍스, 메리츠화재 AI 에이전트 성능 평가 사업 수주

– 보험 도메인 특화 평가 데이터셋 기반으로 정밀한 검증 제공

크라우드웍스의 Alpy Evaluation 인터페이스 미리보기 이미지로, 태블릿 화면에 AI 평가 결과 대시보드가 표시되어 있습니다. 100점 만점 중 99.01점의 종합 점수와 파란·보라색 막대그래프가 표시되어 AI 평가 지표를 시각화합니다.

AI 테크 기업 크라우드웍스는 대형 보험사 메리츠화재의 AI 에이전트 성능 평가 사업을 수주했다고 30일 밝혔다.

이번 사업은 메리츠화재가 개발한 설계사 영업 지원 AI 서비스의 성능을 평가하고, 실제 업무 환경에서 품질과 안정성을 높여 AI 서비스를 고도화하는 것이 목표이다. 이 AI 서비스는 보험약관, 보장 내용, 보험 용어 등을 학습해 설계사들의 보험 설계 업무를 효과적으로 지원한다.

크라우드웍스는 메리츠화재 AI 에이전트의 응답 평가를 중점적으로 수행할 예정이다. 전문가 기반 평가 데이터셋을 구축해 응답의 정확성·과업 성공률·신뢰도 등을 종합적으로 평가한다.

이 과정에서 크라우드웍스가 자체 개발한 AI 평가·검증 솔루션 ‘알피 이밸류에이션(Alpy Evaluation)’이 활용된다. 해당 솔루션은 AI 서비스의 성능을 LLM, RAG, 에이전트 영역에서 평가할 수 있으며, 유해 콘텐츠 제작이나 편향성 등을 방지하는 안전성 평가도 함께 지원한다.

특히 이번 프로젝트는 보험업 맞춤형 평가 데이터셋 구축에 초점을 맞췄다. 보험업 경력을 보유한 데이터 전문가가 참여해, 실제 설계사 상담 시나리오를 기반으로 평가용 데이터셋을 설계한다.

예를 들어, 약관 간 보장항목 비교나 특정 상품의 예외 조항 요약 등 실제 영업 현장에서 발생하는 복합적 문맥을 반영한 질의응답 데이터를 구축하며, 이를 통해 기존 오픈 벤치마크로는 검증하기 어려운 보험 도메인 특유의 문맥 이해력과 응답 정확성을 정밀하게 평가한다.

김우승 크라우드웍스 대표는 “AI 에이전트 평가에서는 로직의 기술력보다 평가용 질문(Instruction) 설계의 정교함이 핵심”이라며 “보험 도메인에 특화된 데이터와 자동화된 평가 시스템을 결합해, 금융권 AI 서비스의 품질관리 수준을 한층 높일 것”이라고 밝혔다.

한편, 크라우드웍스는 한국정보통신기술협회(TTA) 주관 ‘생성형 AI 신뢰성 평가의 실용적 접근 방안 연구’ 사업을 성공적으로 수행한 바 있으며, 지난 7월에는 한국산업지능화협회(KOIIA)와 함께 제조 산업에 특화된 AI 에이전트 평가·인증 체계 구축을 위한 업무협약을 체결하는 등 AI 평가 검증 부문에서 적극적인 행보를 이어가고 있다. 

Alpy Evaluation 플랫폼의 에이전트 평가 화면. 사용자는 평가 이름과 설명을 입력하고, 정성평가·정량평가 중 하나를 선택할 수 있는 인터페이스가 표시되어 있다.

Alpy Evaluation 상세 화면