크라우드웍스, KAIST ‘AI 기술설명회’에서 최신 AI 기술 동향 소개
- 양수열 CTO ”문서 내 시각 요소들은 단락의 문맥까지 고려해 의미 기반 메타데이터 구성해야 검색 품질 높일 수 있어”
- 자체 데이터 전처리 솔루션 ‘알피 날리지 컴파일러’, 국내 문서 특징 반영해 시각 요소에 대한 정밀한 파싱과 처리로 높은 정확도 구현

크라우드웍스의 데이터 전처리 솔루션 ‘알피 날리지 컴파일러’ 데모 화면
크라우드웍스가 16일 오전 코엑스에서 열린 한국과학기술원(KAIST) 김재철 AI 대학원 ‘AI 기술설명회’에서 최신 인공지능 기술 트렌드를 공유하고 자사의 데이터 전처리 기술을 소개했다고 16일 밝혔다.
이번 기술설명회는 KAIST가 연구 중인 핵심 원천 AI 기술을 산업계와 일반 대중에 소개하고, AI 기술 확산과 산학협력 활성화를 목표로 마련된 자리다. 본 행사는 ‘2025 국제인공지능대전(AI EXPO KOREA)’ 일환으로 개최됐으며, 크라우드웍스는 KAIST의 초청으로 강연에 참여했다.
강연자로 나선 양수열 크라우드웍스 최고기술책임자(CTO)는 “사장님이 잘 읽는 김대리의 보고서, AI는 왜 못 읽을까?”라는 흥미로운 주제로 강연을 진행했다. 양 CTO는 “AI가 일반 문서 포맷을 읽는 것은 가능하지만, 문서에 담긴 ‘의미’를 이해하고 이를 메타데이터로 추출하는 일은 여전히 쉽지 않다”며 “차트나 다이어그램과 같은 시각 요소들은 단순한 설명을 넘어, 주변 문장과 단락의 문맥까지 고려해 의미 기반 메타데이터를 구성해야 AI가 관련 정보를 정확히 검색하고 응답 품질을 높일 수 있다”고 설명했다.
이어 그는 “우리나라 문서는 고유한 스타일과 구조를 가지고 있어, 외산 파서(Parser)를 그대로 사용할 경우 오류가 많이 발생한다”며 “이러한 국내 문서의 특성을 반영해 표나 시각 요소에 대한 정밀한 파싱과 처리를 통해 높은 정확도를 구현해야 한다”고 강조했다.
이와 함께 다양한 비정형 문서를 RAG(Retrieval-Augmented Generation)에 적합한 형태로 전처리할 수 있는 자체 솔루션 ‘알피 날리지 컴파일러(Alpy Knowledge Compiler)’도 소개했다. 해당 솔루션은 문서 내 테이블, 차트, 이미지 등에 대해 LMM(대형 멀티모달 모델) 기반 분석을 수행하고, 의미 기반 메타데이터를 추가해 검색의 정밀도와 질의응답 품질을 개선한다. 특히, 업계 최초로 문서의 복잡도를 정량화할 수 있는 자체 평가 지표를 적용해 문서 구조를 체계적으로 분석할 수 있고, 이를 통해 데이터 전처리 오류 가능성을 줄이고 인력과 예산을 효율적으로 관리할 수 있다.