크라우드웍스,업계 최초 ‘문서 복잡도 분석 방법’ 특허 출원

  • AI 데이터 전처리 솔루션 ‘알피 날리지 컴파일러’ 핵심 기술 특허 출원
  • 업계 최초 ‘문서 복잡도 분석 매트릭스’ 개발해 문서 복잡도 4단계로 구분
  • 수십만 페이지의 방대한 문서 전처리 전, 자동화 오류 발생과 후속 정제 작업 줄여
  • “기업이 데이터 기반 경쟁력을 높이는 데 기여할 필수 도구될 것”

AI 테크 기업 크라우드웍스는 자사의 AI 데이터 전처리 솔루션 ‘Alpy Knowledge Compiler(이하 알피 날리지 컴파일러)’에 적용된 핵심 기술인 ‘문서 복잡도 분석 기반 문서 자동화 처리 기술’에 관한 특허를 출원했다고 22일 밝혔다.

크라우드웍스는 RAG 기반의 AI 에이전트 개발에 필수적인 비정형 데이터 전처리 과정에서 문서의 특징을 고려하지 않고 일괄 자동화를 적용할 경우, 복잡한 문서에서 인식률이 떨어지고 데이터 전처리 품질이 하락하는 문제를 해결하고자 이번 기술을 개발했다.

실제 전처리 대상 문서가 수십만 페이지에 달하는 방대한 문서가 투입되는 경우도 적지 않아, 문서 복잡도를 기반으로 자동화 범위를 판단하고 전문가 투입 여부를 사전에 결정하는 것은 전처리 품질 확보와 리소스 효율화를 통해 비용을 최적화하는 데 있어서 필수적 전략이다.

이번에 출원한 기술은 처리할 문서의 복잡도를 정량적으로 분석해 Class 1부터 Class 4까지 4단계로 분류한다. 구조가 단순한 수준의 문서는 자동화 전처리를 우선 적용하고, 구조가 복잡해 오류 발생 가능성이 높은 문서는 전문가 파싱을 병행해 맥락과 판단을 반영하여 전처리할 수 있는 기준을 제시한다. 이를 통해 데이터 전처리 자동화 시 오류 발생 가능성을 예측하고 투입 인력과 예산, 일정 등을 효율적으로 관리할 수 있다.

▲ 크라우드웍스는 ‘알피 날리지 컴파일러’ 솔루션에 적용된 핵심 기술인 ‘문서 복잡도 분석 기반 문서 자동화 처리 기술’에 대해 특허를 출원했다.

이러한 기술은 크라우드웍스가 자체 개발한 AI 데이터 전처리 솔루션 ‘알피 날리지 컴파일러’에 적용되고 있다. ‘알피 날리지 컴파일러’는 광학문자판독(OCR), 파싱(Parsing), 청킹(Chunking)을 통해 다양한 문서를 AI가 이해할 수 있는 형태의 데이터로 변환한다. Word, PPTX, PDF, Excel 외에도 한국 기업에서 주로 사용하는 HWP, HWPX 문서 변환도 지원하며 복잡한 테이블 내 테이블, 차트 등 다양한 문서 요소까지 정확히 인식한다. 또한, 테이블, 차트, 이미지 등의 시각 요소에 대해서도 초대형언어모델(LLM)을 활용해 AI가 이해할 수 있도록 메타데이터를 생성해 비정형 데이터의 효과적인 전처리를 지원하며, 비전언어모델(VLM)을 이용해 문서를 처리하는 기능도 준비하고 있다.

최근 기업들의 AI 기술도입이 늘어나면서 기업 내 비정형 데이터 활용과 자산화의 중요성이 높아지면서, AI 기반 문서 자동화 도구에 대한 수요도 크게 늘고 있다. 크라우드웍스는 ‘알피 날리지 컴파일러’를 활용해 국내외 다양한 산업군의 데이터 전처리 수요에 적극 대응하고, 기업용 AI 시장에서 선도적 입지를 강화할 계획이다.