데이터를 ‘잘 알고’ ‘잘 하는’ 회사가 LLM을 잘 할 수 밖에 없는 이유

데이터를 ‘잘 알고’ ‘잘 하는’ 회사가 LLM을 잘 할 수밖에 없는 이유

Editor’s Note
지난 4월 17일 서울 코엑스에서 ‘ACC+ 2024’가 열렸습니다. 크라우드웍스는 CTO 형주 님이 세션을 열고 기업 LLM 도입 과정에서 데이터 구축의 중요성과 관련한 인사이트를 나누는 시간을 가졌는데요. 큰 홍보 없이도 세션홀에 200여 명 이상의 참석자 분들이 몰려 기업들의 AI 도입에 대한 뜨거운 관심을 다시 한번 확인할 수 있었습니다. 아래 내용은 고객 분들과 인사이트를 공유하기 위해 당일 형주 님의 발표 내용을 간략히 재구성한 내용입니다. 

Crowdworks CTO 이형주 님

크라우드웍스도 LLM을 하나요?

기업 고객 분들께 크라우드웍스를 처음 소개하면 이런 질문을 많이 받습니다. “데이터 전문 회사라고 들었는데 LLM도 잘 하시냐?”고요. 기업 고객에게 LLM을 잘 한다, 잘 만든다는 건 어떤 의미일까요? 바로 LLM을 회사 업무에 잘 적용할 수 있도록 시스템을 구축하는 걸 말하겠죠. 보통 이런 LLM을 잘 구축할 것 같은 회사라고 하면 여러분이 떠오르는 단어는 이런 것일 겁니다. 

‘리더보드 상위권’, ‘자체 SLM 보유’, ‘AI 관련 논문 게재’, ‘모든 고객에게 적용 가능한 솔루션 보유’, ‘범용적인 LLM 평가 데이터셋 구축’, ‘박사급 인력 현황’…

물론 중요한 내용이죠. 이런 노력이 없다면 지금 같은 LLM 기술 발전과 시장 성장이 없었을 겁니다. 하지만 기업이 사용할 LLM 구축에 이게 정말 가장 중요한 내용인 걸까요?   

이렇게 얘기를 드려볼게요. 기업에서 쓰는 LLM의 역할과 특징은 일반적인 AI 모델의 역할이나 특징과는 좀 다릅니다. LLM은 주로 기존에 사람이 하던 일의 ‘효율’을 높이거나 대체하는 역할을 합니다. 없었던 일이거나 할 수 없던 일을 하는 게 아니라요. 또한 고객의 업무 방식에 따라서 동일한 문제에 대한 정답이 다를 수 있습니다. 일반적인 ‘정답’과 평가한 ‘품질’이 항상 일치하지는 않고, 외부에서는 쉽게 예상치 못할 정답이나 더 나은 결과가 나올 수도 있어요. 가령 LLM이 내놓은 일반적인 답변이 분명 정답인데, 기업 내부 피드백을 들어보면 이런 이야기가 나오는 거죠. “정답은 정답인데 뭔가… 아쉬워.”

기업용 LLM의 역할/특징일반적인 AI 모델의 역할/특징
• 기존에 사람이 하던 일의 효율을 높임
• 동일한 문제라도 고객의 업무 방식에 따라 정답이 다름
• 정답과 품질이 일치하지 않는 경우가 있음
• 예상치 못한 정답이나 더 나은 결과가 나올 수 있음
• 기존에 사람이 하기 어렵거나 못하던 일을 함
• 동일한 문제와 요건이면 정답의 차이가 없음
• 정답 기준의 부합 여부가 품질을 직접 설명함
• 예상치 못한 정답은 엄밀히 말하면 오답임

따라서 기업용 LLM을 구축할 때 가장 중요한 건 고객의 업무를 이해하는 것입니다. 고객의 업무를 이해하지 못하면 효과적인, 꼭 필요한 LLM을 구축했다 말하기 어려운 거죠. 그렇다면 고객의 업무는 어떻게 이해할 수 있을까요? 일반적인 회사 업무는 (아래 이미지처럼) ‘데이터’와 이의 ‘흐름’으로 구성됩니다. 

결국 고객의 업무를 이해한다는 건 이런 데이터의 내용과 구성, 그리고 맥락(Context)을 잘 안다는 것과 같은 말입니다. 

이제는 너무 잘 알고 계실텐데 LLM의 성능은 데이터가 좌우합니다. 대형 모델이 기본적인 데이터들은 너무 잘 학습해서 뛰어난 성능을 보이고 있고요. 여기에 더해 기업용 LLM은 내부 데이터 역시 잘 활용할 수 있어야 하죠. 

크라우드웍스가 기업용 LLM을 구축할 때 타사보다 잘 할 수 있는 건 바로 이 부분 때문입니다. 고객의 업무, 즉 고객의 데이터를 잘 이해하고 무엇이 부족한지, 어떻게 데이터를 파악하고 구축할지 오랜 경험을 통한 노하우로 잘 알 수 있다는 점이죠. 

기업용 LLM을 위한 데이터, 사실은…

그렇다면 기업에서 LLM을 구축할 때 데이터 관련해 어떤 사례가 있는지 예를 들어 보겠습니다.  

[사례1] “데이터가 많습니다” → ‘데이터가 없어요’인 경우

이전에 LLM 구축 의뢰를 하시면서 내부 데이터가 20만 건에서 많게는 100만 건까지 될 정도로 많이 있다고 한 기업이 있었습니다. 모든 문서에 대한 접근 권한을 다 줄테니 이를 기반으로 챗봇을 만들어 달라고 하시면서요. 그래서 데이터 샘플을 요청드려 받았는데 하나씩 열어보니 정말 아무런 규칙도 없이, 직원들조차 어떤 문서인지 파악할 수 없는 데이터들이었습니다. 문서명에 대한 규칙도, 작성에 대한 규칙도 기준도 없었어요. 심지어 카테고리 분류도 할 수가 없는데 그 기업은 ‘RAG로 하면 다 알아서 찾아주는 거 아니냐’고 하시더라고요. “우리가 그거 정리 안하려고 챗봇 만들려고 하는 건데”라고 하시면서요. (실화입니다) 많은 분들이 아시겠지만 이런 경우에는 프로젝트 진행을 할 수가 없어요. 누구도 알지 못하는 파일 묶음은 데이터가 아닙니다. RAG를 진행하려면 메타데이터 파악이 필수고요. 보유한 데이터에 대해서 모르면 효율적인 시스템 구성이 불가능합니다. 저희는 프로젝트를 진행할 때 초기 컨설팅 단계에서 요구사항을 정의하고, 문서를 분석하고, 메타데이터를 설계하는데 상당히 많은 시간을 씁니다. 그래야 정말 기업이 업무에 쓸만한 LLM을 만들 수 있거든요. 이 고객의 경우는 데이터 구축에 대한 의지도 없으셨기 때문에 LLM 구축을 계속 진행할 수가 없었죠.

[사례2] “데이터가 있습니다” → ‘데이터가 절반만 있습니다’인 경우

사례1은 그래도 꽤 예전에 있었던 일이구요. 최근엔 기업들의 데이터에 대한 이해도가 많이 높아졌습니다. LLM 구축을 위해 내부적으로 준비를 철저히 하셔서 데이터셋을 8천여 개나 준비한 기업도 있었어요. 하지만 막상 데이터를 받았는데 절반만 있는 경우도 있습니다. 모 기업의 경우 LLM을 통해 광고 마케팅을 위한 스크립트 생성봇을 만들고 싶어하셨는데 데이터가 있다고 해서 받았더니 과거에 진행했던 광고 스크립트 결과물만 있더라구요. 파인튜닝을 위해서는 꽤 다양한 데이터가 필요한데 저희한테 딱 최종 결과물(스크립트)만 주신 거였어요. 그래서 저희가 컨설팅을 하면서 데이터에서 부족한 항목을 체크하고 추가로 구축하면서 프로젝트를 진행했습니다. 이런 경우에 크라우드웍스가 하는 일은 바로 ‘데이터를 완성’하는 것이죠. 

[사례3] “데이터가 없습니다” → ‘데이터가 있었네요!’인 경우

이런 경우도 있습니다. 모 기업은 AI 번역 기능이 있는 앱을 만들고 싶어 했습니다. 해당 산업에서만 특별히 사용하는 용어가 많은데, 기존 번역 앱은 자꾸 다른 의미로 잘못 번역해서 쓸 수가 없었던 겁니다. 그런데 데이터가 하나도 없다고 하시면서 볼 수 있는 건 이 전문 용어집 하나 뿐이다, 그러셨어요. 

그런데 살펴보니 잘 정리된 용어집이라 충분히 개발이 가능할 것 같은 거에요. 그래서 프로젝트가 성사되었습니다. 물론 저희가 실 사용자분들과 많은 인터뷰를 진행하고, 니즈 파악과 성능 검증의 노력을 기울여야 했지만요. 이 경우 크라우드웍스가 하는 일은 바로 작은 데이터의 큰 가치를 찾아드리는 것입니다. 

최신 기술을 쫓기보다 먼저 해야할 일

요즘 AI 관련 기술이 정말 빠르게 변하고 있기 때문에 매일 엄청난 양의 기사와 정보들이 쏟아지고 있습니다. 전문 용어도 매일 너무 많이 나오고 이 내용을 다 따라잡기도 어려우실 겁니다. 

그런데 사실 기업이 기술 자체에만 너무 집중하고 보이는 대로 다 쫓아가다보면 길을 잃어버리기 십상입니다. 기업은 최신 기술을 아는 것보다 사업 목적을 달성하게 해줄 최적의 기술을 찾는 것이 중요하잖아요. 

LLM을 하는 구축하는 기업의 전문가로서 저는, 처음부터 무작정 최신 기술을 쫓기 보다는 내부 데이터를 먼저 보시라고 권하고 싶습니다. 우리가 어떤 것을 가지고 있고, 어떻게 활용할 수 있을지 파악하는 것이 우선이어야 원하는 목적을 달성할 수 있거든요. 어려우시다면 저희 크라우드웍스가 언제든지 도와드리겠습니다. 

One thought on “데이터를 ‘잘 알고’ ‘잘 하는’ 회사가 LLM을 잘 할 수밖에 없는 이유”