AI? 이젠 ‘데이터 빅테크’가 주목받을 시대 [스토리팩-크라우드웍스 ①]
Writer 이건한 기자 | 디지털데일리
해당 콘텐츠는 디지털데일리 테크콘텐츠랩의 ‘스토리팩’에 연재된 기사입니다. ‘스토리팩’은 혁신기업들의 주요 기술·인재·조직 키워드를 책 읽는 듯한 재미와 인사이트로 전달하는 기업별 연재 기획물입니다. |
지난 5월 미국에선 ‘스케일AI’가 19조원의 기업가치를 바탕으로 10억달러(약 1조3500억원)란 초대규모 투자를 유치해 업계의 이목이 집중됐습니다. 투자사 명단도 화제였죠. 아마존, 메타, 인텔 캐피털, 엔비디아, AMD 벤처스 등 전세계 IT 산업을 호령하는 빅테크들이 대거 이름을 올렸거든요. 사업 분야도 제각각인 그들이 스케일AI에 공동으로 지갑을 연 이유는 단 하나였습니다. 앞으로 모든 AI 산언의 원유가 될 ‘데이터(Data)’를 가장 고품질에 대량으로, 신속하게 공급할 기업이 스케일AI라고 판단한 까닭입니다.
따라서 이를 단순히 “1조원이나 투자받은 기업이 있어?”라며 놀라고 넘어갈 일은 아닙니다. 바야흐로 AI의 시대? 아니요. ‘고부가가치 데이터의 시대’가 도래하고 있음을 상징하는 시그널이기도 하기 때문이죠.
실제로 많은 AI 전문가들이 최근 폭발적으로 성장한 AI 모델 및 연산장치들의 성능이 곧 상향평준화되고, 성능 상향보단 최적화 수요가 늘어날 것으로 내다봅니다. 무엇보다 지금도 성능을 높일수록 천문학적으로 증가하는 AI 학습 비용은 기업이 이런 방식을 더 실리적으로 선택하게끔 만들고 있죠.
중요한 사실은 방금 언급한 시점에 이르렀을 때 AI의 품질과 경쟁력은 ‘양질의 학습 데이터’가 좌우할 것이란 점입니다. 이해하기 쉽게 비유해볼까요? 동일한 지능의 두 사람이 있다면 더 좋은 교재로 학습하는 사람이 더 똑똑해질 수밖에 없는 것과 같은 이치입니다. 즉, AI 산업혁명이 본격화된 이 시대엔 더 가성비 좋은 AI 제작을 위해 데이터를 잘 다루는 기업의 잠재가치는 계속 우상향할 것이란 기대가 따르죠. 이런 고부가가치 데이터 시대를 예견하고 일찍이 성과와 잠재력을 입증해온 스케일AI가 투자 대박을 이끌어낸 배경입니다.
이 가운데 2017년 설립된 크라우드웍스는 스케일AI를 가장 빼닮은 한국 기업으로 설명됩니다. 설립 시기부터 스케일AI(2016년)와 비슷하고요. 기업 외부에서 데이터 검수자를 모집·중개하는 크라우드 소싱 기반 ‘데이터 라벨링(Data labeling, 데이터 정보 입력 작업)’ 사업을 바탕 삼아 성장한 것도 공통점입니다.
이런 데이터 라벨링이 한때는 단순 노가다 알바 취급을 받던 시기도 있었습니다. 덩달아 크라우드웍스와 같은 중개 플랫폼의 가치가 평가절하된 시기도 있었죠. 하지만 지금은 상황이 완전히 역전됐습니다. 오늘날 사람과 AI의 협력으로 학습 데이터를 가장 빠르고 정확하게 가공할 수 있는 스케일AI와 크라우드웍스의 시스템은 오히려 ‘대규모 데이터 전처리의 교과서’처럼 여겨지고 있으니까요. 따라서 해외에선 스케일AI가, 국내에선 이런 노하우를 가장 풍부하게 보유한 크라우드웍스의 가치도 서서히 재평가되고 있는 시점이죠.
이런 배경을 바탕으로 들려드릴 이번 이야기는 크라우드웍스가 AI 데이터 전문기업으로 내실을 쌓아온 지난 과정과, LLM을 비롯한 전방위 기업 AI 컨설팅 전문 기업으로 변모해 나가고 있는 과정에 관한 것입니다.
‘국내 1호’ AI 데이터 전처리 전문회사
크라우드웍스는 지난 2023년 코스닥 상장에 성공했습니다. 설립한지 불과 6년만이었죠. 국내에서 AI 학습 데이터 수요가 막 꽃피던 초기부터 선제적으로 대응하며 쌓은 기업가치 덕분이었습니다.
참고로 크라우드웍스가 설립된 2017년은 인간 바둑기사 이세돌과 바둑AI 알파고가 세기의 대결을 벌인 바로 다음 해입니다. 알파고의 근간 기술인 머신러닝과 딥러닝을 중심으로 AI에 관한 세계적 관심이 크게 늘어난 시기였죠. 당시 머신러닝의 인기는 흡사 지금의 LLM(거대언어모델) 못지않았던 것으로 기억됩니다.
하지만 그 화려한 조명 이면에선 많은 AI 기업의 ‘말 못할 고생’도 따랐습니다. 당시만 해도 머신러닝 서비스를 하나 개발하려면 개발 시간의 70~80%를 ‘데이터 전처리’에 할애해야 했거든요.
ⓒ 생성형 AI – DALL·E
데이터 전처리는 AI가 데이터를 학습하기 쉬운 형태로 정제하는 과정입니다. 앞서 언급된 데이터 라벨링도 전처리의 한 종류인데, 개념은 단순합니다. 가령 우리가 아이에게 처음 ‘강아지’를 가르칠 때 강아지를 보여주고 손가락질 하며 “강아지”라고 반복해 말하는 것처럼, 만약 AI에게 강아지와 품종을 학습 시키려면? 먼저 강아지 사진 데이터에 ‘말티즈’, ‘시바견’ 등의 이름표(라벨)를 붙여줘야 합니다. 이런 데이터 라벨링 과정은 모두 사람의 몫이었죠.
문제는 머신러닝 유행 초기만 해도 이를 효과적으로 해낼 노하우를 갖춘 기업이 적었던 점입니다. 따라서 개발 사전작업에만 엄청난 리소스를 투입해야 했던 기형적 악순환이 반복됐고요. 이때 해외에선 온라인 크라우드 소싱 방식의 AI 학습 데이터 생산 모델이 대안으로 떠올랐습니다. 특정 기업이 AI 프로젝트 수행에 필요한 데이터 가공을 의뢰하면, 중개회사는 온라인으로 모집한 작업자를 모아 빠른 속도로 데이터를 가공해 전달하는 방식이었습니다.
이 방식은 꽤나 인기를 얻었는데요. 프로젝트 의뢰 회사는 데이터 전처리에 들이는 시간을 아끼고, 중개 플랫폼과 작업자는 보수를 얻을 수 있는 합리적인 구조 때문이었죠. 한국에 이 모델을 가장 먼저 도입한 회사가 크라우드웍스입니다.
2024년 7월 기준 크라우드웍스를 통해 보수를 받고 활동 중인 데이터 작업자는 60만명에 이른다.
특히 국내에선 이런 모델의 등장이 해외보다 더 절실한 상황이었습니다. 예나 지금이나 고유 언어를 사용하는 한국은 해외 영어권 국가들 대비 질 좋은 AI 학습 데이터를 충분히 확보하기 어려운 편인데요. 한국에도 크라우드웍스가 이 문제의 해결사로 등판하면서 단기간에 이름을 알리기 시작했죠. 크라우드웍스가 아직까지 대중에 데이터 라벨링 전문 중개회사로 주로 기억되고 있는 이유입니다.
하지만 지금의 크라우드웍스를 단순히 크라우드 소싱 데이터 비즈니스의 1세대 기업, 혹은 스케일AI의 패스트 팔로워 기업이라고만 평가하긴 어렵습니다. 설립 직후 지금까지 180여건에 달하는 데이터 라벨링 관련 국내외 특허를 확보하는 등, 꾸준한 연구개발(R&D)로 지금은 그들만의 독자적인 특색과 경쟁력을 갖춘 회사로 거듭났으니까요.
새로운 꿈 ‘데이터 빅테크’
그런데 요즘 크라우드웍스는 더이상 ‘데이터 라벨링 전문’이란 호칭을 달가워하지 않는다고 합니다. “이제는 작아진 교복”이라고 표현하더군요. 세간의 인식과 달리 회사는 그사이 ‘신뢰할 수 있는 AI’ 구현에 필요한 다각적 기업지원 체계를 갖춘 플랫폼 기업으로 변모했기 때문이라고 합니다.
이 또한 데이터 전처리 애로사항에 대한 지난날의 선제적 대응처럼, 변화하는 AI 산업 트렌드에 따른 필연적 대응의 일환이었습니다. 돌이켜 보면 그동안 많은 고성능 AI 모델이 시장의 주목을 받았습니다. 반면 ‘결과물을 신뢰할 수 있는가’는 언제나 별개의 문제였죠. 소위 빅테크라 불리는 기업들의 AI 모델도 잘못된 데이터 학습에서 기인한 차별적 발언, 오답들을 내놓으며 사회적 물의를 빚는 일이 반복되어 왔으니까요.
이 때문에 요즘은 AI 모델의 엄격한 윤리 준수, 신뢰성 마련이 성능 이상의 중요한 의제로 재조명되고 있습니다. 당연히 그 밑바탕인 데이터 신뢰성에 대한 주목도도 높아지는 추세고요. 실제로 요즘은 챗GPT 개발사인 오픈AI가 전세계 주요 언론사들과 데이터 공급 계약을 체결하고 있다는 소식도 잇따라 전해집니다. 천하의 오픈AI도 GPT 모델을 계속 개선하려면 뉴스처럼 정확한 사실과 문장으로 정제된 고급 데이터 확보가 반드시 필요하기 때문입니다.
이런 변화를 그간 최전선에서 바라본 크라우드웍스도 이젠 회사의 새로운 지향점으로 ‘데이터 빅테크’를 바라봅니다. 이를 충분히 자신하고 있기도 한데요. 관련해 몇 가지 구체적인 근거를 들어봤습니다.
프로젝트 경험이 곧 경쟁력!
기본적으론 ‘경험치’를 무시할 수 없다는 설명입니다. 국내 1세대 AI 데이터 전문기업으로서 크라우드웍스가 그동안 수주한 프로젝트는 5000여개에 달합니다. 이를 단순히 8년으로 나눠 계산해도 1년에 600개 이상이고, 의뢰처는 거의 모든 산업군에 이릅니다. 상세 데이터 수로는 2억6000개에 달하고요. 명실공히 국내 최다 수준입니다.
이런 다분야 데이터 처리에 관한 풍부한 경험은 곧 ‘어떤 데이터를 마주해도 잃지 않는 여유’가 됩니다. 특히 AI 학습용 데이터는 산업별로도 특성과 특징이 다르고, 동종산업이라도 기업별로 어떤 기능을 구현하고자 하는지에 따라 전처리 요구사항이 천차만별입니다. 이때 각 요구사항에 신속히 대응하는 것은 물론이고, 고객사가 더 효율적인 데이터를 활용하도록 하는 컨설팅까지 제공할 수 있어야 확실한 사업 차별화도 가능하죠. 이런 경험의 영역은 크라우드웍스가 누구에게도 쉽게 추격 당하거나 밀리지 않는다고 자부하는 첫 번째 강점입니다.
기술 자산화에 진심…”따라올 테면 따라와 봐”
또다른 자신감으론 ‘기술의 자산화’를 꼽았습니다. 현재 크라우드웍스가 보유한 180여개의 특허는 동종 분야 경쟁자들의 최소 2배 이상이라고 하네요. 물론 특허의 수가 꼭 기술력을 대변한다고 볼 순 없습니다.
하지만 적어도 데이터 라벨링이란, 어찌 보면 단순해 보이는 일마저 꾸준한 현장 조사와 기술 연구를 통해 적극적으로 개선해온 산물이라고 볼 수 있는 대목입니다. 그 가운데 확보된 양질의 특허는 경쟁자의 추격을 효과적으로 늦추는 무기가 되기도 했고요. 또한 이런 다수의 특허 확보는 ‘기술 자산화’란 말처럼 회사의 사업 종속성을 보존하는 측면에서도 중요한 전략이죠.
그중 ‘AI 학습대상 이미지 샘플링 기술’은 크라우드웍스가 보유한 핵심 기술 특허입니다. 영상 데이터의 전처리 효율을 극대화하는 노하우죠. 쉽게 말해 1초에 30장, 혹은 60장의 연속된 이미지(프레임)로 구성되는 영상은 고작 10초짜리 영상 학습에도 최소 300장의 프레임을 처리해야 하므로 투입되는 컴퓨팅 리소스 부담이 큽니다. 하지만 크라우드웍스의 본 샘플링 기술은 그 안에서 꼭 필요한 프레임만 걸러냄으로써 영상 전처리 작업의 시간과 비용을 획기적으로 단축할 수 있죠.
데이터 가공 사업은 정확성과 더불어 적은 비용, 신속한 데이터 제공 역량이 사업 경쟁력의 큰 부분을 차지합니다. 특히 요즘처럼 영상 데이터 처리 수요도 부쩍 늘어난 시점에는 이 같은 특허의 경쟁력도 한번 더 재평가 되고 있죠.
특허 뿐 아니라 자체 개발 기술의 표준화 측면에서도 성과를 거둔 바 있습니다. 대표적으로 크라우드웍스가 지난 2022년 개발한 ‘데이터 라벨링 태스크 설계 및 결과 데이터 명세 지침 기술’ 등 2개의 기술이 국내 정보통신 분야 및 표준 제정을 담당하는 TTA(한국정보통신기술협회) 지정 정보통신단체표준 기술로 채택된 바 있습니다.
이 밖에도 크라우드웍스가 내부에서 공격적으로 운영한 직무발명 보상제도도 기술 자산화에 일조했다고 합니다. 관련해 크라우드웍스 관계자는 “우리 직원들이 개발한 기술 및 특허에 대한 보상은 대기업 수준으로 지급하고 있다”며 “최다 보상금을 받은 직원은 보상금 규모가 본인 연봉 수준에 달하기도 했다”고 말했습니다.
올인원 데이터 플랫폼 ‘워크스테이지’
‘워크스테이지(Workstage)’는 크라우드웍스의 이런 기술 노하우가 총집약된 올인원 데이터 처리 플랫폼입니다. 효율적이고 안전한 데이터 처리 환경, 효과적인 데이터 작업자 관리 기능이 균형 있게 내장되어 있더군요.
기본적으론 AI를 이용해 데이터 작업자의 부담을 다각적으로 최소화합니다. 초기 데이터 라벨링은 모든 라벨을 사람이 직접 입력하고 검수해야 했는데, 이 방법은 당연히 인건비 부담이 크고 작업 속도도 느립니다. 그러나 데이터 검수 작업을 100% AI에게 맡길 경우, 아직은 사람 수준의 정확한 검수나 라벨링을 장담할 수도 없습니다.
크라우드웍스는 그 대안으로 라벨링 기본 작업의 상당 부분은 AI로 자동화하되, 작업자는 해당 데이터를 검증하고 오차를 수정하는 일에 역량을 집중하도록 했습니다. 예컨대 사진 데이터 전처리에선 작업자가 특정 범위를 지정하면 AI가 사진을 분석해 1차 라벨링을 완료하는 방식, 아예 원클릭으로 AI 모델이 전체 라벨링을 수행하는 방식 등이 워크스테이지에서 지원되는데요. 전문 데이터 작업자는 그 직후의 최종 검수를 맡기 때문에 속도는 수동식보다 최대 13.8배 향상된다고 합니다. AI와 인간이 협업하는 만큼 정확도는 99.9%에 달하고요. 추가로 라벨링 결과물 검수 과정도 AI가 보조할 수 있는데, 이 방법으로도 검수 시간이 최대 17% 단축됩니다.
크라우드웍스 워크스테이지 ‘스마트라벨링’ 기능 데모
워크스테이지는 사용자가 본인 작업에 필요한 요소로만 직접 작업 화면을 구성할 수 있는 특징도 있습니다. 이를 통한 작업 환경의 최적화, 효율화가 뒷받침되며 ‘템플릿’에 해당하는 40개 이상의 특수목적 라벨링 도구도 지원합니다. 이처럼 데이터 작업자의 피로를 최소화하며 정확도와 속도는 높이도록 설계된 점이 워크스테이지의 기능적 특징입니다.
이때 만약 기업, 정부기관 등의 AI의 원천 데이터를 만드는 프로젝트라면 보안도 중요합니다. 워크스테이지는 데이터 작업이 수요처 내부에서 안전하게 이뤄질 수 있도록 워크스테이지를 온프레미스(On-premise) 환경으로 제공합니다. 더불어 본격적인 작업이 시작되면 체계적인 작업 관리 또한 중요합니다. 이를 위해 워크스테이지에선 관리자가 대시보드로 프로젝트 진행 상황을 손쉽게 모니터링 할 수 있고, 작업자와 실시간 소통 기능을 통해 보다 원활한 프로젝트 진행 관리를 지원합니다.
데이터 품질의 한끗을 가르는 ‘전문가’
AI가 학습할 데이터마저 AI로 처리하고 검수할 수 있는 시대입니다. 하지만 반복해 말하지만 그 마침표를 찍는 건 결국 인간 전문가입니다. 또한 같은 작업 환경이라도 주어진 AI 도구를 얼마나 능숙하게 다룰 수 있는지, 얼마나 많은 데이터를 작업했는지 경험에 따라 작업 속도와 품질이 달라집니다. 이를 잘 아는 크라우드웍스가 ‘데이터 빅테크’를 꿈꾸며 제시한 또다른 자신감의 원천이 바로 60만명에 이르는 전문 데이터 작업자 풀과 인재양성 시스템입니다.
실제로 크라우드웍스는 2020년부터 데이터 라벨링 전문 교육 플랫폼 ‘크라우드 아카데미’를 운영 중입니다. 이를 통한 체계적인 데이터 처리 교육으로 전문 데이터 작업자를 지속 배출하고 있죠. 한국인공지능협회가 발급하는 ‘인공지능 데이터 전문가 자격증(AIDE)’, 데이터 전문가, 데이터 사이언티스트, AI 학습 데이터 프로젝트 매니저, AI 활용 능력 교육 등 데이터 및 AI 분야의 고급 인재 양성을 위한 다양한 전문 교육 커리큘럼도 연구되고 있습니다.
특히 전문 작업자 양성은 필연적으로 긴 시간과 교육 노하우가 필요하기에 후발주자가 단기에 따라잡을 수 없는 영역입니다. 재미있는 건 크라우드웍스가 이 부문에서도 특허를 획득한 점이죠. 회사가 지난 2022년 미국 특허로 확보한 ‘크라우드소싱 기반 프로젝트의 특성에 따른 작업자 선별 방법’은 예정된 프로젝트의 기능 요소를 분석해 관련 작업 성과가 가장 높은 작업자들을 자동 선별하는 기술입니다. 전문 작업자의 빠른 선정 및 배치, 무엇보다 선정 과정에서 관리자의 주관성이 배제되는 보완적 요소도 갖췄죠.
이처럼 AI 자동화 기술 적용-전문 작업자 육성 및 배정에 이르는 풀스택 데이터 작업 시스템은 오늘날 크라우드웍스가 치열한 시장 경쟁 가운데서도 쉽게 주도권을 잃지 않는 원동력으로 설명됩니다.
‘해상 자율주행 데이터’, 누가 다뤄봤을까?
‘해상 자율주행 솔루션 개발을 위한 학습 데이터 가공기’는 지금까지 언급된 크라우드웍스의 강점이 종합적으로 발휘된 사례 중 하나로 꼽힙니다. 망망대해 바닷길 위에서의 해상 자율주행은 굉장히 특수하며, 누구에게든 생소한 분야죠. 자연히 학습 가능한 데이터도 한정적이며 해상 자율운행에 필요한 학습 데이터 가이드와 작업 요건을 명확히 이해하지 않으면 수행하기 어려운 프로젝입니다. 실제로 크라우드웍스는 주어진 데이터에서 해상 자율운행과 거리가 먼 사진을 거르고, 이미 20개 이상의 불필요한 데이터 태깅값이 설정된 상태에서 꼭 필요한 8개의 값만 재가공해 유의미한 데이터로 변형시키는 복잡한 복잡한 과정이었죠.
이런 까다로운 조건에 크라우드웍스도 초기엔 다소 긴장했다고 하는데요. 이 과제도 결국은 자체 시스템을 통한 선박, 항만 관련 경험자 선별, 숙련된 인력 중심의 드림팀을 꾸려 한달 만에 9만장 이상의 이미지 데이터 가공과 검수를 해내는 데 성공했다고 합니다.
해상 자율주행 솔루션 개발을 위한 학습 데이터 가공기 – 샘플
크라우드웍스가 돈을 버는 법
현재 크라우드웍스의 주요 매출 역시 데이터 부문에서 창출되고 있습니다. 최근 수년 사이 AI에 대한 전 산업의 관심이 높아지며 관련 매출도 상승세에 있고요. 전자공시된 사업보고서에 따르면 지난해 데이터 중심 AI 사업 매출은 2년 전과 비교해 2배 증가했고, 특히 교육사업은 무려 4.4배나 성장한 점이 눈에 띕니다. 데이터 전문 작업자 양성 수요가 크게 증가했다는 건 그만큼 AI 데이터 가공 사업과 시장에 대한 잠재적 수요 또한 높다는 점을 의미하죠.
또한 크라우드웍스는 올해 생성형AI 중심의 신규 데이터 수요가 늘어남에 따라 ‘파인튜닝(Fine turning, 미세조정)을 위한 고품질 데이터셋 구축, 파운데이션 모델과 기업 데이터를 연결해 맞춤형 LLM을 구축하는 비즈니스, 신뢰할 수 있는 AI 개발을 위한 모델 평가 및 검증까지, 비즈니스 분야가 빠르게 확장되고 있다는 설명입니다.
궁극적으론 이런 수요에 신속히 대응함으로써 AI 컨설팅부터 LLM 구축, 운영, 관리까지 전 영역을 지원 가능한 기업으로 발돋움 하는 것이 현재 크라우드웍스의 목표죠. 앞서 그랬듯, 이 계획에 대한 자신감도 충분해 보입니다. 크라우드웍스는 지금도 국내 AI 데이터 사업 시장 기준으로 매출 규모, 데이터 작업자, 프로젝트 수 등 모든 지표에서 후발주자들을 압도한다고 자부합니다. 이를 바탕으로 1등 타이틀에 안주하지 않는 것, 해외시장 개척 또한 향후 주요한 비즈니스 과제로 제시했습니다.
윤리적 AI 또한 강조했습니다. 크라우드웍스 관계자는 “AI 편향성은 기술 발전과 함께 반드시 해결해야 할 이슈”라며 “데이터 작업 과정에서 개인 정보보호, 윤리적 감독 등의 역할과 책임을 인식하며 신뢰할 수 있는 AI를 만들어야 한다”고 말했습니다.
‘AI ready data!’ “앞으로도 계속”
이 모든 이야기처럼 크라우드웍스는 2017년 설립 이래 현재까지 ‘AI 데이터 전문기업’으로서의 정체성을 공고히 해왔습니다. 또한 모든 상황이 앞으로의 AI 판은 ‘데이터 중심’으로 재편되리란 사실을 뒷받침하고 있는데요. 여담이지만 지금처럼 AI가 열풍인 시기에도 AI 서비스로 돈을 버는 기업은 아직 소수에 불과합니다. 하지만 스케일AI나 크라우드웍스처럼 그 근간의 데이터를 다루며 비즈니스 노하우를 닦은 기업들은 일찍이 수익화에 성공했죠. 또한 ‘신뢰할 수 있는 데이터’의 수요가 높아질 앞으로는 이 흐름이 더욱 공고해질 것으로 예견됩니다.
더불어 크라우드웍스는 “신뢰할 수 있는 AI 시스템은 결국 고객의 데이터부터 시작됨을 인지하고, 기업은 LLM과 함께 데이터를 준비해야 한다”고 말합니다. 요즘 가장 핫한 AI 시장 키워드이자 LLM도 결국은 데이터를 빼고서 이야기하긴 어려운데요. 이어질 이야기에선 크라우드웍스가 오랜 데이터 전문 기업의 노하우를 바탕으로 어떻게 ‘LLM을 가장 잘 할 수 있는 기업’으로 변모하고 있는지 전해드리겠습니다.