‘마케터가 SQL을 쉽게 쓰도록 돕는 AI’를 위한 ‘Text to SQL’ 파인튜닝 데이터셋 구축

고객사 K는,
신용카드와 체크카드, 금융 서비스 등을 제공하는 국내 주요 카드사입니다. 다양한 제휴 혜택과 디지털 결제 플랫폼을 통해 고객의 일상에 맞춤형 금융 서비스를 제공합니다.
프로젝트의 시작
크라우드웍스에 프로젝트를 의뢰한 K사는 카드 사용률 증대 및 가맹점 캠페인 기획 등 다양한 마케팅 목적을 위해 내부 DB를 자주 활용합니다. 그러나 마케터가 직접 SQL 쿼리를 작성하기 어려워 데이터 접근의 효율성이 낮고 의사 결정 속도가 느린 문제가 있었습니다. 문제 해결을 위해 K사는 자연어 질의를 통해 원하는 데이터를 즉시 조회할 수 있는 AI를 개발하고자 했지만 도입하고자 하는 LLM에 다음과 같은 문제가 있었습니다:
- 기존 기계학습 방식으로는 칼럼명을 완벽히 일치시켜야 쿼리가 생성되므로 실사용에 한계가 존재함
- 모델의 자연어 이해도 개선을 위해 다양한 표현 방식의 자연어 질의가 필요함
- 테이블 간의 조인 관계나 데이터 맥락에 대한 도메인 이해가 부족한 상태에서는 정확도 개선이 어려움
따라서 Text to SQL 파인튜닝 데이터의 구축이 필요했고 파트너로 크라우드웍스를 선택하게 되었습니다.
크라우드웍스를 선택한 이유
- 실제 서비스 환경을 고려한 고도화된 데이터셋 구축 경험과 노하우가 있어요.
- 쿼리 작성 실무 경험이 있는 전문 인력 확보가 가능해요.
- 복잡한 데이터 구조 및 도메인 이해를 바탕으로 한 컨설팅 역량을 갖추고 있어요.
- 파견 형태의 밀착 협업을 통해 고객사 시스템과 실시간 연동이 가능해요.
프로젝트 해결 과정
1) 특명! SQL 쿼리 쌍 데이터를 8,400건 구축하라!
크라우드웍스는 프로젝트 1차 단계에서 고객사의 내부 마케터들이 가장 자주 활용하는 상위 80개 테이블을 중심으로 자연어 질의와 그에 대응하는 SQL 쿼리 쌍 데이터를 총 8,400건 구축하기로 했습니다. 이 과정에서 단순히 질의와 쿼리를 일대일로 구성하는 데 그치지 않고, 하나의 질의에 대해 동일한 결과를 반환할 수 있는 다양한 쿼리 버전을 병렬로 제공하기로 했죠. 이를 통해 모델 학습의 다양성과 범용성을 동시에 확보할 수 있었습니다. 특히 질의 표현의 말투, 문장 구조, 단어 선택 등을 최대한 다양하게 구성하여 실제 서비스 사용 환경을 충실히 반영하고자 했는데요. 특별히 데이터의 정합성을 높이기 위해 각 질의에 활용된 테이블명과 컬럼명을 명확히 병기하는 방식으로 설계했습니다.

자연어 질의와 그에 대응하는 SQL 쿼리 쌍 데이터 구축 예시
2) K사 마케팅 업무의 특성을 이해한 후 체계적인 데이터 구축
2차 프로젝트에서는 1차 작업 결과를 기반으로 SQL 생성 정확도를 향상시키기 위해 테이블 및 컬럼 수준의 메타 정보를 체계적으로 구축했습니다. K사 시스템에서 자주 활용되는 80여 개 테이블을 대상으로 테이블 정의, 한글 테이블명, 조회 가능한 데이터의 유형, 타 테이블과의 조인 가능 관계 등 업무 맥락 중심의 상세 정보를 정리했고요. 이를 통해 모델이 자연어 질의를 해석하고 적절한 쿼리를 생성하는 데 필요한 해설서 형태의 기반 데이터를 마련하였습니다. 특히 이 단계는 단순한 데이터 정의를 넘어 K사의 마케팅 업무 목적과 데이터 흐름에 대한 높은 이해도를 바탕으로 설명 중심의 데이터를 구성해 완성도를 높였습니다.

해설서 형태의 데이터 구축 예시
3) 쿼리를 제대로 이해하는 데이터 작업자를 선별해 현장 투입
이 프로젝트는 K사 내부 DB 접근이 필요한 민감한 작업 특성상 크라우드웍스의 전문 인력이 고객사에 파견되는 밀착형 협업 방식으로 진행되었습니다. 특히 실제 SQL 작성 경험이 있는 전문가로 구성된 팀을 운영하는 게 중요했는데요. 테이블 간 조인 시 중심 테이블 선정, 주요 키 컬럼 식별 등 기본기를 갖추고, 2년 이상의 실무 쿼리 작성 경험을 보유한 인력만을 선발하기 위해 대면 면접과 코딩 테스트를 병행하였으며, 1차 작업에 투입된 동일 인력을 2차 프로젝트에도 연속 투입함으로써 별도의 적응 기간 없이 고숙련 상태에서 신속한 작업 진행이 가능했습니다.
작업 혼선을 최소화하기 위해 투입 초반에 PM이 투입되어 기존에 고객사가 갖고 있었던 SQL 쿼리문들을 분석하고, 이를 바탕으로 고객사 DB에 적합한 가이드라인을 구축했습니다. 또한, 반복 투입된 작업 인력을 통해 프로젝트 연속성을 확보하고, 매 단계마다 고객의 피드백을 신속히 반영하는 크라우드웍스의 운영 전략은 전체 프로젝트의 완성도를 크게 높이는 데 기여했습니다.
프로젝트 결과는?
당초 고객사와 협의했던 데이터 수량의 2배 이상을 단기간 내에 확보하였고, 자연어 질의 패턴의 다양성과 정확도 모두를 만족시키는 고품질 데이터를 제공할 수 있었습니다. 성과에 대해 높은 만족도를 보인 K사는 2025년도 사업에서도 크라우드웍스와 추가적인 협업을 계획하고 있습니다.
- 담당 PM :
“프로젝트 초기에는 자연어 질의와 SQL 쿼리 자동 생성이라는 과업이 내부 마케터들의 실제 사용 환경과 얼마나 잘 맞을 수 있을지에 대한 의문이 있었습니다. 특히 고객사 내부 데이터 구조가 복잡하고, SQL 작성 경험이 없는 실무자가 주 사용자라는 점에서 ‘과연 실질적인 도움이 될 수 있을까’ 하는 우려가 있었던 것도 사실이고요. 하지만 크라우드웍스의 인력이 고객사에 직접 파견되어 업무 목적에 최적화된 데이터 구조를 함께 설계하고, 질의 유형을 마케팅 목적별로 세분화하면서 우려가 빠르게 신뢰로 바뀌는 걸 느꼈습니다. 결과적으로 고객사는 당초 계획보다 2배 이상의 결과물을 확보함과 동시에, 실사용자 중심의 데이터셋이라는 기대 이상의 성과를 경험하였고, 이에 대한 만족을 바탕으로 “다음 연도 사업도 크라우드웍스와 함께하고 싶다”는 긍정적인 피드백을 주셨습니다. PM 입장에서도 고객사의 실질적 니즈를 정확히 파악하고, 데이터 구축을 넘어서 비즈니스 이해를 바탕으로 한 제안까지 가능했던 뜻깊은 협업이었고요!”
특수하거나 복잡도가 높은 데이터를 구축할 때는 무엇보다 프로젝트에 대한 많은 경험과 노하우, 적절한 솔루션의 보유, 전문 데이터 작업자의 선별과 관리가 중요합니다. 체계적인 LLM 데이터 구축을 원하신다면 언제든지 크라우드웍스를 찾아주세요!