엔비디아 지원 인공지능 스타트업의 합성 데이터 활용 전략

엔비디아가 지원하는 인공지능 스타트업인 SandboxAQ는 Alphabet에서 분사하여 이번 주 520만 개의 ‘합성’ 분자 데이터를 공개하였다. 이 데이터는 실험실에서 발견된 것이 아니라 컴퓨터를 통해 생성된 것으로, 신약 개발을 가속화하기 위해 다른 인공지능 모델을 훈련시키도록 설계되었다. 이러한 움직임은 웹에서 수년간 데이터를 수집한 후, 이제 모델을 더 똑똑하게 만들기 위한 고품질의 인간이 생성한 데이터가 부족해지고 있다는 AI 산업 전체에 대한 중대한 문제를 강조하고 있다.

2025년 6월 19일, ARPU의 보도에 따르면, AI 산업의 발전이 데이터 부족 문제에 직면하고 있다. 대형 언어 모델(LLM)의 개발은 OpenAI의 전 안전 책임자인 다리오 아모데이를 포함한 연구자들이 개척한 ‘스케일링 법칙’에 의해 오랫동안 인도되어 왔다. 이 원칙은 모델을 더 크게 만들고 더 많은 데이터와 컴퓨팅 파워를 주면 기본적인 능력 면에서 개선이 이루어진다는 단순한 개념에 기반하고 있다. 이러한 이유로 기술 대기업들은 모델을 훈련시키기 위해 인터넷에서 엄청난 양의 텍스트와 이미지를 긁어서 수집하고 있다.

그러나 이 전략은 한계에 도달하고 있다. 2024년 말, OpenAI, 구글, Anthropic 같은 주요 연구소들이 새로운 모델이 그 전작을 크게 능가하지 못하면서 기대에 미치지 못한다는 보고서가 나왔다. 블룸버그 보고서에 따르면 그 이유 중 하나는 새로운 고품질 훈련 데이터를 찾는 것이 갈수록 어려워지고 있다는 것이다. 예를 들어, OpenAI의 오리온 모델은 충분한 새로운 코딩 데이터를 학습하지 못해 코딩 작업에서 부족하다는 평가를 받았다.

점점 더 많은 웹사이트가 AI 크롤러를 차단하는 기술적 방법을 사용하고 있다. 데이터 출처를 추적하는 ‘Data Provenance Initiative’ 조사 결과에 따르면, 일 년 만에 접근을 제한하는 고가치 웹사이트의 비율이 3%에서 20% 이상으로 증가했다.

합성 데이터란 무엇인가? 합성 데이터는 컴퓨터 시뮬레이션 또는 알고리즘에 의해 생성된 정보로, 실제 세계에서 수집된 것이 아니다. AI의 경우, 한 AI 모델이 새 데이터를 생성하여 텍스트, 이미지 또는 SandboxAQ의 경우 분자 구조를 훈련시키는 것을 의미한다. 이를 통해 개발자들은 웹에서 데이터를 긁어오거나 비용이 많이 드는 물리적 실험을 수행하지 않고도 거대하고 특수한 데이터셋을 만들 수 있게 된다.

합성 데이터를 생성하는 이 접근법은 점점 더 인공지능 산업의 미래에 중앙적인 역할을 하게 되었다. 골드맨 삭스 글로벌 인스티튜트의 공동 수장인 조지 리는 인간이 생성한 데이터가 거의 고갈된 상황에서 “기계들이 이제 합성 데이터를 생성하여 그들의 전후 훈련을 진전시키고 있다.”고 했다. 구글의 ‘Co-Scientist’라는 과학 발명 가속화를 위한 에이전틱 프레임워크를 예로 들며 이 과정을 설명하였다.

이 모델들 자체가 가설을 생성하고 잘못된 답변을 걸러내는 과정을 통해 후속 모델을 개선하는 데 사용되고 있다. 이는 OpenAI가 그들의 개선된 ‘o-series’ 추론 모델을 개발하는 핵심 방법 중 하나이다.

합성 데이터 생성이 실질적인 해결책인가? 데이터를 생성하는 것은 분명한 이점이 있다. 이는 잠재적으로 무한한 훈련 자료의 원천을 제공하고, 많은 저작권 분쟁을 우회하며, 마약 발견이나 코드의 보안 취약점 찾기와 같은 특정하고 복잡한 작업에 맞춰진 데이터셋을 창출할 수 있게 한다. 기업에게는 민감한 고객 정보를 드러내지 않고 기업 프로세스를 훈련할 수 있는 방법을 제공한다.

그러나 이 방법은 위험이 없는 것은 아니다. 가장 큰 우려는 때때로 “모델 붕괴” 또는 “근친 교배”로 불리는 현상으로, AI가 자신의 출력물을 기반으로 훈련되어 자신의 오류, 편향 및 환각을 증폭시킬 수 있다는 것이다. 이 문제는 AI 안전의 핵심 과제가 되고 있다. OpenAI 자체도 o3 추론 모델이 이전 버전보다 심각한 환각률을 가졌다고 인정했다. 모델이 그 자체로 잘못된 출력에서 학습될 경우, 이 문제가 나아지지 않고 더 악화될 수 있다.


AI 경쟁의 변화 합성 데이터로의 전환은 원시 컴퓨팅 파워의 중심성을 강화한다. 방대한 고품질 합성 데이터셋을 생성하려면 막대한 컴퓨팅 자원이 필요하며, 이는 더 많은 데이터센터에 대한 “끝없는 요구”를 촉발한다. 한 매킨지 보고서는 데이터센터가 2030년까지 전 세계적으로 7조 달러의 투자가 필요할 것으로 예측했고, 그 중 상당 부분이 AI 업무에 의해 주도될 것이라고 밝혔다.

이를 통해 마이크로소프트, 구글, 아마존 같은 대형 클라우드 업체와 엔비디아 같은 칩 제조업체와 같이 가장 큰 자금력을 보유하고 가장 진보된 하드웨어를 보유한 회사들의 주도권이 더욱 강화되고 있다. 아마존의 CEO 앤디 재시는 최근 주주들에게 “미래의 보상을 얻기 위해 지금 이 인프라에 ‘공격적으로’ 투자해야 한다.”고 말했다. 고품질 합성 데이터를 효율적으로 생성할 수 있는 능력이 새로운 경쟁의 장벽이 될 수 있다.

이전에는 데이터를 둘러싼 경쟁으로 정의됐던 산업이 이제는 데이터를 생성하는 경쟁에 진입하고 있다. 모델을 훈련하기 위한 것이 아니라 학습할 데이터 자체를 생성하는 가장 효과적인 “AI 공장”을 구축할 수 있는 기업이 현재의 성능 한계를 뛰어넘고 다음 혁신의 물결을 열 가능성이 가장 높다.