엔비디아 서버, 중국 문슈트 AI 등 최신 AI 모델 성능을 10배 향상

샌프란시스코 — 엔비디아(Nvidia)는 수요일 최신 인공지능(AI) 서버가 중국을 포함한 여러 최신 모델의 성능을 대폭 향상시킨다는 새로운 데이터를 공개했다. 회사는 특히 Moonshot AI의 모델 등 일부 인기 모델에서 10배 성능 향상을 확인했다고 밝혔다.

2025년 12월 3일, 로이터 통신의 보도에 따르면, 엔비디아는 자사 데이터가 AI 분야의 초점이 ‘모델 훈련’에서 ‘실사용(서빙)’으로 이동하는 시점에 나왔다고 설명했다. 훈련 단계에서는 엔비디아가 시장을 지배하고 있으나, 실사용 단계에서는 AMD(Advanced Micro Devices)와 세레브라스(Cerebras) 등 경쟁사들이 더 많은 도전을 제기하고 있다.

엔비디아가 공개한 데이터는 mixture-of-expert 방식으로 알려진 AI 모델들에 초점을 맞췄다. 이 기법은 AI 모델의 효율성을 높이기 위해 하나의 질문(또는 입력)을 여러 조각으로 나누고, 각 조각을 모델 내부의 서로 다른 ‘전문가(expert)’에게 할당하는 방식이다. 올해 들어 이 접근법은 폭발적으로 인기를 얻었는데, 그 계기는 중국의 DeepSeek가 공개한 오픈소스 모델이 초기 2025년 경쟁 모델들보다 엔비디아 칩에서 더 적은 훈련으로도 높은 성능을 보이며 주목을 받았기 때문이다.

주목

“mixture-of-expert 기법은 모델 크기와 연산 효율을 분리해 높은 처리량을 목표로 한다.”

이후로 이 기법은 ChatGPT를 만든 OpenAI, 프랑스의 Mistral, 중국의 Moonshot AI 등 여러 조직에 의해 도입되었으며, Moonshot은 7월 자사의 고성능 오픈소스 모델을 공개해 높은 순위를 차지했다. 엔비디아는 이러한 모델들이 자사 칩에서 덜 훈련될 수 있다는 점을 인정하면서도, 자사의 하드웨어가 그러한 모델을 사용자들에게 서비스(서빙)하기에 적합하다는 점을 강조하고 있다.

엔비디아는 수요일 발표에서, 자사의 최신 AI 서버가 72개의 선두 칩을 하나의 컴퓨터에 집적하고 칩 간을 연결하는 고속 링크를 제공한다며, 이 구성으로 Moonshot의 Kimi K2 Thinking 모델의 성능을 이전 세대 엔비디아 서버 대비 10배 향상시켰다고 밝혔다. 엔비디아는 동일한 수준의 성능 향상을 DeepSeek의 모델에서도 확인했다고 덧붙였다.

엔비디아에 따르면 이러한 성능 향상의 주된 원인은 서버에 탑재할 수 있는 칩의 대수칩들 간의 고속 연결이다. 이 두 요소는 데이터 전송 병목을 줄이고 모델의 병렬 처리를 효율적으로 지원함으로써 실사용 환경에서의 처리량과 응답성을 개선하는 핵심 요소로 작용한다. 엔비디아는 이 부분에서 여전히 경쟁사들보다 우위를 점하고 있다고 주장했다.

경쟁 상황에 관해서는, 엔비디아의 주요 경쟁사인 AMD가 다수의 고성능 칩을 집적한 유사한 서버를 개발 중이며, 이 제품이 내년 시장에 출시될 예정이라고 회사 측이 밝힌 바 있다고 기사에서 전했다. AMD의 다중 칩 서버는 엔비디아의 제안에 대한 직접적인 경쟁 요소로 평가된다.

주목

기술적 배경과 의미

mixture-of-expert 아키텍처는 전체 모델 파라미터 가운데 일부만 활성화해 계산량을 줄이면서도 모델의 표현력을 유지하려는 접근이다. 구체적으로는 입력이 들어왔을 때 해당 입력에 가장 적합한 ‘전문가’들만 선택적으로 활성화함으로써 전체 연산 비용을 절감한다. 이로 인해 훈련 단계에서 필요한 연산과 시간은 줄어들 수 있으나, 여러 전문가를 신속하게 호출하고 그 결과를 집계하려면 서버 설계에서 칩 간 통신 대역폭과 지연(latency)에 대한 요구가 매우 높아진다.

엔비디아의 이번 발표가 시사하는 바는 두 가지다. 하나는 고집적(multichip) 서버 설계와 고속 인터커넥트가 mixture-of-expert 모델의 실서비스화(서빙)를 가능하게 하는 핵심 인프라라는 점이다. 다른 하나는 훈련 효율성과 서빙 효율성 간의 균형이 AI 생태계의 경쟁 구도를 재정의하고 있다는 점이다. 즉, 모델을 더 적은 비용으로 훈련시키는 능력만으로는 충분하지 않으며, 대규모 사용자에게 실시간으로 제공할 때의 성능과 확장성도 동등하게 중요해졌다.

시장과 향후 전망

엔비디아의 주장은 실사용(서빙) 성능에서 우위를 유지하기 위한 기술적 근거를 제시한 것이다. 특히 엔비디아가 제시한 72칩 집적 서버는 대규모 병렬 처리와 칩 간 통신 효율 개선을 통해 mixture-of-expert 모델의 낮은 활성화 비율을 보완할 수 있다. 반면 AMD 등 경쟁사들이 내놓을 다중 칩 솔루션은 이러한 우위에 도전할 가능성이 있다. 업계는 향후 1~2년간 하드웨어 아키텍처, 칩 간 상호연결 기술, 그리고 소프트웨어 최적화(모델 분할 및 라우팅 전략)가 결합되어 서버 성능 경쟁이 심화될 것으로 전망하고 있다.

전문가적 해석

실무적 관점에서 볼 때, 엔비디아의 이번 데이터 공개는 고객사와 클라우드 서비스 제공자에게 자사 인프라가 대규모 서빙 환경에서도 경쟁력이 있음을 보여주려는 전략적 메시지다. 모델의 훈련 효율실사용 성능은 각각 다른 엔지니어링 과제를 동반하므로, 하드웨어 벤더는 두 가지를 모두 만족시키려는 솔루션을 제시할 필요가 있다. 특히 mixture-of-expert 모델의 경우, 칩 수와 고속 링크의 조합이 비용 대비 성능을 결정짓는 핵심 요소가 될 것이다.

결론적으로, 엔비디아의 발표는 AI 서버 시장에서의 기술 경쟁이 단순한 칩 성능 경쟁을 넘어 시스템 설계와 상호연결 기술로 확장되었음을 보여준다. 향후 AMD와 기타 업체들의 다중 칩 서버 상용화 시점과 성능 데이터가 업계 판도를 가늠하는 주요 변수가 될 전망이다.