인베스팅닷컴 보도에 따르면 엔비디아(NVIDIA)의 GB200 NVL72 랙 스케일 시스템이 기존 세대 하드웨어에 비해 혼합 전문가(Mixture-of-Experts, MoE) AI 모델에 대해 10배의 성능 향상을 제공하면서 최첨단 AI 모델의 배치 방식에 변화를 일으키고 있다.
2025년 12월 3일, 인베스팅닷컴의 보도에 따르면, MoE(혼합 전문가) 아키텍처는 작업별로 관련 있는 ‘전문가(expert)’ 구성요소만 활성화하는 방식으로 인간의 뇌 작동을 모방하며, 최상위 AI 모델들에서 지배적인 접근법으로 자리잡았다. Artificial Analysis leaderboard에 따르면 상위 10개의 가장 지능적인 오픈소스 모델은 모두 MoE 아키텍처를 사용하고 있으며, 여기에는 DeepSeek-R1, Moonshot AI의 Kimi K2 Thinking, OpenAI의 gpt-oss-120B, Mistral Large 3 등이 포함된다.
엔비디아의 GB200 NVL72 시스템은 72개의 Blackwell GPU를 하나의 단위로 결합해 1.4 exaflops의 AI 성능을 제공하며 30TB의 공유 메모리를 갖춘다. 이 시스템의 NVLink Switch는 130 TB/s의 연결 대역폭으로 통합 패브릭을 생성하여, 전문가(expert)들을 최대 72개의 GPU에 걸쳐 분산시킬 수 있게 한다.
이 같은 설계는 MoE 확장에 따른 핵심 과제를 직접적으로 해결한다. GPU당 전문가 수를 줄이고, 전문가들 간 통신을 가속화함으로써 확장성 문제를 완화한다. 또한 시스템은 엔비디아의 Dynamo 프레임워크와 NVFP4 포맷을 통합해 추가적인 성능 향상을 도모한다.
“At CoreWeave, our customers are leveraging our platform to put mixture-of-experts models into production as they build agentic workflows,”라고 CoreWeave의 공동창업자 겸 최고기술책임자(CTO)인 Peter Salanki는 말했다.
이 GB200 NVL72는 Amazon Web Services, Google Cloud, Microsoft Azure, Oracle Cloud Infrastructure 등 주요 클라우드 제공업체들에 의해 배치되고 있다.
“DeepL is leveraging NVIDIA GB200 hardware to train mixture-of-experts models, advancing its model architecture to improve efficiency during training and inference,”라고 DeepL의 연구팀 책임자 Paul Busch는 말했다. DeepL은 차세대 AI 모델을 훈련하기 위해 Blackwell NVL72 시스템을 사용하고 있다.
이 10배의 성능 향상은 토큰당 수익(token revenue)을 10배로 증가Jensen Huang은 워싱턴 D.C.에서 열린 NVIDIA GTC 행사에서 DeepSeek-R1에 대한 이 성능 도약을 강조했다.
“NVIDIA GB200 NVL72 rack-scale design makes MoE model serving dramatically more efficient,”라고 Fireworks AI의 공동창업자 겸 CEO인 Lin Qiao는 말했다. Fireworks AI는 Kimi K2를 NVIDIA B200 플랫폼에 배치했다.
또한 새로운 Kinnie 모델은 H200에 비해 GB200 NVL72에서 10배의 성능 향상을 기록했으며, 그 결과 사용자 경험 향상, 토큰당 비용 절감, 에너지 효율성 향상을 얻었다.
이 기사는 AI의 지원을 받아 생성되었으며 편집자의 검토를 거쳤다.
용어 설명 — 독자를 위한 추가 정보
MoE(혼합 전문가, Mixture-of-Experts): 여러 개의 전문화된 하위 모델(전문가)을 보유하고, 입력에 따라 일부 전문가만 선택적으로 활성화해 계산 효율을 높이는 아키텍처다. 이 방식은 전체 모델의 용량을 키우면서도 추론 시 실제 활성화되는 연산량을 줄여 비용과 전력 소모를 절감하는 장점이 있다.
Blackwell GPU와 랙 스케일 시스템: Blackwell은 엔비디아의 GPU 마이크로아키텍처 이름이며, 랙 스케일 시스템은 다수의 GPU를 하나의 통합 단위처럼 동작하도록 구성한 서버 설계다. GB200 NVL72는 72개의 GPU를 결합해 대규모 모델 학습과 추론에 최적화됐다.
Exaflops(엑사플롭스): 초당 연산능력을 뜻하는 단위로, 1 exaflop은 10^18(100경) 회의 부동소수점 연산을 의미한다. 1.4 exaflops는 초당 1.4×10^18회의 연산 능력을 가리킨다.
NVLink Switch와 NVFP4: NVLink는 GPU 간 고속 연결 기술이며, NVLink Switch는 다수 GPU 간의 통신을 고속으로 중계하는 스위칭 기능을 제공한다. NVFP4는 엔비디아가 제안한 수치 표현 포맷(정밀도와 연산 효율의 균형을 맞추는 방식)으로, 메모리 사용과 대역폭 요구를 줄여 성능을 높일 수 있다.
Dynamo 프레임워크: 엔비디아가 제시한 소프트웨어 스택으로, 대규모 분산 모델의 학습과 추론을 최적화하기 위해 설계된 프레임워크다. Dynamo와 하드웨어 설계의 결합은 모델 분산, 라우팅, 통신 효율을 향상시킨다.
전문적 분석 및 시사점
엔비디아의 GB200 NVL72 설계는 MoE 기반 대형 모델의 배치를 실질적으로 변화시킬 잠재력을 지녔다. 72 GPU를 하나의 통합된 패브릭으로 묶고, 30TB의 공유 메모리와 130 TB/s의 연결 대역폭을 제공함으로써 모델 파라미터의 물리적 분산에 따른 통신 병목을 완화하고, GPU당 활성 전문가 수를 낮춰 연산 효율을 높였다. 이는 특히 토큰 기반 과금 구조와 전력 제약이 있는 데이터센터 환경에서 토큰당 비용 절감과 수익성 개선으로 직결된다.
클라우드 사업자들이 빠르게 해당 하드웨어를 도입하고 있다는 점은 고객 수요가 이미 실무적 배치(production) 단계로 이동하고 있음을 시사한다. 주요 클라우드 제공업체들의 채택은 대규모 AI 서비스의 접근성과 확장성을 높이는 한편, 경쟁사들 또한 유사한 랙-스케일 통합 솔루션을 내놓는 경쟁을 촉발할 것이다.
다만 기술적·경제적 리스크는 남아 있다. MoE 모델은 전문가 간 라우팅 및 통신 지연에 민감하며, 대규모 패브릭에서의 장애 복구 및 소프트웨어 최적화가 뒷받침되어야만 실운영에서 기대한 성능을 일관되게 달성할 수 있다. 또한 토큰당 수익 개선이 실제로 사업모델 전반의 수익성으로 이어지려면, 전체 인프라 비용(전력, 냉각, 운영인력 등)을 종합적으로 고려한 총소유비용(TCO) 분석이 필요하다.
종합하면, GB200 NVL72는 MoE 기반 차세대 대형 언어·멀티모달 모델의 상용화와 확장에 중요한 전환점이 될 수 있다. 조직들은 하드웨어의 성능 향상뿐 아니라 소프트웨어 스택(Dynamo 같은)과 모델 아키텍처 최적화를 병행해야 실질적인 비용 절감과 사용자 경험 개선을 달성할 수 있을 것이다.





