AMD는 코어, OpenAI와 같은 주요 인공지능 스타트업과 긴밀한 관계를 형성하고 있다. 이는 소프트웨어와 설계 칩을 강화하여 Nvidia와 진정으로 경쟁할 수 있도록 직접적인 노력을 기울이는 것이다. OpenAI의 영향으로 AMD의 다가오는 MI450 칩 설계에 큰 변화가 있을 것으로 보이며, 이는 AMD가 Nvidia의 지배력에 도전하는 새로운 협력 국면을 나타낸다. 그러나 여기에는 어려운 진실도 존재한다. AI 칩 전쟁에서 우수한 하드웨어 사양만으로는 충분하지 않다. 진정한 싸움은 Nvidia의 오랜 CUDA 플랫폼이 만들어 낸 강력한 장벽을 경쟁자들이 넘기 위해 여전히 투쟁하는 소프트웨어에서 벌어진다.
WHY IS SOFTWARE THE REAL BATTLEFIELD FOR AI CHIPS?
Nvidia는 그동안 약 20년간 CUDA(Compute Unified Device Architecture) 플랫폼으로 비교할 수 없는 장점을 쌓아왔다. CUDA는 단순한 소프트웨어 그 이상으로, Nvidia의 GPU의 병렬 처리 능력을 쉽게 활용할 수 있게 하는 프로그래밍 도구, 라이브러리, 개발자 전문 지식의 방대한 생태계이다. 이를 위한 수년간의 투자와 전파 활동을 통해 AI 연구자와 개발자 대다수에게 Nvidia의 하드웨어가 바로 원활하게 작동하도록 만들었다.
이 소프트웨어 우위는 강력한 잠금 효과를 창출한다. 수조 달러에 이르는 AI 인프라와 수백만 개발자 시간이 CUDA 생태계에 투자되었다. 결과적으로 AMD와 같은 경쟁자가 H100에 비해 우수한 메모리 용량을 제공하는 MI300X와 같이 인상적인 사양을 갖춘 칩을 생산하더라도, 고객은 기존 소프트웨어가 다른 플랫폼에서 효율적으로 실행되도록 전환 비용과 기술적 장애물에 직면한다. 이러한 ‘CUDA 장벽’은 Nvidia의 가장 지속 가능한 경쟁 우위로 간주되며 하드웨어 경쟁을 훨씬 어려운 소프트웨어 및 생태계 도전으로 전환시킨다.
AMD의 소프트웨어 문제는 얼마나 심각했는가?
AMD의 하드웨어는 종종 서류상으로는 인상적이었지만, 그 소프트웨어 플랫폼인 ROCm은 지속적인 약점으로 작용해왔다. 갭은 성숙함의 문제일 뿐만 아니라, 신뢰성과 사용성에 관한 것이다. 반도체 분석 전문 기업인 세미애널리시스의 견해를 따르자면, MI300X는 다음과 같은 문제가 제기되었다.
“AMD의 소프트웨어 경험은 버그가 만연하여 AMD의 칩으로 아웃 오브 더 박스(구매 후 바로) 훈련하는 것이 불가능하다. 우리는 AMD가 трен닝 워크로드에서 Nvidia의 강력한 경쟁자로 부상할 수 있기를 바랬지만, 오늘날까지는 그렇지 않다. AMD의 약한 소프트웨어 품질 보증 문화와 아웃 오브 더 박스 경험이 어렵기 때문에 CUDA 장벽은 AMD에 의해 아직 넘지 못했다. AMD가 CUDA 장벽을 빠르게 메우려고 하는 속도로 Nvidia 엔지니어들은 장벽을 더 깊게 만드는 새로운 기능, 라이브러리, 성능 업데이트로 초과 근무를 하고 있다.”
보고서는 칩을 사용 가능한 상태로 만들기 위해 요구되는 수작업 맞춤 소프트웨어 빌드와 수많은 버그, 광고된 능력치를 훨씬 밑도는 성능을 자세히 설명했다. 이러한 어려운 “아웃 오브 더 박스 경험”은 특히 AI 연구소들이 모델을 배포하기 위해 레이스를 펼치는 경유로, 공급 업체의 소프트웨어 스택을 디버깅하는 데 주도할 수 없는 주요 제한 요소로 작용해왔다.
이 문제를 어떻게 해결하려 하는가?
AMD는 CUDA 장벽을 홀로 넘을 수 없다는 것을 인식하고, 이제 잠재 고객의 도움을 얻으려 한다. 선도적인 AI 스타트업들과 직접 협력함으로써, AMD는 솔루션을 공동 개발하고 시장의 가장 까다로운 사용자들이 실제로 필요로 하는 하드웨어 맞춤을 목표로 한다.
이러한 파트너십은 이미 결실을 맺고 있다. 코어의 CEO 아이덴 고메즈는 자신의 회사 AI 모델을 AMD 칩에서 실행하는 데 걸리는 시간이 “주”에서 단순히 “몇 일”로 줄어들 정도로 AMD의 소프트웨어가 고객의 직접적인 피드백을 통해 개선되었음을 보여준다.
더욱 중요하게도, AMD 임원 포레스트 노로드는 OpenAI의 입력이 차세대 MI450 칩 시리즈 설계에 “강하게 반영”되어 메모리 아키텍처나 하드웨어가 수천 개의 칩에 걸쳐 확장되는 방식과 같은 중요 측면에 영향을 미쳤다고 밝혔다. ChatGPT를 창설한 사람이 칩 설계에 참여함으로써, AMD는 향후 제품이 가장 중요시되는 대규모 AI 워크로드에 최적화되도록 보장한다. AI 스타트업 출신인 Brium 및 Untether AI의 최근 인수와 결합하여, AMD의 가장 집중적 노력을 통해 처음부터 경쟁력 있는 생태계를 구축하려는 것이다.
이 새로운 전략이 Nvidia에 도전할 수 있을까?
AMD의 새로운 전략은 소프트웨어 격차를 해소해야 하드웨어가 관련성을 갖는다는 현실주의적 인정이다. 최상위 AI 연구소와의 파트너십은 아마도 ROCm의 신뢰성을 개선하고 향후 칩이 현실적이고 대규모 성능을 위해 설계되도록 보장하는 가장 빠를 길이다. 그러나 이는 AMD의 임원 Boppana가 “계획적이고 세대를 아우르는 여정”이라고 명명한 것의 시작에 불과하다.