애플의 연구, AI 추론 모델의 한계를 드러내다

최근 AI 산업은 새로운 프론티어, 즉 추론 모델에 매료되어 왔다. 오픈AI의 강력한 ‘o-시리즈’와 구글의 Gemini가 주도하는 이들 모델은 단순히 텍스트를 생성하는 것을 넘어 복잡한 문제를 분석하고 더 정확한 답을 도출할 수 있다고 약속했다. 그러나 최근 애플의 연구 논문에서는 이 혁신이 ‘환상’에 기반을 두고 있을 수 있음을 시사한다. 이 논문은 현존하는 최고의 추론 모델들이 새로운 복잡한 퍼즐을 접했을 때 ‘완전한 정확도 붕괴’를 겪는다고 밝혔으며, 이는 급속도로 발전하고 있는 AI 산업에 조용한 충격을 주고 있다.

2025년 6월 19일, 나스닥닷컴에 따르면, 이 연구 결과는 AI 산업의 지각 변동을 일으키고 있다. 추론 모델이란 개념은 단순 대규모 언어 모델(LLM)에서 대규모 추론 모델(LRM)로의 발전을 상징하며 ‘사고의 사슬(Chain-of-Thought)’과 같은 기법을 도입하는 것으로 차별화된다. 오픈AI의 o-시리즈, Anthropic의 Claude 등 다양한 모델들은 질문에 즉시 답을 주기보다는 내부 독백 또는 ‘사고 과정’을 생성하여 최종 답을 도출하도록 독려된다.

이론적으로 더 많은 사고는 더 나은 답으로 이어진다는 것이다. 이 추가적인 계산 시간은 모델이 다양한 경로를 탐색하고, 자신의 단계를 검증하며, 단순 모델들이 겪는 ‘환각(hallucination)’을 피할 수 있게 한다. 초기 결과는 놀라울 정도로 우수했으며, 이미 해결할 수 없던 복잡한 수학 및 코딩 문제 해결에서 탁월한 성과를 보였으나, 이러한 능력은 상당한 연산력(compute power)을 필요로 하며, 더 비싸게 운영된다는 단점이 있다.

애플은 AI의 추론 능력을 시험하기 위해 새로운 방식의 퍼즐을 도입하였다. 기존 AI 벤치마크가 수학이나 코딩 문제에 집중되어 있어 데이터 오염 문제가 존재함을 문제시했다. 즉, 모델이 진정으로 ‘추론’을 했는지 아니면 단순히 훈련 데이터에서 봤던 문제를 반복한 것인지 판별하기 어렵다는 것이다. 이를 해결하기 위해 애플은 문제의 복잡성을 명확하게 증가시킬 수 있는 타워 오브 하노이와 같은 제어 가능한 퍼즐들을 개발하여 모델들이 이전에 본 적이 없는 환경에서 순수한 문제 해결 능력을 시험할 수 있었다.

연구 결과는 명확하다. 추론 모델들이 복잡성이 낮고 중간 수준인 문제들에서는 우수한 성능을 보였으나, 더 어려운 문제들에서 성능이 급격히 떨어졌다. 애플의 논문은 이를 ‘완전한 정확도 붕괴’로 묘사하였으며, 가장 첨단 모델조차도 특정 복잡성 임계점을 넘어서 실패하였다. 한편, 문제의 복잡성이 증가할수록 생각의 양을 의미하는 ‘토큰 수’가 오히려 줄어드는 ‘역직관적 스케일링 한계’를 발견했다. 이는 마치 모델이 문제의 난이도가 너무 높음을 인지하고 포기한 것처럼 보였다.

이 결과는 현재의 AI 추론 접근 방식에 근본적인 한계가 있음을 시사하며, ‘더 많은 연산은 더 높은 지성을 의미한다’는 스케일링 법칙에 대한 도전을 제기한다. 애플의 연구는 AI 합성 지능기술(AGI)의 한계가 어디까지 인지를 보여주는 중요한 시금석이 될 수 있다. 지금까지 AI 산업은 수십억 달러를 슈퍼 지능 시스템에 투자해 왔으나, 애플의 연구는 이 터무니 없는 기대에 대한 현시점의 상황을 재고하게 했다.

애플의 연구는 AI 발전이 멈춘 것이 아님을 의미하진 않는다. 그러나 단순히 기존 모델을 더 오래 생각하게 하는 것에서 발견한 한계를 지적하며, AI가 생각하는 방식을 근본적으로 새롭게 발명해야 함을 강조한다.