[리포트] 알파벳(구글)과 오픈AI가 개발한 인공지능(AI) 모델이 국제수학올림피아드(International Mathematical Olympiad·IMO)에서 금메달 점수를 획득하며 인간 수준의 수학 추론 능력에 한 걸음 더 다가섰다다.
2025년 7월 21일, 인베스팅닷컴의 보도에 따르면 두 회사의 AI 모델은 고교생 대상으로 열리는 제66회 IMO(호주 퀸즐랜드 선샤인코스트)에서 6문제 중 5문제를 해결해 금메달 기준점을 넘었다. AI 시스템이 IMO에서 금메달 성적을 거둔 것은 이번이 처음이다.
이번 성과는 구글 딥마인드(DeepMind)의 ‘Gemini Deep Think’와 오픈AI의 실험용 추론 모델이 자연어로 수학 개념을 처리했다는 점에서 기존과 차별된다. 과거에는 형식 언어(formal language)와 방대한 계산 과정을 거쳐야 했지만, 두 모델은 일반 대화형 언어만으로 4.5시간의 IMO 공식 제한 시간 안에 답안을 완성했다.
IMO란 무엇인가?
IMO는 1959년 루마니아에서 시작된 세계 최고 권위의 고교생 수학 경시대회다. 매년 6문제가 출제되며, 참가자는 각 문제당 최대 7점(총 42점)을 받는다. 상위 약 11%가 금메달, 20%가 은메달, 30%가 동메달을 받는다. 올해 대회엔 104개국 630명이 출전했고, 67명(약 10.6%)이 금메달을 얻었다.
브라운대 수학과 교수이자 구글 딥마인드 방문연구원인 정준혁 교수는 “
자연어로 난해한 추론 문제를 해결할 수 있는 순간은 AI와 수학자가 협업하는 시대의 서막을 의미한다
”고 말했다. 그는 2003년 IMO 금메달리스트이기도 하다.
정 교수는 또 “이 접근법은 물리학 등 다른 기초과학 난제에도 응용될 수 있다”고 전망했다. 이는 AI가 단순 계산을 넘어 ‘사고(thinking) 파트너’로 자리매김할 가능성을 시사한다.
세부 성적 및 모델 특징
구글 딥마인드는 지난해 수학 특화 AI로 은메달 점수를 냈으나, 올해는 다목적 모델 ‘Gemini Deep Think’로 금메달을 달성했다. 해당 모델은 2025년 5월 개발자 콘퍼런스에서 공개된 바 있다.
구글은 공식 블로그에서 “이번에는 형식 증명(formal proof) 없이 자연어만 사용했고, 모든 풀이 과정을 제한 시간 내 마쳤다”고 설명했다.
오픈AI도 X(구 트위터)를 통해 연구원 알렉산더 웨이의 게시글로 결과를 공개하며 “수 개월 동안 이 수준의 수학 기능을 외부에 제공할 계획은 없다”고 밝혔다.
대회 측과 AI 연구소의 협업
올해 IMO 조직위원회는 일부 AI 연구소와 공식적으로 데이터 검증 절차를 진행했다. 구글 등 협업 기관은 7월 28일까지 결과를 공개하지 않기로 합의했지만, 오픈AI는 IMO와 별도 협의 없이 7월 19일 자체 발표해 ‘첫 AI 금메달’ 타이틀을 선점했다.
이에 대해 데미스 하사비스 구글 딥마인드 CEO는 X에 “
우리는 학생들이 먼저 공정한 찬사를 받고, 독립 전문가가 결과를 검증한 뒤 공개하라는 IMO의 요청을 존중했다
”고 적었다.
IMO 이사회의 그레고르 돌리나르 의장은 “월요일(7월 21일)부로 협업 기관의 결과 발표를 허용했다”고 로이터통신에 밝혔다.
전문가 시각: ‘1년 안에 미해결 난제 돌파 가능성’
정준혁 교수는 “AI가 금메달 수준 문제를 풀었다는 것은 미해결 수학 난제에도 AI가 본격 투입될 수 있다는 신호”라고 평가했다. 실제로 수학계는 수십 년간 풀리지 않은 연구 과제를 다수 보유하고 있다. AI가 대량의 가설 검증과 새로운 증명 탐색을 병행함으로써 학계의 연구 속도가 대폭 빨라질 것이란 관측이다.
다만 그는 “AI 답안을 엄밀한 증명 형태로 재구성하고, 오류 가능성을 인간이 검증하는 절차가 필수”라고 강조했다. 현재 AI는 때때로 ‘환각(hallucination)’이라 불리는 잘못된 논리를 생성할 위험이 있다.
기술·산업적 파급 효과
AI가 자연어로 복잡한 수학 추론을 처리할 수 있게 되면, 금융·공학·제약·우주산업 등 고난도 계산이 요구되는 분야에서 업무 효율성이 획기적으로 상승할 전망이다. 예컨대 파생상품 가격 모델링, 신약 후보물질 탐색, 로켓 궤도 설계 같은 영역에서 ‘AI 수학 어시스턴트’가 인간 전문가와 협업해 결과 도출 시간을 단축할 수 있다.
또한 대규모 언어모델(LLM)이 범용 추론 기능을 강화함으로써, 향후 챗봇이나 검색엔진이 제공할 데이터 분석·문제 해결 서비스 범위도 넓어질 것으로 예상된다. 이는 빅테크 기업들의 차세대 수익원 모색과도 직결돼 업계 경쟁을 가속화할 가능성이 높다.
남은 과제와 전망
전문가들은 △검증 가능성 △책임성 △윤리적 사용을 향후 과제로 꼽는다. 학계와 산업계가 공동으로 객관적 평가 기준을 마련하고, 오픈소스 생태계와의 협력을 확대해 투명성을 높여야 한다는 목소리도 나온다.
현재로선 AI가 인간 수학자를 완전히 대체하기보다는, ‘증명 파트너’ 혹은 ‘아이디어 촉발 장치’로 역할을 수행할 가능성이 크다. 이는 지난 수세기 동안 진화해 온 ‘도구로서의 수학 기술’이 AI를 통해 새로운 패러다임을 맞이하고 있음을 의미한다.