오픈AI가 최신 인공지능 모델인 GPT-5.5를 공개했다. 이 모델은 ChatGPT와 Codex 플랫폼을 통해 Plus, Pro, Business, Enterprise 이용자에게 제공된다.
2026년 4월 23일, 인베스팅닷컴의 보도에 따르면, 오픈AI는 GPT-5.5의 벤치마크 성과와 가격 정책, 안전성 평가 결과 등을 함께 발표했다. 회사가 공개한 자료에 따르면 GPT-5.5는 명령행(workflow) 관련 능력을 평가하는 Terminal-Bench 2.0에서 82.7%의 정확도를 기록했으며, GitHub 이슈 해결 능력을 평가하는 SWE-Bench Pro에서는 58.6%를 기록했다. 또한 내부 코딩 평가 기준인 Expert-SWE에서는 73.1%를 달성했는데, 이 평가는 약 20시간의 과제 완수 시간을 기준으로 한 것이다.
GPT-5.5는 GPT-5.4와 비교해 토큰 당 지연 시간(per-token latency)은 동일하지만, 유사한 작업을 수행할 때 더 적은 토큰을 사용해 효율을 개선했다고 오픈AI는 설명했다.
개발 및 하드웨어 측면에서 오픈AI는 이번 모델을 NVIDIA(나스닥: NVDA)의 GB200과 GB300 NVL72 시스템을 사용해 개발했다고 밝혔다. 이러한 상세 하드웨어 표기는 대규모 모델 학습에 사용된 인프라 사양을 가늠할 수 있는 근거다.
전문가·직무 적용 성능을 보면, GPT-5.5는 지식 노동을 직업별로 평가하는 GDPval에서 84.9%를, 컴퓨터 환경 운영 능력을 측정하는 OSWorld-Verified에서 78.7%을 기록했다. 생명과학 및 사이버 보안 관련 역량도 주목된다. 오픈AI는 GPT-5.5의 생물학 및 사이버보안 관련 역량을 자사의 준비성 프레임워크(Preparedness Framework)에서 “High”(높음)으로 평가했으며, 인증된 보안 전문가에게는 ‘Trusted Access for Cyber’ 프로그램을 통해 전문 접근 권한을 제공한다고 밝혔다.
연구 및 바이오정보학 측면에서 GPT-5.5는 GeneBench에서 25.0%를 기록해 GPT-5.4의 19.0%보다 개선된 성과를 보였고, 바이오인포매틱스 분석을 측정하는 BixBench에서는 80.5%를 기록했다.
가격(요금) 체계도 함께 공개됐다. 표준 API의 경우 입력 토큰(input tokens)은 $5/백만 토큰, 출력 토큰(output tokens)은 $30/백만 토큰으로 책정되었고, 문맥(context) 창 크기는 1백만 토큰(1,000,000 tokens)이다. 한편, GPT-5.5 Pro 등급은 입력 토큰이 $30/백만 토큰, 출력 토큰이 $180/백만 토큰으로 제시되었다.
안전성 및 검증 과정에 대해서도 오픈AI는 설명을 추가했다. GPT-5.5는 공개 전 외부 테스트와 약 200명의 초기 접근 파트너(early-access partners)로부터의 피드백을 포함한 안전성 평가를 거쳤다. 이와 같은 외부 피드백 과정은 모델의 오작동 사례 및 잠재적 위험 요소를 사전에 점검하는 데 목적이 있다.
용어 설명
Terminal-Bench 2.0은 명령행 기반 작업 흐름(command-line workflows)을 평가해 시스템 명령 수행 능력을 측정하는 벤치마크다. SWE-Bench Pro는 소프트웨어 엔지니어링 관점에서 GitHub 이슈 해결 능력을 평가하며, Expert-SWE는 회사 내부에서 설정한 코딩 과제의 난이도와 실제 완수 시간을 반영해 평가하는 지표다. GDPval은 다양한 직업군(문서작성, 분석, 운영 등 44개 직업)을 대상으로 지식 노동 수행 능력을 평가하는 벤치마크다. OSWorld-Verified는 컴퓨터 환경의 운용 및 관리 능력을 측정하는 평가 지표다. GeneBench와 BixBench는 각각 유전체·생명연구 및 바이오인포매틱스 분석 관련 능력을 측정하는 전문 벤치마크이다.
경제적·산업적 파급 가능성 분석
GPT-5.5의 공개는 AI 서비스 제공자와 이를 활용하는 기업 고객의 비용 구조에 직접적인 영향을 미칠 가능성이 있다. 우선 토큰 기반 과금 체계는 사용량이 많은 애플리케이션에서 비용 변동성을 크게 만든다. 예컨대 표준 요금 기준으로 입력 토큰 1천만 토큰을 사용할 경우 비용은 $50가 되고 출력 토큰 1천만 토큰은 $300에 달한다. Pro 요금제에서는 동일한 입력·출력 사용량에 대해 각각 $300, $1,800의 비용이 발생한다. 따라서 대규모 데이터 처리나 긴 문맥을 빈번히 요구하는 애플리케이션은 요금제 선택에 따라 수십 배의 비용 차이를 경험할 수 있다.
기업 차원에서는 GPT-5.5의 향상된 코딩 및 운영 자동화 능력이 DevOps 효율화, 소프트웨어 개발 사이클 단축, 이슈 해결 자동화 등 실무적 이점을 제공할 가능성이 크다. 특히 Terminal-Bench 2.0과 SWE-Bench Pro에서의 개선은 명령행 작업 자동화와 GitHub 이슈 대응 자동화에 직접적인 혜택으로 이어질 수 있다. 반면 높은 출력 토큰 비용은 대화형 서비스 또는 대규모 보고서 생성 서비스에서 운영비로 이어질 수 있으며, 기업들은 토큰 사용 최적화(프롬프트 압축, 중간 요약, 부분 결과 캐싱 등)를 통해 비용 관리 전략을 세워야 한다.
또한 생명과학 분야에서의 GeneBench, BixBench 향상은 연구용 AI 도구로서의 상용화 가능성을 높인다. 단, 생물학 및 사이버보안 관련 결과를 ‘High’로 평가한 것은 해당 분야에서의 활용 확대 가능성을 시사하지만 동시에 규제·윤리 문제, 오용 위험성에 대해 더 엄격한 검토와 통제 메커니즘이 필요하다는 점을 의미한다. 오픈AI가 제공하는 ‘Trusted Access for Cyber’와 같은 전문 접근 통제는 이러한 우려를 일부 완화할 수 있다.
실무적 시사점 및 권고
기업과 개발자는 GPT-5.5 도입 전 토큰 사용량 기반 비용 시뮬레이션을 실시하고, 최적의 요금제(표준 vs Pro)를 선택해야 한다. 또한 보안 민감 데이터를 다루는 경우 오픈AI의 ‘Trusted Access for Cyber’ 같은 인증 기반 접근 통제를 활용해 내부 컴플라이언스 및 규제 대응을 준비해야 한다. 마지막으로 모델의 확장 적용을 고려하는 기관은 외부 테스트와 초기 파트너 피드백에서 드러난 안전성 이슈를 주의 깊게 검토해 운영 중 발생 가능한 리스크를 사전 관리할 필요가 있다.
