구글, 최저비용·최고속도 AI 모델 ‘Gemini 2.5 Flash-Lite’ 정식 출시

구글(Google, NASDAQ: GOOGL)이 2.5 세대 모델 라인업을 완성하며 경량·고속 인공지능(AI) 모델 ‘Gemini 2.5 Flash-Lite’의 안정화 버전을 공개했다. 이번 모델은 지연 시간(latency)에 민감한 번역·분류 작업에서 품질을 유지하면서도 비용을 크게 낮춘 것이 특징이다.

2025년 7월 22일, 인베스팅닷컴의 보도에 따르면, 새 모델은 2.0 세대 Flash-Lite와 Flash 모델 대비 전 범위 프롬프트에서 더 낮은 지연 시간을 달성했다.

입력 100만 토큰(token)당 0.10달러, 출력 100만 토큰당 0.40달러

라는 가격이 책정돼 2.5 계열 모델 가운데 가장 저렴하다. 또한, 프리뷰 버전 대비 오디오 입력 요금을 40% 인하했다.

토큰(Token)은 AI 모델이 텍스트를 처리할 때 사용하는 최소 의미 단위로, ¹일반적으로 _1~4자 정도의 문자 묶음으로 구성된다. 토큰 단가가 낮아진다는 것은 곧 대규모 데이터 처리 비용이 줄어든다는 의미다.

주요 성능 및 기능

구글은 코딩·수학·과학·추론·멀티모달 이해 부문 벤치마크에서 2.0 Flash-Lite보다 뛰어난 품질을 입증했다고 밝혔다. 컨텍스트 윈도(Context Window) 100만 토큰까지 지원해 긴 문서·영상·오디오도 한 번에 처리할 수 있으며, Budget-Based Thinking 기능으로 연산 자원을 세밀하게 조정할 수 있다.

또한 Grounding with Google Search, Code Execution, URL Context 등 네이티브 툴을 그대로 지원한다. 이를 통해 실제 웹 검색 결과로 사실성을 강화하거나, 코드 실행으로 복잡한 계산 문제를 직접 검증할 수 있다.

실제 도입 사례

이미 여러 기업이 2.5 Flash-Lite를 채택했다. 분산 우주 컴퓨팅 플랫폼 ‘Satlyt’은 우주선 온보드 진단 지연을 45% 줄이고 전력 소비를 30% 절감했다고 보고했다. HeyGen은 180개국 언어로 영상 자동 번역·기획을 수행하고, DocsHound는 길이가 긴 영상을 낮은 지연으로 처리해 스크린샷 추출까지 자동화했다. Evertune은 AI 모델 전반에서 브랜드 노출 방식을 분석하는 데 활용 중이다.

개발자 접근성 및 로드맵

개발자는 코드에서 “gemini-2.5-flash-lite”만 지정하면 바로 사용 가능하다. 본 모델은 Google AI Studio 및 Vertex AI(NASDAQ: VRTX)에서 제공된다. 구글은 2025년 8월 25일에 프리뷰(preview) 별칭(alias)을 제거할 계획이라고 예고했다.

용어·기술 해설

Latency(지연 시간)은 요청이 AI 모델에 전달돼 응답이 반환되기까지 걸리는 시간이다. Context Window는 모델이 한 번에 참고할 수 있는 입력 길이로, 창이 넓을수록 긴 문서나 과거 대화를 더 많이 기억할 수 있다. Budget-Based Thinking은 토큰 사용량 한도를 정의해 비용을 예측 가능하게 설계하는 기능이다.

전문가 시각 및 전망

AI 인프라 비용이 전체 IT 예산에서 차지하는 비중이 확대되는 상황에서, 구글의 초저가·초고속 모델 출시는 기업의 AI 도입 장벽을 추가로 낮출 가능성이 크다. 특히 저전력·경량 특성을 앞세워 모바일·엣지(Edge) 기기 통합에도 속도가 붙을 전망이다. 동시에 입력 단가 인하가 클라우드 AI 서비스 가격 경쟁을 촉발해, 메타(Meta), 마이크로소프트(Microsoft) 등 경쟁사 역시 비용 구조 개선에 나설 것으로 예상된다.

다만 오류 가능성·데이터 편향 등 고질적 문제를 해소하기 위한 후속 연구가 병행돼야 한다.