구글(Google)이 초경량 인공지능(AI) 모델 ‘Gemma 3 270M’을 새롭게 공개했다. 이 모델은 2억 7천만 개의 파라미터(parameter)를 탑재했으면서도 지침 준수 능력을 기본 내장한 것이 특징이다.
2025년 8월 14일, 인베스팅닷컴의 보도에 따르면, Gemma 3 270M은 이미 2억 회 이상의 다운로드를 기록한 ‘젬마’ 계열에 새로 합류했다. 이 모델은 임베딩(embedding) 파라미터 1억7천만 개와 트랜스포머(transformer) 블록 파라미터 1억 개로 구성돼 있으며, 256,000개 토큰(token)을 처리할 수 있는 대규모 어휘집을 통해 희귀·전문 토큰까지 대응한다.
에너지 효율성이 이번 모델의 핵심 경쟁력이다. 구글 내부 테스트에서 Pixel 9 Pro SoC(System on Chip)에 INT4 양자화(quantization) 버전을 올려 25회 대화를 수행한 결과, 배터리 소모율이 0.75%에 그쳤다. 이는 지금까지 공개된 젬마 모델 가운데 가장 전력 효율이 높은 수치다.
활용 분야도 선명하다. 구글은 해당 모델이 감정 분석(sentiment analysis), 개체 추출(entity extraction), 창의적 글쓰기(creative writing)처럼 범위가 명확하고 반복량이 많은 업무에 최적화돼 있다고 설명한다. 특히
“비용과 속도를 동시에 개선해야 하거나, 개발·배포 주기를 단축해야 할 때, 혹은 사용자 프라이버시 보호를 위해 온디바이스(On-device) 연산이 필요할 때 유리하다”
라고 밝혔다.
이 모델은 사전 학습(pretrained) 버전과 지침 최적화(instruction-tuned) 버전 두 가지로 제공되며, 모두 Quantization-Aware Training을 거쳐 INT4 정밀도로도 품질 저하가 최소화됐다. 개발자는 허깅페이스(Hugging Face), Ollama, Kaggle, LM Studio, Docker 등에서 직접 내려받을 수 있고, Vertex AI나 llama.cpp, Keras 같은 추론 툴킷으로 즉시 실행·테스트가 가능하다.
실제 적용 사례도 제시됐다. SK텔레콤이 다국어 콘텐츠 모니터링 업무에 투입한 Gemma 3 4B 파인튜닝 버전은, 더 큰 규모의 자체 모델을 능가하는 성능을 기록했다는 설명이다.
복잡 용어 해설
• INT4 양자화: 32비트 또는 16비트 대신 4비트 정수로 가중치를 표현해 모델 크기와 전력 소모를 대폭 줄이는 기술이다.
• 트랜스포머: 구글이 2017년 논문을 통해 공개한 딥러닝 구조로, 병렬 처리에 유리해 대규모 언어 모델의 표준이 됐다.
• 임베딩 파라미터: 단어·문장 등을 벡터로 변환해 의미를 보존하는 가중치 묶음이다.
전문가 시각
적은 파라미터 수와 INT4 정밀도를 고려할 때, Gemma 3 270M은 모바일 기기·엣지 디바이스에서 AI 기능을 구동하려는 기업에게 특히 유용할 전망이다. 전력 제약이 큰 IoT 환경이나, 고객 데이터가 외부 서버로 나가는 것을 꺼리는 의료·금융 산업에서 관심이 높을 것으로 예상된다. 또한 대규모 범용 모델과 경량 특화 모델을 병행 운용하려는 멀티-모델 전략이 확산됨에 따라, ‘스몰-모델’ 영역에서도 기술 경쟁이 가속될 가능성이 크다.
다만, 작은 모델 특성상 복잡한 추론이나 맥락 이해에서는 한계가 있을 수 있다. 이에 따라 구글이 추후 모달리티 확장이나 지식 증강 기법을 결합해 성능을 보완할지 주목된다.