알리바바 그룹 홀딩스(Alibaba Group Holdings Ltd ADR, NYSE:BABA)는 금요일, 텍스트와 이미지 프롬프트를 기반으로 고품질 비주얼을 생성하고 편집할 수 있는 새로운 다중 모드 AI 모델 Qwen VLo를 공개했다.
인베스팅닷컴의 2025년 6월 27일 보도에 따르면, 새로운 ‘AI 창작 엔진’은 급속하게 발전하고 있는 글로벌 AI 경쟁에서 중국의 최신 진입을 의미한다. 이는 지난 3월 OpenAI가 ChatGPT에 이미지 생성 기능을 추가한 것과 5월 Google(NASDAQ:GOOGL)이 Imagen 4를 출시한 데 따른 것이다.
Qwen VLo는 사용자가 단계별로 복잡한 장면을 만들고, 즉석에서 편집하며, 여러 언어로 이미지를 생성할 수 있도록 한다. 사용자 친화적이며, 비기술적 창작자를 위한 접근성을 높이기 위해 중국어와 영어를 포함한 여러 언어를 지원한다.
알리바바는 출시 발표에서 “이 새롭게 업그레이드된 모델은 세계를 ‘이해’할 뿐만 아니라 그 이해를 바탕으로 고품질의 재창작을 한다. 이는 인식과 창작 사이의 간극을 진정으로 연결한다”고 밝혔다.
이 모델은 다이나믹 해상도 훈련과 점진적 생성을 결합하여 왼쪽에서 오른쪽, 위에서 아래로 정교한 출력을 만들어낸다. 주요 기능으로는 예술적 스타일 전환, 현실적인 객체 수정, 포스터 제작 등이 있으며, 이는 디자이너, 마케터 및 교육자를 대상으로 한다.
알리바바에 따르면, Qwen VLo는 복잡한 비주얼 편집 명령을 단일 명령으로 처리하면서 의미적인 정확성을 유지할 수 있다. 사용자가 이미지 입력과 함께 색상 변경이나 스타일 조정을 요청할 때, 모델은 핵심 구조와 문맥 충실성을 유지한다.
베이징 정부는 미국산 칩 및 기초 모델 접근에 대한 제약이 증가하는 상황에서 국내 AI 개발을 가속화하기 위해 노력하고 있으며, 알리바바의 국제적 추진도 이를 돕고 있다.
알리바바는 Qwen VLo가 미리보기 단계에 있으며, 일관성 문제와 명령 준수 실패 등 알려진 한계가 있음을 인정했다. “모델의 안정성과 강인성을 계속해서 개선할 것이다”라고 밝혔다. 사용자는 현재 Qwen Chat을 통해 이 미리보기 버전에 접근할 수 있다.

