베이징—중국의 동영상 중심 엔터테인먼트 산업은 방대한 사용자 시청 데이터를 축적해 왔다. 이 데이터는 이제 기업들이 광고·영화 클립 제작용 머신러닝 모델을 수익화하는 기반이 되고 있다.
2025년 8월 1일, CNBC뉴스의 보도에 따르면 글로벌 숏폼 플랫폼 틱톡의 모기업 바이트댄스(ByteDance)는 최근 2개월 사이 출시된 텍스트-투-비디오(text-to-video) 모델 경쟁력에서 1위와 3위를, 구글이 2위와 4위를 차지했다. 베이징에 본사를 둔 숏폼 앱 콰이셔우(快手)의 ‘Kling AI’는 5위에 올랐다.
UBS증권 중국 인터넷 애널리스트 숑웨이(熊巍)는 “AI 영상 생성 분야의 경쟁은 아직 초기 단계이며, 일부 중국 기업이 선두 주자로 부상했다”면서 “해당 기술은 제작 효율성 향상·창작 장벽 완화·새로운 수익 모델 창출을 통해 콘텐츠 산업을 재편할 잠재력이 있다”고 설명했다.
이들 도구를 사용하면 이용자는 한 장 또는 여러 장의 이미지를 업로드하고, AI에 지시해 영상 클립을 만들 수 있다. 텍스트만 입력해도 AI가 자동으로 영상을 생성하는 방식도 존재한다.
콰이셔우 ‘Kling AI’, 1분기에만 매출 1억5천만 위안
콰이셔우는 7월 상하이 세계 AI 콘퍼런스에서 20,000개 이상의 기업—광고주·영화 애니메이터 등이—이미 Kling AI를 사용하고 있다고 밝혔다. 최신 버전인 Kling 2.1은 영상과 어울리는 자동 음향 효과를 추가하는 기능을 지원한다.
콰이셔우 운영 책임자 증위선(曾宇深)은 CNBC 인터뷰(중국어)에서 “해외 시장이 사용자 규모와 상업 매출 모두 절반 이상을 차지한다”면서 일본·한국·유럽 지원을 강화하겠다고 말했다. 그는 “AI 대규모 모델은 갈수록 국경이 사라지고 있다. 소비자는 제품이 어느 나라 출신인지 크게 개의치 않는다
”고 덧붙였다.
콰이셔우는 공시 자료에서 2025년 1~3월 Kling AI가 1억5,000만 위안(약 2,083만 달러)의 매출을 올렸다고 밝혔다. 같은 기간 일일 광고 지출은 3,000만 위안에 달했다. 다만 모델 학습 비용은 공개하지 않았다.
숑 애널리스트는 “제작 단가가 낮아지면 시장 규모는 커지지만, 영상 길이·동작 일관성·조정 가능성 등 모델 성능 제약이 여전히 존재한다”고 지적했다.
미·중 ‘AI 동영상’ 각축…아마존·구글도 가세
중국 업체들은 미국 제재로 고급 반도체 접근이 제한된 상황에서도 서비스를 확장하고 있다. 반면 아마존과 구글도 이미지·텍스트 기반 동영상 생성 툴을 출시했고, 마이크로소프트가 후원하는 오픈AI는 2024년 12월 Sora 모델을 ChatGPT 구독자에게 공개했다.
그러나 Kling AI는 이미 2024년 6월 대중에게 공개됐으며, 이용자는 구독 후 크레딧을 구매해 영상을 생성한다. 경쟁 서비스인 베이징 스타트업 성수(生数)의 ‘Vidu’는 1년 전에 글로벌 론칭했으며, 올해 3월 연매출 2,000만 달러를 예상한다고 밝혔다.
컨설팅사 DGA-ASG의 폴 트리올로 파트너는 “중국 기업은 상업적 ‘페인포인트’를 먼저 파악한 뒤 기업이 기꺼이 돈을 지불할 분야에 집중하는 경향이 있다”고 분석했다.
예로, 중국 스타트업 3DStyle은 생성형 AI로 의류 디자인을 만든 뒤 IoT 연동 자동화 설비와 결합하고 있다. 트리올로는 “미국 기업도 유사한 시도를 하지만, 중국 기업은 경쟁 환경이 치열하고 우수한 소프트웨어 엔지니어 풀을 바탕으로 더 빠르게 통합한다”고 설명했다.
알리바바·텐센트까지…‘AI 영화감독’ 시대 선언
알리바바는 이번 주 오픈소스 모델 Wan 2.2를 공개했다. 이용자는 조명·시간대·색조·카메라 앵글·프레임·구도·초점 거리까지 세밀하게 제어할 수 있다. 알리바바에 따르면 ‘Wan’ 시리즈는 2월 오픈소스 이후 허깅페이스(Hugging Face)와 중국 ModelScope에서 540만 회 이상 다운로드됐다.
NYU 로스쿨 윈스턴 마 부교수는 “AI가 영화를 만드는 시대에 접어들었다
”며, 14억 인구로부터 축적된 방대한 시청 데이터를 중국 기업의 강점으로 꼽았다. 그는 저서 『디지털 워』에서 “모바일 인터넷 시절 틱톡이 전 세계를席권으로 장악했듯, 중국 AI 기업도 시각·디지털 엔터테인먼트에서 주도권을 쥘 수 있다”고 전망했다.
아바타·게임까지 확장…바이두·텐센트의 새 전략
지난주 바이두는 AI 디지털 휴먼 기술을 10월 산업 전반에 개방한다고 발표했다. 해당 기술은 6월 6시간 이상 진행된 인터랙티브 라이브 방송에서 765만 달러 판매 실적을 거두며 효율성을 입증했다.
텐센트는 3D 시각화 모델 혼위안 월드(混元世界)를 공개했다. 이는 텍스트·비주얼 프롬프트로 생성된 파노라마 이미지를 ‘메시(mesh)’ 파일 형태로 출력해 게임 개발자가 특정 부분을 편집할 수 있도록 한다. 시장조사업체 Niko Partners의 리서치 디렉터 다니엘 아마드는 “텐센트는 고품질 게임 에셋 생성 표준화를 통해 중국 게임 개발 생태계 영향력을 확대하려 한다”고 분석했다.
Niko 조사에 따르면 중국 게임 스튜디오의 절반 이상이 이미 AI로 콘텐츠 생성·개발 시간 단축을 실현 중이다. 그러나 아마드는 “AI 도입이 미흡한 게임에는 이용자 반발이 발생했다”며, 대규모 상용화에는 품질 관리가 관건이라고 강조했다.
용어 한눈에 보기
텍스트-투-비디오란 문자열(텍스트)이나 정적 이미지 입력만으로 동영상을 자동 제작하는 기술을 뜻한다. 오픈소스 모델은 개발자가 무료로 다운로드·수정·배포할 수 있어 기업이 자체 서비스로 재가공하기 용이하다. 메시 파일은 그래픽을 구성하는 3D 좌표망 정보로, 게임·애니메이션에서 객체 편집에 활용된다.