위키피디아, 구글과 유사한 AI 라이선스 계약 확대 추진 밝히다 — 공동창업자 지미 웨일스

위키피디아구글과 맺은 협약과 유사한 형태의 인공지능(AI) 기업 대상 라이선스 계약을 다수 추진하고 있다고 공동창업자 지미 웨일스(Jimmy Wales)가 밝혔다. 이는 AI 기업들이 위키피디아의 방대한 콘텐츠에 크게 의존하면서 발생하는 비용 부담을 단체가 감당하기 어렵다는 문제를 해결하기 위한 방안이다.

12월 3일, 로이터의 보도에 따르면, 뉴욕에서 열린 로이터 NEXT 서밋에서의 인터뷰에서 웨일스는 AI 기업들이 무료로 공개된 위키피디아 지식을 대규모로 활용해 대형 언어 모델(LLM)을 학습시키는 과정에서 관련 비용이 급증하고 있다고 설명했다.

"AI 봇들이 위키피디아를 크롤링할 때 사이트 전체를 훑고 지나간다 … 그래서 우리는 더 많은 서버를 확보해야 하고, 캐시용 RAM 및 메모리도 늘려야 한다. 그 비용이 우리에게 불균형적으로 크게 부담된다"

웨일스는 개인이 이용하는 수준에서는 위키피디아의 콘텐츠가 라이선스 하에 무료로 제공되지만, 영리기업들의 고빈도 자동화 접근은 다른 문제라고 강조했다. 그는 이미 알파벳(Alphabet) 산하의 구글(Google)과는 협약을 체결했으며 다른 기업들과도 논의 중이라고 덧붙였다.

주목

위키미디어 재단(Wikimedia Foundation)은 2022년에 구글과 협약을 맺어 구글이 위키피디아 콘텐츠에 대한 학습용 접근권에 대해 비용을 지불하도록 합의한 바 있다. 이러한 콘텐츠는 오픈AI(OpenAI)와 메타 플랫폼스(Meta Platforms) 등 다수의 기업이 AI 모델 훈련에 사용하는 핵심 데이터 중 하나다.

웨일스는 위키미디어 재단의 주요 수입원이 일반 대중의 소액 기부이며, 이러한 기부금은 수십억 달러 규모의 상업적 AI 제품 개발을 보조하기 위한 것이 아니라고 말했다.

"위키피디아는 자원봉사자들에 의해 지원된다. 그 사람들은 위키피디아를 지원하기 위해 돈을 기부하는 것이지, 오픈AI 같은 기업들이 우리에게 막대한 비용을 발생시키도록 보조하려는 것이 아니다. 그것은 공정하지 않다"

더 많은 라이선싱을 추진하는 노력은 세계에서 가장 큰 무료 지식 저장소를 급성장하는 AI 산업과의 잠재적 대치 구도로 밀어 넣는다. 이는 AI 혁명을 가능하게 하는 거대한 데이터셋의 비용을 누가 부담해야 하는지, 상업적 기업들이 이를 구축하는 데 기여한 공공 및 비영리 출처에 보상할 의무가 있는지에 관한 근본적 질문을 제기한다.

웨일스는 AI 기업들이 대가를 지불하지 않고 위키피디아를 이용할 경우 법적 조치를 취할지에 대해 묻는 질문에 대해 "잘 모르겠다. 다만 부끄러움(shaming)이라는 소프트파워가 꽤 강력할 것 같다"고 답했다.

주목

또한 웨일스는 위키피디아가 Cloudflare의 AI Crawl Control과 같은 기술적 수단을 도입하는 방안을 고려할 수 있다고 밝혔다. 이러한 도구는 AI 크롤러가 언제, 어떻게 인터넷 콘텐츠에 접근할 수 있는지를 제한하도록 고객이 설정할 수 있게 해준다. 웨일스는 이것이 위키피디아의 지식에 대한 개방성이라는 이념적 약속과 충돌할 수 있음을 인정하면서도 재정적 부담 문제는 반드시 해결되어야 한다고 강조했다.


배경 및 추가 설명

위키미디어 재단(Wikimedia Foundation)비영리 기관으로, 20년 이상 위키피디아를 운영해 왔으며 전 세계 자원봉사 편집자들과 일반 기부자들의 지원에 의존해 무료 정보를 제공하고 있다. 재단은 서버 운영, 데이터 저장·배포, 편집자 도구 유지관리 등 운영비를 충당하기 위해 연간 기부 캠페인을 벌인다.

대형 언어 모델(LLM, Large Language Models)은 인터넷상 방대한 텍스트 데이터를 학습해 문장 생성, 번역, 요약, 질문응답 등 다양한 언어 기반 작업을 수행하는 AI 시스템을 의미한다. 이러한 모델들은 고품질의 대규모 데이터셋을 필요로 하며, 위키피디아의 구조화된 백과사전 텍스트는 학습 데이터로서 가치가 높다.

크롤링(crawling)이란 검색엔진이나 데이터 수집 로봇(봇)이 웹사이트의 페이지를 자동으로 방문하여 콘텐츠를 읽고 색인화하는 과정을 말한다. 특정 기업의 AI 학습용 크롤러는 짧은 시간에 대량의 페이지를 요청하면서 서버 부하 증가, 대역폭 사용, 캐시·메모리 요구 등을 유발할 수 있다.

Cloudflare의 AI Crawl Control은 웹사이트 관리자가 AI 크롤러의 접근 빈도와 패턴을 제어할 수 있게 해주는 상용 도구다. 이를 통해 사이트 운영자는 트래픽 급증으로 인한 비용과 시스템 부담을 완화할 수 있다.


전문적 분석과 전망

이번 위키피디아의 움직임은 데이터 주권과 비용 분담 문제를 둘러싼 산업 전반의 논의를 촉발할 가능성이 높다. 대형 AI 기업들이 공공·비영리 데이터 소스에 의존하는 현재 구조에서는 데이터 제공자들이 인프라 비용과 유지비용을 떠안게 되며, 이는 지속가능하지 않다는 지적이 나온다. 웨일스가 언급한 것처럼 일부 기업과의 유료 라이선스 체결은 실질적 해결책이 될 수 있지만, 그 적용 범위와 가격 책정 방식, 공공 접근성 보장 등은 추가적인 사회적·법적 논쟁을 유발할 여지가 있다.

또한 기술적 차단이나 접근 제한은 지식의 개방성이라는 위키피디아의 핵심 가치와 충돌할 수 있다. 따라서 재단과 AI 기업, 정책 입안자들 간의 협의가 필요하다. 합리적인 중간 해법으로는 상업적 이용에 한정한 유료 라이선스, 비영리·교육 목적의 무료 이용 유지, 그리고 서버 부담을 보전하는 비용 분담 메커니즘을 도입하는 방식이 검토될 수 있다.

마지막으로, 웨일스의 발언은 단지 한 조직의 재정적 문제 제기를 넘어, AI 생태계에서 공공재로서의 지식 자원과 그에 대한 보상 구조를 재검토해야 할 시점임을 시사한다. 향후 위키미디어 재단과 주요 AI 기업들 사이의 협상 결과는 AI 모델 학습 데이터의 확보 방식과 인터넷 상 정보의 자유로운 흐름에 중대한 영향을 미칠 전망이다.1

보도 일시: 12월 3일, 로이터 통신 보도 기반