하셰트 북 그룹(Hachette Book Group)과 켄게이지 그룹(Cengage Group)이 구글(Google)을 상대로 제기된 집단소송에 공식적으로 참여(개입)하려고 캘리포니아 연방 법원에 신청서를 제출했다.
2026년 1월 15일, 로이터(Reuters)의 보도에 따르면, 이들 출판사는 구글이 인공지능(AI) 시스템을 학습시키는 과정에서 저작권이 있는 서적 및 교재의 콘텐츠를 허가 없이 대량으로 복제했다고 주장하며 소송 개입을 요청했다.
출판사들의 주장은 해당 예비 고소장에서 구글이 “역사상 가장 광범위한 저작권 침해 중 하나“를 저질러 AI 역량을 구축했다고 적시한 것이다. 출판사들은 스콧 투로우(Scott Turow)와 N.K. 제미신(N.K. Jemisin) 등의 저자를 포함한 자사 서적과 교재에서 콘텐츠를 무단으로 복사해 구글의 제미니(Gemini) 대형 언어 모델을 훈련시켰다고 지적했다. 이와 관련해 출판사들은 자신들과 더 넓은 저자·출판인 집단을 대리해 금전적 손해배상액을 특정하지 않은 상태로 청구했다.
“출판사의 참여는 법원에 제기된 여러 법적·사실적·증거적 쟁점을 해결하는 데 특히 도움이 될 것”이라며 미국출판사협회(Association of American Publishers) 최고경영자 마리아 팔란테(Maria Pallante)는 성명에서 이같이 밝혔다.
현재 소송의 범위와 배경은 시각 예술가들과 저자들이 구글을 상대로 자신들의 저작물을 생성형 AI 시스템 훈련에 무단으로 사용했다고 고소한 사건에서 시작되었다. 이 사건은 예술가, 저자, 음반사 등 저작권 보유자들이 AI 기업을 상대로 제기한 다수의 고액 소송들 중 하나다. 한편, AI 기업 앤트로픽(Anthropic)은 작년에 자사 챗봇 ‘클로드(Claude)’의 학습에 사용된 저작물 문제로 고소한 작가들과 15억 달러(약 15억 달러)의 합의금을 지급하며 합의를 본 바 있다.
법적 절차와 향후 전망으로는 미 연방지방법원 판사 유미 리(Eumi Lee)가 이번 출판사들의 개입 신청을 승인할지 여부를 결정하게 된다. 출판사들의 개입이 허용되면 소송에 포함되는 원고 범위가 확대되고, 이로 인해 잠재적 손해배상액 및 소송 전략에 중대한 변수가 추가될 가능성이 있다.
용어 설명 — 이 사건을 이해하기 위해 몇 가지 주요 용어를 정리하면 다음과 같다. 집단소송(class action)은 다수의 피해자가 공통의 법적 쟁점을 바탕으로 대표 원고를 통해 공동으로 소송을 제기하는 절차이다. 생성형 AI(generative AI)는 텍스트, 이미지 등 새로운 콘텐츠를 생성하는 AI 모델을 가리키며, 이러한 모델은 일반적으로 방대한 양의 학습 데이터(training data)로부터 패턴을 학습한다. 대형 언어 모델(large language model)은 자연어를 이해·생성하도록 설계된 대규모 신경망 모델을 의미한다.
출판업계의 주장 근거로서 출판사들은 소송서류에서 10건의 구체적 사례를 제시했다. 이들 사례는 특정 저자들의 책과 교재에서 발췌한 내용이 구글의 AI 학습에 사용되었다고 명시하고 있으며, 출판사들은 이를 통해 무단 복제 및 경제적 손해가 발생했다고 주장한다. 구글 측 대변인은 이들 출판사의 소송 개입 요청에 대해 즉각적인 논평을 내지 않았다.
시장 및 산업적 파급효과 — 이번 개입 신청이 받아들여질 경우 법적 리스크가 확대되며, 이는 AI 기술을 개발·운영하는 기술기업들에 다음과 같은 영향을 미칠 수 있다. 첫째, 잠재적 손해배상액의 규모가 증가하면 소송 관련 비용이 늘어나고 기업의 재무적 부담이 가중될 가능성이 있다. 둘째, 판례가 형성될 경우 AI 모델의 학습에 사용되는 데이터의 라이선스 정책이 강화되어 데이터 확보 비용이 상승할 수 있다. 셋째, 저작권 보유자와 기술기업 간의 라이선싱 협상이 활발해지며 새로운 매출원과 계약 관행이 등장할 여지가 있다. 마지막으로 이러한 법적 불확실성은 투자자들의 단기적 리스크 평가에 반영되어 관련 기술주의 변동성을 일시적으로 높일 수 있다.
법률·산업 전문가의 실무적 고려사항로는 원고 측이 제시하는 증거의 범위와 데이터 사용의 성격(예: 원문 그대로의 복제 여부, 변형·요약 과정 등)이 판결의 핵심 변수가 될 것이라는 점이 꼽힌다. 또한 AI 기업들이 향후 데이터 취득과정에서 사전 허가·라이선싱 절차를 강화하거나, 공개 데이터와 상업용 라이선스 데이터의 분리 전략을 채택할 가능성이 있다.
결론 — 하셰트와 켄게이지의 소송 개입 신청은 AI 학습용 데이터에 대한 저작권 문제를 재조명하는 계기가 되고 있다. 법원이 이들의 개입을 허용할 경우 해당 사건은 AI 산업 전반의 법적·상업적 관행을 재정립하는 중요한 선례가 될 수 있다.
