오픈AI, 뉴욕 연방법원에 ‘ChatGPT 대화 2천만건 제출’ 명령 뒤집기 요청…“개인 대화 노출 우려”

오픈AI(OpenAI)가 뉴욕 연방법원에 익명 처리된 ChatGPT 대화 로그 2천만건을 제출하라는 법원 명령을 뒤집어 달라고 요청했다고 밝혔다. 이 조치는 뉴욕타임스(The New York Times)와 기타 언론사가 제기한 저작권 침해 소송의 증거 개시에 대응하는 것으로, 오픈AI는 대화 기록 제공이 사용자들의 개인적 대화를 노출시킬 수 있다고 주장했다.

2025년 11월 12일, 로이터 통신의 보도에 따르면, 오픈AI는 해당 명령이 시행될 경우 비밀 사용자 정보가 드러나게 되고, 특히 전체 전사(transcript)의 99.99%가 소송 쟁점과 무관하다고 강조했다. 회사는 세계 어느 곳에서든 지난 3년간 ChatGPT를 사용한 이들이 자신들의 대화가 뉴욕타임스에 넘어가 무제한적으로 검색될 수 있는 위험에 직면하게 된다고 반박했다.

오픈AI는 법원 제출 문서에서 다음과 같이 밝혔다.

주목

명확히 하자면, 지난 3년간 ChatGPT를 사용한 전 세계 누구나 이제 자신의 개인적 대화가 이번 소송의 탐색적 어획을 위해 뉴욕타임스에 넘겨질 수 있다는 가능성에 직면하게 됐다.

소송의 핵심 쟁점과 관련해, 언론사 측은 대화 로그가 ChatGPT가 자사의 저작물을 재현했는지를 가늠하기 위한 필수 증거라고 주장했다. 또한 이는 오픈AI가 제기한, 원고 측이 챗봇의 응답을 의도적으로 조작하거나 일종의 해킹을 통해 증거를 만들었다는 반론을 반박하는 데도 필요하다고 했다. 원고는 오픈AI가 자사 기사들을 무단으로 활용해 ChatGPT 학습 및 프롬프트 응답 생성에 이용했다고 주장하고 있다.

오나 왕(Ona Wang) 연방 치안판사는 대화 제출을 명령하며, 오픈AI의 철저한 비식별화(exhaustive de-identification)와 기타 보호 장치로 사용자 프라이버시가 보장될 것이라고 밝혔다. 법원 명령에 따라 오픈AI는 금요일까지 전사본을 제출해야 한다. 한편, 뉴욕타임스 대변인 및 법률 대리인은 논평 요청에 즉각 응답하지 않았다.

오픈AI 최고정보보안책임자(CISO) 데인 스터키(Dane Stuckey)는 수요일 게시한 블로그 글에서 대화 로그 공유가 개인정보 및 보안 보호 조치를 침해한다고 지적했다. 그는 이번 명령이 뉴욕타임스의 근거 없는 소송과 무관한 사람들로부터 수천만 건의 고도로 개인적인 대화를 넘겨주도록 강제하는 결과를 낳는다고 주장했다.

이 대화 로그를 공유하는 것은 우리의 프라이버시·보안 원칙을 훼손하며, 뉴욕타임스의 근거 없는 소송과 아무 관련이 없는 사람들의 극히 개인적인 대화 수천만 건을 제출하도록 우리를 강제하는 일이다.

이번 사건은 저작권이 있는 작품을 인공지능 학습에 활용했다는 의혹을 둘러싸고 기술 기업을 상대로 제기된 다수의 계류 소송 중 하나다. AI가 생산한 응답이 원저작물을 실질적으로 재현하는지 여부와, 그러한 재현이 일어나는 경로를 규명하는 문제가 공통적으로 쟁점이 되고 있다.

주목

용어·절차 설명

비식별화(de-identification)란 개인을 특정할 수 있는 정보(예: 이름, 이메일, 계정 식별자, 고유 토큰 등)를 제거하거나 변환해 데이터에서 직접·간접 식별 가능성을 낮추는 처리 절차를 뜻한다. 다만, 데이터 양이 방대하거나 문맥 정보가 풍부한 텍스트의 경우, 재식별 위험을 완전히 제거하기 어렵다는 지적도 존재한다^일반론.

연방 치안판사(Magistrate Judge)는 미국 연방법원에서 증거개시(discovery), 영장, 절차적 분쟁 등을 관리·조정하는 역할을 수행한다. 본건에서 오나 왕 치안판사는 로그 제출 명령과 함께 비식별화 및 기타 보호 장치를 조건으로 제시했다.

로그(log)는 서비스 이용 과정에서 생성된 대화 내역, 시간 정보, 시스템 반응 등을 포함하는 기록을 가리킨다. 본 사안의 쟁점은 대화 내용 그 자체가 저작권 침해를 가늠하는 핵심 증거인지, 그리고 이를 제공할 때 개인정보 보호와 증거 보전을 어떻게 양립시킬지에 있다.

쟁점 정리

첫째, 관련성의 범위다. 오픈AI는 제출 대상의 99.99%가 소송 주장과 무관하다고 본다. 원고 측은 반대로 재현 여부를 확인하고, 오픈AI의 해킹 주장을 반박하려면 폭넓은 로그 접근이 필요하다는 입장이다. 법원은 관련성·필요성·비례성을 함께 따져 제출 범위를 조정할 수 있다.

둘째, 프라이버시 보호다. 치안판사는 철저한 비식별화와 기타 안전장치를 조건으로 제시했지만, 오픈AI는 여전히 개인적 대화의 노출을 우려한다. 특히 개인적·민감한 맥락을 담은 자연어 텍스트는 단순 식별자 제거만으로는 재식별 위험을 완전히 차단하기 어렵다는 점이 논란의 핵심이다.

셋째, 기술적·절차적 대안 가능성이다. 일반적으로 법원은 필요시 표본 제출, 비공개 열람(in camera review), 변호인 한정 열람(Attorneys’ Eyes Only), 보안 저장소 등의 방식을 고려할 수 있다^{일반적 절차 옵션}. 본건에서도 이러한 비례적 보호 조치가 논의될 여지가 있다.

전문적 해설·시사점

AI 저작권 소송에서 가장 난해한 과제는 학습(트레이닝)과 출력(생성)을 구분해 책임을 특정하는 일이다. 원고는 훈련 데이터로의 무단 이용과 출력에서의 실질적 재현을 모두 문제 삼을 수 있으나, 법적 판단은 구체적 재현 빈도, 문맥, 변형 정도, 공정 이용의 범위 등 복합 요소에 좌우된다. 이번 사건에서 요구된 2천만건 로그는 규모 면에서 전례적으로 매우 방대해, 관련성 대비 침해 위험이라는 비례성 원칙에 정면으로 맞닿아 있다.

프라이버시 측면에서는, 광범위한 사용자 대화를 사후 비식별화만으로 방어하는 접근에 구조적 한계가 있다. 자유 서술형 텍스트는 개인의 습관, 지역, 일정, 직무, 관계 등 간접 식별자를 풍부하게 포함할 수 있기 때문이다. 따라서 기술기업은 데이터 최소화와 차등프라이버시(differential privacy) 같은 사전 설계를 강화하고, 법원에는 필요 최소한·목적 제한 원칙을 설득력 있게 제시할 필요가 있다.

반면 저작권 보호 관점에서 보면, 언론사 등 권리자는 실제 재현의 증거 없이는 책임 성립이 어렵다. 따라서 검증 가능한 로그 접근은 증거구성의 핵심이다. 바람직한 해법은 엄격한 보호명령(protective order) 하에 표본 기반·컨텍스트 한정 접근을 허용하되, 재현 사례에 집중하는 방식으로 프라이버시와 증거적 필요성의 균형을 맞추는 것이다.

결국 이번 사건은 프라이버시 대 증거개시, 기술 보호장치 대 법적 투명성이라는 이중의 균형 문제를 시험대에 올려놓았다. 금요일로 설정된 제출 시한과 오픈AI의 재고 요청 사이에서, 법원은 제출 범위의 축소·단계화, 보호조치의 강화, 감사 추적성 등을 포함한 타협적 조합을 검토할 가능성이 크다^일반론. 향후 결정은 유사 소송에서의 데이터 제출 기준과 AI 서비스 프라이버시 보호 관행의 가이드라인으로 기능할 수 있다.

현재까지 확인된 핵심 사실

· 오픈AI는 뉴욕 연방법원에 대화 로그 2천만건 제출 명령의 재고를 요청했다.
· 회사는 제출 시 사용자 개인 대화 노출을 우려하며, 기록의 99.99%가 쟁점과 무관하다고 주장한다.
· 원고(뉴욕타임스 등)는 로그가 저작권 재현 여부 판단과 해킹 주장 반박에 필요하다고 본다.
· 오나 왕 연방 치안판사는 비식별화와 보호장치를 전제로 제출을 명령하고 금요일까지 기한을 부여했다.
· 오픈AI CISO 데인 스터키는 블로그에서 제출이 프라이버시·보안 원칙을 침해한다고 밝혔다.