OpenAI, 2,000만 건의 익명화된 ChatGPT 대화 기록 제출 명령 취소 요청

OpenAI가 ChatGPT 사용자 프라이버시를 이유로 방대한 대화 로그 제출 명령에 제동

OpenAI가 뉴욕 연방법원에 2,000만 건 규모의 익명화된 ChatGPT 대화 로그를 제출하라는 법원 명령을 뒤집어 달라고 요청했다. 이 요청은 뉴욕타임스(New York Times)와 다른 언론사가 제기한 저작권 침해 소송의 증거개시 절차와 연동된 것이다. 회사는 이러한 제출이 사용자들의 사적 대화를 노출시킬 수 있다고 주장했다.

2025년 11월 12일, 로이터(Reuters) 보도에 따르면, OpenAI는 해당 로그의 공개가 기밀 사용자 정보를 드러낼 위험이 있으며, 사건의 저작권 침해 주장과 무관한 내용이 압도적으로 많다고 밝혔다. 회사는 법원 서면에서 제출 대상 대화의 99.99%^*가 소송 쟁점과 관련이 없다고 강조했다.
_{* 숫자는 OpenAI의 법원 제출 문서 인용치다.}

OpenAI는 법원 제출 서류에서 다음과 같이 밝혔다.

주목

“명확히 하자면, 지난 3년간 ChatGPT를 사용한 전 세계 누구든 자신의 개인적 대화가 임의의 탐색적 어로행위(fishing expedition)를 위해 뉴욕타임스에 넘어갈 가능성에 직면하게 된다.”

소송의 핵심: “타임스 기사 오남용” 주장

소송을 제기한 언론사들은, 대화 로그가 ChatGPT가 자신들의 저작물을 재현했는지 여부를 규명하는 데 필수라고 주장한다. 또한 이들은 OpenAI가 증거를 만들어내기 위해 챗봇의 응답을 ‘해킹(hacked)’했다는 회사 측 주장을 반박하려면 실제 사용자 로그가 필요하다고 말했다. 해당 소송은 OpenAI가 언론사의 기사를 모델 학습에 오남용해, 사용자 문의에 저작권 콘텐츠를 재현하도록 만들었다고 주장한다.

매지스트레이트 판사 오나 왕(Ona Wang)은 대화 기록 제출을 명한 결정에서, 사용자 프라이버시는 회사의 “철저한 비식별화(exhaustive de-identification)”와 기타 안전장치로 보호될 것이라고 밝혔다. 현재 법원은 금요일까지 대화 기록 제출을 요구한 상태다.

뉴욕타임스 대변인과 법률대리인은 즉각적인 논평 요청에 응하지 않았다.

OpenAI 최고정보보안책임자(CISO) 데인 스터키(Dane Stuckey)는 같은 날 게시한 블로그 글에서, 대화 로그 공유가 프라이버시 및 보안 보호를 침해하며 “타임스의 근거 없는 소송과 무관한 사람들의 극히 개인적 대화 수천만 건을 어쩔 수 없이 제출하게 만든다”고 주장했다.

주목

이 사건은 AI 시스템 학습 과정에서의 저작권 자료 오남용을 둘러싸고 여러 기술 기업을 상대로 제기된 다수의 계류 소송 중 하나다.

핵심 용어와 절차 이해

• 증거개시(Discovery): 미국 민사소송에서 당사자들이 소송 관련 정보를 상호 교환하는 절차다. 전자문서가 중심이 되는 전자증거개시(e-discovery)가 일반화되어 있으며, 관련성과 비례성 기준이 적용된다. 이번 사안의 쟁점도, 2,000만 건 대화 로그가 실제로 쟁점사실과 얼마나 관련성이 있는지에 모아진다.

• 비식별화(De-identification): 개인을 특정할 수 있는 식별자를 제거·가명처리해 데이터의 프라이버시 위험을 줄이는 조치다. 법원이 언급한 “철저한 비식별화”는 이름, 이메일, 아이피 등 직접/간접 식별자 제거를 뜻하지만, 데이터 규모와 문맥 정보에 따라 재식별 위험이 제기될 수 있다. OpenAI는 이 점을 근거로, 비식별화 이후에도 개인적 대화의 노출 가능성을 경계하고 있다.

• 매지스트레이트 판사(Magistrate Judge): 미국 연방법원에서 민사·형사 사안의 절차 관리와 일부 결정을 담당하는 사법관이다. 증거개시 관련 분쟁에서 실무적 판단을 내리는 경우가 많다. 이번 사건에서 오나 왕 판사는 보호조치를 전제로 한 제출 명령을 내렸고, OpenAI는 그 재검토(reconsideration)를 구하는 셈이다.

• “Fishing expedition”: 상대방의 위법·책임 사실을 찾기 위해 광범위하고 비특정적으로 자료를 뒤지는 관행을 비판적으로 지칭하는 법률 용어다. OpenAI는 타임스 측의 요구가 구체적 쟁점에 비해 범위가 과도하다고 주장하고 있다.

이번 결정이 갖는 법적 쟁점과 균형

현재 구도는 프라이버시·보안 대 증거 접근권의 충돌로 요약된다. 한편으로는 개인적 대화가 포함된 방대한 로그를 제출하는 순간 재식별 위험과 민감 정보 노출 우려가 높아진다. 다른 한편으로는, 저작권 침해의 존재와 범위를 입증하거나 회사 측 방어 논리를 검증하려면 실제 상호작용 데이터가 필요하다는 주장이 힘을 얻는다. 법원은 일반적으로 관련성·비례성·프라이버시 보호의 세 축 사이에서 조정 장치를 모색한다.

이번 사안에서는 제출 범위와 보호조치의 강도가 관건이다. 예를 들어, 무작위 샘플링 또는 키워드 기반의 제한적 추출, 특권·기밀 보호 절차 등 일반론적 기법들이 논의되는 경우가 있다. 다만, 본 사건에서 구체적으로 무엇이 채택되었는지는 기사에서 확인되지 않았다. 현 단계에서 분명한 것은, OpenAI가 제출 명령 자체의 재검토 또는 범위 축소를 적극적으로 추구하고 있다는 점이다.

또한 99.99%라는 수치는, 대화 로그의 대부분이 비관련하다는 회사 측 입장을 상징적으로 보여준다. 이는 증거개시의 비례성 원칙—요구되는 자료가 소송 목적 달성에 합리적으로 필요하고 부담이 과도하지 않아야 한다는 기준—에 비추어, 광범위 제출 요구가 과도하다고 보는 논거로 작용한다.

산업·정책적 파장: AI 거버넌스의 분기점

이번 다툼은 생성형 AI 서비스가 대중화된 이후 누적된 데이터 거버넌스 문제를 전면화한다. 첫째, 사용자 신뢰 문제다. 사적 대화가 소송을 계기로 외부 기관에 전달될 수 있다는 인식은 서비스 이용 행태에 직·간접적 영향을 줄 수 있다. 둘째, 투명성과 권리보호의 경계 설정이다. 모델 학습 과정과 출력 메커니즘에 대한 통제가 강화될수록, 저작권자 보호는 전진할 수 있으나 기술의 운영상 부담과 혁신 속도에 대한 우려도 제기될 수 있다.

셋째, 규제·표준의 진화다. 데이터 최소수집, 프라이버시 강화 기술(PETs), 차등 프라이버시, 연합학습 등은 광범위한 데이터 처리와 프라이버시 보호를 조화시키려는 대표적 접근법으로 거론된다. 이번 분쟁은 이러한 기술적·절차적 보호조치가 법원의 요구 수준을 충족시키는지, 그리고 대규모 모델 운영사가 실제로 어디까지 구현·검증할 수 있는지를 가늠하게 만든다.

넷째, 저작권 집행의 실효성이다. 저작권자 측은 실사례를 통해 모델이 어떻게 저작물을 재현하는지를 보여줄 필요가 있고, 그 과정에서 원천 데이터와 출력 로그에 대한 접근이 쟁점이 된다. 반대로, 사업자 측은 영업비밀과 사용자 프라이버시를 침해하지 않는 범위에서만의 공개를 주장할 동인이 크다. 이 균형점 설정은 향후 유사 소송의 실무 기준으로 기능할 가능성이 있다.

현재 확인된 사실 요약

• 장소: 뉴욕 연방법원. • 당사자: 원고 — 뉴욕타임스 등 언론사, 피고 — OpenAI. • 쟁점: 2,000만 건의 익명화된 ChatGPT 대화 로그 제출 명령의 적법성·범위. • 법원 판단(현황): 매지스트레이트 판사 오나 왕이 제출 명령을 내렸으며, 프라이버시는 “+철저한 비식별화+” 등 보호장치로 보장된다고 언급. • 피고 입장: 제출 강제 시 사용자 사적 대화 노출, 99.99% 비관련 주장. • 마감: 금요일까지 제출 요구. • 추가 발언: OpenAI CISO 데인 스터키, 블로그에서 제출 거부 논리 재차 강조. • 문맥: AI 학습을 둘러싼 다수의 저작권 소송 중 하나.

전망과 관전 포인트: 본 사안은 프라이버시 보호와 증거개시의 필요성이라는 두 원칙의 경계선을 구체화할 것으로 보인다. 법원은 관련성과 비례성 판단을 중심으로 제출 범위를 정교화하고, 고도화된 비식별화 및 보호명령을 결합하는 방향을 모색할 여지가 있다. 결과적으로, 본 건의 처리 방식은 향후 AI 기업과 저작권자가 직면할 표준적 절차의 선례로 인용될 가능성이 있다.