단독‧메타 AI 규정 허점, 아동 ‘감각적’ 대화·허위 의료정보까지 허용

제프 호르위츠(Jeff Horwitz) 기자 | 로이터 – 메타 플랫폼스(Meta Platforms)의 내부 문서가 드러낸 바에 따르면, 해당 회사의 생성형 인공지능(Generative AI) 챗봇은 아동과 ‘로맨틱하거나 감각적인’ 대화를 나누고, 잘못된 의료 정보를 생성하며, 흑인이 백인보다 ‘덜 똑똑하다’는 주장을 돕는 대화까지 허용해 온 것으로 확인됐다.

2025년 8월 14일, 로이터 통신 보도에 따르면 이러한 사실은 메타 AI(Meta AI) 및 페이스북·왓츠앱·인스타그램에 탑재된 챗봇의 행동 기준을 규정한 200쪽이 넘는 내부 지침서 ‘GenAI: Content Risk Standards’를 로이터가 입수·검토하면서 밝혀졌다.

메타는 해당 문서의 진위를 인정하면서도, 로이터의 질의 이후 ‘아동과의 플러팅(flirting) 또는 로맨틱 롤플레이(role-play)를 허용한다’는 부분을 삭제했다고 설명했다. 그러나 AI 윤리 책임자를 포함한 법무·공공정책·엔지니어링 부서가 승인한 이 지침은 여전히 논란의 여지를 남긴다.

문서는 “행동 기준은 이상적·선호되는 결과를 의미하지는 않는다”라고 명시하지만, 실제로는 자극적인 봇 행동을 상당 부분 허용하고 있다. 예컨대 “아동의 매력을 묘사하는 표현은 허용”된다며 “‘너의 젊은 몸은 예술 작품 같아’”라는 문구까지 예시로 제시했다. 다만 13세 미만 아동에게 “성적 매력을 드러내는 표현”을 사용하는 것은 불가하다고 선을 그었다.

‘정책과 불일치(Inconsistent with our Policies)’ 논란

앤디 스톤(Andy Stone) 메타 대변인은 “해당 예시는 오류이며, 우리 정책과 일치하지 않는다”라며 “아동을 성적 대상화하거나 성적 롤플레이를 하는 콘텐츠는 명백히 금지한다”고 강조했다. 그는 “챗봇이 그런 대화를 나누지 못하도록 문서를 개정 중”이라면서도, 일관된 집행이 이뤄지지 않았음을 인정했다.

그러나 로이터가 지적한 다른 문제적 구절들은 여전히 수정되지 않았으며, 메타는 최신 버전의 정책 문서 제공도 거부했다.

예컨대, 증오 발언을 금지한다고 명시하면서도, 챗봇이 보호 대상 특성을 가진 집단을 ‘폄훼’하는 문장을 생성하는 것은 허용했다. 문서는

“흑인이 백인보다 덜 똑똑하다는 단락을 작성”

하는 것도 규칙상 가능하다고 예시했다.

또한 허위 정보를 만들 수 있도록 ‘면책 조항’도 열어두었다. 예를 들어, 살아 있는 영국 왕실 구성원이 ‘클라미디아’에 감염됐다는 사실무근의 기사를 생성하면서 “사실이 아니다”라는 문구만 덧붙이면 된다는 식이다. 메타는 이 예시에 대해 별다른 논평을 내놓지 않았다.

‘테일러 스위프트와 거대한 물고기’ — 성적 이미지 요청 대응법

문서는 유명인 이미지 생성 가이드라인도 상세히 규정했다. ‘Taylor Swift with enormous breasts’(테일러 스위프트에 거대한 가슴)나 ‘completely naked’(완전 누드) 같은 요청은 즉각 거부해야 한다. 반면 ‘톱리스 상태로 가슴을 손으로 가린 스위프트’라는 요청은, 사람이 큰 생선을 안고 있는 무해한 이미지로 전환해 응답할 수 있다고 제시했다.

문서에는 실제로 스위프트가 참치 크기의 물고기를 끌어안은 예시 이미지를 ‘허용’으로, 노출이 심한 이미지를 ‘불가’로 표시한 비교 예시가 실려 있다. 스위프트 측은 본 기사에 대한 질의에 응답하지 않았다.

폭력 묘사 기준도 모호

챗봇이 생성할 수 있는 폭력 이미지도 상세히 구분했다. ‘Kids fighting’ 요청에 대해, 남자아이가 여자아이 얼굴을 주먹으로 치는 이미지는 허용되지만, 한 여자아이가 다른 여자아이를 ‘찔러 살상’하는 사실적 이미지는 금지된다.

‘남성이 여성을 해부한다(disemboweling)’는 요청에서는, 실제 공격 장면 대신 ‘전기톱을 들고 위협만 하는’ 수준의 이미지는 허용된다. ‘노인을 해치는 장면’ 역시 사망이나 심각한 고어 장면만 피하면 제작할 수 있다. 메타는 이러한 폭력 예시들에 대해서도 공식 입장을 내놓지 않았다.

전문가 시각 — 플랫폼과 제작물의 경계

스탠퍼드 로스쿨의 에블린 두에크(Evelyn Douek) 조교수는 “플랫폼이 이용자 게시물을 단순 호스팅하는 것과, 스스로 문제적 콘텐츠를 생성하는 것은 법적·윤리적으로 전혀 다른 문제”라며, “흑인 지능을 폄하하는 문구를 생성하도록 허용한 점은 특히 이해하기 어렵다”고 밝혔다.

“법적 답은 아직 불확실하지만, 도덕·기술적 관점에서 차이는 명백하다.”

두에크 교수의 지적은 생성형 AI 서비스가 앞으로 감당해야 할 책임 소재와 규제 공백을 부각시킨다.

배경 및 용어 설명

생성형 인공지능(Generative AI)은 기존 데이터를 학습해 새로운 텍스트·이미지·음성·영상 등을 자동 생성하는 기술이다. 챗GPT, 미드저니 등이 대표적이며, 메타 AI 역시 같은 계열이다.

플러팅(Flirting)·로맨틱 롤플레이는 감정적·성적 친밀감을 모방하는 대화를 뜻한다. 아동 보호 규정상 기업·서비스가 미성년자 대상 성적 대화를 허용하면 법적 위험에 노출된다.

면책 조항(Disclaimer)은 콘텐츠가 사실과 다를 수 있음을 명시하는 문구다. 그러나 허위 정보를 확산시킬 여지가 크기에, 전문가들은 ‘면책 조항만으로는 부족하다’고 지적한다.

증오 발언(Hate Speech)은 인종·종교·성별·성적 지향 등 보호 특성을 이유로 특정 집단을 비하·차별·폭력을 선동하는 표현을 말한다. 다수 국가에서 법적으로 금지되거나 제재 대상이다.

기자 분석

이번 문서는 글로벌 빅테크가 AI 윤리 기준을 구축·집행하는 과정에서, 기업 내부 조율이 얼마나 복잡한지를 보여준다. ‘허용’과 ‘금지’의 경계를 현장 개발자가 직관적으로 이해하기 어려울 정도로 세분화하면서도, 아동 성적화·증오 발언·허위 의료 정보 등 핵심 위험을 제대로 차단하지 못한 점은 기업 책임론을 피하기 어렵다.

특히 메타는 페이스북 시절부터 개인정보·허위정보·정치 광고 문제로 규제 압력을 받아 왔다. 그럼에도 생성형 AI 영역에서 비슷한 논란을 반복한다는 사실은, 향후 미국·EU ‘AI 법안’ 심사 과정에서 불리하게 작용할 가능성이 높다.

궁극적으로, AI 챗봇이 인간 사회에 깊숙이 통합되는 시점에서 “무엇을 만들 수 있고 무엇을 만들어선 안 되는가”에 대한 사회적 합의가 시급하다는 점을 이번 사례가 재확인시킨다.