앤트로픽 연구: 사용자들은 AI와 반복적으로 상호작용하지만 코드 생성 시 출력에 대한 비판은 줄어든다

앤트로픽(Anthropic)이 공개한 연구 결과에 따르면, 자사의 AI 어시스턴트인 클로드(Claude)와 반복적으로 상호작용하는 사용자들이 초기 응답을 곧바로 수용하는 사용자들보다 더 많은 유창성 행동(fluency behaviors)을 보였으나, 해당 도구가 코드나 문서를 생성할 때는 사용자의 비판적 검토 행동이 줄어드는 경향이 나타났다.

2026년 2월 23일, 인베스팅닷컴의 보도에 따르면, 앤트로픽은 2026년 1월 일주일간(7일) Claude.ai에서 수집한 9,830건의 익명화된 대화를 분석했다. 연구는 앤트로픽이 정의한 4D AI Fluency Framework를 적용했으며, 이 프레임워크는 반복(iteration), 사실 확인(fact-checking), 추론에 대한 질문(questioning reasoning)을 포함한 총 11가지 관찰 가능한 행동을 추적한다.

연구 결과 주요 수치로는 대화의 85.7%가 반복 및 정제(iteration and refinement)를 보였으며, 이들 반복 대화는 비반복 대화(accept initial responses)보다 평균적으로 2.67개의 추가 유창성 행동을 보인 반면, 비반복 대화에서는 평균 1.33개의 행동만 관찰되었다는 점이 보고되었다.

아티팩트(코드·문서·인터랙티브 도구)를 포함한 대화는 표본의 12.3%를 차지했으며, 이러한 대화에서는 지시적 행동(directive behaviors)의 비율이 더 높게 나타났다. 구체적으로 사용자는 목표를 명확히 하는 행위(goal clarification)가 +14.7 퍼센트포인트, 형식 지정(format specification)이 +14.5 퍼센트포인트, 예시 제공(example giving)이 +13.4 퍼센트포인트 증가했다.

반면 동일한 아티팩트 생성 대화에서는 비판적 평가의 비율이 감소했다. 사용자가 누락된 맥락을 식별하는 행동은 비아티팩트 대화에 비해 -5.2 퍼센트포인트, 사실 확인 행동은 -3.7 퍼센트포인트, 클로드의 추론에 의문을 제기하는 행동은 -3.1 퍼센트포인트 적게 관찰되었다.

핵심 인용: “사용자가 도구로부터 직접 산출물(예: 코드·문서)을 받을 때에는 지시적 요청은 늘어나지만, 동시에 산출물에 대한 비판적 검토는 상대적으로 줄어드는 경향이 있다.”

앤트로픽은 이번 연구를 통해 AI 유창성(AI fluency)의 발전을 시간 경과에 따라 추적하기 위한 기준선(baseline)을 마련했다고 밝혔다. 회사는 향후 신규 사용자와 경험 많은 사용자를 비교하는 집단(cohort) 분석을 수행하고, 채팅 인터페이스 밖에서 일어나는 행동을 정성적 방법으로 평가하기 위해 추가 연구를 진행할 계획이라고 전했다.

원문 기사 작성·편집 관련 고지: 이 기사는 AI의 지원을 받아 작성되었고 편집자의 검토를 거쳤다.

용어 설명

이번 연구에서 사용된 4D AI Fluency Framework는 연구자와 실무자가 AI 도구와의 상호작용에서 나타나는 구체적 행동을 체계적으로 분류하기 위해 고안된 측정 체계다. 여기서 말하는 “유창성 행동(fluency behaviors)”은 사용자가 AI와 협업하면서 보이는 여러 유형의 상호작용—예컨대 반복적으로 요청을 다듬거나, 결과를 검증하기 위해 추가 정보를 확인하거나, AI의 추론 과정을 질문하는 행위—을 말한다. 이러한 행동은 AI 도구의 활용 숙련도와 신뢰성 평가에 중요한 지표로 간주된다.

분석적 평가 및 경제적·산업적 시사점

이번 연구 결과는 기업과 개발자, 제품 설계자에게 몇 가지 실무적 의미를 제공한다. 첫째, 반복적 상호작용이 사용자의 능동적 참여도를 높이고 더 많은 유창성 행동을 이끌어낸다는 사실은, AI 도구의 설계에서 반복·피드백 루프(feedback loop)를 촉진하는 인터페이스와 워크플로우가 중요함을 시사한다. 이는 생산성 도구(예: 코드 작성 보조, 문서 자동화 플랫폼)를 제공하는 기업들이 사용자 교육과 인터페이스 설계에 더 많은 투자를 고려해야 함을 의미한다.

둘째, 코드나 문서 같은 산출물(artifacts)을 직접 생성하는 상황에서 사용자의 비판적 검토가 감소한다는 점은 품질관리(QA)와 보안 관점에서 리스크가 될 수 있다. 예를 들어 자동으로 생성된 코드의 경우 버그·취약점이나 맥락 누락으로 인한 오류가 더 쉽게 발생할 수 있으며, 문서 자동화에서는 사실관계 오류가 누적될 가능성이 커진다. 따라서 기업은 자동 생성물에 대한 후속 검토 프로세스를 강화하고, 자동화된 산출물의 검증을 위한 내부 가이드라인과 툴을 도입할 필요가 있다.

셋째, 시장 관점에서는 AI 도구의 채택이 가속화될수록 단기적으로는 생산성 향상에 따른 비용 절감과 서비스 품질 개선이 기대되나, 장기적으로는 검증·감시 비용과 신뢰관리 비용이 늘어날 수 있다. 금융, 헬스케어, 법률 등 규제·신뢰가 중요한 분야에서는 특히 자동 산출물의 검토 단계와 규정 준수(compliance) 절차를 명확히 해야 한다.

마지막으로 앤트로픽이 밝힌 향후 연구 방향—신규 대 오랜 사용자 비교, 인터페이스 외 행동에 대한 정성적 분석—은 AI 제품을 도입하는 조직이 사용자 숙련도에 따른 차별화된 교육·온보딩 전략을 수립해야 함을 시사한다. 예컨대 신규 사용자에게는 기초적인 검증 습관을 교육하고, 숙련 사용자에게는 고급 검증 워크플로우를 제공하는 식의 단계적 접근이 필요하다.

실무자를 위한 권고

기업 및 개발팀은 다음과 같은 점을 고려할 필요가 있다: (1) 자동 생성물에 대한 표준화된 검증 체크리스트 도입, (2) 반복적 상호작용을 유도하는 UI/UX 개선, (3) 사용자 행동 데이터를 기반으로 한 맞춤형 교육 프로그램 설계, (4) 보안·컴플라이언스 관점에서의 추가 감시 체계 강화. 이러한 조치들은 AI 도구가 제공하는 생산성 이점을 유지하면서도 품질과 신뢰를 확보하는데 기여할 것이다.