샌프란시스코에서 와인 수집 앱을 운영하는 CellarTracker는 사용자 취향에 맞춘 솔직한 와인 추천을 위해 AI 기반 소믈리에 기능을 도입했다. 그러나 출시 전 테스트 과정에서 챗봇은 지나치게 공손해 ‘사실을 솔직하게 말하지 않는’ 문제가 드러났다.
“그냥 매우 예의 바르다. ‘당신이 그 와인을 좋아할 가능성은 거의 없다’고 바로 말하기보다 지나치게 친절하다’”고 CellarTracker의 최고경영자 에릭 르바인(Eric LeVine)은 밝혔다. 이 기능을 출시하기 전, 챗봇이 정직한 평가를 하도록 유도하는 데 여섯 주의 시행착오가 필요했다.
2025년 12월 16일, 로이터 통신의 보도에 따르면, ChatGPT가 폭발적으로 확산된 이후 지난 3년간 대기업과 중소기업 모두 생성형 인공지능(generative AI)을 제품과 서비스에 적용하려는 시도를 활발히 해왔다. 그러나 기업 임원, 자문가들과 최근 진행된 일곱 건의 임원·직원 설문조사 결과를 보면, 대부분의 기업은 아직 AI 투자 대비 의미 있는 재무적 성과를 거두지 못하고 있다.
예컨대 리서치 및 자문사 포레스터 리서치(Forrester Research)가 2분기에 진행한 1,576명의 임원 대상 설문에서 응답자의 단 15%만이 지난 1년간 AI로 인해 이익률 개선을 경험했다고 답했다. 컨설팅업체 BCG가 5월에서 7월 중순 사이 1,250명의 임원을 대상으로 조사한 결과는 이보다 더 낮아, 응답자의 5%만이 AI로부터 광범위한 가치를 얻었다고 응답했다.
“경영진들은 생성형 AI가 궁극적으로 비즈니스를 변혁할 것으로 믿지만, 그 변화의 속도에 대해서는 재고하고 있다.” 포레스터의 분석가 브라이언 홉킨스(Brian Hopkins)는 “기술 기업들이 ‘곧 모든 것이 빨리 변할 것이다’라는 이야기를 퍼뜨렸지만, 인간은 그렇게 빠르게 변하지 않는다”고 지적했다. 포레스터는 기업들이 2026년 예정된 AI 지출의 약 25%를 1년 연기할 것으로 전망했다.
‘쉬운 버튼’이 아니다
ChatGPT 공개 직후 많은 기업은 생성형 AI 전담 태스크포스를 꾸려 텍스트 입력만으로 에세이, 소프트웨어 코드, 이미지 등 원본 콘텐츠를 자동 생성하는 이 기술을 조직에 적용하려 했다. 그러나 실전에서는 기술적·운영적 한계가 잇따라 드러났다.
한 가지 잘 알려진 문제는 AI 모델이 사용자에게 잘 보이려는 성향, 즉 ‘아첨성(sycophancy)’이다. 이런 성향은 사용자의 대화를 늘리지만, 모델의 조언 정확성을 떨어뜨릴 수 있다. CellarTracker는 OpenAI 기술을 기반으로 한 추천 기능에서 이 문제를 경험했는데, 일반적인 추천은 잘했지만 특정 빈티지(연도)에 대해 묻는 경우 사용자 취향과 맞지 않더라도 긍정적으로 답하는 경향을 보였다.
“우리는 모델이 비판적일 수 있도록(어떤 와인은 내가 좋아하지 않을 수 있다고 제안하도록) 온갖 노력을 기울여야 했다.”
일관성 부족도 또 다른 난제다. 북미 철도 서비스 제공업체 Cando Rail and Terminals의 북미 총괄 매니저 제레미 닐슨(Jeremy Nielsen)은 직원들이 내부 안전보고서와 교육자료를 학습할 수 있도록 AI 챗봇을 테스트했으나, 약 100페이지 분량의 Canadian Rail Operating Rules을 일관되게 정확히 요약하지 못하는 문제에 봉착했다고 전했다. 모델은 때로 규칙을 잊거나 잘못 해석했고, 때로는 규칙을 임의로 만들어내기도 했다. AI 연구자들은 길이가 긴 문서 중간에 등장하는 내용을 모델이 기억하거나 정확하게 재현하기 어려워한다고 설명한다.
현재 Cando는 해당 프로젝트를 보류했지만 다른 활용 방안을 실험 중이며, 지금까지 AI 제품 개발에 $300,000를 지출했다. 닐슨은 “우리는 모두 쉬운 버튼이 될 줄 알았다. 현실은 그렇지 않았다”고 말했다.
‘휴먼’의 복귀
콜센터와 고객 서비스 분야는 AI에 의해 크게 대체될 것으로 예상되었으나, 기업들은 AI에 위임할 수 있는 인간 상호작용의 범위가 제한적이라는 점을 빠르게 깨달았다. 스웨덴 결제회사 Klarna는 초기 도입 시 OpenAI 기반의 고객 응대 에이전트가 700명의 정규 고객상담원을 대체할 수 있다고 발표했다. 그러나 2025년에는 CEO 세바스티안 시미아토프스키(Sebastian Siemiathowski)가 이를 축소해 일부 고객은 여전히 사람 상담을 선호한다고 인정했다.
시미아토프스키는 AI가 단순 업무에 대해 신뢰할 수 있으며 현재는 약 850명 분량의 작업을 처리할 수 있으나 복잡한 이슈는 곧바로 사람 상담원에게 전가된다고 설명했다. 2026년을 위해 Klarna는 차세대 AI 챗봇 개발에 집중할 예정이지만, 사람 상담원 비중은 여전히 상당할 것이라고 했다. 그는 “고객 집착(customer-obsession)을 유지하려면 AI만으로는 안 된다”고 말했다.
미국 통신사 버라이즌(Verizon)도 2026년을 앞두고 인간 상담원 비중을 늘리고 있다. 버라이즌의 기업용 서비스 운영 개선을 위한 AI 담당 책임자 이반 버그(Ivan Berg)은 “소비자의 약 40%는 여전히 사람과 대화하기를 원한다”고 말했고, 회사는 약 2,000명의 최전선 고객상담원을 유지하면서 AI로 통화를 선별하고 고객 정보를 수집해 자가진단 시스템이나 사람 상담원으로 연결하는 데 활용하고 있다.
Zendesk의 제품·엔지니어링·AI 부문 사장인 샤시 우파다야이(Shashi Upadhyay)는 생성형 AI가 글쓰기, 코딩, 채팅의 세 가지 분야에서 특히 뛰어나다고 평가했다. Zendesk 고객사들은 전체 고객지원 문의의 50%에서 80%를 AI에 의존하고 있지만, 생성형 AI가 모든 것을 처리할 수 있다는 주장은 과장됐다고 지적했다.
‘톱니 모양의 전선(jagged frontier)’
대형 언어 모델(LLM)은 수학과 코딩 같은 복잡한 과제를 빠르게 정복하고 있지만, 상대적으로 사소한 작업에서 실패하기도 한다. 전문가들은 이 능력의 불균형을 ‘톱니 모양의 전선(jagged frontier)’이라고 부른다. LMArena의 CEO이자 공동창업자 아나스타시오스 안젤로풀로스(Anastasios Angelopoulos)는 “수학에서는 페라리일지 몰라도 캘린더에 일정을 넣는 데는 당나귀일 수 있다”고 비유했다.
작은 차이도 AI 시스템을 곤란하게 만들 수 있다. 많은 금융기관은 다양한 형식으로 제공되는 광범위한 데이터를 기반으로 의사결정을 하는데, 이런 형식 차이는 AI가 존재하지 않는 패턴을 ‘읽어내는’ 오류를 유발할 수 있다고 자문업체 Alpha Financial Markets Consulting의 디렉터 클락 쉐이퍼(Clark Shafer)는 말했다. 이에 따라 기업들은 AI 활용을 위해 데이터 재정형(리포매팅)을 검토하고 있으며, 이 과정은 비용·시간·복잡성이 클 수 있다.
네덜란드 기술투자 그룹 Prosus는 자사 포트폴리오에 관한 질문에 답할 수 있는 내부 AI 에이전트를 운용 중이다. 이론적으로 직원은 “Prosus가 투자한 음식배달사 중 베를린에서 스시 배달이 지난주에 얼마나 늦었나” 같은 질문을 할 수 있어야 한다. 그러나 지금은 툴이 베를린의 어떤 동네가 포함되는지, ‘지난주’가 정확히 언제인지를 항상 이해하지 못한다고 Prosus의 AI 책임자 유로 베이낫(Euro Beinat)은 밝혔다. 베이낫은 “사람들은 AI가 마법이라고 생각했지만, 그렇지 않다. 이 도구들을 잘 작동시키려면 많은 지식이 인코딩되어야 한다.”고 말했다.
더 많은 손길(Handholding)과 파트너십
OpenAI는 기업 고객을 위한 새 제품을 개발 중이며, 고객과 직접 협력해 문제 해결을 돕는 팀(예: Forward Deployed Engineering)을 내부에 구성했다. OpenAI의 수익총괄 책임자 애슐리 크레이머(Ashley Kramer)는 로이터가 주최한 Momentum AI 콘퍼런스에서 “사람들이 너무 크게 뛰어들어 수십억 달러 규모의 문제를 찾으면 수년이 걸릴 것”이라며 기업들이 우선 ‘영향은 크되 초기에 투입은 적은’ 영역을 찾는 데 집중하도록 돕고 있다고 말했다. OpenAI CEO 샘 올트먼(Sam Altman)은 기업용 AI 시스템 개발 시장이 $1000억 규모가 될 수 있다고 언급했다.
경쟁사인 Anthropic은 매출의 약 80%를 기업 고객에서 얻고 있으며, 기업에 직접 파견되어 내재화하는 ‘응용 AI(applied AI)’ 전문가를 채용하고 있다. Anthropic의 제품 책임자 마이크 크리거(Mike Krieger)는 AI 기업들이 단순 기술 배포자가 아니라 “파트너이자 교육자”로서 기업에 접근해야 성공할 수 있다고 말했다.
오픈AI 출신들을 포함한 다수의 스타트업은 금융·법률 등 특정 분야를 겨냥한 AI 도구를 개발 중이다. 이런 전문 분야용 모델이 범용 도구보다 기업에 더 큰 혜택을 줄 수 있다는 주장도 나온다. 샌프란시스코 기반의 AI 애플리케이션 스타트업 Writer는 뱅가드(Vanguard), 프루덴셜(Prudential) 등 대기업의 금융·마케팅 팀을 위해 AI 에이전트를 구축하면서 엔지니어를 고객 통화에 직접 투입해 워크플로우를 이해하고 공동으로 에이전트를 만드는 방식을 취하고 있다. Writer의 CEO 메이 하빕(May Habib)은 “기업은 AI 도구를 실제로 유용하게 만들기 위해 더 많은 손길이 필요하다”고 말했다.
용어 설명
• 생성형 인공지능(Generative AI): 텍스트 프롬프트를 바탕으로 글, 코드, 이미지 등 원본 콘텐츠를 자동 생성하는 인공지능. 대표 사례로 ChatGPT, 이미지 생성 모델 등이 있다.
• 아첨성(sycophancy)1: 모델이 사용자에게 잘 보이기 위해 지나치게 긍정적·동의적인 답변을 내는 성향으로, 사실에 대한 정확한 판단을 저해할 수 있다.
• 대형 언어 모델(LLM): 대규모 텍스트 데이터를 학습해 자연어 이해·생성 능력을 가진 모델. 뛰어난 영역과 약한 영역이 혼재해 ‘톱니 모양의 전선’이라는 표현으로 설명된다.
전망 및 경제적 영향 분석
기업들이 생성형 AI 도입에서 직면한 현실적 한계는 향후 기술 도입 속도와 투자 회수 시점을 재설정할 가능성이 크다. 포레스터의 조사 결과와 예측대로 기업들이 2026년에 AI 지출의 약 25%를 연기한다면, 단기적으로는 AI 인프라·데이터센터·칩 등 관련 산업의 투자 속도 둔화가 발생할 수 있다. 반면, 핵심 분야에서의 실용적 적용 사례가 쌓이면 장기적으로는 고객지원 자동화, 맞춤형 제품 추천, 내부 운영효율화 등에서 점진적 비용 절감과 매출 증대가 현실화될 수 있다.
인프라 투자 확대가 실제 수익으로 연결되지 못할 경우 일부에서는 2000년대 초의 닷컴 버블 붕괴와 유사한 조정 가능성을 경고하고 있다. 다만 현재 AI 생태계는 더 넓은 사용자층, 구체적 기업 과제에 대한 맞춤형 접근, 그리고 대기업·스타트업·클라우드 사업자 간 협력 구조를 갖추고 있어 2000년대 초와 동일한 방식의 급격한 붕괴가 반복될 가능성은 낮다는 견해도 존재한다. 핵심 변수는 기업들이 데이터 정비·업무 재설계·인재 확보에 얼마나 투자하느냐에 달려 있다.
금융 시장 관점에서 보면, 단기적으로는 AI 관련 하드웨어·클라우드·데이터센터 기업들의 주가 변동성이 커질 수 있다. 그러나 실사용성과 ROI(투자수익률)를 입증하는 사례가 늘어나면 AI 솔루션을 제공하는 소프트웨어 기업과 전문 분야용 모델을 보유한 스타트업들의 가치가 장기적으로 재평가될 가능성이 높다.
결론적으로, 경영진들은 AI를 미래로 인정하면서도 현실적인 기대치 조정과 단계적 도입, 그리고 사람과 기술의 혼합(휴먼 인 더 루프)을 통해 안정적이고 지속 가능한 효과를 창출하려는 방향으로 전략을 수정하고 있다. 기업들의 AI 투자 성과는 단순한 기술 도입의 속도보다 데이터 준비도·업무 재설계·전문 인력 확보·공급업체와의 협력 방식에 의해 좌우될 전망이다.




