저널리스트 노트 — 글로벌 증권사 번스타인(Bernstein)이 대형언어모델(LLM, Large Language Model)의 실무 적용 가능성을 심층 분석한 신규 리서치 보고서를 공개했다. 보고서는 AI가 정보 수집·요약에는 탁월하지만, 정성적 판단이 요구되는 업무에서는 여전히 인간의 감독이 필수적이라는 결론을 내린다.
2025년 8월 31일, 인베스팅닷컴의 보도에 따르면 번스타인은 LLM이 금융·의료·IT 헬프데스크 등 다수의 산업 영역에서 인간과 AI의 협업 방식을 전면 재정의하고 있다고 평가했다. 특히 보고서는 ‘프롬프트(prompt) 설계’가 결과 품질을 좌우한다는 점을 수차례 강조했다.
1. LLM의 강점: 대량 정보 수집·정제
번스타인은 LLM이 5~6년치 실적 발표(earnings call)를 몇 분 만에 요약하거나, 수백 페이지 분량의 장기 보고서를 빠르게 정리하는 데 탁월한 성능을 보였다고 설명한다. 보고서에 따르면 AI는 “정보를 찾아내고 구조화하는 속도”에서 인간 분석가를 크게 앞질렀다.
“AI는 반복적이고 표준화된 데이터 처리에는 거의 자동화 수준의 효율을 발휘한다.” — 번스타인 리서치팀
2. 약점: 정성적 판단과 분석적 깊이
그러나 LLM에 ‘투자 논문(Investment Thesis)’ 작성을 맡기자, 하드코딩된 값, 분석 결여, 사실 오류가 다수 발견됐다. 정량적 데이터는 정확했지만, 경영진의 의사 결정이 향후 실적에 미칠 영향 등을 해석하는 단계에서는 일관성이 떨어졌다.
3. 프롬프트 품질이 핵심
미국 서던 캘리포니아대(USC)가 수행한 실험에 따르면, 질문 끝에 “Thank you”라는 단어를 추가하는 것만으로 답변의 5.6%가 달라졌고, 질문형 문장을 진술형으로 바꾸자 8.5%의 답변이 변동했다. 번스타인은 이를 근거로 ‘프롬프트 엔지니어링’을 AI 활용의 필수 역량으로 지목한다.
4. 의료 분야 실험 결과
GPT-4를 활용한 임상 실험에서 ‘체인 오브 쏘트(Chain of Thought)’ 방식으로 추론할 경우 치료 방안이 50.6%~52.9%만 임상 가이드라인과 일치했지만, ‘Recursion of Thought’ 기법을 적용하자 정확도가 최대 63%까지 상승했다. 메타스테이틱(전이성) 암 진단에서는 F1 점수가 0.886으로, 인간 평균(0.838)을 상회했다.
5. ‘프롬프트 과부하(Prompt Bloat)’ 현상
과도한 정보를 한 번에 투입하면 오히려 정확도가 하락하는 ‘프롬프트 과부하’가 확인됐다. 이는 사람의 장황한 질문이 AI의 주의(attention) 자원을 분산시켜, 핵심 패턴을 식별하지 못하게 만들기 때문이다.
6. 금융 업무 재실험 결과
- 실적 발표 콜 요약: 평균 점수 3.8 → 4.3/5(Iterative Prompting 적용)
- 경영진 어조 분석: 3.8 → 4.0(투자자 우려사항을 명시)
- 산업 분석: 3.2 → 3.9(프롬프트 강화)
- 투자 논문 작성: 3.0 → 3.4(구조화된 프레임워크 제공)
- 경영 의사 결정 평가: 3.5 → 4.1(분석 매개변수 전부 제공)
또한 Perplexity 지표는 2에서 4.5로 상승했고, ChatGPT 자체 점수는 3.5에서 4로 개선됐다. 이는 “질문을 쪼개고, 순차적으로 정보를 공급하면 성능이 극적으로 개선된다”는 점을 시사한다.
7. 표준화 업무에서의 AI 우위
IT 헬프데스크 테스트에서, Retrieval Augmented Generation(RAG)을 사용하는 AI는 SelfScore 29.4점을 기록해 인간(23.1점)을 가뿐히 넘어섰다. RAG 없이도 AI는 여전히 사람보다 높은 점수를 유지했다.
8. 1990년대 후반 이후 AI 발전 추적
번스타인은 필기체 인식, 이미지 인식, 음성 인식 등에서 AI가 인간 수준을 돌파한 지 오래라고 지적한다. 최근에는 독해, 코딩, 수학 문제 해결 능력까지 빠르게 향상되고 있지만, 뉘앙스 해석과 복합 추론 부문은 여전히 인간이 우세하다고 결론짓는다.
용어 해설
- LLM: 수십억~수조 개의 매개변수를 학습해 인간 수준의 자연어 이해·생성 능력을 갖춘 언어 모델.
- Perplexity: 언어 모델의 예측 불확실성을 나타내는 지표로, 낮을수록 성능이 우수하다.
- RAG: 외부 데이터베이스에서 필요한 정보를 검색(Retrieval)한 후, 생성(Generation) 과정에 결합해 답변 정확도를 높이는 기법.
전문가 시각 및 전망
AI의 도입은 ‘인지 노동’의 기획·조율을 인간이 담당하고, ‘반복·표준화 작업’을 AI가 처리하는 방향으로 업무 지형을 재편할 것으로 예상된다. 번스타인의 실험 결과는 “AI 활용의 진짜 경쟁력은 데이터 독점이 아니라 프롬프트 설계 능력과 모델 감독 체계에 있다”는 사실을 드러낸다. 결국 AI와 인간의 최적 조합을 설계할 수 있는 기업이 정보 격차를 무기로 시장을 선도할 가능성이 높다.
※ 본 기사는 원문을 충실히 번역·구성했으며, 독자의 이해를 돕기 위해 필수 용어 해설과 기자의 분석을 추가했다.