미국 노동시장·물가 통계의 대규모 하향 수정과 소비자물가지수(CPI) 산정 과정에서의 추정치(imputation) 비중 확대가 겹치면서, 워싱턴과 월가 일각에서 “공식 통계의 신뢰성에 구조적 문제가 있는 것 아니냐”는 논쟁이 고개를 들고 있다.
2025년 8월 8일, 인베스팅닷컴의 보도에 따르면, 뱅크오브아메리카(BofA) 이코노미스트들은 최신 보고서에서 “자료 수집 방식의 한계로 인해 일부 변동성이 불가피하지만, 미국 정부 통계는 여전히 ‘베스트 인 클래스’ 수준”이라고 진단했다. 이들은 최근의 수정·추정 확대가 통계 전반의 신뢰도를 훼손한다기보다는 표본조사 기반 지표가 갖는 구조적 한계를 재확인해 주는 사례라고 평가했다.
◆ 고용지표 대폭 수정…“팬데믹 이후 최대 규모”
미 노동부 산하 노동통계국(BLS)은 지난주(현지시간) 5월과 6월 비농업부문 고용(Non-Farm Payrolls·NFP)을 총 25만8,000명 하향 조정했다. 이는 팬데믹 시기를 제외하면 역대 최대 규모의 레벨 수정이다. 노동 시장 규모를 감안한 비율은 0.2%로, 여전히 90% 신뢰구간 안에 머물지만, 수정 폭 자체가 컸다는 점에서 시장의 긴장감을 불러왔다.
뱅크오브아메리카의 애디티야 바베(Aditya Bhave) 연구원은 “표본조사 방식 특성상 최종치 확정을 위해서는 3차 발표까지 시간이 필요하다”며 “세 번째 발표 때 답변률이 90%를 넘어서면 팬데믹 이전 평균과 유사한 품질이 확보된다”고 설명했다. 그는 또 “응답률 하락이 수정 필요성을 키우지만, 통계의 정확성을 본질적으로 훼손하지는 않는다“고 강조했다.
“표본조사(statistical sampling)의 숙명은 ‘속도와 정확성 간 균형’이다. 수정은 데이터가 살아 있다는 증거일 뿐 오류의 증거가 아니다” ― 애디티야 바베, BofA
◆ CPI 추정치 확대…‘다른 지역·유사 품목’ 대체 방식 도입
최근 물가 통계에 대한 의문도 커지고 있다. CPI 산정 과정에서 ‘다른 세부구간(different cell)’ 대체라는 새로운 추정 기법이 도입됐기 때문이다. 이는 특정 지역·품목의 가격이 수집되지 않았을 때, 유사 지역·유사 품목 데이터를 대신 넣어 계산하는 방식으로, BLS는 팬데믹 이후 자료 수집이 중단된 도시가 생기고, 샘플이 15% 줄어든 점을 보완하기 위해 해당 방식을 활용해 왔다.
뱅크오브아메리카 보고서는 “BLS 자체 시뮬레이션 결과, 이러한 추정이 월간 헤드라인 CPI의 표준오차를 불과 1~2bp(0.01~0.02%p)만 높이는 데 그쳤다”는 점을 인용했다. 즉, 통계적 왜곡은 ‘미미한 수준’이라는 주장이다.
◆ ‘ADP·신용카드 데이터’ vs ‘공식 통계’
최근 기업·빅테크가 제공하는 ‘대안 데이터(alternative data)’가 부쩍 주목받고 있다. 예컨대, ADP 민간고용지표나 대형 카드사의 소비결제 추적 데이터는 경제 동향을 보다 실시간으로 보여준다. 그러나 BofA는 “이들 지표는 교차 점검(cross-check)에는 유용하지만, 범국가적 통계의 법적·방법론적 엄격함을 대체할 수 없다”고 선을 그었다.
참고로 ‘ADP 고용보고서’는 급여 아웃소싱 기업이 보유한 데이터에 기반하며, 모수가 전 국민이 아닌 해당 기업 고객사로 한정된다. 따라서 표본 대표성이 한시적으로 떨어질 수 있다.
◆ 7월·9월 전망…“코어 CPI 0.31%↑, 연율 3.1%”
앞으로의 물가 흐름에 대해 BofA는 7월 코어 CPI(식료품·에너지 제외)가 전월 대비 0.31% 상승, 전년 대비 3.1%로 재가속할 것으로 내다봤다. 이는 6월 연율 2.9%에서 속도가 빨라지는 것이다. 자동차 가격은 하락세지만, ‘관세 상승’이 기타 내구재 가격을 밀어 올릴 것이라는 설명이다.
금리 정책 측면에서는 9월 연방공개시장위원회(FOMC)에서 연준(Fed)이 금리를 동결할 경우, 최소 세 번째 ‘매파적 반대표(dissent)’가 나올 것이라는 관측도 제시됐다. 이는 조 바이든 행정부가 스티븐 미런(Stephen Miran)을 임시 Fed 이사로 지명한 데 따른 계산이다.
◆ 배경·용어 해설: 왜 ‘수정’이 필요한가?
비농업부문 고용, CPI 등은 표본조사(survey sampling) 방식으로 집계된다. 조사원이 가정·사업체에 전화를 걸거나 온라인 폼을 보내면, 일정 비율의 응답이 누락된다. 첫 발표는 “속보치(flash estimate)”이므로 자료가 불완전하다. 이후 추가 응답과 행정자료(세금자료 등)를 반영하면서 2차, 3차 수정이 이뤄진다. 이는 ‘실제 경제가 바뀐 것’이 아니라 ‘관측이 개선된 결과’라는 점을 이해해야 한다.
또한 imputation(추정치 보정)은 ‘응답 없는 셀’을 방치할 경우 발생할 수 있는 표본 편향(sampling bias)을 줄이기 위해 고안된 통계 기법이다. BLS와 같은 통계기관은 임의 채워넣기를 방지하기 위해 엄격한 규칙과 테스트를 거쳐 추정치를 만든다.
◆ 기자의 시각
현재 논란은 “데이터 품질 vs 생산 속도”라는 오래된 문제의 재현이다. 월가 트레이더처럼 초단기 의사결정이 필요한 시장 참가자에게는 첫 발표치가 절대적이다. 반면 학계·정책 당국은 최종 확정치를 중시한다. 두 그룹의 이해가 충돌할 때 ‘통계기관을 향한 불신’이 증폭되는 경향이 있다.
결국 핵심은 투명성이다. BLS가 응답률, 추정치 비중, 오차범위를 실시간으로 공개하고, 시장이 그 정보를 맥락(Context) 속에서 해석하는 문화가 자리잡아야 한다. 데이터 자체보다는 데이터 리터러시(data literacy)가 관건이라는 얘기다.
◆ 결론
‘데이터 문제’ 논란은 표면적으로는 통계 수정·추정 기법을 둘러싼 기술적 문제처럼 보인다. 그러나 본질은 불확실성이 높아진 경제 환경 속에서 신속성·정확성·투명성의 균형을 찾아가는 과정이다. BLS·연준·월가·투자자 각 주체가 통계의 ‘제한점’을 인정하고, 보완·설명·교육이라는 세 가지 축에서 역할 분담을 해 나갈 때, ‘데이터 불신’이라는 악순환을 끊을 수 있을 것이다.