평균이라는 숫자가 현실을 가리는 순간
팀 회의에서 “평균 응답 시간 200ms”라는 보고를 받으면, 대부분은 그 서비스가 잘 돌아가고 있다고 판단한다. 그런데 상위 1% 요청의 응답 시간이 12초라면 이야기가 전혀 달라진다. 평균은 분명 200ms가 맞지만, 실제 사용자 경험의 꼬리 쪽에서는 완전히 다른 세계가 펼쳐진다. 이 간극을 무시하면 지표상으로는 건강한 시스템이 현장에서는 불만을 쏟아내는 시스템이 된다.
이런 상황이 생기는 이유는 분포의 모양 때문이다. 정규분포처럼 좌우 대칭인 데이터에서는 평균이 대표값으로 쓸만하다. 그런데 서버 응답 시간, 소득 분포, 자산 수익률 같은 현실 데이터는 한쪽 꼬리가 길게 늘어지는 형태를 띤다. 통계에서는 이걸 꼬리가 두꺼운 분포(Fat-tailed Distribution)라고 부른다. 이런 분포에서 평균은 중앙값과 크게 벌어지고, 소수의 극단값이 평균 전체를 끌어올리거나 끌어내린다. 직원 10명인 회사에서 한 명의 연봉이 나머지 9명 합계보다 높으면, 평균 연봉은 현실을 반영하지 못하는 허수가 된다.
P99가 평균보다 중요한 이유
실무에서 시스템 성능을 모니터링할 때 평균만 보는 건 위험하다. 아마존 내부에서는 오래전부터 P99, 즉 상위 1% 지점의 응답 시간을 핵심 지표로 쓴다. “가장 느린 경험을 하는 사용자가 얼마나 기다리느냐”를 기준으로 삼는다는 뜻이다. P99가 기준을 넘기면 평균이 아무리 좋아도 경보가 뜬다. 구글의 SRE(Site Reliability Engineering) 팀도 동일한 원칙을 적용한다. 이들의 내부 문서에서 반복적으로 등장하는 문구가 있다. “평균은 거짓말쟁이다.”
이 접근의 수학적 근거는 명확하다. 꼬리가 두꺼운 분포에서는 극단값의 발생 빈도가 정규분포의 예측치보다 훨씬 높다. 정규분포 모델에서 평균으로부터 4 표준편차 밖의 사건이 일어날 확률은 약 0.006%인데, 실제 시스템 로그를 뜯어보면 이 빈도가 수십 배 높게 관찰되는 경우가 흔하다. 2008년 금융 위기 당시 “1만 년에 한 번 일어날 사건”이라 불린 주가 폭락이 불과 몇 주 만에 여러 차례 발생한 것도 같은 맥락이다. 정규분포라는 가정 자체가 현실에 맞지 않았기 때문에 리스크 모델 전체가 무너진 것이다.
소프트웨어가 꼬리를 다루는 방식
알고리즘은 분포의 모양을 미리 가정하지 않고 데이터 자체에서 분위수를 직접 계산할 수 있다. 히스토그램을 그리고 P50, P90, P95, P99를 뽑아내는 건 코드 몇 줄이면 끝나는 작업이다. 사람이 스프레드시트에서 평균 함수를 거는 것만큼이나 간단하다. 차이는 어떤 숫자를 먼저 보느냐라는 습관에 있다. 사람은 본능적으로 평균부터 찾지만, 소프트웨어는 설계자의 의도에 따라 분위수부터 화면에 띄울 수 있다.
켈리 공식의 수학적 구조에서도 비슷한 원리가 작동한다. 기대 수익률의 평균만으로 베팅 크기를 결정하면 파산 확률이 급등하는데, 수익률 분포의 분산과 꼬리 형태까지 함께 고려해야 최적의 자본 배분이 나온다. 평균이라는 단일 숫자 하나로는 의사결정에 필요한 정보의 절반도 담지 못한다.
꼬리 이벤트 앞에서 모델이 무너지는 구조
2002년 노벨 경제학상을 받은 카너먼의 연구 이후, 행동경제학에서는 사람의 확률 판단이 극단값 앞에서 체계적으로 빗나간다는 점이 주류 견해로 굳어졌다. 나시므 탈레브는 여기서 한 단계 더 나아가 “평균에 의존하는 모든 모델은 꼬리 이벤트 앞에서 무너진다”는 주장을 지속해왔다. 실제로 리스크 관리 시스템을 설계할 때 정규분포를 가정하고 VaR(Value at Risk)만 들여다보면, 극단적 시장 충격에서 시스템이 통째로 실패하게 된다.
탈레브의 비유를 빌리면, 칠면조는 매일 먹이를 받으며 세상이 안전하다고 학습하다가 추수감사절에 도살당한다. 1,000일 연속으로 먹이를 받은 경험 데이터의 평균은 “내일도 먹이가 온다”를 가리키지만, 1,001일째의 현실은 정반대다. 이 비유는 과장이 아니다. 데이터가 쌓일수록 평균에 대한 확신이 강해지는데, 정작 꼬리 이벤트는 데이터가 많다고 예측 가능해지지 않는다.
평균에서 벗어나는 설계 습관
시스템을 설계하는 사람이라면 이 교훈을 코드 레벨에서 반영해야 한다. 평균값 기반의 알림 대신 P99 알림을 기본값으로 걸고, 분포의 꼬리 형태를 시각화하는 대시보드를 붙이는 것만으로도 극단값에 대한 조직의 감수성은 크게 달라진다. 데이터베이스 쿼리 성능을 튜닝할 때도 평균 쿼리 시간이 아니라 느린 쿼리 상위 목록부터 잡는 게 실질적 효과가 크다. 평균만 보고 안심하는 습관은, 수면 위에 드러난 빙산의 꼭대기만 보고 항로를 정하는 것과 다르지 않다.