신인왕이 다음 해에 꼭 부진한다는 속설
야구에서 신인왕을 받은 선수가 2년 차에 부진한다는 현상을 두고 흔히 소포모어 징크스라고 부른다. 영화에서도 데뷔작이 흥행한 감독의 차기작이 평작에 머무는 패턴이 반복된다. 사람들은 이런 현상에 압박감, 자만, 운의 고갈 같은 심리적 해석을 붙이지만 통계학에서는 훨씬 단순한 이름을 가진다. 평균회귀(Regression toward the mean)다.
이 개념은 19세기 영국 통계학자 프랜시스 골턴(Francis Galton)이 부모와 자녀의 키 데이터를 분석하면서 정리했다. 키가 매우 큰 아버지의 아들은 평균적으로 아버지보다 작았고, 키가 매우 작은 아버지의 아들은 평균적으로 아버지보다 컸다. 그는 이 현상을 평범으로의 회귀라고 표현했고 후대 통계학자들이 평균회귀라는 이름으로 정리했다.
극단치는 실력만으로 만들어지지 않는다
핵심은 단순하다. 어떤 성과든 실력과 우연의 합으로 구성된다. 그 해 신인왕 성적은 보통 사람들이 생각하는 것보다 우연의 비중이 크다. 평균보다 훨씬 좋은 성적을 낸 선수는 실력도 좋았겠지만 동시에 운도 좋았을 가능성이 높다. 다음 해에는 실력은 비슷하게 유지되지만 운은 평균치로 돌아간다. 결과적으로 성적이 떨어진 것처럼 보인다.
반대도 성립한다. 시즌 초반 극도로 부진한 타자가 후반에 갑자기 회복되는 경우, 코치의 조언이나 폼 교정 덕분이라고 해석하기 쉽다. 실제로는 일시적으로 운이 나빴던 부분이 평균으로 회귀했을 가능성이 크다. 이 둘을 구분하지 않으면 효과가 없는 개입에 효과가 있다고 잘못 결론짓는다.
이스라엘 공군 사례
대니얼 카너먼이 이스라엘 공군 교관들과 일할 때 들은 이야기가 자주 인용된다. 교관들은 잘한 조종사를 칭찬하면 다음 비행에서 더 못하고, 못한 조종사를 꾸짖으면 다음 비행에서 더 잘한다고 보고했다. 그래서 칭찬보다 꾸짖음이 효과적이라는 결론을 내리고 있었다. 카너먼은 이것이 평균회귀의 전형적인 사례라고 설명했다. 극단적으로 잘하거나 못한 비행 다음에는 어느 쪽이든 평균에 가까워질 확률이 높다. 칭찬과 꾸짖음의 효과가 아니라 통계적 회귀가 그 결과를 만들었을 가능성이 크다.
회귀를 분리하지 못하면 잘못된 개입이 효과로 둔갑한다

신약 임상 시험에서 대조군을 두는 가장 본질적인 이유 중 하나가 평균회귀를 분리해 내는 데 있다. 등록 시점에 가장 심각한 환자들이 자연스럽게 호전되는 경향이 있는데, 이걸 약효로 오인하기 쉽다. 위약 대조군을 함께 관찰하면 그 회귀분이 약 없이도 나타나는지 확인할 수 있다.
비즈니스 컨설팅에서 반복되는 같은 함정
이 함정은 비즈니스에서도 동일하게 반복된다. 가장 부진한 매장에 컨설팅을 투입하고 1년 뒤 매출이 회복되면 컨설팅 효과로 보고된다. 그러나 가장 부진한 매장은 그해 평균보다 운이 나빴을 가능성이 크고, 다음 해에는 그 부분이 자연히 회복된다. 평균회귀 항목에는 이런 사례들이 의학, 교육, 경영학 전반에 걸쳐 정리되어 있다.
측정 신뢰도가 회귀 강도를 결정한다
회귀의 강도는 측정 자체의 신뢰도와 직결된다. 측정값이 노이즈를 많이 포함할수록 회귀가 강하게 나타난다. 단 한 번의 시험 점수로 학생을 평가하면 회귀가 크고, 여러 번의 평균으로 평가하면 회귀가 작아진다. 같은 학생을 평가하는데도 결론이 달라지는 이유가 여기에 있다.
생존자 편향과 어떻게 다른가
두 개념이 자주 혼동된다. 생존자 편향은 살아남은 표본만 봐서 잘못된 결론을 내는 문제이고, 평균회귀는 극단치 표본의 다음 측정값이 평균에 가까워지는 현상이다. 둘 다 결과를 잘못 해석하게 만들지만 작동 방식은 다르다. 생존자 편향이 어떤 식으로 결론을 왜곡하는지 다룬 적이 있는데, 평균회귀는 살아남은 표본 안에서도 다시 작동한다는 점이 차이다.
실무에서 평균회귀를 제대로 다루지 못하면 두 종류의 오판이 반복된다. 효과가 없는 개입을 효과가 있다고 결론짓는 경우와, 우연히 좋았던 성과를 실력으로 착각해 과대 평가하는 경우다. 야구단의 신인 선수 평가, 펀드 매니저의 작년 수익률 기반 평가, 학교의 시험 한 번 결과 기반 평가가 모두 이 함정에 노출되어 있다. 카너먼은 자신의 책 Thinking, Fast and Slow에서 평균회귀를 직관이 가장 자주 빗나가는 통계 현상 중 하나로 꼽았다.