
의사 80%가 동일한 확률 문제를 틀린다
희귀 질병 하나가 인구 1만 명 중 한 명꼴로 발생한다고 가정하자. 이 질병을 잡아내는 검사 키트가 있고 정확도는 99%다. 양성인 사람을 양성으로 판정하는 민감도가 99%, 음성인 사람을 음성으로 판정하는 특이도도 99%다. 이 검사에서 양성이 나온 사람이 실제로 그 질병에 걸렸을 확률은 얼마인가. 대부분 99% 부근의 수치를 떠올리지만 정답은 약 1%에 가깝다.
1978년 하버드 의대에서 학생과 교수진 60명을 대상으로 진행한 카사트(Casscells)의 연구에서, 정답에 가까운 수치를 답한 비율은 18%에 불과했다. 다수는 95% 이상이라고 답했다. 의학 통계 훈련을 받은 인력 집단에서도 동일한 인지 편향이 반복된다는 사실은 이후 30년에 걸쳐 여러 후속 연구에서 재확인되었다.
기저율이 빠진 직관은 어디서 무너지는가
계산을 직접 따라가 보면 직관과 실제의 간극이 또렷해진다. 인구 100만 명을 가정하면 실제 환자는 100명이다. 정확도 99% 검사는 이 100명 중 99명을 양성으로 정확히 잡아낸다. 문제는 나머지 99만 9,900명에서 발생한다. 이 중 1%인 9,999명이 거짓 양성으로 잘못 판정된다.
검사에서 양성이 나온 총인원은 99 더하기 9,999, 즉 10,098명이고 이 가운데 실제 환자는 99명뿐이다. 양성 결과 하나가 실제 질병을 의미할 확률은 99 나누기 10,098, 약 0.98%다. 검사가 부정확해서가 아니라 질병 자체가 드물기 때문에 양성 신호의 의미가 희석된다.
양성 예측도라는 진짜 지표
의학 통계에서는 이 수치를 양성 예측도(Positive Predictive Value, PPV)라고 부른다. PPV는 검사 정확도가 같아도 대상 집단의 사전 유병률에 따라 크게 흔들린다. 동일한 검사가 50대 일반 인구를 대상으로 할 때와 가족력이 있는 고위험군을 대상으로 할 때 완전히 다른 의미를 가진다는 뜻이다. 기저율 오류는 통계 교과서마다 등장하는 고전적 함정이지만 임상 현장에서도 여전히 반복된다.
스팸 필터와 사기 탐지가 같은 구조 위에 있다
이 문제는 의료에만 머무르지 않는다. 스팸 필터, 보안 침입 탐지, 카드 사기 거래 감지가 모두 같은 수학 위에 서 있다. 전체 메일 가운데 스팸 비율이 낮으면 정확도가 99%인 필터도 양성 알람 대다수가 정상 메일일 수 있다. 그래서 실제 시스템은 단순 정확도 한 줄로 평가되지 않는다.
실무에서는 정밀도(Precision)와 재현율(Recall), F1 점수 같은 복합 지표가 함께 쓰인다. 정밀도는 알람 중 진짜 양성의 비율이고 재현율은 실제 양성 중 잡아낸 비율이다. 두 값이 동시에 높지 않으면 의미가 없다. 이상 거래 감지 모델에서 정밀도가 5%라면 알람 20건 중 19건이 정상 거래라는 뜻이고, 결국 운영자는 알람을 무시하기 시작한다.
베이즈 정리가 정량화하는 신념 갱신
토머스 베이즈가 18세기에 정리한 공식 P(A|B) = P(B|A) 곱하기 P(A) 나누기 P(B) 에서 P(A)가 기저율이다. 이 변수를 빼고 우도(likelihood)만으로 사후 확률을 계산하면 직관적이지만 완전히 빗나간 답이 나온다. 베이즈 정리를 정리한 Stanford Encyclopedia of Philosophy 항목은 이 공식을 단순한 수식이 아니라 새 증거가 들어왔을 때 기존 신념을 갱신하는 합리적 절차로 정의한다.
왜 일부 검진은 특정 연령대 이상에만 권고되는가
유방암이나 대장암 같은 검진이 특정 연령대 이상에서만 시행되는 데에는 통계적 이유가 있다. 기저율이 충분히 낮은 집단에 무차별 검사를 시행하면 거짓 양성으로 인한 추가 정밀 검사, 침습적 시술, 심리적 부담의 총합이 실제 조기 발견 이익을 넘어선다. 동일한 검사라도 누가 받느냐에 따라 의미가 달라진다는 점은 비용 편익 분석의 출발점이다.
표본이 너무 작아 결론을 내리기 어려운 경우와 표본 자체의 노이즈를 통계적으로 다루는 방식을 따로 살펴본 적이 있다. 기저율 문제는 정반대 쪽의 함정이다. 데이터는 충분한데도 사전 분포를 빼먹은 채 우도만 곱해 잘못된 결론에 도달하는 경우에 해당한다. 두 함정은 방향이 다르지만 모두한가지사실을반복해서 보여준다. 수치 하나만으로 판정을 내리는 순간 거의 반드시 빗나간다는 점이다.