데이터 5건으로 결론을 내리는 위험 신제품을 출시하고 첫 주에 리뷰 5개가 달렸다. 4개가 별점 5점, 1개가 별점 1점이다. 평균은 4.2점이고, 이 숫자를 보고 “좋은 반응”이라고 판단하기 쉽다. 하지만 이 평균에는 거의 아무런 통계적 의미가 없다. 표본이 5개뿐이니까 다음 리뷰 하나가 별점 1점이면 평균은 3.7점으로 떨어지고, 별점 5점이면 4.3점으로 오른다. 한 건의 데이터가 결론을 완전히 뒤집을 … 더 읽기
RNG 엔지니어링
슬롯 머신 난수 생성기 무결성 분석 리포트.
1. ‘무작위’는 균등 분포를 의미하지 않는다 많은 플레이어들이 오해하는 지점이 있습니다. “무작위(Random)”라는 단어를 “균등(Uniform)”이라는 단어와 동일시하는 것입니다. 그러나 이 둘은 전혀 다른 개념입니다. 공정한 동전을 100번 던졌을 때 정확히 앞면 50회, 뒷면 50회가 나올 확률은 오히려 극히 낮습니다(약 8%). 대부분의 경우 앞면이 45회 나오거나 53회 나오는 식의 편차가 관측됩니다. 무작위성은 본질적으로 국소적 편차(Local Deviation)를 포함하며, … 더 읽기
23명이면 생일이 겹칠 확률이 반을 넘는다 방 안에 사람이 몇 명 모여야 생일이 같은 쌍이 하나라도 있을 확률이 50%를 넘을까. 직감적으로는 183명 정도를 떠올리기 쉽다. 365일의 절반이니까 그쯤이면 되지 않겠느냐는 생각이다. 실제 답은 23명이다. 50명만 모여도 이 확률은 97%까지 치솟는다. 처음 듣는 사람은 대부분 믿지 않는데, 계산을 직접 해보면 반박할 여지가 없다. 이걸 생일 문제(Birthday … 더 읽기
1. 결정론 기계가 만드는 ‘가짜 우연’ 컴퓨터는 본질적으로 결정론적 기계입니다. 동일한 입력에 대해 항상 동일한 출력을 산출하도록 설계된 튜링 머신의 후예가 어떻게 ‘무작위성(Randomness)’이라는 비결정론적 현상을 만들어낼 수 있을까요. 이 모순은 현대 소프트웨어 공학이 반세기 넘게 씨름해 온 핵심 난제입니다. 모니터 화면 너머로 보이는 무작위한 숫자의 흐름 이면에는, 결정론을 비결정론으로 위장하기 위한 거대한 수학적 장치가 숨어 … 더 읽기
은폐된 알고리즘의 심장부: 0.1%의 데이터가 지배하는 행동 설계 대부분의 사용자는 자신이 자유 의지에 따라 플랫폼을 탐색하고 보상을 선택한다고 믿는다. 그러나 데이터 맹신주의자의 관점에서 이는 철저히 계산된 확률 모델의 결과물일 뿐이다. 실리콘밸리의 상위 1% 아키텍처는 사용자의 시선이 머무는 밀리초(ms) 단위의 시간을 분석하여, 뇌의 복측 피개야(VTA)에서 분비되는 도파민의 양을 정량화한다. 이것은 단순한 인터페이스의 문제가 아니라, 인간의 생물학적 … 더 읽기