홈/인사이트/통계
통계2026-03-30·8분 읽기

"자주 나오는 번호"는 진짜 더 잘 나올까? 통계로 검증하기

핫넘버·콜드넘버 분석은 정말 의미가 있을까요? 빈도 통계가 보여주는 것과 보여주지 않는 것을, 카이제곱 검정과 큰 수의 법칙으로 차분하게 따져봅니다.

당
당픽 편집팀
로또 6/45 통계·확률 전문 콘텐츠 · 동행복권 공식 데이터 기반

로또 분석 사이트의 단골 메뉴 중 하나가 "핫넘버(자주 나온 번호)"와 "콜드넘버(잘 안 나온 번호)"다. 1100회가 넘는 추첨 동안 어떤 숫자는 170회 가까이 등장했고, 어떤 숫자는 130회를 겨우 넘겼다. 그렇다면 자주 나온 번호로 사는 게 유리한가? 아니면 오히려 안 나온 번호가 이제 나올 차례인가?

결론부터 말하면 둘 다 통계적으로 무의미하다. 왜 그런지를 수치와 검정을 통해 차근차근 살펴본다.

먼저 사실 확인 — 빈도는 정말 균일한가

로또 6/45는 매주 6개 번호 + 보너스 1개, 총 7개 번호가 추첨된다. 45개 번호 중 7개가 나오므로, 한 회차에서 특정 번호가 나올 확률은 7/45 ≈ 15.56%다. 1100회 동안 추첨이 진행되었다면 한 번호의 기댓값 등장 횟수는 약 1100 × 7/45 ≈ 171회다.

실제 데이터에서는 가장 많이 나온 번호와 가장 적게 나온 번호의 차이가 보통 30~40회 정도 발생한다. 언뜻 보면 "차이가 크다"고 느낄 수 있다. 그러나 이게 통계적으로 유의미한 차이인지는 별개의 문제다.

큰 수의 법칙과 자연스러운 변동

큰 수의 법칙(Law of Large Numbers)은 시행 횟수가 충분히 많아지면 관측 빈도가 이론적 확률에 가까워진다는 정리다. 다만 "가까워진다"는 말은 "정확히 같아진다"는 뜻이 아니다. 동전을 1000번 던져 500번이 정확히 앞면이 나올 확률은 매우 낮고, 보통 480~520회 사이에서 자연스럽게 흔들린다.

로또도 마찬가지다. 각 번호의 기댓값이 171회라면, 표준편차는 약 √(1100 × 7/45 × 38/45) ≈ 12회다. 즉 평균 ±12회 범위 안의 변동은 "아무것도 일어나지 않은 정상 상태"라고 봐야 한다. 30회 차이는 평균에서 약 2.5 표준편차 떨어진 값으로, 이상하게 보일 수는 있지만 45개의 번호가 동시에 존재할 때 이 정도의 편차가 발생하는 것은 매우 자연스럽다.

카이제곱 검정으로 확인하기

통계학에서 "관측된 빈도가 균등 분포를 따르는가"를 검정하는 표준 방법은 카이제곱 적합도 검정이다. 식은 단순하다.

χ² = Σ (관측값 − 기댓값)² / 기댓값

45개 번호 각각에 대해 (관측 횟수 − 171)² / 171을 모두 더한 값이다. 이 값이 자유도 44의 카이제곱 분포에서 임계치(약 60)를 넘으면 "균등하지 않다"고 결론 낼 수 있다. 실제 한국 로또 데이터를 1100회까지 적용해 계산하면 보통 χ²은 30~50 사이에서 나오며, 이는 임계치 아래다. 즉 통계학적으로 "편향이 있다"고 말할 근거가 없다.

그러면 빈도 페이지는 왜 보는 걸까?

그렇다면 당픽의 빈도 통계 페이지는 무용지물인가? 그렇지 않다. 용도가 다를 뿐이다.

  • 호기심·재미: 어떤 번호가 가장 많이 나왔는지 보는 것 자체가 흥미로운 데이터다. 영화에서 주인공이 좋아하는 숫자를 찾는 것과 같다.
  • 심리적 분산: 다른 사람이 잘 고르지 않는 번호를 일부러 선택하면 1등에 당첨됐을 때 다른 당첨자와 나눠 갖지 않을 가능성이 높아진다. 이건 확률 이야기가 아니라 당첨금 분배 이야기다.
  • 패턴 회피: 사람들이 자주 고르는 생일·연속 숫자(1-7) 등을 피하기 위한 참고 자료로 활용할 수 있다.

오해하지 말아야 할 것

"다음 주에 나올 번호"를 빈도 통계로 예측할 수는 없다. 자주 나온 번호가 앞으로도 자주 나올 거라는 보장도, 적게 나온 번호가 이제 나올 차례라는 법칙도 존재하지 않는다. 둘 다 도박사의 오류의 변형일 뿐이다.

매주의 추첨은 독립 시행이다. 1번이 100번 연속 나왔다고 해서 다음 주에 1번이 나올 확률이 7/45와 달라지지 않는다. 마찬가지로 100번 연속 나오지 않은 번호의 다음 주 확률도 정확히 7/45다.

정리

빈도 분석은 "예측" 도구가 아니라 "관찰" 도구다. 데이터의 결을 살펴보고, 균등 분포가 어떤 모습으로 흔들리는지 직접 관찰하는 통계 학습의 좋은 자료이지만, 다음 주의 당첨 번호를 알려주는 마법의 공식은 아니다.

오히려 빈도 페이지가 정말 유용한 순간은 "아, 이 정도 변동이 무작위에서도 자연스럽게 발생하는구나"를 직접 체감할 때다. 그 깨달음이야말로 로또를 좀 더 건강하게 바라보는 시각을 만들어준다.

#통계#빈도#큰 수의 법칙

참고 자료 · 데이터 출처

  • 동행복권 공식 사이트 — dhlottery.co.kr · 1회차(2002년 12월)부터 최신 회차까지의 당첨 번호, 당첨금, 판매액 데이터 출처
  • 조합론 (Combinatorics) — 당첨 확률 계산에 사용되는 수식(C(n, k) = n! / (k!(n−k)!))의 수학적 근거
  • 기획재정부 복권위원회 — 당첨금 세금 구조(3억 원 기준, 기타소득 22% / 33%)의 법적 근거
  • 한국도박문제예방치유원 — 상담 전화 1336 (24시간, 무료)

본 글은 당픽 편집팀이 직접 작성한 원본 콘텐츠이며, 인용 시 출처(dangpick.com)를 표기해주세요. 통계 해석에 오류가 있거나 최신 법령/제도 변경이 반영되지 않은 경우 contact@dangpick.com으로 알려주시면 검토 후 반영합니다.

관련 가이드

  • 통계
    자동 vs 수동, 생일 vs 랜덤 — 번호 선택 방식이 당첨에 영향을 줄까
    자동 번호와 수동 번호, 생일 기반과 무작위 선택. 흔히 논쟁되는 번호 선택 방식들이 정말로 당첨 확률에 영향을 줄까요? 확률은 같지만 "당첨금 분배"에서는 분명한 차이가 있다는 사실을 정리합니다.

책임감 있는 게임을 위한 안내

로또는 본질적으로 사행성 게임입니다. 본인이 감당할 수 있는 범위 내에서만 구매하시고, 도박 문제로 어려움을 겪고 계시다면 한국도박문제예방치유원 상담 전화 1336으로 연락하세요.