이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 연구를 위한 통계학 → 통계 기본 — 논문을 읽는 추론통계 → 추정과 불확실성 정량화
모든 추론의 관문 — 단일 숫자를 믿으면 안 되는 이유, 표집분포·CLT, SE=σ/√n, 결과표의 mean±?가 SD·SE·CI 중 무엇인지.
오늘은 표집분포를 왜 알아야 하는지부터 살펴보겠습니다.
뉴스에서 지지율 42퍼센트라는 말 들어보셨을 거예요.
이건 전 국민이 아니라 천 명만 뽑아 계산한 값입니다.
그림 왼쪽을 보시면 모집단, 즉 전체 유권자가 있어요.
그 안에 진짜 지지율인 뮤, 모수가 숨어 있습니다.
천 명씩 뽑을 때마다 결과가 조금씩 달라집니다.
가운데를 보시면 표본 에이는 44퍼센트가 나왔어요.
표본 비는 42퍼센트, 표본 씨는 40퍼센트입니다.
같은 모집단인데도 값이 40에서 44퍼센트로 흔들리죠.
오른쪽을 보면 이걸 표본 변동성이라고 부릅니다.
이 용어를 꼭 기억해두세요.
비유하면 큰 국통 간을 한 숟갈로 보는 것과 같아요.
숟갈 뜰 때마다 짠맛이 조금씩 다르게 느껴지죠.
42퍼센트라는 숫자 하나만 믿으면 위험합니다.
중간 부분을 보시면 이 문제의 해결책이 나옵니다.
흔들림 자체를 하나의 분포로 그려보는 거예요.
표본을 무한히 반복해서 뽑고 평균을 매번 기록합니다.
이 평균들이 모여 만든 분포가 바로 표집분포입니다.
이 개념이 오늘 핵심입니다.
표집분포의 표준편차가 표준오차, 흔들림의 크기예요.
놀랍게도 모집단 모양과 상관없이 표본이 커지면 정규분포에 가까워집니다.
이걸 중심극한정리라 부르고, 라플라스가 1810년에 일반화했어요.
이제 아래쪽 세 가지 해석 오류 사례를 보시죠.
여론조사에서 42퍼센트만 보고 과반 못 넘겼다 단정하면 위험해요.
오차범위가 3퍼센트포인트면 실제로는 45퍼센트일 수도 있으니까요.
임상시험에서도 신약이 5퍼센트포인트 높았다고 바로 좋다 할 수 없어요.
그게 우연한 흔들림인지 진짜 효과인지 구분해야 합니다.
에이비 테스트도 표본이 작으면 다음 주엔 반대로 나올 수 있죠.
결론은 흔들림의 크기를 알아야 결론을 신뢰할 수 있다는 겁니다.
이번 레슨에서는 표집분포, 중심극한정리, 표준오차를 배웁니다.
이 세 관문을 통과해야 신뢰구간과 가설검정, 피값이 이해됩니다.