인공지능(AI) — 기계가 생각하는 법 → 연구를 위한 통계학 → 통계 기본 — 논문을 읽는 추론통계 → 추정과 불확실성 정량화

표집분포·중심극한정리·표준오차 (SD vs SE)

모든 추론의 관문 — 단일 숫자를 믿으면 안 되는 이유, 표집분포·CLT, SE=σ/√n, 결과표의 mean±?가 SD·SE·CI 중 무엇인지.

1 / 20

왜 표집분포를 알아야 하는가

2What: 표본은 매번 다르게 나온다

3뉴스에서 "이번 대선 후보 지지율 42%"라는 한 줄을 봅니다. 그런데 이 42%는 온 국민에게 물어본 값이 아니라, 그중 1,000명만 뽑아 계산한 값입니다.

4- 만약 다른 1,000명을 다시 뽑으면? → 40%가 나올 수도, 44%가 나올 수도 있습니다

5- 즉, 같은 모집단에서 표본을 뽑을 때마다 통계량(여기선 표본 평균)이 조금씩 흔들립니다

6- 이 흔들림을 표본 변동성(sampling variability)이라 부릅니다

7비유하자면, 큰 국통에 담긴 국의 간을 볼 때 한 숟갈로 판단하는 것과 같습니다. 숟갈을 뜰 때마다 짠맛이 조금씩 다르게 느껴지죠.

8Why: 숫자 하나만 믿으면 위험하다

9핵심 문장을 기억하세요.

10> 단일 표본 통계량은 진짜 값(모수)이 아니라, 진짜 값 주변에서 흔들리는 추정치다.

111. 여론조사: 42%라는 값 하나만 보고 "과반 못 넘겼다"고 단정하면 위험합니다. 흔들림(오차) 범위가 ±3%p라면 실제로는 45%일 수도 있으니까요.

122. 임상시험: 신약 그룹의 평균 회복률이 대조군보다 5%p 높았다 해도, 그 차이가 우연한 흔들림인지 진짜 효과인지 구분해야 합니다.

133. A/B 테스트: 버튼 색을 바꿨더니 클릭률이 올랐다? 표본이 작으면 다음 주엔 반대로 나올 수 있습니다.

14결론: 흔들림의 크기를 모르면 어떤 결론도 신뢰할 수 없습니다. 통계학의 창시자 피셔(Fisher, 1925)가 추론 이론을 세운 이유가 바로 이 흔들림을 정량화하기 위해서였습니다.

15How: 흔들림 자체를 분포로 그린다

16해결책은 "표본 평균이 얼마나, 어떤 모양으로 흔들리는가"를 하나의 분포로 나타내는 것입니다.

17- 표본을 무한히 반복해 뽑으며 매번 표본 평균 \bar{x} 를 기록한다

18- 이 평균들이 만드는 분포 = 표집분포(sampling distribution)

19- 표집분포의 표준편차 = 표준오차(standard error) → 흔들림의 크기

\bar{x} \sim \text{진짜 값 } \mu \text{ 주변의 분포}

21놀랍게도 이 표집분포는 모집단이 어떤 모양이든 표본이 커지면 정규분포에 가까워집니다. 이것이 중심극한정리(Central Limit Theorem)이며, 라플라스(Laplace, 1810)가 일반화한 결과입니다.

22이 레슨의 예고

23앞으로 우리는 모든 추론의 관문인 세 가지를 배웁니다.

241. 표집분포: 통계량이 흔들리는 모양

252. 중심극한정리: 왜 그 모양이 정규분포가 되는가

263. 표준오차: 흔들림을 숫자로 재는 법

27이 셋을 알아야 신뢰구간·가설검정·p값 같은 모든 통계 추론이 비로소 말이 됩니다.

0:00

2:25

🎓 강의 스크립트

오늘은 표집분포를 왜 알아야 하는지부터 살펴보겠습니다.

뉴스에서 지지율 42퍼센트라는 말 들어보셨을 거예요.

이건 전 국민이 아니라 천 명만 뽑아 계산한 값입니다.

그림 왼쪽을 보시면 모집단, 즉 전체 유권자가 있어요.

그 안에 진짜 지지율인 뮤, 모수가 숨어 있습니다.

천 명씩 뽑을 때마다 결과가 조금씩 달라집니다.

가운데를 보시면 표본 에이는 44퍼센트가 나왔어요.

표본 비는 42퍼센트, 표본 씨는 40퍼센트입니다.

같은 모집단인데도 값이 40에서 44퍼센트로 흔들리죠.

오른쪽을 보면 이걸 표본 변동성이라고 부릅니다.

이 용어를 꼭 기억해두세요.

비유하면 큰 국통 간을 한 숟갈로 보는 것과 같아요.

숟갈 뜰 때마다 짠맛이 조금씩 다르게 느껴지죠.

42퍼센트라는 숫자 하나만 믿으면 위험합니다.

중간 부분을 보시면 이 문제의 해결책이 나옵니다.

흔들림 자체를 하나의 분포로 그려보는 거예요.

표본을 무한히 반복해서 뽑고 평균을 매번 기록합니다.

이 평균들이 모여 만든 분포가 바로 표집분포입니다.

이 개념이 오늘 핵심입니다.

표집분포의 표준편차가 표준오차, 흔들림의 크기예요.

놀랍게도 모집단 모양과 상관없이 표본이 커지면 정규분포에 가까워집니다.

이걸 중심극한정리라 부르고, 라플라스가 1810년에 일반화했어요.

이제 아래쪽 세 가지 해석 오류 사례를 보시죠.

여론조사에서 42퍼센트만 보고 과반 못 넘겼다 단정하면 위험해요.

오차범위가 3퍼센트포인트면 실제로는 45퍼센트일 수도 있으니까요.

임상시험에서도 신약이 5퍼센트포인트 높았다고 바로 좋다 할 수 없어요.

그게 우연한 흔들림인지 진짜 효과인지 구분해야 합니다.

에이비 테스트도 표본이 작으면 다음 주엔 반대로 나올 수 있죠.

결론은 흔들림의 크기를 알아야 결론을 신뢰할 수 있다는 겁니다.

이번 레슨에서는 표집분포, 중심극한정리, 표준오차를 배웁니다.

이 세 관문을 통과해야 신뢰구간과 가설검정, 피값이 이해됩니다.

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

논문 읽는 법논문 리뷰 방법학부 졸업 논문

비전공/입문자

논문이 뭐야논문 읽기 입문

취준생

연구직 준비논문 실적

직장인

연구 보고서 작성

대학원생/연구자

논문 투고 전략피어 리뷰리버탈 작성법학회 선택

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비